Usa R para navegar datos de la ENIGH con `tidyenigh`
Esteban Degetau
Source:vignettes/usa-r.Rmd
usa-r.Rmd
La ENIGH
La Encuesta Nacional de Ingresos y Gastos de los Hogares es una fuente de información muy completa sobre la composición de los hogares que integran la república mexicana. Al final, una encuesta sobre los hogares mexicanos es una encuesta sobre la población mexicana. La información de recopilada en la ENIGH ha sido útil a investigadores para evaluar, guiar y proponer política pública.
Por ejemplo, a través de la ENIGH sabemos que el Seguro Popular fue mejor atendiendo a la población rural que a la población urbana (Grogger et al. 2015), y sabemos qué características comparten entre sí los NiNis1 (Arceo-Gómez y Vázquez 2011). Quizá de manera más importante, la información de la ENIGH es el insumo con el que se mide la pobreza en México (CONEVAL 2019).
Los datos
Los datos recabados en la encuesta se procesan y se publican en la
página del INEGI en formato
.zip
con cada periodo de levantamiento. A pesar de que el
INEGI sigue metodologías de alto rigor para garantizar la calidad de los
datos, llevarlos de su formato .zip
por todo el
procesamiento para crear un análisis profundo de la realidad mexicana
lleva un arduo trabajo de limpieza, transformación, comunicación y
pos-producción. Responder una simple pregunta con datos se puede
convertir en un gran proyecto.
Un proceso de limpieza riguroso es un ejercicio necesario en cualquier procedimiento de análisis de datos. Wickham et al. (2019) presentan el siguiente diagrama de flujo en su Introducción al Tidyverse:
Como veremos, con tidyenigh
, el proceso de importación y
limpieza está hecho automáticamente, para que el usuario pueda enfocar
su energía en analizar y comunicar sus resultados.
R y el tidyverse
Abiertamente, soy un aficionado de R porque es un software abierto y poderoso que permite hacer análisis de datos que después puedan ser reproducidos. La reproducibilidad es una característica fundamental de cualquier análisis, puesto que transparenta la metodología y facilita análisis subsecuentes. En general, me gusta pensar que el conocimiento debe ser abierto, libre y gratuito, y R me parece una herramienta fenomenal para esto.
En particular, el tidyverse
es un conjunto de
herramientas que facilitan el procesamiento de datos en R, con un
lenguaje cohesivo de verbos y adjetivos que usaremos a continuación.
tidyenigh
Cualquier pregunta que se pueda responder con datos de la ENIGH se
puede responder con tidyenigh
. Partiré de un ejemplo
sencillo. Supongamos que nos interesa conocer cómo se distribuye la
educación en México. En particular, quiero saber cuántas personas han
logrado cada nivel de estudios. Es decir, cuántas personas hay con
secundaria, preparatoria, licenciatura, etc. Sé que la ENIGH captura
esta información, pero no estoy seguro cómo acceder a ella.
Instalación
Primero, instalaremos el paquete a través de GitHub, usando
remotes::install_github()
.
# install.packages("remotes")
remotes::install_github("estebandegetau/tidyenigh")
La gran debilidad de tidyenigh
es su
tiempo de instalación. ¡Puede llegar a tardar unos 15 minutos! Sin
embargo, en perspectiva, 15 minutos es muy poco tiempo para importar y
limpiar (y descifrar) una base de datos tan grande y compleja como la de
la ENIGH.
Instalado el paquete, procedemos a cargarlo en nuestra sesión.
Los conjuntos de datos2 en tidyenigh
vienen
pre-cargados al llamar la librería. Porque el paquete fue construido con
Lazy Loading, tenemos acceso inmediato a todos los conjuntos de
datos sin que ocupen espacio de RAM antes de llamarlas individualmente.
Esta es la gran fortaleza de tidyenigh
,
por la que pagamos con el largo tiempo de instalación.
Análisis exploratorio
Ahora tengo la ENIGH al alcance de mi RAM, sin ocuparla. Pero, yo no
conozco en qué conjunto de datos está la información de máximo nivel de
estudios completado. Puedo usar enigh_documentation_2022
para identificar qué conjunto de datos debo llamar. Usaré el paquete
gt
para conducir el análisis exploratorio.
Conjunto de datos | Descripción | Columnas | Filas |
---|---|---|---|
agro2022 | Negocios agropecuarios de los hogares | 66 | 17470 |
agroconsumo2022 | Destino, cantidad y valor de los productos del negocio del hogar | 11 | 57456 |
agrogasto2022 | Gasto que realiza el negocio del Hogar | 7 | 60180 |
agroproductos2022 | Productos de los negocios agrícolas del hogar | 25 | 69212 |
concentradohogar2022 | Principales variables por hogar | 126 | 90102 |
erogaciones2022 | Erogaciones de capital por hogar | 16 | 64779 |
gastoshogar2022 | Gastos en los hogares | 31 | 5075174 |
gastospersona2022 | Gastos realizados en el hogar a nivel integrante | 24 | 402557 |
gastotarjetas2022 | Gastos realizados por el hogar y que fueron cubiertos mediante alguna tarjeta de crédito bancaria y/o comercial | 6 | 13232 |
hogares2022 | Características de los hogares que habitan los integrantes del hogar | 141 | 90102 |
ingresos_jcf2022 | Ingresos del programa Jóvenes Construyendo el Futuro | 18 | 468 |
ingresos2022 | Ingresos y percepciones financieras y de capital de los integrantes del hogar | 21 | 397182 |
noagro2022 | Negocios no agropecuarios de los hogares | 115 | 23847 |
noagroimportes2022 | Importe de los productos de los negocios no agrícolas del hogar | 17 | 155839 |
poblacion2022 | Características sociodemográficas de los integrantes del hogar | 188 | 309684 |
trabajos2022 | Condición de actividad de los integrantes del hogar de 12 o más años | 60 | 165006 |
viviendas2022 | Características de las viviendas que habitan los integrantes del hogar | 64 | 88823 |
Encontramos la descripción de cada uno de los conjuntos de datos que
conforman la base de datos del año 2022. Parece que
poblacion2022
puede tener la información que busco, porque
me parece razonable pensar que la educación es una característica
sociodemográfica de las personas, sea lo que eso quiera
significar. De nuevo, tidyenigh
me permite traer cualquier
conjunto de datos a memoria solo llamándolo. gt_preview()
me da una mirada dentro de los datos.
poblacion2022 |>
gt_preview()
folioviv | foliohog | numren | parentesco | sexo | edad | madre_hog | madre_id | padre_hog | padre_id | disc_camin | disc_ver | disc_brazo | disc_apren | disc_oir | disc_vest | disc_habla | disc_acti | cau_camin | cau_ver | cau_brazo | cau_apren | cau_oir | cau_vest | cau_habla | cau_acti | hablaind | lenguaind | hablaesp | comprenind | etnia | alfabetism | asis_esc | nivel | grado | tipoesc | tiene_b | otorg_b | forma_b | tiene_c | otorg_c | forma_c | nivelaprob | gradoaprob | antec_esc | residencia | edo_conyug | pareja_hog | conyuge_id | segsoc | ss_aa | ss_mm | redsoc_1 | redsoc_2 | redsoc_3 | redsoc_4 | redsoc_5 | redsoc_6 | hor_1 | min_1 | usotiempo1 | hor_2 | min_2 | usotiempo2 | hor_3 | min_3 | usotiempo3 | hor_4 | min_4 | usotiempo4 | hor_5 | min_5 | usotiempo5 | hor_6 | min_6 | usotiempo6 | hor_7 | min_7 | usotiempo7 | hor_8 | min_8 | usotiempo8 | pop_insabi | atemed | inst_1 | inst_2 | inst_3 | inst_4 | inst_5 | inst_6 | inscr_1 | inscr_2 | inscr_3 | inscr_4 | inscr_5 | inscr_6 | inscr_7 | inscr_8 | prob_anio | prob_mes | prob_sal | aten_sal | servmed_1 | servmed_2 | servmed_3 | servmed_4 | servmed_5 | servmed_6 | servmed_7 | servmed_8 | servmed_9 | servmed_10 | servmed_11 | servmed_12 | hh_lug | mm_lug | hh_esp | mm_esp | pagoaten_1 | pagoaten_2 | pagoaten_3 | pagoaten_4 | pagoaten_5 | pagoaten_6 | pagoaten_7 | noatenc_1 | noatenc_2 | noatenc_3 | noatenc_4 | noatenc_5 | noatenc_6 | noatenc_7 | noatenc_8 | noatenc_9 | noatenc_10 | noatenc_11 | noatenc_12 | noatenc_13 | noatenc_14 | noatenc_15 | noatenc_16 | norecib_1 | norecib_2 | norecib_3 | norecib_4 | norecib_5 | norecib_6 | norecib_7 | norecib_8 | norecib_9 | norecib_10 | norecib_11 | norecib_12 | razon_1 | razon_2 | razon_3 | razon_4 | razon_5 | razon_6 | razon_7 | razon_8 | razon_9 | razon_10 | razon_11 | diabetes | pres_alta | peso | segvol_1 | segvol_2 | segvol_3 | segvol_4 | segvol_5 | segvol_6 | segvol_7 | hijos_viv | hijos_mue | hijos_sob | trabajo_mp | motivo_aus | act_pnea1 | act_pnea2 | num_trabaj | c_futuro | ct_futuro | entidad | est_dis | upm | factor | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0100005002 | 1 | 01 | Jefe(a) | Mujer | 91 | 2 | NA | 2 | NA | Lo hace con poca dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | Por edad avanzada | NA | NA | NA | NA | NA | NA | NA | No | NA | NA | No | No | Sí | No | NA | NA | NA | NA | NA | NA | NA | NA | NA | Primaria | Cuarto año | NA | Aguascalientes | Es viudo(a) | NA | NA | No | NA | NA | Imposible conseguirla | Fácil conseguirla | Imposible conseguirla | Fácil conseguirla | Difícil conseguirla | NA | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | 3 | 0 | NA | NA | NA | No lo hizo | 10 | 0 | NA | No | Sí | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | TRUE | NA | 2022 | noviembre | Sí | Sí | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | 0 | 10 | 0 | 20 | NA | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | Sí | Sí | Sí | NA | NA | NA | NA | NA | TRUE | NA | 3 | 0 | 3 | No trabajó el mes pasado | NA | Es una persona con alguna limitación física o mental que le impide trabajar por el resto de su vida | NA | NA | NA | NA | Aguascalientes | 003 | 0000001 | 206 |
2 | 0100005002 | 1 | 02 | Hijo(a), hijo(a) consanguíneo, hijo(a) reconocido | Mujer | 48 | 1 | 01 | 2 | NA | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | NA | NA | NA | NA | NA | NA | NA | NA | No | NA | NA | No | No | Sí | No | NA | NA | NA | NA | NA | NA | NA | NA | NA | Preparatoria o bachillerato | Tercer año | NA | Aguascalientes | Está soltero(a) | NA | NA | No | NA | NA | Difícil conseguirla | Difícil conseguirla | Imposible conseguirla | Fácil conseguirla | Difícil conseguirla | NA | 48 | 0 | NA | NA | NA | No lo hizo | NA | NA | No lo hizo | 2 | 0 | NA | NA | NA | No lo hizo | 14 | 0 | NA | NA | NA | No lo hizo | 10 | 0 | NA | No | Sí | NA | TRUE | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | 2019 | noviembre | Sí | Sí | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | 0 | 5 | 4 | 0 | NA | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | No | Sí | Sí | NA | NA | NA | NA | NA | TRUE | NA | 1 | 0 | 1 | Trabajó el mes pasado | NA | NA | NA | Sólo 1 | NA | NA | Aguascalientes | 003 | 0000001 | 206 |
3 | 0100005002 | 1 | 03 | Nieto(a) | Mujer | 13 | 1 | 02 | 2 | NA | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | NA | NA | NA | NA | NA | NA | NA | NA | No | NA | NA | No | No | Sí | Sí | Secundaria | Segundo año | Privada o de paga | Sí | Su escuela privada o de paga | Sólo paga parte de la colegiatura | NA | NA | NA | Secundaria | Primer año | NA | Aguascalientes | Está soltero(a) | NA | NA | No | NA | NA | Difícil conseguirla | Fácil conseguirla | Difícil conseguirla | Fácil conseguirla | Difícil conseguirla | NA | NA | NA | No lo hizo | 35 | 0 | NA | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | 18 | 0 | NA | No | Sí | NA | TRUE | NA | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | NA | 2020 | julio | Sí | Sí | NA | NA | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | 0 | 5 | 1 | 0 | TRUE | TRUE | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | No | No | Sí | NA | NA | NA | NA | NA | TRUE | NA | 0 | NA | NA | No trabajó el mes pasado | NA | Se dedicó a estudiar | NA | NA | NA | NA | Aguascalientes | 003 | 0000001 | 206 |
4 | 0100005003 | 1 | 01 | Jefe(a) | Hombre | 68 | 2 | NA | 2 | NA | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | NA | NA | NA | NA | NA | NA | NA | NA | No | NA | NA | No | No | Sí | No | NA | NA | NA | NA | NA | NA | NA | NA | NA | Preparatoria o bachillerato | Tercer año | NA | Ciudad de México | Está casado(a) | 1 | 02 | Sí | 26 | 0 | Difícil conseguirla | Fácil conseguirla | Difícil conseguirla | Fácil conseguirla | Difícil conseguirla | NA | 40 | 0 | NA | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | 12 | 0 | NA | No | Sí | TRUE | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | 2021 | noviembre | Sí | Sí | NA | NA | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | 0 | 10 | 0 | 5 | TRUE | TRUE | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | No | Sí | Sí | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | NA | Trabajó el mes pasado | NA | NA | NA | Sólo 1 | NA | NA | Aguascalientes | 003 | 0000001 | 206 |
5 | 0100005003 | 1 | 02 | Esposo(a), compañero(a), cónyuge, pareja, marido, mujer, señor(a), consorte | Mujer | 64 | 2 | NA | 2 | NA | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | NA | NA | NA | NA | NA | NA | NA | NA | No | NA | NA | No | No | Sí | No | NA | NA | NA | NA | NA | NA | NA | NA | NA | Profesional | Quinto año | Preparatoria o bachillerato | Ciudad de México | Está casado(a) | 1 | 01 | No | NA | NA | Fácil conseguirla | Fácil conseguirla | Fácil conseguirla | Fácil conseguirla | Fácil conseguirla | NA | 12 | 0 | NA | 6 | 0 | NA | NA | NA | No lo hizo | NA | NA | No lo hizo | NA | NA | No lo hizo | 15 | 0 | NA | NA | NA | No lo hizo | 20 | 0 | NA | No | Sí | TRUE | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | NA | NA | NA | 2022 | septiembre | Sí | Sí | NA | NA | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | 0 | 30 | 0 | 20 | TRUE | TRUE | TRUE | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | Sí | Sí | Sí | NA | NA | NA | NA | NA | TRUE | NA | 2 | 0 | 2 | Trabajó el mes pasado | NA | NA | NA | Sólo 1 | NA | NA | Aguascalientes | 003 | 0000001 | 206 |
6..309683 | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
309684 | 3260797912 | 1 | 03 | Hijo(a), hijo(a) consanguíneo, hijo(a) reconocido | Mujer | 0 | 1 | 02 | 1 | 01 | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | No tiene dificultad | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | No | No | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | 2022 | julio | Sí | Sí | NA | NA | NA | NA | NA | NA | NA | TRUE | NA | NA | NA | NA | 5 | 0 | 0 | 5 | TRUE | TRUE | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | Sí | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | NA | Zacatecas | 560 | 0010232 | 123 |
Vemos que los valores están bien formateados, pero no sé qué
significa cada variable. Afortunadamente, los conjuntos de datos en
tidyenigh
ya incluyen la descripción de cada variable.
Puedo generar un (largo) diccionario con
gt::tab_info()
.
Information on ID and Label Values | ||
ID |
Idx Lvl |
Label |
---|---|---|
Columns | ||
folioviv | 1 | Identificador de la vivienda |
foliohog | 2 | Identificador del hogar |
numren | 3 | Identificador de la persona |
parentesco | 4 | Parentesco |
sexo | 5 | Sexo |
edad | 6 | Edad |
madre_hog | 7 | Identificador de la madre |
madre_id | 8 | Número de renglón de la madre |
padre_hog | 9 | Identificador del padre |
padre_id | 10 | Número de renglón del padre |
disc_camin | 11 | Discapacidad de caminar |
disc_ver | 12 | Discapacidad para ver |
disc_brazo | 13 | Discapacidad de usar brazos |
disc_apren | 14 | Discapacidad para aprender |
disc_oir | 15 | Discapacidad para escuchar |
disc_vest | 16 | Discapacidad para vestirse |
disc_habla | 17 | Discapacidad para hablar |
disc_acti | 18 | Discapacidad para realizar actividades diarias |
cau_camin | 19 | Causa de discapacidad para caminar |
cau_ver | 20 | Causa de discapacidad para ver |
cau_brazo | 21 | Causa de discapacidad para usar brazos |
cau_apren | 22 | Causa de discapacidad para aprender |
cau_oir | 23 | Causa de discapacidad para escuchar |
cau_vest | 24 | Causa de discapacidad para vestirse |
cau_habla | 25 | Causa de discapacidad para hablar |
cau_acti | 26 | Causa de discapacidad para realizar actividades diarias |
hablaind | 27 | Hablante indígena |
lenguaind | 28 | Lengua indígena |
hablaesp | 29 | Español |
comprenind | 30 | Comprensión |
etnia | 31 | Autoadscripción étnica |
alfabetism | 32 | Alfabetismo |
asis_esc | 33 | Asistencia a la escuela |
nivel | 34 | Nivel escolar al que asiste |
grado | 35 | Grado escolar al que asiste |
tipoesc | 36 | Tipo de escuela |
tiene_b | 37 | Beca escolar |
otorg_b | 38 | Otorga beca escolar |
forma_b | 39 | Forma de beca escolar |
tiene_c | 40 | Crédito educativo |
otorg_c | 41 | Otorga crédito educativo |
forma_c | 42 | Forma de crédito educativo |
nivelaprob | 43 | Nivel de instrucción aprobado |
gradoaprob | 44 | Grado aprobado |
antec_esc | 45 | Antecedente escolar |
residencia | 46 | Residencia |
edo_conyug | 47 | Situación conyugal |
pareja_hog | 48 | Identificador del cónyuge |
conyuge_id | 49 | Número de renglón del cónyuge |
segsoc | 50 | Contribución a la seguridad social |
ss_aa | 51 | Tiempo de contribución años |
ss_mm | 52 | Tiempo de contribución meses |
redsoc_1 | 53 | Pedir ayuda para conseguir trabajo |
redsoc_2 | 54 | Pedir ayuda para que lo (la) cuiden |
redsoc_3 | 55 | Pedir la cantidad de dinero de un mes |
redsoc_4 | 56 | Pedir que lo (la) acompañen al doctor |
redsoc_5 | 57 | Pedir cooperación para mejoras en su colonia |
redsoc_6 | 58 | Pedir que le cuiden a los (as) niños (as) |
hor_1 | 59 | Horas de trabajo |
min_1 | 60 | Minutos de trabajo |
usotiempo1 | 61 | Trabajar |
hor_2 | 62 | Horas de estudio |
min_2 | 63 | Minutos de estudio |
usotiempo2 | 64 | Estudiar y hacer actividades |
hor_3 | 65 | Horas de trabajo comunitario |
min_3 | 66 | Minutos de trabajo comunitario |
usotiempo3 | 67 | Trabajo comunitario |
hor_4 | 68 | Horas de cuidado de otras personas |
min_4 | 69 | Minutos de cuidado de otras personas |
usotiempo4 | 70 | Cuidar, atender sin pago |
hor_5 | 71 | Horas de reparación |
min_5 | 72 | Minutos de reparación |
usotiempo5 | 73 | Reparar su vivienda |
hor_6 | 74 | Horas dedicadas a quehacer |
min_6 | 75 | Minutos dedicados a quehacer |
usotiempo6 | 76 | Realizar quehacer en su hogar |
hor_7 | 77 | Horas de acarreo |
min_7 | 78 | Minutos de acarreo |
usotiempo7 | 79 | Acarrear agua o leña |
hor_8 | 80 | Horas de actividades personales |
min_8 | 81 | Minutos de actividades personales |
usotiempo8 | 82 | Tiempo para realizar actividades |
pop_insabi | 83 | Seguro popular / INSABI |
atemed | 84 | Afiliación para atención médica |
inst_1 | 85 | Institución médica IMSS |
inst_2 | 86 | Institución médica ISSSTE |
inst_3 | 87 | Institución médica ISSSTE estatal |
inst_4 | 88 | Institución médica PEMEX |
inst_5 | 89 | Institución médica IMSS Prospera/IMSS Bienestar |
inst_6 | 90 | Otra institución médica |
inscr_1 | 91 | Prestación en el trabajo |
inscr_2 | 92 | Jubilación o invalidez |
inscr_3 | 93 | Familiar en el hogar |
inscr_4 | 94 | Muerte del asegurado |
inscr_5 | 95 | Ser estudiante |
inscr_6 | 96 | Contratación propia |
inscr_7 | 97 | Algún familiar de otro hogar |
inscr_8 | 98 | No sabe |
prob_anio | 99 | Año con problemas de salud |
prob_mes | 100 | Mes con problemas de salud |
prob_sal | 101 | Problemas de salud |
aten_sal | 102 | Recibió atención médica |
servmed_1 | 103 | Atención en centros de salud |
servmed_2 | 104 | Atención en hospital |
servmed_3 | 105 | Atención en el IMSS |
servmed_4 | 106 | Atención en IMSS Prospera/IMSS Bienestar |
servmed_5 | 107 | Atención en ISSSTE |
servmed_6 | 108 | Atención en ISSSTE estatal |
servmed_7 | 109 | Atención médica en otra institución pública |
servmed_8 | 110 | Atención en consultorios privados |
servmed_9 | 111 | Atención en consultorio de farmacias |
servmed_10 | 112 | Atención con curandero |
servmed_11 | 113 | Atención en otro lugar |
servmed_12 | 114 | Atención INSABI |
hh_lug | 115 | Horas de traslado |
mm_lug | 116 | Minutos de traslado |
hh_esp | 117 | Hora de espera |
mm_esp | 118 | Minutos de espera |
pagoaten_1 | 119 | Pago por consulta |
pagoaten_2 | 120 | Pago por medicamentos |
pagoaten_3 | 121 | Pago por estudios de laboratorio |
pagoaten_4 | 122 | Pago por hospitalización |
pagoaten_5 | 123 | Pago por instrumental médico |
pagoaten_6 | 124 | Otro pago |
pagoaten_7 | 125 | No pagó por atención médica |
noatenc_1 | 126 | No hay donde atenderse |
noatenc_2 | 127 | Sin atención por falta de dinero |
noatenc_3 | 128 | Unidad médica lejana |
noatenc_4 | 129 | No lo atienden |
noatenc_5 | 130 | No le tiene confianza |
noatenc_6 | 131 | Lo tratan mal |
noatenc_7 | 132 | No hablan la misma lengua |
noatenc_8 | 133 | Hay que esperar mucho |
noatenc_9 | 134 | No le dan medicamento |
noatenc_10 | 135 | Sin atención por unidad cerrada |
noatenc_11 | 136 | No hubo médicos |
noatenc_12 | 137 | Se lo impidieron |
noatenc_13 | 138 | Falta de tiempo |
noatenc_14 | 139 | No hubo quién lo llevara |
noatenc_15 | 140 | No era necesario |
noatenc_16 | 141 | Se automedicó |
norecib_1 | 142 | Sin atención centro de salud |
norecib_2 | 143 | Sin atención hospital o instituto |
norecib_3 | 144 | Sin atención IMSS |
norecib_4 | 145 | Sin atención IMSS Prospera/IMSS Bienestar |
norecib_5 | 146 | Sin atención ISSSTE |
norecib_6 | 147 | Sin atención ISSSTE estatal |
norecib_7 | 148 | Sin atención otro servicio médico público |
norecib_8 | 149 | Sin atención consultorios privados |
norecib_9 | 150 | Sin atención consultorio de farmacias |
norecib_10 | 151 | Sin atención curandero |
norecib_11 | 152 | Sin atención otro lugar |
norecib_12 | 153 | Sin atención INSABI |
razon_1 | 154 | No tenía dinero |
razon_2 | 155 | No entendía su lengua |
razon_3 | 156 | No quisieron |
razon_4 | 157 | Dijeron que no era necesario |
razon_5 | 158 | No tenían tiempo |
razon_6 | 159 | Razón por unidad médica cerrada |
razon_7 | 160 | Cita hasta mucho tiempo después |
razon_8 | 161 | No había médico |
razon_9 | 162 | No le dieron ninguna razón |
razon_10 | 163 | El personal dijo que no era necesario |
razon_11 | 164 | Otra razón de no atención |
diabetes | 165 | Diabetes |
pres_alta | 166 | Presión alta |
peso | 167 | Control de peso y talla |
segvol_1 | 168 | Seguro voluntario SAR, AFORE |
segvol_2 | 169 | Seguro voluntario de gastos médicos |
segvol_3 | 170 | Seguro voluntario de vida |
segvol_4 | 171 | Seguro voluntario de invalidez |
segvol_5 | 172 | Otro tipo de seguro voluntario |
segvol_6 | 173 | Ningún tipo de seguro voluntario |
segvol_7 | 174 | No sabe si tiene seguros |
hijos_viv | 175 | Hijos nacidos vivos |
hijos_mue | 176 | Hijos fallecidos |
hijos_sob | 177 | Hijos sobrevivientes |
trabajo_mp | 178 | Trabajó el mes pasado |
motivo_aus | 179 | Motivo de ausencia al trabajo |
act_pnea1 | 180 | Primera actividad del integrante PNEA |
act_pnea2 | 181 | Segunda actividad del integrante PNEA |
num_trabaj | 182 | Número de trabajos |
c_futuro | 183 | Jóvenes construyendo el futuro |
ct_futuro | 184 | Jóvenes construyendo el futuro, código de trabajo |
entidad | 185 | Entidad federativa |
est_dis | 186 | Estrato de diseño muestral |
upm | 187 | Unidad primaria de muestreo |
factor | 188 | Factor de expansión |
Rows | ||
<< Index values 1 to 309684 >> |
nivelaprob
me dirá qué nivel de educación tiene la
persona entrevistada.
Estadística descriptiva
Guiaré la estadística descriptiva usando el paquete
gtsummary
, que convenientemente, como su nombre lo indica,
produce objetos gt
. gtsummary
fue una parte
importante de la inspiración para crear tidyenigh
. Si
regresamos al diagrama de flujo, gtsummary
facilita
muchísimo la comunicación de resultados estadísticos, puesto que genera
tablas presentation-ready (Sjoberg
et al. 2023). Al usar tidyenigh
de la mano
con gtsummary
simplifico los proceso de limpieza de datos y
de tablas, liberándome para enfocarme en el análisis de los datos.
Bien, ahora puedo hacer una tabla fácilmente con
tbl_summary()
. Por ahora, me interesa porque incluye las
etiquetas de las variables, de los valores y puedo modificar el idioma
de los títulos con facilidad.
library(gtsummary)
theme_gtsummary_language(language = "es")
#> Setting theme `language: es`
poblacion2022 |>
tbl_summary(include = c(nivelaprob))
Característica | N = 309,6841 |
---|---|
Nivel de instrucción aprobado | |
Ninguno | 17,445 (5.8%) |
Preescolar | 13,245 (4.4%) |
Primaria | 87,665 (29%) |
Secundaria | 79,751 (27%) |
Preparatoria o bachillerato | 51,059 (17%) |
Normal | 1,463 (0.5%) |
Carrera técnica o comercial | 7,180 (2.4%) |
Profesional | 37,269 (12%) |
Maestría | 2,572 (0.9%) |
Doctorado | 563 (0.2%) |
Desconocido | 11,472 |
1 n (%) |
¡Muy bien! Pero todavía no es lo que quiero. Quiero saber la cantidad
de personas que que acreditaron cada uno de los niveles educativos
en México, no en la encuesta. Una
gran ventaja de la ENIGH es que es fácilemente expandible. Hay muchos
paquetes que permiten trabajar con encuestas expandibles.
tidyenigh
tiene una función que facilita el manejo de las
encuestas: as_survey()
y que está diseñada para trabajar
con funciones en gtsummary
.
poblacion2022 |>
as_survey() |>
tbl_svysummary(include = c(nivelaprob))
Característica | N = 128,999,0381 |
---|---|
Nivel de instrucción aprobado | |
Ninguno | 6,943,541 (5.6%) |
Preescolar | 5,325,465 (4.3%) |
Primaria | 34,697,960 (28%) |
Secundaria | 31,635,156 (25%) |
Preparatoria o bachillerato | 22,316,333 (18%) |
Normal | 592,079 (0.5%) |
Carrera técnica o comercial | 3,463,463 (2.8%) |
Profesional | 17,892,977 (14%) |
Maestría | 1,362,989 (1.1%) |
Doctorado | 330,808 (0.3%) |
Desconocido | 4,438,267 |
1 n (%) |
¡Listo! Ahora tengo la cantidad de personas que acreditaron cada uno de los niveles educativos en México.
Inferencia estadísitica
Para ampliar el análisis, supongamos que tengo la hipótesis de que
las mujeres tienen un nivel de educación diferente al de hombres. Puedo
hacer una prueba de hipótesis agregando un argumento a la función
tbl_summary()
, y pidíendole el valor-p con
add_p()
.
poblacion2022 |>
as_survey() |>
tbl_svysummary(
include = c(nivelaprob),
by = sexo
) |>
add_p()
Característica | Hombre, N = 61,805,6771 | Mujer, N = 67,193,3611 | p-valor2 |
---|---|---|---|
1 n (%) | |||
2 Prueba de chi cuadrado con corrección de segundo orden de Rao y Scott |
Puedo concluir que las mujeres en México no tienen la misma educación que los hombres.
Análisis de regresión
Para el ejercicio de regresión, me interesará contestar la pregunta de cuántas horas más dedican las mujeres al cuidado de otras personas.
reg <- lm(hor_4 ~ sexo,
weights = factor,
data = poblacion2022)
tbl_regression(reg, intercept = T)
Característica | Beta | 95% CI1 | p-valor |
---|---|---|---|
1 CI = Intervalo de confianza |
En promedio, las mujeres en México dedican 11 horas por semana al cuidado de otras personas más que los hombres, que dedican 15 horas por semana.