Skip to contents

La ENIGH

La Encuesta Nacional de Ingresos y Gastos de los Hogares es una fuente de información muy completa sobre la composición de los hogares que integran la república mexicana. Al final, una encuesta sobre los hogares mexicanos es una encuesta sobre la población mexicana. La información de recopilada en la ENIGH ha sido útil a investigadores para evaluar, guiar y proponer política pública.

Por ejemplo, a través de la ENIGH sabemos que el Seguro Popular fue mejor atendiendo a la población rural que a la población urbana (Grogger et al. 2015), y sabemos qué características comparten entre sí los NiNis1 (Arceo-Gómez y Vázquez 2011). Quizá de manera más importante, la información de la ENIGH es el insumo con el que se mide la pobreza en México (CONEVAL 2019).

Los datos

Los datos recabados en la encuesta se procesan y se publican en la página del INEGI en formato .zip con cada periodo de levantamiento. A pesar de que el INEGI sigue metodologías de alto rigor para garantizar la calidad de los datos, llevarlos de su formato .zip por todo el procesamiento para crear un análisis profundo de la realidad mexicana lleva un arduo trabajo de limpieza, transformación, comunicación y pos-producción. Responder una simple pregunta con datos se puede convertir en un gran proyecto.

Un proceso de limpieza riguroso es un ejercicio necesario en cualquier procedimiento de análisis de datos. Wickham et al. (2019) presentan el siguiente diagrama de flujo en su Introducción al Tidyverse:

Flujo de un análisis de datos

Como veremos, con tidyenigh, el proceso de importación y limpieza está hecho automáticamente, para que el usuario pueda enfocar su energía en analizar y comunicar sus resultados.

R y el tidyverse

Abiertamente, soy un aficionado de R porque es un software abierto y poderoso que permite hacer análisis de datos que después puedan ser reproducidos. La reproducibilidad es una característica fundamental de cualquier análisis, puesto que transparenta la metodología y facilita análisis subsecuentes. En general, me gusta pensar que el conocimiento debe ser abierto, libre y gratuito, y R me parece una herramienta fenomenal para esto.

En particular, el tidyverse es un conjunto de herramientas que facilitan el procesamiento de datos en R, con un lenguaje cohesivo de verbos y adjetivos que usaremos a continuación.

tidyenigh

Cualquier pregunta que se pueda responder con datos de la ENIGH se puede responder con tidyenigh. Partiré de un ejemplo sencillo. Supongamos que nos interesa conocer cómo se distribuye la educación en México. En particular, quiero saber cuántas personas han logrado cada nivel de estudios. Es decir, cuántas personas hay con secundaria, preparatoria, licenciatura, etc. Sé que la ENIGH captura esta información, pero no estoy seguro cómo acceder a ella.

Instalación

Primero, instalaremos el paquete a través de GitHub, usando remotes::install_github() .

# install.packages("remotes")

remotes::install_github("estebandegetau/tidyenigh")

La gran debilidad de tidyenigh es su tiempo de instalación. ¡Puede llegar a tardar unos 15 minutos! Sin embargo, en perspectiva, 15 minutos es muy poco tiempo para importar y limpiar (y descifrar) una base de datos tan grande y compleja como la de la ENIGH.

Instalado el paquete, procedemos a cargarlo en nuestra sesión.

Los conjuntos de datos2 en tidyenigh vienen pre-cargados al llamar la librería. Porque el paquete fue construido con Lazy Loading, tenemos acceso inmediato a todos los conjuntos de datos sin que ocupen espacio de RAM antes de llamarlas individualmente. Esta es la gran fortaleza de tidyenigh, por la que pagamos con el largo tiempo de instalación.

Análisis exploratorio

Ahora tengo la ENIGH al alcance de mi RAM, sin ocuparla. Pero, yo no conozco en qué conjunto de datos está la información de máximo nivel de estudios completado. Puedo usar enigh_documentation_2022 para identificar qué conjunto de datos debo llamar. Usaré el paquete gt para conducir el análisis exploratorio.

library(gt)

enigh_documentation_2022 |>
  gt()
Conjunto de datos Descripción Columnas Filas
agro2022 Negocios agropecuarios de los hogares 66 17470
agroconsumo2022 Destino, cantidad y valor de los productos del negocio del hogar 11 57456
agrogasto2022 Gasto que realiza el negocio del Hogar 7 60180
agroproductos2022 Productos de los negocios agrícolas del hogar 25 69212
concentradohogar2022 Principales variables por hogar 126 90102
erogaciones2022 Erogaciones de capital por hogar 16 64779
gastoshogar2022 Gastos en los hogares 31 5075174
gastospersona2022 Gastos realizados en el hogar a nivel integrante 24 402557
gastotarjetas2022 Gastos realizados por el hogar y que fueron cubiertos mediante alguna tarjeta de crédito bancaria y/o comercial 6 13232
hogares2022 Características de los hogares que habitan los integrantes del hogar 141 90102
ingresos_jcf2022 Ingresos del programa Jóvenes Construyendo el Futuro 18 468
ingresos2022 Ingresos y percepciones financieras y de capital de los integrantes del hogar 21 397182
noagro2022 Negocios no agropecuarios de los hogares 115 23847
noagroimportes2022 Importe de los productos de los negocios no agrícolas del hogar 17 155839
poblacion2022 Características sociodemográficas de los integrantes del hogar 188 309684
trabajos2022 Condición de actividad de los integrantes del hogar de 12 o más años 60 165006
viviendas2022 Características de las viviendas que habitan los integrantes del hogar 64 88823

Encontramos la descripción de cada uno de los conjuntos de datos que conforman la base de datos del año 2022. Parece que poblacion2022 puede tener la información que busco, porque me parece razonable pensar que la educación es una característica sociodemográfica de las personas, sea lo que eso quiera significar. De nuevo, tidyenigh me permite traer cualquier conjunto de datos a memoria solo llamándolo. gt_preview() me da una mirada dentro de los datos.

poblacion2022 |> 
  gt_preview()
folioviv foliohog numren parentesco sexo edad madre_hog madre_id padre_hog padre_id disc_camin disc_ver disc_brazo disc_apren disc_oir disc_vest disc_habla disc_acti cau_camin cau_ver cau_brazo cau_apren cau_oir cau_vest cau_habla cau_acti hablaind lenguaind hablaesp comprenind etnia alfabetism asis_esc nivel grado tipoesc tiene_b otorg_b forma_b tiene_c otorg_c forma_c nivelaprob gradoaprob antec_esc residencia edo_conyug pareja_hog conyuge_id segsoc ss_aa ss_mm redsoc_1 redsoc_2 redsoc_3 redsoc_4 redsoc_5 redsoc_6 hor_1 min_1 usotiempo1 hor_2 min_2 usotiempo2 hor_3 min_3 usotiempo3 hor_4 min_4 usotiempo4 hor_5 min_5 usotiempo5 hor_6 min_6 usotiempo6 hor_7 min_7 usotiempo7 hor_8 min_8 usotiempo8 pop_insabi atemed inst_1 inst_2 inst_3 inst_4 inst_5 inst_6 inscr_1 inscr_2 inscr_3 inscr_4 inscr_5 inscr_6 inscr_7 inscr_8 prob_anio prob_mes prob_sal aten_sal servmed_1 servmed_2 servmed_3 servmed_4 servmed_5 servmed_6 servmed_7 servmed_8 servmed_9 servmed_10 servmed_11 servmed_12 hh_lug mm_lug hh_esp mm_esp pagoaten_1 pagoaten_2 pagoaten_3 pagoaten_4 pagoaten_5 pagoaten_6 pagoaten_7 noatenc_1 noatenc_2 noatenc_3 noatenc_4 noatenc_5 noatenc_6 noatenc_7 noatenc_8 noatenc_9 noatenc_10 noatenc_11 noatenc_12 noatenc_13 noatenc_14 noatenc_15 noatenc_16 norecib_1 norecib_2 norecib_3 norecib_4 norecib_5 norecib_6 norecib_7 norecib_8 norecib_9 norecib_10 norecib_11 norecib_12 razon_1 razon_2 razon_3 razon_4 razon_5 razon_6 razon_7 razon_8 razon_9 razon_10 razon_11 diabetes pres_alta peso segvol_1 segvol_2 segvol_3 segvol_4 segvol_5 segvol_6 segvol_7 hijos_viv hijos_mue hijos_sob trabajo_mp motivo_aus act_pnea1 act_pnea2 num_trabaj c_futuro ct_futuro entidad est_dis upm factor
1 0100005002 1 01 Jefe(a) Mujer 91 2 NA 2 NA Lo hace con poca dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad Por edad avanzada NA NA NA NA NA NA NA No NA NA No No No NA NA NA NA NA NA NA NA NA Primaria Cuarto año NA Aguascalientes Es viudo(a) NA NA No NA NA Imposible conseguirla Fácil conseguirla Imposible conseguirla Fácil conseguirla Difícil conseguirla NA NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo 3 0 NA NA NA No lo hizo 10 0 NA No NA TRUE NA NA NA NA NA NA NA NA NA NA TRUE NA 2022 noviembre NA NA NA NA TRUE NA NA NA NA NA NA NA 0 10 0 20 NA NA NA NA NA NA TRUE NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA TRUE NA 3 0 3 No trabajó el mes pasado NA Es una persona con alguna limitación física o mental que le impide trabajar por el resto de su vida NA NA NA NA Aguascalientes 003 0000001 206
2 0100005002 1 02 Hijo(a), hijo(a) consanguíneo, hijo(a) reconocido Mujer 48 1 01 2 NA No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad NA NA NA NA NA NA NA NA No NA NA No No No NA NA NA NA NA NA NA NA NA Preparatoria o bachillerato Tercer año NA Aguascalientes Está soltero(a) NA NA No NA NA Difícil conseguirla Difícil conseguirla Imposible conseguirla Fácil conseguirla Difícil conseguirla NA 48 0 NA NA NA No lo hizo NA NA No lo hizo 2 0 NA NA NA No lo hizo 14 0 NA NA NA No lo hizo 10 0 NA No NA TRUE NA NA NA NA TRUE NA NA NA NA NA NA NA 2019 noviembre NA NA NA NA TRUE NA NA NA NA NA NA NA 0 5 4 0 NA NA NA NA NA NA TRUE NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA No NA NA NA NA NA TRUE NA 1 0 1 Trabajó el mes pasado NA NA NA Sólo 1 NA NA Aguascalientes 003 0000001 206
3 0100005002 1 03 Nieto(a) Mujer 13 1 02 2 NA No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad NA NA NA NA NA NA NA NA No NA NA No No Secundaria Segundo año Privada o de paga Su escuela privada o de paga Sólo paga parte de la colegiatura NA NA NA Secundaria Primer año NA Aguascalientes Está soltero(a) NA NA No NA NA Difícil conseguirla Fácil conseguirla Difícil conseguirla Fácil conseguirla Difícil conseguirla NA NA NA No lo hizo 35 0 NA NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo 18 0 NA No NA TRUE NA NA NA NA NA NA TRUE NA NA NA NA NA 2020 julio NA NA NA NA NA NA NA TRUE NA NA NA NA 0 5 1 0 TRUE TRUE NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA No No NA NA NA NA NA TRUE NA 0 NA NA No trabajó el mes pasado NA Se dedicó a estudiar NA NA NA NA Aguascalientes 003 0000001 206
4 0100005003 1 01 Jefe(a) Hombre 68 2 NA 2 NA No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad NA NA NA NA NA NA NA NA No NA NA No No No NA NA NA NA NA NA NA NA NA Preparatoria o bachillerato Tercer año NA Ciudad de México Está casado(a) 1 02 26 0 Difícil conseguirla Fácil conseguirla Difícil conseguirla Fácil conseguirla Difícil conseguirla NA 40 0 NA NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo 12 0 NA No TRUE NA NA NA NA NA TRUE NA NA NA NA NA NA NA 2021 noviembre NA NA NA NA NA NA NA TRUE NA NA NA NA 0 10 0 5 TRUE TRUE NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA No NA TRUE NA NA NA NA NA NA NA NA Trabajó el mes pasado NA NA NA Sólo 1 NA NA Aguascalientes 003 0000001 206
5 0100005003 1 02 Esposo(a), compañero(a), cónyuge, pareja, marido, mujer, señor(a), consorte Mujer 64 2 NA 2 NA No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad NA NA NA NA NA NA NA NA No NA NA No No No NA NA NA NA NA NA NA NA NA Profesional Quinto año Preparatoria o bachillerato Ciudad de México Está casado(a) 1 01 No NA NA Fácil conseguirla Fácil conseguirla Fácil conseguirla Fácil conseguirla Fácil conseguirla NA 12 0 NA 6 0 NA NA NA No lo hizo NA NA No lo hizo NA NA No lo hizo 15 0 NA NA NA No lo hizo 20 0 NA No TRUE NA NA NA NA NA TRUE NA NA NA NA NA NA NA 2022 septiembre NA NA NA NA NA NA NA TRUE NA NA NA NA 0 30 0 20 TRUE TRUE TRUE NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA TRUE NA 2 0 2 Trabajó el mes pasado NA NA NA Sólo 1 NA NA Aguascalientes 003 0000001 206
6..309683
309684 3260797912 1 03 Hijo(a), hijo(a) consanguíneo, hijo(a) reconocido Mujer 0 1 02 1 01 No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad No tiene dificultad NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA No No NA NA NA NA NA NA NA NA NA NA NA NA NA NA 2022 julio NA NA NA NA NA NA NA TRUE NA NA NA NA 5 0 0 5 TRUE TRUE NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA Zacatecas 560 0010232 123

Vemos que los valores están bien formateados, pero no sé qué significa cada variable. Afortunadamente, los conjuntos de datos en tidyenigh ya incluyen la descripción de cada variable. Puedo generar un (largo) diccionario con gt::tab_info().

poblacion2022 |>
  gt() |>
  tab_info()
Information on ID and Label Values
ID Idx
Lvl
Label
Columns
folioviv 1 Identificador de la vivienda
foliohog 2 Identificador del hogar
numren 3 Identificador de la persona
parentesco 4 Parentesco
sexo 5 Sexo
edad 6 Edad
madre_hog 7 Identificador de la madre
madre_id 8 Número de renglón de la madre
padre_hog 9 Identificador del padre
padre_id 10 Número de renglón del padre
disc_camin 11 Discapacidad de caminar
disc_ver 12 Discapacidad para ver
disc_brazo 13 Discapacidad de usar brazos
disc_apren 14 Discapacidad para aprender
disc_oir 15 Discapacidad para escuchar
disc_vest 16 Discapacidad para vestirse
disc_habla 17 Discapacidad para hablar
disc_acti 18 Discapacidad para realizar actividades diarias
cau_camin 19 Causa de discapacidad para caminar
cau_ver 20 Causa de discapacidad para ver
cau_brazo 21 Causa de discapacidad para usar brazos
cau_apren 22 Causa de discapacidad para aprender
cau_oir 23 Causa de discapacidad para escuchar
cau_vest 24 Causa de discapacidad para vestirse
cau_habla 25 Causa de discapacidad para hablar
cau_acti 26 Causa de discapacidad para realizar actividades diarias
hablaind 27 Hablante indígena
lenguaind 28 Lengua indígena
hablaesp 29 Español
comprenind 30 Comprensión
etnia 31 Autoadscripción étnica
alfabetism 32 Alfabetismo
asis_esc 33 Asistencia a la escuela
nivel 34 Nivel escolar al que asiste
grado 35 Grado escolar al que asiste
tipoesc 36 Tipo de escuela
tiene_b 37 Beca escolar
otorg_b 38 Otorga beca escolar
forma_b 39 Forma de beca escolar
tiene_c 40 Crédito educativo
otorg_c 41 Otorga crédito educativo
forma_c 42 Forma de crédito educativo
nivelaprob 43 Nivel de instrucción aprobado
gradoaprob 44 Grado aprobado
antec_esc 45 Antecedente escolar
residencia 46 Residencia
edo_conyug 47 Situación conyugal
pareja_hog 48 Identificador del cónyuge
conyuge_id 49 Número de renglón del cónyuge
segsoc 50 Contribución a la seguridad social
ss_aa 51 Tiempo de contribución años
ss_mm 52 Tiempo de contribución meses
redsoc_1 53 Pedir ayuda para conseguir trabajo
redsoc_2 54 Pedir ayuda para que lo (la) cuiden
redsoc_3 55 Pedir la cantidad de dinero de un mes
redsoc_4 56 Pedir que lo (la) acompañen al doctor
redsoc_5 57 Pedir cooperación para mejoras en su colonia
redsoc_6 58 Pedir que le cuiden a los (as) niños (as)
hor_1 59 Horas de trabajo
min_1 60 Minutos de trabajo
usotiempo1 61 Trabajar
hor_2 62 Horas de estudio
min_2 63 Minutos de estudio
usotiempo2 64 Estudiar y hacer actividades
hor_3 65 Horas de trabajo comunitario
min_3 66 Minutos de trabajo comunitario
usotiempo3 67 Trabajo comunitario
hor_4 68 Horas de cuidado de otras personas
min_4 69 Minutos de cuidado de otras personas
usotiempo4 70 Cuidar, atender sin pago
hor_5 71 Horas de reparación
min_5 72 Minutos de reparación
usotiempo5 73 Reparar su vivienda
hor_6 74 Horas dedicadas a quehacer
min_6 75 Minutos dedicados a quehacer
usotiempo6 76 Realizar quehacer en su hogar
hor_7 77 Horas de acarreo
min_7 78 Minutos de acarreo
usotiempo7 79 Acarrear agua o leña
hor_8 80 Horas de actividades personales
min_8 81 Minutos de actividades personales
usotiempo8 82 Tiempo para realizar actividades
pop_insabi 83 Seguro popular / INSABI
atemed 84 Afiliación para atención médica
inst_1 85 Institución médica IMSS
inst_2 86 Institución médica ISSSTE
inst_3 87 Institución médica ISSSTE estatal
inst_4 88 Institución médica PEMEX
inst_5 89 Institución médica IMSS Prospera/IMSS Bienestar
inst_6 90 Otra institución médica
inscr_1 91 Prestación en el trabajo
inscr_2 92 Jubilación o invalidez
inscr_3 93 Familiar en el hogar
inscr_4 94 Muerte del asegurado
inscr_5 95 Ser estudiante
inscr_6 96 Contratación propia
inscr_7 97 Algún familiar de otro hogar
inscr_8 98 No sabe
prob_anio 99 Año con problemas de salud
prob_mes 100 Mes con problemas de salud
prob_sal 101 Problemas de salud
aten_sal 102 Recibió atención médica
servmed_1 103 Atención en centros de salud
servmed_2 104 Atención en hospital
servmed_3 105 Atención en el IMSS
servmed_4 106 Atención en IMSS Prospera/IMSS Bienestar
servmed_5 107 Atención en ISSSTE
servmed_6 108 Atención en ISSSTE estatal
servmed_7 109 Atención médica en otra institución pública
servmed_8 110 Atención en consultorios privados
servmed_9 111 Atención en consultorio de farmacias
servmed_10 112 Atención con curandero
servmed_11 113 Atención en otro lugar
servmed_12 114 Atención INSABI
hh_lug 115 Horas de traslado
mm_lug 116 Minutos de traslado
hh_esp 117 Hora de espera
mm_esp 118 Minutos de espera
pagoaten_1 119 Pago por consulta
pagoaten_2 120 Pago por medicamentos
pagoaten_3 121 Pago por estudios de laboratorio
pagoaten_4 122 Pago por hospitalización
pagoaten_5 123 Pago por instrumental médico
pagoaten_6 124 Otro pago
pagoaten_7 125 No pagó por atención médica
noatenc_1 126 No hay donde atenderse
noatenc_2 127 Sin atención por falta de dinero
noatenc_3 128 Unidad médica lejana
noatenc_4 129 No lo atienden
noatenc_5 130 No le tiene confianza
noatenc_6 131 Lo tratan mal
noatenc_7 132 No hablan la misma lengua
noatenc_8 133 Hay que esperar mucho
noatenc_9 134 No le dan medicamento
noatenc_10 135 Sin atención por unidad cerrada
noatenc_11 136 No hubo médicos
noatenc_12 137 Se lo impidieron
noatenc_13 138 Falta de tiempo
noatenc_14 139 No hubo quién lo llevara
noatenc_15 140 No era necesario
noatenc_16 141 Se automedicó
norecib_1 142 Sin atención centro de salud
norecib_2 143 Sin atención hospital o instituto
norecib_3 144 Sin atención IMSS
norecib_4 145 Sin atención IMSS Prospera/IMSS Bienestar
norecib_5 146 Sin atención ISSSTE
norecib_6 147 Sin atención ISSSTE estatal
norecib_7 148 Sin atención otro servicio médico público
norecib_8 149 Sin atención consultorios privados
norecib_9 150 Sin atención consultorio de farmacias
norecib_10 151 Sin atención curandero
norecib_11 152 Sin atención otro lugar
norecib_12 153 Sin atención INSABI
razon_1 154 No tenía dinero
razon_2 155 No entendía su lengua
razon_3 156 No quisieron
razon_4 157 Dijeron que no era necesario
razon_5 158 No tenían tiempo
razon_6 159 Razón por unidad médica cerrada
razon_7 160 Cita hasta mucho tiempo después
razon_8 161 No había médico
razon_9 162 No le dieron ninguna razón
razon_10 163 El personal dijo que no era necesario
razon_11 164 Otra razón de no atención
diabetes 165 Diabetes
pres_alta 166 Presión alta
peso 167 Control de peso y talla
segvol_1 168 Seguro voluntario SAR, AFORE
segvol_2 169 Seguro voluntario de gastos médicos
segvol_3 170 Seguro voluntario de vida
segvol_4 171 Seguro voluntario de invalidez
segvol_5 172 Otro tipo de seguro voluntario
segvol_6 173 Ningún tipo de seguro voluntario
segvol_7 174 No sabe si tiene seguros
hijos_viv 175 Hijos nacidos vivos
hijos_mue 176 Hijos fallecidos
hijos_sob 177 Hijos sobrevivientes
trabajo_mp 178 Trabajó el mes pasado
motivo_aus 179 Motivo de ausencia al trabajo
act_pnea1 180 Primera actividad del integrante PNEA
act_pnea2 181 Segunda actividad del integrante PNEA
num_trabaj 182 Número de trabajos
c_futuro 183 Jóvenes construyendo el futuro
ct_futuro 184 Jóvenes construyendo el futuro, código de trabajo
entidad 185 Entidad federativa
est_dis 186 Estrato de diseño muestral
upm 187 Unidad primaria de muestreo
factor 188 Factor de expansión
Rows
<< Index values 1 to 309684 >>

nivelaprob me dirá qué nivel de educación tiene la persona entrevistada.

Estadística descriptiva

Guiaré la estadística descriptiva usando el paquete gtsummary, que convenientemente, como su nombre lo indica, produce objetos gt. gtsummary fue una parte importante de la inspiración para crear tidyenigh. Si regresamos al diagrama de flujo, gtsummary facilita muchísimo la comunicación de resultados estadísticos, puesto que genera tablas presentation-ready (Sjoberg et al. 2023). Al usar tidyenigh de la mano con gtsummary simplifico los proceso de limpieza de datos y de tablas, liberándome para enfocarme en el análisis de los datos.

Bien, ahora puedo hacer una tabla fácilmente con tbl_summary(). Por ahora, me interesa porque incluye las etiquetas de las variables, de los valores y puedo modificar el idioma de los títulos con facilidad.

library(gtsummary)

theme_gtsummary_language(language = "es")
#> Setting theme `language: es`

poblacion2022 |>
  tbl_summary(include = c(nivelaprob))
Característica N = 309,6841
Nivel de instrucción aprobado
    Ninguno 17,445 (5.8%)
    Preescolar 13,245 (4.4%)
    Primaria 87,665 (29%)
    Secundaria 79,751 (27%)
    Preparatoria o bachillerato 51,059 (17%)
    Normal 1,463 (0.5%)
    Carrera técnica o comercial 7,180 (2.4%)
    Profesional 37,269 (12%)
    Maestría 2,572 (0.9%)
    Doctorado 563 (0.2%)
    Desconocido 11,472
1 n (%)

¡Muy bien! Pero todavía no es lo que quiero. Quiero saber la cantidad de personas que que acreditaron cada uno de los niveles educativos en México, no en la encuesta. Una gran ventaja de la ENIGH es que es fácilemente expandible. Hay muchos paquetes que permiten trabajar con encuestas expandibles. tidyenigh tiene una función que facilita el manejo de las encuestas: as_survey() y que está diseñada para trabajar con funciones en gtsummary.

poblacion2022 |>
  as_survey() |>
  tbl_svysummary(include = c(nivelaprob))
Característica N = 128,999,0381
Nivel de instrucción aprobado
    Ninguno 6,943,541 (5.6%)
    Preescolar 5,325,465 (4.3%)
    Primaria 34,697,960 (28%)
    Secundaria 31,635,156 (25%)
    Preparatoria o bachillerato 22,316,333 (18%)
    Normal 592,079 (0.5%)
    Carrera técnica o comercial 3,463,463 (2.8%)
    Profesional 17,892,977 (14%)
    Maestría 1,362,989 (1.1%)
    Doctorado 330,808 (0.3%)
    Desconocido 4,438,267
1 n (%)

¡Listo! Ahora tengo la cantidad de personas que acreditaron cada uno de los niveles educativos en México.

Inferencia estadísitica

Para ampliar el análisis, supongamos que tengo la hipótesis de que las mujeres tienen un nivel de educación diferente al de hombres. Puedo hacer una prueba de hipótesis agregando un argumento a la función tbl_summary(), y pidíendole el valor-p con add_p().

poblacion2022 |>
  as_survey() |>
  tbl_svysummary(
    include = c(nivelaprob),
    by = sexo
  ) |>
  add_p()
Característica Hombre, N = 61,805,6771 Mujer, N = 67,193,3611 p-valor2
Nivel de instrucción aprobado

    Ninguno 3,022,648 (5.1%) 3,920,893 (6.0%)
    Preescolar 2,708,088 (4.5%) 2,617,377 (4.0%)
    Primaria 16,641,005 (28%) 18,056,955 (28%)
    Secundaria 15,194,486 (26%) 16,440,670 (25%)
    Preparatoria o bachillerato 11,045,159 (19%) 11,271,174 (17%)
    Normal 189,102 (0.3%) 402,977 (0.6%)
    Carrera técnica o comercial 1,031,023 (1.7%) 2,432,440 (3.7%)
    Profesional 8,884,056 (15%) 9,008,921 (14%)
    Maestría 671,445 (1.1%) 691,544 (1.1%)
    Doctorado 153,859 (0.3%) 176,949 (0.3%)
    Desconocido 2,264,806 2,173,461
1 n (%)
2 Prueba de chi cuadrado con corrección de segundo orden de Rao y Scott

Puedo concluir que las mujeres en México no tienen la misma educación que los hombres.

Análisis de regresión

Para el ejercicio de regresión, me interesará contestar la pregunta de cuántas horas más dedican las mujeres al cuidado de otras personas.

reg <- lm(hor_4 ~ sexo,
          weights = factor,
          data = poblacion2022)

tbl_regression(reg, intercept = T)
Característica Beta 95% CI1 p-valor
(Intercept) 15 15, 16
Sexo


    Hombre
    Mujer 11 11, 12
1 CI = Intervalo de confianza

En promedio, las mujeres en México dedican 11 horas por semana al cuidado de otras personas más que los hombres, que dedican 15 horas por semana.

Referencias

Arceo-Gómez, Eva O., y Raymundo M. Campos Vázquez. 2011. «¿Quiénes Son Los NiNis En México?» Serie Documentos de Trabajo Del Centro de Estudios Económicos, Serie documentos de trabajo del Centro de Estudios Económicos, agosto. https://ideas.repec.org//p/emx/ceedoc/2011-08.html.
CONEVAL. 2019. «Metodología para la medición multidimensional de la pobreza en México». Ciudad de México. https://www.coneval.org.mx/InformesPublicaciones/InformesPublicaciones/Documents/Metodologia-medicion-multidimensional-3er-edicion.pdf.
Grogger, Jeffrey, Tamara Arnold, Ana Sofía León, y Alejandro Ome. 2015. «Heterogeneity in the effect of public health insurance on catastrophic out-of-pocket health expenditures: the case of Mexico». Health Policy and Planning 30 (5): 593-99. https://doi.org/10.1093/heapol/czu037.
Sjoberg, Daniel D., Joseph Larmarange, Michael Curry, Jessica Lavery, Karissa Whiting, Emily C. Zabor, Xing Bai, et al. 2023. gtsummary: Presentation-Ready Data Summary and Analytic Result Tables. https://cran.r-project.org/web/packages/gtsummary/index.html.
Wickham, Hadley, Mara Averick, Jennifer Bryan, Winston Chang, Lucy D’Agostino McGowan, Romain François, Garrett Grolemund, et al. 2019. «Welcome to the Tidyverse». Journal of Open Source Software 4 (43): 1686. https://doi.org/10.21105/joss.01686.