Skip to contents

tidyenigh is an R package that ships analysis-ready data from the Encuesta Nacional de Ingresos y Gastos de los Hogares ENIGH survey in a consistent, tidy and reproducible fashion.

The package includes data from the 2016, 2018, 2020 and 2022 surveys. By analisys-ready we mean that by lazy-loading the package, the user has instant access to every data set in the survey. Our analysis-ready standard includes:

  • Variable labels provided by the official documentation.
  • Factor levels and labels for categorical variables.
  • Proper data types for each variable.
  • Original documentation for each data set with R’s help system.

The package also includes the original metadata for each data set, as it is required by INEGI’s licence.

Usage

Lazy Loading

Data is Lazy Loaded, so you can use it as soon as you load the package. Using gt::gt() is a great way to work with labelled data, as it will display the variable labels included in the package.

library(tidyenigh)

pop_gt <- poblacion2022 |>
  dplyr::select(sexo, edad, nivelaprob, entidad) |>
  head() |>
  gt::gt() 

pop_gt
Sexo Edad Nivel de instrucción aprobado Entidad federativa
Mujer 91 Primaria Aguascalientes
Mujer 48 Preparatoria o bachillerato Aguascalientes
Mujer 13 Secundaria Aguascalientes
Hombre 68 Preparatoria o bachillerato Aguascalientes
Mujer 64 Profesional Aguascalientes
Hombre 56 Profesional Aguascalientes

Variable labels

Data includes variable and value labels


gastoshogar2016 |> 
  labelled::generate_dictionary(details = F) 
pos variable label
1 folioviv Identificador de la vivienda
2 foliohog Identificador del hogar
3 clave Clave de gasto
4 tipo_gasto Tipo de gasto
5 mes_dia Mes y día del gasto
6 forma_pag1 Forma de pago 1
7 forma_pag2 Forma de pago 2
8 forma_pag3 Forma de pago 3
9 lugar_comp Lugar de compra
10 orga_inst Organización o institución proveedora
11 frecuencia Frecuencia
12 fecha_adqu Fecha de adquisición
13 fecha_pago Fecha de pago
14 cantidad Cantidad de artículos o servicios
15 gasto Gasto efectuado
16 pago_mp Pago mes pasado
17 costo Costo del producto, artículo o servicio
18 inmujer Gasto mujeres
19 inst_1 Primera Institución para cuidados de la salud
20 inst_2 Segunda Institución para cuidados de la salud
21 num_meses Meses pagados
22 num_pagos Número de pagos
23 ultim_pago Fecha del último pago
24 gasto_tri Gasto trimestral
25 gasto_nm Gasto no monetario
26 gas_nm_tri Gasto no monetario trimestral
27 imujer_tri Gasto monetario trimestral en mujeres

Value labels and correct data types

Categorical variables were transformed into factors with the correct levels and labels.

poblacion2022 |>
  as_survey() |>
  gtsummary::tbl_svysummary(include = c(edad, diabetes, nivelaprob),
                            by = sexo) 
Characteristic Hombre, N = 61,805,6771 Mujer, N = 67,193,3611
Edad 30 (14, 49) 32 (16, 51)
Diabetes

    No aplica 0 (0%) 0 (0%)
    Sí 15,587,901 (31%) 21,042,607 (38%)
    No 34,192,493 (69%) 34,489,650 (62%)
    Unknown 12,025,283 11,661,104
Nivel de instrucción aprobado

    Ninguno 3,022,648 (5.1%) 3,920,893 (6.0%)
    Preescolar 2,708,088 (4.5%) 2,617,377 (4.0%)
    Primaria 16,641,005 (28%) 18,056,955 (28%)
    Secundaria 15,194,486 (26%) 16,440,670 (25%)
    Preparatoria o bachillerato 11,045,159 (19%) 11,271,174 (17%)
    Normal 189,102 (0.3%) 402,977 (0.6%)
    Carrera técnica o comercial 1,031,023 (1.7%) 2,432,440 (3.7%)
    Profesional 8,884,056 (15%) 9,008,921 (14%)
    Maestría 671,445 (1.1%) 691,544 (1.1%)
    Doctorado 153,859 (0.3%) 176,949 (0.3%)
    Unknown 2,264,806 2,173,461
1 Median (IQR); n (%)

Documentation

Official INEGI documentation is available within the package, using R’s help system.

?hogares2022

Check available data sets

enigh_documentation_2022 |>
  dplyr::select(data_set, description, cols, rows) |>
  gt::gt() 
Conjunto de datos Descripción Columnas Filas
agro2022 Negocios agropecuarios de los hogares 66 17470
agroconsumo2022 Destino, cantidad y valor de los productos del negocio del hogar 11 57456
agrogasto2022 Gasto que realiza el negocio del Hogar 7 60180
agroproductos2022 Productos de los negocios agrícolas del hogar 25 69212
concentradohogar2022 Principales variables por hogar 126 90102
erogaciones2022 Erogaciones de capital por hogar 16 64779
gastoshogar2022 Gastos en los hogares 31 5075174
gastospersona2022 Gastos realizados en el hogar a nivel integrante 24 402557
gastotarjetas2022 Gastos realizados por el hogar y que fueron cubiertos mediante alguna tarjeta de crédito bancaria y/o comercial 6 13232
hogares2022 Características de los hogares que habitan los integrantes del hogar 141 90102
ingresos_jcf2022 Ingresos del programa Jóvenes Construyendo el Futuro 18 468
ingresos2022 Ingresos y percepciones financieras y de capital de los integrantes del hogar 21 397182
noagro2022 Negocios no agropecuarios de los hogares 115 23847
noagroimportes2022 Importe de los productos de los negocios no agrícolas del hogar 17 155839
poblacion2022 Características sociodemográficas de los integrantes del hogar 188 309684
trabajos2022 Condición de actividad de los integrantes del hogar de 12 o más años 60 165006
viviendas2022 Características de las viviendas que habitan los integrantes del hogar 64 88823

Installation

You can install the latest version of tidyenigh from GitHub with:

# install.packages("devtools")

devtools::install_github("estebandegetau/tidyenigh")

Reproducibility

A consistent and reproducible workflow is key to the development of tidyenigh. The original data was cleaned from its .zip original format using R code, which is available to the savvy user in the data-raw folder.