Comparación de metodologías utilizadas para abordar el problema de datos faltantes en estudios longitudinales

Cargando...
Miniatura

Autores

Viloria Rodriguez, Andres Felipe

Document language:

Español

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

En este estudio se compararon distintas metodologías utilizadas en la literatura para abordar el problema de datos faltantes en estudios longitudinales. Se consideraron tres condiciones propuestas por \cite{rubin1976} para la generación de datos faltantes: Perdidos Completamente al Azar (MCAR), Perdidos al Azar (MAR) y No Perdidos al Azar (NMAR). Se utilizaron dos bases de datos longitudinales provenientes del Portal de Datos Abiertos del Estado Colombiano, las cuales fueron ajustadas mediante modelos lineales mixtos. Posteriormente, se generaron datos faltantes bajo las tres condiciones antes mencionadas y se aplicaron diferentes métodos de imputación. Se compararon los modelos imputados utilizando el Root Mean Squared Error (RMSE) y se observó que el método Last Observation Carried Forward (LOCF) tuvo un mejor rendimiento en la mayoría de los casos. Además, se analizó la variabilidad en la precisión del modelo por departamento y se encontraron diferencias significativas entre los métodos de imputación. Se concluyó que la elección del método de imputación puede tener un impacto en la interpretación de los resultados del modelo y se hicieron recomendaciones para futuras investigaciones, como explorar otros métodos de imputación y considerar el impacto de la imputación en la precisión de las predicciones del modelo en estudios longitudinales. En resumen, este estudio destaca la importancia de abordar cuidadosamente el problema de datos faltantes y seleccionar el método de imputación más adecuado para obtener resultados precisos y fiables en estudios longitudinales.

Abstract

This study compared different methodologies used in the literature to address the problem of missing data in longitudinal studies. Three conditions proposed by Šcite{rubin1976} for missing data generation were considered: Missing Completely At Random (MCAR), Missing At Random (MAR), and Not Missing At Random (NMAR). Two longitudinal databases from the Colombian State's Open Data Portal were used, which were adjusted using linear mixed models. Subsequently, missing data were generated under the three aforementioned conditions and different imputation methods were applied. The imputed models were compared using the Root Mean Squared Error (RMSE) and it was observed that the Last Observation Carried Forward method (LOCF) performed better in most cases. In addition, the variability in model accuracy by department was analyzed and significant differences were found between the imputation methods. It was concluded that the choice of imputation method may have an impact on the interpretation of model results and recommendations for future research were made, such as exploring other imputation methods and considering the impact of imputation on the accuracy of model predictions in longitudinal studies. In summary, this study highlights the importance of carefully addressing the missing data problem and selecting the most appropriate imputation method to obtain accurate and reliable results in longitudinal studies.

Descripción

Ilustraciones, tablas

Palabras clave

Citación