Teoría y aplicación de curvas ROC con estimadores de validación cruzada para datos con observaciones faltantes

Cargando...
Miniatura

Document language:

Español

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

En la actualidad se genera continuamente un gran volumen de datos de diversas fuentes, lo que conlleva a desafíos cada vez mayores en cuanto a su almacenamiento, preprocesamiento y análisis. Uno de los desafíos es la imputación de datos faltantes para clasificación, llegando a conclusiones erróneas si no se aplican métodos apropiados. Existen varias técnicas de clasificación tales como regresión logística y arboles de decisión, a la vez hay varias metodologías para evaluar y validar su desempeño, destacándose las curvas ROC (Receiver Operating Characteristic), área bajo de la curva ROC (AUC, área under curve) y la Validación Cruzada. La curva ROC es ampliamente utilizada en diferentes disciplinas para comparar clasificadores, y el AUC se considera un indicador clave de su rendimiento. La Validación Cruzada, por su parte, es una metodología para validar los clasificadores de manera robusta. Para cada modelo discriminado por esta metodología es posible encontrar la curva ROC, y evaluar el desempeño del modelo a través del área bajo la curva. Dado lo anterior, este trabajo se enfoca en el estudio teórico y practico de las técnicas relacionadas con la curva ROC y el AUC, así como en el análisis de la varianza de los estimadores obtenidos mediante Validación Cruzada. Para ello, se lleva a cabo un estudio de simulación en el que se compara el desempeño de los modelos con datos completos y con datos faltantes. En este análisis se emplean diferentes técnicas de imputación, entre ellas la Imputación Múltiple mediante Emparejamiento por Media Predictiva, el Emparejamiento por Media Predictiva con Bootstrap Bayesiano y el algoritmo EM. Además, se utiliza la Regla de Rubín para estimar la varianza de los estimadores obtenidos. Finalmente, las metodologías abordadas y los resultados del estudio de simulación serán aplicados a un conjunto de datos reales del Hospital de las Clínicas, asociado a la Facultad de Medicina de la Universidad de São Paulo, Brasil (Texto tomado de la fuente).

Abstract

Currently, a large volume of data is continuously generated from various sources, which leads to increasingly complex challenges in terms of storage, preprocessing, and analysis. One of these challenges is the imputation of missing data for classification, as failing to apply appropriate methods can lead to erroneous conclusions. There are several classification techniques, such as logistic regression and decision trees, as well as various methodologies to evaluate and validate their performance. Among the most notable are the ROC curves (Receiver Operating Characteristic), the Area Under the ROC Curve (AUC), and Cross-Validation. The ROC curve is widely used across different disciplines to compare classifiers, and the AUC is considered a key indicator of their performance. Cross-Validation, in turn, is a robust methodology for validating classifiers. For each model evaluated using this methodology, it is possible to obtain an ROC curve and assess the model’s performance based on the área under the curve. Given the above, this work focuses on the theoretical and practical study of techniques related to the ROC curve and AUC, as well as on analyzing the variance of estimators obtained through Cross-Validation. To this end, a simulation study is conducted the behavior of models with complete data and with missing data. In this analyiss, different imputation techniques are applied, including Multiple Imputation through Predictive Mean Matching, Predictive Mean Matching with Bayesian Bootstrap, and the EM algorithm. In addition, Rubin’s Rule is used to estimate the variance of the obtained estimators. Finally, the methodologies discussed and the results from the simulation study will be applied to a real dataset from the Hospital das Cl´ınicas, associated with the School of Medicine of the University of S˜ao Paulo, Brazil.

Descripción

graficas, tablas

Palabras clave

Citación