Atribución-NoComercial-SinDerivadas 4.0 InternacionalEsteban Duarte, NubiaGómez Gómez, Luz MarinaMejía García, Maria Camila2026-03-042026-03-042025https://repositorio.unal.edu.co/handle/unal/89716graficas, tablasEn la actualidad se genera continuamente un gran volumen de datos de diversas fuentes, lo que conlleva a desafíos cada vez mayores en cuanto a su almacenamiento, preprocesamiento y análisis. Uno de los desafíos es la imputación de datos faltantes para clasificación, llegando a conclusiones erróneas si no se aplican métodos apropiados. Existen varias técnicas de clasificación tales como regresión logística y arboles de decisión, a la vez hay varias metodologías para evaluar y validar su desempeño, destacándose las curvas ROC (Receiver Operating Characteristic), área bajo de la curva ROC (AUC, área under curve) y la Validación Cruzada. La curva ROC es ampliamente utilizada en diferentes disciplinas para comparar clasificadores, y el AUC se considera un indicador clave de su rendimiento. La Validación Cruzada, por su parte, es una metodología para validar los clasificadores de manera robusta. Para cada modelo discriminado por esta metodología es posible encontrar la curva ROC, y evaluar el desempeño del modelo a través del área bajo la curva. Dado lo anterior, este trabajo se enfoca en el estudio teórico y practico de las técnicas relacionadas con la curva ROC y el AUC, así como en el análisis de la varianza de los estimadores obtenidos mediante Validación Cruzada. Para ello, se lleva a cabo un estudio de simulación en el que se compara el desempeño de los modelos con datos completos y con datos faltantes. En este análisis se emplean diferentes técnicas de imputación, entre ellas la Imputación Múltiple mediante Emparejamiento por Media Predictiva, el Emparejamiento por Media Predictiva con Bootstrap Bayesiano y el algoritmo EM. Además, se utiliza la Regla de Rubín para estimar la varianza de los estimadores obtenidos. Finalmente, las metodologías abordadas y los resultados del estudio de simulación serán aplicados a un conjunto de datos reales del Hospital de las Clínicas, asociado a la Facultad de Medicina de la Universidad de São Paulo, Brasil (Texto tomado de la fuente).Currently, a large volume of data is continuously generated from various sources, which leads to increasingly complex challenges in terms of storage, preprocessing, and analysis. One of these challenges is the imputation of missing data for classification, as failing to apply appropriate methods can lead to erroneous conclusions. There are several classification techniques, such as logistic regression and decision trees, as well as various methodologies to evaluate and validate their performance. Among the most notable are the ROC curves (Receiver Operating Characteristic), the Area Under the ROC Curve (AUC), and Cross-Validation. The ROC curve is widely used across different disciplines to compare classifiers, and the AUC is considered a key indicator of their performance. Cross-Validation, in turn, is a robust methodology for validating classifiers. For each model evaluated using this methodology, it is possible to obtain an ROC curve and assess the model’s performance based on the área under the curve. Given the above, this work focuses on the theoretical and practical study of techniques related to the ROC curve and AUC, as well as on analyzing the variance of estimators obtained through Cross-Validation. To this end, a simulation study is conducted the behavior of models with complete data and with missing data. In this analyiss, different imputation techniques are applied, including Multiple Imputation through Predictive Mean Matching, Predictive Mean Matching with Bayesian Bootstrap, and the EM algorithm. In addition, Rubin’s Rule is used to estimate the variance of the obtained estimators. Finally, the methodologies discussed and the results from the simulation study will be applied to a real dataset from the Hospital das Cl´ınicas, associated with the School of Medicine of the University of S˜ao Paulo, Brazil.117 páginasapplication/pdfspahttp://creativecommons.org/licenses/by-nc-nd/4.0/510 - Matemáticas510 - Matemáticas::519 - Probabilidades y matemáticas aplicadasTeoría y aplicación de curvas ROC con estimadores de validación cruzada para datos con observaciones faltantesTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessTécnicas de imputaciónRegresión logísticaCurva ROCSimulaciónValidación cruzadaImputation techniquesLogistic regressionRoc curveCross-validationSimulationClassification modelsAnálisis estadísticoStatistical analysisAnálisis de datosData analysisInvestigación médicaMedical researchTheory and application of ROC curves with cross-validation estimators for data with missing observations