Application of Machine Learning Models to credit scoring

Reconocimiento 4.0 InternacionalMontenegro Diaz, Álvaro MauricioCastilla Reyes, Astrid Natalia2026-02-102026-02-102025https://repositorio.unal.edu.co/handle/unal/89448ilustraciones a color, diagramasEl presente estudio diseña y valida un marco de trabajo de extremo a extremo para el desarrollo de modelos de calificación crediticia, superando la dicotomía tradicional entre el rendimiento de los modelos de aprendizaje automático y la necesidad de interpretabilidad regulatoria. La metodología se distingue por sus innovaciones, incluyendo un exhaustivo marco de ingeniería y selección de características que emplea múltiples métodos. Este marco se complementa con una validación económica para cuantificar el impacto financiero y un sistema de interpretabilidad híbrido (SHAP, LIME, WoE) para explicar las predicciones de modelos complejos. Se aplicó este proceso para desarrollar y comparar cuatro modelos: una Regresión Logística (RL) de base, dos variantes de RL para mitigar el desbalance de clases y un modelo XGBoost optimizado. Los resultados revelaron que el modelo XGBoost alcanzó un rendimiento superior, con un AUC de 0.7012 y una capacidad de detección de incumplimientos (recall) del 70.5%. El análisis económico cuantificó el valor de esta precisión en ahorros potenciales de $4.2 millones de dólares. Este trabajo no solo presenta un modelo predictivo superior, sino que ofrece un paradigma replicable para que las instituciones financieras adopten soluciones de aprendizaje automático de manera responsable, garantizando que sean robustas, económicamente viables y transparentes. (Texto tomado de la fuente)This study designs and validates an end-to-end framework for developing credit scoring models, overcoming the traditional dichotomy between machine learning performance and the need for regulatory interpretability. The methodology is distinguished by its innovations, including an exhaustive feature engineering and selection framework that employs multiple methods. This framework is complemented by a risk-based economic validation to quantify financial impact and a hybrid interpretability system (SHAP, LIME, WoE) to explain complex model predictions. This process was applied to develop and compare four models: a baseline Logistic Regression (LR), two LR variants to mitigate class imbalance, and an optimized XGBoost model. Results revealed that the XGBoost model achieved superior performance, with an AUC of 0.7012 and a default recall of 70.5%. The economic analysis quantified the value of this accuracy at $4.2 million USD in potential savings. This work not only presents a superior predictive model but offers a replicable paradigm for financial institutions to responsibly adopt machine learning solutions, ensuring they are robust, economically viable, and transparent.xi, 131 páginasapplication/pdfenghttp://creativecommons.org/licenses/by/4.0/330 - Economía::332 - Economía financiera000 - Ciencias de la computación, información y obras generales::004 - Procesamiento de datos Ciencia de los computadoresApplication of Machine Learning Models to credit scoringTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessDEPARTAMENTOS DE CREDITOCredit departmentsPOLITICA CREDITICIACredit policyAPRENDIZAJE AUTOMATICO (INTELIGENCIA ARTIFICIAL)Machine learningPRONOSTICO DE LA ECONOMIAEconomic forecastingPROYECCIONES ECONOMICASEconomic projectionsPRONOSTICO DE LOS NEGOCIOSBusiness forecastingCredit ScoringBinary ClassificationCredit Risk AnalysisModel InterpretabilityMachine LearningSHAPEconomic Value AnalysisAplicación de modelos de Machine Learning para la calificación crediticia