Evaluación del riesgo de crédito mediante modelos estadísticos supervisados y de aprendizaje automático : aplicación en una entidad financiera en Bogotá
Cargando...
Autores
Tipo de contenido
Editor
Document language:
Español
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
Este trabajo evalúa y compara enfoques de modelamiento para la estimación del riesgo de crédito bajo NIIF 9 en una entidad financiera de Bogotá, integrando la Probabilidad de Incumplimiento (PD), la Pérdida Dada el Incumplimiento (LGD), la Exposición en Caso de Incumplimiento (EAD) y la clasificación por etapas de deterioro (staging: S1/S2/S3). El estudio adopta un diseño cuantitativo correlacional-predictivo aplicado a un panel obligación-mes para el periodo 2019–2023, construido con información interna contractual y de comportamiento. Para garantizar validez fuera de muestra, se implementa un sello temporal para prevenir fuga de información (data leakage) y se evalúa el desempeño mediante esquemas temporales out-of-time (OOT).
Metodológicamente, se contrastan modelos estadísticos supervisados (GLM-probit, regresión Beta, Tobit y GAMLSS) con modelos de aprendizaje automático (Random Forest, XGBoost, redes neuronales y SVM/SVR), incorporando enfoques alternativos cuando aportan valor en precisión, estabilidad o gobernanza. La comparación se fundamenta en métricas coherentes con la naturaleza de cada tarea: para regresión (EAD y LGD), se utilizan R² y métricas de error (MAE y RMSE); para clasificación (staging/SICR y evento de incumplimiento cuando aplica), se emplean métricas de discriminación y calibración (AUC, KS y Brier), complementadas con análisis de estabilidad temporal.
Los resultados muestran diferencias sistemáticas por componente. En EAD, Random Forest logra el mejor balance entre ajuste y estabilidad (R²≈0,925; MAE≈$1,66 millones), mientras SVR-RBF resulta competitivo en el rango central de saldos (MAE≈$1,28 millones) y las redes neuronales evidencian menor robustez en colas (R²≈0,49). En staging/SICR, XGBoost se consolida como modelo “champion” por su capacidad discriminante (AUC≈0,934; KS≈0,45), mientras Random Forest presenta mayor sensibilidad para identificar la etapa 2 (Recall-S2≈0,71), clave en decisiones de incremento significativo del riesgo de crédito. En PD, los modelos paramétricos (GLM-probit y regresión Beta) aportan parsimonia e interpretabilidad (R²≈0,905/0,903), en tanto los métodos de ensamble (Random Forest y XGBoost) elevan la precisión (R²≈0,995/0,983). Para LGD, GAMLSS-Beta destaca por capturar heterogeneidad al modelar simultáneamente media y dispersión (MAE≈0,026; R²≈0,491), observándose que las recuperaciones se concentran principalmente en los primeros 12–24 meses y que la tasa efectiva (EIR) afecta de forma material la pérdida en valor presente.
Desde una perspectiva aplicada, se recomienda priorizar métricas sensibles a decisiones (KS en la frontera S1↔S2 y Recall-S2) por encima del AUC global, y optimizar umbrales como un problema de pérdida crediticia esperada. En consecuencia, se propone una arquitectura híbrida y gobernable (champion-challenger) que integre capas de calibración (Platt o isotónica), restricciones de monotonicidad en predictores críticos y un esquema de MLOps orientado a backtesting, monitoreo de deriva (por ejemplo, PSI) y trazabilidad (audit trail), fortaleciendo la consistencia técnica y la defendibilidad del modelo en operación. (Texto tomado de la fuente)
Abstract
This thesis evaluates and compares modeling approaches for estimating credit risk under IFRS 9 in a financial institution in Bogotá, integrating Probability of Default (PD), Loss Given Default (LGD), Exposure at Default (EAD), and impairment staging (S1/S2/S3). The study adopts a quantitative, correlational–predictive design applied to a loan–month panel covering the 2019–2023 period, built from internal contractual and behavioral information. To ensure out-of-sample validity, a temporal split is implemented to prevent information leakage (data leakage), and performance is assessed using out-of-time (OOT) temporal schemes.
Methodologically, supervised statistical models (probit GLM, Beta regression, Tobit, and GAMLSS) are contrasted with machine learning models (Random Forest, XGBoost, neural networks, and SVM/SVR), incorporating alternative approaches when they add value in terms of accuracy, stability, or governance. The comparison relies on metrics aligned with the nature of each task: for regression (EAD and LGD), R² and error metrics (MAE and RMSE) are used; for classification (staging/SICR and default event when applicable), discrimination and calibration metrics (AUC, KS, and Brier score) are employed, complemented by temporal stability analyses.
Results show systematic differences by component. For EAD, Random Forest achieves the best balance between fit and stability (R²≈0.925; MAE≈COP 1.66 million), while SVRRBF is competitive in the central range of alances (MAE≈COP 1.28 million) and neural networks exhibit lower robustness in the tails (R²≈0.49). For staging/SICR, XGBoost emerges as the “champion” model due to its discriminative power (AUC≈0.934; KS≈0.45), while Random Forest shows higher sensitivity in identifying Stage 2 (Recall-S2≈0.71), which is critical for Significant Increase in Credit Risk (SICR) decisions. For PD, parametric models (probit GLM and Beta regression) provide parsimony and interpretability (R²≈0.905/0.903), whereas ensemble methods (Random Forest and XGBoost) improve accuracy (R²≈0.995/0.983). For LGD, GAMLSS-Beta stands out by capturing heterogeneity through simultaneous modeling of mean and dispersion (MAE≈0.026; R²≈0.491), with recoveries concentrated mainly within the first 12–24 months and the effective interest rate (EIR) exerting a material impact on loss in present value terms.
From an applied perspective, the thesis recommends prioritizing decision-sensitive metrics (KS at the S1↔S2 boundary and Recall-S2) over global AUC, and optimizing thresholds as an expected credit loss problem. Accordingly, it proposes a hybrid, governable (champion–challenger) architecture that integrates calibration layers (Platt scaling or isotonic regression), monotonicity constraints for critical predictors, and an MLOps framework oriented to backtesting, drift monitoring (e.g., PSI), and traceability (audit trail), strengthening the technical consistency and defensibility of the model in operation.
Descripción
ilustraciones a color, diagramas

