Application of Machine Learning Models to credit scoring

Cargando...
Miniatura

Document language:

Inglés

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

El presente estudio diseña y valida un marco de trabajo de extremo a extremo para el desarrollo de modelos de calificación crediticia, superando la dicotomía tradicional entre el rendimiento de los modelos de aprendizaje automático y la necesidad de interpretabilidad regulatoria. La metodología se distingue por sus innovaciones, incluyendo un exhaustivo marco de ingeniería y selección de características que emplea múltiples métodos. Este marco se complementa con una validación económica para cuantificar el impacto financiero y un sistema de interpretabilidad híbrido (SHAP, LIME, WoE) para explicar las predicciones de modelos complejos. Se aplicó este proceso para desarrollar y comparar cuatro modelos: una Regresión Logística (RL) de base, dos variantes de RL para mitigar el desbalance de clases y un modelo XGBoost optimizado. Los resultados revelaron que el modelo XGBoost alcanzó un rendimiento superior, con un AUC de 0.7012 y una capacidad de detección de incumplimientos (recall) del 70.5%. El análisis económico cuantificó el valor de esta precisión en ahorros potenciales de $4.2 millones de dólares. Este trabajo no solo presenta un modelo predictivo superior, sino que ofrece un paradigma replicable para que las instituciones financieras adopten soluciones de aprendizaje automático de manera responsable, garantizando que sean robustas, económicamente viables y transparentes. (Texto tomado de la fuente)

Abstract

This study designs and validates an end-to-end framework for developing credit scoring models, overcoming the traditional dichotomy between machine learning performance and the need for regulatory interpretability. The methodology is distinguished by its innovations, including an exhaustive feature engineering and selection framework that employs multiple methods. This framework is complemented by a risk-based economic validation to quantify financial impact and a hybrid interpretability system (SHAP, LIME, WoE) to explain complex model predictions. This process was applied to develop and compare four models: a baseline Logistic Regression (LR), two LR variants to mitigate class imbalance, and an optimized XGBoost model. Results revealed that the XGBoost model achieved superior performance, with an AUC of 0.7012 and a default recall of 70.5%. The economic analysis quantified the value of this accuracy at $4.2 million USD in potential savings. This work not only presents a superior predictive model but offers a replicable paradigm for financial institutions to responsibly adopt machine learning solutions, ensuring they are robust, economically viable, and transparent.

Descripción

ilustraciones a color, diagramas

Palabras clave

Citación