Predicción de la tasa de desempleo en Colombia a través de machine learning interpretable
Cargando...
Tipo de contenido
Document language:
Español
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
El estudio del desempleo y su predicción precisa revisten una importancia crítica para la formulación de políticas públicas efectivas. La tasa de desempleo no solo refleja el estado del mercado laboral, sino que también tiene implicaciones profundas en el crecimiento económico, la distribución del ingreso y la estabilidad social. En economías emergentes como la colombiana, caracterizadas por alta informalidad, disparidades regionales y sensibilidad a los ciclos económicos, comprender las dinámicas del desempleo resulta fundamental para promover un desarrollo sostenible y equitativo.
Esta tesis aborda tres problemáticas centrales que dificultan el análisis riguroso del desempleo en Colombia. En primer lugar, la ausencia de bases de datos estructuradas que integren atributos monetarios y socioeconómicos limita la capacidad de modelar el fenómeno con precisión. En segundo lugar, la naturaleza no lineal y no estacionaria de las series temporales asociadas al desempleo exige codificaciones más sofisticadas para capturar patrones complejos. En tercer lugar, se requiere identificar características relevantes que reflejen patrones locales y que, además de ser interpretables, posean capacidad predictiva.
En respuesta a estos desafíos, este trabajo propone un marco explicable de aprendizaje automático para la predicción de la tasa de desempleo en Colombia, estructurado en tres etapas: primero, la construcción de un conjunto de datos con información monetaria y socioeconómica, reconociendo las dificultades que impone la naturaleza no estacionaria y no lineal de los datos económicos; segundo, la identificación y análisis de patrones mediante UMAP y Local Biplot, que permiten reducir la dimensionalidad, agrupar observaciones y visualizar la contribución de las variables a través de transformaciones afines locales; y tercero, el modelado predictivo con Procesos Gaussianos, acompañado de un análisis de relevancia supervisado y no-supervisado basado en kernels para determinar la importancia relativa de cada variable. Este enfoque híbrido busca integrar precisión, capacidad de representación y explicabilidad, ofreciendo un aporte tanto a la investigación académica como al diseño de políticas públicas para el país.
Los resultados obtenidos en este trabajo evidencian mejoras significativas en la identificación de patrones, la visualización de relaciones entre variables y la precisión de las predicciones, en comparación con métodos tradicionales; introduciendo un marco híbrido explicable para pronosticar la tasa de desempleo en Colombia, combinando el UL-Biplot (UMAP Local Biplot) con una regresión de Proceso Gaussiano (GP). Por su parte, el componente no supervisado reveló estructuras latentes y clústeres asociados a shocks políticos y eventos económicos críticos, destacando la importancia de variables como la participación laboral, los salarios reales y la actividad económica. Paralelamente, el modelo GP superó a enfoques tradicionales (ARIMA, Lasso, ElasticNet, SVR) en precisión y estabilidad, ofreciendo interpretabilidad mediante análisis de relevancia basado en kernels. De este modo, este marco no solo mejora la capacidad predictiva frente a escenarios no lineales e inciertos, sino que también aporta valor para la política pública al anticipar riesgos laborales, mapear patrones económicos y facilitar intervenciones específicas basadas en evidencia. Como trabajo futuro, se propone ampliar los datos con indicadores regionales, explorar modelos probabilísticos de aprendizaje profundo e integrar variables económicas, sociopolíticas y cualitativas para fortalecer la generalización y la utilidad del modelo en la toma de decisiones (Texto tomado de la fuente).
Abstract
The study of unemployment and its accurate prediction are of critical importance for the formulation of effective public policies. The unemployment rate not only reflects the state of the labor market but also has profound implications for economic growth, income distribution, and social stability. In emerging economies such as Colombia, characterized by high informality, regional disparities, and sensitivity to economic cycles, understanding unemployment dynamics is essential to promote sustainable and equitable development.
This thesis addresses three central challenges that hinder a rigorous analysis of unemployment in Colombia. First, the absence of structured databases that integrate monetary and socioeconomic attributes limits the capacity to model the phenomenon accurately. Second, the nonlinear and nonstationary nature of the time series associated with unemployment requires more sophisticated encodings to capture complex patterns. Third, it is necessary to identify relevant features that reflect local patterns and that, in addition to being interpretable, possess predictive power.
In response to these challenges, this work proposes an explainable machine learning framework for predicting the unemployment rate in Colombia, structured in three stages: first, the construction of a dataset with monetary and socioeconomic information, acknowledging the difficulties imposed by the nonstationary and nonlinear nature of economic data; second, the identification and analysis of patterns through UMAP and Local Biplot, which enable dimensionality reduction, clustering, and visualization of variable contributions through local affine transformations; and third, predictive modeling with Gaussian Processes, complemented by supervised and unsupervised kernel-based relevance analysis to determine the relative importance of each variable. This hybrid approach seeks to integrate accuracy, representational capacity, and explainability, providing a contribution both to academic research and to the design of public policies in the country.
The results obtained in this study show significant improvements in pattern identification, visualization of variable relationships, and prediction accuracy compared to traditional methods, introducing a hybrid explainable framework to forecast Colombia’s unemployment rate by combining UL-Biplot (UMAP Local Biplot) with Gaussian Process regression (GP). The unsupervised component revealed latent structures and clusters associated with political shocks and critical economic events, highlighting the importance of variables such as labor force participation, real wages, and economic activity. In parallel, the GP model outperformed traditional approaches (ARIMA, Lasso, ElasticNet, SVR) in precision and stability, while offering interpretability through kernel-based relevance analysis. In this way, the framework not only enhances predictive capacity under nonlinear and uncertain scenarios but also provides value for public policy by anticipating labor market risks, mapping economic patterns, and supporting evidence-based targeted interventions. As future work, the study proposes extending the dataset with regional indicators, exploring probabilistic deep learning models, and integrating economic, sociopolitical, and qualitative variables to strengthen the generalization and usefulness of the model for decision-making.
Palabras clave propuestas
Descripción
graficas, tablas

