En 18 día(s), 20 hora(s) y 7 minuto(s): El Repositorio Institucional UNAL informa a la comunidad universitaria que, con motivo del periodo de vacaciones colectivas, el servicio de publicación estará suspendido: Periodo de cierre: Del 20 de diciembre al 18 de enero de 2026. Sobre los depósitos: Durante este tiempo, los usuarios podrán continuar realizando el depósito respectivo de sus trabajos en la plataforma. Reanudación: Una vez reiniciadas las actividades administrativas, los documentos serán revisados y publicados en orden de llegada.

Análisis de la deserción estudiantil en los programas de pregrado de la Facultad de Ciencias Económicas de la Universidad Nacional de Colombia, Sede Bogotá, utilizando métodos de aprendizaje automático

Cargando...
Miniatura

Document language:

Español

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

La deserción estudiantil universitaria es uno de los principales problemas que enfrentan las instituciones de educación superior, generando impactos negativos tanto a nivel individual como institucional y para el país. En esta investigación se construyeron modelos predictivos para la deserción estudiantil en los programas de pregrado de la Facultad de Ciencias Económicas de la Universidad Nacional de Colombia, Sede Bogotá, durante el período 2022-2023, utilizando algunas técnicas de aprendizaje automático. Se implementaron cuatro algoritmos de aprendizaje automático: regresión logística, Random Forest, XGBoost y redes neuronales. La optimización de hiperparámetros se realizó utilizando Optuna y Grid Search CV, evaluando múltiples técnicas de balanceo de datos para abordar el desbalance inherente en los datos de deserción. La evaluación se basó en validación cruzada estratificada 5-fold y un conjunto de prueba independiente del 20%. El análisis descriptivo reveló que la tasa de deserción se incrementó de 0.44% en 2022-1S a 10.30% en 2023-2S, con diferencias notables por género (6.10% en hombres versus 3.76% en mujeres) y edad (17.44% en estudiantes de 30 a 34 años). La regresión logística identificó como factores de mayor impacto predictivo al Promedio Académico Ponderado Acumulado con β = −4.700 (p < 0.001), siendo el predictor más fuerte, junto con el número de matrículas (β = −0.426, p < 0.001), que reduce las probabilidades de abandono en 34.7%. Los estudiantes de la carrera de Administración de Empresas presentan menor riesgo (β = −0.957, p < 0.001), mientras que aquellos que deben nivelar Matemáticas muestran mayor probabilidad de desertar (β = 0.582, p = 0.006). Los efectos post confinamiento por la pandemia COVID-19 fueron significativos en 2020-2S aumentando la deserción (β = 0.646, p = 0.020), pero protectores en 2021-2S (β = −0.700, p = 0.004). Finalmente, Random Forest alcanzó el mejor rendimiento con una exactitud de 96.99% y un área bajo la curva ROC de 0.9914 en el conjunto de prueba. El modelo desarrollado proporciona una herramienta que puede ser útil para la identificación temprana de estudiantes en riesgo, con aplicaciones inmediatas en sistemas de alerta temprana institucionales. Los hallazgos contribuyen al entendimiento de los factores asociados con la deserción y proporcionan evidencia empírica para el diseño de estrategias diferenciadas de retención estudiantil (Texto tomado de la fuente).

Abstract

University student dropout is one of the main problems faced by higher education institutions, generating negative impacts at individual, institutional, and national levels. In this research, predictive models were built for student dropout in undergraduate programs at the Faculty of Economic Sciences of the National University of Colombia, Bogotá Campus, during the 2022-2023 period, using some machine learning techniques. Four machine learning algorithms were implemented: logistic regression, Random Forest, XGBoost, and neural networks. Hyperparameter optimization was performed using Optuna and Grid Search CV, evaluating multiple data balancing techniques to address the inherent imbalance in dropout data. The evaluation was based on 5-fold stratified cross-validation and an independent test set of 20%. Descriptive analysis revealed that the dropout rate increased from 0.44% in 2022-1S to 10.30% in 2023-2S, with notable differences by gender (6.10% in men versus 3.76% in women) and age (17.44% in students aged 30 to 34 years). Logistic regression identified the Cumulative Weighted Academic Average as the factor with the greatest predictive impact with β = −4.700 (p < 0.001), being the strongest predictor, along with the number of enrollments (β = −0.426, p < 0.001), which reduces dropout probabilities by 34.7%. Students in the Business Administration program present lower risk (β = −0.957, p < 0.001), while those who need to level Mathematics show higher probability of dropping out (β = 0.582, p = 0.006). Post-confinement effects due to the COVID-19 pandemic were significant in 2020-2S increasing dropout (β = 0.646, p = 0.020), but protective in 2021-2S (β = −0.700, p = 0.004). Finally, Random Forest achieved the best performance with an accuracy of 96.99% and an area under the ROC curve of 0.9914 in the test set. The developed model provides a tool that can be useful for early identification of at-risk students, with immediate applications in institutional early warning systems. The findings contribute to understanding the factors associated with dropout and provide empirical evidence for designing differentiated student retention strategies.

Descripción

ilustraciones a color, diagramas

Palabras clave

Citación