Evaluación del desempeño de modelos de aprendizaje supervisado con efectos aleatorios en datos correlacionados

Cargando...
Miniatura

Editor

Document language:

Español

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

La mayoría de los modelos de aprendizaje automático asumen independencia entre las observaciones, lo cual rara vez ocurre en conjuntos de datos reales. Un claro ejemplo lo constituyen los estudiantes agrupados por institución educativa, donde comparten un contexto común y, por tanto, muestran una correlación natural. Ajustar modelos sin considerar esta estructura puede inducir sesgos y reducir su capacidad predictiva. En respuesta a esta limitación, recientemente han surgido propuestas que incorporan explícitamente componentes de correlación en el modelado. Entre las propuestas más relevantes en la literatura se encuentra el modelo lineal mixto de redes neuronales (LMMNN), que incorpora efectos aleatorios inspirados en el marco estadístico de los modelos lineales mixtos. En este trabajo, se evaluó el desempeño del LMMNN, junto con otros enfoques, utilizando los datos de la prueba Saber 11 aplicada en 2023 a estudiantes colombianos de grado once al finalizar su formación escolar. Los resultados obtenidos destacan la importancia de incluir el componente de correlación en el ajuste de los modelos. En particular, se observó una disminución del 10% en los errores de estimación y un incremento significativo en la varianza explicada. Aunque este enfoque implica un mayor tiempo de cómputo debido a su complejidad y número de parámetros, los beneficios en términos de capacidad predictiva justifican el esfuerzo computacional adicional. Este trabajo logra una evaluación aplicada de modelos de aprendizaje automático recientes que integran efectos aleatorios, utilizando datos reales en el contexto educativo colombiano. Se cuantificó el impacto de modelar explícitamente la estructura de correlación en métricas clave como el error, la varianza explicada y el tiempo de ejecución, aportando evidencia empírica valiosa para el desarrollo y uso de estas metodologías en datos con componente de correlación. (Texto tomado de la fuente)

Abstract

Most machine learning models assume independence between observations, a condition that rarely holds in real-world datasets. A clear example is students grouped within educational institutions, where they share a common context and therefore exhibit natural correlation. Fitting models without accounting for this structure can introduce bias and reduce predictive performance. In response to this limitation, recent proposals have emerged that explicitly incorporate correlation components into the modeling process. Among the most relevant in the literature is the Linear Mixed Model Neural Network (LMMNN), which introduces random effects inspired by the statistical framework of linear mixed models. In this study, the performance of the LMMNN—alongside other approaches—was evaluated using data from the 2023 Saber 11 exam, taken by Colombian students at the end of their secondary education. The results highlight the importance of including correlation components in model fitting. Specifically, a 10% reduction in estimation errors and a significant increase in explained variance were observed. Although this approach requires longer computation times due to its complexity and the number of parameters involved, the predictive gains justify the additional computational cost. This work provides an applied evaluation of recent machine learning models that integrate random effects, using real-world data from the Colombian education context. The impact of explicitly modeling correlation structures was quantified through key metrics such as prediction error, explained variance, and runtime, offering valuable empirical evidence to support the development and adoption of these methods in correlated data scenarios.

Descripción

ilustraciones a color, diagramas

Palabras clave

Citación