Comparación de la metodología BART con otros métodos no paramétricos en la construcción de intervalos de predicción
Author
Advisor
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2023Metadata
Show full item recordSummary
En los últimos años, el uso de algoritmos de aprendizaje automático ha experimentado un rápido crecimiento en una amplia variedad de aplicaciones prácticas, así como un gran interés en la investigación teórica. Estas aplicaciones se centran en gran medida en problemas de predicción, donde el valor desconocido de una variable se estima en función de variables conocidas vinculadas a través de alguna función. Estos modelos se han vuelto cruciales en diversos campos, desde la gestión de calidad y el control industrial de procesos hasta la gestión de riesgos y la detección de enfermedades en el ámbito de la salud. A pesar de sus propiedades ventajosas y su popularidad, estos modelos sufren de una desventaja significativa: solo producen predicciones puntuales sin proporcionar ninguna medida de incertidumbre a estás predicciones. En esta investigación, evaluamos la capacidad de los Árboles de Regresión Aditivos Bayesianos (BART) frente a técnicas diseñadas para modelos de Random Forest y Gradient Boosting, así como heurísticas (método conformacional) y modelos clásicos como la regresión lineal y la regresión cuantílica,para generar intervalos de predicción. Se realizó un estudio de simulación bajo diferentes escenarios, y los métodos fueron validados utilizando un conjunto final de datos de aseguramiento de calidad. Los estudios de simulación revelaron que BART puede proporcionar intervalos de predicción (con una cobertura del 95% y 90% ) que engloban correctamente el verdadero valor predicho en la mayoría de los casos. En el caso de estudio, BART fue el mejor modelo en la generación de intervalos de predicción y en la precisión de las predicciones. Estos resultados resaltan el potencial de BART como una alternativa significativa para tareas de regresión en áreas críticas, donde predicciones precisas, modelamiento flexible y medidas de confianza en las predicciones son necesarias. (texto tomado de la fuente)Abstract
In recent years, the use of machine learning algorithms has rapidly expanded across a wide variety of practical applications as well as garnered significant interest in theoretical research. These applications largely focus on prediction problems, where the unknown value of a variable is estimated based on known variables linked through some function. Machine learning algorithms have become crucial in diverse domains, ranging from quality management and process control performance in industrial settings to risk management and disease detection in healthcare. Despite their advantageous properties and popularity, these models suffer from a significant drawback: they only produce point predictions without any measure of prediction uncertainty. In this research, we assess the capability of Bayesian Additive Regression Trees (BART) compared to techniques designed for Random Forest, Gradient Boosting ensemble models, heuristics (conformal prediction) and classic models as linear regression and quantile regression when generating prediction intervals. A simulation study was conducted under various scenarios, and the methods were validated using a final dataset from quality assurance. The simulation studies revealed that BART demonstrates an impressive ability to generate prediction intervals (at the 95% and 90% coverage) that correctly encompass the true predicted value in most of the cases. In the case study, validation BART was the best model in the prediction interval generation and in prediction accuracy. These results highlight BART’s potential as a significant alternative for regression tasks in critical areas, where accurate predictions, flexible modeling, and confidence measures on the predictions are imperative.Keywords
Collections
