Atribución-NoComercial 4.0 InternacionalEspinosa Bedoya, AlbeiroRojas López, Miguel DavidOspina Castañeda, Andrés Felipe2025-09-012025-09-012025https://repositorio.unal.edu.co/handle/unal/88518Ilustraciones, tablasEl presente estudio propone un modelo predictivo basado en técnicas de Machine Learning para anticipar sobrecostos en proyectos de construcción de edificación de uso no residencial, tomando como caso de estudio la base de datos “Capital Project Schedules and Budgets” de la School Construction Authority (SCA) de Nueva York. La investigación surge ante la necesidad de superar las limitaciones de los enfoques tradicionales en la gestión de riesgos en costos. A partir del enfoque CRISP-DM, se llevó a cabo un proceso estructurado que incluyó la comprensión del negocio, análisis exploratorio de datos, selección de variables relevantes, transformación de datos y entrenamiento de modelos predictivos. Se evaluaron cuatro algoritmos: Linear Regression, Random Forest Regressor, Multi Layer Perceptron Regressor, y Gradient Boosting Regressor, siendo este último el de mejor desempeño, alcanzando un coeficiente de determinación (R²) de 0.9824, con un error cuadrático medio (MSE) de 309.699.558 y un error absoluto medio (MAE) de 3.887. El análisis identificó que las variables más influyentes en los sobrecostos fueron de tipo financiero, destacándose el presupuesto total del proyecto, el gasto real estimado a la fecha y el presupuesto final estimado. En contraste, variables categóricas como el tipo de proyecto o la fase constructiva mostraron baja significancia estadística. Asimismo, la validación del modelo mediante K-Fold Cross Validation confirmó su capacidad de generalización, sin indicios de sobreajuste. (Tomado de la fuente)This study proposes a predictive model based on Machine Learning techniques to anticipate cost overruns in non-residential building construction projects, using the “Capital Project Schedules and Budgets” dataset from the New York School Construction Authority (SCA) as a case study. The research emerges from the need to overcome the limitations of traditional approaches to cost risk management. Following the CRISP-DM framework, a structured process was conducted, including business understanding, exploratory data analysis, selection of relevant variables, data transformation, and training of predictive models. Four algorithms were evaluated: Linear Regression, Random Forest Regressor, Multi-Layer Perceptron Regressor, and Gradient Boosting Regressor. The latter showed the best performance, achieving a coefficient of determination (R²) of 0.9824, a mean squared error (MSE) of 309,699,558, and a mean absolute error (MAE) of 3,887. The analysis identified financial variables as the most influential in cost overruns, with total project budget, estimated actual expenditure to date, and final estimated budget standing out. In contrast, categorical variables such as project type or construction phase showed low statistical significance. Moreover, the model's validation through K-Fold Cross Validation confirmed its generalization capability, with no signs of overfitting.117 páginasapplication/pdfspahttp://creativecommons.org/licenses/by-nc/4.0/000 - Ciencias de la computación, información y obras generales::005 - Programación, programas, datos de computación620 - Ingeniería y operaciones afines::624 - Ingeniería civil690 - Construcción de edificiosPredicción de sobrecostos en proyectos de construcción de edificación (uso no residencial) empleando una técnica de Machine Learning. Caso de estudio: Capital Project Schedules and BudgetsTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessEdificios - Diseño y construcciónEdificios - Costos de construcciónAprendizaje automático (Inteligencia artificial)SobrecostosConstrucciónPredicciónGestión de riesgosMachine LearningGradient BoostingCost OverrunsConstructionPredictionRisk ManagementPrediction of cost overruns in building construction projects (non-residential use) using a machine learning technique. Case study: Capital Project Schedules and Budgets