Modelo predictivo para la ocurrencia de leishmaniasis cutánea en Colombia, a partir de variables ambientales y socioeconómicas
Author
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2021-10-07Metadata
Show full item recordSummary
Se crearon varios modelos predictivos para la ocurrencia de leishmaniasis cutánea en Colombia a partir de un conjunto de variables socioeconómicas y ambientales. Con este conjunto de datos (dataset) se hizo un trabajo de ciencia de datos utilizando el proceso de KDD (Knowledge Discovery in Databases), pasando por cada una de sus etapas. Particularmente, se recolectó y organizó el conjunto de datos, se elaboró una descripción y revisión de este y se hizo un análisis estadístico descriptivo. Después, se realizó el preprocesamiento de los datos, se hicieron transformaciones de estos y se implementaron técnicas de reducción de dimensionalidad. Posteriormente, se procedió a utilizar diferentes técnicas de aprendizaje de máquina, tanto para clasificación como regresión. Para clasificación se implementaron varios métodos: naive bayes, redes neuronales (perceptrón multicapa), árboles de decisión y redes bayesianas, los cuales permitieron generar un modelo predictivo de clasificación, obteniendo los mejores resultados con el algoritmo XGBoost sobre un set de datos municipal con datos reportados mensualmente. De la misma forma, se realizó un modelo de regresión a través de redes neuronales y XGBoost, obteniendo los mejores resultados con el algoritmo XGBoost, pero esta vez con un conjunto de datos departamentales con periodicidad mensual. Finalmente, se realizó un análisis de series de tiempo con algoritmos de regresión con redes neuronales y XGBoost obteniendo las mejores métricas con XGBoost para un modelo departamental con resolución temporal semanal. Con cada uno de los modelos se identificaron las variables más importantes para la predicción; todos los modelos tuvieron en cuenta al menos las siguientes: el total de la población, precipitación, temperatura, índice de vegetación mejorado (EVI por sus siglas en inglés) y mes. Además, para poder utilizar el modelo de regresión para series de tiempo, se creó una página web que recibe como entrada las variables independientes junto con sus retrasos y genera la predicción de la cantidad de casos futuros a 1, 2 y 4 semanas. (Texto tomado de la fuente).Abstract
Several predictive models were created for the occurrence of cutaneous leishmaniasis in Colombia from a set of socioeconomic and environmental variables. With this dataset, a data science work was done using the KDD process (Knowledge Discovery in Databases), going through each of its stages. In particular, the data set was collected and organized, a description and review of it was prepared, and a descriptive statistical analysis was carried out. Afterwards, the data was preprocessed, transformations were made of these and dimensionality reduction techniques were implemented. Subsequently, different machine learning techniques were used, both for classification and regression. For classification, several methods were implemented: naive bayes, neural networks (multilayer perceptron), decision trees and Bayesian networks, which allowed to generate a predictive classification model, obtaining the best results with the XGBoost algorithm on a municipal data set with data reported monthly. In the same way, a regression model was carried out through neural networks and XGBoost, obtaining the best results with the XGBoost algorithm, but this time with a departmental data set on a monthly basis. Finally, a time series analysis was performed with regression algorithms with neural networks and XGBoost, obtaining the best metrics with XGBoost for a departmental model with weekly temporal resolution. With each of the models, the most important variables for prediction were identified; all the models took into account at least the following variables: the total population, precipitation, temperature, improved vegetation index (EVI) and month. In addition, to be able to use the regression model for time series, a web page was created that receives as input the independent variables together with their delays and generates the prediction of the number of future cases at 1, 2 and 4 weeks.Keywords
Physical description
ilustraciones, gráficas, tablas
Collections
![Reconocimiento 4.0 Internacional](/themes/Mirage2//images/creativecommons/cc-generic.png)