En 18 día(s), 20 hora(s) y 7 minuto(s): El Repositorio Institucional UNAL informa a la comunidad universitaria que, con motivo del periodo de vacaciones colectivas, el servicio de publicación estará suspendido: Periodo de cierre: Del 20 de diciembre al 18 de enero de 2026. Sobre los depósitos: Durante este tiempo, los usuarios podrán continuar realizando el depósito respectivo de sus trabajos en la plataforma. Reanudación: Una vez reiniciadas las actividades administrativas, los documentos serán revisados y publicados en orden de llegada.

Modelo de Machine Learning para determinar si existe un exceso de muertes por enfermedades cardiovasculares, de personas mayores de 60 años, relacionadas con la exposición de corto plazo al material particulado PM2.5

Cargando...
Miniatura

Document language:

Español

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

La baja calidad del aire en Colombia se está convirtiendo en un riesgo para la población mayor, debido al deterioro de su sistema inmunitario a causa del envejecimiento, esto ocasiona que desarrollen con mayor facilidad enfermedades cardiovasculares. Por esto se plantea crear un modelo de Machine Learning que permita determinar si existe un exceso en muertes por enfermedades cardiovasculares, de personas mayores de 60 años, relacionadas con la exposición de corto plazo al material particulado PM2.5. Para lograr este objetivo, se realizó una recolección de datos ambientales y epidemiológicos, se aplicaron técnicas de preprocesamiento de datos, se entrenaron distintos modelos con diferentes técnicas de Machine Learning y se evaluó el desempeño de estos modelos, comparando diferentes métricas de evaluación, con el objetivo de seleccionar el modelo con mejores resultados; todo esto haciendo uso de la metodología CRISP-DM. Con el modelo final seleccionado, se ejecutó un análisis de interpretabilidad donde se evidencio que existe una relación entre las variables de estudio “pm25”, “prevalencia en muertes por hipertensión” y “exceso de muertes”; esta relación no necesariamente induce a afirmar que exista un exceso en muertes por enfermedades cardiovasculares, relacionadas con la exposición de corto plazo al material particulado PM2.5, pero sí muestra que el modelo es capaz de generar buenas predicciones para responder a dicha incógnita. El modelo final cuenta con un “Recall” para la etiqueta 0 (No hay exceso de muertes) de 70.72% y para la etiqueta 1 (Si hay exceso de muertes) de 71.38% lo cual es equivalente a que el modelo es capaz de acertar 18 de cada 25 veces que se le pregunte. (Texto tomado de la fuente).

Abstract

Poor air quality in Colombia is becoming a risk for the elderly population due to the deterioration of their immune system caused by aging, which makes them more susceptible to developing cardiovascular diseases. For this reason, it is proposed to create a Machine Learning model to determine whether there is an excess of deaths from cardiovascular diseases in people over 60 years old related to short-term exposure to PM2.5 particulate matter. To achieve this goal, environmental and epidemiological data were collected, data preprocessing techniques were applied, various models were trained using different Machine Learning techniques, and their performance was evaluated by comparing different evaluation metrics, with the aim of selecting the model with the best results; all of this following the CRISP-DM methodology. With the final model selected, an interpretability analysis was performed, which showed a relationship between the study variables "PM25", "prevalence of deaths due to hypertension" and "excess deaths." This relationship does not necessarily lead to the conclusion that there is an excess of deaths from cardiovascular disease related to short-term exposure to PM2.5 particulate matter, but it does show that the model is capable of generating good predictions to answer this question. The final model has a “Recall” for label 0 (There are no excess deaths) of 70.72% and for label 1 (There are excess deaths) of 71.38%, which is equivalent to the model being able to get it right 18 out of every 25 times it is asked.

Descripción

ilustraciones, gráficas, tablas

Palabras clave

Citación