Modelo de aprendizaje automático para predecir el riesgo de evento adverso en analgésicos opioides aplicando datos de secuenciación de última generación (NGS) en una población de pacientes colombianos
Tipo de contenido
Trabajo de grado - Maestría
Idioma del documento
EspañolFecha de publicación
2022-11-02Resumen
OBJETIVO: Desarrollar un modelo basado en aprendizaje automático para la predicción del riesgo de evento adverso, a partir del genotipo en farmacogenes asociados con la farmacocinética y farmacodinámica de analgésicos opioides, a partir de datos de secuenciación de última generación (NGS), en una cohorte de pacientes colombianos. MÉTODOS: Se desarrolló un pipeline de anotación de variantes y anotación funcional en 39 genes asociados a la farmacocinética y farmacodinamia de 17 analgésicos opioides de uso común en Colombia a partir de 2080 VCF de exomas provenientes de la secuenciación de nueva generación (NGS). Se realizó un modelo de aprendizaje automático para la clasificación del riesgo efecto adverso utilizando bosques aleatorios, naive Bayes y perceptrón multicapa. RESULTADOS: El pipeline de anotación de variantes y anotación funcional en 39 genes asociados a la farmacocinética y farmacodinamia de 17 analgésicos opioides de uso común en Colombia detecta 9 variantes de riesgo. Los algoritmos de aprendizaje automático se entrenan y evalúan a partir de un dataset compuesto por 1900 variantes genéticas con score de riesgo desde 0.5 a 1.5, 50 variantes genéticas con un escore de 1.5 a 2 y 9 variantes genéticas con score de 2.5 a 4, las cuales están asociadas con efecto adverso, se analizan empleando bosques aleatorios, naive bayes y perceptrón multicapa, obteniendo resultados deficientes en la clasificación de la clase 2 y clase 3 debido al desbalance de datos en estas clase, con lo cual se realiza un enriquecimiento del dataset a partir de variantes de la base de datos PharmGKB, ampliando la data de la clase 3. Se evalúan varias combinaciones de clases por medio de bosques aleatorios y perceptrón multicapa, obteniendo los mejores resultados de clasificación, considerado únicamente dos clases, clase 1, suprimiendo valores de score de 0.5 y 1 y clase 2 compuesta por la unión de datos con score de 2.5 a 5. CONCLUSIONES: Fue posible desarrollar modelos computacionales de clasificación del riesgo de efecto adverso. Sin embargo, se concluye que el desequilibrio en las clases, genera problemas de clasificación, lo que resulta en una reducción significativa de la sensibilidad y la precisión de los modelos de aprendizaje automático. Para poder generar relaciones entre variantes genéticas y su asociación con la presentación de efecto adverso se hace indispensable considerar variables de diversas ómicas que le den un peso importante a la asociación, acompañado de la información clínica y de seguimiento de los pacientes. (Texto tomado de la fuente)Abstract
GOAL: To develop a model based on machine learning for prediction of the risk of adverse event, from the genotype in associated pharmacogenes with the pharmacokinetics and pharmacodynamics of opioid analgesics, based on data from nextgeneration sequencing (NGS), in a cohort of colombian patients. METHODS: A variant annotation and functional annotation pipeline was developed for 39 genes associated with the pharmacokinetics and pharmacodynamics of 17 commonly used opioid analgesics in Colombia from 2080 VCF exomes from nextgeneration sequencing (NGS). A machine learning model was performed for risk adverse effect classification using random forest, naive Bayes, and multilayer perceptron. RESULTS: The variant annotation and functional annotation pipeline in 39 genes associated with the pharmacokinetics and pharmacodynamics of 17 commonly used opioid analgesics in Colombia detected 9 risk variants. Machine learning algorithms are trained and evaluated from a dataset composed of 1,900 genetic variants with risk scores from 0.5 to 1.5, 50 genetic variants with scores from 1.5 to 2, and 9 genetic variants with scores from 2.5 to 4. , which are associated with an adverse effect, will be analyzed using occasional forests, naive bayes and multilayer perceptron, obtaining poor results in the classification of class 2 and class 3 due to the imbalance of data in these classes, with which an enrichment is performed. of the dataset from variants of the PharmGKB database, expanding the data of class 3. Various combinations of classes are evaluated by means of random forests and multilayer perceptron, obtaining the best classification results, considering only two classes, class 1, suppressing score values of 0.5 and 1 and class 2 composed of the union of data with scores from 2.5 to 5. CONCLUSIONS: It was possible to develop computational models for classifying the risk of adverse effects. However, it is concluded that the imbalance in the classes generates classification problems, which results in a significant reduction in the sensitivity and accuracy of the machine learning models. In order to generate relationships between genetic variants and their association with the presentation of adverse effects, it is essential to consider variables of various omics that give significant weight to the association, accompanied by clinical information and patient follow-up.Palabras clave
Descripción Física/Lógica/Digital
ilustraciones
Colecciones
Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial 4.0.Este documento ha sido depositado por parte de el(los) autor(es) bajo la siguiente constancia de depósito