Asociación de variantes en regiones codificantes de genes con datos clı́nicos en pacientes colombianos usando minerı́a de datos
Autor
Tipo de contenido
Trabajo de grado - Maestría
Idioma del documento
EspañolFecha de publicación
2019-06-20Resumen
En esta tesis de maestrı́a se propone un modelo para el análisis de variantes en regiones codificantes de genes en pacientes colombianos. Los datos corresponden a 227 pacientes a los cuales se les secuenciaron 4813 genes y se obtuvieron sus historias clı́nicas. Las variantes filtradas por calidad en cada uno de los pacientes, y las historias clı́nicas fueron almacenadas en una base de datos relacional. Se diseño e implementó un modelo de analisis que integra tres componentes: Un pipeline para la identificación de variantes; un análisis textual de historias clı́nicas, usando PLN y agrupación y un modelo de asociación usando reglas de asociación sobre las variantes y los grupos de pacientes. El objetivo del pipeline para la identificación de variantes es minimizar el error de identificación de variantes generado por el proceso de secuenciación. El análisis textual tiene como propósito identificar grupos de pacientes con patologı́as similares, según el contenido de sus historias clı́nicas como resultado se obtuvieron 5 grupos de pacientes. Las reglas de asociación fueron aplicadas a cada uno de los grupos con el fin de identificar las relaciones de las variantes entre sı́ y con los grupos de pacientes. Se realizó un análisis especı́fico para los genes CFTR y RB1 que tienen un indice de variabilidad y previamente se han asociado a fibrosis quı́stica y retinoblastoma. A través del modelo se identificaron polimorfismos para el gen CFTR y variantes patogénicas para el RB1, mostrando que los grupos de pacientes pueden asociarse a las variantes encontradas complementando la interpretación de las variantes presentes en los datos.Resumen
Abstract: In this master’s thesis a model for the analysis of variants in gene coding regions in Colombian patients is proposed. The data corresponds to 4813 sequenced genes of 227 patients, their clinical histories were obtained. The variants filtered by quality in each of the patients, and the clinical histories were stored in a relational database. An analysis model was designed and implemented, it integrates three components: a pipeline for the identification of variants; a textual analysis of medical records, using PLN and clustering; and an association model that uses association rules for the variants and groups of patients. The aim of the pipeline for the identification of variants is to minimize the error of identification of the variants generated by the sequencing process. The purpose of the textual analysis is to identify groups of patients with similar pathologies. According to the content of their clinical records, 5 groups of patients were obtained as a result. The association rules were applied to each of the groups to identify the relationships of the variants among themselves and with the groups of patients. A specific analysis was performed for the CFTR and RB1 genes that have an index of variability and have previously been associated with cystic fibrosis and retinoblastoma. Through the model, the polymorphisms for the CFTR gene and the pathogenic variants for the RB1 were identified, the groups of patients can be associate with the complementary the interpretation of the variants present in the data.Palabras clave
Colecciones
Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial 4.0.Este documento ha sido depositado por parte de el(los) autor(es) bajo la siguiente constancia de depósito