Método computacional para establecer un esquema de identificación de Mycobacterium tuberculosis a partir de secuencias genómicas
Author
Advisor
Type
Documento de trabajo
Document language
EspañolPublication Date
2019-12-18Metadata
Show full item recordSummary
El complejo Mycobacterium tuberculosis es un grupo de agentes patógenicos caracterizados principalmente por causar tuberculosis en distintos animales. En la actualidad métodos más eficientes y efectivos para identificar el patógeno a nivel de especie son requeridos tomando provecho de los datos obtenidos por técnicas de secuenciamiento de genoma completo. A lo largo de este trabajo se expone una manera distinta para abarcar el problema de identificación de genomas como uno de clasificación en el área de aprendizaje de máquina, agregando pasos adicionales en comparación con los pipelines de preprocesamiento actuales e incluyendo regiones intergénicas para de esta manera abarcar el total de la información genómica en cada muestra. Adicionalmente, un conjunto de genomas del género Mycobacterium fue seleccionado para entrenar el modelo y de esta manera identificar las diferencias más relevantes a través de una búsqueda de homología y construir una representación del genoma a partir de agrupamientos iterativos y con índices de variablidad fijos que permitieran visualizar grupos de secuencias candidatas para la diferenciación. Entre los resultados del presente trabajo se entrenó un modelo que establece un conjunto de secuencias representativas por su cáracter discriminatorio y que sugieren una firma a partir de la comparación entre dos grupos de especies, además de permitir asignar nuevas muestras a una de las dos categorías taxonómicas de interés basada en sus agrupaciones de secuencias de ADN más relevantes. También se construyó una nueva herramienta de evaluación para los métodos in silico actuales basados en técnicas de tipificación, obteniendo mejores métricas para la clasificación al utilizar la implementación resultante del presente trabajo.Summary
The Mycobacterium tuberculosis Complex is a pathogenic agent group, characterized by being the cause of tuberculosis disease in different animals. Nowadays, more efficient and effective methods to identify the pathogen at the species level are required, taking advantage of the data obtained by Whole-genome sequencing techniques. The target of this study is to expose a different way to face the problem of genome identification dealing with it as one of classification in the Machine learning area, but including additional steps in comparison with the current preprocessing pipelines, mainly including intergenic regions to cover the total of the genomic information for each sample. Additionally, a sample of genomes of the Mycobacterium genus was selected to train the model and in this way to identify the most relevant differences through homology search and building a genome representation based on iterative clustering with fixed variable indices that allows to visualize groups of candidate sequences for differentiation. Among the results of this work, a model that establishes a set of representative sequences by their discriminative power suggests a signature from the comparison between two groups of species, and allows to assign new samples to one of the taxonomic categories of interest and based on their DNA clusters more relevant. Additionally, a new evaluation tool to compare the current in silico typing methods was built, obtaining better metrics for the classification with the implementation resulting from this work.Keywords
Collections
This work is licensed under a Creative Commons Reconocimiento-NoComercial 4.0.This document has been deposited by the author (s) under the following certificate of deposit