Mostrar el registro sencillo del documento

dc.rights.licenseAtribución-NoComercial-SinDerivadas 4.0 Internacional
dc.contributor.advisorNiño Vásquez, Luis Fernando
dc.contributor.authorIván Alexander, Duque Aldana
dc.date.accessioned2020-02-12T17:15:02Z
dc.date.available2020-02-12T17:15:02Z
dc.date.issued2019-12-18
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/75584
dc.description.abstractEl complejo Mycobacterium tuberculosis es un grupo de agentes patógenicos caracterizados principalmente por causar tuberculosis en distintos animales. En la actualidad métodos más eficientes y efectivos para identificar el patógeno a nivel de especie son requeridos tomando provecho de los datos obtenidos por técnicas de secuenciamiento de genoma completo. A lo largo de este trabajo se expone una manera distinta para abarcar el problema de identificación de genomas como uno de clasificación en el área de aprendizaje de máquina, agregando pasos adicionales en comparación con los pipelines de preprocesamiento actuales e incluyendo regiones intergénicas para de esta manera abarcar el total de la información genómica en cada muestra. Adicionalmente, un conjunto de genomas del género Mycobacterium fue seleccionado para entrenar el modelo y de esta manera identificar las diferencias más relevantes a través de una búsqueda de homología y construir una representación del genoma a partir de agrupamientos iterativos y con índices de variablidad fijos que permitieran visualizar grupos de secuencias candidatas para la diferenciación. Entre los resultados del presente trabajo se entrenó un modelo que establece un conjunto de secuencias representativas por su cáracter discriminatorio y que sugieren una firma a partir de la comparación entre dos grupos de especies, además de permitir asignar nuevas muestras a una de las dos categorías taxonómicas de interés basada en sus agrupaciones de secuencias de ADN más relevantes. También se construyó una nueva herramienta de evaluación para los métodos in silico actuales basados en técnicas de tipificación, obteniendo mejores métricas para la clasificación al utilizar la implementación resultante del presente trabajo.
dc.description.abstractThe Mycobacterium tuberculosis Complex is a pathogenic agent group, characterized by being the cause of tuberculosis disease in different animals. Nowadays, more efficient and effective methods to identify the pathogen at the species level are required, taking advantage of the data obtained by Whole-genome sequencing techniques. The target of this study is to expose a different way to face the problem of genome identification dealing with it as one of classification in the Machine learning area, but including additional steps in comparison with the current preprocessing pipelines, mainly including intergenic regions to cover the total of the genomic information for each sample. Additionally, a sample of genomes of the Mycobacterium genus was selected to train the model and in this way to identify the most relevant differences through homology search and building a genome representation based on iterative clustering with fixed variable indices that allows to visualize groups of candidate sequences for differentiation. Among the results of this work, a model that establishes a set of representative sequences by their discriminative power suggests a signature from the comparison between two groups of species, and allows to assign new samples to one of the taxonomic categories of interest and based on their DNA clusters more relevant. Additionally, a new evaluation tool to compare the current in silico typing methods was built, obtaining better metrics for the classification with the implementation resulting from this work.
dc.description.sponsorshipColciencias
dc.format.extent69
dc.format.mimetypeapplication/pdf
dc.language.isospa
dc.rightsDerechos reservados - Universidad Nacional de Colombia
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/
dc.subject.ddcTecnología (Ciencias aplicadas)
dc.subject.ddcCiencias naturales y matemáticas
dc.titleMétodo computacional para establecer un esquema de identificación de Mycobacterium tuberculosis a partir de secuencias genómicas
dc.title.alternativeComputational approach to stablish an identification scheme of Mycobacterium tuberculosis using genomic sequences
dc.typeDocumento de trabajo
dc.rights.spaAcceso abierto
dc.description.projectIdentificación de Bioperfiles de Mycobacterium tuberculosis a partir de la integración de información heterogénea mediante biología de sistemas
dc.description.additionalMaestría en Bioinformática. Línea de Investigación: Tecnologías computacionales en Bioinformática.
dc.type.driverinfo:eu-repo/semantics/other
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dc.contributor.researchgroupLABORATORIO DE INVESTIGACIÓN EN SISTEMAS INTELIGENTES - LISI
dc.description.degreelevelMaestría
dc.publisher.branchUniversidad Nacional de Colombia - Sede Bogotá
dc.relation.references[1]Achtman, Mark ;Wagner, Michael: Microbial diversity and the genetic nature ofmicrobial species. En:Nature reviews microbiology6 (2008), Nr. 6, p. 431[2]Allendorf, Fred W. ;Hohenlohe, Paul A. ;Luikart, Gordon: Genomics and thefuture of conservation genetics. En:Nature reviews genetics11 (2010), Nr. 10, p. 697[3]Altschul, Stephen F. ;Gish, Warren ;Miller, Webb ;Myers, Eugene W. ;Lipman,David J.: Basic local alignment search tool. En:Journal of molecular biology215 (1990),Nr. 3, p. 403–410[4]Bachhawat, Anand K.: Comparative genomics. En:Resonance11 (2006), Nr. 8, p.22–40[5]Beltrán León, Magda Y. [u. a.]: Genotipificación de Mycobacterium tuberculosis enaislados clínicos obtenidos de pacientes VIH positivos de los hospitales Simón Bolívar ySanta Clara de Bogotá, Universidad Nacional de Colombia-Sede Bogotá, Tesis de Grado[6]Benson, Dennis A. ;Karsch-Mizrachi, Ilene ;Lipman, David J. ;Ostell, James;Sayers, Eric W.: GenBank. En:Nucleic acids research37 (2008), Nr. suppl1, p. D26–D31[7]Biau, G ́erard ;Scornet, Erwan: A random forest guided tour. En:Test25 (2016),Nr. 2, p. 197–227[8]Borgdorff, MW ;Van Soolingen, D: The re-emergence of tuberculosis: what havewe learnt from molecular epidemiology? En:Clinical Microbiology and Infection19(2013), Nr. 10, p. 889–901. [9]Breiman, Leo: Random forests. En:Machine learning45 (2001), Nr. 1, p. 5–32[10]Byrd, Allyson L. ;Pérez-Rogers, Joseph F. ;Manimaran, Solaiappan ;Castro-Nallar, Eduardo ;Toma, Ian ;McCaffrey, Tim ;Siegel, Marc ;Benson, Gary;Crandall, Keith A. ;Johnson, William E.: Clinical PathoScope: rapid alignmentand filtration for accurate pathogen identification in clinical samples using unassembledsequencing data. En:BMC bioinformatics15 (2014), Nr. 1, p. 262[11]Coll, Francesc ;McNerney, Ruth ;Guerra-Assuncao, Jos ́e A. ;Glynn, Judith R.;Perdigao, Joao ;Viveiros, Miguel ;Portugal, Isabel ;Pain, Arnab ;Martin,Nigel ;Clark, Taane G.: A robust SNP barcode for typing Mycobacterium tuberculosiscomplex strains. En:Nature communications5 (2014), p. 4812[12]Doerr, Daniel ;Thévenin, Annelyse ;Stoye, Jens: Gene family assignment-freecomparative genomics. En:BMC bioinformaticsVol. 13 BioMed Central, 2012, p. S3[13]Dueck, Delbert:Affinity propagation: clustering data by passing messages. Citeseer,2009[14]Edgar, Robert C.: Search and clustering orders of magnitude faster than BLAST. En:Bioinformatics26 (2010), Nr. 19, p. 2460–2461[15]Edwards, David J. ;Holt, Kathryn E.: Beginner’s guide to comparative bacterialgenome analysis using next-generation sequence data. En:Microbial informatics andexperimentation3 (2013), Nr. 1, p. 2[16]Enright, Anton J. ;Van Dongen, Stijn ;Ouzounis, Christos A.: An efficientalgorithm for large-scale detection of protein families. En:Nucleic acids research30(2002), Nr. 7, p. 1575–1584[17]Fernández-Delgado, Manuel ;Cernadas, Eva ;Barro, Sen ́en ;Amorim, Dinani:Do we need hundreds of classifiers to solve real world classification problems? En:TheJournal of Machine Learning Research15 (2014), Nr. 1, p. 3133–3181
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.subject.proposalGenómica Comparativa; Secuenciamiento de Genoma completo; Agrupamiento de secuencias; Aprendizaje de Máquina; Bioinformática
dc.subject.proposalComparative Genomics; Whole Genome sequencing; Sequence clustering; Machine learning; Bioinformatics
dc.type.coarhttp://purl.org/coar/resource_type/c_1843
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.contentText
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2


Archivos en el documento

Thumbnail
Thumbnail

Este documento aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del documento

Atribución-NoComercial-SinDerivadas 4.0 InternacionalEsta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial 4.0.Este documento ha sido depositado por parte de el(los) autor(es) bajo la siguiente constancia de depósito