Protocolo computacional para la asignación taxonómica de virus en metadatos genómicos

dc.contributor.advisorBermudez Santana, Clara Isabelspa
dc.contributor.advisorUsme Ciro, Jose Aldemarspa
dc.contributor.authorCobo Paz, Valentinaspa
dc.contributor.researchgroupRnomica Teórica y Computacionalspa
dc.date.accessioned2022-02-16T21:37:08Z
dc.date.available2022-02-16T21:37:08Z
dc.date.issued2020
dc.descriptionilustraciones, gráficas, tablasspa
dc.description.abstractLos virus están ampliamente distribuidos en todos los ecosistemas naturales y son el grupo de entidades biológicas más diverso conocido. Aunque su biodiversidad biológica estimada es de 31 ordenes de magnitud, nuestro conocimiento es menor al 1%. Además, debido a su capacidad de impacto a la salud humana, como lo ha sido la reciente pandemia de Sars- cov-2, es esencial la búsqueda de estrategias que sean rápidas y fiables al clasificar nuevos virus usando los datos disponibles como referencia de manera eficiente. Nuestro objetivo es encontrar métodos flexibles para filtrar y clasificar secuencias víricas utilizando diversos recursos como el aprendizaje de máquina principalmente con una resolución adecuada, una alta eficiencia y buena precisión, manteniendo la flexibilidad del modelo a secuencias víricas diversas. Seleccionamos las máquinas de soporte vectorial y los árboles de gradiente potenciado como los métodos que más nos favorecían en términos de recursos computacionales, rendimiento y predicción, los datos usados fueron descargados del NCBI Virus para entrenar los modelos. Las secuencias virales fueron filtradas cuidadosamente para el entrenamiento del modelo. Después del filtrado de los datos, 19 familias tuvieron el número de secuencias más representativas. Finalmente, de este conjunto de datos, 80 % fueron usados para entrenar las máquinas de aprendizaje y 20% fue utilizado para validar las clases taxonómicas. Las secuencias víricas se transformaron a una representación numérica a través de el método count vectorizer en k-mers de diferentes tamaños, incluyendo 3k-mers con el fin de preservar la información de los marcos abiertos de lectura (ORF’s) y evitar el sobreajuste. En este trabajo, nuestros métodos permiten encontrar asociaciones a nivel taxonómico de familia entre las secuencias virales y la taxonomía, por medio de recursos computacionales eficientes de predicción y a diferencia de métodos convencionales de comparación de secuencias. Sin embargo, es importante señalar que en el aprendizaje de máquina la calidad de la predicción recae directamente en la calidad de la base de datos de entrenamiento y la definición de la clase, por lo tanto descripciones débiles de las familias de virus son la mayor limitación para construir un modelo coherente de clasificación de secuencias. Finalmente, el modelo de árboles de gradiente potenciado tiene la mejor probabilidad de predicción, encontramos que 8 familias que fueron predichas para los datos experimentales concuerdan con los reportes científicos para Culex sp. y Aedes sp. (Texto tomado de la fuente).spa
dc.description.abstractViruses are widely distributed in all the natural ecosystems and belong to one of the most diverse groups of biological entities. Though their estimated biodiversity is 1031 orders of magnitude, our current knowledge is still less than 1 %. Besides, due to the capacity to im- pact human health dramatically, as it has been seen in outbreaks like the current pandemic, it is essential to search for strategies that fast and reliable classify new viruses by using the available data efficiently as reference. Then, our goal is to search for flexible methods to filter and classify viral sequences from diverse sources using machine learning (ML) principles with a proper resolution, high ef- ficiency, and accuracy, but with flexibility. We have chosen support vector machine and gradient boosting as ML method that are more favorable in terms of computational resour- ces, performance and prediction and the data used was downloaded from the viral NCBI database to train our approach. Viral sequences from the databases were carefully filtered to train the model. After the filtering of the data, 19 families had more representative number of sequences. Finally, from this set of data, 80% was used to train the machine, and 20% was used to validate the taxonomic assignment. Viral sequences was change to numeric representation throught count vectorizer method into k-mers of varied sizes include 3 k-mers to preserve open reading frames (ORF’s) information and avoid overfitting. In this approach, our method allowed to find associations in family taxonomic level between the viral sequences and the viral taxonomy by using inference computational resources effi- ciently and unlike other conventional methods for sequence comparison. Nevertheless, it is essential to point out that ML approaches rely directly on the quality of the input data- set, and the class definition so weak description of some families of viruses are the major limitation to construct a coherent model to classify their sequences. Finally, the gradient boosting model have the highest prediction probability, we found 8 families predicted in the experimental data that agree with the scientific reports in different studies for Culex sp and Aedes sp.eng
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Bioinformáticaspa
dc.description.notesDesarrollo de modelos de máquina de aprendizaje para la clasificación taxonómica de secuencias víricas a nivel de familia, implementando los algoritmos de máquinas de soporte vectorial y árboles de gradiente potenciado.spa
dc.description.notesIncluye anexosspa
dc.description.researchareaTecnologías computacionales en Bioinformáticaspa
dc.description.sponsorshipPrograma de intercambio Alemán DAAD, por los esfuerzos económicos que facilitan el funcionamiento del laboratorio de biología computacional. Facultad de ciencias de la Universidad Nacional de Colombia, por los esfuerzos económicos que facilitan el funcionamiento del laboratorio de biología computacional.spa
dc.format.extentix, 72 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.instnameUniversidad Nacional de Colombiaspa
dc.identifier.reponameRepositorio Institucional Universidad Nacional de Colombiaspa
dc.identifier.repourlhttps://repositorio.unal.edu.co/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/80999
dc.language.isospaspa
dc.publisherUniversidad Nacional de Colombiaspa
dc.publisher.branchUniversidad Nacional de Colombia - Sede Bogotáspa
dc.publisher.departmentDepartamento de Ingeniería de Sistemas e Industrialspa
dc.publisher.facultyFacultad de Ingenieríaspa
dc.publisher.placeBogotá, Colombiaspa
dc.publisher.programBogotá - Ingeniería - Maestría en Bioinformáticaspa
dc.relation.referencesNathan C Medd, Simon Fellous, Fergal M Waldron, Anne Xu ́ereb, Madoka Nakai, Jerry V Cross, and Darren J Obbard. The virome of Drosophila suzukii, an invasi- ve pest of soft fruit. Virus Evolution, 4(1), 03 2018. vey009.spa
dc.relation.referencesAlice. Lustig and Arnold j. Levine. one hundred years of virology. Journal of virology, 66(8):4629–4631, 08 1992spa
dc.relation.referencesGuodong Liang, Xiaoyan Gao, and Ernest A Gould. Factors responsible for the emer- gence of arboviruses; strategies, challenges and limitations for their control. Emerging Microbes & Infections, 4(1):1–5, 2015. PMID: 26038768.spa
dc.relation.referencesCameron P. Simmons, Jeremy J. Farrar, Nguyen van Vinh Chau, and Bridget Wills. Dengue. New England Journal of Medicine, 366(15):1423–1432, 2012. PMID: 22494122.spa
dc.relation.referencesAna Valeria Bussetti, Gustavo Palacios, Amelia Travassos da Rosa, Nazir Savji, Komal Jain, Hilda Guzman, Stephen Hutchison, Vsevolod L. Popov, Robert B. Tesh, and W. Ian Lipkin. Genomic and antigenic characterization of jos virus. Journal of General Virology, 93(2):293–298, 2012.spa
dc.relation.referencesAlexander T Ciota and Laura D Kramer. Insights into arbovirus evolution and adap- tation from experimental studies. Viruses, 2(12):2594–2617, 12 2010.spa
dc.relation.referencesW B Whitman, D C Coleman, and W J Wiebe. Prokaryotes: the unseen majority. Proceedings of the National Academy of Sciences of the United States of America, 95(12):6578–6583, 06 1998.spa
dc.relation.referencesSimon Roux, Francois Enault, Bonnie L. Hurwitz, and Matthew B. Sullivan. Virsorter: mining viral signal from microbial genomic data. PeerJ, 3:e985, May 2015.spa
dc.relation.referencesDavide Chicco. Ten quick tips for machine learning in computational biology. BioData mining, 10:35–35, 12 2017.spa
dc.relation.referencesMihai Pop. Genome assembly reborn: recent computational challenges. Briefings in bioinformatics, 10(4):354–366, 07 2009.spa
dc.relation.referencesBen Langmead and Steven L. Salzberg. Fast gapped-read alignment with bowtie 2. Nature methods, 9(4):357–359, Mar 2012.spa
dc.relation.referencesG. N. Artemov, A. N. Peery, X. Jiang, Z. Tu, V. N. Stegniy, M. V. Sharakhova, and I. V. Sharakhov. The Physical Genome Mapping of Anopheles albimanus Corrected Scaffold Misassemblies and Identified Interarm Rearrangements in Genus Anopheles. G3 (Bethesda), 7(1):155–164, 01 2017.spa
dc.relation.referencesYanqing Zhang and Jagath C Rajapakse. Machine learning in bioinformatics, volume 4. John Wiley & Sons, 2009.spa
dc.relation.referencesJ. R. Brister, D. Ako-Adjei, Y. Bao, and O. Blinkova. NCBI viral genomes resource. Nucleic Acids Res, 43(Database issue):D571–577, Jan 2015.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-NoComercial 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/spa
dc.subject.lembMachine learningeng
dc.subject.lembAprendizaje automático (Inteligencia artificial)spa
dc.subject.lembVirologyeng
dc.subject.lembVirologíaspa
dc.subject.lembVirus researcheng
dc.subject.lembVirus-Investigacionesspa
dc.subject.proposalMetavirómicaspa
dc.subject.proposalEnsamblajespa
dc.subject.proposalAprendizaje de máquinaspa
dc.subject.proposalÁrboles de gradiente potenciadospa
dc.subject.proposalMáquinas de soporte vectorialspa
dc.subject.proposalMetaviromicseng
dc.subject.proposalAssemblyeng
dc.subject.proposalMachine learningeng
dc.subject.proposalBoosting treeseng
dc.subject.proposalSupport vector machineeng
dc.titleProtocolo computacional para la asignación taxonómica de virus en metadatos genómicosspa
dc.title.translatedComputational methodology for taxonomic characterization of virus in genomic metadataeng
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
dcterms.audience.professionaldevelopmentEstudiantesspa
dcterms.audience.professionaldevelopmentInvestigadoresspa
dcterms.audience.professionaldevelopmentMaestrosspa
dcterms.audience.professionaldevelopmentPúblico generalspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa
oaire.awardtitleExpedición Virológica en Ecosistemas Representativos de Colombia: Selva Húmeda Tropical de la Sierra Nevada de santa Marta (No. 201010029276)spa
oaire.fundernameColcienciasspa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
1032467477.2020.pdf
Tamaño:
7.33 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Maestría en Bioinformática

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.98 KB
Formato:
Item-specific license agreed upon to submission
Descripción: