Modelo basado en técnicas de machine learning para la clasificación de virus de ARN
Author
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2023Metadata
Show full item recordSummary
Los virus son las entidades biológicas más abundantes de la Tierra, pero detectarlos, aislarlos y clasificarlos ha sido todo un reto para la ciencia. Los virus de ARN patógenos causan numerosas muertes humanas, especialmente los implicados en la transmisión de enfermedades zoonóticas, lo que conduce a emergencias víricas y pandemias globales como la asociada al SARS-CoV-2. En este estudio, se explora y describen representaciones teóricas como la de árbol extendido, HIT y árbol de grano grueso para virus de ARN, basados en niveles de secuencia y estructura. Estas representaciones se utilizaron para determinar cuál de ellas demuestra un mejor potencial como entradas para un modelo de clasificación basado en técnicas de aprendizaje de máquina. Para el diseño del modelo, se investigaron algoritmos de perceptrón multicapa, árboles de sufijos, modelos ocultos de Markov (HMM) y redes neuronales convolucionales con memoria de corto y largo plazo (CNN-LSTM). La aplicación de estos algoritmos se llevó a cabo utilizando dos conjuntos de datos. Los datos de entrenamiento consistieron en secuencias de familias de virus ARN, incluyendo Orthomyxoviridae, Sedoreoviridae, Spinareoviridae, Retroviridae y Arteriviridae, obtenidas de la base de datos del Centro Nacional para la Información Biotecnológica (NCBI). Los datos de prueba están comprendidos de metaviromas recolectados durante la "Expedición Biológica en Ecosistemas Representativos de Colombia: Bosque húmedo tropical de la Sierra Nevada de Santa Marta", un proyecto financiado por Colciencias en colaboración con el grupo de investigación teórica y computacional RNomica de la Universidad Nacional de Colombia. Ambos conjuntos de datos se transformaron en las representaciones estructurales mencionadas utilizando el paquete ViennaRNA. La representación HIT mostró las mejores características para la extracción, y los modelos basados en HMMs y CNN-LSTM demostraron un rendimiento superior y potencial para clasificar metagenomas de virus ARN. (Texto tomado de la fuente)Abstract
Viruses are the most abundant biological entities on Earth, but detecting, isolating, and classifying them has posed a significant challenge for science. Pathogenic RNA viruses cause numerous human deaths, especially those involved in the transmission of zoonotic diseases, leading to viral emergencies and global pandemics like the one associated with SARS-CoV-2. In this study, theoretical frameworks such as extended tree, HIT, and coarse-grained tree are explored and described for RNA viruses, based on levels of sequence and structure. These representations were used to determine which of them demonstrates better potential as inputs for a classification model based on machine learning techniques. For model design, algorithms including multilayer perceptrons, suffix trees, hidden Markov models (HMMs), and convolutional neural networks with short and long-term memory (CNN-LSTM) were investigated. The application of these algorithms was carried out using two datasets. The training data consisted of sequences from families of RNA viruses, including Orthomyxoviridae, Sedoreoviridae, Spinareoviridae, Retroviridae, and Arteriviridae, obtained from the National Center for Biotechnology Information (NCBI) database. The test data comprised metaviromes collected during the "Biological Expedition in Representative Ecosystems of Colombia: Tropical Rainforest of the Sierra Nevada de Santa Marta," a project funded by Colciencias in collaboration with the theoretical and computational research group RNomica at the National University of Colombia. Both datasets were transformed into the mentioned structural representations using the ViennaRNA package. The HIT representation exhibited the most favorable features for extraction, and models based on HMMs and CNN-LSTM demonstrated superior performance and potential for classifying RNA virus metagenomes.Keywords
Physical description
ilustraciones, diagramas
Collections
