Atribución-NoComercial-CompartirIgual 4.0 InternacionalBranch Bedoya, John WilliamHernández Ortíz, Juan PabloLópez Carvajal, María Stella2025-09-192025-09-192024-04-15https://repositorio.unal.edu.co/handle/unal/88923Ilustraciones, gráficosLa vigilancia genómica del SARS-CoV-2 ha permitido la identificación de variantes de interés y de preocupación a nivel mundial, relevantes para el manejo de salud pública, el mejoramiento de pruebas de diagnóstico y el diseño de las vacunas. Aproximadamente 16 millones de secuencias del virus han sido reportadas a la fecha, un número de instancias varios ordenes de magnitud superior a las decenas de miles de secuencias que han podido ser analizadas con árboles filogenéticos usando estrategias de paralelización computacional. El aprendizaje automático constituye una alternativa para el procesamiento de grandes conjuntos de datos y la identificación de patrones en el genoma viral, características que pueden ser aprovechadas para la identificación de variantes y el reconocimiento de linajes emergentes. En el presente trabajo se construyó una herramienta para la identificación de variantes del SARS-CoV-2 a partir de la obtención y procesamiento automático de secuencias del virus, transformaciones numéricas de los datos y aprendizaje no supervisado. Además, se incorporaron herramientas bioinformáticas para el modelado y la caracterización de proteínas codificadas por los genomas representativos de los linajes identificados. (Tomado de la fuente)Genomic surveillance of SARS-CoV-2 has allowed the identification of variants of interest and concern worldwide, relevant for public health management, the improvement of diagnostic tests and the design of vaccines. Approximately 16 million sequences of the virus have been reported from December 20, 2019 to June 15, 2024, a number of instances several orders of magnitude higher than the tens of thousands of sequences that have been able to be analyzed with phylogenetic trees using strategies such as computational parallelization. Machine learning constitutes an alternative for processing large data sets and identifying patterns in the viral genome, characteristics that can be used to identify variants and recognize emerging lineages. In the present work, a tool was built to automatically obtain SARS-CoV-2 sequences and preprocess them, and unsupervised learning was implemented to identify virus variants.62 páginasapplication/pdfspahttp://creativecommons.org/licenses/by-nc-sa/4.0/000 - Ciencias de la computación, información y obras generales::004 - Procesamiento de datos Ciencia de los computadores610 - Medicina y salud::616 - EnfermedadesMétodo para identificar y caracterizar variantes del SARS-CoV-2 mediante algoritmos de aprendizaje de máquinas y simulaciones molecularesTrabajo de grado - MaestríaUniversidad Nacional de ColombiaRepositorio Institucional Universidad Nacional de Colombiahttps://repositorio.unal.edu.co/info:eu-repo/semantics/openAccessCovid-19 - Procesamiento de datosSíndrome Respiratorio Agudo Grave - Procesamiento de datosInfecciones por coronavirus - Procesamiento de datosInfecciones respiratorios - Procesamiento de datosAprendizaje automático (Inteligencia artificial)Vigilancia epidemiológica - Procesamiento de datosGenómica - Procesamiento de datosClustering no supervisadoSARS-CoV-2K-meansk-mersUnsupervised ClusteringMethod for identifying and characterizing SARS-CoV-2 variants using machine learning algorithms and molecular simulations