Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos

dc.contributorNiño Vasquez, Luis Fernandospa
dc.contributor.authorNarvaez Prieto, Jonathan Freddyspa
dc.date.accessioned2019-07-03T07:22:19Zspa
dc.date.available2019-07-03T07:22:19Zspa
dc.date.issued2018-10spa
dc.description.abstractEste proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de bioinformática, aprovecha las caracter ́ısticas de controlque esta tecnología prove; así mismo, el almacenamiento distribuido es una parte central deesta plataforma, lo que permite controlar el acceso de la información a cada uno de los nodosde forma eficiente implementando una estrategia de metadatos que permite una fácil ubicación de los experimentos que quieren ser procesados por cada uno de los nodos del sistemadistribuido. Se implementó un modelo de control de recursos llamadoDominant ResourceFairness(DRF) y de distribución de procesos para sistemas distribuidos llamado Heterogeneous Earliest Finish Time(HEFT). Además, se realizó una prueba con un flujo de procesamiento de datos de RNA-Seq usando datos clínicos deMycobacterium Tuberculosis. La prueba mostró que fue posible abordar unaestrategia distribuida para obtener un mejor rendimiento y tiempos de ejecuci ́on a la horade realizar este tipo de análisis sobre datos biológicos. Se observó que las aplicaciones queno son paralelizables afectan en gran medida el rendimiento, y algunas aplicaciones dentrode la prueba no hacen uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos causando algunos problemasspa
dc.description.abstractAbstract: This project proposes a platform for processing biological data, implementing a strategy for the execution of distributed information processing flows. This platform implements a strategy of containers for the isolation and portability of bioinformatics software and also takes advantage of the control features that this technology provides; in addition, distributed storage is a central part of the platform that allows to control access to the information in each of the nodes efficiently by implementing a metadata strategy that allows an easy location of the experiments that want to be analyzed by each of the nodes corresponding to the distributed system. A resource control model called Dominant Resource Fairness (DRF) and process distribution model for distributed systems called Heterogeneous Earliest Finish Time (HEFT) were implemented. Additionally, a test was performed with a data processing flow for RNA-Seq using clinical data related to Mycobacterium Tuberculosis. The test indicates that it is possible to develop a distributed strategy to obtain better performance and execution times when performing this type of analysis on biological data with a clear information processing flow for the data coming from the information sequencing. It was noted that non-parallelizable applications affect performance to a significant extent, and some applications within the test do not make efficient use of storage by generating large blocks of information about the file system causing some problems.spa
dc.description.degreelevelMaestríaspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.eprintshttp://bdigital.unal.edu.co/69707/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/68644
dc.language.isospaspa
dc.relation.ispartofUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrialspa
dc.relation.ispartofDepartamento de Ingeniería de Sistemas e Industrialspa
dc.relation.referencesNarvaez Prieto, Jonathan Freddy (2018) Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos. Maestría thesis, Universidad Nacional de Colombia Sede Bogotá.spa
dc.rightsDerechos reservados - Universidad Nacional de Colombiaspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-NoComercial 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/spa
dc.subject.ddc0 Generalidades / Computer science, information and general worksspa
dc.subject.ddc57 Ciencias de la vida; Biología / Life sciences; biologyspa
dc.subject.ddc6 Tecnología (ciencias aplicadas) / Technologyspa
dc.subject.ddc62 Ingeniería y operaciones afines / Engineeringspa
dc.subject.proposalFlujo de Datosspa
dc.subject.proposalSistemas Distribuidosspa
dc.subject.proposalAlmacenamiento Distribuidospa
dc.subject.proposalContenedoresspa
dc.subject.proposalBioinformáticaspa
dc.subject.proposalWorkflowspa
dc.subject.proposalDistributed Systemsspa
dc.subject.proposalDistributed Storagespa
dc.subject.proposalContainersspa
dc.subject.proposalBioinformaticsspa
dc.titleDesarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicosspa
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
tesis-telecomunicaciones-6.pdf
Tamaño:
4.12 MB
Formato:
Adobe Portable Document Format