Show simple item record

dc.rights.licenseAtribución-NoComercial 4.0 Internacional
dc.contributorNiño Vasquez, Luis Fernando
dc.contributor.authorNarvaez Prieto, Jonathan Freddy
dc.date.accessioned2019-07-03T07:22:19Z
dc.date.available2019-07-03T07:22:19Z
dc.date.issued2018-10
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/68644
dc.description.abstractEste proyecto propone una plataforma para el procesamiento de datos biológicos, imple-mentando una estrategia para la ejecución de flujos de procesamiento de información deforma distribuida. Esta plataforma implementa una estrategia de contenedores para el aisla-miento y portabilidad del software de bioinformática, aprovecha las caracter ́ısticas de controlque esta tecnología prove; así mismo, el almacenamiento distribuido es una parte central deesta plataforma, lo que permite controlar el acceso de la información a cada uno de los nodosde forma eficiente implementando una estrategia de metadatos que permite una fácil ubicación de los experimentos que quieren ser procesados por cada uno de los nodos del sistemadistribuido. Se implementó un modelo de control de recursos llamadoDominant ResourceFairness(DRF) y de distribución de procesos para sistemas distribuidos llamado Heterogeneous Earliest Finish Time(HEFT). Además, se realizó una prueba con un flujo de procesamiento de datos de RNA-Seq usando datos clínicos deMycobacterium Tuberculosis. La prueba mostró que fue posible abordar unaestrategia distribuida para obtener un mejor rendimiento y tiempos de ejecuci ́on a la horade realizar este tipo de análisis sobre datos biológicos. Se observó que las aplicaciones queno son paralelizables afectan en gran medida el rendimiento, y algunas aplicaciones dentrode la prueba no hacen uso eficiente del almacenamiento, generando grandes bloques de información sobre el sistema de archivos causando algunos problemas
dc.description.abstractAbstract: This project proposes a platform for processing biological data, implementing a strategy for the execution of distributed information processing flows. This platform implements a strategy of containers for the isolation and portability of bioinformatics software and also takes advantage of the control features that this technology provides; in addition, distributed storage is a central part of the platform that allows to control access to the information in each of the nodes efficiently by implementing a metadata strategy that allows an easy location of the experiments that want to be analyzed by each of the nodes corresponding to the distributed system. A resource control model called Dominant Resource Fairness (DRF) and process distribution model for distributed systems called Heterogeneous Earliest Finish Time (HEFT) were implemented. Additionally, a test was performed with a data processing flow for RNA-Seq using clinical data related to Mycobacterium Tuberculosis. The test indicates that it is possible to develop a distributed strategy to obtain better performance and execution times when performing this type of analysis on biological data with a clear information processing flow for the data coming from the information sequencing. It was noted that non-parallelizable applications affect performance to a significant extent, and some applications within the test do not make efficient use of storage by generating large blocks of information about the file system causing some problems.
dc.format.mimetypeapplication/pdf
dc.language.isospa
dc.relation.ispartofUniversidad Nacional de Colombia Sede Bogotá Facultad de Ingeniería Departamento de Ingeniería de Sistemas e Industrial
dc.relation.ispartofDepartamento de Ingeniería de Sistemas e Industrial
dc.rightsDerechos reservados - Universidad Nacional de Colombia
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/
dc.subject.ddc0 Generalidades / Computer science, information and general works
dc.subject.ddc57 Ciencias de la vida; Biología / Life sciences; biology
dc.subject.ddc6 Tecnología (ciencias aplicadas) / Technology
dc.subject.ddc62 Ingeniería y operaciones afines / Engineering
dc.titleDesarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos
dc.typeTrabajo de grado - Maestría
dc.type.driverinfo:eu-repo/semantics/masterThesis
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dc.identifier.eprintshttp://bdigital.unal.edu.co/69707/
dc.description.degreelevelMaestría
dc.relation.referencesNarvaez Prieto, Jonathan Freddy (2018) Desarrollo de una plataforma de almacenamiento y procesamiento distribuido para análisis de datos biológicos. Maestría thesis, Universidad Nacional de Colombia Sede Bogotá.
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.subject.proposalFlujo de Datos
dc.subject.proposalSistemas Distribuidos
dc.subject.proposalAlmacenamiento Distribuido
dc.subject.proposalContenedores
dc.subject.proposalBioinformática
dc.subject.proposalWorkflow
dc.subject.proposalDistributed Systems
dc.subject.proposalDistributed Storage
dc.subject.proposalContainers
dc.subject.proposalBioinformatics
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.contentText
dc.type.redcolhttp://purl.org/redcol/resource_type/TM
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record

Atribución-NoComercial 4.0 InternacionalThis work is licensed under a Creative Commons Reconocimiento-NoComercial 4.0.This document has been deposited by the author (s) under the following certificate of deposit