Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta

Giraldo Forero, Andrés Felipe

Mostrar el registro sencillo del documento

dc.rights.license	Atribución-NoComercial 4.0 Internacional
dc.contributor.advisor	Castellanos Dominguez, César Germán (Thesis advisor)
dc.contributor.advisor	Jaramillo Garzón, Jorge Alberto (Thesis advisor)
dc.contributor.author	Giraldo Forero, Andrés Felipe
dc.date.accessioned	2019-07-02T11:23:44Z
dc.date.available	2019-07-02T11:23:44Z
dc.date.issued	2015
dc.identifier.uri	https://repositorio.unal.edu.co/handle/unal/55633
dc.description.abstract	Tradicionalmente, la identificación de funciones en proteínas se ha venido desarrollando por complejos y costosos procedimientos experimentales junto con mecanismos computacionales que buscan similitudes a través de alineamientos secuencia-secuencia, secuencia-perfiles, entre otros. Sin embargo, estos métodos pierden efectividad cuando proteínas con igual función presentan bajas similitudes, los sistemas más recientes emplean métodos de aprendizaje de maquina en espacios que son representados por características evolutivas, químicas, físicas, estadísticas, entre otras. Pero, ´estos se han restringido a problemas donde las clases son mutuamente excluyentes, buscando suplir debilidades de los sistemas tradicionales como: velocidad de inferencia y grado de acierto, este trabajo se ha centrado en el estudio de métodos que manejen simultáneamente múltiples etiquetas. En esta tesis se desarrolla un estudio sobre problemas de clasificación que involucran simultáneamente múltiples etiquetas, para este fin son ajustados una variedad de modelos que capturan la correlación entre las clases, igualmente se proponen un conjunto de alternativas para tratar el desbalance de clases sobre estos problemas. También se analizan y discuten las medidas usadas para calcular los rendimientos de clasificación. Las estrategias analizadas se probaron experimentalmente sobre diferentes conjuntos de datos, pertenecientes a diversas labores tales como: predicción de funciones de proteínas, clasificación de imágenes, análisis de textos y detección de emociones. Los resultados mostraron que la relevancia binaria es la opción más adecuada cuando no existen altos grados de dependencia entre las clases, y que las medidas utilizadas actualmente no son adecuadas para identificar sensibilidades en los algoritmos y que el balance de clases por sobremuestreo en problemas multi-etiqueta afecta de manera negativa el rendimiento de clasificación
dc.description.abstract	Abstract : Traditionally, function identification in proteins has been accomplished by complex and expensive experimental procedures, in conjunction with computacional mechanisms based on sequence-sequence alignments and sequence-profile alignments. Those methods are less effective when proteins present low structural similarity. Recent approaches use machine learning methods over representation spaces of evolutionary, chemical, physical and statistical features, among others. However, traditional machine learning is only intended to problems with mutually exclusive classes. In this thesis, a study on classification problems with multiple labels is developed. Several models are adjusted to capture the correlation among classes, and a set of alternatives to manage class imbalance is also provided. Besides, common performance measures for multilabel problems are analyzed and discussed. All the strategies are experimentally tested over several datasets, comprising different real-world applications such as protein function prediction, natural scene clasification, text analisys and detection of emotions. Results showed that the best strategy is binary relevance when there are not high dependencies among classes. Additionally, the measures currently used are inadequate to identify sensitivities of the algorithms
dc.format.mimetype	application/pdf
dc.language.iso	spa
dc.relation.ispartof	Universidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación
dc.relation.ispartof	Departamento de Ingeniería Eléctrica, Electrónica y Computación
dc.rights	Derechos reservados - Universidad Nacional de Colombia
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0/
dc.subject.ddc	0 Generalidades / Computer science, information and general works
dc.subject.ddc	57 Ciencias de la vida; Biología / Life sciences; biology
dc.subject.ddc	6 Tecnología (ciencias aplicadas) / Technology
dc.title	Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta
dc.type	Trabajo de grado - Maestría
dc.type.driver	info:eu-repo/semantics/masterThesis
dc.type.version	info:eu-repo/semantics/acceptedVersion
dc.identifier.eprints	http://bdigital.unal.edu.co/51063/
dc.description.degreelevel	Maestría
dc.relation.references	Giraldo Forero, Andrés Felipe (2015) Estrategias multi-etiqueta orientadas a la predicción funcional de proteínas en organismos embryophyta. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.
dc.rights.accessrights	info:eu-repo/semantics/openAccess
dc.subject.proposal	Adaptación del algoritmo
dc.subject.proposal	Bioinformática
dc.subject.proposal	Ontología del gen
dc.subject.proposal	Clasificación multi-etiqueta
dc.subject.proposal	Transformación del problema
dc.subject.proposal	Proteínas
dc.subject.proposal	Algorithm adaptation
dc.subject.proposal	Bioinformatics
dc.subject.proposal	Gene ontology
dc.subject.proposal	Multi-label clasification
dc.subject.proposal	Problem transformation
dc.subject.proposal	Proteins
dc.type.coar	http://purl.org/coar/resource_type/c_bdcc
dc.type.coarversion	http://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.content	Text
dc.type.redcol	http://purl.org/redcol/resource_type/TM
oaire.accessrights	http://purl.org/coar/access_right/c_abf2

Archivos en el documento

Nombre:: 7111510.2015.pdf
Tamaño:: 3.658Mb
Formato:: PDF

Descargar

Este documento aparece en la(s) siguiente(s) colección(ones)

Departamento de Ingeniería Eléctrica y Electrónica [387]

Mostrar el registro sencillo del documento

Atribución-NoComercial 4.0 Internacional

Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial 4.0.Este documento ha sido depositado por parte de el(los) autor(es) bajo la siguiente constancia de depósito