Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform

dc.contributor.advisorCastellanos Domínguez, César Germán (Thesis advisor)spa
dc.contributor.authorArango Argoty, Gustavo Alonsospa
dc.date.accessioned2019-07-03T19:31:02Zspa
dc.date.available2019-07-03T19:31:02Zspa
dc.date.issued2014spa
dc.description.abstractEn esta tesis se propone un método para la predicción de anotaciones de proteínas a partir de la estimación de características en secuencias biológicas. Dicha estimación emplea información sobre la estructura de las proteínas a partir de las estadísticas de contactos potenciales entre pares de aminoácidos. Inicialmente, una proteína es transformada a una serie numérica por medio de estos contactos potenciales. Debido a las interacciones entre aminoácidos cercanos, la transformada wavelet puede fácilmente detectar las subsecuencias pertenecientes a posiciones específicas a lo largo de la proteína. Así, todas las subsecuencias son agrupadas de acuerdo a su distribución y estos grupos son modelados empleando perfiles de Modelos Ocultos de Markov. Finalmente, los perfiles son usados como características donde proteínas de análisis son mapeadas generando así un espacio de representación que es usado para entrenar un clasificador basado en vectores de soporte. La metodología ha sido rigurosamente evaluada y comparada con tres diferentes criterios de caracterización: 1) características globales comúnmente usadas para representar proteínas, 2) características específicas como motivos y dominios, y por último 3) evaluación de el rendimiento de varios programas construidos para la predicción de anotación de proteínas. Como resultado el método propuesto ha logrado los mas altos puntajes de predicción en la mayoría de los casos de estudio. De manera que estas predicciones sugieren a nuestro método como una alternativa a los comúnmente usados algoritmos de caracterización. Por otra parte, a pesar de que el enfoque de la metodología esta diseñada para resolver problemas de clasificación, la comunidad científica puede hacer uso de ella en dos diferentes enfoques: 1) como un predictor de anotaciones en proteínas y 2) como una herramienta para encontrar motivos. Por último, el código fuente del método se encuentra para libre descarga en: http://sourceforge.net/projects/wamofi/?source=navbarspa
dc.description.abstractIn this thesis, a method to predict semantic annotations of the proteins from its primary structure is proposed. The main contribution of this thesis lies in the implementation of a novel protein feature representation, which makes use of the pairwise statistical contact potentials describing the protein interactions and geometry at the atomic level. Initially, a protein sequence is decomposed into a numerical series by a contact potential. From the interactions between adjacent amino acids, the wavelet transform can easily detect and characterize subsequences at specific position along the protein sequence. Then, all subsequences are grouped into clusters and a Hidden Markov Model (HMM) profile is built for each one of the groups. Finally, the modeled profiles HMM are used as features in order to build a feature space with the aim to train and evaluate a support vector machine classifier. Evaluations of the proposed methodology are driven against three different views 1) known protein features 2) motif-domain based features (PFam terms) and 3) performance evaluation over several methods for protein annotation prediction. As result, The method have acquired the highest performance prediction in most of the study cases. Thus, this efficiency suggest our approach as an alternative method for the characterization of protein sequences. Although, the research in this thesis focuses on the classification problem, the scientific community can make use of the methodology in two different ways: 1) as a protein predictor and 2) as a motif finding tool. Finally, the source code of the method is free available for download at SourceForge http://sourceforge.net/projects/wamofi/?source=navbareng
dc.description.degreelevelMaestríaspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.eprintshttp://bdigital.unal.edu.co/39867/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/75302
dc.language.isospaspa
dc.relation.ispartofUniversidad Nacional de Colombia Sede Manizales Facultad de Ingeniería y Arquitectura Departamento de Ingeniería Eléctrica, Electrónica y Computación Ingeniería Electrónicaspa
dc.relation.ispartofIngeniería Electrónicaspa
dc.relation.referencesArango Argoty, Gustavo Alonso (2014) Methodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transform. Maestría thesis, Universidad Nacional de Colombia - Sede Manizales.spa
dc.rightsDerechos reservados - Universidad Nacional de Colombiaspa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-NoComercial 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/spa
dc.subject.ddc51 Matemáticas / Mathematicsspa
dc.subject.ddc54 Química y ciencias afines / Chemistryspa
dc.subject.ddc62 Ingeniería y operaciones afines / Engineeringspa
dc.subject.proposalTransformada wavelet continuaspa
dc.subject.proposalPotenciales de contacto estadísticosspa
dc.subject.proposalPrediccion de proteínasspa
dc.subject.proposalMáquinas de vectores de soportespa
dc.subject.proposalAlineamiento de secuenciasspa
dc.subject.proposalContinuous wavelet transformspa
dc.subject.proposalStatistical contact potentialsspa
dc.subject.proposalProtein predictionspa
dc.subject.proposalSupport vector machinespa
dc.subject.proposalSequence alignmentspa
dc.titleMethodology for predicting semantic annotations of protein sequences by feature extraction derived of statistical contact potentials and continuous wavelet transformspa
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
710123.2014.pdf
Tamaño:
5.98 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Maestría en Ingeniería - Automatización Industrial