Implementación de métodos para predecir las interacciones proteína-proteína con base en datos genómicos entre humano-patógeno
Cargando...
Autores
Tipo de contenido
Document language:
Español
Fecha
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
Las etapas críticas en la biología de un patógeno están mediadas principalmente por interacciones proteína-proteína entre el hospedero y el patógeno. Para comprender estos procesos y desarrollar alternativas terapéuticas, es fundamental identificar dichas interacciones a nivel molecular. Sin embargo, las bases de datos que recopilan interacciones experimentales son limitadas debido a los altos costos y la complejidad de los experimentos.
Este trabajo tiene como objetivo comparar y evaluar distintos métodos computacionales para predecir interacciones proteína-proteína intraespecie, con el fin de adaptarlos y extenderlos hacia la predicción de redes de interacción proteína-proteína interespecie. Para ello, se emplearon datos genómicos y postgenómicos de acceso público, centrándose en la interacción entre el virus de inmunodeficiencia humana (VIH) y Homo sapiens, cuyo conjunto de datos experimentales de referencia está disponible.
La predicción de estas interacciones se abordó mediante métodos de análisis canónico del kernel (KCCA) y aprendizaje de máquina supervisado, integrando datos ómicos a través de kernels. Los resultados muestran que el método KCCA no logró predecir de manera efectiva la red de interacción de proteínas, mientras que los modelos de aprendizaje automático sí lo hicieron. En particular, los mejores modelos se obtuvieron mediante el balanceo de los datos, combinando el submuestreo de la clase mayoritaria (0 = no interacción) y la generación de datos sintéticos para ajustar la proporción de clases, dado que la red de referencia (1 = interacción) es muy pequeña. Estos modelos aprovecharon un kernel integrado teniendo en cuenta pesos para cada tipo de datos, lo que permitió mejorar la capacidad predictiva en un contexto de datos altamente desbalanceados. (Texto tomados de la fuente)
Abstract
Critical stages in a pathogen's biology are primarily mediated by protein-protein interactions between the host and the pathogen. To understand these processes and develop therapeutic alternatives, it is essential to identify such interactions at the molecular level. However, databases compiling experimentally derived interactions are limited due to the high costs and complexity of the experiments.
This study aims to compare and evaluate different computational methods for predicting intra-species protein-protein interactions, with the goal of adapting and extending them for the prediction of inter-species protein-protein interaction networks. To achieve this, publicly available genomic and post-genomic data were employed, focusing on the interaction between the human inmunodeficiency virus (HIV) and Homo sapiens, for which a reference dataset of experimentally validated interactions is available.
The prediction of these interactions was approached using kernel canonical correlation analysis (KCCA) and supervised machine learning methods, integrating omics data through kernels. The results show that KCCA failed to effectively predict the protein interaction network, whereas machine learning models performed successfully. Notably, the best-performing models were obtained through data balancing strategies, combining majority class (0 = no interaction) undersampling and synthetic data generation to adjust the class proportions, given that the reference network (1 = interaction) is very small. These models leveraged a weighted kernel, enhancing predictive performance in the context of highly imbalanced data.
Descripción
ilustraciones a color, diagramas