Una métrica sobre grafos ponderados como medida de similitud molecular
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2011Metadata
Mostrar registro completoSummary
Los objetivos de este trabajo fueron proponer una métrica que permitiera comparar grafos ponderados con diferente numero de vértices, y que tuviera en cuenta no solo los vértices en los que se diferencian un par de grafos, sino también los vértices con los que se relacionan, y evaluar la similitud molecular por medio de la métrica propuesta. Para hacerlo se propuso una función d◊ : G x G →R, donde G es el conjunto de todos los grafos sin vértices aislados unido a un conjunto que contiene al grafo de un solo vértice K1, y R son los números reales, luego se demostró que esta función es una métrica. Posteriormente se construyeron los grafos moleculares de 21 esteroides y a partir de ellos se generó un supergrafo que fue etiquetado por medio de un algoritmo propuesto por Balaban et al.[1]. Las etiquetas asignadas se usaron para los vértices de los grafos moleculares. Usando Microsoft Excel Solver [2], se hizo la ponderación de los vértices de los grafos moleculares, haciendo que la matriz de similitud obtenida al comparar los grafos moleculares de los esteroides tuviera la mayor correlación posible con las matrices de similitud experimentales, obtenidas a partir de la afinidad de los esteroides por la globulina fijadora de corticosteroides CBG y por la globulina fijadora de testosterona TeBG. Se hicieron análisis de agrupamiento UPGMA usando grafos no ponderados, y ponderados con respecto a la afinidad por la CBG y la TeBG. Del dendrograma obtenido para el primer caso, se puede afirmar que la métrica es capaz de codificar las diferencias estructurales de los esteroides. En los dendrogramas obtenidos a partir de los grafos ponderados, se observó que el entrenamiento de los vértices efectivamente enriquece a los grafos con información sobre la actividad del compuesto que representan. Por último se construyeron cinco modelos QSAR: dos para predecir la afinidad por la CBG y tres para predecir la afinidad por la TeBG. Los dos modelos para predecir la afinidad por la CBG y uno de los modelos para predecir la afinidad por la TeBG tienen buenos ajustes, sin estar sobreajustados, son robustos y hacen predicciones estadísticamente significativas. / Abstract. One of the goals of this work was to propose a metric useful to compare weighted graphs with different number of vertices, and that it takes into account not only vertices that make two graphs different, but also vertices which are related to them. The other goal was to evaluate molecular similarity using the proposed metric. To do so, d◊ : G x G →R a function was proposed, with G the set of all graphs without isolated vertices union a set containing the one-vertex graph K1, and R, the real numbers. Then it was proved that this function is a metric. Later, molecular graphs from 21 steroids were made, and from them, a supergraph was generated. It was labeled using an algorithm proposed by Balaban et al.[1]. Labels asigned to supergraph's vertices were used to molecular graph's vertices. Molecular graph's vertex weighting was done using Microsoft Excel Solver [2], making similarity matrix obtained from molecular graph comparison to have the greatest possible correlation with experimental similarity matrices, obtained from the binding affinities of the steroids with the corticosteroid binding globulin CBG and the testosterone binding globulin. UPGMA Clustering was done using non-weighted and weighted graphs, with respect to affinity with CBG and with TeBG. From the dendrogram obtained in the first case, it can be stated that the metric is able to codify structural differences among steroids. In the dendrograms obtained from weighted graphs, it was observed that vertex training really enrich graphs with information about the activity of the compounds they represent. At last, five QSAR models were developed: two to predict the affinity with CBG and three to predict the affinity with TeBG. Both models to predict affinity with CBG and one of the models to predict affinity with TeBG have satisfactory good-ness-of-fit, are not over-of- fit, are robust and make statistically significant predictionsKeywords
Collections
Exceto quando indicado o contrário, a licença deste item é descrito como Creative Commons Reconocimiento-NoComercial 4.0.This document has been deposited by the author (s) under the following certificate of deposit