Diseño de un sistema de hibridación in Silico para el mapeo de genes funcionales de la comunidad microbiana del suelo a partir de datos provenientes de técnicas de secuenciación de alto rendimiento
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2014Metadata
Show full item recordSummary
La producción actual a gran escala y a bajo costo de secuencias han permitido el auge de las aproximaciones metagenómicas para explorar la información genómica almacenada en los diversos ecosistemas del planeta. Esto brinda la oportunidad de experimentar nuevas metodologías para el mapeo de genes funcionales, de manera que se pueda estimar la capacidad funcional inherente de las comunidades microbianas. El Sistema de Hibridación In silico es una aproximación de clasificación taxonómica y funcional que implementa dos flujos de trabajo; un Creador de Sondas (CrSo) encargado de diseñar sondas a nivel taxonómico de genero a partir de las secuencias introducidas y un Hibridador In Silico Secuencial (HISS), que se encarga de hacer el proceso de hibridación entre las sondas generadas con las secuencias de la comunidad. El sistema de Hibridación In silico caracteriza comunidades edáficas evaluando el potencial funcional diferencial de los ciclos biogeoquímicos del Nitrógeno y el Fosforo, para lo cual se identificaron 73 reacciones claves que contaban con 63 familias enzimáticas y 47.419 secuencias nucleotídicas de las enzimas correspondientes a dichas familias. A partir de las secuencias nucleotídicas se diseñaron sondas con CrSo, para un total de 41.430 sondas divididas en 5 grupos de longitudes 25pb, 40pb, 60pb, 80pb y 100pb. A partir de las sondas diseñadas con CrSo y datos simulados de secuenciamiento con características de la plataforma illumina, se determinaron las condiciones de hibridación de HISS, las cuales consideraron como límite inferior de longitud de alineamiento 35pb para y un relación malos apareamientos - longitud de alineamiento descrita por la función logarítmica: !!=!9,6413!ln!!! −!30,483. Con esto se aseguró una sensibilidad y especificidad promedio de 85% y 95% respectivamente, para sondas de longitud 100pb. Bajo la previa parametrización de HISS, se determinó que la mejor forma de caracterizar una comunidad era utilizando la sonda de 100pb con mayor puntaje de especificidad, calculado por CrSo. Adicionalmente, bajo estas condiciones la sobre o sub estimación de genes de la población a muestrear es mínimo. La caracterización de una muestra edáfica real a través del sistema de Hibridación in silico permitió diferenciar claramente el potencial funcional del ecosistema, de su metabolismo activo, tanto desde el punto de vista génico y enzimático como también desde su componente organísmico. Este trabajo presenta una nueva aproximación de clasificación taxonómica y funcional de comunidades microbianas basada en una estrategia de similitud que no requiere un previo ensamblaje de secuencias. Dicha aproximación difiere del enfoque comúnmente utilizado, en que usa huellas genéticas (sondas) diseñadas para cada gen de interés y evalúa las características de los alineamientos que ellas obtienen con las secuencias de la comunidad en estudio.Summary
Abstract. Nowadays the widely production and low cost of sequencing has allowed the extent of metagenomics in order to explore the genomic information from diverse environments. This offers the opportunity to examine new approaches for the sequence binning and functional assignment. The In silico Hybridization System is an approach of functional assignment and gender taxonomic level binning working with two general pipelines: Probes Creator (CrSo) ordered to design DNA fingerprints to a gender taxonomic level, this probes will be used by the Sequential In silico Hybridator (HISS) to make the hybridization with the community reads. The In silico Hybridization System assesses the edaphic differential functional potential of Nitrogen and Phosphorus biochemical cycles, to do that, 73 key reactions with 63 enzyme families and 47.419 nucleotide sequences of them were identified. From those nucleotide sequences, CrSo design 41.430 probes. These probes make up 5 probe length groups, as follows: 25pb, 40pb, 60pb, 80pb and 100pb. The HISS hibridization conditions were set up with the probes designed by CrSo and likeillumina simulated reads. Therefore, was defined the alignment lenght threshold, in 35pb, and a relation between alignment lenght and mismatch described by a logarithmic function: !!=!9,6413!ln!!! −!30,483. With these parameters, HISS ensured a mean sensibility and specificity of 85% and 95% respectively for 100pb pobres length. Under these HISS parameteres, it was determined that the best way to characterize edaphic communities was with a the best CrSo specificity score of 100pb probe length, without gene under or sub estimates. The characterization of real edaphic sample through In silico Hybridization System, allowed clearly distinguish between the ecosistem’s functional potential of its active metabolism, since its genetic, enzymatic and organismic perspectives This work presents a new functional and taxonomical binning approach of microbial communities, it is based on homology strategy that do not require read assembling. This approach uses fingerprints (probes) for each gene target and assess the alignments homology characteristics of hibridization between probes and metagenome reads.Keywords
Collections
