Detección automatizada de pequeños fragmentos derivados de RNAs no-codificantes expresados diferencialmente frente a la infección del virus Dengue
Author
Advisor
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2017Metadata
Show full item recordSummary
En los últimos años, el uso cada vez mayor de las tecnologías de secuenciación de nueva generación para el estudio del transcriptoma ha llevado al descubrimiento de un nuevo fenómeno biológico llamado fragmentación postranscripcional funcional de ncRNAs. Varios estudios han identificado un amplio número de pequeños fragmentos derivados del procesamiento alternativo de ncRNAs (sfd-RNA) que varían entre 16 y 40nt, cuyas fuentes son principalmente tRNAs y snoRNAs. El interés en los sfd-RNA se debe a su parecido estructural y funcional con los micro RNAs (miRNAs). Por ejemplo, ambos tipos de moléculas pueden cargarse en proteínas Argonauta, quienes han sido vinculadas al fenómeno de interferencia mediada por RNA. A la fecha existen diferentes pipelines y herramientas computacionales dirigidas a anotar y evaluar expresión diferencial (DE) de miRNAs; no obstante, su extensión para el estudio de sfd-RNAs no es del todo adecuada, debido a que la fuente de los sfd-RNAs es a su vez una secuencia de ncRNA con una función alternativa, lo que implica una biogénesis diferente y por ende requiere estrategias computacionales propias. En particular, para el análisis de expresión diferencial de sfd-RNAs, a diferencia de los miRNAs, existen problemas asociados a la detección, anotación y cuantificación de las lecturas asociadas al ncRNA, que en términos estadísticos, impactan el número de variables y el tamaño de muestra; por ende, se requiere una estrategia de anotación propia para sfd-RNA capaz de afrontar dos complicaciones de orden bioinformático. La primera de ellas reside en que las moléculas fuente de sfd-RNAs presentan un mayor número de copias idénticas en el genoma con respecto a los miRNAs, a pesar de ello, del conjunto de loci repetitivos no todos necesariamente se transcriben o no todos los transcritos generados se procesan de manera alternativa para generar fragmentos funcionales. La segunda dificultad yace en discriminar las lecturas derivadas del secuenciamiento de RNAs pequeños que evidencian la expresión de un fragmento funcional a la expresión del ncRNA fuente; debido a que el conjunto de lecturas de un sfd-RNA está completamente auto-contenido en el conjunto de secuencias asignado al ncRNA fuente. Las metodologías recientes destinadas al estudio de los sfd-RNA se centran exclusivamente en un tipo de fuente de ncRNA (principalmente tRNA) y adolecen de una baja reproducibilidad en sus predicciones, dado a la omisión de los sezgos de la alineación o por el uso de métodos de normalización diseñados para génes codificantes, los cuales son más largos y menos repetitivos. Con el fin de abordar las dificultades previamente descritas para la detección y discriminación de los patrones de expresión asociados con sfd-RNAs, y teniendo en cuenta que las herramientas actuales se ocupan de uno de los dos problemas o se centran exclusivamente en una especie de ncRNA, en el presente trabajo se ha diseñado una nueva estrategia para abordar los dos problemas simultáneamente. En primer lugar, para evaluar diferentes tipos de ncRNAs, se realizó la integración de las diferentes familias a través del solapamiento entre coordenadas de ncRNAs provenientes de bases de datos como UCSC, miRBase, snoRNAbase y RNAcentral, generando un listado de coordenadas de ncRNAs noredundantes totales, en el que se resaltan solapamientos intra e inter familias. En segundo lugar, adaptando la aproximación diseñada en el programa BlockBuster, se utilizaron las coordenadas genómicas unificadas como referencia para detectar fragmentos de sfd-RNAs. Para ello, se clasificaron y organizaron las lecturas alineadas a los loci unificados teniendo en cuenta la media o coordenada central de cada lectura. Posterior a su ordenamiento por tamaño se emplearon los valores de media y desviación de la primera lectura para generar una distribución normal, que es alimentada con la subsecuentes lecturas, bajo la condición de que su valor central pertenezca al rango de simetría de la distribución normal aproximada. Los subgrupos de lecturas generadas fueron definidos como bloques de expresión de sfdRNAs sobre los que se evaluó expresión diferencial. El estudio de expresión diferencial de sfdRNAs y miRNAs se realizó basado en dieciséis estrategias computacionales que combinan cuatro algoritmos de alineamiento y cuatro métodos de normalización con el propósito de evaluar la reproducibilidad de una predicción independientemente de los métodos de alineación y de normalización empleados. La pipeline desarrollada fue probada con bibliotecas de small-RNAseq derivadas de líneas celulares humanas infectadas por Dengue y muestras de sangre de pacientes humanos con fiebre del dengue y otros estadios febriles con el fin de dar luces a dos problemas biológicos relacionados, los determinantes causales del dengue severo y el diagnóstico de las enfermedades febriles agudas inespecíficas, respectivamente. Finalmente, el enfoque desarrollado permitió abordar tanto los conflictos de anotación de los ncRNAs como también el correcto uso estadístico de las lecturas con múltiples alineamientos. Como resultado se encontró que ciertos loci detectados como sfd-RNAs habían sido previamente reportados en otras categorías como piRNAs, además 177 fragmentos derivados de tRNAs y 69 snoRNAs están ambiguamente reportados como miRNAs, piRNAs o siRNAs. Adicionalmente, en el presente trabajo se detectó expresión diferencial simultáneamente en miRNAs y sfd-RNA, algunos de estos últimos descritos previamente en la infección viral en humanos por el virus de la hepatitis C. Finalmente, se halló expresión diferencial en miRNAs y sfd-RNAs, los cuales están asociados con algunos génes blanco de regulación específico para síndromes febriles que pueden ser útiles como biomarcadores de síndromes febriles agudos.Summary
Abstract: In recent years, the increasing use of new generation sequencing technologies for transcriptome study has led to discover a new biological phenomenon called functional posttranscriptional fragmentation of ncRNAs. Several studies have identified a large set of small ncRNA-derived fragments (sfd-RNA) with a length variation between 16 and 40nt, and which main source are tRNAs and snoRNAs. The interest in sfd-RNA is due to its structural and functional similarity with microRNAs (miRNAs). For example, both types of molecules can be loaded onto Argonaut proteins, which have been linked to the phenomenon of RNAmediated interference. To date, there are different pipelines and computational tools designed for annotate and evaluate differential expression (DE) of miRNAs; however, they are not entirely adequate for the study of sfd-RNAs, because the source of the sfd-RNAs is, in turn, a sequence of ncRNA with an alternative function, which implies a different biogenesis and therefore requires computational strategies for its own. In particular, for the analysis of DE of sfd-RNAs, unlike the miRNAs, there are problems associated with the detection, annotation and quantification of the reads associated specifically with the ncRNA, impacting statistically the number of variables and the sample size; therefore, an own annotation strategy is required for sfd-RNA, capable of facing two bioinformatic complications. First of all the source molecules of sfd-RNAs have a higher number of identical copies in the genome with respect to the miRNAs, in spite of this, the total set of repetitive loci does not necessarily transcribe or processed in an alternative way to generate functional fragments. The second difficulty lies in discriminating the reads derived from the sequencing of small RNAs that presents the expression of a functional fragment different, from the expression of initial ncRNA; this, given that the set of reads of a sfd-RNA is completely contained in the sequences collection assigned to initial ncRNA Recent methodologies developed for sfd-RNA focus exclusively on one type of ncRNA (mainly tRNA) with a high risk of low reproducibility in their predictions, given the skewed alignment or the dependence on standardized methods designed for genes coding. In order to confront both situations, which hinder the detection and discrimination of the expression patterns associated with sfd-RNAs, and given that current tools deal with one of the two problems or focus exclusively to detect a single kind of ncRNA. In the present project we designed a new strategy to address both cases simultaneously. First, we created a list of coordinates of unified ncRNAs, from various databases such as UCSC, miRBase, snoRNAbase and RNAcentral, the features integration implies face several overlapping conflicts intra- and interncRNA famliy. to solve overlapping conflicts between ncRNAs. Second, using these genomic coordinates as a reference to detect sfd-RNA candidates, from the total set of aligned reads, the reads were classified and organized taking into account the mean or central coordinate of each read. Once organized using the values of mean, a normal distribution is generated, which is fed with the subsequent reads. Exclusively with those reads that are part of the expression block, that is, with those reads whose central value belongs to the range of symmetry of the approximate normal distribution, defined as the sum of the mean of the initial read, plus a half of the deviation standard of the same read. Our pipeline was tested with RNAseq libraries derived from dengue-infected human cell lines and blood samples from human patients with dengue fever and with other febrile conditions. This was done with the propose of bring ligth to two related biological problems, the causal determinants of severe dengue and the search of molecular markers for the diagnosis of acute febrile syndromes. Finally, our approach allowed us to address both the annotation conflicts of the ncRNA as well as the integration of the ncRNA, which in statistical terms consists in the definition of the number of variables and the sample space for the subsequent differential expression analyzes. As a result, it was found that certain loci defined as sfdRNAs previously had been reported in other sncRNA categories, for example as piRNAs. Exactly 177 fragments derived from tRNAs and 69 snoRNAs have been classified into other categories, including miRNAs, piRNAs or siRNAs. Notoriously the genomic loci of these ambiguous cases are very similar, for example the piR-hsa-23289 presents the same coordinates as the tRF-5’-GluCTC, whose report has experimental validation. Additionally, in the present project we detected differential expression simultaneously in miRNAs and sfdRNA, some of the latter previously described in viral infection in humans by the hepatitis C virus. Additionally, differential expression was found in new miRNAs and sfd-RNAs not previously reported. In a complementary way, with the analysis of differential expression in blood libraries a list of sfdRNAs and miRNAs common to the three fever syndromes studied was generated, but also a list of genes specific to each syndrome, which could be used for the development of a biomarker for the diagnosis of acute febrile syndromes.Keywords
miRNAs ; Virus del Dengue ; Transcriptoma ; Expresión diferencial ; Pequeños ncRNAs ; anotación de ncRNAs ; Biomarcadores síndrome febril ; Dengue ; Fragmentación postranscripcional funciona ; Differential expression ; Dengue fever ; Biomarkers ; Small ncRNA ; Annotation of ncRNAs ; Multi-mapping reads placement problem ; Post-transcriptional functional fragmentation ;
Collections
