Modelo integrado para la caracterización in silico del efecto de la diversidad genética sobre regiones estructuradas codificantes y no codificantes del virus del Dengue
Type
Otro
Document language
EspañolPublication Date
2019-12-21Metadata
Show full item recordSummary
La diversidad y evolución genética del virus Dengue (DENV) ha sido un tema de atención en virología abordado para comprender las interacciones que surgen entre él y sus hospederos lo cual involucra descifrar el desarrollo de sus mecanismos de evasión frente a los sistemas de defensa encargados para continuar el curso natural de su ciclo viral. No obstante, algunos de estos temas se han abordado por separado, por lo tanto es importante explorar con más detalle el rol que la diversidad codificada en el genoma viral deja como huellas acumuladas a lo largo del tiempo de circulación en diferente nichos geográficos, además de detallar si éstas podrían estar relacionadas con las estrategias de adaptación de DENV adquiridas frente a la presión de selección propuesta por cada factor involucrado durante su trayectoria entre hospederos. Hasta ahora, mucho de los estudios se han concentrado en comprender el posible impacto que dicha presión selectiva tiene sobre la composición del virus a nivel de su secuencia genómica, centrado prioritariamente hacia algunos genes por tipo de interés y a sus correspondientes productos traducidos en proteínas. Algunos de ellos han explorando individualmente la proporción de mutaciones por serotipos o genotipos, estableciendo posibles efectos sobre la estructura y consiguiente función de las proteínas virales implicadas en la progresión del ciclo viral. Sin embargo, poco se ha avanzado en el estudio de la estructura secundaria del genoma viral, ya que siendo el genoma una molécula de tipo RNA, adquiere características particulares al plegarse, para lo cual intervienen interacciones favorables entre pares de nucleótidos. En especial para diferentes especies del género Flavivirus, dentro del cual se ha clasificado a DENV, han sido previamente estudiadas las regiones RNA estructuradas, altamente conservadas ubicadas en los extremos 3’ y 5’ no traducibles (UTRs) del genoma viral. Estos extremos son cruciales para los ciclos replicativos, la eficiencia en la traducción del genoma viral y la formación de pequeños RNA no codificantes (ncRNAs) tipo fragmentos de RNA subgenómicos (sfRNA) típicos de flavivirus. Noempero, muy poco ha progresado el estudio de ese tipo de fragmentos, su diversidad funcional, estructural y nucleotídica teniendo en cuenta su origen derivado de las secuencias con potencial de plegarse provenientes desde la subregión genómica codificante o traducible del genoma, conocida como CDSs. Así mismo, menor es el alcance adelantado en relación a la existencia de huellas de procesos selectivos sobre estas subregiones estructurables, en comparación con el que se ha detallado desde la perspectiva funcional y codificante del genoma de DENV o asociado con la distribución geográfica de las cepas circulantes. Por otro lado, con el fin de contribuir a las investigaciones que analizan los efectos de selección natural a nivel de estas subregiones genómicas en el DENV, se desarrolla esta tesis. Para ello se seleccionaron los CDS y poliproteínas de genomas registrados principalmente en la base de datos ViPR hasta el año 2017, derivados de aislados humanos reportados de países hiperendémicos y con reportes para los cuatro serotipos de DENV, ubicados geográficamente sobre el trópico, región donde predomina la circulación de los vectores Aedes aegypti y Aedes albopictus, procurando una búsqueda exhaustiva hasta obtener una muestra equitativa no redundante de secuencias para cada serotipo por país. Para el análisis de partida, con el fin de detectar variabilidad inter e intra-serotipos se realizaron alineamientos múltiples de secuencias de los CDS, los cuales fueron ingresados como inputs para el cálculo de diversidad y estudios de selección codónica; también fueron empleados durante el proceso de computo dispuesto para calcular las regiones estructuradas conservadas y sobre ellas un análisis selectivo discriminado por subregiones genómicas. Posterior a la predicción estructural para secuencias de RNA, se identificaron y organizaron las regiones estructuradas ultra conservadas de RNA en ventanas clasificadas de acuerdo a los 12 bloques subgenómicos delimitados por cada gen(incluyendo la región 2K, sugerida como péptido señal putativo de NS4B para su traslocación en el retículo endoplásmico, removido por peptidasas celulares). A continuación, se realizaron dos tipos de análisis de selección. El primero de tipo codónico sobre los CDS completos de alineamientos por país, región y serotipo, discriminando por gen los tripletes de nucleótidos con mutaciones que como resultado conllevasen a mutaciones sinónimas (S) y no sinónimas (NS) a nivel de aminoácido. El segundo consistió en un análisis de selección dinucleotídica para los RNAs predichos con posible plegamiento sobrelapados por gen. A fin de detectar patrones de selección compartidos o no se clasificaron las mutaciones S y NS tanto para codones traducibles como para su contraparte estructurada en RNA. Con el propósito de establecer un caso de seguimiento transversal, se delimitó un seguimiento particular de las subestructuras de RNA mejor calificadas que compartían este tipo de características, localizadas dentro del bloque subgenómico codificante para la Envoltura del Serotipo 3 (DENV-3), a las cuales se les realizó una exploración adicional de epítopes como piloto del epitoviroma de DENV seguido por un estudio estructural del efecto mutacional sobre la estructura tridimensional de la proteína codificada. Para ello se prepararon los archivos con coordenadas 3D en formato PDB existentes en el Protein Data Bank, pre-procesadas para realizar la sustitución de rotámeros de las NS de mayor interés identificadas para ENV-D3 para terminar con un análisis de dinámica molecular mediado por el programa Amber. De los análisis llevados a cabo en este trabajo se determinó que en concordancia con la bien documentada selección purificadora que presenta el virus Dengue a nivel genómico, se identificaron alrededor de quince ventanas estructuradas ultra conservadas de RNA representativas dependiendo del gen, para los 4 serotipos y simultáneamente referidas con escasas sustituciones NS bajo selección diversificadora para aminoácidos en su componente codificado. En contraste, presentan predominantes sustituciones sinónimas que son compatibles para promover laconservación de estructura de estos plegamientos RNAs. Sin embargo la presencia de regiones estructuradas altamente conservadas identificadas dentro del ORF (Open Reading Frame) de algunos genes fue ocasional, potencialmente asociado al modelo de evolución por serotipo, en función del tipo de la estrategia de ventana utilizada, efecto compensatorio mostrado y homología por alineamiento. Lo dicho hasta aquí contempla la posibilidad de que el eventual mecanismo de diversificación de este flavivirus en sus cuatro serotipos, favorezca simultáneamente la posibilidad de formar estructuras ultra conservadas de RNAs y a su vez conservar las regiones codificantes de donde provienen; aunque se requerirá una definición y validación de su funcionalidad por anotación y expresión como potenciales ncRNA, ya que hasta el momento para DENV se desconoce la función de estas subregiones estructuradas. Del análisis usado como guía para el análisis exploratorio del epitoviroma y del efecto de las sustituciones de aminoácidos sobre la estructura tridimensional de ENV-D3, se observó que aunque se puedan calcular efectos estructurales, estos son mínimos y procuran conservar la estructura previamente establecida o nativa; sin embargo basados en su ubicación por dominios funcionales y su naturaleza química, algunos podrían estar dinamizando la presentación antigénica o de interacción de la superficie con la membrana. Esto podría sugerir que detrás de un cambio de residuo puede co-existir otro tipo de beneficio molecular que aumente la utilidad de su “limitado” recurso genético, que pudiese ser entendido como aleatorio si de selección natural episódica se habla; sin embargo, corroborar si le confiere una ventaja adaptativa particularmente a este serotipo queda fuera del alcance de este trabajo. Como resultado, para el presente trabajo se diseñó, complementó y empleó una estrategia computacional unificada que proporciona un modo de explorar de forma continua la diversidad de la información codificada en el genoma del DENV, desde perspectivas transversales de la bioinformática. Este estudio in silico permitió detectar ydescribir simultáneamente selección en tres niveles de representación del genoma, inicialmente nucleotídica en estructuras primarias de CDS y trinucleotídica atribuida a los codones codificantes para las poliproteínas virales. En segunda instancia de tipo dinucleotídica en estructuras 2D de RNA generadas de las subregiones codificantes del genoma y 3D indicado por el estudio del efecto de sustituciones NS sobre las coordenadas de una proteína cristalizada usada como plantilla. Finalmente, se oferta una contribución al estudio molecular del DENV gracias a la información aportada y la metodología aplicada, enriquecida por una selección rigurosa de recursos y métodos bioinformáticos que facilitan en un futuro, su reproducción para inspecciones transversales similares de otras moléculas y especies virales. Así mismo es posible considerar que estos resultados sean de apoyo a dilucidar mejor la compleja interacción DENV-hospedero y propositivamente en el posible uso de algunos de los elementos detectados aquí para el desarrollo de vehículos tradicionales o alternativos, que puedan contrarrestar los efectos en el deterioro de la salud que ocasiona el virus en la patología que desarrolla, particularmente basado en la continuación del epitorviroma modelo de este flavivirus de interés en salud pública mundial.Summary
The genetic diversity and evolution of the Dengue virus (DENV) has been a topic of attention in virology addressed to understand the interactions that arise between it and its hosts, which involves deciphering the development of its evasion mechanisms against the defense systems entrusted to continue the natural course of your viral cycle. However, some of these issues have been addressed separately, therefore it is important to explore in more detail the role that diversity encoded in the viral genome leaves as accumulated traces over time of circulation in different geographic niches, in addition to Detail if these could be related to the adaptation strategies of DENV acquired in the face of the selection pressure proposed by each factor involved during its trajectory between hosts. Until now, many of the studies have focused on understanding the possible impact that such selective pressure has on the composition of the virus at the level of its genomic sequence, focusing primarily on some genes by type of interest and their corresponding protein-translated products. Some of them have individually explored the proportion of mutations by serotypes or genotypes, establishing possible effects on the structure and consequent function of the viral proteins involved in the progression of the viral cycle. However, little progress has been made in the study of the secondary structure of the viral genome, since the genome being an RNA-like molecule, it acquires particular characteristics when folded, for which favorable interactions between nucleotide pairs are involved. Especially for different species of the Flavivirus genus, within which DENV has been classified, the highly conserved structured RNA regions located at the 3 'and 5' non-translatable ends (UTRs) of the viral genome have been previously studied. These extremes are crucial for the replicative cycles, the efficiency in the translation of the viral genome and the formation of small non-coding RNAs (ncRNAs) like fragments of subgenomic RNAs (sfRNAs) typical of flaviviruses. However, very little progress hasbeen made in the study of such fragments, their functional, structural and nucleotide diversity, taking into account their origin derived from the sequences with the potential to fold from the genome encoding or translatable genome, known as CDSs. Likewise, less is the scope advanced in relation to the existence of traces of selective processes on these structured subregions, compared to what has been detailed from the functional and coding perspective of the DENV genome or associated with the geographical distribution of the strains circulating. On the other hand, in order to contribute to the investigations that analyze the effects of natural selection at the level of these genomic subregions in the DENV, this thesis is developed. For this, the genome CDS and polyproteins registered mainly in the ViPR database until 2017 were selected, derived from human isolates reported from hyperendemic countries and with reports for the four DENV serotypes, located geographically over the tropics, the region where it predominates. the circulation of the vectors Aedes aegypti and Aedes albopictus, seeking an exhaustive search until obtaining a non-redundant equitable sample of sequences for each serotype by country. For the initial analysis, in order to detect inter and intra-serotype variability, multiple CDS sequence alignments were performed, which were entered as inputs for the calculation of diversity and codon selection studies; They were also used during the computation process arranged to calculate the conserved structured regions and on them a selective analysis discriminated by genomic subregions. After structural prediction for RNA sequences, ultra conserved RNA structured regions were identified and organized in windows classified according to the 12 subgenomic blocks delimited by each gene (including the 2K region, suggested as a putative NS4B signal peptide for its translocation in the endoplasmic reticulum, removed by cellular peptidases). Two types of selection analysis were then performed. The first codonic type on the complete CDS of alignments by country, region and serotype, discriminating nucleotide triplets by gene with mutations that as a result lead to synonymous (S) and non-synonymous (NS) mutations at the amino acid level. The second consisted of a dinucleotide selection analysis for the gene-overlapping predicted RNAs with possible folding. In order to detect shared or unselected selection patterns, S and NS mutations were classified for both translatable codons and their RNA structured counterpart. In order to establish a case of cross-sectional follow-up, a particular follow-up of the best-rated RNA substructures that shared this type of characteristics, located within the subgenomic coding block for Serotype 3 Envelope (DENV-3), was delimited to their underwent an additional exploration of epitopes as a pilot of the DENV epitoviroma followed by a structural study of the mutational effect on the three-dimensional structure of the encoded protein. For this, the files with 3D coordinates in PDB format existing in the Protein Data Bank were prepared, pre-processed to perform the replacement of rotamers of the NS of greatest interest identified for ENV-D3 to finish with an analysis of molecular dynamics mediated by the Amber program. From the analyzes carried out in this work, it was determined that in accordance with the well-documented purifying selection that Dengue virus presents at the genomic level, around fifteen ultra conserved structured windows of representative RNA were identified, depending on the gene, for the 4 serotypes and simultaneously referred to with few NS substitutions under diversifying selection for amino acids in their encoded component. In contrast, they have predominant synonymous substitutions that are compatible to promote the conservation of structure of these folding RNAs. However, the presence of highly conserved structured regions identified within the ORF (Open Reading Frame) of some genes was occasional, potentially associated with the evolution model by serotype, depending on the type of window strategy used, compensatory effect shown, and homology by alignment. What has been said so far contemplates the possibility that the possible diversification mechanism of this flavivirus in its four serotypes, simultaneously favors the possibility of forming ultra-conserved structures of RNAs and in turn conserving the coding regions from which they come; although a definition and validation of their functionality will be required by annotation and expression as potential ncRNAs, since the function of these structured subregions is unknown to date for DENV. From the analysis used as a guide for the exploratory analysis of the epitoviroma and the effect of amino acid substitutions on the three-dimensional structure of ENV-D3, it was observed that although structural effects can be calculated, they are minimal and try to preserve the previously established or native structure ; However, based on their location by functional domains and their chemical nature, some may be stimulating the antigenic presentation or interaction of the surface with the membrane. This could suggest that behind a change of residue, another type of molecular benefit may co-exist that increases the utility of its "limited" genetic resource, which could be understood as random if it is spoken of episodic natural selection; however, corroborating whether it confers an adaptive advantage particularly on this serotype is beyond the scope of this work. As a result, for the present work, a unified computational strategy was designed, complemented and used that provides a way to continuously explore the diversity of the information encoded in the DENV genome, from cross-sectional perspectives of bioinformatics. This in silico study allowed to simultaneously detect and describe selection at three levels of genome representation, initially nucleotide in primary CDS structures and trinucleotide attributed to codons coding for viral polyproteins. In the second instance of the dinucleotide type in 2D RNA structures generated from the genome coding subregions and 3D indicated by the study of the effect of NS substitutions on the coordinates of a crystallized protein used as a template. Finally, a contribution to the molecular study of DENV is offered thanks to the information provided and the applied methodology, enriched by a rigorous selection of bioinformatic resources and methods that will facilitate its reproduction in future for similar cross-sectional inspections of other viral molecules and species. Likewise, it is possible to consider that these results are in support of better elucidating the complex DENV-host interaction and purposely in the possible use of some of the elements detected here for the development of traditional or alternative vehicles, which may counteract the effects of deterioration. of the health caused by the virus in the pathology that it develops, particularly based on the continuation of the epitorviroma model of this flavivirus of interest in world public health.Keywords
Collections
This work is licensed under a Creative Commons Reconocimiento-NoComercial 4.0.This document has been deposited by the author (s) under the following certificate of deposit