Análisis de metodologías estadísticas en RNA-seq, con aplicación a cáncer de pulmón
Director
Tipo de contenido
Trabajo de grado - Maestría
Idioma del documento
EspañolFecha de publicación
2021Resumen
La identificación de genes expresados diferencialmente en un grupo de pacientes que padezcan una enfermedad, es un primer paso en el desarrollo de procedimientos para la detección temprana de dicha enfermedad en los pacientes control. Bajo esta premisa, un propósito deseable de algunas metodologías desarrolladas, es identificar los genes diferencialmente expresados de un conjunto de pacientes con cáncer de pulmón [19], enfermedad que cobra más de 150.000 vidas cada año en los Estados Unidos y cerca de 1.76 millones de muertes a nivel mundial [26]. Existen diferentes metodologías que permiten hallar los genes diferencialmente expresados, en la presente investigación se comparan tres de ellas Limma[22], Deseq2 [16] y Noiseq [10], haciendo uso de un conjuntos de datos simulados por medio del paquete de Bioconductor del software R de nombre compcodeR[27], que permite simular muestras de genes con características similares a un conjunto real, donde se conoce el porcentaje y el conjunto de genes que está diferencialmente expresado dentro de la matriz de conteos. Se generan tres matrices de conteos con 20 y 30 muestras, 30000 genes, 300 y 500 genes diferencialmente expresados, para las tres matrices se ejecutan las tres metodologías mencionadas, encontrando que es Deseq2 el método que encuentra el mayor número real de genes diferencialmente expresados y tiene un mejor porcentaje de Recall. Finalmente se aplica el método seleccionado, Deseq2, a las muestras recolectadas de pacientes con cáncer de pulmón, análisis de muestras de pacientes, de tejido epitelial pulmonar normal y tumores pulmonares de carcinoma de células escamosas [19]. La aplicación encuentra 7506 genes diferencialmente expresados. (Texto tomado de la fuente)Abstract
The identification of differentially expressed genes in a group of patients who have a disease is a first step in the procedures development for the early detection of the disease in control patients. Under this premise, a desirable purpose of some developed methodologies is to identify the differentially expressed genes of a set of patients with lung cancer[18], the disease claims more than 150.000 lives each other in the United States and almost of 1.76 million deaths in the world. There are different methodologies that allow to finding the differentially expressed genes. In this investigation, Limma [22], Deseq2 [16] and Noiseq [10] methodologies are compared, using a set of data simulated by means of the Bioconductor package of the R software called compcodeR citeAG49, which allows to simulate gene samples with similar characteristics to a real set, where the percentage and the set of diferentially expressed genes in the count matrix are known. Three counting matrices are generated with 20 and 30 samples, 30,000 genes, 300 and 500 differentially expressed genes, for the three matrices the three methodologies are executed, finding that Deseq2 is the method that finds the highest actual number of differentially expressed genes and has a better percentage of Recall. Finally, Deseq2 was apply into the clinical samples collected from patients with lung squamous cell carcinoma[19]. We found 7506 differentially expressed genes.Palabras clave
Lung cancer ; RNA-seq ; Bioinformática ; Noiseq ; Deseq2 ; Limma ; Bioconductor ; Cáncer de pulmón ;
Descripción Física/Lógica/Digital
ilustraciones, graficas
Colecciones
![Atribución-SinDerivadas 4.0 Internacional](/themes/Mirage2//images/creativecommons/cc-generic.png)