Análisis de metodologías estadísticas en RNA-seq, con aplicación a cáncer de pulmón

dc.contributor.advisorAlfonso Malaver, Carlos Eduardo
dc.contributor.authorCastañeda Valderrama, Paula Fernanda
dc.date.accessioned2022-06-13T20:36:57Z
dc.date.available2022-06-13T20:36:57Z
dc.date.issued2021
dc.descriptionilustraciones, graficasspa
dc.description.abstractLa identificación de genes expresados diferencialmente en un grupo de pacientes que padezcan una enfermedad, es un primer paso en el desarrollo de procedimientos para la detección temprana de dicha enfermedad en los pacientes control. Bajo esta premisa, un propósito deseable de algunas metodologías desarrolladas, es identificar los genes diferencialmente expresados de un conjunto de pacientes con cáncer de pulmón [19], enfermedad que cobra más de 150.000 vidas cada año en los Estados Unidos y cerca de 1.76 millones de muertes a nivel mundial [26]. Existen diferentes metodologías que permiten hallar los genes diferencialmente expresados, en la presente investigación se comparan tres de ellas Limma[22], Deseq2 [16] y Noiseq [10], haciendo uso de un conjuntos de datos simulados por medio del paquete de Bioconductor del software R de nombre compcodeR[27], que permite simular muestras de genes con características similares a un conjunto real, donde se conoce el porcentaje y el conjunto de genes que está diferencialmente expresado dentro de la matriz de conteos. Se generan tres matrices de conteos con 20 y 30 muestras, 30000 genes, 300 y 500 genes diferencialmente expresados, para las tres matrices se ejecutan las tres metodologías mencionadas, encontrando que es Deseq2 el método que encuentra el mayor número real de genes diferencialmente expresados y tiene un mejor porcentaje de Recall. Finalmente se aplica el método seleccionado, Deseq2, a las muestras recolectadas de pacientes con cáncer de pulmón, análisis de muestras de pacientes, de tejido epitelial pulmonar normal y tumores pulmonares de carcinoma de células escamosas [19]. La aplicación encuentra 7506 genes diferencialmente expresados. (Texto tomado de la fuente)spa
dc.description.abstractThe identification of differentially expressed genes in a group of patients who have a disease is a first step in the procedures development for the early detection of the disease in control patients. Under this premise, a desirable purpose of some developed methodologies is to identify the differentially expressed genes of a set of patients with lung cancer[18], the disease claims more than 150.000 lives each other in the United States and almost of 1.76 million deaths in the world. There are different methodologies that allow to finding the differentially expressed genes. In this investigation, Limma [22], Deseq2 [16] and Noiseq [10] methodologies are compared, using a set of data simulated by means of the Bioconductor package of the R software called compcodeR citeAG49, which allows to simulate gene samples with similar characteristics to a real set, where the percentage and the set of diferentially expressed genes in the count matrix are known. Three counting matrices are generated with 20 and 30 samples, 30,000 genes, 300 and 500 differentially expressed genes, for the three matrices the three methodologies are executed, finding that Deseq2 is the method that finds the highest actual number of differentially expressed genes and has a better percentage of Recall. Finally, Deseq2 was apply into the clinical samples collected from patients with lung squamous cell carcinoma[19]. We found 7506 differentially expressed genes.eng
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Bioinformáticaspa
dc.description.researchareaBioinformática funcional y estructuralspa
dc.format.extentxiii, 64 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.identifier.instnameUniversidad Nacional de Colombiaspa
dc.identifier.reponameRepositorio Institucional Universidad Nacional de Colombiaspa
dc.identifier.repourlhttps://repositorio.unal.edu.co/spa
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/81575
dc.language.isospaspa
dc.publisherUniversidad Nacional de Colombiaspa
dc.publisher.branchUniversidad Nacional de Colombia - Sede Bogotáspa
dc.publisher.departmentDepartamento de Ingeniería de Sistemas e Industrialspa
dc.publisher.facultyFacultad de Ingenieríaspa
dc.publisher.placeBogotá, Colombiaspa
dc.publisher.programBogotá - Ingeniería - Maestría en Bioinformáticaspa
dc.relation.referencesAliferis, C. ; Hardin, D. ; Massion, P.: Machine learning models for lung cancer classification using array comparative genomic hybridization. En: Annual Symposium AMIA. (2002)spa
dc.relation.referencesAurélien , Géron: Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow. Canada : OREILLY, 2019spa
dc.relation.referencesBhattacharjee, A ; Richards, W G. ; Staunton, J ; Li, C ; et al.: Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses. En: Proc Natl Acad Sci U.S.A (2001)spa
dc.relation.referencesVeiga de Cabo, J. ; De la fuente, E. ; Zimmermann, V. ; et al.: Modelos de estudios en investigación aplicada: conceptos y criterios para el diseño. Madrid, 2008spa
dc.relation.referencesCadena, P. ; Rendón, R. ; et al.: Quantitative methods, qualitative methods or combination of research: an approach in the social sciences. México, 2017spa
dc.relation.referencesChamorro, C. ; Merino, D.: Análisis de datos de RNA-Seq empleando diferentes paquetes desarrollados dentro del proyecto Bioconductor para estudios de expresión génica diferencial. Cataluya, 2019spa
dc.relation.referencesChen, Y ; McCarthy, D ; Lun, A ; Zhou, X ; Robinson, M ; Smyth., G K.: edgeR Package Introduction. En: Bioconductor (2014)spa
dc.relation.referencesCreswell, J.: Research Design: Qualitative, Quantitative, and Mixed Methods Approaches. 2008spa
dc.relation.referencesFox, R. ; Dimmic, M. ; Trafford, A. ; Zhang, H. ; Kitmitto, A.: A twosample Bayesian t-test for microarray data. USA, 2006spa
dc.relation.referencesGK, Smyth: Linear models and empirical Bayes methods for assessing differential expression in microarray experiments. En: Stat Appl Genet Mol Biol 3 (2004), p. 1–25spa
dc.relation.referencesHan, H. ; Li, X.: Multi-resolution independent component analysis for high-performance tumor classification and biomarker discovery. Inchon, Korea, 2011spa
dc.relation.referencesHan, X.: Nonnegative principal component analysis for cancer molecular pattern discovery. China, 2010spa
dc.relation.referencesJiménez, V. ; Vega, L.: Flujo Bioinformático para el Análisis de Expresión Diferencial. México, 2014spa
dc.relation.referencesKim, B. ; et al.: Clinical Validity of the Lung Cancer Biomarkers Identified by Bioinformatics Analysis of Public Expression Data. Seoul,Korea, 2007spa
dc.relation.referencesL., Kline: Introducción al análisis de datos de microarreglos: pre- procesamiento y manejo de datos de expresión en R. Colombia, 2019spa
dc.relation.referencesLove, M.I. ; Huber, W. ; Anders, S.: Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. En: Ind. Eng. Chem. Res. Genome Biol 15 (2014), p. 550spa
dc.relation.referencesLu, W. ; Chen, L. ; Fu, D. ; Kong, X. ; et al.: FOLFOX treatment response prediction in metastatic or recurrent colorectal cancer patients via machine learning algorithms. China, 2020spa
dc.relation.referencesMcDermaid, A ; Monier, B ; Zhao, J ; Liu, B ; Ma, Q.: Interpretation of differential gene expression result of RNA-seq data: review and integration. 2018spa
dc.relation.referencesPV, Nazarov ; A, Muller ; T, Kaoma ; et al., Nicot N.: RNA sequencing and transcriptome arrays analyses show opposing results for alternative splicing in patient derived samples. En: BMC Genomics (2017)spa
dc.relation.referencesRitchie, Matthew E. ; Phipson, Belinda ; Wu, Di ; Hu, Yifang ; Law, Charity W. ; Shi, Wei ; Smyth, Gordon K. limma powers differential expression analyses for RNA-sequencing and microarray studies. 20 enero 2015spa
dc.relation.referencesRodríguez, Cubillos A. ; Perlaza, Jiménez L. ; Bernal Giraldo, AJ.: Analizando datos de RNA-Seq en procariotas: una revisión para no expertos. Colombia, 2014spa
dc.relation.referencesS., Tarazona ; F., García ; A., Ferrer ; J., Dopazo ; A., Conesa. NOIseq a RNA-seq differential expression method robust for sequencing depth biases. 2012spa
dc.relation.referencesSánchez, S.: Análisis de datos de RNA-seq comparación de métodos para el estudio de expresión génica diferencial. España, 2015spa
dc.relation.referencesSiegel, R. ; Ma, J. ; Zou, Z. ; Jemal, A.: Cancer Statistics. USA, 2014spa
dc.relation.referencesSmyth, Gordon K. ; Ritchie, Matthew ; Thorne, Natalie ; Wettenhall, James ; Shi, Wei ; Division, Yifang Hu B. ; Walter, The ; of Medical Research, Eliza Hall I. ; Melbourne ; Australia. Linear Models for Microarray and RNA-Seq Data User´s Guide. Noviembre 14, 2021spa
dc.relation.referencesSociety, American C. https://www.cancer.org/es/cancer/cancer-de-pulmon/. Recuperado el 01 de octubre 2020spa
dc.relation.referencesSoneson ; Delorenz: generateSyntheticData: Generate synthetic count data sets. En: R Documentation (2013)spa
dc.relation.referencesSoneson, Charlotte. Package compcodeR. Enero 20, 2022spa
dc.relation.referencesTarazona, S. ; García , F. ; Dopazo, J. ; Ferrer, A. ; Conesa, A.: Differential expression in RNA-seq: A matter of depth. Valencia, España, 2011spa
dc.relation.referencesVanegas, L.: Modelos Lineales Generalizados. Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia., 2016spa
dc.relation.referencesZararsis, G. ; et al.: A comprehensive simulation study on classification of RNA-seq data. 2017spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.licenseAtribución-SinDerivadas 4.0 Internacionalspa
dc.rights.urihttp://creativecommons.org/licenses/by-nd/4.0/spa
dc.subject.ddc000 - Ciencias de la computación, información y obras generalesspa
dc.subject.lembESTADISTICA-METODOLOGIAspa
dc.subject.lembStatistics - methodologyeng
dc.subject.proposalLung cancereng
dc.subject.proposalRNA-seqeng
dc.subject.proposalBioinformáticaspa
dc.subject.proposalNoiseqeng
dc.subject.proposalDeseq2eng
dc.subject.proposalLimmaeng
dc.subject.proposalBioconductorspa
dc.subject.proposalCáncer de pulmónspa
dc.titleAnálisis de metodologías estadísticas en RNA-seq, con aplicación a cáncer de pulmónspa
dc.title.translatedAnalysis of statistical methodologies in RNA-seq, with application to lung cancereng
dc.typeTrabajo de grado - Maestríaspa
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aaspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttp://purl.org/redcol/resource_type/TMspa
dc.type.versioninfo:eu-repo/semantics/acceptedVersionspa
dcterms.audience.professionaldevelopmentPúblico generalspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa

Archivos

Bloque original

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
1016060566.2021.2022.pdf
Tamaño:
3.3 MB
Formato:
Adobe Portable Document Format
Descripción:
Tesis de Maestría en Bioinformática

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
3.98 KB
Formato:
Item-specific license agreed upon to submission
Descripción: