Mostrar el registro sencillo del documento
Análisis de metodologías estadísticas en RNA-seq, con aplicación a cáncer de pulmón
dc.rights.license | Atribución-SinDerivadas 4.0 Internacional |
dc.contributor.advisor | Alfonso Malaver, Carlos Eduardo |
dc.contributor.author | Castañeda Valderrama, Paula Fernanda |
dc.date.accessioned | 2022-06-13T20:36:57Z |
dc.date.available | 2022-06-13T20:36:57Z |
dc.date.issued | 2021 |
dc.identifier.uri | https://repositorio.unal.edu.co/handle/unal/81575 |
dc.description | ilustraciones, graficas |
dc.description.abstract | La identificación de genes expresados diferencialmente en un grupo de pacientes que padezcan una enfermedad, es un primer paso en el desarrollo de procedimientos para la detección temprana de dicha enfermedad en los pacientes control. Bajo esta premisa, un propósito deseable de algunas metodologías desarrolladas, es identificar los genes diferencialmente expresados de un conjunto de pacientes con cáncer de pulmón [19], enfermedad que cobra más de 150.000 vidas cada año en los Estados Unidos y cerca de 1.76 millones de muertes a nivel mundial [26]. Existen diferentes metodologías que permiten hallar los genes diferencialmente expresados, en la presente investigación se comparan tres de ellas Limma[22], Deseq2 [16] y Noiseq [10], haciendo uso de un conjuntos de datos simulados por medio del paquete de Bioconductor del software R de nombre compcodeR[27], que permite simular muestras de genes con características similares a un conjunto real, donde se conoce el porcentaje y el conjunto de genes que está diferencialmente expresado dentro de la matriz de conteos. Se generan tres matrices de conteos con 20 y 30 muestras, 30000 genes, 300 y 500 genes diferencialmente expresados, para las tres matrices se ejecutan las tres metodologías mencionadas, encontrando que es Deseq2 el método que encuentra el mayor número real de genes diferencialmente expresados y tiene un mejor porcentaje de Recall. Finalmente se aplica el método seleccionado, Deseq2, a las muestras recolectadas de pacientes con cáncer de pulmón, análisis de muestras de pacientes, de tejido epitelial pulmonar normal y tumores pulmonares de carcinoma de células escamosas [19]. La aplicación encuentra 7506 genes diferencialmente expresados. (Texto tomado de la fuente) |
dc.description.abstract | The identification of differentially expressed genes in a group of patients who have a disease is a first step in the procedures development for the early detection of the disease in control patients. Under this premise, a desirable purpose of some developed methodologies is to identify the differentially expressed genes of a set of patients with lung cancer[18], the disease claims more than 150.000 lives each other in the United States and almost of 1.76 million deaths in the world. There are different methodologies that allow to finding the differentially expressed genes. In this investigation, Limma [22], Deseq2 [16] and Noiseq [10] methodologies are compared, using a set of data simulated by means of the Bioconductor package of the R software called compcodeR citeAG49, which allows to simulate gene samples with similar characteristics to a real set, where the percentage and the set of diferentially expressed genes in the count matrix are known. Three counting matrices are generated with 20 and 30 samples, 30,000 genes, 300 and 500 differentially expressed genes, for the three matrices the three methodologies are executed, finding that Deseq2 is the method that finds the highest actual number of differentially expressed genes and has a better percentage of Recall. Finally, Deseq2 was apply into the clinical samples collected from patients with lung squamous cell carcinoma[19]. We found 7506 differentially expressed genes. |
dc.format.extent | xiii, 64 páginas |
dc.format.mimetype | application/pdf |
dc.language.iso | spa |
dc.publisher | Universidad Nacional de Colombia |
dc.rights.uri | http://creativecommons.org/licenses/by-nd/4.0/ |
dc.subject.ddc | 000 - Ciencias de la computación, información y obras generales |
dc.title | Análisis de metodologías estadísticas en RNA-seq, con aplicación a cáncer de pulmón |
dc.type | Trabajo de grado - Maestría |
dc.type.driver | info:eu-repo/semantics/masterThesis |
dc.type.version | info:eu-repo/semantics/acceptedVersion |
dc.publisher.program | Bogotá - Ingeniería - Maestría en Bioinformática |
dc.description.degreelevel | Maestría |
dc.description.degreename | Magíster en Bioinformática |
dc.description.researcharea | Bioinformática funcional y estructural |
dc.identifier.instname | Universidad Nacional de Colombia |
dc.identifier.reponame | Repositorio Institucional Universidad Nacional de Colombia |
dc.identifier.repourl | https://repositorio.unal.edu.co/ |
dc.publisher.department | Departamento de Ingeniería de Sistemas e Industrial |
dc.publisher.faculty | Facultad de Ingeniería |
dc.publisher.place | Bogotá, Colombia |
dc.publisher.branch | Universidad Nacional de Colombia - Sede Bogotá |
dc.relation.references | Aliferis, C. ; Hardin, D. ; Massion, P.: Machine learning models for lung cancer classification using array comparative genomic hybridization. En: Annual Symposium AMIA. (2002) |
dc.relation.references | Aurélien , Géron: Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow. Canada : OREILLY, 2019 |
dc.relation.references | Bhattacharjee, A ; Richards, W G. ; Staunton, J ; Li, C ; et al.: Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses. En: Proc Natl Acad Sci U.S.A (2001) |
dc.relation.references | Veiga de Cabo, J. ; De la fuente, E. ; Zimmermann, V. ; et al.: Modelos de estudios en investigación aplicada: conceptos y criterios para el diseño. Madrid, 2008 |
dc.relation.references | Cadena, P. ; Rendón, R. ; et al.: Quantitative methods, qualitative methods or combination of research: an approach in the social sciences. México, 2017 |
dc.relation.references | Chamorro, C. ; Merino, D.: Análisis de datos de RNA-Seq empleando diferentes paquetes desarrollados dentro del proyecto Bioconductor para estudios de expresión génica diferencial. Cataluya, 2019 |
dc.relation.references | Chen, Y ; McCarthy, D ; Lun, A ; Zhou, X ; Robinson, M ; Smyth., G K.: edgeR Package Introduction. En: Bioconductor (2014) |
dc.relation.references | Creswell, J.: Research Design: Qualitative, Quantitative, and Mixed Methods Approaches. 2008 |
dc.relation.references | Fox, R. ; Dimmic, M. ; Trafford, A. ; Zhang, H. ; Kitmitto, A.: A twosample Bayesian t-test for microarray data. USA, 2006 |
dc.relation.references | GK, Smyth: Linear models and empirical Bayes methods for assessing differential expression in microarray experiments. En: Stat Appl Genet Mol Biol 3 (2004), p. 1–25 |
dc.relation.references | Han, H. ; Li, X.: Multi-resolution independent component analysis for high-performance tumor classification and biomarker discovery. Inchon, Korea, 2011 |
dc.relation.references | Han, X.: Nonnegative principal component analysis for cancer molecular pattern discovery. China, 2010 |
dc.relation.references | Jiménez, V. ; Vega, L.: Flujo Bioinformático para el Análisis de Expresión Diferencial. México, 2014 |
dc.relation.references | Kim, B. ; et al.: Clinical Validity of the Lung Cancer Biomarkers Identified by Bioinformatics Analysis of Public Expression Data. Seoul,Korea, 2007 |
dc.relation.references | L., Kline: Introducción al análisis de datos de microarreglos: pre- procesamiento y manejo de datos de expresión en R. Colombia, 2019 |
dc.relation.references | Love, M.I. ; Huber, W. ; Anders, S.: Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. En: Ind. Eng. Chem. Res. Genome Biol 15 (2014), p. 550 |
dc.relation.references | Lu, W. ; Chen, L. ; Fu, D. ; Kong, X. ; et al.: FOLFOX treatment response prediction in metastatic or recurrent colorectal cancer patients via machine learning algorithms. China, 2020 |
dc.relation.references | McDermaid, A ; Monier, B ; Zhao, J ; Liu, B ; Ma, Q.: Interpretation of differential gene expression result of RNA-seq data: review and integration. 2018 |
dc.relation.references | PV, Nazarov ; A, Muller ; T, Kaoma ; et al., Nicot N.: RNA sequencing and transcriptome arrays analyses show opposing results for alternative splicing in patient derived samples. En: BMC Genomics (2017) |
dc.relation.references | Ritchie, Matthew E. ; Phipson, Belinda ; Wu, Di ; Hu, Yifang ; Law, Charity W. ; Shi, Wei ; Smyth, Gordon K. limma powers differential expression analyses for RNA-sequencing and microarray studies. 20 enero 2015 |
dc.relation.references | Rodríguez, Cubillos A. ; Perlaza, Jiménez L. ; Bernal Giraldo, AJ.: Analizando datos de RNA-Seq en procariotas: una revisión para no expertos. Colombia, 2014 |
dc.relation.references | S., Tarazona ; F., García ; A., Ferrer ; J., Dopazo ; A., Conesa. NOIseq a RNA-seq differential expression method robust for sequencing depth biases. 2012 |
dc.relation.references | Sánchez, S.: Análisis de datos de RNA-seq comparación de métodos para el estudio de expresión génica diferencial. España, 2015 |
dc.relation.references | Siegel, R. ; Ma, J. ; Zou, Z. ; Jemal, A.: Cancer Statistics. USA, 2014 |
dc.relation.references | Smyth, Gordon K. ; Ritchie, Matthew ; Thorne, Natalie ; Wettenhall, James ; Shi, Wei ; Division, Yifang Hu B. ; Walter, The ; of Medical Research, Eliza Hall I. ; Melbourne ; Australia. Linear Models for Microarray and RNA-Seq Data User´s Guide. Noviembre 14, 2021 |
dc.relation.references | Society, American C. https://www.cancer.org/es/cancer/cancer-de-pulmon/. Recuperado el 01 de octubre 2020 |
dc.relation.references | Soneson ; Delorenz: generateSyntheticData: Generate synthetic count data sets. En: R Documentation (2013) |
dc.relation.references | Soneson, Charlotte. Package compcodeR. Enero 20, 2022 |
dc.relation.references | Tarazona, S. ; García , F. ; Dopazo, J. ; Ferrer, A. ; Conesa, A.: Differential expression in RNA-seq: A matter of depth. Valencia, España, 2011 |
dc.relation.references | Vanegas, L.: Modelos Lineales Generalizados. Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia., 2016 |
dc.relation.references | Zararsis, G. ; et al.: A comprehensive simulation study on classification of RNA-seq data. 2017 |
dc.rights.accessrights | info:eu-repo/semantics/openAccess |
dc.subject.lemb | ESTADISTICA-METODOLOGIA |
dc.subject.lemb | Statistics - methodology |
dc.subject.proposal | Lung cancer |
dc.subject.proposal | RNA-seq |
dc.subject.proposal | Bioinformática |
dc.subject.proposal | Noiseq |
dc.subject.proposal | Deseq2 |
dc.subject.proposal | Limma |
dc.subject.proposal | Bioconductor |
dc.subject.proposal | Cáncer de pulmón |
dc.title.translated | Analysis of statistical methodologies in RNA-seq, with application to lung cancer |
dc.type.coar | http://purl.org/coar/resource_type/c_bdcc |
dc.type.coarversion | http://purl.org/coar/version/c_ab4af688f83e57aa |
dc.type.content | Text |
dc.type.redcol | http://purl.org/redcol/resource_type/TM |
oaire.accessrights | http://purl.org/coar/access_right/c_abf2 |
dcterms.audience.professionaldevelopment | Público general |
Archivos en el documento
Este documento aparece en la(s) siguiente(s) colección(ones)
Esta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial 4.0.Este documento ha sido depositado por parte de el(los) autor(es) bajo la siguiente constancia de depósito