Mostrar el registro sencillo del documento

dc.rights.licenseAtribución-SinDerivadas 4.0 Internacional
dc.contributor.advisorAlfonso Malaver, Carlos Eduardo
dc.contributor.authorCastañeda Valderrama, Paula Fernanda
dc.date.accessioned2022-06-13T20:36:57Z
dc.date.available2022-06-13T20:36:57Z
dc.date.issued2021
dc.identifier.urihttps://repositorio.unal.edu.co/handle/unal/81575
dc.descriptionilustraciones, graficas
dc.description.abstractLa identificación de genes expresados diferencialmente en un grupo de pacientes que padezcan una enfermedad, es un primer paso en el desarrollo de procedimientos para la detección temprana de dicha enfermedad en los pacientes control. Bajo esta premisa, un propósito deseable de algunas metodologías desarrolladas, es identificar los genes diferencialmente expresados de un conjunto de pacientes con cáncer de pulmón [19], enfermedad que cobra más de 150.000 vidas cada año en los Estados Unidos y cerca de 1.76 millones de muertes a nivel mundial [26]. Existen diferentes metodologías que permiten hallar los genes diferencialmente expresados, en la presente investigación se comparan tres de ellas Limma[22], Deseq2 [16] y Noiseq [10], haciendo uso de un conjuntos de datos simulados por medio del paquete de Bioconductor del software R de nombre compcodeR[27], que permite simular muestras de genes con características similares a un conjunto real, donde se conoce el porcentaje y el conjunto de genes que está diferencialmente expresado dentro de la matriz de conteos. Se generan tres matrices de conteos con 20 y 30 muestras, 30000 genes, 300 y 500 genes diferencialmente expresados, para las tres matrices se ejecutan las tres metodologías mencionadas, encontrando que es Deseq2 el método que encuentra el mayor número real de genes diferencialmente expresados y tiene un mejor porcentaje de Recall. Finalmente se aplica el método seleccionado, Deseq2, a las muestras recolectadas de pacientes con cáncer de pulmón, análisis de muestras de pacientes, de tejido epitelial pulmonar normal y tumores pulmonares de carcinoma de células escamosas [19]. La aplicación encuentra 7506 genes diferencialmente expresados. (Texto tomado de la fuente)
dc.description.abstractThe identification of differentially expressed genes in a group of patients who have a disease is a first step in the procedures development for the early detection of the disease in control patients. Under this premise, a desirable purpose of some developed methodologies is to identify the differentially expressed genes of a set of patients with lung cancer[18], the disease claims more than 150.000 lives each other in the United States and almost of 1.76 million deaths in the world. There are different methodologies that allow to finding the differentially expressed genes. In this investigation, Limma [22], Deseq2 [16] and Noiseq [10] methodologies are compared, using a set of data simulated by means of the Bioconductor package of the R software called compcodeR citeAG49, which allows to simulate gene samples with similar characteristics to a real set, where the percentage and the set of diferentially expressed genes in the count matrix are known. Three counting matrices are generated with 20 and 30 samples, 30,000 genes, 300 and 500 differentially expressed genes, for the three matrices the three methodologies are executed, finding that Deseq2 is the method that finds the highest actual number of differentially expressed genes and has a better percentage of Recall. Finally, Deseq2 was apply into the clinical samples collected from patients with lung squamous cell carcinoma[19]. We found 7506 differentially expressed genes.
dc.format.extentxiii, 64 páginas
dc.format.mimetypeapplication/pdf
dc.language.isospa
dc.publisherUniversidad Nacional de Colombia
dc.rights.urihttp://creativecommons.org/licenses/by-nd/4.0/
dc.subject.ddc000 - Ciencias de la computación, información y obras generales
dc.titleAnálisis de metodologías estadísticas en RNA-seq, con aplicación a cáncer de pulmón
dc.typeTrabajo de grado - Maestría
dc.type.driverinfo:eu-repo/semantics/masterThesis
dc.type.versioninfo:eu-repo/semantics/acceptedVersion
dc.publisher.programBogotá - Ingeniería - Maestría en Bioinformática
dc.description.degreelevelMaestría
dc.description.degreenameMagíster en Bioinformática
dc.description.researchareaBioinformática funcional y estructural
dc.identifier.instnameUniversidad Nacional de Colombia
dc.identifier.reponameRepositorio Institucional Universidad Nacional de Colombia
dc.identifier.repourlhttps://repositorio.unal.edu.co/
dc.publisher.departmentDepartamento de Ingeniería de Sistemas e Industrial
dc.publisher.facultyFacultad de Ingeniería
dc.publisher.placeBogotá, Colombia
dc.publisher.branchUniversidad Nacional de Colombia - Sede Bogotá
dc.relation.referencesAliferis, C. ; Hardin, D. ; Massion, P.: Machine learning models for lung cancer classification using array comparative genomic hybridization. En: Annual Symposium AMIA. (2002)
dc.relation.referencesAurélien , Géron: Hands-on Machine Learning with Scikit-Learn, Keras & TensorFlow. Canada : OREILLY, 2019
dc.relation.referencesBhattacharjee, A ; Richards, W G. ; Staunton, J ; Li, C ; et al.: Classification of human lung carcinomas by mRNA expression profiling reveals distinct adenocarcinoma subclasses. En: Proc Natl Acad Sci U.S.A (2001)
dc.relation.referencesVeiga de Cabo, J. ; De la fuente, E. ; Zimmermann, V. ; et al.: Modelos de estudios en investigación aplicada: conceptos y criterios para el diseño. Madrid, 2008
dc.relation.referencesCadena, P. ; Rendón, R. ; et al.: Quantitative methods, qualitative methods or combination of research: an approach in the social sciences. México, 2017
dc.relation.referencesChamorro, C. ; Merino, D.: Análisis de datos de RNA-Seq empleando diferentes paquetes desarrollados dentro del proyecto Bioconductor para estudios de expresión génica diferencial. Cataluya, 2019
dc.relation.referencesChen, Y ; McCarthy, D ; Lun, A ; Zhou, X ; Robinson, M ; Smyth., G K.: edgeR Package Introduction. En: Bioconductor (2014)
dc.relation.referencesCreswell, J.: Research Design: Qualitative, Quantitative, and Mixed Methods Approaches. 2008
dc.relation.referencesFox, R. ; Dimmic, M. ; Trafford, A. ; Zhang, H. ; Kitmitto, A.: A twosample Bayesian t-test for microarray data. USA, 2006
dc.relation.referencesGK, Smyth: Linear models and empirical Bayes methods for assessing differential expression in microarray experiments. En: Stat Appl Genet Mol Biol 3 (2004), p. 1–25
dc.relation.referencesHan, H. ; Li, X.: Multi-resolution independent component analysis for high-performance tumor classification and biomarker discovery. Inchon, Korea, 2011
dc.relation.referencesHan, X.: Nonnegative principal component analysis for cancer molecular pattern discovery. China, 2010
dc.relation.referencesJiménez, V. ; Vega, L.: Flujo Bioinformático para el Análisis de Expresión Diferencial. México, 2014
dc.relation.referencesKim, B. ; et al.: Clinical Validity of the Lung Cancer Biomarkers Identified by Bioinformatics Analysis of Public Expression Data. Seoul,Korea, 2007
dc.relation.referencesL., Kline: Introducción al análisis de datos de microarreglos: pre- procesamiento y manejo de datos de expresión en R. Colombia, 2019
dc.relation.referencesLove, M.I. ; Huber, W. ; Anders, S.: Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. En: Ind. Eng. Chem. Res. Genome Biol 15 (2014), p. 550
dc.relation.referencesLu, W. ; Chen, L. ; Fu, D. ; Kong, X. ; et al.: FOLFOX treatment response prediction in metastatic or recurrent colorectal cancer patients via machine learning algorithms. China, 2020
dc.relation.referencesMcDermaid, A ; Monier, B ; Zhao, J ; Liu, B ; Ma, Q.: Interpretation of differential gene expression result of RNA-seq data: review and integration. 2018
dc.relation.referencesPV, Nazarov ; A, Muller ; T, Kaoma ; et al., Nicot N.: RNA sequencing and transcriptome arrays analyses show opposing results for alternative splicing in patient derived samples. En: BMC Genomics (2017)
dc.relation.referencesRitchie, Matthew E. ; Phipson, Belinda ; Wu, Di ; Hu, Yifang ; Law, Charity W. ; Shi, Wei ; Smyth, Gordon K. limma powers differential expression analyses for RNA-sequencing and microarray studies. 20 enero 2015
dc.relation.referencesRodríguez, Cubillos A. ; Perlaza, Jiménez L. ; Bernal Giraldo, AJ.: Analizando datos de RNA-Seq en procariotas: una revisión para no expertos. Colombia, 2014
dc.relation.referencesS., Tarazona ; F., García ; A., Ferrer ; J., Dopazo ; A., Conesa. NOIseq a RNA-seq differential expression method robust for sequencing depth biases. 2012
dc.relation.referencesSánchez, S.: Análisis de datos de RNA-seq comparación de métodos para el estudio de expresión génica diferencial. España, 2015
dc.relation.referencesSiegel, R. ; Ma, J. ; Zou, Z. ; Jemal, A.: Cancer Statistics. USA, 2014
dc.relation.referencesSmyth, Gordon K. ; Ritchie, Matthew ; Thorne, Natalie ; Wettenhall, James ; Shi, Wei ; Division, Yifang Hu B. ; Walter, The ; of Medical Research, Eliza Hall I. ; Melbourne ; Australia. Linear Models for Microarray and RNA-Seq Data User´s Guide. Noviembre 14, 2021
dc.relation.referencesSociety, American C. https://www.cancer.org/es/cancer/cancer-de-pulmon/. Recuperado el 01 de octubre 2020
dc.relation.referencesSoneson ; Delorenz: generateSyntheticData: Generate synthetic count data sets. En: R Documentation (2013)
dc.relation.referencesSoneson, Charlotte. Package compcodeR. Enero 20, 2022
dc.relation.referencesTarazona, S. ; García , F. ; Dopazo, J. ; Ferrer, A. ; Conesa, A.: Differential expression in RNA-seq: A matter of depth. Valencia, España, 2011
dc.relation.referencesVanegas, L.: Modelos Lineales Generalizados. Facultad de Ciencias, Universidad Nacional de Colombia, Bogotá, Colombia., 2016
dc.relation.referencesZararsis, G. ; et al.: A comprehensive simulation study on classification of RNA-seq data. 2017
dc.rights.accessrightsinfo:eu-repo/semantics/openAccess
dc.subject.lembESTADISTICA-METODOLOGIA
dc.subject.lembStatistics - methodology
dc.subject.proposalLung cancer
dc.subject.proposalRNA-seq
dc.subject.proposalBioinformática
dc.subject.proposalNoiseq
dc.subject.proposalDeseq2
dc.subject.proposalLimma
dc.subject.proposalBioconductor
dc.subject.proposalCáncer de pulmón
dc.title.translatedAnalysis of statistical methodologies in RNA-seq, with application to lung cancer
dc.type.coarhttp://purl.org/coar/resource_type/c_bdcc
dc.type.coarversionhttp://purl.org/coar/version/c_ab4af688f83e57aa
dc.type.contentText
dc.type.redcolhttp://purl.org/redcol/resource_type/TM
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2
dcterms.audience.professionaldevelopmentPúblico general


Archivos en el documento

Thumbnail

Este documento aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del documento

Atribución-SinDerivadas 4.0 InternacionalEsta obra está bajo licencia internacional Creative Commons Reconocimiento-NoComercial 4.0.Este documento ha sido depositado por parte de el(los) autor(es) bajo la siguiente constancia de depósito