Strategy for multivariate Identification of diferentially expressed genes in microarray data
Autores
Acosta Rivera, Juan Pablo
Director
Tipo de contenido
Trabajo de grado - Maestría
Idioma del documento
EspañolFecha de publicación
2015-05-19
Título de la revista
ISSN de la revista
Título del volumen
Documentos PDF
Resumen
Abstract. Microarray technology has become one of the most important tools in understanding genetic expression in biological processes. As microarrays contain measurements of thousands of genes' expression levels across multiple conditions, identification of differentially expressed genes will necessarily involve data mining or large scale multiple testing procedures. To the date, advances in this regard have either been multivariate but descriptive, or inferential but univariate. In this work, we present a new multivariate inferential analysis method for detecting differentially expressed genes in microarray data. It estimates the positive false discovery rate (pFDR) using artificial components close to the data's principal components, but with an exact interpretation in terms of differential gene expression. Our method works best under very common assumptions and gives way to a new understanding of genetic differential expression in microarray data. We provide a methodology to analyse time course microarray experiments and some guidelines for assessing whether the required assumptions hold. We illustrate our method on two publicly available microarray data sets.
Los microarreglos de ADN se han convertido en una de las herramientas más importantes para entender la expresión génica en procesos biológicos. Como cada microarreglo contiene mediciones del nivel de expressión de miles de genes en múltiples condiciones, la identificación de genes diferencialmente expresados involucra necesariamente minería de datos o pruebas de hipótesis múltiples a gran escala. Hasta hoy, avances en este campo han sido o bien multivariados pero descriptivos, o bien inferenciales pero univariados. En este trabajo, presentamos un nuevo método inferencial y multivariado para identificar genes diferencialmente expresados en microarreglos de ADN. Estimamos la tasa positiva de falsos positivos (pFDR) utilizando componentes artificiales cercanos a los componentes principales de los datos, pero con una interpretación exacta en términos de expresión génica diferencial. Nuestro método funciona mejor bajo algunos supuestos muy comunes y da lugar a un nuevo entendimiento de la expresión diferencial en datos de microarreglos. Planteamos una metodología para analizar microarreglos con múltiples puntos en el tiempo y damos guías heurísticas para determinar si los supuestos necesarios se cumplen en una determinada base de datos. Ilustramos nuestro método con dos bases de datos públicas de microarreglos de ADN.
Los microarreglos de ADN se han convertido en una de las herramientas más importantes para entender la expresión génica en procesos biológicos. Como cada microarreglo contiene mediciones del nivel de expressión de miles de genes en múltiples condiciones, la identificación de genes diferencialmente expresados involucra necesariamente minería de datos o pruebas de hipótesis múltiples a gran escala. Hasta hoy, avances en este campo han sido o bien multivariados pero descriptivos, o bien inferenciales pero univariados. En este trabajo, presentamos un nuevo método inferencial y multivariado para identificar genes diferencialmente expresados en microarreglos de ADN. Estimamos la tasa positiva de falsos positivos (pFDR) utilizando componentes artificiales cercanos a los componentes principales de los datos, pero con una interpretación exacta en términos de expresión génica diferencial. Nuestro método funciona mejor bajo algunos supuestos muy comunes y da lugar a un nuevo entendimiento de la expresión diferencial en datos de microarreglos. Planteamos una metodología para analizar microarreglos con múltiples puntos en el tiempo y damos guías heurísticas para determinar si los supuestos necesarios se cumplen en una determinada base de datos. Ilustramos nuestro método con dos bases de datos públicas de microarreglos de ADN.