Strategy for multivariate Identification of diferentially expressed genes in microarray data

Acosta Rivera, Juan Pablo

Strategy for multivariate Identification of diferentially expressed genes in microarray data

Archivos

Thesis Juan Pablo Acosta.pdf (6.47 MB)

Autores

Acosta Rivera, Juan Pablo

Tipo de contenido

Trabajo de grado - Maestría

Document language:

Español

Fecha

2015-05-19

Documentos PDF

Resumen

Abstract. Microarray technology has become one of the most important tools in understanding genetic expression in biological processes. As microarrays contain measurements of thousands of genes' expression levels across multiple conditions, identification of differentially expressed genes will necessarily involve data mining or large scale multiple testing procedures. To the date, advances in this regard have either been multivariate but descriptive, or inferential but univariate. In this work, we present a new multivariate inferential analysis method for detecting differentially expressed genes in microarray data. It estimates the positive false discovery rate (pFDR) using artificial components close to the data's principal components, but with an exact interpretation in terms of differential gene expression. Our method works best under very common assumptions and gives way to a new understanding of genetic differential expression in microarray data. We provide a methodology to analyse time course microarray experiments and some guidelines for assessing whether the required assumptions hold. We illustrate our method on two publicly available microarray data sets.
Los microarreglos de ADN se han convertido en una de las herramientas más importantes para entender la expresión génica en procesos biológicos. Como cada microarreglo contiene mediciones del nivel de expressión de miles de genes en múltiples condiciones, la identificación de genes diferencialmente expresados involucra necesariamente minería de datos o pruebas de hipótesis múltiples a gran escala. Hasta hoy, avances en este campo han sido o bien multivariados pero descriptivos, o bien inferenciales pero univariados. En este trabajo, presentamos un nuevo método inferencial y multivariado para identificar genes diferencialmente expresados en microarreglos de ADN. Estimamos la tasa positiva de falsos positivos (pFDR) utilizando componentes artificiales cercanos a los componentes principales de los datos, pero con una interpretación exacta en términos de expresión génica diferencial. Nuestro método funciona mejor bajo algunos supuestos muy comunes y da lugar a un nuevo entendimiento de la expresión diferencial en datos de microarreglos. Planteamos una metodología para analizar microarreglos con múltiples puntos en el tiempo y damos guías heurísticas para determinar si los supuestos necesarios se cumplen en una determinada base de datos. Ilustramos nuestro método con dos bases de datos públicas de microarreglos de ADN.

Palabras clave propuestas

Microarrays; False Discovery Rate; Principal Components Analysis; Bootstrap; Microarreglos de ADN; Tasa de falsos positivos; Análisis en componentes principales,

URI

https://repositorio.unal.edu.co/handle/unal/54111

Colecciones

Maestría en Ciencias - Estadística

Página completa del ítem

Strategy for multivariate Identification of diferentially expressed genes in microarray data

Archivos

Autores

Director

Tipo de contenido

Document language:

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Resumen

Abstract

Palabras clave propuestas

Descripción

Palabras clave

Citación

URI

Colecciones