Regresión multivariada robusta: un enfoque para datos con alta dimensionalidad

Cargando...
Miniatura

Autores

Herrera Santana, Juan Fernando

Fecha

Título de la revista

ISSN de la revista

Título del volumen

Documentos PDF

Resumen

La regresión lineal múltiple multivariada es una técnica estadística ampliamente utilizada para modelar las relaciones entre varias variables respuesta y varias variables predictoras. Los métodos tradicionales basados en la verosimilitud pueden producir resultados muy engañosos en presencia de valores atípicos. En este trabajo, proponemos dos métodos robustos de regresión multivariada diseñados para manejar datos con alta dimensionalidad: uno basado en el estimador MRCD, un estimador robusto de localización y dispersión para datos con alta dimensionalidad; y otro enfocado en reducir la dimensionalidad del problema mediante la utilización de la metodología ROSPCA. A través de simulaciones, evaluamos la robustez y eficiencia de los estimadores obtenidos, la capacidad de las metodologías para clasificar correctamente observaciones en conjuntos de datos contaminados, y el costo computacional. Una aplicación con datos reales ilustra el uso de las metodologías propuestas. (Texto tomado de la fuente)

Abstract

Multivariate multiple linear regression is a widely used statistical technique for modelling relationships between some response variables and several predictor variables. Traditional likelihood-based methods can produce very misleading results in the presence of outliers. In this work, we propose two robust multivariate regression methods designed to handle high-dimensional data: one based on the minimum regularized covariance determinant estimator, a robust estimator of location and scatter for high-dimensional data; and another based on dimensionality reduction using robust sparse principal component analysis. Through a study simulation, we evaluate the robustness and efficiency of the estimators obtained, the ability of the methodologies to correctly classify observations in contaminated datasets, and the computational cost. A real data application illustrates the use of the proposed methodologies. (Texto tomado de la fuente)

Descripción

ilustraciones (algunas a color), diagramas

Palabras clave

Citación