Regresión por mínimos cuadrados parciales PLS Aplicada a datos variedad valuados
Author
Type
Trabajo de grado - Maestría
Document language
EspañolPublication Date
2016-08-03Metadata
Show full item recordSummary
La regresión por mínimos cuadrados parciales (PLS) es una técnica de relación de variables introducida por Wold (1972, 1975, 1985), Wold (1972), Wold (1985) y extendida posteriormente al campo de la quimiometría por su hermano Wold Et al. (1984), Wold (2001). La regresión lineal múltiple ordinaria generalmente manipula variables controlables o fácilmente medibles para predecir el comportamiento de otras variables y es usual cuando las variables explicativas son pocas, cuando no existen problemas de multicolinealidad y cuando existe una relación clara entre las variables. Si alguna de estas tres condiciones falla entonces la regresión lineal múltiple ordinaria no es eficaz. Por otro lado, la regresión lineal múltiple se puede utilizar con muchas variables explicativas, pero cuando el número de variables es demasiado grande se puede generar un modelo que ajuste muy bien los datos, pero que falla en la predicción de nuevos datos. En estos casos, donde existen muchas variables explicativas, puede que existan pocas variables no observables que recojan la mayor variabilidad de la(s) variable(s) respuesta. El objetivo general de la regresión PLS es extraer estas variables latentes, recogiendo la mayor variación de las variables explicativas de manera que sirvan para modelar la(s) variable(s) respuesta de la mejor manera posible. Actualmente existen datos que provienen de problemas reales y tales que no pertenecen a un Espacio Euclídeo y por tal razón deben implementarse metodologías para datos con características especiales. Existen dos líneas en particular para abordar éste problema: la primera es la geometría diferencial, que permite construir una variedad que transforma los datos y los transporta a un espacio Euclídeo donde se hace la regresión múltiple requerida y posteriormente transporta los datos nuevamente sobre el espacio no Euclídeo donde se hacen las respectivas interpretaciones con los resultados obtenidos. La segunda línea es la línea del embebimiento que permite incrustar el conjunto que no es un espacio Euclídeo en otro que si es espacio Euclídeo, mediante la construcción de un conjunto cociente que resulta de una relación de equivalencia entre los elementos del conjunto inicial. En este trabajo se implementa la metodología de regresión PLS y se aplica a un tipo de datos variedad valuados, en particular datos relacionados con imágenes y se realiza la evaluación de dicha metodología usando criterios apropiados mediante la comparación con otras metodologías clásicas para datos Euclídeos, los cuales se tratarán de implementar al tipo de datos utilizado. La metodología de regresión PLS se compara con metodologías tales como regresión por componentes principales PCR, análisis y correlación canónico, regresión de Ridge y regresión Lasso. Para dicho propósito se implementa la metodología PLS en R utilizando datos simulados y datos reales, si es posible. Por otro lado, a manera de trabajo futuro, se extiende la metodología de regresión PLS al caso donde tanto las variables explicativas como las variables respuesta y los coeficientes de regresión son del tipo intervalo. De ésta manera se propone una metodología de regresión que resuelve tres problemas que se presentan con los datos de tipo real: en primer lugar problemas de multicolinealidad tanto en las variables explicativas como en las variables respuesta, en segundo lugar problemas cuando los datos no pertenecen a un Espacio Euclídeo y por último problemas cuando la incertidumbre en los datos se representa por medio de intervalos. De ésta manera este trabajo presenta dos enfoques diferentes: el primer enfoque desde la línea de las variedades Riemannianas, en particular sobre el conjunto de matrices definidas positivas y el segundo enfoque desde la línea del embebimiento, en particular sobre los conjuntos de multi-intervalos y multi-matrices.Summary
Abstract: Partial least squares regression (PLS) is a method of relaiont of variables introduced by Wold (1972, 1975, 1985), Wold (1972), Wold (1985) and later extended to the field of chemometrics by his brother Wold Et al. (1984), Wold (2001). Regression generally handled controllable variables or measurable variables easily to predict the behavior of other variables. The ordinary multiple linear regression is usual when the explanatory variables are few, when there aren't problems of multicollinearity and when there is a clear relationship between the variables. If any of these three conditions fails then ordinary linear regression is not effective. Furthermore, multiple linear regression uses many explanatory variables, but when the number of variables is too large can create a model that fit the data very well, but fails in predicting new data. In these cases, where there are many explanatory variables, there may be few unobservable latent variables that re_ect the greater variability in the response variable. The overall objective of the PLS regression is extract these latent variables, collecting the greatest variation of the explanatory variables so that they serve to model the response variable in the best way possible. Actually there are data come from real problems such non-Euclidean space and thus must be implemented methodologies for data with special characteristics. There are two lines in particular to solve this problem: the first line is differential geometry for building a variety that transforms and transports data to a Euclidean space where the multiple regression is made and then again carries the date on no Euclidean space where the respective performances with the results obtained are made. The second line is the line that allows you to embedding the set, that is not a Euclidean space, on another Euclidean space by building a cocient set resulting from an equivalence relation between the elements of the initial set. In this work the regression methodology PLS is implemented and these methods are applied to a data type valued variety, including data related to images and evaluation of this methodology is performed using appropriate evaluation criteria by comparing with other classical Euclidean methodologies for data, which seek to implement the type Data used. Methodology PLS regression compared to methodologies such as principal component regression PCA, canonical correlation analysis and Regression or Ridge. PLS methodology is implemented in R to the type of data used in the work to make such comparisons using simulated data and actual data, if possible. Furthermore, the methodology PLS regression to the case where both the explanatory variables as the response variables and the regression coeficients are of the type interval extends. In this way a regression methodology solves three problems encountered with actual data type is proposed: first multicollinearity in explanatory and response variables, second real data does not belong to a Euclidean space and finally, problems when uncertainty in the data is represented by intervals. Thus, this work presents two di_erent approaches: the first approach from the line of Riemannian manifolds, in particular on the set of positive de finite matrices and the second approach from the line of embedding, in particular on the sets of intervals and multi multimatrices.Keywords
Mínimos cuadrados Parciales PLS ; Componentes Principales PCR ; Regresión de ridge y lasso ; Análisis de Correlación Canónica CCA ; Variedades ; Datos de imágenes ; Regresión PLS intervalo-valuada ; Principal Components PCR ; Partial Least Square PLS ; Manifolds ; Image data ; PLS Regression interval-valued ;
Collections
This work is licensed under a Creative Commons Reconocimiento-NoComercial 4.0.This document has been deposited by the author (s) under the following certificate of deposit