Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

PLS Español

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 17

Mı́nimos Cuadrados Parciales (PLS)

Mı́nimos Cuadrados Parciales (PLS)

Antonio Sala Piqueras

Notas de clase sobre identificación multivariable

Dept. Ing. Sistemas y Automatica (DISA)


Universitat Politècnica de València (UPV)
Mı́nimos Cuadrados Parciales (PLS)

Presentación

Motivación:
Al precedir y a partir de x, los componentes más “activos” de X pueden no
ser los más importantes para la predicción. Descomposición basada en la
covarianza Σyx en vez de en Σx (PCR) o Σ[x y ] (TLS).

Objetivos:
Comprender la motivación, planteamiento y alguna de las soluciones al
problema PLS.

Contenidos:
Preliminares y planteamiento del problema. Preparación de datos. Regresión PLS con
información ortonormalizada. Regresión SIMPLS (idea básica). Discusión y
conclusiones.

2]
[ A. Sala AI2 -DISA. Universitat Politecnica de Valencia
Mı́nimos Cuadrados Parciales (PLS)

Componentes principales en regresión

Ideas preliminares:
Tenemos un conjunto de datos x, para predecir y a partir de ellos.
Tenemos N muestras (y , x) que constan de ymy ×1 datos a precedir
junto a xmx ×1 datos conocidos de entrada al modelo.

El PCA básico (TLS) no distingue entradas de salidas, el PCR usa unos


componentes en x que no dependen de y .
Es posible que los datos x tengan correlación entre sı́, ası́ como los
datos y (información “repetida”).
No queremos identificar relaciones x5 − 3x2 ≈ 0, y1 − 2y2 + 3y6 ≈ 0.

Es posible que haya mucha información en x que no es útil para


predecir y , e información en y que no puede ser predicha por x.
[ 3] A. Sala AI2 -DISA. Universitat Politecnica de Valencia
Mı́nimos Cuadrados Parciales (PLS)

Planteamiento del problema

El objetivo de la identificación o del análisis de datos suele ser


determinar:
1 “qué factores/componentes de x realmente influyen en y ”,
2 “qué componentes de y son influenciados (explicados) por x”.

Predicción lineal óptima: ŷ = H · x = Σyx Σ−1


x ·x (norm. media cero)

H es una matriz “enorme” en caso multivariable... ¿podrı́a informarnos


el SVD de H sobre los objetivos buscados?
I La respuesta es afirmativa, y discutir sobre el significado de ese SVD es el
objetivo de este material...

[ 4] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

Preparación de datos
Para que el ajuste por mı́nimos cuadrados y las conclusiones sobre el SVD
de H tengan sentido, en un entorno multivariable, hace falta un
escalado/preprocesado previo.
Escalado de las variables y a predecir: Escalar los elementos de y para
que error de ajuste en todos los elementos tenga significado
“comparable” en la aplicación: mezclar errores de estimación en “metros” con
otros errores en “milivoltios” requiere ponderación.

Escalado de las variables x de entrada al modelo: Los valores singulares


y direcciones del SVD dependeb de escalado, hacen falta refinamientos.
Además se requieren componentes “no correlados entre sı́” en x: si Σx
no es diagonal, un coeficiente de H puede ser 0.5 porque el de otro componente
“muy correlado” también es 0.5... si no estuviera el segundo componente, el
predictor con sólo el primero serı́a 0.98.

[ 5] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

Ortonormalización (preblanqueado) de la información


Normalización de X : En una predicción por mı́nimos cuadrados de y dado x
cualquier cambio de variable lineal, T , en x producirá el mismo error de predicción
−1
{z } · |{z}
(distintos parámetros Θx = |ΘT Tx ).
Θ
e xe
−1
Suponemos, entonces, tras escalado y preblanqueado, T = Σx 2 , que
disponemos de muestras de datos x de varianza identidad tras el
preprocesado adecuado.
Formar matrices de datos Ymy ×N , Xmx ×N , y varianzas-covarianzas
1 T 1 1
N−1 XX = I , Σy = N−1 YY T , Σyx = N−1 YX T .
√ p T
Por ejemplo, si X antes de escalar fuera X = Ux Sx VxT , Xnew := N − 1VxT = N − 1Sx Ux X serı́a el resultado
| {z }
T
del escalado y preblanqueado del x original, porque 1
X XT
N−1 new new
= I.

Nota: Si los datos x, y fueran vectores fila podrı́an transponerse, o bien, cambiar todas las fórmulas de estas transparencias
a su transpuesta.
[ 6] A. Sala AI2 -DISA. Universitat Politecnica de Valencia
Mı́nimos Cuadrados Parciales (PLS)

Regresión PLS con información preblanqueada


(ortonormalizada)
1 Identificar H, en un modelo Y = H · X (pred. óptima lineal)
Si Σx = I , la fórmula de mejor predicción es, directamente, H ≡ Σyx .

2 Hacer SVD (econ.) de H = USV T , S = diag (σ1 , . . . , σm1 ), m 1 .


= min(my , mx )

3 Si hacemos el cambio ŷ = U T y , x̂ = V T x, entonces:


las matrices Σŷ = E [ŷ ŷ T ] = U T E [yy T ]U = U T Σy U,
Σx̂ = V T Σx V = I .
Como Σŷ x̂ = U T E [yx T ]V = U T (USV T )V = S, la matriz de
Varianzas-Covarianzas conjunta queda:
   
ŷ  T Σŷ S
x̂ T ) =

Σ[ŷ ,x̂] = E ( ŷ T
x̂ S I

[ 7] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

Regresión PLS con información preblanqueada


(ortonormalizada)
1 Identificar H, en un modelo Y = H · X (pred. óptima lineal)
Si Σx = I , la fórmula de mejor predicción es, directamente, H ≡ Σyx .

2 Hacer SVD (econ.) de H = USV T , S = diag (σ1 , . . . , σm1 ), m 1 .


= min(my , mx )

3 Si hacemos el cambio ŷ = U T y , x̂ = V T x, entonces:


las matrices Σŷ = E [ŷ ŷ T ] = U T E [yy T ]U = U T Σy U,
Σx̂ = V T Σx V = I .
Como Σŷ x̂ = U T E [yx T ]V = U T (USV T )V = S, la matriz de
Varianzas-Covarianzas conjunta queda:
   
ŷ  T Σŷ S
x̂ T ) =

Σ[ŷ ,x̂] = E ( ŷ T
x̂ S I

la mejor predicción lineal de ŷ es ν := S x̂.

[ 7] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

Regresión PLS con información preblanqueada


(ortonormalizada)
1 Identificar H, en un modelo Y = H · X (pred. óptima lineal)
Si Σx = I , la fórmula de mejor predicción es, directamente, H ≡ Σyx .

2 Hacer SVD (econ.) de H = USV T , S = diag (σ1 , . . . , σm1 ), m 1 .


= min(my , mx )

3 Si hacemos el cambio ŷ = U T y , x̂ = V T x, entonces:


las matrices Σŷ = E [ŷ ŷ T ] = U T E [yy T ]U = U T Σy U,
Σx̂ = V T Σx V = I .
Como Σŷ x̂ = U T E [yx T ]V = U T (USV T )V = S, la matriz de
Varianzas-Covarianzas conjunta queda:
   
ŷ  T Σŷ S
x̂ T ) =

Σ[ŷ ,x̂] = E ( ŷ T
x̂ S I

la mejor predicción lineal de ŷ es ν := S x̂.

[ 7] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

PLS ortonormalizado/preblanqueado (2)

Tras el segundo cambio de variable (el primero era el preblanqueado y


escalado), hemos obtenido:
Predictores monovariables sin interacción: La mejor predicción
lineal de ŷi dado x̂i es νi = σi x̂i ; La mejor predicción de ŷi dado
cualquier otro componente de x es CERO.
Si Σx no fuera diagonal (en este caso, identidad), los predictores tendrı́an interación (y el coef.
de la mejor predicción dado “xi ” serı́a diferente que en el caso de conocer “xi y xj ”.

El error de predicción (en coords ŷ ) tiene matriz de varianza-covarianza


Σê = Σŷ − SS T . La variación total del error es T Vy − m
P 1 2
Ve = T j=1 σj .
Nota: V
Ty = V
Tŷ , porque son un cambio ortogonal (no cambia valores propios, no cambia traza).

[ 8] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

PLS ortonormalizado/preblanqueado: resumen, discusión

Hemos ordenado componentes no correlados de x según influyen en y (según los valores


en diag (S)), y, simultáneamente, obtenido las caracterı́sticas de y mejor predichas a partir
de x, ν = S x̂.

*Los elementos de ŷ no son independientes (tienen correlación, Σŷ 6= I ): aunque el predictor


(diagonal) ν lo forman componentes no correlados entre sı́, ŷ (y el original y ) puede estar afectado por
otras terceras variables (no correladas con x).

*Los componentes (ŷ = U T y , x̂ = V T x) no coinciden con los componentes principales (PCA) de y o x


(antes de normalizar), respectivamente: U y V vienen del SVD de la covarianza, y no de las matrices
de datos Y , X por separado.

[ 9] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

PLS ortonormalizado/preblanqueado: resumen, discusión

Hemos ordenado componentes no correlados de x según influyen en y (según los valores


en diag (S)), y, simultáneamente, obtenido las caracterı́sticas de y mejor predichas a partir
de x, ν = S x̂.

*Los elementos de ŷ no son independientes (tienen correlación, Σŷ 6= I ): aunque el predictor


(diagonal) ν lo forman componentes no correlados entre sı́, ŷ (y el original y ) puede estar afectado por
otras terceras variables (no correladas con x).

*Los componentes (ŷ = U T y , x̂ = V T x) no coinciden con los componentes principales (PCA) de y o x


(antes de normalizar), respectivamente: U y V vienen del SVD de la covarianza, y no de las matrices
de datos Y , X por separado.

Modelos simplificados: Descartar valores pequeños en diag (S).

[ 9] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

PLS ortonormalizado/preblanqueado: resumen, discusión

Hemos ordenado componentes no correlados de x según influyen en y (según los valores


en diag (S)), y, simultáneamente, obtenido las caracterı́sticas de y mejor predichas a partir
de x, ν = S x̂.

*Los elementos de ŷ no son independientes (tienen correlación, Σŷ 6= I ): aunque el predictor


(diagonal) ν lo forman componentes no correlados entre sı́, ŷ (y el original y ) puede estar afectado por
otras terceras variables (no correladas con x).

*Los componentes (ŷ = U T y , x̂ = V T x) no coinciden con los componentes principales (PCA) de y o x


(antes de normalizar), respectivamente: U y V vienen del SVD de la covarianza, y no de las matrices
de datos Y , X por separado.

Modelos simplificados: Descartar valores pequeños en diag (S).

[ 9] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

PLS ante entrada X no “blanqueada” a varianza I


El escalado a varianza unidad de x realmente es denominado
Orthonormalised PLS.

Hay otras variantes en literatura. Por ejemplo, SIMPLS (el que implementa
Matlab en su comando plsregress).
SIMPLS busca maximizar qiT Σyx ri , i = 1, . . . , mx sujeto a:
1 qiT qi = 1, riT ri = 1
2 riT Σx rj = 0 si i 6= j, esto es, ortogonalidad (≈ no correlación) entre
ti := Xri y tj := Xrj .
La mejor predicción del componente escalar ν := qiT y dado el componente escalar
τ := riT x es σi · τ , donde σi es el mayor valor singular de una secuencia de matrices
S0 = Σ Tyx , S1 = P0 S0 , Sj = Pj−1 Sj−1 , siendo Pj matrices de proyección ortogonal sobre
cierto subespacio.
Detalles en (https://doi.org/10.1016/0169-7439(93)85002-X).
[ 10] A. Sala AI2 -DISA. Universitat Politecnica de Valencia
Mı́nimos Cuadrados Parciales (PLS)

Comparación

Nota: sin la condición 2, los máximos-silla-mı́nimos del problema vendrı́an


del SVD de Σyx , y tendrı́amos riT rj = 0 para i 6= j.
En cambio, SIMPLS sustituye riT rj = 0 por riT Σx rj = 0.

Si los datos de entrada están preblanqueados Σx = I , por lo que SIMPLS


coincide con lo presentado en transparencias anteriores (O-PLS).
En otros casos, no: SIMPLS es sensible al escalado en X.

Hay más variaciones de PLS, en concreto NIPALS es también popular.

[ 11] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

Comparación (2)
A partir de: covarianza=desv.tı́p(x)*correlación*desv.tı́p(y)

1 PCR: seleccionar para regresión componentes no correlados de x con


gran “varianza de x”, tengan o no correlación con y .

2 SIMPLS (no ortogonalizado): componentes no correlados de x con


mucha covarianza con y ... grosso modo, mucha “correlación” + mucha
“varianza de y explicada” + mucha “varianza de x”.
Aproximadamente, un intermedio entre “PLS ortogonal >Σx no importa<” y “PCR >Σx lo es todo<”.

3 PLS (ortogonalizado, con cambio Σx̂ = I ): componentes no correlados


de x̂ cuyo estimado reduzca mucho la varianza del error... grosso modo,
mucha “correlación” + mucha “varianza de y explicada”.

[ 12] A. Sala AI2 -DISA. Universitat Politecnica de Valencia


Mı́nimos Cuadrados Parciales (PLS)

Conclusiones

EL SVD del modelo de predicción (regresión PLS) descompone las


entradas en componentes no correlados según su grado de “utilidad
para predecir ” las salidas.
Permite determinar que, por ejemplo, el 88% de la covarianza entre un vector de
20 salidas y un conjunto de 150 entradas es explicado por 4 variables “latentes”.
Si se cogen “todos” los componentes, el resultado es el estimado estandard de
mı́nimos cuadrados, pero, claro, eso no es para lo que PLS está concebido.

Existen variaciones del concepto PLS según la sensibilidad o no al


escalado de Σx .
Al usar la covarianza entre x e y , suele explicar más varianza de y que
la regresión PCR (donde la covarianza no se considera), para mismo número
de componentes.

[ 13] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

También podría gustarte