PLS Español

Mı́nimos Cuadrados Parciales (PLS)
Antonio Sala Piqueras
Notas de clase sobre identificación multivariable
Dept. Ing. Sistemas y Automatica (DISA)

Universitat Politècnica de València (UPV)
Presentación
Motivación:
Al precedir y a partir de x, los componentes más “activos” de X pueden no
ser los más importantes para la predicción. Descomposición basada en la
covarianza Σyx en vez de en Σx (PCR) o Σ[x y ] (TLS).
Objetivos:
Comprender la motivación, planteamiento y alguna de las soluciones al
problema PLS.
Contenidos:
Preliminares y planteamiento del problema. Preparación de datos. Regresión PLS con
información ortonormalizada. Regresión SIMPLS (idea básica). Discusión y
conclusiones.
2]
[ A. Sala AI2 -DISA. Universitat Politecnica de Valencia
Componentes principales en regresión
Ideas preliminares:
Tenemos un conjunto de datos x, para predecir y a partir de ellos.
Tenemos N muestras (y , x) que constan de ymy ×1 datos a precedir
junto a xmx ×1 datos conocidos de entrada al modelo.
El PCA básico (TLS) no distingue entradas de salidas, el PCR usa unos

componentes en x que no dependen de y .
Es posible que los datos x tengan correlación entre sı́, ası́ como los
datos y (información “repetida”).
No queremos identificar relaciones x5 − 3x2 ≈ 0, y1 − 2y2 + 3y6 ≈ 0.
Es posible que haya mucha información en x que no es útil para

predecir y , e información en y que no puede ser predicha por x.
[ 3] A. Sala AI2 -DISA. Universitat Politecnica de Valencia
Planteamiento del problema
El objetivo de la identificación o del análisis de datos suele ser

determinar:
1 “qué factores/componentes de x realmente influyen en y ”,
2 “qué componentes de y son influenciados (explicados) por x”.
Predicción lineal óptima: ŷ = H · x = Σyx Σ−1

x ·x (norm. media cero)
H es una matriz “enorme” en caso multivariable... ¿podrı́a informarnos

el SVD de H sobre los objetivos buscados?
I La respuesta es afirmativa, y discutir sobre el significado de ese SVD es el
objetivo de este material...

Preparación de datos
Para que el ajuste por mı́nimos cuadrados y las conclusiones sobre el SVD
de H tengan sentido, en un entorno multivariable, hace falta un
escalado/preprocesado previo.
Escalado de las variables y a predecir: Escalar los elementos de y para
que error de ajuste en todos los elementos tenga significado
“comparable” en la aplicación: mezclar errores de estimación en “metros” con
otros errores en “milivoltios” requiere ponderación.
Escalado de las variables x de entrada al modelo: Los valores singulares

y direcciones del SVD dependeb de escalado, hacen falta refinamientos.
Además se requieren componentes “no correlados entre sı́” en x: si Σx
no es diagonal, un coeficiente de H puede ser 0.5 porque el de otro componente
“muy correlado” también es 0.5... si no estuviera el segundo componente, el
predictor con sólo el primero serı́a 0.98.

Ortonormalización (preblanqueado) de la información

Normalización de X : En una predicción por mı́nimos cuadrados de y dado x
cualquier cambio de variable lineal, T , en x producirá el mismo error de predicción
−1
{z } · |{z}
(distintos parámetros Θx = |ΘT Tx ).
Θ
e xe
−1
Suponemos, entonces, tras escalado y preblanqueado, T = Σx 2 , que
disponemos de muestras de datos x de varianza identidad tras el
preprocesado adecuado.
Formar matrices de datos Ymy ×N , Xmx ×N , y varianzas-covarianzas
1 T 1 1
N−1 XX = I , Σy = N−1 YY T , Σyx = N−1 YX T .
√ p T
Por ejemplo, si X antes de escalar fuera X = Ux Sx VxT , Xnew := N − 1VxT = N − 1Sx Ux X serı́a el resultado
| {z }
T
del escalado y preblanqueado del x original, porque 1
X XT
N−1 new new
= I.
Nota: Si los datos x, y fueran vectores fila podrı́an transponerse, o bien, cambiar todas las fórmulas de estas transparencias
a su transpuesta.
Regresión PLS con información preblanqueada

(ortonormalizada)
1 Identificar H, en un modelo Y = H · X (pred. óptima lineal)
Si Σx = I , la fórmula de mejor predicción es, directamente, H ≡ Σyx .
2 Hacer SVD (econ.) de H = USV T , S = diag (σ1 , . . . , σm1 ), m 1 .

= min(my , mx )
3 Si hacemos el cambio ŷ = U T y , x̂ = V T x, entonces:

las matrices Σŷ = E [ŷ ŷ T ] = U T E [yy T ]U = U T Σy U,
Σx̂ = V T Σx V = I .
Como Σŷ x̂ = U T E [yx T ]V = U T (USV T )V = S, la matriz de
Varianzas-Covarianzas conjunta queda:

ŷ T Σŷ S
x̂ T ) =

Σ[ŷ ,x̂] = E ( ŷ T
x̂ S I


(ortonormalizada)

= min(my , mx )


ŷ T Σŷ S
x̂ T ) =

Σ[ŷ ,x̂] = E ( ŷ T
x̂ S I
la mejor predicción lineal de ŷ es ν := S x̂.


(ortonormalizada)

= min(my , mx )


ŷ T Σŷ S
x̂ T ) =

Σ[ŷ ,x̂] = E ( ŷ T
x̂ S I
la mejor predicción lineal de ŷ es ν := S x̂.

PLS ortonormalizado/preblanqueado (2)
Tras el segundo cambio de variable (el primero era el preblanqueado y

escalado), hemos obtenido:
Predictores monovariables sin interacción: La mejor predicción
lineal de ŷi dado x̂i es νi = σi x̂i ; La mejor predicción de ŷi dado
cualquier otro componente de x es CERO.
Si Σx no fuera diagonal (en este caso, identidad), los predictores tendrı́an interación (y el coef.
de la mejor predicción dado “xi ” serı́a diferente que en el caso de conocer “xi y xj ”.
El error de predicción (en coords ŷ ) tiene matriz de varianza-covarianza

Σê = Σŷ − SS T . La variación total del error es T Vy − m
P 1 2
Ve = T j=1 σj .
Nota: V
Ty = V
Tŷ , porque son un cambio ortogonal (no cambia valores propios, no cambia traza).

PLS ortonormalizado/preblanqueado: resumen, discusión
Hemos ordenado componentes no correlados de x según influyen en y (según los valores

en diag (S)), y, simultáneamente, obtenido las caracterı́sticas de y mejor predichas a partir
de x, ν = S x̂.
*Los elementos de ŷ no son independientes (tienen correlación, Σŷ 6= I ): aunque el predictor

(diagonal) ν lo forman componentes no correlados entre sı́, ŷ (y el original y ) puede estar afectado por
otras terceras variables (no correladas con x).
*Los componentes (ŷ = U T y , x̂ = V T x) no coinciden con los componentes principales (PCA) de y o x

(antes de normalizar), respectivamente: U y V vienen del SVD de la covarianza, y no de las matrices
de datos Y , X por separado.


de x, ν = S x̂.


Modelos simplificados: Descartar valores pequeños en diag (S).


de x, ν = S x̂.


Modelos simplificados: Descartar valores pequeños en diag (S).

PLS ante entrada X no “blanqueada” a varianza I

El escalado a varianza unidad de x realmente es denominado
Orthonormalised PLS.
Hay otras variantes en literatura. Por ejemplo, SIMPLS (el que implementa
Matlab en su comando plsregress).
SIMPLS busca maximizar qiT Σyx ri , i = 1, . . . , mx sujeto a:
1 qiT qi = 1, riT ri = 1
2 riT Σx rj = 0 si i 6= j, esto es, ortogonalidad (≈ no correlación) entre
ti := Xri y tj := Xrj .
La mejor predicción del componente escalar ν := qiT y dado el componente escalar
τ := riT x es σi · τ , donde σi es el mayor valor singular de una secuencia de matrices
S0 = Σ Tyx , S1 = P0 S0 , Sj = Pj−1 Sj−1 , siendo Pj matrices de proyección ortogonal sobre
cierto subespacio.
Detalles en (https://doi.org/10.1016/0169-7439(93)85002-X).
Comparación
Nota: sin la condición 2, los máximos-silla-mı́nimos del problema vendrı́an

del SVD de Σyx , y tendrı́amos riT rj = 0 para i 6= j.
En cambio, SIMPLS sustituye riT rj = 0 por riT Σx rj = 0.
Si los datos de entrada están preblanqueados Σx = I , por lo que SIMPLS

coincide con lo presentado en transparencias anteriores (O-PLS).
En otros casos, no: SIMPLS es sensible al escalado en X.
Hay más variaciones de PLS, en concreto NIPALS es también popular.

Comparación (2)
A partir de: covarianza=desv.tı́p(x)*correlación*desv.tı́p(y)
1 PCR: seleccionar para regresión componentes no correlados de x con

gran “varianza de x”, tengan o no correlación con y .
2 SIMPLS (no ortogonalizado): componentes no correlados de x con

mucha covarianza con y ... grosso modo, mucha “correlación” + mucha
“varianza de y explicada” + mucha “varianza de x”.
Aproximadamente, un intermedio entre “PLS ortogonal >Σx no importa<” y “PCR >Σx lo es todo<”.
3 PLS (ortogonalizado, con cambio Σx̂ = I ): componentes no correlados

de x̂ cuyo estimado reduzca mucho la varianza del error... grosso modo,
mucha “correlación” + mucha “varianza de y explicada”.

Conclusiones
EL SVD del modelo de predicción (regresión PLS) descompone las

entradas en componentes no correlados según su grado de “utilidad
para predecir ” las salidas.
Permite determinar que, por ejemplo, el 88% de la covarianza entre un vector de
20 salidas y un conjunto de 150 entradas es explicado por 4 variables “latentes”.
Si se cogen “todos” los componentes, el resultado es el estimado estandard de
mı́nimos cuadrados, pero, claro, eso no es para lo que PLS está concebido.
Existen variaciones del concepto PLS según la sensibilidad o no al

escalado de Σx .
Al usar la covarianza entre x e y , suele explicar más varianza de y que
la regresión PCR (donde la covarianza no se considera), para mismo número
de componentes.

PLS Español

Cargado por

Copyright:

Formatos disponibles

PLS Español

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PLS Español

Cargado por

Copyright:

Formatos disponibles

Mı́nimos Cuadrados Parciales (PLS)

Mı́nimos Cuadrados Parciales (PLS)

Antonio Sala Piqueras

Notas de clase sobre identificación multivariable

Dept. Ing. Sistemas y Automatica (DISA)

Componentes principales en regresión

El PCA básico (TLS) no distingue entradas de salidas, el PCR usa unos

Es posible que haya mucha información en x que no es útil para

Planteamiento del problema

El objetivo de la identificación o del análisis de datos suele ser

Predicción lineal óptima: ŷ = H · x = Σyx Σ−1

H es una matriz “enorme” en caso multivariable... ¿podrı́a informarnos

[ 4] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

Escalado de las variables x de entrada al modelo: Los valores singulares

[ 5] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

Ortonormalización (preblanqueado) de la información

Regresión PLS con información preblanqueada

2 Hacer SVD (econ.) de H = USV T , S = diag (σ1 , . . . , σm1 ), m 1 .

3 Si hacemos el cambio ŷ = U T y , x̂ = V T x, entonces:

[ 7] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

Regresión PLS con información preblanqueada

2 Hacer SVD (econ.) de H = USV T , S = diag (σ1 , . . . , σm1 ), m 1 .

3 Si hacemos el cambio ŷ = U T y , x̂ = V T x, entonces:

la mejor predicción lineal de ŷ es ν := S x̂.

[ 7] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

Regresión PLS con información preblanqueada

2 Hacer SVD (econ.) de H = USV T , S = diag (σ1 , . . . , σm1 ), m 1 .

3 Si hacemos el cambio ŷ = U T y , x̂ = V T x, entonces:

la mejor predicción lineal de ŷ es ν := S x̂.

[ 7] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

PLS ortonormalizado/preblanqueado (2)

Tras el segundo cambio de variable (el primero era el preblanqueado y

El error de predicción (en coords ŷ ) tiene matriz de varianza-covarianza

[ 8] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

PLS ortonormalizado/preblanqueado: resumen, discusión

Hemos ordenado componentes no correlados de x según influyen en y (según los valores

*Los elementos de ŷ no son independientes (tienen correlación, Σŷ 6= I ): aunque el predictor

*Los componentes (ŷ = U T y , x̂ = V T x) no coinciden con los componentes principales (PCA) de y o x

[ 9] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

PLS ortonormalizado/preblanqueado: resumen, discusión

Hemos ordenado componentes no correlados de x según influyen en y (según los valores

*Los elementos de ŷ no son independientes (tienen correlación, Σŷ 6= I ): aunque el predictor

*Los componentes (ŷ = U T y , x̂ = V T x) no coinciden con los componentes principales (PCA) de y o x

Modelos simplificados: Descartar valores pequeños en diag (S).

[ 9] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

PLS ortonormalizado/preblanqueado: resumen, discusión

Hemos ordenado componentes no correlados de x según influyen en y (según los valores

*Los elementos de ŷ no son independientes (tienen correlación, Σŷ 6= I ): aunque el predictor

*Los componentes (ŷ = U T y , x̂ = V T x) no coinciden con los componentes principales (PCA) de y o x

Modelos simplificados: Descartar valores pequeños en diag (S).

[ 9] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

PLS ante entrada X no “blanqueada” a varianza I

Nota: sin la condición 2, los máximos-silla-mı́nimos del problema vendrı́an

Si los datos de entrada están preblanqueados Σx = I , por lo que SIMPLS

Hay más variaciones de PLS, en concreto NIPALS es también popular.

[ 11] A. Sala AI2 -DISA. Universitat Politecnica de Valencia

1 PCR: seleccionar para regresión componentes no correlados de x con

2 SIMPLS (no ortogonalizado): componentes no correlados de x con

3 PLS (ortogonalizado, con cambio Σx̂ = I ): componentes no correlados

[ 12] A. Sala AI2 -DISA. Universitat Politecnica de Valencia