Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Ejemplos y Ejercicios de Amv

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 113

Ejemplos y Ejercicios de Análisis Multivariado.

JAIRO ALFONSO CLAVIJO

EJEMPLOS RESUELTOS
Y
EJERCICIOS PROPUESTOS

PARA UN CURSO BASICO DE

ANALISIS MULTIVARIADO

JAIRO ALFONSO CLAVIJO MENDEZ


UNIVERSIDAD DEL TOLIMA

SEMESTRE B DE 2019

Página 1
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJEMPLOS RESUELTOS y EJERCICIOS DE ANALISIS MULTIVARIADO


Por: Jairo Alfonso Clavijo Méndez (JACMEN)

Primera parte
GENERALIDADES TEORICAS

EJEMPLO 1.1
1. Considere las matrices:

 9 3 4 −6   2 −6 4 3
   
3 16 2 8  3 5 4 6
A= B=
 4 2 36 5   4 16 4 9
   
 −6 8 5 25   5 27 4 12 

a. Determine el rango de cada matriz


b. En cada caso diga si la matriz es definida positiva o no y por qué.

2. Descomponga la matriz A en la forma A = PΛP´ donde Λ es la matriz de valores


propios de A . ¿Podría hacerse lo mismo con la matriz B ?
3. Verifique que la matriz P del punto anterior es una matriz de rotación en R 4 .

SOLUCION

Primera pregunta:
Usando el software libre FREEMAT

Página 2
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

a. --> rank (A) ans = 4 --> rank(B) ans = 2


a. Como se ve, A es de rango completo, en cambio B es de rango 2 ya que, por ejemplo,
F3 = 2F2 -F1 y F4 = F3 + F2 – F1
b.

Lo anterior muestra que A es definida positiva pues tiene cuatro valores propios todos
diferentes y positivos. En cambio B no es definida positiva pues tiene solo dos valores
propios diferentes de cero (lo que concuerda con su rango) pero uno de ellos es
negativo.

Segunda pregunta:
Usamos el comando --> [U, V] = eig(A) para obtener:

Página 3
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Ordenamos estos vectores según la magnitud de los valores propios (de mayor a menor),
para lo cual se usará la matriz de permutación

Lo que nos lleva a:

Que son las matrices pedidas. Es decir: A = PLP’

Si se intenta hacer lo mismo con la matriz B, se obtiene:

Página 4
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Pero el producto U1*V1*U1' produce:

Que, como se ve, no coincide con la matriz B. Es decir, en este caso no es posible la
descomposición espectral.

Tercera pregunta:
Se debe ver que la matriz P satisface a) ser simétrica, b) ser ortonormal, esto es, tener
columnas unitarias y perpendiculares dos a dos y c) que su transpuesta coincida con su
inversa.
Evidentemente es simétrica. Para ver que es ortonormal, consideremos los tres vectores
columna:

Página 5
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Se cumple:

Lo que muestra que las columnas de P son vectores unitarios. Por otra parte, al realizar los
productos internos dos a dos de estos tres vectores, se tiene:

Valores prácticamente iguales a cero. Finalmente, si hacemos el producto PP’ se obtiene:

Que es la matriz identidad.

EJEMPLO 1.2:

 X1  1
   
 X2  0
1. Sea X = una variable aleatoria con media μ =   y varianza A (la del punto
 X3  1
   
 X4  0
 2 X1 − X 3 
 
anterior), y considere Y =  X 2 + X 3 − X 4  . Halle E( Y ) y V(Y) .
 X − 3X + X 
 1 2 4

2. Muestre que efectivamente V(Y) (calculada en el punto anterior) es una matriz de


varianza (verifique que cumple las propiedades de toda matriz de varianza).

Página 6
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

SOLUCION:
Primera pregunta:
El vector Y se puede escribir como

 X1 
 2 0 −1 0     2 0 −1 0 
  X  
Y =  0 1 1 −1  2  = CX donde C =  0 1 1 −1
 1 −3 0   X 3   1 −3 0 1 
 1  X 
 4
En consecuencia: E(Y) = CE(X) y V(X) =CV(X)C' = CAC'

Tomando

Se obtiene:

Expresiones correspondientes a E(Y) y V(Y) respectivamente.

Segunda pregunta:
Para ver que V(Y) es efectivamente una matriz de varianzas debemos ver que es una matriz
cuadrada, simétrica, de rango completo y definida positiva. A simple vista se ve que satisface las
dos primeras condiciones: cuadrada y simétrica. Para ver que cumple las otras dos condiciones
calculamos sus valores propios. Se obtiene:

Página 7
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Como se ve, son tres valores propios diferentes, es decir, el rango de V(Y) es 3, por lo que se
trata de una matriz de rango completo. Además, los tres valores propios son positivos, así que la
matriz es definida positiva.

EJEMPLO 1.3

 2 X1 − X 3   2
   
Considere el vector Y =  X 2 + X 3 − X 4  del punto anterior y los puntos x =  1  y
 X − 3X + X   3
 1 2 4  
 3
 
y =  2
 2
 
a. Halle la distancia euclidiana entre x y y
b. Halle la distancia de Mahalanobis inducida por V(Y) entre x y y.

SOLUCION:
1

 2  3  1 0 0  2

       
Tomando x = 1, y =  2 se tiene d e ( x, y ) = (x − y) '  0 1 0  (x − y)  y
 3  2  0 0 1 
     
1

d M ( x, y) = (x − y) '  V(Y )  (x − y) 


−1 2
 
Estos cálculos en FREEMAT producen:

Página 8
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Que son las distancias euclidiana y mahalobiana respectivamente entre los puntos x y y.

EJEMPLO 1.4
Suponga que X , Y son variables aleatorias tales que X ~ N(1, 9), Y ~ N(2, 4) y
X
Cov( X , Y ) = − 3 . Halle la función de densidad para el vector   , suponiendo que
Y 
este vector tiene distribución normal bivariada.

SOLUCION

Puesto que X ~ N(1,9) Y ~ N(2,4) se concluye que

 X  1  X   9 −3 
E  =   V  =  
 Y   2  Y   −3 4 
Cov( X , Y ) −3 1
De donde = = =−
V( X ) V(Y ) 3 2 2

X
La expresión para la función de densidad del vector bivariado X =   es:
Y 

Página 9
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

1  1  x −   2  x − 1  y − 2   y − 2   
2

f ( x, y ) = Exp −   − 2   +  
1

2 1 2 1−  2  2(1 −  )   1    1   2    2   


2

En consecuencia, reemplazando los términos correspondientes, se obtiene (revisar cálculos):

1  1  x − 1  2  x − 1  y − 2   y − 2   
2

f ( x, y ) = Exp −   − 2(−0.5)   +  


2 3  2 1 − 0.25  2(1 − 0.25)  3   3  2   2   

  x − 1  2  x − 1  y − 2   y − 2  2  
f ( x, y ) = 0.9189Exp −0.6667   +  +  
 
  3   3  2   2   


f ( x, y ) = 0.9189Exp −0.0185 ( 24 x 2 + 9 y 2 + 6 xy − 20 x − 42 y + 52 ) 
f ( x, y) = 0.9189  e
(
−0.0185 24 x2 +9 y 2 +6 xy −20 x −42 y +52 )

EJEMPLO 1.5:
Los datos siguientes, citados por Rencher (p 294), fueron recopilados en 46 estaciones
meteorológicas de los Estados Unidos por R.J Freund. Corresponden a mediciones de 11
variables como se indica a continuación:
X1 = Temperatura máxima del aire
X2 = Temperatura mínima del aire
X3 = Temperatura promedio
X4 = Temperatura máxima al sol
X5 = Temperatura mínima al sol
X6 = Area bajo curva integrada de temperatura solar
X7 = Máxima humedad relativa
X8 = Mínima humedad relativa
X9 = Area bajo curva integrada de humedad relativa
X10 = Viento total (medido en millas por día)
X11 = Porcentaje de evaporación

Página 10
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Se pide realizar la estimación puntual tanto del promedio como de la varianza insesgada de
estos datos
84 65 147 85 59 151 95 40 398 273 30
84 65 149 86 61 159 94 28 345 140 34
79 66 142 83 64 152 94 41 368 318 33
81 67 147 83 65 158 94 50 406 282 26
84 68 167 88 69 180 93 46 379 311 41
74 66 131 77 67 147 96 73 478 446 4
73 66 131 78 69 159 96 72 462 294 5
75 67 134 84 68 159 95 70 464 313 20
84 68 161 89 71 195 95 63 430 455 31
86 72 169 91 76 206 93 56 406 604 36
88 73 176 91 76 206 94 55 393 610 43
90 74 187 94 76 211 94 51 385 520 47
88 72 171 94 75 211 96 54 405 663 45
58 72 171 92 70 201 95 51 392 467 45
81 69 154 87 68 167 95 61 448 184 11
79 68 149 83 68 162 95 59 436 177 10
84 69 160 87 66 173 95 42 392 173 30
84 70 160 87 68 177 94 44 392 76 29
84 70 168 88 70 169 95 48 396 72 23
77 67 147 83 66 170 97 60 431 183 16
87 67 166 92 67 196 96 44 379 76 37
89 69 171 92 72 199 94 48 393 230 50
89 72 180 94 72 204 95 48 394 193 36
93 72 186 92 73 201 94 47 386 400 54
93 74 188 93 72 206 95 47 389 339 44
94 75 199 94 72 208 96 45 370 172 41
93 74 193 95 73 214 95 50 396 238 45
93 74 196 95 70 210 96 45 380 118 42
96 75 198 95 71 207 93 40 365 93 50
95 76 202 95 69 202 93 39 357 269 48
84 73 173 96 69 173 94 58 418 128 17
91 71 170 91 69 168 94 44 420 423 20
88 72 179 89 70 189 93 50 399 415 15
89 72 179 95 71 210 98 46 389 300 42
91 72 182 96 73 208 95 43 384 193 44
92 74 196 97 75 215 96 46 389 195 41
94 75 192 96 69 198 95 36 380 215 49
96 75 195 95 67 196 97 24 354 185 53
93 76 198 94 75 211 93 43 364 466 53
88 74 188 92 73 198 95 52 405 399 21
88 74 178 90 74 197 95 61 447 232 1
91 72 175 94 70 205 94 42 380 275 44

Página 11
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

92 72 190 95 71 209 96 44 379 166 44


92 73 189 96 72 208 93 42 372 189 46
94 75 194 95 71 208 93 43 373 164 47
96 76 202 96 71 208 94 40 368 139 50

SOLUCION:
Para calcular las estimaciones puntuales de la media y la varianza en los datos
meteorológicos de Freund, basta leer el archivo de datos en formato ASCII con FREEMAT y
usar los dos comandos:

M = mean( ) para la estimación puntual de la media (un vector 11x1)


S = cov ( , 0) para la estimación puntual de la varianza (una matriz simétrica 11x11)

También se puede con cualquier otro paquete (R, Matlab, Infostat, Minitab, etc)

Vamos a usar FREEMAT. Para ello, salvamos el archivo de EXCEL a texto del DOS con formato
(Extensión PRN) dentro de la carpeta C:\DATOS y leemos este último archivo con el
comando load.

Página 12
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJEMPLO 1.6:

Tomemos: X = ( X1 , X 2 , X 3 , X 4 , X 5 ) ' , con media M y varianza A , como se definen a


continuación. Además B, C son matrices compatibles con X .

Definamos ahora: X0 = BX, X1 = CX . Se cumple:

Que son respectivamente la media y la varianza de X0 y de X1 . Tanto


son normales por ser marginales de una distribución normal. En consecuencia:

Página 13
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

  2  16 2 1  
      1   64 0  
X0 ~ N 3   1  ,  2 9 5   X1 ~ N 2    ,  
  0   1 5 36     0   0 25  
   

b. Observando la matriz A anterior se tiene Cov( X1 , X 3 ) = 0 . En consecuencia,


 = corr( X1 , X 3 ) = 0

c. Puesto que las variables son independientes -ya que la correlación entre ellas es nula-
la función de distribución para el vector ( X1 , X 3 ) ' es el producto de las dos
marginales correspondientes a X1 y X 3 , esto es:

1  1  x1 − 1 2  1  1  x2 − 0  2 
f ( x1 , x2 ) = Exp  −    Exp  −   
2 8  2  8   2 5  2  5  

1  1  x − 1 2  x − 0  2 
= Exp  −  1  +  2   x1, x2 
80  2  8   5  

EJEMPLO 1.7:

Con referencia al ejemplo anterior, considere una nueva matriz A , (diferente a la varianza),
 X2    2  16 2 1  
 2 1 −1  0      
dada por A =   que transforma X =  X 4  ~ N3   1  ,  2 9 5   en
 −1 2 2 X    0   1 5 36  
 5    
Y = AX0 cuya media es MX0 y cuya varianza es VX0.

Introducimos esta nueva matriz A en FREEMAT:

El correspondiente vector Y = AX0 está dado por:

Página 14
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

 X1 
 2 1 −1    2 X 1 + X 4 − X 5 
Y=  X4  =  −X + 2X + 2X 
 −1 2 2  X   1 4 5
 5

Cuya media y varianza son, respectivamente:

Este vector tiene distribución normal ya que sus componentes son combinaciones lineales de
variables que son normales por corresponder a las componentes del vector X0 que, como se
sabe, es normal.

 5   103 −75  
Y ~ N 2   ,  
 0   −75 224  
En conclusión:

La gráfica siguiente corresponde a la función de densidad de probabilidad bivariada para Y :

Para determinar las curvas de nivel para la distribución de este vector, se deben tener en cuenta
algunos hechos como los siguientes:

Página 15
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

1. La dirección de los ejes (direcciones principales) de las elipses, las cuales están dadas por
los vectores propios de la matriz de varianzas
2. El hecho de que la covarianza -y por tanto, la correlación- es negativa lo que hace que las
elipses estén orientadas con el eje mayor apuntando en la dirección noroeste
3. El centro de las elipses es el punto de la media de la distribución. Esto es (5, 0)’

Los vectores y valores propios de la matriz de varianza están dados por:

5
Es decir, la primera dirección principal (eje mayor) está dada por el vector con origen en   que
0
 −0.4314 
es paralelo al vector   y la segunda dirección principal (eje menor) por el vector con
 0.9022 
5  −0.9022 
centro en   que es paralelo al vector   . Es decir, una de tales elipses tiene la forma:
0  0.4314 

La gráfica siguiente, elaborada en R, proporciona varias de las elipses de nivel:

Página 16
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJEMPLO 1.8
Los datos siguientes (S. Milton) corresponden a la altura y longitud máxima de 28 conchas
de Patelloida Pygmaea, en mm.
http://studylib.es/doc/4505075/tema-3.-modelo-de-regresi%C3%B3n-simple

0.9 3.1
1.5 3.6
1.6 4.3
1.7 4.7
1.7 5.5
Página 17
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

1.8 5.7
1.8 5.2
1.9 5.0
1.9 5.3
1.9 5.7
2.0 4.4
2.0 5.2
2.0 5.3
2.1 5.4
2.1 5.6
2.1 5.7
2.1 5.8
2.2 5.2
2.2 5.3
2.2 5.6
2.2 5.8
2.3 5.8
2.3 6.2
2.3 6.3
2.3 6.4
2.4 6.4
2.4 6.3
2.7 6.3

Se pide:

a. Estimar el vector de medias y la matriz de varianza para la distribución conjunta de


la altura y la longitud en las conchas de los moluscos Patelloida Pygmaea.
b. Describir en forma explícita la distribución para el vector aleatorio ( X1 , X 2 )´ donde
X1 = altura de la concha, X 2 = longitud de la concha
c. Construir la región del 95% de confianza para la media μ de la población de moluscos
de la especie mencionada.
d. Probar la hipótesis de que dicha media μ puede valer (2, 5)’

Leemos los datos como antes y calculamos el vector de medias y la matriz de varianzas-covarianzas.
Con esta información procedemos a calcular lo que se pide.

Página 18
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

 2.0214 
Con los comandos anteriores se ha obtenido una media estimada m=  y una
 5.3964 
 0.1210 0.2416 
varianza estimada s =  
 0.2416 0.6463 

 X   Altura 
Es decir, el vector  =  tiene distribución normal bivariada de media m y
 Y   Longitud 
varianza s, dados por las expresiones anteriores. De aquí:

es la estimación del coeficiente de correlación entre las dos variables.

b. En forma explícita la forma de la distribución será:

1  1  x − 2.0214  2
f ( x, y ) = 
Exp −  
2 0.1210  0.6463 1 − 0.7464  2(1 − 0.7464)  0.1210 

 x − 2.0214  y − 5.3964   y − 5.3964 


2

−2  0.8639   +  
 0.1210  0.6463   0.6463  
  x − 2.0214 
2
 x − 2.0214  y − 5.3964   y − 5.3964  
2

= 4.041346Exp  −1.971609   − 1.7278   +  


  0.1210   0.1210  0.6463   0.6463  

c. La región del 95% de confianza centrada en m será (n =28, p = 2, F2, 26, 0.05 = 3.37):

Página 19
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

 n− p s
−1

 = x  | 2
(x − m) '   (x − m)  F2, n − p , 0.05 
 (n − 1) p n 
 x  26  x − 2.0214 
'
 1  0.1210 0.2416  
−1
 x − 2.0214  
=    2 |        3.37 
 y  54  y − 5.3964   28  0.2416 0.6463    y − 5.3964  

Su gráfica tiene la forma siguiente:

 2
d. Para probar la hipótesis H0 : μ =   vamos a calcular la distancia al cuadrado desde
5
 2
el punto   hasta el centro de la elipse de confianza. Si esta distancia es mayor que el
5
 2
radio al cuadrado, 3.37, entonces el punto   no pertenece a dicha elipse y se rechaza la
5
hipótesis nula.

La distancia en mención está dada por la fórmula para  tomando


 x   2
x 0 =   =   . Esto es: x = 2, y = 5. . Se obtiene:
 y   5

−1
26  2 − 2.0214   1  0.1210 0.2416    2 − 2.0214 
'

d ( x 0 , m) = 
2
     Esto es:
54  5 − 5.3964   28  0.2416 0.6463    5 − 5.3964 

Página 20
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Como se ve, dicha distancia es mayor que 3.37, lo que nos obliga a rechazar la hipótesis nula.
En consecuencia la media poblacional no es igual a la media propuesta.

NOTA 1: Ensayar el siguiente código R para calcular la distancia d2, después de haber escrito el
archivo de datos como ASCII, separado por comas y haber activado el paquete matlib deR:

patelloida <- read.csv("c:/datos/conchas.csv", sep=";", dec = ".")


library(matlib)
m <- as.matrix(colMeans(patelloida))
v <- as.matrix(cov(patelloida))
m0 <- as.matrix(c(2,5))
n = 28
p=2
v1 = solve(v/n)
d2 =((n-p)/((n-1)*p))*t(m-m0)%*%v1%*%(m-m0)

NOTA: Una pregunta que queda sin solucionar en este momento es cuál de las dos medias difiere
significativamente del valor propuesto. ¿será la altura la que tiene un promedio diferente a 2 o
será la longitud que tiene promedio significativamente diferente a 5? O quizás ambas difieren
significativamente de los valores propuestos 2 y 5?
Estas preguntas se resolverán próximamente.

EJEMPLO 1.9:

Considere el vector aleatorio X = ( X1 , X 2 , X 3 , X 4 ) ' con distribución normal 4-variada,


 25 12 −2 1
 
12 16 5 4
de media μ = (2, 1, 1, 2) ' y varianza Σ =  . Suponga además que el
 −2 5 9 3
 
1 4 3 4
 2X + X2 − X3 − X4 
vector Y= 1  es una transformación de X
 X1 + X 2 + X 3 − 2 X 4 

Página 21
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

a) Verifique que Σ es una verdadera matriz de varianza y factorícela en la forma


Σ = PΛP ' donde P es una matriz de rotación y Λ una matriz diagonal.

b) Determine completamente la distribución del vector Y . Es decir, diga qué tipo de


distribución tiene, cuál es su media η y cuál su varianza Ω.

c) Escriba explícitamente la función de densidad para el vector Y

d) Determine cómo son las elipses de nivel en la función de distribución de Y

SOLUCION
Usando FREEMAT se tiene:
Vector MEDIA: Matriz VARIANZA: Matriz de TRANSFORMACION:

a. Para ver que S es una matriz de varianza se debe ver que es simétrica, de rango
completo y definida positiva. Evidentemente S es simétrica. Para ver que es de
rango completo y definida positiva basta con calcular sus valores propios :
Se obtiene:

Lo que muestra que hay 4 valores propios diferentes (rango = 4) y todos positivos

Página 22
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

b. Puesto que Y = CX , según un resultado visto en clase, se cumple


E(Y) = C E( X) = CM y V(Y) = CV( X)C ' = CSC '
En consecuencia:

Son respectivamente la media y la varianza del vector Y que tiene distribución


normal por ser transformación lineal de un vector normal. Es decir:

 2  169 85  
Y ~ N 2   ,  
  
0 85 64 
c. A partir de la expresión anterior se deduce que la correlación entre las dos
cov(Y1 , Y2 )
componentes de Y está dada por  = , esto es:
V (Y1 )  V (Y2 )

Igualmente  1 = V(Y1 ) = 169 = 13,  2 = V(Y2 ) = 64 = 8, 1 =2, 2 =0


En consecuencia:

1  1  y −   2  y1 − 1  y2 − 2   y2 − 2   
2

f ( y1 , y2 ) = Exp −   − 2   +  
1 1

2 1 2 1−  2 2(1 −  2
)              
  1 1 2 2

toma la forma:

1 
 1  y1 − 2  2  y1 − 2   y2 − 0   y2 − 0   
2

f ( y1 , y2 ) = Exp −    − 2(0.8173)   +
   
2 (13)(8) 1 − 0.81732

 2(1 − 0.81732
)   13   13   8   8   

Esto es:
  y1 − 2  2  y1 − 2  y2   y2   
2

f ( y1 , y2 ) = 0.002656Exp −1.50593   − 1.6346    +    


  13   13  8   8   

Página 23
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

d. Para determinar la forma típica de las elipses de nivel en la función de distribución


anterior, calculamos vectores propios de Ω = V(Y) :

 −0.8734   0.4871 
De aquí se deduce que U1 =   U2 =   vectores que dan
 −0.4871  −0.8734 
las direcciones principales (orientación de los ejes mayor y menor de las elipses). Además
la correlación positiva coincide con la orientación dada por el primer vector propio. Por tal
razón, las elipses de nivel tienen la forma siguiente:

Página 24
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJEMPLO 1.10:
 X1  1
Considere X =  X 2  , un vector aleatorio normal, con media μ =  0  y varianza
 
X  1
 3  

 5 −4 2 
 
Σ =  −4 8 1
 2 1 9
 

1. Calcule las correlaciones ij = Corr( X i , X j ) para 1  i  j  3


2. Muestre que Σ es una matriz definida positiva y de rango completo
3. Exprese a Σ en la forma Σ = PΛP -1 donde P es una matriz de
rotación y Λ la matriz diagonal formada por los valores propios de Σ
.
−1
4. Sabiendo que Z = Σ 2 ( X − μ) es la estandarización de X , demuestre
que E(Z) = 0 y V(Z) = I3
6
μ  
5. Calcule la distancia de Mahalanobis entre los puntos y x = 5 .
 2
 
SOLUCION

Primera pregunta:
Cov( X i , X j )
Por definición ij = , así que:
V( X i ) V( X j )

−4 −4
12 = = = −0.6325
5 8 2 10
2 2
13 = = = 0.2981
5 9 3 5
1 1
 23 = = = 0.1179
8 9 6 2

Página 25
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Segunda pregunta:

Usando Matlab o Freemat se tiene:

>> S = [5 -4 2; -4 8 1;2 1 9]
S=
5 -4 2
-4 8 1
2 1 9

>> [U, V] = eig(S)


U=
0.7932 0.0887 -0.6025
0.5377 0.3623 0.7613
-0.2858 0.9278 -0.2397

V=
1.5678 0 0
0 9.5817 0
0 0 10.8505

U es la matriz de vectores propios y V la matriz de valores propios.

Recordemos que los valores propios se dan en orden descentente, y los vectores
propios (columnas de u) en el mismo orden que los valores propios. Por
consiguiente:

1 = 10.8505
2 = 9.5817
3 = 1.5678

Puesto que los tres valores propios son diferentes y positivos, concluímos que el
rango de S es 3. Es decir, S es de rango completo y S es definida positiva.

Tercera pregunta:

La descomposición hallada en el punto anterior, además de los valores propios nos


da los vectores propios que son:

Página 26
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

 −0.6025   0.0887   0.7932 


     
U1 =  0.7613  U 2 =  0.3623  U 3 =  0.5377 
 −0.2397   0.9278   −0.2856 
     

Estos vectores puestos como columnas forman la matriz P y los valores propios forman la
diagonal de la matriz  . Esto es:

 −0.6025 0.0887 0.7932  10.8505 0 0 


   
P =  0.7613 0.3623 0.5377  =  0 9.5817 0 
 −0.2397 0.9278 −0.2856   0 1.5678 
   0

Y, por tanto:

 −0.6025 0.0887 0.7932  10.8505 0 0   −0.6025 0.7613 −0.2397 


     
Σ =  0.7613 0.3623 0.5377    0 9.5817 0    0.0887 0.3623 0.9278 
 −0.2397 0.9278 −0.2856   0 1.5678   0.7932 0.5377 −0.2856 
   0

Ya que P-1 = P '

Cuarta pregunta:
Aplicamos las propiedades que vimos sobre esperanza y varianza de
vectores aleatorios.

−1 −1 −1 −1 −1
E(Z) = E( Σ 2
( X − μ)) = E( Σ 2
X−Σ 2
μ)) = E( Σ 2
X) − E(Σ 2
μ)
a)
−1 −1
=Σ 2
μ−Σ 2
μ=0
b)
−1 −1 −1 −1
V(Z) = V(Σ 2
( X − μ)) = V(Σ 2
X) − V(Σ 2
μ) = V(Σ 2
X)
−1 −1 −1 −1
=Σ 2
V(X)( Σ 2
)' = Σ 2
Σ( Σ 2
)'
−1 1 1 −1 −1 1 1 −1
=Σ 2
( Σ 2 ( Σ 2 ) ')( Σ 2
) ' = (Σ 2
Σ 2 )( Σ 2 ) ')( Σ 2
)'
−1 1 −1 1
= (Σ 2
Σ 2 )( Σ 2
( Σ 2 ) ') = I 3I 3 = I 3

Página 27
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Quinta pregunta:
1 6
   
La distancia de Mahalanobis entre μ =  0  y x =  5  está dada por
1  2
   
d 2 = (μ-x) ' Σ−1 (μ-x) .

Para ello calculamos en Matlab/Freemat:

>> mu = [1 0 1]'
mu =
1
0
1

>> x = [6 5 2]'
x=
6
5
2

>> d2 = (mu-x)'*inv(S)*(mu-x)
d2 = 26.9571
En consecuencia, d = 26.9571 = 5.1920

SEGUNDA PARTE
EJEMPLO 2.1
Un examen de calidad realizado a 25 profesionales egresados de tres universidades arrojó los siguientes
resultados, correspondientes a la capacidad mostrada por los profesionales en diferentes aspectos, como se
ve a continuación::

X1: Resolución de problemas X2: Integración a grupos de trabajo


X3: Comunicación en forma escrita X4: Asesoramiento en toma de decisiones
X5: Conocimientos propios de la profesión

Página 28
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

a. Calcule el estadístico Λ de Wilks y, con base en él, diga si los grupos de profesionales tienen
o no medias iguales (tome α = 0.05)
b. Si en el punto anterior encuentra que las medias no son iguales, determine cuáles variables
difieren y, por consiguiente, cuáles grupos son diferentes. Use corrección de Bonferroni.

SOLUCION
PRIMER PUNTO

Leemos los datos en Infostat (o en otro programa que permita calcular las matrices E y H) y (en
Análisis multivariado > Estadísticas descriptivas) calculamos las matrices SSCP COMUN y
SSCP ENTRE, correspondientes a E y H respectivamente. Esto nos da:
Matriz de suma de cuadrados y productos cruzados común = E
SPROBL INTEGR COMUNIC DECISIO CONOCIM
SPROBL 0.7228 0.0493 0.0968 -0.2795 0.4698
INTEGR 0.0493 0.6519 0.1615 0.1906 -0.3589
COMUNIC 0.0968 0.1615 0.6883 0.1028 -0.0735
DECISIO -0.2795 0.1906 0.1028 0.8881 -0.2226
CONOCIM 0.4698 -0.3589 -0.0735 -0.2226 1.5549

Página 29
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Matriz de suma de cuadrados y productos cruzados entre = H


SPROBL INTEGR COMUNIC DECISIO CONOCIM
SPROBL 0.0149 -0.1464 0.0029 -0.1213 0.1578
INTEGR -0.1464 1.4465 -0.0527 1.1770 -1.6283
COMUNIC 0.0029 -0.0527 0.2733 0.1904 0.8231
DECISIO -0.1213 1.1770 0.1904 1.1583 -0.6682
CONOCIM 0.1578 -1.6283 0.8231 -0.6682 3.9827

Llevamos estas matrices a MATLAB para calcular W=E-1H y los valores propios de W. (Para
ello salvamos en WordPad las dos matrices juntas, como EyH.txt y luego de leerlas en
Matlab, las separamos convenientemente)

load c:/datos/eyh.txt
x = eyh
x=
0.7228 0.0493 0.0968 -0.2795 0.4698
0.0493 0.6519 0.1615 0.1906 -0.3589
0.0968 0.1615 0.6883 0.1028 -0.0735
-0.2795 0.1906 0.1028 0.8881 -0.2226
0.4698 -0.3589 -0.0735 -0.2226 1.5549
0.0149 -0.1464 0.0029 -0.1213 0.1578
-0.1464 1.4465 -0.0527 1.1770 -1.6283
0.0029 -0.0527 0.2733 0.1904 0.8231
-0.1213 1.1770 0.1904 1.1583 -0.6682
0.1578 -1.6283 0.8231 -0.6682 3.9827

E = x(1:5,:)

E=
0.7228 0.0493 0.0968 -0.2795 0.4698
0.0493 0.6519 0.1615 0.1906 -0.3589
0.0968 0.1615 0.6883 0.1028 -0.0735
-0.2795 0.1906 0.1028 0.8881 -0.2226
0.4698 -0.3589 -0.0735 -0.2226 1.5549

H = x(6:10,:)
H=
0.0149 -0.1464 0.0029 -0.1213 0.1578
-0.1464 1.4465 -0.0527 1.1770 -1.6283
0.0029 -0.0527 0.2733 0.1904 0.8231
-0.1213 1.1770 0.1904 1.1583 -0.6682
0.1578 -1.6283 0.8231 -0.6682 3.9827

Página 30
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

W = inv(E)*H
W=
-0.0687 0.7260 -0.5349 0.1534 -2.2486
-0.1661 1.6140 0.2337 1.5649 -0.9935
0.0774 -0.8053 0.4810 -0.2670 2.1776
-0.1137 1.1067 0.1376 1.0534 -0.7450
0.0713 -0.7737 0.7873 0.0233 3.0077

Calculamos ahora los s = min{k-1, p} = min{2,5} = 2 valores propios de W:

[V,L] = eig(W)
V=
0.4744 -0.2486 -0.7839 0.6108 -0.3962
0.3413 0.6987 0.0601 0.1606 0.6638
-0.4698 0.1768 -0.5859 -0.7300 -0.0114
0.2454 0.4591 0.0610 0.1458 -0.6058
-0.6144 0.4560 0.1869 0.2168 0.1878

L=
3.9751 0 0 0 0
0 2.1122 0 0 0
0 0 0.0001 0 0
0 0 0 -0.0000 0
0 0 0 0 -0.0001

Así, los valores propios a tener en cuenta son 1 = 3.9751, 2 = 2.1122 con s = 2.

El  de Wilks está dado por


s
1  1  1 
= =   = 0.0646
i =1 1 + i  1 + 3.9751  1 + 2.1122 
Esto es: lam = 1/(4.9751*3.1122) = 0.0646

Este estadístico debe ser transformado en una F. De acuerdo con la tabla vista en clase,
estamos ante el caso “p cualquiera y  H = 2 “ al que corresponde:

1−   E − p +1
F= con 2 p y 2( E − p + 1) GL
 p

Página 31
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

F = ((1-sqrt(lam))/sqrt(lam))*((22-5+1)/5)
F = 10.5640

Este valor, bajo una F con 10 y 36 G.L produce un valor p = 0.000 (<10-4):

En consecuencia, se rechaza H0 y, por tanto, no todas las medias son iguales.

El segundo punto busca determinar cuáles medias difieren.

SEGUNDO PUNTO:

Para determinar cuáles medias difieren, hacemos comparaciones de las medias


correspondientes por pares, mediante una prueba t de student con  E = 22 GL ,al nivel
2 0.10 '
'= = = 0.0033 , al cual corresponde = 0.00165
pk (k − 1) 30 2

Es decir, el valor crítico para comparar los diferentes estadísticos calculados es 3.295

Usamos los vectores de medias por grupo, dados por infostat:

Vectores medios por grupo


UNIV SPROBL INTEGR COMUNIC DECISIO CONOCIM
1.00 4.3625 4.0375 3.7625 3.7750 4.3125
2.00 4.3400 4.2800 3.5300 3.7800 3.4100
3.00 4.3000 4.6571 3.7143 4.2571 3.5429

Página 32
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

load c:/datos/medias2p.txt
y=medias2p

y=
1.0000 4.3625 4.0375 3.7625 3.7750 4.3125
2.0000 4.3400 4.2800 3.5300 3.7800 3.4100
3.0000 4.3000 4.6571 3.7143 4.2571 3.5429

y = y'
y=
1.0000 2.0000 3.0000
4.3625 4.3400 4.3000
4.0375 4.2800 4.6571
3.7625 3.5300 3.7143
3.7750 3.7800 4.2571
4.3125 3.4100 3.5429

m1 = y(2:6,1)
m1 =
4.3625
4.0375
3.7625
3.7750
4.3125

m2 = y(2:6,2)
m2 =
4.3400
4.2800
3.5300
3.7800
3.4100

m3 = y(2:6,3)
m3 =
4.3000
4.6571
3.7143
4.2571
3.5429

Calculamos los valores t en Matlab:


for i=1:5
t12(i) = abs(m1(i) - m2(i))/sqrt((E(i,i)/22)*(1/n1+1/n2))
t13(i) = abs(m1(i) - m3(i))/sqrt((E(i,i)/22)*(1/n1+1/n3))

Página 33
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

t23(i) = abs(m2(i) - m3(i))/sqrt((E(i,i)/22)*(1/n2+1/n3))


end

lo que produce:

Los valores marcados con (*) corresponden a cuantiles superiores al valor crítico
3.295, calculado anteriormente, y, por consiguiente corresponden a casos en los
que se rechaza la igualdad del par de medias considerado. Por ejemplo, el valor
7.1568 de la primera columna, indica que las medias correspondientes a la quinta
variable (conocimientos relacionados con la profesión) son significativamente
diferentes entre las universidades 1 y 2. Esto implica que μ1  μ2

Como se ve, todas las medias son diferentes!!

EJEMPLO 2.2:

Página 34
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

SOLUCION:
Se trata de estimar la media poblacional μ y probar la hipótesis de que dicha media puede
valer μ0 = (20,160,65) '
La estimación puntual de μ es x y la región de confianza es una elipse con centro en x dada
−1
s
por la ecuación (x − x ) '   (x − x )  Tp2, n −1 la cual, como se sabe, se puede escribir en
n
términos d F de forma siguiente:
−1
n− p s
(x − x ) '   (x − x )  Fp , n − p
(n − 1) p n
En consecuencia, se rechaza la hipótesis nula si μ 0 no se encuentra dentro de la región
anterior. Es decir, si la distancia cuadrada
−1
n− p s
d ( x, μ 0 ) =
2
(x − x ) '   ( x − x )  Fp , n − p , 
(n − 1) p n

Para nuestro caso p = 3, n = 15 y F3, 12, 0.05 = 3.49 (ver gráfica)

El siguiente programa, corrido en FREEMAT, calcula la media muestral, la varianza y la


distancia mencionada anteriormente, para decidir si se rechaza o no la hipótesis de que la
media poblacional es el vector (20,160,65)’
% PROGRAMA DE ESTIMACION DE UNA MEDIA Y
% PRUEBA DE HIPOTESIS M = M0
clear
% Estimacion de media y prueba sobre media
load c:\datos\bacalao.prn

Página 35
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

x = bacalao;
alfa = 0.05;
p = 3;
n = 15;
m0 = [20 160 65]';
m = mean(x)';
s = cov(x);
d2 = ((n-p)/((n-1)*p))*(m-m0)'*inv(s/n)*(m-m0)

% En caso de rechazo de H0
% Prueba para medias individuales
alfap = alfa/p;
for i=1:p
t(i) = abs(m(i)-m0(i)) / sqrt(s(i,i)/n);
end
t = t'

La ejecución del programa arroja una media estimada de (22.6333, 160.36, 63.1333)’ y una
distancia al cuadrado de d2 = 25.0148 que es superior al valor 3.49 (valor crítico de F).
En consecuencia, se rechaza la hipótesis de que las medias son iguales y debemos aplicar la
segunda parte del programa (que contiene ya la corrección de Bonferroni) para determinar
cuál o cuáles de las tres medias de las variables difiere(n) significativamente de los valores
propuestos.

Esta parte de la prueba se hace mediante una prueba t (t-test) con n − 1 grados de libertad y
 0.05
al nivel  ' = = = 0.0167
p 3
Puesto que se trata de una prueba bilateral se debe calcular tn−1,  ' = t14, 0.00835 = 2.717
2

Valores superiores a 2.717 calculados con el programa indican que la correspondiente variable
difiere del valor propuesto como media.

Al ejecutar la segunda parte del programa se obtiene:

Página 36
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Que, como se ve, nos dice que la primera variable es la responsable del rechazo de la
hipótesis propuesta para la media trivariada poblacional.

EJEMPLO 2.3:
Una operación de control de calidad contempla la comparación de cierto producto que es producido
por tres fábricas A, B y C. Por esta razón se tomaron muestras del producto procedentes de las tres
fábricas y se calificaron tres características denominadas X, Y, Z.

La tabla siguiente proporciona los valores de las calificaciones correspondientes. Mediante un


análisis de varianza multivariado al 5% de significancia, averigüe si la calidad de los productos es la
misma en las tres fábricas (lo que implicaría medias iguales). De no ser así determine en cuál o cuáles
de las tres variables difieren los productos

SOLUCION
La primera parte de este ejercicio puede hacerse con Infostat. Esta parte nos dice si se
rechaza o no la hipótesis de que las medias de las tres poblaciones (fábricas) son iguales.
En caso de que se rechace esta hipótesis, se harán las pruebas correspondientes en
FREEMAT para comparar las medias de cada variable. Estas pruebas se hacen por pares (t-
test) basadas en el estadístico

Página 37
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

x ji − xli
t (jli ) =
eii  1 1 
 + 
 E  n j nl 
t E 2
Con distribución al nivel  ' = (como siempre, son pruebas bilaterales). En esta
pk (k − 1)
fórmula eii es el i-ésimo elemento de la diagonal de E, la matriz SSCP “Dentro”.  E = n − k con
n = n1 + n2 + n3 y k = 3

El análisis con Infostat arroja

Es decir, el valor del estadístico Lambda de Wilks es 0.17 que transformado a una F con 6 y 56 grados
de libertad equivale a 13.20. Este valor, demasiado alto, arroja un valor P inferior a o.0001. Por
consiguiente, se debe rechazar la hipótesis de que las medias en las tres fábricas coinciden.

La prueba de comparación de medias con corrección de Bonferroni, proporcionada por Infostat, nos
muestra que las fábricas B y C tienen igual media, es decir, coinciden en calidad. No así la fábrica A
que difiere significativamente de las otras dos (ver salida Infostat, en la página siguiente).
En cuál de las tres variables se encuentra esa diferencia? Es la parte que se hará con FREEMAT.

Para comparar las medias por variable, usamos Infostat para calcular las medias de las tres
muestras y la matriz de varianzas común (Matriz DENTRO). Estas matrices se leen en
FREEMAT y allí se hacen los cálculos de acuerdo con las fórmulas anotadas anteriormente.

La matriz

contiene en sus tres primeras filas las medias estimadas de cada muestra (fábrica),

Página 38
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

( recordar que estas medias deben ser tratadas como vectores columna) y en las últimas
tres filas la matriz E, de sumas de cuadrados “entre” (la cual es simétrica).

El siguiente programa calcula los estadísticos de prueba que deben ser comparados con
t ' = t30, 0.0028 = 2.985 (ver gráfica)
E, 2

clear
x = [ 14.07 32.99 42.02;
15.82 33.90 35.13;
14.69 34.32 34.05;
35.89 -7.40 -15.09;
-7.40 118.63 -31.69;
-15.09 -31.69 112.33]

m1 = x(1,:)';
m2 = x(2,:)';
m3 = x(3,:)';
e = x(4:6,:)
n1 = 10;
n2 = 12;
n3 = 11;
n = n1+n2+n3;
k = 3;
ne = n-k;
for i=1:3
t12(i) = abs(m1(i)-m2(i))/ sqrt((e(i,i)/ne)*(1/n1 + 1/n2));
t13(i) = abs(m1(i)-m3(i))/ sqrt((e(i,i)/ne)*(1/n1 + 1/n3));
t23(i) = abs(m2(i)-m3(i))/ sqrt((e(i,i)/ne)*(1/n2 + 1/n3));
end
t12 = t12'
t13 = t13'
t23 = t23'

La ejecución del anterior programa arroja los siguientes estadísticos:

Página 39
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Los valores encerrados en los recuadros rojos son mayores que el valor crítico 2.985
indicando con ello que las correspondientes medias difieren. Obsérvese que las media 2 y
3 no difieren lo que concuerda con el resultado proporcionado por Infostat. Deducimos aquí
que la variable responsable de las diferencias es la tercera.

TERCERA PARTE
EJERCICIO 3.1:
Los datos siguientes corresponden a la evaluación de 15 apartamentos, hecha por expertos que
calificaron 8 variables, a saber:

X1 = Calidad del Vecindario


X2 = Existencia de centro comerciales
X3 = Calidad de los materiales empleados
X4 = Acabados
X5 = Calidad de los pisos
X6 = Diseño general
X7 = Iluminación natural
X8 = Vías de ingreso y zonas de parqueo

Se pide realizar un ACP estandarizado y de acuerdo con el:


- Determinar cuántas componentes son suficientes para explicar los datos (explicar)
- Dar las ecuaciones de las componentes
- Obtener tantos factores como componentes Usted haya decidido retener
- Dar las ecuaciones de los factores y decir cómo están constituídos (qué representan)
- Calcular comunalidades y varianzas específicas
Si tiene cómo hacer gráficas, podría presentar un mapa de variables y un biplot junto con sus
interpretaciones.

Página 40
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

SOLUCION
1. COMPONENTES PRINCIPALES
En primer lugar se hará un ACP estandarizado (normado) por lo cual calculamos la matriz de
correlaciones de los datos, a partir de la cual se procederá a la construcción de componentes
principales.

>> load c:\clases\aptos.txt


>> x = aptos;

>> S = corrcoef(x)

S=
1.0000 0.7976 0.1933 0.4478 0.4633 0.1432 0.4085 0.4069
0.7976 1.0000 0.2726 0.5254 0.5546 0.1771 0.4406 0.4178
0.1933 0.2726 1.0000 0.7874 0.7238 0.9880 0.8303 0.8401
0.4478 0.5254 0.7874 1.0000 0.9487 0.7256 0.9851 0.9719
0.4633 0.5546 0.7238 0.9487 1.0000 0.6360 0.9004 0.9349
0.1432 0.1771 0.9880 0.7256 0.6360 1.0000 0.7938 0.8013
0.4085 0.4406 0.8303 0.9851 0.9004 0.7938 1.0000 0.9840
0.4069 0.4178 0.8401 0.9719 0.9349 0.8013 0.9840 1.0000

S es la matriz de correlaciones, a partir de la cual se inicia el proceso de construcción de


componentes principales. Para ello extraemos vectores y valores propios:
>> [U,V] = eig(S)

Vectores propios:

U=

Página 41
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

-0.2119 -0.6305 -0.2962 0.6573 0.1458 0.1285 0.0038 0.0019


-0.2346 -0.6052 -0.2207 -0.6757 -0.1893 -0.1938 -0.0034 -0.0021
-0.3653 0.3004 -0.4533 -0.1437 0.2048 0.3099 0.6413 0.0302
-0.4066 -0.0014 0.3120 -0.0310 -0.3030 0.5426 -0.2089 0.5536
-0.3901 -0.0611 0.4185 -0.1685 0.7182 0.0788 -0.1895 -0.2876
-0.3438 0.3587 -0.5404 0.0269 0.0006 -0.1711 -0.6561 -0.0251
-0.4060 0.0761 0.2072 0.1539 -0.5416 0.0154 0.1113 -0.6758
-0.4075 0.0883 0.2250 0.1922 0.0036 -0.7209 0.2574 0.3906

Valores propios:

V=
5.7260 0 0 0 0 0 0 0
0 1.5316 0 0 0 0 0 0
0 0 0.4301 0 0 0 0 0
0 0 0 0.2183 0 0 0 0
0 0 0 0 0.0801 0 0 0
0 0 0 0 0 0.0140 0 0
0 0 0 0 0 0 0.0000 0
0 0 0 0 0 0 0 0.0000

Como se ve, hay dos valores propios mayors que 1, así que según el criterio mineigen (Kaiser),
retenemos dos componentes CP1 y CP2 correspondientes a los dos dos mayores valores propios.
Los correspondientes coeficientes para estas componentes están dados por los dos primeros
vectores propios unitarios U1 y U2:

Veamos qué tanta variabilidad explican estas componentes:


La varianza total es:
>> vt = trace(V)

vt =
8.0000

Los dos primeros valores propios son:


>> L1 = V(1,1)

L1 =
5.7260

>> L2 = V(2,2)

L2 =
1.5316

Página 42
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

La componente CP1 sola explica el 71.57% de la variabilidad :


>> pct1 = 100*L1/vt
pct1 =
71.5747

Las dos primeras componentes juntas, CP1 y CP2, explican el 90.72% de la variabilidad:
>> pct2 = 100*(L1+L2)/vt
pct2 =
90.7194

Así pues las dos componentes retenidas están dadas por los siguientes coeficientes:

>> U1 = U(:,1)
U1 =
-0.2119
-0.2346
-0.3653
-0.4066
-0.3901
-0.3438
-0.4060
-0.4075

>> U2 = U(:,2)
U2 =
-0.6305
-0.6052
0.3004
-0.0014
-0.0611
0.3587
0.0761
0.0883

O sea:

CP1 = -0.2119 VECIND – 0.2346 COMERCIAL - … - 0.4075 VIASP


CP2 = -0.6305 VECIND – 0.6052 COMERCIAL + … +0.0883 VIASP

Página 43
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

2. ANALISIS DE FACTORES

Puesto que se retuvieron dos componentes, de acuerdo con lo solicitado, se construirán dos
factores comunes:

La matriz de cargas estará dada por [ 1 U1 2 U 2 ] , esto es:

>> C = [sqrt(L1)*U1 sqrt(L2)*U2]


C=
-0.5071 -0.7803
-0.5613 -0.7489
-0.8742 0.3718
-0.9729 -0.0017
-0.9335 -0.0756
-0.8227 0.4439
-0.9716 0.0942
-0.9752 0.1092

En consecuencia, los factores comunes, F1 y F2 están dados por:

F1 = -0.5071 VECIND -0.5613 COMERCIAL - … - 0.9752 VIASP


F2 = -0.7803 VECIND -0.7489 COMERCIAL + … + 0.1092 VIASP

Interpretar estos factores no es fácil ya que el primero de ellos está conformado por casi todas las
variables. Tal vez se podría excluir COMERCIAL ya que tiene el coeficiente más bajo. Sin embargo
se ve que esta variable no es la que más pesa en F2. En realidad basta con un solo factor, F1.

Para construir las comunalidades recordamos que ellas están dadas por las sumas de los
cuadrados de las cargas correspondientes a los factores extraídos.

Esto es:

>> for i=1:8


h2(i) = C(i,1)^2 + C(i,2)^2;
end

>> h2 = h2'

Así pues, las comunalidades están dadas por:


h2 =
0.8660 para VECINDAD

Página 44
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

0.8760 para COMERCIAL


0.9024 para MATERIALES
0.9464 para ACABADOS
0.8771 para PISOS
0.8738 para DISEÑO
0.9529 para ILUMINACION
0.9629 para VIASPRK

Estos valores indican qué tanto queda explicada cada variable con los dos factores extraídos. Por
ejemplo, ACABADOS queda explicada en un 94.64% con los facores F1 y F2.

Por últimos, calculamos las varianzas específicas, es decir, las varianzas de las variables que
conforman el factor específico, H

>> for i=1:8


psi(i) = 1 - h2(i);
end

>> psi = psi'


psi =
0.1340
0.1240
0.0976
0.0536
0.1229
0.1262
0.0471
0.0371

En conclusión la matriz de varianzas de H, está dada por:

 0.1340 0 0 0 0 0 0 0 
 
 0 0.1240 0 0 0 0 0 0 
 0 0 0.0976 0 0 0 0 0 
 
ψ = 
 0
0 0
0
0
0
0.0536
0
0
0.1229
0
0
0
0
0 
0 
 
 0 0 0 0 0 0.1262 0 0 
 0 0 0 0 0 0 0.0471 0 
 
 0 0 0 0 0 0 0 0.0371 

Página 45
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

MAPA DE VARIABLES CON EL ACP:


>> scatter(U1,U2)

Nota: la orientación de estos mapas puede ser diferente en otros paquetes y graficadores, al
igual que los signos de las coordenadas. Lo que importa realmente son las posiciones relativas
tanto de las variables como de los individuos. La cercanía significa semejanza o asociación.

MAPA DE INDIVIDUOS CON EL ACP:


Coordenadas factoriales de los individuos:
>> Ind = x*U

Ind =
-64.2702 6.0743 -6.2970 11.3551 -5.2673 -10.0498 -2.4034 0.2537
-61.9983 1.4578 -6.2635 5.8572 -5.4626 -11.5423 -3.4996 -0.4902
-80.0070 -9.4242 -4.9418 -1.1451 -3.3177 -10.3259 -4.5027 0.1682
-75.5491 -7.8912 -8.3935 -0.7366 -4.3466 -11.1314 -3.3639 -0.0894
-72.7927 3.6696 -1.8428 4.5629 -1.8220 -8.9947 -3.9008 -0.0893
-73.7000 -6.9821 -6.8811 3.1745 -3.8010 -10.4716 -3.8884 -0.0892
-79.7933 -5.4985 -3.5656 2.5889 -1.9617 -8.8819 -4.3765 0.2628
-79.0177 -1.6076 -2.4271 2.7443 -1.0430 -8.6607 -4.1550 0.0728
-75.4061 -12.3846 -8.8958 -0.6068 -4.8124 -11.8061 -3.9556 -0.1904
-77.3684 -9.1175 -5.9489 -2.5249 -4.8476 -11.1571 -4.2728 0.1865
-77.0619 -7.8336 -5.3632 -0.3480 -4.4850 -10.4240 -4.3048 0.3065
-68.9333 -2.0880 -6.4863 3.8737 -4.1948 -10.8621 -3.5314 -0.3057
-72.2206 -5.9141 -6.3361 2.1940 -2.6157 -11.4715 -3.9614 -0.7594
-73.5855 -6.4806 -5.6214 4.1508 -3.5596 -10.1757 -4.2630 -0.0373
-76.5433 -5.9648 -3.2761 3.3317 -1.8097 -9.8751 -4.7556 -0.2265

Página 46
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Dibujamos solo los puntos del plano factorial F1F2:

>> scatter(Ind(:,1), Ind(:,2))

Mapa de individuos, rotado dos veces en el espacio

Página 47
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Mapa de variables, rotado dos veces en el espacio

Al hacer estas rotaciones se ve que los mapas anteriores coinciden con los que dan los paquetes
estadísticos como Infostat, Minitab, etc.

EJEMPLO 2.2:

Los datos siguientes corresponden a calificaciones en 8 variables relacionadas con inteligencias lingüística y
lógico matemática de la siguiente manera:

X1 = Comprensión de lectura (CPL)


X2 = Composición oral (CMO)
X3 = Habilidad poética (HPO)
X4 = Significado de palabras (SPL)
X5 = Redacción escrita (RES)
X6 = Vocabulario y sinónimos (VBS)
X7 = Planteamiento y solución de problemas (PSP)
X8 = Razonamiento lógico matemático (RLM)

46.2 31.2 37.6 25.8 27.6 31.2 53.2 48.5


39.3 32.6 38.5 21.2 22.0 24.3 46.1 36.0
47.1 40.5 42.4 26.4 35.4 42.5 43.3 46.1
48.3 32.2 38.9 27.2 30.3 35.2 55.6 69.3
47.4 35.8 43.5 26.6 32.1 38.8 53.8 67.5
44.9 36.0 40.1 25.0 29.9 35.0 42.4 46.0
48.6 39.9 41.4 27.4 36.4 43.5 56.5 60.7
50.1 37.6 45.1 28.4 36.1 44.3 55.4 60.0
44.5 35.9 41.9 24.7 29.5 35.0 50.0 55.1
45.8 39.2 38.3 25.5 33.2 38.5 59.6 72.0
45.8 40.0 36.2 25.5 33.7 38.5 52.2 70.6
43.9 33.0 40.3 24.3 26.7 30.9 53.3 66.3

Página 48
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

44.0 33.8 53.7 24.4 27.4 36.0 48.7 53.7


43.5 38.7 40.8 24.0 30.6 36.0 53.0 60.0
44.4 40.8 50.2 24.6 33.1 42.0 56.5 58.5
50.1 33.9 41.4 28.4 33.4 39.8 52.0 65.0
47.1 37.8 37.9 26.4 33.4 38.7 43.9 46.2
41.6 40.2 43.2 22.7 29.9 35.8 44.0 49.7
44.4 39.4 42.0 24.6 32.0 38.1 47.4 48.0
38.1 37.0 42.0 20.4 24.1 27.9 71.9 72.1

En primer lugar debe usted realizar un análisis estandarizado de componentes principales y utilizar el
criterio mineigen de Kaiser para determinar cuántas componentes se deben retener. En este análisis usted
debe proporcionar las ecuaciones de las componentes retenidas y mediante un mapa perceptual de
variables establecer la estructura de correlación entre ellas.

En segundo lugar usted debe utilizar los cálculos realizados en la primera parte para realizar un análisis de
factores por el método de factores principales. En este análisis debe calcular las cargas factoriales, las
comunalidades, las varianzas específicas y plantear el modelo correspondiente.

Además debe usted indicar cómo quedan conformados los factores y qué representa cada uno de ellos.

SOLUCION
El siguiente programa en MATLAB resuelve parte del primer punto (excepto lo relacionado con el
mapa de variables) y el segundo punto:
%% Analisis de componentes principales y
%% Analisis de factores por el método de
%% Factores principales para 3r parcial AMV

% leemos los datos


load c:\datos\p3amv.dat
x = p3amv

% Calculamos matriz de correlación


R = corrcoef(x)

% Calculamos vectores y valores propios


[u,l] = eig(R)
% Salieron en orden descendente

% Definimos vectores y valores propios


U1 = u(:,1)
U2 = u(:,2)
U3 = u(:,3)
l1 = l(1,1)
l2 = l(2,2)
l3 = l(3,3)

Página 49
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

% Construimos la matriz de cxargas factoriales


G1 = sqrt(l1)*U1
G2 = sqrt(l2)*U2
G3 = sqrt(l3)*U3
G = [G1 G2 G3]

% Calculamos las comunalidades:


for i = 1:8
h2(i) = G(i,1)^2 + G(i,2)^2 + G(i,3)^2
end
h2 = h2'

% Calculamos varianzas específicas


for i = 1:8
psi(i) = R(i,i) - h2(i)
end
%Construimos matriz PSI de varianzas específicas:
PSI = zeros(8,8)
for i = 1:8
PSI(i,i) = psi(i)
end

%% SALIDAS:

%% Matriz de correlaciones, R:
R

%% Matriz de cargas factoriales, G:


G

%% Matriz de varianzas específicas, PSI:


PSI

%% Comunalidades, h2:
h2

Página 50
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

PRIMERA PARTE – COMPONENTES PRINCIPALES

Aplicando el programa se obtiene:

Valores propios:
3.7587 0 0 0 0 0 0 0
0 1.7562 0 0 0 0 0 0
0 0 1.3913 0 0 0 0 0
0 0 0 0.9246 0 0 0 0
0 0 0 0 0.1691 0 0 0
0 0 0 0 0 0.0000 0 0
0 0 0 0 0 0 0.0000 0
0 0 0 0 0 0 0 0.0001

Como se ve, hay tres valores propios mayores que 1. Esto implica retener las 3 primeras
componentes (Kaiser).

Vectores propios
U1 U2 U3 U4 U5 U6 U7 U8
-0.4607 -0.0253 0.3621 -0.1374 0.0841 0.5186 0.5949 -0.0850
-0.2321 -0.0123 -0.6540 0.4677 -0.0041 0.1826 0.0947 -0.5072
-0.0526 -0.0196 -0.4907 -0.8405 -0.0694 -0.0972 0.1395 -0.1262
-0.4596 -0.0279 0.3635 -0.1456 0.0809 -0.2842 -0.4586 -0.5805
-0.5035 -0.0294 -0.1113 0.1729 0.0726 -0.6735 0.3441 0.3551
-0.4965 -0.0358 -0.2217 -0.0521 0.0344 0.3921 -0.5375 0.5065
0.0443 0.7177 -0.0638 -0.0416 0.6906 0.0061 -0.0087 0.0011
-0.1337 0.6934 0.0522 0.0214 -0.7058 -0.0066 0.0047 0.0010

Estos vectores proporcionan los coeficientes de las tres primeras componentes principales, que en
consecuencia, serán:

CP1 = -0.4607 CPL -0.2321 CMO -0.0526 HPO -0.4596 SPL -0.5035 RES + … -0.1337 RLM
CP2 = -0.0253 CPL -0.0123 CMO -0.0196 HPO -0.0279 SPL -0.0294 RES + … +0.6934 RLM
CP3 = 0.3621 CPL -0.6540 CMO -0.4907 HPO +0.3635 SPL -0.1113 RES + … +0.0522 RLM

Página 51
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

La gráfica siguiente corresponde al mapa perceptual de variables:

Como puede apreciarse, las variables HPO, CMO, SPL, VBS, CPL y RES, es decir, habilidad poética,
composición oral, significado de palabras, vocabulario y sinónimos, comprensión de palabras y
redacción escrita, están fuertemente correlacionadas entre sí y aportando principalmente a la
primera componente. En cambio, las variables PSP y RLM (planteamiento y solución de problemas
de una parte y razonamiento lógico matemático de otra) que están significativamente
correlacionadas entre sí pero poco correlacionadas con las anteriores, hacen su aporte
principalmente a la segunda componente.

Página 52
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

SEGUNDA PARTE ANALISIS DE FACTORES (PCF)

Matriz de Correlaciones, R:
1.0000 0.0136 -0.0494 0.9999 0.7962 0.7568 -0.1256 0.2143
0.0136 1.0000 0.1294 0.0079 0.6158 0.6131 -0.0146 0.0639
-0.0494 0.1294 1.0000 -0.0441 0.0413 0.2908 0.0343 -0.0414
0.9999 0.0079 -0.0441 1.0000 0.7926 0.7549 -0.1289 0.2110
0.7962 0.6158 0.0413 0.7926 1.0000 0.9678 -0.1091 0.2040
0.7568 0.6131 0.2908 0.7549 0.9678 1.0000 -0.1021 0.1847
-0.1256 -0.0146 0.0343 -0.1289 -0.1091 -0.1021 1.0000 0.7638
0.2143 0.0639 -0.0414 0.2110 0.2040 0.1847 0.7638 1.0000

Matriz de cargas factoriales para tres factores, G:


-0.8932 -0.0335 0.4271
-0.4500 -0.0163 -0.7714
-0.1020 -0.0260 -0.5787
-0.8911 -0.0370 0.4288
-0.9761 -0.0389 -0.1312
-0.9626 -0.0475 -0.2615
0.0859 0.9512 -0.0752
-0.2593 0.9189 0.0616

Matriz de Varianzas específicas, PSI:


0.0187 0 0 0 0 0 0 0
0 0.2022 0 0 0 0 0 0
0 0 0.6540 0 0 0 0 0
0 0 0 0.0207 0 0 0 0
0 0 0 0 0.0285 0 0 0
0 0 0 0 0 0.0027 0 0
0 0 0 0 0 0 0.0823 0
0 0 0 0 0 0 0 0.0847

Comunalidades:
CPL 0.9813
CMO 0.7978
HPO 0.3460
SPL 0.9793
RES 0.9715
VBS 0.9973
PSP 0.9177
RLM 0.9153

Página 53
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Las comunalidades dicen que con tres factores todas las variables quedan muy bien explicadas,
excepto HPO que solo se explica en un 34.6 %.

Por otra parte, tomando sólo dos cifras decimales en los coeficientes, los factores
obtenidos son:

F1 F2 F3
CPL -0.89 -0.03 0.43
CMO -0.45 -0.02 -0.77
HPO -0.10 -0.03 -0.58
SPL -0.89 -0.04 0.43
RES -0.98 -0.04 -0.13
VBS -0.96 -0.05 -0.26
PSP 0.09 0.95 -0.08
RLM -0.26 0.92 0.06

En consecuencia, podemos afirmar que tales factores están conformados principalmente (ver los
mayores pesos o cargas en rojo) de la siguiente manera:

F1 por comprensión de lectura, significado de palabras, redacción escrita, vocabulario y


sinónimos.
F2 por Planteamiento y solución de problemas y razonamiento lógico matemático.
F3 por Composición oral y habilidad poética.
En otras palabras el primer factor tiene que ver con la comunicación oral y escrita, el segundo
factor con la parte lógico matemática y el tercero con la parte artística del lenguaje.

NOTA: El tercer factor, F3, podría ser considerado como una parte del primero y, de esta manera,
se determinarían sólo dos grandes factores que en esencia coincidirían con lo observado en las
componentes principales

Página 54
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Modelo factorial:

De acuerdo con lo dicho anteriormente este modelo tiene la siguiente estructura:

R = GG' + ψ
Donde R y G son respectivamente las matrices de correlación y de cargas factoriales
construídas anteriormente y ψ es la matriz PSI, calculada en la página 6.

NOTA ADICIONAL (sobre MV):

Aunque no se pide en el ejercicio, cabe recalcar que si se pretende aplicar el método de máxima
verosimilitud, no se encuentra una solución. Como puede observarse al aplicar el código siguiente
en R.

## lectura de datos:

datos = read.table('c:/datos/p3amv.dat')

> colnames(datos)=c("CPRLECT","COMPORAL","HABPOET","SGNPLBR","REDESCRT", +

"VOCBLSIN","PLASOLPRB","RZNLOGIC")

## Extraccion de un factor:

> (fit = factanal(datos,1,rotation = "none"))

## Como se ve, un factor no es suficiente

## Extraemos dos factores:

> (fit = factanal(datos,2,rotation = "none"))

## Tampoco son suficientes dos factores

Puede verse que tres y cuatro factores no son suficientes y que al pretender obtener 5 el
algoritmo falla y da un mensaje de error, diciendo que son demasiados factores para el número de
variables.

EJEMPLO 3.3:
Los datos siguientes, reportados por Fenelon, corresponden a toneladas de alimentos consumidos
durante una temporada en 3 sectores poblacionales de Francia: Obreros, Empleados y Ejecutivos.
Estos sectores han sido subdivididos según el número de hijos de las familias, a saber: familias con
dos hijos o menos, familias con tres hijos, familias con 4 hijos y familias con 5 hijos o más.. Las
variables analizadas son: PAN, VEGETALES, FRUTAS, CARNES, AVES, LECHE Y VINO.

Página 55
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Se pide

1. Realizar un análisis de componentes principales y explicar las principales salidas del análisis.
Usted decide si realiza ACP estandarizado o no, dando las razones para su decisión.
2. Acorde con el punto anterior, realice un Análisis factorial por el método PF. Diga cómo
quedan constituídos los factores y cuáles son las varianzas específicas.
3. Usando R realice un análisis factorial por el método MV. Igual que antes, diga cómo quedan
constituidos los factores

En primer lugar leemos los datos en FREEMAT (realmente no es estrictamente necesario. Podría
partirse de la matriz de varianzas covarianzas o de la de correlaciones)

--> load f:\fracomi.txt


--> x = fracomi

x=
332 428 354 1437 526 247 427
293 559 388 1527 567 239 258
372 767 562 1948 927 235 433
406 563 341 1507 544 324 407
386 608 396 1501 558 319 363
438 843 689 2345 1148 243 341
534 660 367 1620 638 414 407
460 699 484 1856 762 400 416
385 789 621 2366 1149 304 282
655 776 423 1848 759 495 486
584 995 548 2056 893 518 319
515 1097 887 2630 1167 561 284

Página 56
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Primera pregunta:
Aunque todas las variables están en la misma unidad de medida (Toneladas) y por tanto podría
hacerse componentes principales corrientes, las diferencias tan grandes de las varianzas nos hace
pensar que no es apropiado este tipo de ACP. Así que es preferible hacer un ACP estandarizado que
parte de la matriz de correlaciones.

FREEMAT no tiene un comando para calcular la matriz R de correlaciones, pero este no es un


problema. Los datos pueden ser introducidos a INFOSTAT y allí calcular la matriz R. Eso fue lo que
se hizo en este ejemplo. Calculamos R, la salvamos en alguna carpeta y desde allí la leemos:
--> load f:\corrcomi.txt
--> R = corrcomi

Se obtiene:

R=
1.0000 0.5931 0.1961 0.3213 0.2480 0.8556 0.3038
0.5931 1.0000 0.8563 0.8811 0.8268 0.6628 -0.3565
0.1961 0.8563 1.0000 0.9595 0.9255 0.3322 -0.4863
0.3213 0.8811 0.9595 1.0000 0.9818 0.3746 -0.4372
0.2480 0.8268 0.9255 0.9818 1.0000 0.2329 -0.4002
0.8556 0.6628 0.3322 0.3746 0.2329 1.0000 0.0069
0.3038 -0.3565 -0.4863 -0.4372 -0.4002 0.0069 1.0000

Calculamos vectores y valores propios a la matriz R para el ACP estandarizado:


--> [u,v] = eig(R)

Se obtiene:

u=
0.0248 0.5081 -0.0360 0.5436 -0.0109 -0.6221 -0.2396
-0.1565 -0.3010 0.8086 0.0228 -0.0622 -0.0984 -0.4659
0.2062 0.6249 0.0670 -0.5477 0.1454 0.2054 -0.4463
-0.7371 -0.0908 -0.4112 0.0533 0.2074 0.1412 -0.4622
0.6038 -0.3508 -0.2238 0.3246 0.3559 0.1965 -0.4378
0.1500 -0.3323 -0.3414 -0.4494 -0.4436 -0.5225 -0.2807
-0.0447 -0.1382 0.0688 -0.3063 0.7800 -0.4791 0.2057
v=
0.0009 0 0 0 0 0 0
0 0.0188 0 0 0 0 0
0 0 0.0575 0 0 0 0
0 0 0 0.1283 0 0 0
0 0 0 0 0.6308 0 0
0 0 0 0 0 1.8303 0
0 0 0 0 0 0 4.3333

Página 57
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Construímos la matriz Q de permutaciones para poner los valores propios y los vectores propios
en el orden ascendente apropiado:

--> Q = [0 0 0 0 0 0 1;0 0 0 0 0 1 0;0 0 0 0 1 0 0;0 0 0 1 0 0 0;0 0 1 0 0 0 0;0 1 0 0 0 0 0;1 0 0 0 0 0 0]

Q=
0000001
0000010
0000100
0001000
0010000
0100000
1000000

Se obtiene:

--> U = u*Q
U=
-0.2396 -0.6221 -0.0109 0.5436 -0.0360 0.5081 0.0248
-0.4659 -0.0984 -0.0622 0.0228 0.8086 -0.3010 -0.1565
-0.4463 0.2054 0.1454 -0.5477 0.0670 0.6249 0.2062
-0.4622 0.1412 0.2074 0.0533 -0.4112 -0.0908 -0.7371
-0.4378 0.1965 0.3559 0.3246 -0.2238 -0.3508 0.6038
-0.2807 -0.5225 -0.4436 -0.4494 -0.3414 -0.3323 0.1500
0.2057 -0.4791 0.7800 -0.3063 0.0688 -0.1382 -0.0447

--> V = Q'*v*Q

V=
4.3333 0 0 0 0 0 0
0 1.8303 0 0 0 0 0
0 0 0.6308 0 0 0 0
0 0 0 0.1283 0 0 0
0 0 0 0 0.0575 0 0
0 0 0 0 0 0.0188 0
0 0 0 0 0 0 0.0009

Miremos ahora el grado de explicación de las componentes

--> VT = trace(V)
VT =
7
La varianza total vale 7

Página 58
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

La primera componente explica:


--> VE1 = V(1,1)/VT
VE1 =
0.6190
F! explica un 61.9% de VT

Las dos primeras componentes explican:


--> VE12=(V(1,1)+V(2,2))/VT
VE12 =
0.8805

Es decir, las dos primera componentes explican un poco más del 88%. En consecuencia, basta con
las dos primeras componentes.

Esto es:
--> [U(:,1) U(:,2)]

ans =
-0.2396 -0.6221
-0.4659 -0.0984
-0.4463 0.2054
-0.4622 0.1412
-0.4378 0.1965
-0.2807 -0.5225
0.2057 -0.4791

Lo que produce las componentes:


CP1 = -0.2396*PAN – 0.4659*VEGETALES - … + 0.2057*VINO
CP2 = -0.6221*PAN – 0.0984*VEGETALES - … - 0.4791*VINO
Cuyas medias valen 0 y cuyas varianzas son respectivamente 4.3333 y 1.8303

El biplot correspondiente es:

Página 59
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

O puede ser de la siguiente manera, si se tienen en cuenta los signos:

Realmente no importa cómo se mire. Lo esencial es que CARNES, AVES y FRUTAS forman un grupo
de variables altamente correlacionadas. De igual manera PAN y LECHE. Los vegetales están
medianamente correlacionados con los dos grupos anteriores. El VINO es casi independiente del
PAN y de la LECHE y altamente correlacionado en forma inversa con carnes aves y verduras.

Nótese que, de acuerdo con la ubicación de los individuos, se han evidenciado tres zonas: la de
obreros en dirección contraria a casi todas las variables, la de Empleados bastante relacionada con
el vino y la de ejecutivos caracterizada por los verdaderos alimentos:

Segunda pregunta:
De acuerdo con el ACP anterior y teniendo en cuenta que el criterio de Kaiser también determina
que dos componentes son suficientes, extraeremos dos factores, los cuales están dados por las dos
columnas de coeficientes de las componentes anteriores multiplicadas respectivamente por las
raíces cuadradas de sus valores propios. Esto es:

Página 60
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

--> L = [sqrt(V(1,1))*U(:,1) sqrt(V(2,2))*U(:,2)]

L=
-0.4987 -0.8416
-0.9698 -0.1331
-0.9291 0.2779
-0.9621 0.1910
-0.9112 0.2659
-0.5843 -0.7069
0.4282 -0.6482

La matriz L anterior nos proporciona los coeficientes para la conformación de los dos factores
comunes:

F1 = -0.4987*PAN – 0.9698*VERDURAS - … + 0.4282*VINO


F2 = -0.8416*PAN – 0.1331*VERDURAS - … - 0.6482*VINO

Los cuales son incorrelacionados y con normas respectivas dadas por los dos primeros valores
propios, 4.3333 y 1.8303

Se han encerrado en recuadros los coeficientes más altos en cada factor. Esto nos dice que el primer
factor está constituído principalmente por VEGETALES, FRUTAS, CARNES y AVES mientras el segundo
lo está por PAN, LECHE y VINO.

Las comunalidades se calculan por:


for i = 1:7
h2(i) = L(i,1)^2 + L(i,2)^2;
end
--> h2

ans =
0.9571 0.9581 0.9405 0.9621 0.9011 0.8412 0.6035

Página 61
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Lo que nos da el porcentaje de explicación de cada variable por los dos factores construídos. La
variable menos explicada es VINO que lo está apenas en un 60.35%. La mejor explicada es CARNES
que lo está en un 96.21%

El siguiente paso es el cálculo de las varianzas específicas que son las varianzas no explicadas y que
corresponden a los factores específicos, asimilados en el caso a errores.

Puesto que se hizo un ACP estandarizado las varianzas específicas corresponden a las diferencias
entre 1 y las comunalidades. Se obtienen entonces por:

--> for i = 1:7


psi(i) = 1-h2(i);
end
--> psi
ans =
0.0429 0.0419 0.0595 0.0379 0.0989 0.1588 0.3965

De acuerdo con esto, la matriz de varianzas específicas está dada por:

PSI =

0.0429 0 0 0 0 0 0
0 0.0419 0 0 0 0 0
0 0 0.0595 0 0 0 0
0 0 0 0.0379 0 0 0
0 0 0 0 0.0989 0 0
0 0 0 0 0 0.1588 0
0 0 0 0 0 0 0.3965

Tercera pregunta:
La construcción de factores por el método de máxima verosimilitud se puede guiar por lo
calculado hasta el momento. -es decir, también podemos extraer solo dos factores- Para ello
usamos R, dando de una vez el comando correspondiente a dos factores.
Tenemos que leer los datos y asignar nombres a las variables, lo que logramos con el código
siguiente:

datos = read.table('f:/fracomi.txt')
colnames(datos) = c("PAN","VEG","FRT","CAR","AVE","LCH","VIN")
(fit = factanal(datos,2,rotation = "none"))

Lo que nos da:

Página 62
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

PAN VEG FRT CAR AVE LCH VIN


0.267 0.086 0.087 0.005 0.012 0.005 0.786

Loadings:
Factor1 Factor2
PAN 0.578 0.632
VEG 0.955
FRT 0.890 -0.347
CAR 0.940 -0.335
AVE 0.877 -0.468
LCH 0.664 0.745
VIN -0.340 0.313

Factor1 Factor2
SS loadings 4.247 1.505
Proportion Var 0.607 0.215
Cumulative Var 0.607 0.822

Test of the hypothesis that 2 factors are sufficient.


The chi square statistic is 23.27 on 8 degrees of freedom.
The p-value is 0.00303

El Valor P es muy chico, así que podemos intentar un tercer factor con

(fit = factanal(datos,3,rotation = "none"))

Lo que arroja:

Uniquenesses:
PAN VEG FRT CAR AVE LCH VIN
0.005 0.082 0.049 0.005 0.005 0.005 0.437

Loadings:
Factor1 Factor2 Factor3
PAN 0.714 0.643 0.267
VEG 0.949
FRT 0.807 -0.505 -0.209
CAR 0.883 -0.462
AVE 0.821 -0.561
LCH 0.735 0.622 -0.260
VIN -0.211 0.483 0.533

Página 63
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Factor1 Factor2 Factor3


SS loadings 4.102 1.826 0.485
Proportion Var 0.586 0.261 0.069
Cumulative Var 0.586 0.847 0.916

Test of the hypothesis that 3 factors are sufficient.


The chi square statistic is 9.85 on 3 degrees of freedom.
The p-value is 0.0199

En ambos casos, la interpretación de los factores es confusa

Aunque el valor P sigue siendo chico, no se puede extraer un cuerto factor. R considera que cuatro
factores son demasiados para 7 variables y detiene el proceso.

EJEMPLO 3. 4:
Basándose en una encuesta que fue enviada a varios propietarios, un concesionario ha calificado 12 tipos de
automóviles para catalogarlos como de alto, mediano o modesto desempeño. Para ello se pidió asignar una
calificación entera en una escala de 1 a 10 (donde 1 es “poco satisfactorio” y 10 es “muy satisfactorio”), para
cada una de las siguientes características:

X1: Confiabilidad mecánica


X2: Confiabilidad en el frenado
X3: Consumo de gasolina
X4: Estabilidad en la marcha
X5: Potencia en subida con aire acondicionado
X6: Comodidad y confort para los pasajeros
X7: Disponibilidad de repuestos
X8: Respaldo por parte del concesionario

La tabla siguiente, recoge los puntajes promedios asignados por los usuarios a cada tipo de auto, redondeados
al entero más cercano:

Página 64
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Teniendo en cuenta lo anterior y basándose en componentes principales (tenga en cuenta que todas las
calificaciones son números adimensionales medidos en la misma escala), de respuesta a los siguientes puntos:

a. Determinar cuántas componentes son suficientes para realizar un análisis más simple de las
características evaluadas. Debe dar una razón que justifique su respuesta.
b. Dar las ecuaciones de las componentes que usted retenga y, para cada una de ellas, decir cuánto
valen su media y varianza. Determinar además cuáles son las tres variables de mayor peso en la
descripción de los autos.
c. Mediante un mapa perceptual de las variables, decir cómo es la estructura de correlación entre ellas.
d. De ser posible, ayudar al concesionario a determinar cómo serían los tres grupos de desempeño que
él quiere formar. (Dar un listado de los tipos de auto que estarían en cada grupo).

SOLUCION
Puesto que las 8 variables corresponden a calificaciones numéricas de 1 a 10, podemos
considerar que todas ellas son de la misma naturaleza y medidas en la misma escala. En
consecuencia, podemos realizar un análisis de Componentes Principales corriente, basado
en la matriz de varianzas covarianzas S que es la estimación de ∑. Este análisis se basa en la
extracción de vectores valores propios de S. Lo haremos usando Infostat aunque puede
hacerse con cualquier otro software que tenga la capacidad.
Los datos en Infostat tienen el siguiente aspecto:

Usando la rutina correspondiente: Estadísticas → Análisis Multivariado → Componentes


Principales y seleccionando las 8 variables de análisis, se obtiene la siguiente ventana en la
que se quita la marca de estandarizar datos, se elige dibujar el biplot (Mapa de variables e
individuos en uno solo) y se pide guardar los dos primeros ejes, lo que proporciona las dos
primeras componentes y las dos primeras coordenadas de los individuos sobre un mapa
plano:

Página 65
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

La ejecución de esta rutina produce:

Página 66
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

a. En la primera tabla se observa que las dos primeras componentes por sí solas
explican el 80% de la variabilidad. Este es un magnífico porcentaje de explicación y
se logra reducir la dimensionalidad del problema de p = 8 a q = 2 (caso ideal, pues
todo el problema se proyecta sobre un plano, donde es más fácil observar las cosas)

b. La segunda tabla proporciona los coeficientes para las dos componentes principales
que Infostat denota como e1 y e2
Primera componente:
F1 = e1 = 0.37 Mec + 0.45Freno – 0.24 Gasol + 0.33Estabil + … + 0.16 Respaldo
Segunda componente:
F2 = e2 = 0.76 Mec – 0.40 Freno + 0.12 Gasol + … -0.34Respaldo
Como se vió en clase, la media de toda componente principal es 0 y la varianza es el
correspondiente valor propio, así que la varianza de F1 es 17.76 y la de F2 es 2.47.

Por otra parte las tres variables más importantes son las las tres que más aporten a
F1 que es la componente más importante. Esto es, las tres que tengan los mayores
coeficientes elevados al cuadrado. Son, por tanto: Confort, Confiabilidad de Frenado
y potencia de subida.

c. El mapa de variables muestra que prácticamente todas las 8 variables están


correlacionadas. Siete de ellas positivamente (pues forman ángulos agudos). Tal vez

Página 67
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

las más correlacionadas son Confiabilidad mecánica y disponibilidad de repuestos


de una parte, Confort con potencia en subida de otra. Las menos correlacionadas -
se diría que casi son independientes- son Respaldo y confiabilidad mecánica. Por
otro lado, el consumo de gasolina está correlacionado en forma inversa con
estabilidad en la marcha, potencia en subida, Confort y Confiabilidad de frenado.

d. Observando el mapa de individuos se ve cómo éstos se han agrupado naturalmente


formando tres conglomerados. A, el grupo encerrado en el óvalo verde a la derecha
formado por los automóviles tipo T4, T6 y T12 que son los de mejor desempeño. B
el grupo central, encerrado en óvalo naranja, formado por los autos de tipo T2, T3,
T5, T8, T9 y T11 que son de desempeño mediano y los de bajo desempeño T1, T7
y T10, encerrados en la figura de la izquierda.

Es decir:
Gran desempeño: A = {T4, T6, T12}
Mediano desempeño: B = {T2, T3, T5, T8, T9, T11}
Bajo desempeño: C = {T1, T7, T10}

NOTA: Se podría profundizar en la clasificación anterior haciendo una tipología (descripción)


de los grupos, aplicando análisis discriminante para saber si realmente son grupo
perfectamente separados y para determinar cuáles son las variables con más poder de
separación (variables discriminantes), incluso creando reglas de clasificación que permitan
decidir en cuál de los tres grupos clasificaría mejor un nuevo automóvil que no ha sido
contemplado en este estudio. Esto, sin embargo, no forma parte del parcial y, por
consiguiente, no es tenido en cuenta en la calificación.

Si hacemos clasificación jerárquica, varios métodos, entre ellos la combinación del criterio
de Ward (uno de los más utilizados) y la distancia euclidiana al cuadrado, producen un
dendrograma que prácticamente coincide con la clasificación hecha previamente mediante
el ACP. El único individuo dudoso es T1 que queda clasificado entre los de rendimiento
mediano pero un poco alejado del resto de elementos de este grupo. Esto también es
observable en el mapa de individuos presentado arriba, donde se ve que T1 está un poco a
la derecha de T7 y T10, es decir más cerca del Grupo B que sus dos compañeros.

Página 68
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

(No se pedía este dendrograma. Aquí aparece como complementación!)

EJEMPLO 3.5

Este ejercicio ilustra el uso del software R en varios de los temas vistos de Análisis
multivariados. En realidad consta de una serie de comandos e instrucciones que pueden ser
usados uno por uno, en forma consecutiva o separadamente, para observar el efecto
correspondiente . Se trata de 178 observaciones en 14 variables correspondientes a
cultivares de tres viñedos.
Se recomienda realizar el ejercicio instrucción por instrucción para reconocer el comando
que logra cada uno de los puntos del análisis. Los datos pueden bajarse de internet o
también se puede usar el archivo WINE_DAT.TXT que previamente se ha salvado en la
carpeta C:\DATOS en la raíz del disco C. Usted puede hacer cambios apropiados en la
sintaxis de los comandos si quiere realizar su propia versión personalizada del ejemplo.

1. Leer los datos desde un archivo de internet:

Página 69
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

wine <- read.table("http://archive.ics.uci.edu/ml/machine-learning-


databases/wine/wine.data",sep=",")
wine

# También se pueden leer desde el archivo de datos C:\DATOS, siempre que se tengan
allí.
wine <- read.table("c:/datos/wine_dat.txt",sep="")
wine

2. Es necesario instalar el paquete car

3. se activa con library("car")

4. Muestra variables 2 a 6:
wine[2:6]

5. Construye scatterplot de variables 2 a 6:


scatterplotMatrix(wine[2:6])

6. Construye diagrama de dispersión de variables V4 y V5:


plot(wine$V4, wine$V5)

7. Calcula medias de las variables V2 a V14:


mean(wine[2:14])

8. Calcula desviaciones estándar de variables V2 a V14:


sd(wine[2:14])

Página 70
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

9. Si se quiere medias y desviaciones solo para datos del viñedo 2 (cultivar 2):
cultivar2wine <- wine[wine$V1 == "2"]
mean(cultivar2wine[2:14])
sd(cultivar2wine[2:14])

10. Calcular correlación de Pearson entre V2 y V3 y hace prueba de significancia:


cor.test(wine$V2, wine$v3)

11. Estandarización de los datos de V2 a V14 (con la función scale()):


standar <- as.data.frame(scale(wine[2:14]))
standar

12. Verificacion de medias y varianzas para datos estandarizados:


mean(standar)
sd(standar)

COMPONENTES PRINCIPALES
================================================

13. Usualmente se estandariza primero, antes de calcular CPs:


r <- as.data.frame(scale(wine[2:14]))
wine.pca <- prcomp(r)
summary(wine.pca)

14. Las desviaciones estandar de las componentes se almacenan en un elemento llamado


"sdev":

Página 71
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

wine.pca$sdev

15. Varianza total explicada por las componentes:


sum((wine.pca$sdev)^2)

16. Diagrama de Catell para retención:


screeplot(wine.pca, type = "lines")

17. Criterio Mineigen de Kaiser:


(wine.pca$sdev)^2

18. Las cargas de las componentes se almacenan en un elemento llamado "rotation" en


forma de matriz:
Cargas para la primera componente:
wine.pca$rotation[,1]

Cargas para la segunda componente:


wine.pca$rotation[,2]

19. Mapa de individuos en el primer plano factorial (se almacenan en un elemento "x"):
plot(wine.pca$x[,1], wine.pca$x[,2])

para identificar el cultivar en el mapa anterior se puede agregar un texto en rojo asi:
text(wine.pca$x[,1], wine.pca$x[,2], wine$V1, cex = 0.7, pos = 4, col = "red")

Página 72
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

A N A L I S I S D I S C R I M I N A N T E L I N E A L:
========================================================

Se usa la función lda() de la libreria MASS que, por supuesto, debe ser instalada
previamente.

20. Para un análisis discriminante lineal de las variables 2 a 14, se usa:


library("MASS")
wine.lda <- lda(wine$V1 ~ wine$V2 + wine$V3 + wine$V4 + wine$V5 + wine$V6 +
wine$V7 + wine$V8 +
wine$V9 + wine$V10 + wine$V11 + wine$V12 + wine$V13 + wine$V14)

Nota: La variable categórica de clasificación V1 es la respuesta, las variables V2 a V14


son regresoras

También puede usarse algo como:


library(car)
# install.packages('rattle')
data(wine, package='rattle')
attach(wine)
head(wine)

# install.packages('MASS')
library(MASS)
wine.lda <- lda(Type ~ ., data=wine)

plot(wine.lda.values$x[,1],wine.lda.values$x[,2]) # make a scatterplot

Página 73
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

text(wine.lda.values$x[,1],wine.lda.values$x[,2],Type,cex=0.7,pos=4,col="red") # add
labels

EJEMPLO 3.6:
UN EJEMPLO DE ANALISIS DE FACTORES REALIZADO POR DIFERENTES METODOS

Los datos siguientes corresponden a 5 variables climáticas observadas en 20 localidades. Los datos
forman parte de un conjunto mayor de 11 variables y muchos más sitios de los Estados Unidos y
fueron recopilados por R.J. Freund.

Las variables consideradas en este documento son las siguientes:

1. X1 = Temperatura Máxima diaria del aire


2. X2 = Máxima temperatura solar diaria
3. X3 = Máxima humedad relativa diaria
4. X4 = Viento total (medido en millas por día)
5. X5 = Evaporación diaria

84 85 95 273 30
84 86 94 140 34
79 83 94 318 33
81 83 94 282 26
84 88 93 311 41
74 77 96 446 4
73 78 96 294 5
75 84 95 313 20
84 89 95 455 31
86 91 93 604 36
88 91 94 610 43
90 94 94 520 47
88 94 96 663 45
58 92 95 467 45
81 87 95 184 11
79 83 95 177 10
84 87 95 173 30
84 87 94 76 29
84 88 95 72 23
77 83 97 183 16

Vamos a utilizar estos datos para realizar Análisis de factores de diferentes maneras.

En primer lugar vamos a utilizar el método de factores principales, para lo cual usaremos
MATLAB.

Página 74
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Leemos los datos en Matlab, calculamos vectores y valores propios. Las cargas factoriales se
obtienen multiplicando los valores propios por la raíz cuadrada de los correspondientes valores
propios. Las comunalidades se obtienen sumando los cuadrados de las cargas factoriales de los
correspondientes factores extraídos y las varianzas específicas serán las diferencias entre las
varianzas (en este caso 1, por tratarse de variables estandarizadas) y las comunalidades.

>> load c:\clases\clima.txt


>> x=clima
>> R = corrcoef(x)

Se obtiene la matriz de correlaciones:

R=

1.0000 0.3762 -0.3814 0.0935 0.3203


0.3762 1.0000 -0.3811 0.4682 0.8477
-0.3814 -0.3811 1.0000 -0.1053 -0.5388
0.0935 0.4682 -0.1053 1.0000 0.4968
0.3203 0.8477 -0.5388 0.4968 1.0000

Y los valores y vectores propios:

>> [U,V] = eig(R)

U=
0.3333 0.5660 0.0999 0.7415 0.0938
0.5399 -0.1540 -0.6251 0.0276 -0.5416
-0.3955 -0.4831 0.2175 0.5778 -0.4785
0.3554 -0.6380 -0.0697 0.2570 0.6291
0.5610 -0.1246 0.7397 -0.2225 -0.2704

V=
2.7005 0 0 0 0
0 1.0473 0 0 0
0 0 0.1216 0 0
0 0 0 0.6531 0
0 0 0 0 0.4775

Hay dos valores mayores que 1 así que, en principio, extraeremos dos factores F1 y F2 (puede que
no sean suficientes o que sean demasiados, para eso se debe hacer una prueba Ji cuadrado)

Los factores extraídos corresponden a los dos primeros vectores U1 y U2, Las cargas factoriales se
obtienen como L = [ 1 U1 2 U 2 ] . Esto es:
>> L = [sqrt(V(1,1))*U(:,1) sqrt(V(2,2))*U(:,2)]

Página 75
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

L=
0.5478 0.5792
0.8872 -0.1576
-0.6499 -0.4944
0.5840 -0.6529
0.9219 -0.1275

La anterior matriz proporciona los coeficientes de los factores construídos. Esto es:
F1 = 0.5478X1 +0.8872X2 – 0.6499X3 + 0.5840X4 +0.9212X5
F2 = 0.5792X1 – 0.1576X2 – 0.4944X3 -0.6529X4 – 0.1275X5

Las comunalidades corresponden a la suma de cuadrados de las cargas anteriores así:

>> for i=1:5


h2(i) = L(i,1)^2 + L(i,2)^2
end

>> h2 = h2'
h2 =
0.6355
0.8119
0.6669
0.7673
0.8662

Lo anterior indica que los dos factores explican el 63.55% de X1, el 81.19% de X2, el 66.69% de X3,
el 76.73% de X4 y el 86.62 de X5.

Para hallar las varianzas específicas tomamos las varianzas originales (en este caso correlaciones
iguales a 1) y les restamos las comunalidades, con lo cual se obtiene:

>> for i=1:5


psi(i) = 1-h2(i)
end

>> psi = psi’


psi =
0.3645
0.1881
0.3331
0.2327
0.1338

Página 76
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

 0.3645 0 0 0 0 
 
 0 0.1881 0 0 0 
Con lo cual ψ = 0 0 0.3331 0 0 
 
 0 0 0 0.2327 0 
 0 0.1338 
 0 0 0

Así pues la solución del problema, para dos factores, está dada por: R = LL' + ψ
Con:

En este ejemplo no es muy clara la estructura de los factores. Podemos decir que F1 está más
asociado con X5, X2 y un poco con X3. En cambio F2 lo está con X4 y con X1. Esto es: F1 se asocia
con Evaporación, temperatura solar y Humedad relativa mientras F2 se asocia con Cantidad de
viento y temperatura del aire. Así pues, los dos factores construídos que tienen que ver con el
resecamiento de la tierra son de una parte el sol y la evaporación que él produce y de otra el
viento y la temperatura del aire.

Veamos ahora el mismo ejemplo realizado con R:

Como sabemos, R utiliza el método de máxima verosimilitud, así que la solución puede ser
diferente a la anterior.

Comandos para extraer un factor:


> datos=read.table(“c:/clases/clima.txt”)
> colnames(datos)<-c(“Taire”, “Tsolar”,”Hrelat”,”Viento”,”Evapora”)
> (fit=factanal(datos,1, rotation = “none”))

Produce:
Call:
factanal(x = datos, factors = 1, rotation = "none")

Uniquenesses:
Taire Tsolar Hrelat Viento Evapora
0.896 0.278 0.710 0.752 0.005

Página 77
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Loadings:
Factor1
Taire 0.323
Tsolar 0.850
Hrelat -0.539
Viento 0.498
Evapora 0.997

Factor1
SS loadings 2.360
Proportion Var 0.472

Test of the hypothesis that 1 factor is sufficient.


The chi square statistic is 3.64 on 5 degrees of freedom.
The p-value is 0.602

El valor P anterior sirve para probar la hipótesis H0 de que el número de factores extraídos es
SUFICIENTE. Si él es menor que 0.05 se debe extraer un factor más. En este caso, basta con un
solo factor.

Aunque no es necesario, si quisiéramos extraer dos factores, usaríamos el siguiente comando:

> (fit=factanal(datos,2, rotation = “none”))

Se produciría:
Uniquenesses:
Taire Tsolar Hrelat Viento Evapora
0.818 0.184 0.005 0.691 0.094

Loadings:
Factor1 Factor2
Taire 0.388 0.177
Tsolar 0.409 0.806
Hrelat -0.997
Viento 0.124 0.542
Evapora 0.566 0.765

Factor1 Factor2
SS loadings 1.647 1.562
Proportion Var 0.329 0.312
Cumulative Var 0.329 0.642

Test of the hypothesis that 2 factors are sufficient.

Página 78
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

The chi square statistic is 0.94 on 1 degree of freedom.


The p-value is 0.332

Y, como se ve, dos factores obviamente también son suficientes.

En R al intentar obtener tres factores recibimos un mensaje de error que


dice que tres factores son demasiados para 5 variables.

En tercer lugar utilizaremos un paquete, por ejemplo, MINITAB para extraer factores.

Veamos:

Aspecto de la pantalla de datos en MINITAB

Pantalla de Información para Análisis Factorial

Página 79
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Solución inicial y matriz de arranque…

Gráficas

RESULTADOS CON MINITAB

Diagrama de Catell: para definir número de factores

Página 80
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Mapa de variables

Mapa de Individuos

Página 81
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Biplot

SALIDAS NUMERICAS (MINITAB):


Análisis factorial: Taire, Tsolar, HumRelat, VientoT, Evapora

Análisis factorial del componente principal de la matriz de correlación

Cargas de factores no rotados y comunalidades

Variable Factor1 Factor2 Comunalidad


Taire 0.548 0.579 0.636
Tsolar 0.887 -0.158 0.812
HumRelat -0.650 -0.494 0.667
VientoT 0.584 -0.653 0.767
Evapora 0.922 -0.127 0.866

Varianza 2.7005 1.0473 3.7479


% Var 0.540 0.209 0.750

Coeficientes de puntuación de factores

Variable Factor1 Factor2


Taire 0.203 0.553
Tsolar 0.329 -0.150
HumRelat -0.241 -0.472
VientoT 0.216 -0.623
Evapora 0.341 -0.122

Página 82
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Nótese que la solución dada por MINITAB coincide plenamente con la


primera solución que se obtuvo por factores principales usando MATLAB.
Pero es incluso más incompleta pues no proporciona las varianzas
específicas. Sin embargo, es fácil calcularlas manualmente.

La ventaja de usar un paquete como Minitab es que podemos rotar la solución. Cada paquete
ofrece un mecanismo para producir soluciones rotadas. Por ejemplo, en Minitab basta llenar la
casilla correspondiente en la pantalla de información como se ve en la gráfica siguiente:

Escogencia de un método de rotación

Se produce:

Biplot
Nótese que ahora los individuos se encuentran en otra posición respecto de las variables!

Página 83
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Y se obtiene la siguiente solución (rotada según el método VARIMAX):

Cargas de factores rotados y comunalidades


Rotación Varimax

Variable Factor1 Factor2 Comunalidad


TAire 0.056 0.795 0.636
TSolar 0.786 0.441 0.812
HumRelat -0.189 -0.794 0.667
VientoT 0.866 -0.135 0.767
Evapora 0.794 0.486 0.866

Varianza 2.0360 1.7119 3.7479


% Var 0.407 0.342 0.750

En esta solución es más evidente que el primer factor representa lo relacionado con viento,
evaporación y temperatura solar mientra es el segundo factor está asociado con Temperatura
del aire y humedad relativa.

Por último vamos a extraer dos factores y producir la rotación Varimax


usando R:
> (fit=factanal(datos,2, rotation = "varimax"))

Tambien podemos omitir el tipo de rotación pues R rota por defecto de acuerdo con
varimax. Es decir, podemos usar:

> (fit=factanal(datos,2))

Y se obtiene;

Uniquenesses:
Taire Tsolar Hrelat Viento Evapora
0.818 0.184 0.005 0.691 0.094

Loadings:
Factor1 Factor2
Taire 0.230 0.359
Tsolar 0.855 0.291
Hrelat -0.108 -0.992
Viento 0.554
Evapora 0.837 0.452

Factor1 Factor2
SS loadings 1.805 1.404
Proportion Var 0.361 0.281
Cumulative Var 0.361 0.642

Página 84
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Test of the hypothesis that 2 factors are sufficient.


The chi square statistic is 0.94 on 1 degree of freedom.
The p-value is 0.332

Otros paquetes ofrecen más opciones. Entre tales paquetes cabe destacar OpenStat, un paquete
gratuito y muy completo que contiene numerosas rutinas estadísticas. Este paquete se consigue
gratis y muy bien documentado en Internet.

Aspecto general de la pantalla de datos en OpenStat. Se ha importado el archivo de texto separado por espacios

Se puede seguir la ruta Analises →Multivariate → PrincipalComponents and Factor Analysis.


Aparece la pantalla siguiente en la que se aprecia la riqueza del paquete:

Página 85
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Como se ve, hay siete métodos de extracción de factores , cinco rotaciones, tres fuentes de
información y gran variedad de salidas.

Vamos a ejecutar las opciones que se observan en la siguiente gráfica:

Como se ve:

Se han seleccionado todas las 5 variables, vamos a extraer factores por el método de máxima
verosimilitud (método canónico), Mostramos en la salida estadísticas descriptivas, la matriz de
correlación, los vectores antes de la rotación, hacemos gráficas de Catell (Scree Plot), factores y
coordenadas de factores.

NOTA:
En la opción Input Data se ha dejado la que el paquete ofrece por defecto (Raw data from the
main grid), esto hace que el análisis se haga con los datos sin transformar. Si quisiéramos algún
tipo de transformación deberíamos usar la segunda opción (A Matrix from the main grid), allí
podríamos escoger,por ejemplo, la matriz de correlaciones. La tercera opción se usa cuando el
archivo de datos corresponde a una matriz ya calculada.

Debido a lo anterior, en este ejemplo, el paquete extraerá factores sin estandarizar variables

Página 86
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

SALIDAS:
Factor Analysis
See Rummel, R.J., Applied Factor Analysis
Northwestern University Press, 1970

CORRELATION MATRIX

Correlations
TAire TSolar HumRel VientoT
Evapora
1.0000 0.3762 -0.3814 0.0935
0.3203
0.3762 1.0000 -0.3811 0.4682
0.8477
-0.3814 -0.3811 1.0000 -0.1053 -
0.5388
0.0935 0.4682 -0.1053 1.0000
0.4968
0.3203 0.8477 -0.5388 0.4968
1.0000

Means

Variables TAire TSolar HumRel VientoT Evapora


80.850 86.500 94.750 328.050 27.950

Standard Deviations

Variables TAire TSolar HumRel VientoT Evapora


7.140 4.674 1.020 179.773 13.438

No. of valid cases = 20

Kaiser-Meyer-Olkin MSA statistic = 0.636

Canonical Factor Analysis

Canonical Covariance Matrix


TAire TSolar HumRel VientoT
Evapora
0.2893 0.8499 -0.5581 0.1259
0.8016
0.8499 2.9586 -0.9771 1.1044
3.7176
-0.5581 -0.9771 0.6606 -0.1609 -
1.5304
0.1259 1.1044 -0.1609 0.4054
1.2981
0.8016 3.7176 -1.5304 1.2981
3.8585

Roots (Eigenvalues) Extracted:


1 8.195
2 0.590
3 0.044
4 0.000
5 0.000

Página 87
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Solo extraerá un factor pues aparece solo un valor propio por encima de 1

Unrotated Factor Loadings

FACTORS
Factor 1 Factor 2 Factor 3 Factor 4 Factor
5
0.3975 -0.3190 0.1294 0.0000
0.0000
0.8843 0.0827 0.0445 0.0000
0.0000
-0.5307 0.4251 0.0719 0.0000
0.0000
0.5117 0.3054 -0.0259 0.0000
0.0000
0.9141 0.0065 -0.0315 0.0000
0.0000

Percent of Trace In Each Root:


1 Root = 8.195 Trace = 8.172 Percent = 100.271
2 Root = 0.590 Trace = 8.172 Percent = 7.215
3 Root = 0.044 Trace = 8.172 Percent = 0.536
4 Root = 0.000 Trace = 8.172 Percent = 0.000
5 Root = 0.000 Trace = 8.172 Percent = 0.000

COMMUNALITY ESTIMATES
1 TAire 0.277
2 TSolar 0.791
3 HumRel 0.467
4 VientoT 0.356
5 Evapora 0.837

Communality Estimates as percentages:


1 15.803
2 78.196
3 28.160
4 26.188
5 83.558

Varimax Rotated Loadings

FACTORS
Factor 1
0.3975
0.8843
-0.5307
0.5117
0.9141
Percent of Variation in Rotated Factors
Factor 1 46.381

Total Percent of Variance in Factors : 46.381

Página 88
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Communalities as Percentages

1 for TAire 15.803


2 for TSolar 78.196
3 for HumRel 28.160
4 for VientoT 26.188
5 for Evapora 83.558

SUBJECT FACTOR SCORE RESULTS:

Regression Coefficients

FACTORS
Factor 1
0.0557
0.3807
-0.0958
0.0782
0.4830

Standard Error of Factor Scores:


Factor 1 0.944

Página 89
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIOS PROPUESTOS

SECCION 1
EJERCICIO 1.1
Para cada una de las matrices A siguientes
a. Halle valores y vectores propios unitarios
b. Determine su rango y diga en cada caso si es o no de rango completo
c. Determine si es definida positiva
d. Si es posible, halle una matriz P tal que A = PΛP ' donde Λ es la matriz diagonal
formada por los valores propios i
p p
e. Compruebe que Traza( A) =  i y que Det( A) =  i
i =1 i =1

f. Diga si A tiene las características necesarias para ser la varianza de algún vector X

1 0 2 3 2 2 0 1
2 1 0 4 2 6     2 1 1
     0 3 −1 5 2 0 3 1  
1 3 2  2 1 3  2 −1 4 6 0 3 1 0 1 2 1
0 2 1 6 3 2 1 1 2
         
3 5 6 5 1 1 0 −2 

EJERCICIO 1.2
Considere las variables aleatorias X , Y cuyas distribuciones están dadas por

Construya la distribución conjunta del vector X = (X, Y) ' y calcule μ =E( X), Σ =V( X)

Página 90
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 1.3
Considere dos variables aleatorias independientes X , Y con distribuciones de Bernoulli
dadas por la siguiente tabla:

Para el vector aleatorio X = (X, Y) '

a. Calcule E( X) y V( X)
b. Diga si es posible que X tenga distribución normal bivariada. Justifique su respuesta.

EJERCICIO 1.4
0.25 Si 0  t1  2 y 0  t2  2
Considere la función f : 2
→ dada por f (t1,t2 ) = 
 0 en otra parte del plano

a. Muestre que f es una función de densidad bivariada


b. Calcule F ( x) = P( X  x) para cada uno de los siguientes valores de x :
x = (−1,1) ', x = (1,1) ', x = (2, 2) ', x = (3, 4) '

Página 91
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

SECCION 2
EJERCICIO 2.1

EJERCICIO 2.2

Página 92
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 2.3
 X1 
 
Considere una variable aleatoria X =  X2  con distribución normal 3-variada de media
X 
 3
1 4 2 0
   
μ =  4  y varianza Σ =  2 4 0 
0  0 0 4
   

a. Determine completamente la distribución de cada una de las variables X i


b. Muestre que Σ es definida positiva y halle su raíz cuadrada, esto es, halle una matriz B
tal que Σ = BB '
c. Determine completamente la distribución de la variable Y = X1 + 2 X 2 − 3 X 3
X 
d. Determine la distribución marginal del vector Y =  1  , calculando su media y su
 X2 
varianza ΣY .
e. Puesto que Y es un vector aleatorio bivariado dibuje una o más elipses (curvas de nivel)
para la distribución de Y en el plano X 1 X 2 . Indique con exactitud las direcciones de los
ejes de dichas elipses.
f. Determine la distribución de la forma cuadrática Q = Y ' ΣY Y

EJERCICIO 2.4
Suponga que una cierta variable aleatoria X = ( X1 , X 2 , X 3 , X 4 , X 5 )´ tiene distribución
 64 12 0 −8 3 
 
 12 16 6 2 1 
normal 5-variada de media μ = (1, 2, 0,1, 0)´ y varianza Σ =  0 6 25 8 0 
 
 −8 2 8 9 5 
 3 1 0 5 36 
 

Página 93
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

a. Halle la distribución de los vectores X0 = ( X 2 , X 4 , X 5 )´ y X1 = ( X1 , X 3 )´


b. Calcule la correlación  entre X1 y X 3
c. Halle en forma explícita la función de densidad para la variable aleatoria X1

EJERCICIO 2.5
 2 1 −1 
Considere el vector X0 del punto anterior y la matriz A =   . Halle la distribución
 −1 2 2
del vector Y = AX0 . Haga un esquema -así no sea exacto- de cómo serían las elipses de nivel para
el vector Y .

EJERCICIO 2.6

EJERCICIO 2. 7
Considere dos variables aleatorias X1 , X 2 ambas con la misma distribución normal de media 1 y
 X1 
varianza 5, con una correlación  = −0.8 . Suponga que el vector X =   tiene distribución
 X2 
normal bivariada.

Página 94
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

1. Calcule la media, μ , y la varianza, Σ , del vector aleatorio X


2. Calcule la matriz R = Σ1/2 y el vector aleatorio Z, correspondiente a la
estandarización de X.
μy  4
3. Calcule la distancia de Mahalanobis existente entre los puntos P= 
 2
4. Suponga que mediante una transformación lineal el vector aleatorio X se transforma
 X1 − 2 X 2 
en un vector Y de la forma Y =   . ¿Cómo será la distribución del vector
 X 2 + X1 
Y?

EJERCICIO 2.8

Página 95
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 2.9

Página 96
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

SECCION 3
EJERCICIO 3.1

Página 97
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 3.2

Página 98
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Página 99
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 3.3

EJERCICIO 3.4

Página 100
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 3.5

Página 101
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 3.6
Una compañía constructora está en plan de adquirir varias retroexcavadoras para lo cual hace una
evaluación de un tipo de máquinas que se encuentra dentro de las perspectivas de compra. La
evaluación se hace sobre tres conceptos principalmente: Desempeño de la máquina, Consumo de
combustible por hora de trabajo y Facilidad de manejo. Para la evaluación toma aleatoriamente
una máquina de las que se encuentran para la venta en la agencia que las distribuye y la hace
calificar por parte de 8 operarios de ese tipo de máquinas, 10 mecánicos de la división de
mantenimiento y 9 ingenieros. Para ellos deja que estas personas operen las máquinas durante
cierto tiempo y que luego emitan una calificación entre 1 y 50 puntos por cada aspecto evaluado.

La siguiente tabla muestra los puntajes asignados como calificación por cada evaluador.

Deberá usted analizar la información proporcionada y responder las preguntas siguientes:

1. Las calificaciones otorgadas por los tres grupos de evaluadores son equivalentes o, cree
usted que los criterios de evaluación son dispares?

Página 102
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

2. Si no hay unanimidad en la evaluación Cuál(es) grupo(s) de evaluador(es) difieren entre si?


3. En cuales variables hay disparidad de evaluación y por parte de cuáles grupos?

Haga un análisis lo más completo posible teniendo en cuenta que debe responder las tres
preguntas anteriore como mínimo.

EJERCICIO 3.7

Página 103
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 3.8

Página 104
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Página 105
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

SECCION 4
EJERCICIO 4.1

Página 106
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 4.2

Página 107
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 4.3

Página 108
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Página 109
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 4.4

EJERCICIO 4.5

Página 110
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Página 111
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

EJERCICIO 4.6

Página 112
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO

Página 113

También podría gustarte