Ejemplos y Ejercicios de Amv
Ejemplos y Ejercicios de Amv
Ejemplos y Ejercicios de Amv
EJEMPLOS RESUELTOS
Y
EJERCICIOS PROPUESTOS
ANALISIS MULTIVARIADO
SEMESTRE B DE 2019
Página 1
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Primera parte
GENERALIDADES TEORICAS
EJEMPLO 1.1
1. Considere las matrices:
9 3 4 −6 2 −6 4 3
3 16 2 8 3 5 4 6
A= B=
4 2 36 5 4 16 4 9
−6 8 5 25 5 27 4 12
SOLUCION
Primera pregunta:
Usando el software libre FREEMAT
Página 2
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Lo anterior muestra que A es definida positiva pues tiene cuatro valores propios todos
diferentes y positivos. En cambio B no es definida positiva pues tiene solo dos valores
propios diferentes de cero (lo que concuerda con su rango) pero uno de ellos es
negativo.
Segunda pregunta:
Usamos el comando --> [U, V] = eig(A) para obtener:
Página 3
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Ordenamos estos vectores según la magnitud de los valores propios (de mayor a menor),
para lo cual se usará la matriz de permutación
Página 4
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Que, como se ve, no coincide con la matriz B. Es decir, en este caso no es posible la
descomposición espectral.
Tercera pregunta:
Se debe ver que la matriz P satisface a) ser simétrica, b) ser ortonormal, esto es, tener
columnas unitarias y perpendiculares dos a dos y c) que su transpuesta coincida con su
inversa.
Evidentemente es simétrica. Para ver que es ortonormal, consideremos los tres vectores
columna:
Página 5
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Se cumple:
Lo que muestra que las columnas de P son vectores unitarios. Por otra parte, al realizar los
productos internos dos a dos de estos tres vectores, se tiene:
EJEMPLO 1.2:
X1 1
X2 0
1. Sea X = una variable aleatoria con media μ = y varianza A (la del punto
X3 1
X4 0
2 X1 − X 3
anterior), y considere Y = X 2 + X 3 − X 4 . Halle E( Y ) y V(Y) .
X − 3X + X
1 2 4
Página 6
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SOLUCION:
Primera pregunta:
El vector Y se puede escribir como
X1
2 0 −1 0 2 0 −1 0
X
Y = 0 1 1 −1 2 = CX donde C = 0 1 1 −1
1 −3 0 X 3 1 −3 0 1
1 X
4
En consecuencia: E(Y) = CE(X) y V(X) =CV(X)C' = CAC'
Tomando
Se obtiene:
Segunda pregunta:
Para ver que V(Y) es efectivamente una matriz de varianzas debemos ver que es una matriz
cuadrada, simétrica, de rango completo y definida positiva. A simple vista se ve que satisface las
dos primeras condiciones: cuadrada y simétrica. Para ver que cumple las otras dos condiciones
calculamos sus valores propios. Se obtiene:
Página 7
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Como se ve, son tres valores propios diferentes, es decir, el rango de V(Y) es 3, por lo que se
trata de una matriz de rango completo. Además, los tres valores propios son positivos, así que la
matriz es definida positiva.
EJEMPLO 1.3
2 X1 − X 3 2
Considere el vector Y = X 2 + X 3 − X 4 del punto anterior y los puntos x = 1 y
X − 3X + X 3
1 2 4
3
y = 2
2
a. Halle la distancia euclidiana entre x y y
b. Halle la distancia de Mahalanobis inducida por V(Y) entre x y y.
SOLUCION:
1
2 3 1 0 0 2
Tomando x = 1, y = 2 se tiene d e ( x, y ) = (x − y) ' 0 1 0 (x − y) y
3 2 0 0 1
1
Página 8
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Que son las distancias euclidiana y mahalobiana respectivamente entre los puntos x y y.
EJEMPLO 1.4
Suponga que X , Y son variables aleatorias tales que X ~ N(1, 9), Y ~ N(2, 4) y
X
Cov( X , Y ) = − 3 . Halle la función de densidad para el vector , suponiendo que
Y
este vector tiene distribución normal bivariada.
SOLUCION
X 1 X 9 −3
E = V =
Y 2 Y −3 4
Cov( X , Y ) −3 1
De donde = = =−
V( X ) V(Y ) 3 2 2
X
La expresión para la función de densidad del vector bivariado X = es:
Y
Página 9
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
1 1 x − 2 x − 1 y − 2 y − 2
2
f ( x, y ) = Exp − − 2 +
1
1 1 x − 1 2 x − 1 y − 2 y − 2
2
x − 1 2 x − 1 y − 2 y − 2 2
f ( x, y ) = 0.9189Exp −0.6667 + +
3 3 2 2
f ( x, y ) = 0.9189Exp −0.0185 ( 24 x 2 + 9 y 2 + 6 xy − 20 x − 42 y + 52 )
f ( x, y) = 0.9189 e
(
−0.0185 24 x2 +9 y 2 +6 xy −20 x −42 y +52 )
EJEMPLO 1.5:
Los datos siguientes, citados por Rencher (p 294), fueron recopilados en 46 estaciones
meteorológicas de los Estados Unidos por R.J Freund. Corresponden a mediciones de 11
variables como se indica a continuación:
X1 = Temperatura máxima del aire
X2 = Temperatura mínima del aire
X3 = Temperatura promedio
X4 = Temperatura máxima al sol
X5 = Temperatura mínima al sol
X6 = Area bajo curva integrada de temperatura solar
X7 = Máxima humedad relativa
X8 = Mínima humedad relativa
X9 = Area bajo curva integrada de humedad relativa
X10 = Viento total (medido en millas por día)
X11 = Porcentaje de evaporación
Página 10
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Se pide realizar la estimación puntual tanto del promedio como de la varianza insesgada de
estos datos
84 65 147 85 59 151 95 40 398 273 30
84 65 149 86 61 159 94 28 345 140 34
79 66 142 83 64 152 94 41 368 318 33
81 67 147 83 65 158 94 50 406 282 26
84 68 167 88 69 180 93 46 379 311 41
74 66 131 77 67 147 96 73 478 446 4
73 66 131 78 69 159 96 72 462 294 5
75 67 134 84 68 159 95 70 464 313 20
84 68 161 89 71 195 95 63 430 455 31
86 72 169 91 76 206 93 56 406 604 36
88 73 176 91 76 206 94 55 393 610 43
90 74 187 94 76 211 94 51 385 520 47
88 72 171 94 75 211 96 54 405 663 45
58 72 171 92 70 201 95 51 392 467 45
81 69 154 87 68 167 95 61 448 184 11
79 68 149 83 68 162 95 59 436 177 10
84 69 160 87 66 173 95 42 392 173 30
84 70 160 87 68 177 94 44 392 76 29
84 70 168 88 70 169 95 48 396 72 23
77 67 147 83 66 170 97 60 431 183 16
87 67 166 92 67 196 96 44 379 76 37
89 69 171 92 72 199 94 48 393 230 50
89 72 180 94 72 204 95 48 394 193 36
93 72 186 92 73 201 94 47 386 400 54
93 74 188 93 72 206 95 47 389 339 44
94 75 199 94 72 208 96 45 370 172 41
93 74 193 95 73 214 95 50 396 238 45
93 74 196 95 70 210 96 45 380 118 42
96 75 198 95 71 207 93 40 365 93 50
95 76 202 95 69 202 93 39 357 269 48
84 73 173 96 69 173 94 58 418 128 17
91 71 170 91 69 168 94 44 420 423 20
88 72 179 89 70 189 93 50 399 415 15
89 72 179 95 71 210 98 46 389 300 42
91 72 182 96 73 208 95 43 384 193 44
92 74 196 97 75 215 96 46 389 195 41
94 75 192 96 69 198 95 36 380 215 49
96 75 195 95 67 196 97 24 354 185 53
93 76 198 94 75 211 93 43 364 466 53
88 74 188 92 73 198 95 52 405 399 21
88 74 178 90 74 197 95 61 447 232 1
91 72 175 94 70 205 94 42 380 275 44
Página 11
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SOLUCION:
Para calcular las estimaciones puntuales de la media y la varianza en los datos
meteorológicos de Freund, basta leer el archivo de datos en formato ASCII con FREEMAT y
usar los dos comandos:
También se puede con cualquier otro paquete (R, Matlab, Infostat, Minitab, etc)
Vamos a usar FREEMAT. Para ello, salvamos el archivo de EXCEL a texto del DOS con formato
(Extensión PRN) dentro de la carpeta C:\DATOS y leemos este último archivo con el
comando load.
Página 12
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJEMPLO 1.6:
Página 13
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
2 16 2 1
1 64 0
X0 ~ N 3 1 , 2 9 5 X1 ~ N 2 ,
0 1 5 36 0 0 25
c. Puesto que las variables son independientes -ya que la correlación entre ellas es nula-
la función de distribución para el vector ( X1 , X 3 ) ' es el producto de las dos
marginales correspondientes a X1 y X 3 , esto es:
1 1 x1 − 1 2 1 1 x2 − 0 2
f ( x1 , x2 ) = Exp − Exp −
2 8 2 8 2 5 2 5
1 1 x − 1 2 x − 0 2
= Exp − 1 + 2 x1, x2
80 2 8 5
EJEMPLO 1.7:
Con referencia al ejemplo anterior, considere una nueva matriz A , (diferente a la varianza),
X2 2 16 2 1
2 1 −1 0
dada por A = que transforma X = X 4 ~ N3 1 , 2 9 5 en
−1 2 2 X 0 1 5 36
5
Y = AX0 cuya media es MX0 y cuya varianza es VX0.
Página 14
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
X1
2 1 −1 2 X 1 + X 4 − X 5
Y= X4 = −X + 2X + 2X
−1 2 2 X 1 4 5
5
Este vector tiene distribución normal ya que sus componentes son combinaciones lineales de
variables que son normales por corresponder a las componentes del vector X0 que, como se
sabe, es normal.
5 103 −75
Y ~ N 2 ,
0 −75 224
En conclusión:
Para determinar las curvas de nivel para la distribución de este vector, se deben tener en cuenta
algunos hechos como los siguientes:
Página 15
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
1. La dirección de los ejes (direcciones principales) de las elipses, las cuales están dadas por
los vectores propios de la matriz de varianzas
2. El hecho de que la covarianza -y por tanto, la correlación- es negativa lo que hace que las
elipses estén orientadas con el eje mayor apuntando en la dirección noroeste
3. El centro de las elipses es el punto de la media de la distribución. Esto es (5, 0)’
5
Es decir, la primera dirección principal (eje mayor) está dada por el vector con origen en que
0
−0.4314
es paralelo al vector y la segunda dirección principal (eje menor) por el vector con
0.9022
5 −0.9022
centro en que es paralelo al vector . Es decir, una de tales elipses tiene la forma:
0 0.4314
Página 16
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJEMPLO 1.8
Los datos siguientes (S. Milton) corresponden a la altura y longitud máxima de 28 conchas
de Patelloida Pygmaea, en mm.
http://studylib.es/doc/4505075/tema-3.-modelo-de-regresi%C3%B3n-simple
0.9 3.1
1.5 3.6
1.6 4.3
1.7 4.7
1.7 5.5
Página 17
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
1.8 5.7
1.8 5.2
1.9 5.0
1.9 5.3
1.9 5.7
2.0 4.4
2.0 5.2
2.0 5.3
2.1 5.4
2.1 5.6
2.1 5.7
2.1 5.8
2.2 5.2
2.2 5.3
2.2 5.6
2.2 5.8
2.3 5.8
2.3 6.2
2.3 6.3
2.3 6.4
2.4 6.4
2.4 6.3
2.7 6.3
Se pide:
Leemos los datos como antes y calculamos el vector de medias y la matriz de varianzas-covarianzas.
Con esta información procedemos a calcular lo que se pide.
Página 18
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
2.0214
Con los comandos anteriores se ha obtenido una media estimada m= y una
5.3964
0.1210 0.2416
varianza estimada s =
0.2416 0.6463
X Altura
Es decir, el vector = tiene distribución normal bivariada de media m y
Y Longitud
varianza s, dados por las expresiones anteriores. De aquí:
1 1 x − 2.0214 2
f ( x, y ) =
Exp −
2 0.1210 0.6463 1 − 0.7464 2(1 − 0.7464) 0.1210
c. La región del 95% de confianza centrada en m será (n =28, p = 2, F2, 26, 0.05 = 3.37):
Página 19
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
n− p s
−1
= x | 2
(x − m) ' (x − m) F2, n − p , 0.05
(n − 1) p n
x 26 x − 2.0214
'
1 0.1210 0.2416
−1
x − 2.0214
= 2 | 3.37
y 54 y − 5.3964 28 0.2416 0.6463 y − 5.3964
2
d. Para probar la hipótesis H0 : μ = vamos a calcular la distancia al cuadrado desde
5
2
el punto hasta el centro de la elipse de confianza. Si esta distancia es mayor que el
5
2
radio al cuadrado, 3.37, entonces el punto no pertenece a dicha elipse y se rechaza la
5
hipótesis nula.
−1
26 2 − 2.0214 1 0.1210 0.2416 2 − 2.0214
'
d ( x 0 , m) =
2
Esto es:
54 5 − 5.3964 28 0.2416 0.6463 5 − 5.3964
Página 20
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Como se ve, dicha distancia es mayor que 3.37, lo que nos obliga a rechazar la hipótesis nula.
En consecuencia la media poblacional no es igual a la media propuesta.
NOTA 1: Ensayar el siguiente código R para calcular la distancia d2, después de haber escrito el
archivo de datos como ASCII, separado por comas y haber activado el paquete matlib deR:
NOTA: Una pregunta que queda sin solucionar en este momento es cuál de las dos medias difiere
significativamente del valor propuesto. ¿será la altura la que tiene un promedio diferente a 2 o
será la longitud que tiene promedio significativamente diferente a 5? O quizás ambas difieren
significativamente de los valores propuestos 2 y 5?
Estas preguntas se resolverán próximamente.
EJEMPLO 1.9:
Página 21
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SOLUCION
Usando FREEMAT se tiene:
Vector MEDIA: Matriz VARIANZA: Matriz de TRANSFORMACION:
a. Para ver que S es una matriz de varianza se debe ver que es simétrica, de rango
completo y definida positiva. Evidentemente S es simétrica. Para ver que es de
rango completo y definida positiva basta con calcular sus valores propios :
Se obtiene:
Lo que muestra que hay 4 valores propios diferentes (rango = 4) y todos positivos
Página 22
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
2 169 85
Y ~ N 2 ,
0 85 64
c. A partir de la expresión anterior se deduce que la correlación entre las dos
cov(Y1 , Y2 )
componentes de Y está dada por = , esto es:
V (Y1 ) V (Y2 )
1 1 y − 2 y1 − 1 y2 − 2 y2 − 2
2
f ( y1 , y2 ) = Exp − − 2 +
1 1
2 1 2 1− 2 2(1 − 2
)
1 1 2 2
toma la forma:
1
1 y1 − 2 2 y1 − 2 y2 − 0 y2 − 0
2
f ( y1 , y2 ) = Exp − − 2(0.8173) +
2 (13)(8) 1 − 0.81732
2(1 − 0.81732
) 13 13 8 8
Esto es:
y1 − 2 2 y1 − 2 y2 y2
2
Página 23
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
−0.8734 0.4871
De aquí se deduce que U1 = U2 = vectores que dan
−0.4871 −0.8734
las direcciones principales (orientación de los ejes mayor y menor de las elipses). Además
la correlación positiva coincide con la orientación dada por el primer vector propio. Por tal
razón, las elipses de nivel tienen la forma siguiente:
Página 24
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJEMPLO 1.10:
X1 1
Considere X = X 2 , un vector aleatorio normal, con media μ = 0 y varianza
X 1
3
5 −4 2
Σ = −4 8 1
2 1 9
Primera pregunta:
Cov( X i , X j )
Por definición ij = , así que:
V( X i ) V( X j )
−4 −4
12 = = = −0.6325
5 8 2 10
2 2
13 = = = 0.2981
5 9 3 5
1 1
23 = = = 0.1179
8 9 6 2
Página 25
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Segunda pregunta:
>> S = [5 -4 2; -4 8 1;2 1 9]
S=
5 -4 2
-4 8 1
2 1 9
V=
1.5678 0 0
0 9.5817 0
0 0 10.8505
Recordemos que los valores propios se dan en orden descentente, y los vectores
propios (columnas de u) en el mismo orden que los valores propios. Por
consiguiente:
1 = 10.8505
2 = 9.5817
3 = 1.5678
Puesto que los tres valores propios son diferentes y positivos, concluímos que el
rango de S es 3. Es decir, S es de rango completo y S es definida positiva.
Tercera pregunta:
Página 26
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Estos vectores puestos como columnas forman la matriz P y los valores propios forman la
diagonal de la matriz . Esto es:
Y, por tanto:
Cuarta pregunta:
Aplicamos las propiedades que vimos sobre esperanza y varianza de
vectores aleatorios.
−1 −1 −1 −1 −1
E(Z) = E( Σ 2
( X − μ)) = E( Σ 2
X−Σ 2
μ)) = E( Σ 2
X) − E(Σ 2
μ)
a)
−1 −1
=Σ 2
μ−Σ 2
μ=0
b)
−1 −1 −1 −1
V(Z) = V(Σ 2
( X − μ)) = V(Σ 2
X) − V(Σ 2
μ) = V(Σ 2
X)
−1 −1 −1 −1
=Σ 2
V(X)( Σ 2
)' = Σ 2
Σ( Σ 2
)'
−1 1 1 −1 −1 1 1 −1
=Σ 2
( Σ 2 ( Σ 2 ) ')( Σ 2
) ' = (Σ 2
Σ 2 )( Σ 2 ) ')( Σ 2
)'
−1 1 −1 1
= (Σ 2
Σ 2 )( Σ 2
( Σ 2 ) ') = I 3I 3 = I 3
Página 27
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Quinta pregunta:
1 6
La distancia de Mahalanobis entre μ = 0 y x = 5 está dada por
1 2
d 2 = (μ-x) ' Σ−1 (μ-x) .
>> mu = [1 0 1]'
mu =
1
0
1
>> x = [6 5 2]'
x=
6
5
2
>> d2 = (mu-x)'*inv(S)*(mu-x)
d2 = 26.9571
En consecuencia, d = 26.9571 = 5.1920
SEGUNDA PARTE
EJEMPLO 2.1
Un examen de calidad realizado a 25 profesionales egresados de tres universidades arrojó los siguientes
resultados, correspondientes a la capacidad mostrada por los profesionales en diferentes aspectos, como se
ve a continuación::
Página 28
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
a. Calcule el estadístico Λ de Wilks y, con base en él, diga si los grupos de profesionales tienen
o no medias iguales (tome α = 0.05)
b. Si en el punto anterior encuentra que las medias no son iguales, determine cuáles variables
difieren y, por consiguiente, cuáles grupos son diferentes. Use corrección de Bonferroni.
SOLUCION
PRIMER PUNTO
Leemos los datos en Infostat (o en otro programa que permita calcular las matrices E y H) y (en
Análisis multivariado > Estadísticas descriptivas) calculamos las matrices SSCP COMUN y
SSCP ENTRE, correspondientes a E y H respectivamente. Esto nos da:
Matriz de suma de cuadrados y productos cruzados común = E
SPROBL INTEGR COMUNIC DECISIO CONOCIM
SPROBL 0.7228 0.0493 0.0968 -0.2795 0.4698
INTEGR 0.0493 0.6519 0.1615 0.1906 -0.3589
COMUNIC 0.0968 0.1615 0.6883 0.1028 -0.0735
DECISIO -0.2795 0.1906 0.1028 0.8881 -0.2226
CONOCIM 0.4698 -0.3589 -0.0735 -0.2226 1.5549
Página 29
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Llevamos estas matrices a MATLAB para calcular W=E-1H y los valores propios de W. (Para
ello salvamos en WordPad las dos matrices juntas, como EyH.txt y luego de leerlas en
Matlab, las separamos convenientemente)
load c:/datos/eyh.txt
x = eyh
x=
0.7228 0.0493 0.0968 -0.2795 0.4698
0.0493 0.6519 0.1615 0.1906 -0.3589
0.0968 0.1615 0.6883 0.1028 -0.0735
-0.2795 0.1906 0.1028 0.8881 -0.2226
0.4698 -0.3589 -0.0735 -0.2226 1.5549
0.0149 -0.1464 0.0029 -0.1213 0.1578
-0.1464 1.4465 -0.0527 1.1770 -1.6283
0.0029 -0.0527 0.2733 0.1904 0.8231
-0.1213 1.1770 0.1904 1.1583 -0.6682
0.1578 -1.6283 0.8231 -0.6682 3.9827
E = x(1:5,:)
E=
0.7228 0.0493 0.0968 -0.2795 0.4698
0.0493 0.6519 0.1615 0.1906 -0.3589
0.0968 0.1615 0.6883 0.1028 -0.0735
-0.2795 0.1906 0.1028 0.8881 -0.2226
0.4698 -0.3589 -0.0735 -0.2226 1.5549
H = x(6:10,:)
H=
0.0149 -0.1464 0.0029 -0.1213 0.1578
-0.1464 1.4465 -0.0527 1.1770 -1.6283
0.0029 -0.0527 0.2733 0.1904 0.8231
-0.1213 1.1770 0.1904 1.1583 -0.6682
0.1578 -1.6283 0.8231 -0.6682 3.9827
Página 30
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
W = inv(E)*H
W=
-0.0687 0.7260 -0.5349 0.1534 -2.2486
-0.1661 1.6140 0.2337 1.5649 -0.9935
0.0774 -0.8053 0.4810 -0.2670 2.1776
-0.1137 1.1067 0.1376 1.0534 -0.7450
0.0713 -0.7737 0.7873 0.0233 3.0077
[V,L] = eig(W)
V=
0.4744 -0.2486 -0.7839 0.6108 -0.3962
0.3413 0.6987 0.0601 0.1606 0.6638
-0.4698 0.1768 -0.5859 -0.7300 -0.0114
0.2454 0.4591 0.0610 0.1458 -0.6058
-0.6144 0.4560 0.1869 0.2168 0.1878
L=
3.9751 0 0 0 0
0 2.1122 0 0 0
0 0 0.0001 0 0
0 0 0 -0.0000 0
0 0 0 0 -0.0001
Así, los valores propios a tener en cuenta son 1 = 3.9751, 2 = 2.1122 con s = 2.
Este estadístico debe ser transformado en una F. De acuerdo con la tabla vista en clase,
estamos ante el caso “p cualquiera y H = 2 “ al que corresponde:
1− E − p +1
F= con 2 p y 2( E − p + 1) GL
p
Página 31
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
F = ((1-sqrt(lam))/sqrt(lam))*((22-5+1)/5)
F = 10.5640
Este valor, bajo una F con 10 y 36 G.L produce un valor p = 0.000 (<10-4):
SEGUNDO PUNTO:
Es decir, el valor crítico para comparar los diferentes estadísticos calculados es 3.295
Página 32
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
load c:/datos/medias2p.txt
y=medias2p
y=
1.0000 4.3625 4.0375 3.7625 3.7750 4.3125
2.0000 4.3400 4.2800 3.5300 3.7800 3.4100
3.0000 4.3000 4.6571 3.7143 4.2571 3.5429
y = y'
y=
1.0000 2.0000 3.0000
4.3625 4.3400 4.3000
4.0375 4.2800 4.6571
3.7625 3.5300 3.7143
3.7750 3.7800 4.2571
4.3125 3.4100 3.5429
m1 = y(2:6,1)
m1 =
4.3625
4.0375
3.7625
3.7750
4.3125
m2 = y(2:6,2)
m2 =
4.3400
4.2800
3.5300
3.7800
3.4100
m3 = y(2:6,3)
m3 =
4.3000
4.6571
3.7143
4.2571
3.5429
Página 33
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
lo que produce:
Los valores marcados con (*) corresponden a cuantiles superiores al valor crítico
3.295, calculado anteriormente, y, por consiguiente corresponden a casos en los
que se rechaza la igualdad del par de medias considerado. Por ejemplo, el valor
7.1568 de la primera columna, indica que las medias correspondientes a la quinta
variable (conocimientos relacionados con la profesión) son significativamente
diferentes entre las universidades 1 y 2. Esto implica que μ1 μ2
EJEMPLO 2.2:
Página 34
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SOLUCION:
Se trata de estimar la media poblacional μ y probar la hipótesis de que dicha media puede
valer μ0 = (20,160,65) '
La estimación puntual de μ es x y la región de confianza es una elipse con centro en x dada
−1
s
por la ecuación (x − x ) ' (x − x ) Tp2, n −1 la cual, como se sabe, se puede escribir en
n
términos d F de forma siguiente:
−1
n− p s
(x − x ) ' (x − x ) Fp , n − p
(n − 1) p n
En consecuencia, se rechaza la hipótesis nula si μ 0 no se encuentra dentro de la región
anterior. Es decir, si la distancia cuadrada
−1
n− p s
d ( x, μ 0 ) =
2
(x − x ) ' ( x − x ) Fp , n − p ,
(n − 1) p n
Página 35
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
x = bacalao;
alfa = 0.05;
p = 3;
n = 15;
m0 = [20 160 65]';
m = mean(x)';
s = cov(x);
d2 = ((n-p)/((n-1)*p))*(m-m0)'*inv(s/n)*(m-m0)
% En caso de rechazo de H0
% Prueba para medias individuales
alfap = alfa/p;
for i=1:p
t(i) = abs(m(i)-m0(i)) / sqrt(s(i,i)/n);
end
t = t'
La ejecución del programa arroja una media estimada de (22.6333, 160.36, 63.1333)’ y una
distancia al cuadrado de d2 = 25.0148 que es superior al valor 3.49 (valor crítico de F).
En consecuencia, se rechaza la hipótesis de que las medias son iguales y debemos aplicar la
segunda parte del programa (que contiene ya la corrección de Bonferroni) para determinar
cuál o cuáles de las tres medias de las variables difiere(n) significativamente de los valores
propuestos.
Esta parte de la prueba se hace mediante una prueba t (t-test) con n − 1 grados de libertad y
0.05
al nivel ' = = = 0.0167
p 3
Puesto que se trata de una prueba bilateral se debe calcular tn−1, ' = t14, 0.00835 = 2.717
2
Valores superiores a 2.717 calculados con el programa indican que la correspondiente variable
difiere del valor propuesto como media.
Página 36
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Que, como se ve, nos dice que la primera variable es la responsable del rechazo de la
hipótesis propuesta para la media trivariada poblacional.
EJEMPLO 2.3:
Una operación de control de calidad contempla la comparación de cierto producto que es producido
por tres fábricas A, B y C. Por esta razón se tomaron muestras del producto procedentes de las tres
fábricas y se calificaron tres características denominadas X, Y, Z.
SOLUCION
La primera parte de este ejercicio puede hacerse con Infostat. Esta parte nos dice si se
rechaza o no la hipótesis de que las medias de las tres poblaciones (fábricas) son iguales.
En caso de que se rechace esta hipótesis, se harán las pruebas correspondientes en
FREEMAT para comparar las medias de cada variable. Estas pruebas se hacen por pares (t-
test) basadas en el estadístico
Página 37
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
x ji − xli
t (jli ) =
eii 1 1
+
E n j nl
t E 2
Con distribución al nivel ' = (como siempre, son pruebas bilaterales). En esta
pk (k − 1)
fórmula eii es el i-ésimo elemento de la diagonal de E, la matriz SSCP “Dentro”. E = n − k con
n = n1 + n2 + n3 y k = 3
Es decir, el valor del estadístico Lambda de Wilks es 0.17 que transformado a una F con 6 y 56 grados
de libertad equivale a 13.20. Este valor, demasiado alto, arroja un valor P inferior a o.0001. Por
consiguiente, se debe rechazar la hipótesis de que las medias en las tres fábricas coinciden.
La prueba de comparación de medias con corrección de Bonferroni, proporcionada por Infostat, nos
muestra que las fábricas B y C tienen igual media, es decir, coinciden en calidad. No así la fábrica A
que difiere significativamente de las otras dos (ver salida Infostat, en la página siguiente).
En cuál de las tres variables se encuentra esa diferencia? Es la parte que se hará con FREEMAT.
Para comparar las medias por variable, usamos Infostat para calcular las medias de las tres
muestras y la matriz de varianzas común (Matriz DENTRO). Estas matrices se leen en
FREEMAT y allí se hacen los cálculos de acuerdo con las fórmulas anotadas anteriormente.
La matriz
contiene en sus tres primeras filas las medias estimadas de cada muestra (fábrica),
Página 38
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
( recordar que estas medias deben ser tratadas como vectores columna) y en las últimas
tres filas la matriz E, de sumas de cuadrados “entre” (la cual es simétrica).
El siguiente programa calcula los estadísticos de prueba que deben ser comparados con
t ' = t30, 0.0028 = 2.985 (ver gráfica)
E, 2
clear
x = [ 14.07 32.99 42.02;
15.82 33.90 35.13;
14.69 34.32 34.05;
35.89 -7.40 -15.09;
-7.40 118.63 -31.69;
-15.09 -31.69 112.33]
m1 = x(1,:)';
m2 = x(2,:)';
m3 = x(3,:)';
e = x(4:6,:)
n1 = 10;
n2 = 12;
n3 = 11;
n = n1+n2+n3;
k = 3;
ne = n-k;
for i=1:3
t12(i) = abs(m1(i)-m2(i))/ sqrt((e(i,i)/ne)*(1/n1 + 1/n2));
t13(i) = abs(m1(i)-m3(i))/ sqrt((e(i,i)/ne)*(1/n1 + 1/n3));
t23(i) = abs(m2(i)-m3(i))/ sqrt((e(i,i)/ne)*(1/n2 + 1/n3));
end
t12 = t12'
t13 = t13'
t23 = t23'
Página 39
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Los valores encerrados en los recuadros rojos son mayores que el valor crítico 2.985
indicando con ello que las correspondientes medias difieren. Obsérvese que las media 2 y
3 no difieren lo que concuerda con el resultado proporcionado por Infostat. Deducimos aquí
que la variable responsable de las diferencias es la tercera.
TERCERA PARTE
EJERCICIO 3.1:
Los datos siguientes corresponden a la evaluación de 15 apartamentos, hecha por expertos que
calificaron 8 variables, a saber:
Página 40
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SOLUCION
1. COMPONENTES PRINCIPALES
En primer lugar se hará un ACP estandarizado (normado) por lo cual calculamos la matriz de
correlaciones de los datos, a partir de la cual se procederá a la construcción de componentes
principales.
>> S = corrcoef(x)
S=
1.0000 0.7976 0.1933 0.4478 0.4633 0.1432 0.4085 0.4069
0.7976 1.0000 0.2726 0.5254 0.5546 0.1771 0.4406 0.4178
0.1933 0.2726 1.0000 0.7874 0.7238 0.9880 0.8303 0.8401
0.4478 0.5254 0.7874 1.0000 0.9487 0.7256 0.9851 0.9719
0.4633 0.5546 0.7238 0.9487 1.0000 0.6360 0.9004 0.9349
0.1432 0.1771 0.9880 0.7256 0.6360 1.0000 0.7938 0.8013
0.4085 0.4406 0.8303 0.9851 0.9004 0.7938 1.0000 0.9840
0.4069 0.4178 0.8401 0.9719 0.9349 0.8013 0.9840 1.0000
Vectores propios:
U=
Página 41
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Valores propios:
V=
5.7260 0 0 0 0 0 0 0
0 1.5316 0 0 0 0 0 0
0 0 0.4301 0 0 0 0 0
0 0 0 0.2183 0 0 0 0
0 0 0 0 0.0801 0 0 0
0 0 0 0 0 0.0140 0 0
0 0 0 0 0 0 0.0000 0
0 0 0 0 0 0 0 0.0000
Como se ve, hay dos valores propios mayors que 1, así que según el criterio mineigen (Kaiser),
retenemos dos componentes CP1 y CP2 correspondientes a los dos dos mayores valores propios.
Los correspondientes coeficientes para estas componentes están dados por los dos primeros
vectores propios unitarios U1 y U2:
vt =
8.0000
L1 =
5.7260
>> L2 = V(2,2)
L2 =
1.5316
Página 42
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Las dos primeras componentes juntas, CP1 y CP2, explican el 90.72% de la variabilidad:
>> pct2 = 100*(L1+L2)/vt
pct2 =
90.7194
Así pues las dos componentes retenidas están dadas por los siguientes coeficientes:
>> U1 = U(:,1)
U1 =
-0.2119
-0.2346
-0.3653
-0.4066
-0.3901
-0.3438
-0.4060
-0.4075
>> U2 = U(:,2)
U2 =
-0.6305
-0.6052
0.3004
-0.0014
-0.0611
0.3587
0.0761
0.0883
O sea:
Página 43
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
2. ANALISIS DE FACTORES
Puesto que se retuvieron dos componentes, de acuerdo con lo solicitado, se construirán dos
factores comunes:
Interpretar estos factores no es fácil ya que el primero de ellos está conformado por casi todas las
variables. Tal vez se podría excluir COMERCIAL ya que tiene el coeficiente más bajo. Sin embargo
se ve que esta variable no es la que más pesa en F2. En realidad basta con un solo factor, F1.
Para construir las comunalidades recordamos que ellas están dadas por las sumas de los
cuadrados de las cargas correspondientes a los factores extraídos.
Esto es:
>> h2 = h2'
Página 44
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Estos valores indican qué tanto queda explicada cada variable con los dos factores extraídos. Por
ejemplo, ACABADOS queda explicada en un 94.64% con los facores F1 y F2.
Por últimos, calculamos las varianzas específicas, es decir, las varianzas de las variables que
conforman el factor específico, H
0.1340 0 0 0 0 0 0 0
0 0.1240 0 0 0 0 0 0
0 0 0.0976 0 0 0 0 0
ψ =
0
0 0
0
0
0
0.0536
0
0
0.1229
0
0
0
0
0
0
0 0 0 0 0 0.1262 0 0
0 0 0 0 0 0 0.0471 0
0 0 0 0 0 0 0 0.0371
Página 45
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Nota: la orientación de estos mapas puede ser diferente en otros paquetes y graficadores, al
igual que los signos de las coordenadas. Lo que importa realmente son las posiciones relativas
tanto de las variables como de los individuos. La cercanía significa semejanza o asociación.
Ind =
-64.2702 6.0743 -6.2970 11.3551 -5.2673 -10.0498 -2.4034 0.2537
-61.9983 1.4578 -6.2635 5.8572 -5.4626 -11.5423 -3.4996 -0.4902
-80.0070 -9.4242 -4.9418 -1.1451 -3.3177 -10.3259 -4.5027 0.1682
-75.5491 -7.8912 -8.3935 -0.7366 -4.3466 -11.1314 -3.3639 -0.0894
-72.7927 3.6696 -1.8428 4.5629 -1.8220 -8.9947 -3.9008 -0.0893
-73.7000 -6.9821 -6.8811 3.1745 -3.8010 -10.4716 -3.8884 -0.0892
-79.7933 -5.4985 -3.5656 2.5889 -1.9617 -8.8819 -4.3765 0.2628
-79.0177 -1.6076 -2.4271 2.7443 -1.0430 -8.6607 -4.1550 0.0728
-75.4061 -12.3846 -8.8958 -0.6068 -4.8124 -11.8061 -3.9556 -0.1904
-77.3684 -9.1175 -5.9489 -2.5249 -4.8476 -11.1571 -4.2728 0.1865
-77.0619 -7.8336 -5.3632 -0.3480 -4.4850 -10.4240 -4.3048 0.3065
-68.9333 -2.0880 -6.4863 3.8737 -4.1948 -10.8621 -3.5314 -0.3057
-72.2206 -5.9141 -6.3361 2.1940 -2.6157 -11.4715 -3.9614 -0.7594
-73.5855 -6.4806 -5.6214 4.1508 -3.5596 -10.1757 -4.2630 -0.0373
-76.5433 -5.9648 -3.2761 3.3317 -1.8097 -9.8751 -4.7556 -0.2265
Página 46
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Página 47
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Al hacer estas rotaciones se ve que los mapas anteriores coinciden con los que dan los paquetes
estadísticos como Infostat, Minitab, etc.
EJEMPLO 2.2:
Los datos siguientes corresponden a calificaciones en 8 variables relacionadas con inteligencias lingüística y
lógico matemática de la siguiente manera:
Página 48
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
En primer lugar debe usted realizar un análisis estandarizado de componentes principales y utilizar el
criterio mineigen de Kaiser para determinar cuántas componentes se deben retener. En este análisis usted
debe proporcionar las ecuaciones de las componentes retenidas y mediante un mapa perceptual de
variables establecer la estructura de correlación entre ellas.
En segundo lugar usted debe utilizar los cálculos realizados en la primera parte para realizar un análisis de
factores por el método de factores principales. En este análisis debe calcular las cargas factoriales, las
comunalidades, las varianzas específicas y plantear el modelo correspondiente.
Además debe usted indicar cómo quedan conformados los factores y qué representa cada uno de ellos.
SOLUCION
El siguiente programa en MATLAB resuelve parte del primer punto (excepto lo relacionado con el
mapa de variables) y el segundo punto:
%% Analisis de componentes principales y
%% Analisis de factores por el método de
%% Factores principales para 3r parcial AMV
Página 49
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
%% SALIDAS:
%% Matriz de correlaciones, R:
R
%% Comunalidades, h2:
h2
Página 50
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Valores propios:
3.7587 0 0 0 0 0 0 0
0 1.7562 0 0 0 0 0 0
0 0 1.3913 0 0 0 0 0
0 0 0 0.9246 0 0 0 0
0 0 0 0 0.1691 0 0 0
0 0 0 0 0 0.0000 0 0
0 0 0 0 0 0 0.0000 0
0 0 0 0 0 0 0 0.0001
Como se ve, hay tres valores propios mayores que 1. Esto implica retener las 3 primeras
componentes (Kaiser).
Vectores propios
U1 U2 U3 U4 U5 U6 U7 U8
-0.4607 -0.0253 0.3621 -0.1374 0.0841 0.5186 0.5949 -0.0850
-0.2321 -0.0123 -0.6540 0.4677 -0.0041 0.1826 0.0947 -0.5072
-0.0526 -0.0196 -0.4907 -0.8405 -0.0694 -0.0972 0.1395 -0.1262
-0.4596 -0.0279 0.3635 -0.1456 0.0809 -0.2842 -0.4586 -0.5805
-0.5035 -0.0294 -0.1113 0.1729 0.0726 -0.6735 0.3441 0.3551
-0.4965 -0.0358 -0.2217 -0.0521 0.0344 0.3921 -0.5375 0.5065
0.0443 0.7177 -0.0638 -0.0416 0.6906 0.0061 -0.0087 0.0011
-0.1337 0.6934 0.0522 0.0214 -0.7058 -0.0066 0.0047 0.0010
Estos vectores proporcionan los coeficientes de las tres primeras componentes principales, que en
consecuencia, serán:
CP1 = -0.4607 CPL -0.2321 CMO -0.0526 HPO -0.4596 SPL -0.5035 RES + … -0.1337 RLM
CP2 = -0.0253 CPL -0.0123 CMO -0.0196 HPO -0.0279 SPL -0.0294 RES + … +0.6934 RLM
CP3 = 0.3621 CPL -0.6540 CMO -0.4907 HPO +0.3635 SPL -0.1113 RES + … +0.0522 RLM
Página 51
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Como puede apreciarse, las variables HPO, CMO, SPL, VBS, CPL y RES, es decir, habilidad poética,
composición oral, significado de palabras, vocabulario y sinónimos, comprensión de palabras y
redacción escrita, están fuertemente correlacionadas entre sí y aportando principalmente a la
primera componente. En cambio, las variables PSP y RLM (planteamiento y solución de problemas
de una parte y razonamiento lógico matemático de otra) que están significativamente
correlacionadas entre sí pero poco correlacionadas con las anteriores, hacen su aporte
principalmente a la segunda componente.
Página 52
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Matriz de Correlaciones, R:
1.0000 0.0136 -0.0494 0.9999 0.7962 0.7568 -0.1256 0.2143
0.0136 1.0000 0.1294 0.0079 0.6158 0.6131 -0.0146 0.0639
-0.0494 0.1294 1.0000 -0.0441 0.0413 0.2908 0.0343 -0.0414
0.9999 0.0079 -0.0441 1.0000 0.7926 0.7549 -0.1289 0.2110
0.7962 0.6158 0.0413 0.7926 1.0000 0.9678 -0.1091 0.2040
0.7568 0.6131 0.2908 0.7549 0.9678 1.0000 -0.1021 0.1847
-0.1256 -0.0146 0.0343 -0.1289 -0.1091 -0.1021 1.0000 0.7638
0.2143 0.0639 -0.0414 0.2110 0.2040 0.1847 0.7638 1.0000
Comunalidades:
CPL 0.9813
CMO 0.7978
HPO 0.3460
SPL 0.9793
RES 0.9715
VBS 0.9973
PSP 0.9177
RLM 0.9153
Página 53
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Las comunalidades dicen que con tres factores todas las variables quedan muy bien explicadas,
excepto HPO que solo se explica en un 34.6 %.
Por otra parte, tomando sólo dos cifras decimales en los coeficientes, los factores
obtenidos son:
F1 F2 F3
CPL -0.89 -0.03 0.43
CMO -0.45 -0.02 -0.77
HPO -0.10 -0.03 -0.58
SPL -0.89 -0.04 0.43
RES -0.98 -0.04 -0.13
VBS -0.96 -0.05 -0.26
PSP 0.09 0.95 -0.08
RLM -0.26 0.92 0.06
En consecuencia, podemos afirmar que tales factores están conformados principalmente (ver los
mayores pesos o cargas en rojo) de la siguiente manera:
NOTA: El tercer factor, F3, podría ser considerado como una parte del primero y, de esta manera,
se determinarían sólo dos grandes factores que en esencia coincidirían con lo observado en las
componentes principales
Página 54
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Modelo factorial:
R = GG' + ψ
Donde R y G son respectivamente las matrices de correlación y de cargas factoriales
construídas anteriormente y ψ es la matriz PSI, calculada en la página 6.
Aunque no se pide en el ejercicio, cabe recalcar que si se pretende aplicar el método de máxima
verosimilitud, no se encuentra una solución. Como puede observarse al aplicar el código siguiente
en R.
## lectura de datos:
datos = read.table('c:/datos/p3amv.dat')
> colnames(datos)=c("CPRLECT","COMPORAL","HABPOET","SGNPLBR","REDESCRT", +
"VOCBLSIN","PLASOLPRB","RZNLOGIC")
## Extraccion de un factor:
Puede verse que tres y cuatro factores no son suficientes y que al pretender obtener 5 el
algoritmo falla y da un mensaje de error, diciendo que son demasiados factores para el número de
variables.
EJEMPLO 3.3:
Los datos siguientes, reportados por Fenelon, corresponden a toneladas de alimentos consumidos
durante una temporada en 3 sectores poblacionales de Francia: Obreros, Empleados y Ejecutivos.
Estos sectores han sido subdivididos según el número de hijos de las familias, a saber: familias con
dos hijos o menos, familias con tres hijos, familias con 4 hijos y familias con 5 hijos o más.. Las
variables analizadas son: PAN, VEGETALES, FRUTAS, CARNES, AVES, LECHE Y VINO.
Página 55
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Se pide
1. Realizar un análisis de componentes principales y explicar las principales salidas del análisis.
Usted decide si realiza ACP estandarizado o no, dando las razones para su decisión.
2. Acorde con el punto anterior, realice un Análisis factorial por el método PF. Diga cómo
quedan constituídos los factores y cuáles son las varianzas específicas.
3. Usando R realice un análisis factorial por el método MV. Igual que antes, diga cómo quedan
constituidos los factores
En primer lugar leemos los datos en FREEMAT (realmente no es estrictamente necesario. Podría
partirse de la matriz de varianzas covarianzas o de la de correlaciones)
x=
332 428 354 1437 526 247 427
293 559 388 1527 567 239 258
372 767 562 1948 927 235 433
406 563 341 1507 544 324 407
386 608 396 1501 558 319 363
438 843 689 2345 1148 243 341
534 660 367 1620 638 414 407
460 699 484 1856 762 400 416
385 789 621 2366 1149 304 282
655 776 423 1848 759 495 486
584 995 548 2056 893 518 319
515 1097 887 2630 1167 561 284
Página 56
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Primera pregunta:
Aunque todas las variables están en la misma unidad de medida (Toneladas) y por tanto podría
hacerse componentes principales corrientes, las diferencias tan grandes de las varianzas nos hace
pensar que no es apropiado este tipo de ACP. Así que es preferible hacer un ACP estandarizado que
parte de la matriz de correlaciones.
Se obtiene:
R=
1.0000 0.5931 0.1961 0.3213 0.2480 0.8556 0.3038
0.5931 1.0000 0.8563 0.8811 0.8268 0.6628 -0.3565
0.1961 0.8563 1.0000 0.9595 0.9255 0.3322 -0.4863
0.3213 0.8811 0.9595 1.0000 0.9818 0.3746 -0.4372
0.2480 0.8268 0.9255 0.9818 1.0000 0.2329 -0.4002
0.8556 0.6628 0.3322 0.3746 0.2329 1.0000 0.0069
0.3038 -0.3565 -0.4863 -0.4372 -0.4002 0.0069 1.0000
Se obtiene:
u=
0.0248 0.5081 -0.0360 0.5436 -0.0109 -0.6221 -0.2396
-0.1565 -0.3010 0.8086 0.0228 -0.0622 -0.0984 -0.4659
0.2062 0.6249 0.0670 -0.5477 0.1454 0.2054 -0.4463
-0.7371 -0.0908 -0.4112 0.0533 0.2074 0.1412 -0.4622
0.6038 -0.3508 -0.2238 0.3246 0.3559 0.1965 -0.4378
0.1500 -0.3323 -0.3414 -0.4494 -0.4436 -0.5225 -0.2807
-0.0447 -0.1382 0.0688 -0.3063 0.7800 -0.4791 0.2057
v=
0.0009 0 0 0 0 0 0
0 0.0188 0 0 0 0 0
0 0 0.0575 0 0 0 0
0 0 0 0.1283 0 0 0
0 0 0 0 0.6308 0 0
0 0 0 0 0 1.8303 0
0 0 0 0 0 0 4.3333
Página 57
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Construímos la matriz Q de permutaciones para poner los valores propios y los vectores propios
en el orden ascendente apropiado:
Q=
0000001
0000010
0000100
0001000
0010000
0100000
1000000
Se obtiene:
--> U = u*Q
U=
-0.2396 -0.6221 -0.0109 0.5436 -0.0360 0.5081 0.0248
-0.4659 -0.0984 -0.0622 0.0228 0.8086 -0.3010 -0.1565
-0.4463 0.2054 0.1454 -0.5477 0.0670 0.6249 0.2062
-0.4622 0.1412 0.2074 0.0533 -0.4112 -0.0908 -0.7371
-0.4378 0.1965 0.3559 0.3246 -0.2238 -0.3508 0.6038
-0.2807 -0.5225 -0.4436 -0.4494 -0.3414 -0.3323 0.1500
0.2057 -0.4791 0.7800 -0.3063 0.0688 -0.1382 -0.0447
--> V = Q'*v*Q
V=
4.3333 0 0 0 0 0 0
0 1.8303 0 0 0 0 0
0 0 0.6308 0 0 0 0
0 0 0 0.1283 0 0 0
0 0 0 0 0.0575 0 0
0 0 0 0 0 0.0188 0
0 0 0 0 0 0 0.0009
--> VT = trace(V)
VT =
7
La varianza total vale 7
Página 58
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Es decir, las dos primera componentes explican un poco más del 88%. En consecuencia, basta con
las dos primeras componentes.
Esto es:
--> [U(:,1) U(:,2)]
ans =
-0.2396 -0.6221
-0.4659 -0.0984
-0.4463 0.2054
-0.4622 0.1412
-0.4378 0.1965
-0.2807 -0.5225
0.2057 -0.4791
Página 59
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Realmente no importa cómo se mire. Lo esencial es que CARNES, AVES y FRUTAS forman un grupo
de variables altamente correlacionadas. De igual manera PAN y LECHE. Los vegetales están
medianamente correlacionados con los dos grupos anteriores. El VINO es casi independiente del
PAN y de la LECHE y altamente correlacionado en forma inversa con carnes aves y verduras.
Nótese que, de acuerdo con la ubicación de los individuos, se han evidenciado tres zonas: la de
obreros en dirección contraria a casi todas las variables, la de Empleados bastante relacionada con
el vino y la de ejecutivos caracterizada por los verdaderos alimentos:
Segunda pregunta:
De acuerdo con el ACP anterior y teniendo en cuenta que el criterio de Kaiser también determina
que dos componentes son suficientes, extraeremos dos factores, los cuales están dados por las dos
columnas de coeficientes de las componentes anteriores multiplicadas respectivamente por las
raíces cuadradas de sus valores propios. Esto es:
Página 60
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
L=
-0.4987 -0.8416
-0.9698 -0.1331
-0.9291 0.2779
-0.9621 0.1910
-0.9112 0.2659
-0.5843 -0.7069
0.4282 -0.6482
La matriz L anterior nos proporciona los coeficientes para la conformación de los dos factores
comunes:
Los cuales son incorrelacionados y con normas respectivas dadas por los dos primeros valores
propios, 4.3333 y 1.8303
Se han encerrado en recuadros los coeficientes más altos en cada factor. Esto nos dice que el primer
factor está constituído principalmente por VEGETALES, FRUTAS, CARNES y AVES mientras el segundo
lo está por PAN, LECHE y VINO.
ans =
0.9571 0.9581 0.9405 0.9621 0.9011 0.8412 0.6035
Página 61
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Lo que nos da el porcentaje de explicación de cada variable por los dos factores construídos. La
variable menos explicada es VINO que lo está apenas en un 60.35%. La mejor explicada es CARNES
que lo está en un 96.21%
El siguiente paso es el cálculo de las varianzas específicas que son las varianzas no explicadas y que
corresponden a los factores específicos, asimilados en el caso a errores.
Puesto que se hizo un ACP estandarizado las varianzas específicas corresponden a las diferencias
entre 1 y las comunalidades. Se obtienen entonces por:
PSI =
0.0429 0 0 0 0 0 0
0 0.0419 0 0 0 0 0
0 0 0.0595 0 0 0 0
0 0 0 0.0379 0 0 0
0 0 0 0 0.0989 0 0
0 0 0 0 0 0.1588 0
0 0 0 0 0 0 0.3965
Tercera pregunta:
La construcción de factores por el método de máxima verosimilitud se puede guiar por lo
calculado hasta el momento. -es decir, también podemos extraer solo dos factores- Para ello
usamos R, dando de una vez el comando correspondiente a dos factores.
Tenemos que leer los datos y asignar nombres a las variables, lo que logramos con el código
siguiente:
datos = read.table('f:/fracomi.txt')
colnames(datos) = c("PAN","VEG","FRT","CAR","AVE","LCH","VIN")
(fit = factanal(datos,2,rotation = "none"))
Página 62
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Loadings:
Factor1 Factor2
PAN 0.578 0.632
VEG 0.955
FRT 0.890 -0.347
CAR 0.940 -0.335
AVE 0.877 -0.468
LCH 0.664 0.745
VIN -0.340 0.313
Factor1 Factor2
SS loadings 4.247 1.505
Proportion Var 0.607 0.215
Cumulative Var 0.607 0.822
El Valor P es muy chico, así que podemos intentar un tercer factor con
Lo que arroja:
Uniquenesses:
PAN VEG FRT CAR AVE LCH VIN
0.005 0.082 0.049 0.005 0.005 0.005 0.437
Loadings:
Factor1 Factor2 Factor3
PAN 0.714 0.643 0.267
VEG 0.949
FRT 0.807 -0.505 -0.209
CAR 0.883 -0.462
AVE 0.821 -0.561
LCH 0.735 0.622 -0.260
VIN -0.211 0.483 0.533
Página 63
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Aunque el valor P sigue siendo chico, no se puede extraer un cuerto factor. R considera que cuatro
factores son demasiados para 7 variables y detiene el proceso.
EJEMPLO 3. 4:
Basándose en una encuesta que fue enviada a varios propietarios, un concesionario ha calificado 12 tipos de
automóviles para catalogarlos como de alto, mediano o modesto desempeño. Para ello se pidió asignar una
calificación entera en una escala de 1 a 10 (donde 1 es “poco satisfactorio” y 10 es “muy satisfactorio”), para
cada una de las siguientes características:
La tabla siguiente, recoge los puntajes promedios asignados por los usuarios a cada tipo de auto, redondeados
al entero más cercano:
Página 64
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Teniendo en cuenta lo anterior y basándose en componentes principales (tenga en cuenta que todas las
calificaciones son números adimensionales medidos en la misma escala), de respuesta a los siguientes puntos:
a. Determinar cuántas componentes son suficientes para realizar un análisis más simple de las
características evaluadas. Debe dar una razón que justifique su respuesta.
b. Dar las ecuaciones de las componentes que usted retenga y, para cada una de ellas, decir cuánto
valen su media y varianza. Determinar además cuáles son las tres variables de mayor peso en la
descripción de los autos.
c. Mediante un mapa perceptual de las variables, decir cómo es la estructura de correlación entre ellas.
d. De ser posible, ayudar al concesionario a determinar cómo serían los tres grupos de desempeño que
él quiere formar. (Dar un listado de los tipos de auto que estarían en cada grupo).
SOLUCION
Puesto que las 8 variables corresponden a calificaciones numéricas de 1 a 10, podemos
considerar que todas ellas son de la misma naturaleza y medidas en la misma escala. En
consecuencia, podemos realizar un análisis de Componentes Principales corriente, basado
en la matriz de varianzas covarianzas S que es la estimación de ∑. Este análisis se basa en la
extracción de vectores valores propios de S. Lo haremos usando Infostat aunque puede
hacerse con cualquier otro software que tenga la capacidad.
Los datos en Infostat tienen el siguiente aspecto:
Página 65
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Página 66
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
a. En la primera tabla se observa que las dos primeras componentes por sí solas
explican el 80% de la variabilidad. Este es un magnífico porcentaje de explicación y
se logra reducir la dimensionalidad del problema de p = 8 a q = 2 (caso ideal, pues
todo el problema se proyecta sobre un plano, donde es más fácil observar las cosas)
b. La segunda tabla proporciona los coeficientes para las dos componentes principales
que Infostat denota como e1 y e2
Primera componente:
F1 = e1 = 0.37 Mec + 0.45Freno – 0.24 Gasol + 0.33Estabil + … + 0.16 Respaldo
Segunda componente:
F2 = e2 = 0.76 Mec – 0.40 Freno + 0.12 Gasol + … -0.34Respaldo
Como se vió en clase, la media de toda componente principal es 0 y la varianza es el
correspondiente valor propio, así que la varianza de F1 es 17.76 y la de F2 es 2.47.
Por otra parte las tres variables más importantes son las las tres que más aporten a
F1 que es la componente más importante. Esto es, las tres que tengan los mayores
coeficientes elevados al cuadrado. Son, por tanto: Confort, Confiabilidad de Frenado
y potencia de subida.
Página 67
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Es decir:
Gran desempeño: A = {T4, T6, T12}
Mediano desempeño: B = {T2, T3, T5, T8, T9, T11}
Bajo desempeño: C = {T1, T7, T10}
Si hacemos clasificación jerárquica, varios métodos, entre ellos la combinación del criterio
de Ward (uno de los más utilizados) y la distancia euclidiana al cuadrado, producen un
dendrograma que prácticamente coincide con la clasificación hecha previamente mediante
el ACP. El único individuo dudoso es T1 que queda clasificado entre los de rendimiento
mediano pero un poco alejado del resto de elementos de este grupo. Esto también es
observable en el mapa de individuos presentado arriba, donde se ve que T1 está un poco a
la derecha de T7 y T10, es decir más cerca del Grupo B que sus dos compañeros.
Página 68
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJEMPLO 3.5
Este ejercicio ilustra el uso del software R en varios de los temas vistos de Análisis
multivariados. En realidad consta de una serie de comandos e instrucciones que pueden ser
usados uno por uno, en forma consecutiva o separadamente, para observar el efecto
correspondiente . Se trata de 178 observaciones en 14 variables correspondientes a
cultivares de tres viñedos.
Se recomienda realizar el ejercicio instrucción por instrucción para reconocer el comando
que logra cada uno de los puntos del análisis. Los datos pueden bajarse de internet o
también se puede usar el archivo WINE_DAT.TXT que previamente se ha salvado en la
carpeta C:\DATOS en la raíz del disco C. Usted puede hacer cambios apropiados en la
sintaxis de los comandos si quiere realizar su propia versión personalizada del ejemplo.
Página 69
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
# También se pueden leer desde el archivo de datos C:\DATOS, siempre que se tengan
allí.
wine <- read.table("c:/datos/wine_dat.txt",sep="")
wine
4. Muestra variables 2 a 6:
wine[2:6]
Página 70
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
9. Si se quiere medias y desviaciones solo para datos del viñedo 2 (cultivar 2):
cultivar2wine <- wine[wine$V1 == "2"]
mean(cultivar2wine[2:14])
sd(cultivar2wine[2:14])
COMPONENTES PRINCIPALES
================================================
Página 71
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
wine.pca$sdev
19. Mapa de individuos en el primer plano factorial (se almacenan en un elemento "x"):
plot(wine.pca$x[,1], wine.pca$x[,2])
para identificar el cultivar en el mapa anterior se puede agregar un texto en rojo asi:
text(wine.pca$x[,1], wine.pca$x[,2], wine$V1, cex = 0.7, pos = 4, col = "red")
Página 72
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
A N A L I S I S D I S C R I M I N A N T E L I N E A L:
========================================================
Se usa la función lda() de la libreria MASS que, por supuesto, debe ser instalada
previamente.
# install.packages('MASS')
library(MASS)
wine.lda <- lda(Type ~ ., data=wine)
Página 73
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
text(wine.lda.values$x[,1],wine.lda.values$x[,2],Type,cex=0.7,pos=4,col="red") # add
labels
EJEMPLO 3.6:
UN EJEMPLO DE ANALISIS DE FACTORES REALIZADO POR DIFERENTES METODOS
Los datos siguientes corresponden a 5 variables climáticas observadas en 20 localidades. Los datos
forman parte de un conjunto mayor de 11 variables y muchos más sitios de los Estados Unidos y
fueron recopilados por R.J. Freund.
84 85 95 273 30
84 86 94 140 34
79 83 94 318 33
81 83 94 282 26
84 88 93 311 41
74 77 96 446 4
73 78 96 294 5
75 84 95 313 20
84 89 95 455 31
86 91 93 604 36
88 91 94 610 43
90 94 94 520 47
88 94 96 663 45
58 92 95 467 45
81 87 95 184 11
79 83 95 177 10
84 87 95 173 30
84 87 94 76 29
84 88 95 72 23
77 83 97 183 16
Vamos a utilizar estos datos para realizar Análisis de factores de diferentes maneras.
En primer lugar vamos a utilizar el método de factores principales, para lo cual usaremos
MATLAB.
Página 74
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Leemos los datos en Matlab, calculamos vectores y valores propios. Las cargas factoriales se
obtienen multiplicando los valores propios por la raíz cuadrada de los correspondientes valores
propios. Las comunalidades se obtienen sumando los cuadrados de las cargas factoriales de los
correspondientes factores extraídos y las varianzas específicas serán las diferencias entre las
varianzas (en este caso 1, por tratarse de variables estandarizadas) y las comunalidades.
R=
U=
0.3333 0.5660 0.0999 0.7415 0.0938
0.5399 -0.1540 -0.6251 0.0276 -0.5416
-0.3955 -0.4831 0.2175 0.5778 -0.4785
0.3554 -0.6380 -0.0697 0.2570 0.6291
0.5610 -0.1246 0.7397 -0.2225 -0.2704
V=
2.7005 0 0 0 0
0 1.0473 0 0 0
0 0 0.1216 0 0
0 0 0 0.6531 0
0 0 0 0 0.4775
Hay dos valores mayores que 1 así que, en principio, extraeremos dos factores F1 y F2 (puede que
no sean suficientes o que sean demasiados, para eso se debe hacer una prueba Ji cuadrado)
Los factores extraídos corresponden a los dos primeros vectores U1 y U2, Las cargas factoriales se
obtienen como L = [ 1 U1 2 U 2 ] . Esto es:
>> L = [sqrt(V(1,1))*U(:,1) sqrt(V(2,2))*U(:,2)]
Página 75
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
L=
0.5478 0.5792
0.8872 -0.1576
-0.6499 -0.4944
0.5840 -0.6529
0.9219 -0.1275
La anterior matriz proporciona los coeficientes de los factores construídos. Esto es:
F1 = 0.5478X1 +0.8872X2 – 0.6499X3 + 0.5840X4 +0.9212X5
F2 = 0.5792X1 – 0.1576X2 – 0.4944X3 -0.6529X4 – 0.1275X5
>> h2 = h2'
h2 =
0.6355
0.8119
0.6669
0.7673
0.8662
Lo anterior indica que los dos factores explican el 63.55% de X1, el 81.19% de X2, el 66.69% de X3,
el 76.73% de X4 y el 86.62 de X5.
Para hallar las varianzas específicas tomamos las varianzas originales (en este caso correlaciones
iguales a 1) y les restamos las comunalidades, con lo cual se obtiene:
Página 76
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
0.3645 0 0 0 0
0 0.1881 0 0 0
Con lo cual ψ = 0 0 0.3331 0 0
0 0 0 0.2327 0
0 0.1338
0 0 0
Así pues la solución del problema, para dos factores, está dada por: R = LL' + ψ
Con:
En este ejemplo no es muy clara la estructura de los factores. Podemos decir que F1 está más
asociado con X5, X2 y un poco con X3. En cambio F2 lo está con X4 y con X1. Esto es: F1 se asocia
con Evaporación, temperatura solar y Humedad relativa mientras F2 se asocia con Cantidad de
viento y temperatura del aire. Así pues, los dos factores construídos que tienen que ver con el
resecamiento de la tierra son de una parte el sol y la evaporación que él produce y de otra el
viento y la temperatura del aire.
Como sabemos, R utiliza el método de máxima verosimilitud, así que la solución puede ser
diferente a la anterior.
Produce:
Call:
factanal(x = datos, factors = 1, rotation = "none")
Uniquenesses:
Taire Tsolar Hrelat Viento Evapora
0.896 0.278 0.710 0.752 0.005
Página 77
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Loadings:
Factor1
Taire 0.323
Tsolar 0.850
Hrelat -0.539
Viento 0.498
Evapora 0.997
Factor1
SS loadings 2.360
Proportion Var 0.472
El valor P anterior sirve para probar la hipótesis H0 de que el número de factores extraídos es
SUFICIENTE. Si él es menor que 0.05 se debe extraer un factor más. En este caso, basta con un
solo factor.
Se produciría:
Uniquenesses:
Taire Tsolar Hrelat Viento Evapora
0.818 0.184 0.005 0.691 0.094
Loadings:
Factor1 Factor2
Taire 0.388 0.177
Tsolar 0.409 0.806
Hrelat -0.997
Viento 0.124 0.542
Evapora 0.566 0.765
Factor1 Factor2
SS loadings 1.647 1.562
Proportion Var 0.329 0.312
Cumulative Var 0.329 0.642
Página 78
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
En tercer lugar utilizaremos un paquete, por ejemplo, MINITAB para extraer factores.
Veamos:
Página 79
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Gráficas
Página 80
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Mapa de variables
Mapa de Individuos
Página 81
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Biplot
Página 82
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
La ventaja de usar un paquete como Minitab es que podemos rotar la solución. Cada paquete
ofrece un mecanismo para producir soluciones rotadas. Por ejemplo, en Minitab basta llenar la
casilla correspondiente en la pantalla de información como se ve en la gráfica siguiente:
Se produce:
Biplot
Nótese que ahora los individuos se encuentran en otra posición respecto de las variables!
Página 83
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
En esta solución es más evidente que el primer factor representa lo relacionado con viento,
evaporación y temperatura solar mientra es el segundo factor está asociado con Temperatura
del aire y humedad relativa.
Tambien podemos omitir el tipo de rotación pues R rota por defecto de acuerdo con
varimax. Es decir, podemos usar:
> (fit=factanal(datos,2))
Y se obtiene;
Uniquenesses:
Taire Tsolar Hrelat Viento Evapora
0.818 0.184 0.005 0.691 0.094
Loadings:
Factor1 Factor2
Taire 0.230 0.359
Tsolar 0.855 0.291
Hrelat -0.108 -0.992
Viento 0.554
Evapora 0.837 0.452
Factor1 Factor2
SS loadings 1.805 1.404
Proportion Var 0.361 0.281
Cumulative Var 0.361 0.642
Página 84
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Otros paquetes ofrecen más opciones. Entre tales paquetes cabe destacar OpenStat, un paquete
gratuito y muy completo que contiene numerosas rutinas estadísticas. Este paquete se consigue
gratis y muy bien documentado en Internet.
Aspecto general de la pantalla de datos en OpenStat. Se ha importado el archivo de texto separado por espacios
Página 85
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Como se ve, hay siete métodos de extracción de factores , cinco rotaciones, tres fuentes de
información y gran variedad de salidas.
Como se ve:
Se han seleccionado todas las 5 variables, vamos a extraer factores por el método de máxima
verosimilitud (método canónico), Mostramos en la salida estadísticas descriptivas, la matriz de
correlación, los vectores antes de la rotación, hacemos gráficas de Catell (Scree Plot), factores y
coordenadas de factores.
NOTA:
En la opción Input Data se ha dejado la que el paquete ofrece por defecto (Raw data from the
main grid), esto hace que el análisis se haga con los datos sin transformar. Si quisiéramos algún
tipo de transformación deberíamos usar la segunda opción (A Matrix from the main grid), allí
podríamos escoger,por ejemplo, la matriz de correlaciones. La tercera opción se usa cuando el
archivo de datos corresponde a una matriz ya calculada.
Debido a lo anterior, en este ejemplo, el paquete extraerá factores sin estandarizar variables
Página 86
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SALIDAS:
Factor Analysis
See Rummel, R.J., Applied Factor Analysis
Northwestern University Press, 1970
CORRELATION MATRIX
Correlations
TAire TSolar HumRel VientoT
Evapora
1.0000 0.3762 -0.3814 0.0935
0.3203
0.3762 1.0000 -0.3811 0.4682
0.8477
-0.3814 -0.3811 1.0000 -0.1053 -
0.5388
0.0935 0.4682 -0.1053 1.0000
0.4968
0.3203 0.8477 -0.5388 0.4968
1.0000
Means
Standard Deviations
Página 87
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Solo extraerá un factor pues aparece solo un valor propio por encima de 1
FACTORS
Factor 1 Factor 2 Factor 3 Factor 4 Factor
5
0.3975 -0.3190 0.1294 0.0000
0.0000
0.8843 0.0827 0.0445 0.0000
0.0000
-0.5307 0.4251 0.0719 0.0000
0.0000
0.5117 0.3054 -0.0259 0.0000
0.0000
0.9141 0.0065 -0.0315 0.0000
0.0000
COMMUNALITY ESTIMATES
1 TAire 0.277
2 TSolar 0.791
3 HumRel 0.467
4 VientoT 0.356
5 Evapora 0.837
FACTORS
Factor 1
0.3975
0.8843
-0.5307
0.5117
0.9141
Percent of Variation in Rotated Factors
Factor 1 46.381
Página 88
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Communalities as Percentages
Regression Coefficients
FACTORS
Factor 1
0.0557
0.3807
-0.0958
0.0782
0.4830
Página 89
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIOS PROPUESTOS
SECCION 1
EJERCICIO 1.1
Para cada una de las matrices A siguientes
a. Halle valores y vectores propios unitarios
b. Determine su rango y diga en cada caso si es o no de rango completo
c. Determine si es definida positiva
d. Si es posible, halle una matriz P tal que A = PΛP ' donde Λ es la matriz diagonal
formada por los valores propios i
p p
e. Compruebe que Traza( A) = i y que Det( A) = i
i =1 i =1
f. Diga si A tiene las características necesarias para ser la varianza de algún vector X
1 0 2 3 2 2 0 1
2 1 0 4 2 6 2 1 1
0 3 −1 5 2 0 3 1
1 3 2 2 1 3 2 −1 4 6 0 3 1 0 1 2 1
0 2 1 6 3 2 1 1 2
3 5 6 5 1 1 0 −2
EJERCICIO 1.2
Considere las variables aleatorias X , Y cuyas distribuciones están dadas por
Construya la distribución conjunta del vector X = (X, Y) ' y calcule μ =E( X), Σ =V( X)
Página 90
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 1.3
Considere dos variables aleatorias independientes X , Y con distribuciones de Bernoulli
dadas por la siguiente tabla:
a. Calcule E( X) y V( X)
b. Diga si es posible que X tenga distribución normal bivariada. Justifique su respuesta.
EJERCICIO 1.4
0.25 Si 0 t1 2 y 0 t2 2
Considere la función f : 2
→ dada por f (t1,t2 ) =
0 en otra parte del plano
Página 91
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SECCION 2
EJERCICIO 2.1
EJERCICIO 2.2
Página 92
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 2.3
X1
Considere una variable aleatoria X = X2 con distribución normal 3-variada de media
X
3
1 4 2 0
μ = 4 y varianza Σ = 2 4 0
0 0 0 4
EJERCICIO 2.4
Suponga que una cierta variable aleatoria X = ( X1 , X 2 , X 3 , X 4 , X 5 )´ tiene distribución
64 12 0 −8 3
12 16 6 2 1
normal 5-variada de media μ = (1, 2, 0,1, 0)´ y varianza Σ = 0 6 25 8 0
−8 2 8 9 5
3 1 0 5 36
Página 93
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 2.5
2 1 −1
Considere el vector X0 del punto anterior y la matriz A = . Halle la distribución
−1 2 2
del vector Y = AX0 . Haga un esquema -así no sea exacto- de cómo serían las elipses de nivel para
el vector Y .
EJERCICIO 2.6
EJERCICIO 2. 7
Considere dos variables aleatorias X1 , X 2 ambas con la misma distribución normal de media 1 y
X1
varianza 5, con una correlación = −0.8 . Suponga que el vector X = tiene distribución
X2
normal bivariada.
Página 94
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 2.8
Página 95
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 2.9
Página 96
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SECCION 3
EJERCICIO 3.1
Página 97
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 3.2
Página 98
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Página 99
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 3.3
EJERCICIO 3.4
Página 100
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 3.5
Página 101
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 3.6
Una compañía constructora está en plan de adquirir varias retroexcavadoras para lo cual hace una
evaluación de un tipo de máquinas que se encuentra dentro de las perspectivas de compra. La
evaluación se hace sobre tres conceptos principalmente: Desempeño de la máquina, Consumo de
combustible por hora de trabajo y Facilidad de manejo. Para la evaluación toma aleatoriamente
una máquina de las que se encuentran para la venta en la agencia que las distribuye y la hace
calificar por parte de 8 operarios de ese tipo de máquinas, 10 mecánicos de la división de
mantenimiento y 9 ingenieros. Para ellos deja que estas personas operen las máquinas durante
cierto tiempo y que luego emitan una calificación entre 1 y 50 puntos por cada aspecto evaluado.
La siguiente tabla muestra los puntajes asignados como calificación por cada evaluador.
1. Las calificaciones otorgadas por los tres grupos de evaluadores son equivalentes o, cree
usted que los criterios de evaluación son dispares?
Página 102
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Haga un análisis lo más completo posible teniendo en cuenta que debe responder las tres
preguntas anteriore como mínimo.
EJERCICIO 3.7
Página 103
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 3.8
Página 104
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Página 105
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
SECCION 4
EJERCICIO 4.1
Página 106
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 4.2
Página 107
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 4.3
Página 108
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Página 109
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 4.4
EJERCICIO 4.5
Página 110
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Página 111
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
EJERCICIO 4.6
Página 112
Ejemplos y Ejercicios de Análisis Multivariado. JAIRO ALFONSO CLAVIJO
Página 113