P1 U2 MMIIEMariel Pedroza Guzman
P1 U2 MMIIEMariel Pedroza Guzman
P1 U2 MMIIEMariel Pedroza Guzman
MÉTODOS MULTIVARIADOS
Software R.
Situación
1. La Tabla 6.6 muestra seis medidas en cada una de las 25 copas de cerámica
excavadas en sitios prehistóricos en Tailandia, y la Figura 6.3 ilustra la forma
típica y la naturaleza de las medidas. La principal pregunta de interés para
estos datos se refiere a las similitudes y diferencias entre las copas, siendo
las preguntas obvias si es posible mostrar los datos gráficamente para
mostrar cómo las copas están relacionadas, y si es así, si hay alguna
agrupación obvia de copas similares y cualquier copa que sea
particularmente inusual. Realizar un análisis de componentes principales y
ver si los valores de los componentes principales ayudan a responder a estas
preguntas. Un punto que necesita a consideración con este ejercicio es la
medida a qué diferencias entre copas se deben a diferencias de forma en
lugar de diferencias de tamaño. Bien se puede considerar que dos copas
que tienen casi la misma forma pero tienen tamaños muy diferentes son
realmente similares. El problema de separar las diferencias de tamaño y
forma ha generado una considerable literatura científica, que no será
considerado aquí. Sin embargo, se puede señalar que una forma de eliminar
los efectos del tamaño consiste en dividir las medidas de una copa por la
altura total del cuerpo de la copa. Alternativamente, las medidas en una copa
se pueden expresar como una proporción de la suma de todas las medidas
en esa copa. Este tipo de estandarización de las variables asegurarán que
los valores de los datos sean similares para dos copas con la misma forma
pero diferentes tamaños.
2. La Tabla 6.7 muestra estimaciones del consumo promedio de proteína de
diferentes fuentes de alimentación para los habitantes de 25 países
europeos según lo publicado por Weber (1973). Utilice el análisis de
componentes principales para investigar las relaciones entre los países
sobre la base de estas variables.
Procedimiento
Mediante R se utilizó un código para obtener los eigenvalores
Datos obtenidos
EJERCICIO 1
Las variables con las mayores correlaciones son (X4-X6) muy fuerte,(X3-X6),(X3-
X4),(X2-X3),(X2-X4),(X2,X6) fuertes.
Traza(s)=6
6/6=1
4.27>1 por lo tanto se recomienda usar solo un componente.
Tabla de eigenvalores y su contribución a la varianza total
Necesitamos un Cp dado que con 𝜆1 la varianza total acumulada ya supera un 70%.
Utilizando la curva de la ladera nos sugiera dejar los dos primeros componentes.
Conclusiones
El análisis de componentes principales es muy útil para reducir la dimensionalidad
de un grupo de datos. Los primeros componentes principales describen la mayor
parte de la varianza de los datos. Existen diferentes técnicas para estimar el número
de componentes principales que son importantes, es de gran ayuda aprender a
realizar cada una de estas técnicas para poder generar nuestras propias
conclusiones de cuantos Cp utilizar dependiendo del contexto de la situación.
Referencias
Anexos
rm(list=ls())
datos=read.table(file.choose(),header=T,sep=",")
datos
attach(datos)
#
# A table containing eigenvalues and %'s accounted, follows
(eigen_datos <- datos_pca$sdev^2) # Eigenvalues are the sdev^2
names(eigen_datos) <- paste("PC",1:10,sep="")
eigen_datos
sumlambdas <- sum(eigen_datos)
propvar <- eigen_datos/sumlambdas*100
cumvar_datos <- cumsum(propvar)
matlambdas <- rbind(eigen_datos,propvar,cumvar_datos)
rownames(matlambdas) <- c("Eigenvalues","Prop. variance %","Cum. prop.
variance%")
# Printing table of eigenvalues and their contribution to the total variance
round(matlambdas,2)
# Curva de la ladera
(p=ncol(datos)-1)
plot(1:p,datos_pca$sdev^2,type="b",lty=2,
xlab="Componentes Principales",ylab="Eigenvalores o varianzas de los C.P.",
main="CURVA DE LA LADERA",col="blue")
abline(h=1,col="red",lty=3,lwd=2)
Anexo 2
Goblet X1 X2 X3 X4 X5 X6
1 13 21 23 14 7 8
2 14 14 24 19 5 9
3 19 23 24 20 6 12
4 17 18 16 16 11 8
5 19 20 16 16 10 7
6 12 20 24 17 6 9
7 12 19 22 16 6 10
8 12 22 25 15 7 7
9 11 15 17 11 6 5
10 11 13 14 11 7 4
11 12 20 25 18 5 12
12 13 21 23 15 9 8
13 12 15 19 12 5 6
14 13 22 26 17 7 10
15 14 22 26 15 7 9
16 14 19 20 17 5 10
17 15 16 15 15 9 7
18 19 21 20 16 9 10
19 12 20 26 16 7 10
20 17 20 27 18 6 14
21 13 20 27 17 6 9
22 9 9 10 7 4 3
23 8 8 7 5 2 2
24 9 9 8 4 2 2
25 12 19 27 18 5 12
Anexo 3
Country X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Albania 10 1 1 9 0 42 1 6 2 72
Austria 9 14 4 20 2 28 4 1 4 86
Belgium 14 9 4 18 5 27 6 2 4 89
Bulgaria 8 6 2 8 1 57 1 4 4 91
Czechoslovaki
a 10 11 3 13 2 34 5 1 4 83
Denmark 11 11 4 25 10 22 5 1 2 91
E.Germany 8 12 4 11 5 25 7 1 4 77
Finland 10 5 3 34 6 26 5 1 1 91
France 18 10 3 20 6 28 5 2 7 99
Greece 10 3 3 18 6 42 2 8 7 99
Hungary 5 12 3 10 0 40 4 5 4 83
Ireland 14 10 5 26 2 24 6 2 3 92
Italy 9 5 3 14 3 37 2 4 7 84
Netherlands 10 14 4 23 3 22 4 2 4 86
Norway 9 5 3 23 10 23 5 2 3 83
Poland 7 10 3 19 3 36 6 2 7 93
Portugal 6 4 1 5 14 27 6 5 8 76
Romania 6 6 2 11 1 50 3 5 3 87
Spain 7 3 3 9 7 29 6 6 7 77
Sweden 10 8 4 25 8 20 4 1 2 82
Switzerland 13 10 3 24 2 26 3 2 5 88
UK 17 6 5 21 4 24 5 3 3 88
USSR 9 5 2 17 3 44 6 3 3 92
W.Germany 11 13 4 19 3 19 5 2 4 80
Yugoslavia 4 5 1 10 1 56 3 6 3 89