P1 U2 MMIIEMariel Pedroza Guzman

CENTRO DE CIENCIAS BÁSICAS
INGENIERÍA INDUSTRIAL ESTADÍSTICA
MÉTODOS MULTIVARIADOS
Práctica II.1: Análisis de Componentes

Principales
M. en C. José De Jesús Ruíz Gallegos
Mariel Pedroza Guzmán

7to Semestre
Lunes 3 de octubre de 2022

Introducción
En esta práctica se analizarán dos bases de datos mediante la técnica del análisis
de componentes principales.
La técnica del análisis de componentes principales fue descrita por primera vez por
Karl Pearson (1901). Los métodos vinieron mucho más tarde de Hotelling (1933).
Incluso entonces, los cálculos eran extremadamente desalentadores para más de
unas pocas variables, porque tenían que hacerse a mano. No fue hasta que las
computadoras se generalizaron que la técnica logró un uso generalizado.
Objetivos
• Aplicar la técnica de análisis de componentes principales.
Equipo, Herramientas o Material
Software R.
Situación
1. La Tabla 6.6 muestra seis medidas en cada una de las 25 copas de cerámica
excavadas en sitios prehistóricos en Tailandia, y la Figura 6.3 ilustra la forma
típica y la naturaleza de las medidas. La principal pregunta de interés para
estos datos se refiere a las similitudes y diferencias entre las copas, siendo
las preguntas obvias si es posible mostrar los datos gráficamente para
mostrar cómo las copas están relacionadas, y si es así, si hay alguna
agrupación obvia de copas similares y cualquier copa que sea
particularmente inusual. Realizar un análisis de componentes principales y
ver si los valores de los componentes principales ayudan a responder a estas
preguntas. Un punto que necesita a consideración con este ejercicio es la
medida a qué diferencias entre copas se deben a diferencias de forma en
lugar de diferencias de tamaño. Bien se puede considerar que dos copas
que tienen casi la misma forma pero tienen tamaños muy diferentes son
realmente similares. El problema de separar las diferencias de tamaño y
forma ha generado una considerable literatura científica, que no será
considerado aquí. Sin embargo, se puede señalar que una forma de eliminar
los efectos del tamaño consiste en dividir las medidas de una copa por la
altura total del cuerpo de la copa. Alternativamente, las medidas en una copa
se pueden expresar como una proporción de la suma de todas las medidas
en esa copa. Este tipo de estandarización de las variables asegurarán que
los valores de los datos sean similares para dos copas con la misma forma
pero diferentes tamaños.
2. La Tabla 6.7 muestra estimaciones del consumo promedio de proteína de
diferentes fuentes de alimentación para los habitantes de 25 países
europeos según lo publicado por Weber (1973). Utilice el análisis de
componentes principales para investigar las relaciones entre los países
sobre la base de estas variables.
Procedimiento
Mediante R se utilizó un código para obtener los eigenvalores
Datos obtenidos
EJERCICIO 1
Las variables con las mayores correlaciones son (X4-X6) muy fuerte,(X3-X6),(X3-
X4),(X2-X3),(X2-X4),(X2,X6) fuertes.
Traza(s)=6
6/6=1
4.27>1 por lo tanto se recomienda usar solo un componente.
Tabla de eigenvalores y su contribución a la varianza total
Necesitamos un Cp dado que con 𝜆1 la varianza total acumulada ya supera un 70%.
Utilizando la curva de la ladera nos sugiera dejar los dos primeros componentes.
Las ecuaciones para los dos primeros Cp serían:

𝑍1 = 0.366𝑋1 + 0.452𝑋2 + 0.411𝑋3 + 0.462𝑋4 + 0.296𝑋5 + 0.438𝑋6
𝑍2 = 0.486𝑋1 − 0.034𝑋2 − 0.411𝑋3 − 0.115𝑋4 + 0.683𝑋5 − 0.298𝑋6
EJERCICIO 2
Unicamente se observa una correlación significativa que es la de (X3-X6) de

manera moderada con un valor de 0.70,
Traza(s)=10
10/10=1
4.13>1 por lo tanto se recomienda usar solo un componente.
Tabla de eigenvalores y su contribución a la varianza total
Se recomienda usar 3 Cp ya que la varianza total acumulada en PC3= 71.79.
Utilizando la curva de la ladera nos sugiera dejar los 4 primeros Cp.

Análisis
Para el ejercicio 1 lo ideal sería dejar solo un Cp ya que la mayoría de las técnicas
lo indican así.
Para el ejercicio 2 lo ideal sería dejar 3 Cp ya que así lo indica el criterio del % de
varianza total explicada y en la técnica de la ladera el 4to Cp está muy cercano al
límite.
Conclusiones
El análisis de componentes principales es muy útil para reducir la dimensionalidad
de un grupo de datos. Los primeros componentes principales describen la mayor
parte de la varianza de los datos. Existen diferentes técnicas para estimar el número
de componentes principales que son importantes, es de gran ayuda aprender a
realizar cada una de estas técnicas para poder generar nuestras propias
conclusiones de cuantos Cp utilizar dependiendo del contexto de la situación.
Referencias
R (4.1.1). (2021). [Lenguaje de programación]. https://www.r-project.org/
Manly, B. F. J., & Alberto, J. N. A. (2016). Multivariate Statistical Methods: A Primer,

Fourth Edition (4th ed.). CRC Press.
Anexos
rm(list=ls())
datos=read.table(file.choose(),header=T,sep=",")
datos
attach(datos)
# Correlations between the nine industry groups (variables) (Table 6.5)

## put (absolute) correlations on the upper panels,
## with size proportional to the correlations.
panel.cor <- function(x, y, digits = 2, prefix = "", cex.cor, ...)
{
usr <- par("usr"); on.exit(par(usr))
par(usr = c(0, 1, 0, 1))
r <- abs(cor(x, y))
txt <- format(c(r, 0.123456789), digits = digits)[1]
txt <- paste0(prefix, txt)
if(missing(cex.cor)) cex.cor <- 0.8/strwidth(txt)
text(0.5, 0.5, txt, cex = cex.cor * r)
}
pairs(datos[-1], main = "Consumo de proteínas (g por persona por día) en 25 países

europeos", pch = 21,
bg = rainbow(25)[unclass(as.factor(datos[,1]))],
upper.panel = panel.cor)
# Using prcomp to compute the principal components (eigenvalues and

eigenvectors)
# With scale=TRUE, variable means are set to zero, and variances set to one
# sample scores stored in euroemp_pca$x
# singular values (square roots of eigenvalues) stored in euroemp_pca$sdev
# loadings (eigenvectors) are stored in euroemp_pca$rotation
# variable means stored in euroemp_pca$center
# variable standard deviations stored in euroemp_pca$scale
datos_pca <- prcomp(datos[,-1],scale=TRUE)
summary(datos_pca)
#
# A table containing eigenvalues and %'s accounted, follows
(eigen_datos <- datos_pca$sdev^2) # Eigenvalues are the sdev^2
names(eigen_datos) <- paste("PC",1:10,sep="")
eigen_datos
sumlambdas <- sum(eigen_datos)
propvar <- eigen_datos/sumlambdas*100
cumvar_datos <- cumsum(propvar)
matlambdas <- rbind(eigen_datos,propvar,cumvar_datos)
rownames(matlambdas) <- c("Eigenvalues","Prop. variance %","Cum. prop.
variance%")
# Printing table of eigenvalues and their contribution to the total variance
round(matlambdas,2)
# Curva de la ladera
(p=ncol(datos)-1)
plot(1:p,datos_pca$sdev^2,type="b",lty=2,
xlab="Componentes Principales",ylab="Eigenvalores o varianzas de los C.P.",
main="CURVA DE LA LADERA",col="blue")
abline(h=1,col="red",lty=3,lwd=2)
# Showing the eigenvectors

round(datos_pca$rotation,3)
# The print method below is the same as euroemp_pca$sdev and
# euroemp_pca$rotation printed together
print(datos_pca) #
# Sample scores stored in euroemp_pca$x
datos_pca$x
# Identifying the scores by country
datosty_pca <- data.frame(datos_pca$x)
datosty_pca
# Plotting the scores for the first and second components
# This plot is similar to Figure 6.2
?plot(datosty_pca$PC1, -datosty_pca$PC2, type="n",
xlab="PC1", ylab="PC2", main="Medidas en cm tomadas en 25 copas
prehistóricas en Tailandia")
text(datosty_pca$PC1, -datosty_pca$PC2,labels=rownames(datos),
cex=0.7,col=colorRampPalette(c('blue', 'red'))(25))
abline(h=0)
abline(v=0)
#
Anexo 2
Goblet X1 X2 X3 X4 X5 X6
1 13 21 23 14 7 8
2 14 14 24 19 5 9
3 19 23 24 20 6 12
4 17 18 16 16 11 8
5 19 20 16 16 10 7
6 12 20 24 17 6 9
7 12 19 22 16 6 10
8 12 22 25 15 7 7
9 11 15 17 11 6 5
10 11 13 14 11 7 4
11 12 20 25 18 5 12
12 13 21 23 15 9 8
13 12 15 19 12 5 6
14 13 22 26 17 7 10
15 14 22 26 15 7 9
16 14 19 20 17 5 10
17 15 16 15 15 9 7
18 19 21 20 16 9 10
19 12 20 26 16 7 10
20 17 20 27 18 6 14
21 13 20 27 17 6 9
22 9 9 10 7 4 3
23 8 8 7 5 2 2
24 9 9 8 4 2 2
25 12 19 27 18 5 12
Anexo 3
Country X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Albania 10 1 1 9 0 42 1 6 2 72
Austria 9 14 4 20 2 28 4 1 4 86
Belgium 14 9 4 18 5 27 6 2 4 89
Bulgaria 8 6 2 8 1 57 1 4 4 91
Czechoslovaki
a 10 11 3 13 2 34 5 1 4 83
Denmark 11 11 4 25 10 22 5 1 2 91
E.Germany 8 12 4 11 5 25 7 1 4 77
Finland 10 5 3 34 6 26 5 1 1 91
France 18 10 3 20 6 28 5 2 7 99
Greece 10 3 3 18 6 42 2 8 7 99
Hungary 5 12 3 10 0 40 4 5 4 83
Ireland 14 10 5 26 2 24 6 2 3 92
Italy 9 5 3 14 3 37 2 4 7 84
Netherlands 10 14 4 23 3 22 4 2 4 86
Norway 9 5 3 23 10 23 5 2 3 83
Poland 7 10 3 19 3 36 6 2 7 93
Portugal 6 4 1 5 14 27 6 5 8 76
Romania 6 6 2 11 1 50 3 5 3 87
Spain 7 3 3 9 7 29 6 6 7 77
Sweden 10 8 4 25 8 20 4 1 2 82
Switzerland 13 10 3 24 2 26 3 2 5 88
UK 17 6 5 21 4 24 5 3 3 88
USSR 9 5 2 17 3 44 6 3 3 92
W.Germany 11 13 4 19 3 19 5 2 4 80
Yugoslavia 4 5 1 10 1 56 3 6 3 89

P1 U2 MMIIEMariel Pedroza Guzman

Cargado por

Copyright:

Formatos disponibles

P1 U2 MMIIEMariel Pedroza Guzman

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

P1 U2 MMIIEMariel Pedroza Guzman

Cargado por

Copyright:

Formatos disponibles

CENTRO DE CIENCIAS BÁSICAS

INGENIERÍA INDUSTRIAL ESTADÍSTICA

Práctica II.1: Análisis de Componentes

Mariel Pedroza Guzmán

Lunes 3 de octubre de 2022

• Aplicar la técnica de análisis de componentes principales.

Equipo, Herramientas o Material

Las ecuaciones para los dos primeros Cp serían:

Unicamente se observa una correlación significativa que es la de (X3-X6) de

Tabla de eigenvalores y su contribución a la varianza total

Se recomienda usar 3 Cp ya que la varianza total acumulada en PC3= 71.79.

Utilizando la curva de la ladera nos sugiera dejar los 4 primeros Cp.

R (4.1.1). (2021). [Lenguaje de programación]. https://www.r-project.org/

Manly, B. F. J., & Alberto, J. N. A. (2016). Multivariate Statistical Methods: A Primer,

# Correlations between the nine industry groups (variables) (Table 6.5)

pairs(datos[-1], main = "Consumo de proteínas (g por persona por día) en 25 países

# Using prcomp to compute the principal components (eigenvalues and

# Showing the eigenvectors

También podría gustarte