Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Conteúdo 8 - A Análise de Correspondência AC

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 24

Análise Multivariada

Aula 8: Análise de Correspondência (AC)

Prof. Admir Antonio Betarelli Junior

Juiz de Fora
AC
 Técnica exploratória que busca identificar associações
entre variáveis categóricas (ao invés de contínuas).

 Representação geométrica das correspondências


(similaridades) existentes em uma tabela de frequência.

 Possui duas ou múltiplas entradas, não negativas.

 Reduz as dimensões originais dos dados em ortogonais.

 Dependendo do no. Variáveis, os escores gerados para


as dimensões podem ser tratados como var. contínuas.
Quando usá-la?
 Quando a preocupação principal é a redução do número
de dimensões entre as correspondências das variáveis
categóricas e que ainda possa representar bem a
estrutura de dados originais.

 Tem por principais objetivos:

 redução dos dados.

 transformações.
Versão simples (2 variáveis)
Tabela de contingência (frequência) - N
Y
Total
1 2 ... J
1 n11 n12 ... n1j n1+ J
ni    nij
2 n21 n22 ... n2j n2+ j 1
Z
: : : : : :
I nI1 nI2 ... nIJ nI+
Total n+1 n+2 ... n+J n++= 1

Z (variável linha) com I categorias. I J I


n j    nij n    nij
Y (variável coluna) com J categorias. i 1 j 1 i 1
Versão simples (2 variáveis)
Matriz de correspondência – P

Y Total
1 2 ... J (r)
1 p11 p12 ... p1j p1+
2 p21 p22 ... p2j p2+
Z
: : : : : :
I pi1 pi2 ... pij pI+
Total (c) p+1 p+2 ... p+J p++= 1

nij
pij 
n 
Versão simples (2 variáveis)
 Três conceitos básicos:

1. Frequências relativas marginais ou massas:

Vetor de massas de linha: r  [r1 , r2 ,..., rI ]  [ p1 , p2 ,..., pI  ]

Vetor de massas de coluna: c  [c1 , c2 ,..., c I ]  [ p 1 , p  2 ,..., p  J ]

2. Perfis:

Perfil linha: ai  pij / pi  

Perfil coluna: bi  pij / p j 


Versão simples (2 variáveis)
 Três conceitos básicos:

3. Centroides dos perfis:


I
Linha: c  [ p 1 , p 1 ,..., p  J ] , pois c   ri ai ou c  Ar .
i 1

Se c  Ar e D r 1  diag1 / r , então A  D r 1 P , coordenadas


principais das linhas oriundas da matriz P.
J
Coluna: r  [ p1 , p2 ,..., pI  ] , pois r   c j b j ou r  Bc .
j 1

Se r  Bc e Dc1  diag1 / c , então B  Dc1P , coordenadas


principais das colunas da matriz P.
Versão simples (2 variáveis)
 AC busca uma representação gráfica de linhas e colunas
de uma matriz P em um espaço de menor dimensão.

 Por um problema de mínimos quadrados ponderados


busca-se selecionar Pˆ  p̂ij , uma matriz de posto
reduzido que minimiza:
 pij  pˆ ij 
  
I J

 
 rc
i 1 j 1 
  tr D r 1 / 2 (P  Pˆ )D c1 / 2 D r 1 / 2 (P  Pˆ )D c1 / 2

i j 
pij  pˆ ij
D 1 / 2
r (P  Pˆ )D 1 / 2
c
ri c j
 1   1 
tal que: D r 1 / 2  diag ; c
D 1 / 2
 diag  ;
 r  c
Versão simples (2 variáveis)
Pˆ  rc é a melhor aproximação de posto 1 para P pela
 _____
decomposição de valor singular generalizado.
s s
~ ~ 1/ 2 ~
P   k (D u
~ )( D1 / 2 ~
k
1/ 2
rc v k )   rc    k r k c v k )
 ( D u )( D1/ 2 ~

k 1 k 2

s
~
P  rc   k (D1r / 2 u
~ )( D1 / 2 ~
k c vk )

k 1

T  D r 1 / 2 Pˆ D c1 / 2  UΛV 


  
Pˆ  D1r / 2 U Λ D1c/ 2 V  UU  VV  1

Coordenadas principais r Coordenadas principais c


Versão simples (2 variáveis)
 Na AC é usual plotar as seguintes coordenadas principais:

 Coordenadas principais das linhas:

u 
~

R  D r 1 (D1r / 2 U) Λ  D r 1 / 2 UΛ  tal que ~
rik  ik k
ri

 Coordenadas principais das colunas:

v jk k
~

C  D c1 (D1c/ 2 V) Λ  D c1 / 2 VΛ  ~
tal que c jk 
cj
Versão simples (2 variáveis)
 Deve-se decidir a escala das coordenadas
(normalização):

 se quer analisar os perfis linha, perfis coluna ou ambos


(coordenadas simétricas).

u ik (k ) v jk (k1 )
~
rik( )  c~ ( )
jk 
ri cj

 Se   1 (linhas);   0 (colunas);   1 / 2 (simetria).


Versão simples (2 variáveis)
 A inercia total principal da matriz P é:
(nij  Eij )
2
min(I 1, J 1)
~  2
1

k 1
k2 
n
 
n i, j Eij
Eij é a frequência esperada das observações na célula (i,j) , sob
a hipótese os elementos das variáveis (Z,Y) sejam homogêneos.
 J nij  I nij  2 ( pij  ri c j )
2

Eij  nri c j  n   



 
 j 1 n  i 1 n  n i, j ri c j
Essa estatística pode ser interpretada como a diferença dos
perfis linha (ou coluna) aos seus respectivos centroides.
I

d (ai , c)  n ri ai  c  D c1 ai  c 
i 1
Versão simples (2 variáveis)
 é possível computar a proporção acumulada de d dimensões
selecionadas por:
d
~
 k2
k 1
min(I 1, J 1)
~

k 1
k2

 O maior “autovalor” e “autovetores” associados expressam a


maior parte da variabilidade do sistema.

 Escolha em torno de 90% da inércia total. Os autovalores


maiores que 0,20 devem ser incluídos na análise.
Versão simples (2 variáveis)
 As distancias entre os perfis (e.g., de linha):


d (a1 , a 2 )  a1  a 2  D c1 a1  a 2 

 Em suma, AC busca uma representação gráfica de linhas


e colunas de uma matriz com entradas não negativas em
um espaço de menor dimensão de maneira que as
distâncias chi-quadrado entre os perfis linha e entre
perfis colunas são bem aproximadas por uma distância
euclidiana
Versão simples (2 variáveis)
 Qualidade de aproximação das categoriais (linha e
coluna).
 Se for baixo, o número escolhido de dimensões não
representa bem a respectiva linha (ou coluna).
d
ri
 ik
~ cj d
  ik
~2
(r ) 2
qi J
r q (c)
 c
t
j I

t
2 k 1 2 k 1
ij ij
j 1 i 1

 Se d  min( I  1, J  1) , então qi( r )  1  q (jc ).


Versão simples (2 variáveis)
 Contribuição relativa (linha e coluna).
 Quais as categorias que mais contribuem para
expressar a inércia total por dimensões, ou as
dimensões que mais contribuem para expressar a
inércia por categorias.
ri ~
rik2 c j c~jk2
g ik( r )  ~2 g (jkc )  ~2
k k

I J

g
i 1
(r )
ik  1   g (jkc )
j 1
AC MÚLTIPLA E CONJUNTA (ACM)
 Uma extensão da versão simples porém para mais de
2 variáveis categóricas.
 Existem:
 Matriz indicadora;
 Matriz Burt;
 Conjunta (modificação da matriz Burt).
AC MÚLTIPLA E CONJUNTA (ACM)
 Matriz Indicadora: X
Obs. w1 w2 x1 x2 y1 y2
1 1 0 1 0 1 0
2 0 1 1 0 1 0
3 0 1 0 1 1 0
4 1 0 0 1 0 1
5 1 0 0 1 0 1
6 1 0 1 0 0 1
7 0 1 0 1 1 0
8 1 0 0 1 1 0
9 1 0 1 0 0 1
10 1 0 1 0 1 0
Total 7 3 5 5 6 4
 Se houver muitas obs, o metédo é inviável.
AC MÚLTIPLA E CONJUNTA (ACM)
 Matriz Burt : B  XX
w1 w2 x1 x2 y1 y2
w1 7 0 4 3 3 4
w2 0 3 1 2 3 0
x1 4 1 5 0 3 2
x2 3 2 0 5 3 2
y1 3 3 3 3 6 0
y2 4 0 2 2 0 4
 O total de observações nas categorias w1 e w2 é 10, ou seja,
w1+w2=7+3=10 (=no. obs).
 Combinação entre as categorias de uma variável exibe valores
nulos. (vermelho)
AC MÚLTIPLA E CONJUNTA (ACM)
 Matriz de correspondência a partir a matriz Burt:
J J
P  pkh 
b
pkh  kh b    bkh
b  k 1 h 1

 Vetor de massas de coluna:


J
c  [c1 , c2 ,..., c J ]  [b1 , b 2 ,...,b J ] c h   p kh
k 1

 Pode-se calcular a matriz simétrica:


S  P  cc

 A decomposição de valor singular:


AC MÚLTIPLA E CONJUNTA (ACM)
 A decomposição de valor singular:
S  VΦV 1  2  ...

 As coordenadas principais das colunas:


A  Dc1V

 A inércia principal (não-ajustada): t2  t2


2 2
 q   2 1
 A inércia principal (ajustada): tadj     t  
 q 1  q
 O total da inércia principal:
2
 q  ( J  q)
tadj    t t2 
 q 1 q2
AC MÚLTIPLA E CONJUNTA (ACM)
 Os resultados em AMC são idênticos aos resultados para as
coordenadas de coluna na versão simples da matriz
indicadora.
 A interpretação dos valores das coordenadas, dos valores
de qualidade e outras estatísticas são similares, porém se
referindo à inércia total associada à matriz B.
AC MÚLTIPLA E CONJUNTA (ACM)
 Correspondência conjunta (ACJ).
 Uma vez que tanto a matriz indicadora quando à Burt
inflam artificialmente as distâncias qui-quadrado entre os
perfis coluna e a inércia total (GOWER, 2006),
 a ACJ busca corrigir esse problema ao considerar somente
os elementos fora da diagonal da matriz Burt.
 Tal técnica baseia-se em um método interativo de mínimos
quadrados, que inicia a partir de uma matriz B 0  B .
AC MÚLTIPLA E CONJUNTA (ACM)
 Tal algoritmo executa m interações, de maneira que em
cada uma delas os elementos fora da diagonal são
substituídos pelos elementos da matriz de aproximação.
 Essas interações interrompem até que as matrizes Bm e
Bm-1 sejam inexpressivas (convergência de solução).
 A inércia total da matriz Burt modificada é definida como as
somas das inércias de elementos fora da diagonal principal.
 Cada elemento da matriz de aproximação em cada
interação m é determinado como: f
 
bˆhk  b  c h c k 1   t2 a ht a kt 
 t 1 

Você também pode gostar