Interpretation ACP
Interpretation ACP
Interpretation ACP
1- choix du nombre daxes 3- interprtation des axes 2- reprsentation graphique 4- Qualit de reprsentation 5- Synthse
On dispose de 6 variables reprsentant les taux de diffrents dlits commis pour 100000 habitants dans 20 Etats des Etats-unis. Ces donnes peuvent tre mises dans un tableau individu*variable
ETAT Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas Kentucky Louisiana Maine Maryland Meurtre 14.2 10.8 9.5 8.8 11.5 6.3 4.2 6.0 10.2 11.7 7.2 5.5 9.9 7.4 2.3 6.6 10.1 15.5 2.4 8.0 Rapt 25.2 51.6 34.2 27.6 49.4 42.0 16.8 24.9 39.6 31.1 25.5 19.4 21.8 26.5 10.6 22.0 19.1 30.9 13.5 34.8 vol 96.8 96.8 138.2 83.2 287.0 170.7 129.5 157.0 187.9 140.5 128.0 39.6 211.3 123.2 41.2 100.7 81.1 142.9 38.7 292.1 attaque 278.3 284.0 312.3 203.4 358.0 292.9 131.8 194.2 449.1 256.5 64.1 172.5 209.0 153.5 89.8 180.5 123.3 335.5 170.0 358.9 viol 1135.5 1331.7 2346.1 972.6 2139.4 1935.2 1346.0 1682.6 1859.9 1351.1 1911.5 1050.8 1085.0 1086.2 812.5 1270.4 872.2 1165.5 1253.1 1400.0 larcin 1881.9 3369.8 4467.4 1862.1 3499.8 3903.2 2620.7 3678.4 3840.5 2170.2 3920.4 2599.6 2828.5 2498.7 2685.1 2739.3 1662.1 2469.9 2350.7 3177.7
Dans la pratique, on retient en fait les q axes que lon sait interprter Rq: Critre du Scree-test : on slectionne les axes correspondant
des diffrences secondes >0 (un peu large)
Critre du coude :Dcrochement au troisime axe, puis dcroissance rgulire partir du troisime axe : seuls les deux premiers axes prsentent un ventuel intrt.
On peut dcider de ne retenir que les deux premiers axes (le premier plan factoriel) car il comprhensible par lil (cest un plan) et ne dforme pas trop le nuage (il explique 82% de linertie du nuage)
Lexamen des plans factoriels permettra de visualiser les corrlations entre les variables et didentifier les groupes dindividus ayant pris des valeurs proches sur certaines variables. Mais il faut avant de lire directement les graphiques interprter les axes et sassurer que la projection est fidele a la realite (voir d-4)
pi c 2 ik CTR (ei ) = k k
En pratique: On retient pour linterprtation les individus dont la contribution est > la contribution moyenne (>1/n), le sens de la contribution dpend du signe de cik. CP (poids gaux ): les individus contribuent dautant + que cik grand en v.a. Contribution importante :
c > ik k
CTR ( X j ) = =u k jk k
En pratique: On retient pour linterprtation les variables dont la contribution le sens de la est > la contribution moyenne (>1/p), u > 1/ p jk contribution dpend du signe de ujk. CP en ACP norme, ce sont les variables qui sont proches du bord du cercle qui contribuent le plus : d = r (C , X ) jk k j
c > 1 = 1,86 i1
Iowa Maine Kentucky Idaho Connecticut Arkansas Indiana Kansas Alabama Illinois Hawaii Georgia Delaware Louisiana Alaska Maryland Colorado Arizona Florida California
u jk > 1/ p = 0, 408
Variables :
+
Californie, Floride Arizona, Maryland, Colorado
+
rapt, attaque, vol et viol
Conclusion : Laxe 1 isole les dlits rapt, attaque, vol et viol. En ralit, isole lensemble des variables sur sa partie positive (effet taille). Cest un axe taux de dlits en tout genre. : il oppose les tats de Iowa, Maine, Kentuky, Idaho aux tats de Californie, Floride Arizona, Maryland, Colorado, marqus par une forte proportion de dlits.
acp$scores[,2] Alabama Alaska Arizona Arkansas California Colorado 2.17292554 0.60952764 -1.52470179 1.12678123 0.17439369 -1.26030699 Connecticut Delaware Florida Georgia Hawaii Idaho -0.96866341 -1.41908466 0.03328554 1.32028630 -1.98104269 -0.32756870 Illinois Indiana Iowa Kansas Kentucky Louisiana 0.55468133 0.15803896 -1.11283017 -0.33854617 1.27374136 2.23289720 Maine Maryland -1.01257392 0.28875974
u jk > 1/ p = 0, 408
> loadings(acp)[,2] Meutre Rapt Vol Attaque Viol Larcin 0.6488797 0.1349197 0.0450971 0.2879586 -0.4119546 -0.5532552
Individus
Variable
+
Kentuky, Alabama, Gorgie, Louisiane
Vol larcin
+
meurtre
c ik qlt k ( ei ) = cos ( ik ) = ei
ei = cik
k =1 p
Lorsque langle est proche de 0, c'est--dire que le cosinus est proche de 1, lindividu est bien reprsent. Dans le cas inverse, langle est proche de 90 et le cosinus est proche de 0.
qltk ( X j ) = cos ( kj ) =
En ACP norme,
d jk Xj
qltk ( X j ) = d jk = r (Ck , X j )
une variable est dautant mieux reprsente sur un axe quelle est proche du bord du cercle des corrlations et de laxe, dautant plus mal reprsente quelle est proche de lorigine.
les variables qui contribuent le plus laxe sont aussi celles qui sont le mieux reprsentes et inversement, donc pas besoin dtude spcifique de la reprsentativit.
Variables: idem. En ACP norme, on interprte les proximits de variables bien reprsentes sur le plan i.e. proches du bord du cercle de corrlations
D-5 Synthse
Dfinition des composantes principales Synthse globale des proximits des points sur les plans factoriels. Construction ventuelle du tableau rduit C de dimension n*q : ses lignes sont les valeurs prises par les n individus sur les q composantes principales retenues. La k composante principale aura la mme signification que le k axe.
D-6 Exemple
ETAT Iowa Maine Kentucky Idaho Connecti Arkansas Indiana Kansas Alabama Illinois Hawaii Georgia Delaware Louisian Alaska Maryland Colorado Arizona Florida Californ Prin1 -3.08934 -2.34364 -2.17767 -1.91969 -1.47135 -1.35301 -1.07052 -1.04117 -0.46221 -0.15469 0.00534 0.11528 0.29111 0.71862 1.33963 1.87662 1.91888 2.39884 2.79934 3.61964 Prin2 -1.08465 -0.98693 1.24149 -0.31927 -0.94414 1.09825 0.15404 -0.32997 2.11791 0.54064 -1.93088 1.28686 -1.38315 2.17636 0.59409 0.28145 -1.22840 -1.48610 0.03244 0.16998 QLT1 0.85597 0.73178 0.71555 0.86602 0.59764 0.54374 0.75524 0.90431 0.03970 0.01044 0.00000 0.00694 0.03901 0.08889 0.31012 0.50093 0.65410 0.59333 0.86745 0.93149 QLT2 0.10551 0.12977 0.23256 0.02395 0.24608 0.35826 0.01564 0.09083 0.83364 0.12747 0.62744 0.86522 0.88054 0.81527 0.06099 0.01127 0.26806 0.22771 0.00012 0.00205
D-6 Exemple
>x=acp$loadings >QLT=x^2/matrix(rep(apply(x^2,1,sum),ncol(x^2)),dim(x^2));QLT[,1:2]
Comp.1 Comp.2 Alabama 3.970450e-02 0.8336393299 Alaska 3.101184e-01 0.0609914688 Arizona 5.933328e-01 0.2277146491 Arkansas 5.437433e-01 0.3582567065 California 9.314876e-01 0.0020541441 Colorado 6.541030e-01 0.2680578029 Connecticut 5.976402e-01 0.2460799462 Delaware 3.900634e-02 0.8805363057 Florida 8.674495e-01 0.0001165112 Georgia 6.943376e-03 0.8652185301
D-6 Exemple
Qualit de reprsentation des individus sur le plan principal
Iowa Maine Kentucky Idaho Connecti Arkansas Indiana Kansas Alabama Illinois Hawaii Georgia Delaware Louisian Alaska Maryland Colorado Arizona Florida Californ 0,85597 0,73178 0,71555 0,86602 0,59764 0,54374 0,75524 0,90431 0,0397 0,01044 0 0,00694 0,03901 0,08889 0,31012 0,50093 0,6541 0,59333 0,86745 0,93149 0,10551 0,12977 0,23256 0,02395 0,24608 0,35826 0,01564 0,09083 0,83364 0,12747 0,62744 0,86522 0,88054 0,81527 0,06099 0,01127 0,26806 0,22771 0,00012 0,00205 0,96148 0,86155 0,94811 0,88997 0,84372 0,902 0,77088 0,99514 0,87334 0,13791 0,62744 0,87216 0,91955 0,90416 0,37111 0,5122 0,92216 0,82104 0,86757 0,93354
D-6 Exemple
Etat
Prin1 -3.08934 -2.34364 -2.17767 -1.91969 -1.47135 -1.35301 -1.07052 -1.04117 -0.46221 -0.15469 0.00534 0.11528 0.29111 0.71862 1.33963 1.87662 1.91888 2.39884 2.79934 3.61964
Prin2 -1.08465 -0.98693 1.24149 -0.31927 -0.94414 1.09825 0.15404 -0.32997 2.11791 0.54064 -1.93088 1.28686 -1.38315 2.17636 0.59409 0.28145 -1.22840 -1.48610 0.03244 0.16998
Tableau C
Iowa Maine Kentucky Idaho Connecticut Arkansas Indiana Kansas Alabama Illinois Hawaii Georgia Delaware Louisiana Alaska Maryland Colorado Arizona Florida California
E- Limites
Principale faiblesse de lACP: sensibilit aux points extrmes. Ce manque de robustesse est notamment lie au rle central qu'y joue le coefficient de corrlation : les points extrmes, en perturbant les moyennes et corrlations, polluent fortement l'analyse - on peut cependant envisager de les dplacer en point supplmentaire. l'ACP est inadapte aux phnomnes non linaires qui plus est en grande dimension. Pour ce genre de problme, d'autres mthodes ont t dveloppes, comme l'ACPN (Analyse en Composantes Principales par Noyau).