Chapitre ACP
Chapitre ACP
Chapitre ACP
M2 Marketing
Pour ce faire, on remplace les variables initiales par un nombre plus restreint de variables dites composites (ou facteurs ), obtenues par regroupement des variables initiales les plus corrles entre elles.
Cela ncessite : 1. Un nombre dindividu suprieur 15 2. Quil y ait plus dindividus que de variables
M2 Marketing Universit Paris 1 Panthon-Sorbonne 5 Cours de M. Eric Lombardot
Lanalyse factorielle peut aussi servir de phase intermdiaire de calcul avant dutiliser dautres mthodes.
M2 Marketing Universit Paris 1 Panthon-Sorbonne 6 Cours de M. Eric Lombardot
M2 Marketing
LACP consiste regrouper des variables quantitatives (ge en annes, salaire en euros, etc. ou en marketing, chelles de proportion ou dintervalle). Ces variables sont : Au moins centres : dans ce cas lanalyse factorielle repose sur la matrice des variances-covariances on accordera alors beaucoup dimportance aux variables les plus disperses
Ou centres-rduites : dans ce cas lanalyse factorielle repose sur la matrice des corrlations r entre variables
M2 Marketing Universit Paris 1 Panthon-Sorbonne 10 Cours de M. Eric Lombardot
Individus ou objets
M2 Marketing
Soient X et Y deux variables qualitatives ayant respectivement xn et ym modalits. Exemple : X : boissons consommes et Y : rgion dhabitation
Le tableau de contingence K form partir de ces deux variables aura autant : de lignes que la variable X a de modalits (n) (exemple : coca, jus de fruit, bire, vin, whisky, etc)
et autant de colonnes que la variable Y a de modalits (m) (exemple : Ile-de-France, Bretagne, etc.).
15 Cours de M. Eric Lombardot
M2 Marketing
x1 K x i ki , j ( n ,m ) xn
Les individus napparraissent quau travers de leurs effectifs. Chaque chiffre correspond 1 individu.
16 Cours de M. Eric Lombardot
7.2. ACP
Pour simplifier la dmarche, nous pouvons la dcomposer en 4 tapes (aprs avoir supprim de lanalyse les ventuelles donnes aberrantes) : 1. Formulation du problme
M2 Marketing
7.2. ACP
Etape 1 : Formuler le problme Il sagit de dterminer les objectifs de lanalyse factorielle qui va tre mene. Les variables considres pour lanalyse doivent tre choisies sur la base de recherches pralables (tre justifies, que ce soit par la littrature ou par une phase qualitative par exemple). On utilise des donnes quantitatives brutes ou des chelles dintervalles ou de ratio (ayant mme nombre dchelons ou tant standardises). Le nombre dindividus est gnralement 4 5 fois + grand que le nombre de variables. Si lchantillon est petit, ce rapport est + faible et les rsultats doivent tre interprts avec prudence.
M2 Marketing Universit Paris 1 Panthon-Sorbonne 18 Cours de M. Eric Lombardot
Il sagit d1 tude qui porte sur les avantages fondamentaux recherchs par les consommateurs lors de lacaht dun dentifrice. Le sondage est ralis dans 1 centre commercial auprs d1 chantillon de 30 personnes, qui ont donn leur avis sur les affirmations suivantes, sur 1 chelle de 1 (en total dsaccord) 7 (entirement daccord) mme nombre dchelons
V1 : Il est important dutiliser 1 dentifrice qui prvient la formation des caries. V2 : Un dentifrice doit rendre les dents brillantes. V3 : Un dentifrice doit renforcer les gencives.
7.2. ACP
Etape 2 : Vrification des corrlations Le processus de lACP repose sur une matrice des corrlations (ou des covariances, selon que les donnes sont rduites ou non). Pour que lanalyse soit pertinente, il est ncessaire que les variables soient corrles. Des variables qui sont fortement corrles avec le(s) mme(s) facteur(s) sont supposes tre galement fortement corrles entre elles. Une premire mthode consiste examiner la matrice des corrlations. Analyse Factorisation Analyse factorielle Puis menu caractristiques cliquez sur matrice des corrlations coefficients
M2 Marketing Universit Paris 1 Panthon-Sorbonne 20 Cours de M. Eric Lombardot
7.2. ACP
Matrice de corrlation prvention caries -,858 ,020 -,778 -,007 1,000 -,136 caries 1,000 -,053 ,873 -,086 -,858 ,004 brillance -,053 1,000 -,155 ,572 ,020 ,640 gencives ,873 -,155 1,000 -,248 -,778 -,018 haleine -,086 ,572 -,248 1,000 -,007 ,640 belles dents ,004 ,640 -,018 ,640 -,136 1,000
Corrlation
De nombreux coefficients de corrlation (r) sont assez forts (>0,4 en v.a.) ce qui laisse supposer que lanalyse est pertinente.
Les corrlations entre V1, V2, V3 et V5 sont relativement fortes : on peut sattendre ce que ces variables soient corrles aux mmes groupes de facteurs. Il en est de mme pour V2, V4 et V6.
M2 Marketing Universit Paris 1 Panthon-Sorbonne 21 Cours de M. Eric Lombardot
7.2. ACP
Pour tre + rigoureux, il est utile de raliser un test de sphricit de Barlett et une mesure de lindice dadquation de Kaiser-Meyer-Olkin. Dans le mme menu caractristiques cliquez sur matrice des corrlations indice KMO et test de Barlett
Indice KMO et test de Bartlett Mesure de prcision de l'chantillonnage de Kaiser-Meyer-Olkin. Test de sphricit de Bartlett Khi-deux approch ddl Signification ,660 111,314 15 ,000
22 Cours de M. Eric Lombardot
M2 Marketing
7.2. ACP
Le test de sphricit de Barlett teste lhypothse nulle H0 selon laquelle les variables ne sont pas corrles dans la population ( est-il possible de mener 1 ACP ?). Dans une matrice identit, tous les termes de la diagonales sont gaux 1, et tous les autres 0. CE test sappuie sur 1 transformation du khi-2 du dterminant de la matrice des corrlations. Une valeur leve au vu du nombre de ddl (ou plus simplement 1 probabilits associe faible c-a-d < 5%) permet de rejeter H0.
Dans le tableau prcdent, la valeur du khi-2 est de 111,314 pour 15 ddl, soit une probabilit derreur de 0,000 H0 est rejete, il est pertinent de poursuivre lanalyse.
23 Cours de M. Eric Lombardot
M2 Marketing
7.2. ACP
Le test de Kaiser-Meyer-Olkin (KMO) compare les grandeurs des coefficients de corrlation observs aux grandeurs des coefficients de corrlation partielle. De petites valeurs de cet indice indiquent que les corrlations entre paires de variables ne peuvent pas tre expliques par dautres variables et que lanalyse factorielle peut ne pas tre pertinente ( est-il intressant de mener 1 ACP ?).
On estime gnralement quune valeur > 0,5 est satisfaisante. La valeur du test KMO que nous avons obtenue est de 0,660, ce qui est suffisament lev. Lanalyse factorielle apparat donc bien approprie pour lanalyse de la matrice des corrlations (mme nombre dchelons pour chaque chelle).
M2 Marketing Universit Paris 1 Panthon-Sorbonne 24 Cours de M. Eric Lombardot
7.2. ACP
Etape 3 : Dtermination du nombre daxes retenir Il est possible de calculer autant de composantes principales (ou axes ou facteurs ) quil y a de variables, mais dans ce cas nous naboutirions aucune synthse de linformation. Rappel : le but est rsumer linformation. Un petit nombre de facteurs doit donc tre extrait. + on retient daxes, plus la variance restitue est importante, mais moins lanalyse est synthtique et donc dlicate interprte. En outre, le premier facteur est celui qui restitue le maximum de la variance totale des variables originales (ce qui fonde la diffrence entre les individus). Le deuxime facteur est celui qui restitue le maximum de variance restante, etc. Rapidement, lajout dun axe supplmentaire prsente un intrt limit en terme dapport dinformation. 25
M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric Lombardot
Avant de poursuivre la dmarche de dtermination du nombre optimal daxes retenir (et lancer lanalyse), prcisons quil est prfrable de raliser une rotation des axes factoriels. Cette rotation naffecte ni les communalits, ni le pourcentage de la variance totale explique, mais modifie le % de variance correspondant chaque facteur (et donc les valeurs propres).
Le tableau des corrlations entre variables et facteurs (la matrice factorielle ou matrice des composantes) est au cur de lanalyse factorielle. Il prsente des coefficients qui expriment les variables centres standardises en fonction des facteurs. Ces coefficients (ou poids factoriels ou loadings) reprsentent les corrlations existantes entre les facteurs et les variables. Un coefficient lev (en v.a.) indique que le facteur et la variable sont troitement corrls, ou encore que la variable apporte beaucoup de sens au facteur. Or, cette matrice factorielle, sans rotation, permet rarement daboutir des facteurs pouvant tre 26 interprts, puisquils son corrls avec plusieurs variables.
Composante 1 2 ,928 ,253 -,301 ,795 ,936 ,131 -,342 ,789 -,869 -,351 -,177 ,871
Par exemple, si lon retient 2 facteurs, il ressort que le facteur 1 est corrl avec 5 variables (v.a. > 0,3) et le facteur 2 avec 4. Il serait trs difficile avec 1 telle matrice dinterprter les rsultats
La rotation permet de transformer la matrice factorielle en une matrice + simple et + facile interprter. Lobjectif est que les facteurs aient 1 coefficient non nul ou significatif pour quelques variables. Dans le mme temps, on voudrait que chaque variable ait une corrlation non nulle ou significative avec seulement quelques facteurs (1 seul si possible). La rotation maximise les saturations les plus fortes et minimise les plus faibles. 2 grans types sont utiliss en sciences sociales : 27
- La rotation orthogonale (dont les plus frquemment employes sont VARIMAX et QUARTIMAX ) est utilise lorsque lon pense dterminer des facteurs indpendants les uns des autres. Cette solution est prfrable car elle indique que chaque facteur apporte une information unique, non partage par un autre facteur. Cependant, cette solution est rarement possible en Sciences Sociales, car il existe gnralement des liens conceptuels entre les facteurs.
-La rotation oblique (OBLIMIN) permet une corrlation entre les facteurs. Comme elle correspond mieux la ralit, cest elle qui est gnralement utilise en Sciences Sociales. Cest aussi celle que nous avons retenue pour notre exemple.
28
7.2. ACP
Pour savoir combien daxes retenir, plusieurs mthodes existent et sont complmentaires : La dtermination a priori : il arrive que le charg dtude sache lavance combien daxes retenir, sil sagit par exemple dune tude trs classique .
Dans ce cas l, sous SPSS, dans le menu extraction , on peut spcifier directement le nombre daxes retenir.
M2 Marketing
7.2. ACP
Lexamen des valeurs propres : si le nuage de points initial navait pratiquement aucune direction privilgie, la variance restitue par le premier facteur serait denviron 100/p (o p est le nombre initial de variables). Pour conserver un facteur, il faut que la variance quil restitue soit nettement suprieure cette restitution au hasard . Le seuil communment admis pour retenir un facteur est de deux fois la quantit 100/p. Le point de dpart de lanalyse tant la matrice des corrlations, les facteurs retenus sont ceux dont les valeurs propres sont suprieures 1. Cette rgle de dcision est galement appele rgle de Kaiser . Cependant, cette mthode nest pas satisfaisante lorsque le nombre de variables est infrieur 20 (comme ici). La valeur 1 est plus un seuil en dessous duquel il ne faut pas descendre, mais qui ne signifie pas quune fois franchit laxe ne doit ncessairement tre retenu. 30
M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric Lombardot
7.2. ACP
Variance explique totale Valeurs propres initiales Sommes des carrs charges % de la % de la Composante Total variance == % cumuls Total variance == % cumuls 1 2,731 45,520 45,520 2,731 45,520 45,520 2 2,218 36,969 82,488 2,218 36,969 82,488 3 ,442 7,360 89,848 ,442 7,360 89,848 4 ,341 5,688 95,536 ,341 5,688 95,536 5 ,183 3,044 98,580 ,183 3,044 98,580 6 8,521E-02 1,420 100,000 8,521E-02 1,420 100,000 Mthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrles, les sommes des carrs chargs ne peuvent pas tre additionns pour obtenir une variance totale. Somme des carrs Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508
Dans notre exemple, si lon retient les valeurs propres > 1, alors nous devons retenir 2 axes factoriels.
M2 Marketing Universit Paris 1 Panthon-Sorbonne 31 Cours de M. Eric Lombardot
7.2. ACP
Lexamen de la courbe des valeurs propres : la variance restitue par chaque facteur va en diminuant. Cette rgle de dcision consiste chercher le premier facteur dont llimination consiste une perte dinformation minimum. Lexamen de la courbe des valeurs propres (fournie par SPSS) conduit la recherche dun point dinflexion et llimination des facteurs situs aprs ce point. Il est dmontr de faon exprimentale que le point o commence le changement de concavit est rvlateur du nombre de facteurs. Cette mthode peut aboutir retenir + de facteurs quavec la mthode des valeurs propres.
M2 Marketing Universit Paris 1 Panthon-Sorbonne 32 Cours de M. Eric Lombardot
7.2. ACP
Graphique des valeurs propres
3,0
2,5
2,0
1,5
1,0
Le test de coude montre un net dcrochement partir de 3 facteurs. Il inciterait donc retenir 3 axes factoriels.
,5
0,0 1 2 3 4 5 6
Numro de composant
M2 Marketing
7.2. ACP
Le minimum de variance totale restitue : le chercheur fixe lavance un seuil de variance quil veut restituer. Il retient ensuite le nombre daxes ncessaires pour atteindre ce seuil. Si, dans les sciences dures un seuil de 95 % est fix, un seuil de 60 % est gnralement accept en marketing et plus largement en sciences sociales.
Variance explique totale Valeurs propres initiales Sommes des carrs charges % de la % de la Composante Total variance == % cumuls Total variance == % cumuls 1 2,731 45,520 45,520 2,731 45,520 45,520 2 2,218 36,969 82,488 2,218 36,969 82,488 3 ,442 7,360 89,848 ,442 7,360 89,848 4 ,341 5,688 95,536 ,341 5,688 95,536 5 ,183 3,044 98,580 ,183 3,044 98,580 6 8,521E-02 1,420 100,000 8,521E-02 1,420 100,000 Mthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrles, les sommes des carrs chargs ne peuvent pas tre additionns pour obtenir une variance totale. Somme des carrs Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508
M2 Marketing
7.2. ACP
Le minimum de variance totale restitue : le chercheur fixe lavance un seuil de variance quil veut restituer. Il retient ensuite le nombre daxes ncessaires pour atteindre ce seuil. Si, dans les sciences dures un seuil de 95 % est fix, un seuil de 60 % est gnralement accept en marketing et plus largement en sciences sociales.
Variance explique totale Valeurs propres initiales Sommes des carrs charges % de la % de la Composante Total variance == % cumuls Total variance == % cumuls 1 2,731 45,520 45,520 2,731 45,520 45,520 2 2,218 36,969 82,488 2,218 36,969 82,488 3 ,442 7,360 89,848 ,442 7,360 89,848 4 ,341 5,688 95,536 ,341 5,688 95,536 5 ,183 3,044 98,580 ,183 3,044 98,580 6 8,521E-02 1,420 100,000 8,521E-02 1,420 100,000 Mthode d'extraction : Analyse des principaux composants. a. Lorsque les composantes sont corrles, les sommes des carrs chargs ne peuvent pas tre additionns pour obtenir une variance totale. Somme des carrs Total pour la 2,453 a rotation 1,765 1,806 1,839 2,360 2,508
M2 Marketing
7.2. ACP
Etape 4 : Interprtation des axes factoriels
Une fois les vrifications pralables opres, le choix de rotation ralis (oblimin) et le nombre daxes factoriels dtermin (2), il reste interprter les axes factoriels. Ces variables composites sont les dimensions latentes du phnomne tudi. Pour linterprtation, il est ncessaire de revenir aux items initiaux et de dterminer leur importance dans la formation des facteurs (et ventuellement de supprimer certains items de lanalyse). Les deux indicateurs utiliss sont les coefficients de corrlation et les communalits.
Il est parfois ncessaire ce stade de fixer sous SPSS le nombre daxes factoriels (2) que lon souhaite retenir, sil ne sagit pas de la solution propose par dfaut par le logiciel. 36
M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric Lombardot
7.2. ACP
Les coefficients de corrlation entre variables initiales et facteurs (galement appels poids factoriels ou loadings) : plus la corrlation entre 1 variable et 1 facteur est leve, plus ctte variable apporte du sens au facteur. Idalement pour linterprtation, une variable contribue fortement un facteur (valeur > 0,5 ou 0,6 en v.a.) et faiblement aux autres facteurs (valeurs < 0,3 en v.a). Remarque : puisquune rotation a t effectue, on sintresse maintenant directement aux poids factoriels aprs rotation.
M2 Marketing
7.2. ACP
a Matrice des types
Le facteur 2 est reprsent par Mthode d'extraction : Analyse en composantes principales. les variables brillance, haleine Mthode de rotation : Oblimin avec normalisation de Kaiser. et belles dents.
a. La rotation a converg en 3 itrations.
Composante 1 2 caries ,962 8,529E-05 brillance -3,37E-02 ,848 gencives ,931 -,120 haleine -7,47E-02 ,852 prvention caries -,937 -,110 belles dents ,108 ,888
Le facteur 1 oppose caries/gencives prvention caries (qui est code dans lautre sens).
Un dentifrice semble a priori tre achet pour 2 raisons principales : soit sant (caries/gencives) soit pour des attentes plus sociales (brilance/belles dents ou haleine frache). 38
M2 Marketing Universit Paris 1 Panthon-Sorbonne Cours de M. Eric Lombardot
7.2. ACP
Les communalits : elles valuent la qualit de reprsentation des variables par les facteurs ( les variables sont-elles bien reprsentes dans la solution factorielle retenue ?). Les variables qui prsentent des communalits faibles (moins de 0,5) sont supprimes de lanalyse (cest-dire que moins de la moiti de la variance initiale de la variable est conserve par la solution factorielle).
Qualit de reprsentation Initial 1,000 1,000 1,000 1,000 1,000 1,000 Extraction ,926 ,723 ,894 ,739 ,878 ,790
M2 Marketing
7.2. ACP
Il est frquent, lorsque lon mne 1 ACP de faire un tri dans les variables. On limine celles qui ne rpondent pas aux critres de corrlation et de qualit de reprsentation. On les supprime dans ce cas 1 par 1, en refaisant tourner lanalyse chaque fois, jusqu obtention d1 solution satisfaisante. Lanalyse peut tre complte par 1 reprsentation graphique des diffrentes variables.
M2 Marketing
Reprsentation graphique des variables : rs rotation Diagramme de composantes dans l'espace aprs
1,0 belles dents haleine brillance
,5
caries gencives
-,5
Composante 1
41
En plus du simple diagramme permettant dinterprter les axes factoriels, il est possible de reprsenter graphiquement les individus (colonne 1). Cration de 2 nouvelles variables partir des facteurs : Analyse > Factorisation > Analyse Factorielle
2,0 18,00 13,00 8,00 3,00 11,001,00 6,00 27,00 25,00 16,00 17,00 22,00 7,00 4,00 14,00 29,00 24,00 26,00
1,5
1,0
,5
0,0
20,00 -,5 9,00 23,00 19,00 12,00 2,00 21,00 15,00 30,00 -1 0 1 28,00
10,00 2
43
Dans notre exemple, ceci prsente peu dintrt. Cependant, si lon avait t renseign sur la marque consomme par ces diffrents individus, ce graph complmentaire aurait t beaucoup plus intressant. Ajoutons 1 colonne conso cense reprsente la marque de dentifrice consomme par lindividu interroge. On code (affichage des variables valeurs) 1:Sanogyl 2:parogencyl
3:fluocaril
4:tonigencil 5:colgate
On ralise un nouveau graph, mais cette fois on va tiqueter les observations par marque consomme.
Remarque : on peut de la mme manire faire apparatre les variables de notre choix sur la graph.
44
6:signal
7:rembrandt 8:ultrabrite
2,0 rembrandt rembrandt rembrandt rembrandt rembrandt Marques rembrandt rembrandt sociales ultrabrite ultrabrite ultrabrite ultrabrite ultrabrite ultrabrite sanogyl parogencyl sanogyl parogencyl fuocaril fuocaril tonigencil
1,5
1,0
,5
0,0
-,5
Marques gnralistes
colgate colgate colgate colgate signal colgate signal signal -1 0
Marques sant
tonigencil 1 2 3
45