Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

L'Analyse Factorielle Des Correspondances: C. Lopez Institut de L'elevage Service Biométrie Août 1992

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 22

L'ANALYSE FACTORIELLE DES CORRESPONDANCES

C. LOPEZ
Institut de l'Elevage
Service Biométrie
Août 1992
L'analyse des correspondances

L'ANALYSE FACTORIELLE DES CORRESPONDANCES

(introduction)

________________________________________________________________________

I. Présentation des données et du problème :


Associations entre lésions et boîteries 2

II. Rappels sur le Chi-deux de contingence 3

III L'identification des lésions à risque 5

IV L'AFC : une ACP particulière sur les profils-lésions 6

V Les axes factoriels 9

VI Les résultats de l'analyse des profils-lésions 10

VI-1 Les valeurs propres 10

VI-2 Une aide à l'interprétation des axes factoriels : les contributions absolues 11

VII Une autre ACP possible : l'ACP des points-évolutions 12

VIII Une propriété intéressante :


la représentation simultanée des 2 ensembles de profils 14

IX L'examen du plan (1 ; 2) 16

X En conclusion 18

Bibliographie 21

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 1


L'analyse des correspondances

Cette note a pour but de présenter à partir d'un petit exemple l'analyse factorielle des
correspondances (AFC). Les données (qui proviennent d'une étude réelle) ne servent ici qu'à
illustrer la méthode.

I Présentation des données

242 taurillons présentant une boîterie ont été suivis. L'évolution de celle-ci a été notée ainsi que
la lésion supposée être à l'origine de la boîterie. La répartition des taurillons suivant la lésion et
son évolution est présentée dans le tableau ci-dessous.

abattage chronicité guérison Total


___________________________________________________________________

arthrite 7 6 4 17

traumatisme 5 5 27 37

défaut d'aplomb 4 4 0 8

jarret droit 4 4 1 9

panaris 1 0 8 9

érosion des talons 1 4 13 18

clou de rue 0 4 5 9

ouverture ligne blanche 6 27 77 110

fourbure 0 2 20 22

fissure de muraille 0 0 3 3
___________________________________________________________________

28 56 158 242

-tableau 1-

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 2


L'analyse des correspondances

Le problème

On veut savoir s'il existe des lésions à risque c'est-à-dire prédisposant plus à un abattage des
animaux.

Classiquement ce type de problème est résolu à l'aide du test du Chi-deux de contingence.

II Rappels sur le Chi-deux de contingence

Sous l'hypothèse nulle (H0) d'absence de lésions à risque, toutes les lésions présenteraient le
même risque d'abattage. Plus généralement elles auraient le même profil d'évolution estimé par
le profil moyen :

abattage chronicité guérison


____________________________________
28/242 56/242 158/242

La répartition des taurillons ayant eu une lésion donnée, entre les trois évolutions, se ferait alors
au prorata de l'importance relative de celles-ci.

Ainsi les 17 taurillons de lésion "arthrite" se répartiraient entre les 3 classes d'évolution de la
façon suivante:

abattage 17 x 28/242 = 1.97

chronicité 17 x 56/242 = 3.93

guérison 17 x 158/242 = 11.10

On constate, par exemple, que les cas d'abattage seraient alors deux fois moins fréquents,
relativement, que les cas de boîteries chroniques pour les taurillons à "arthrite" mais aussi pour
les autres lésions.

La présence de décimales, ici, ne doit pas surprendre. Ces chiffres sont des effectifs théoriques
(Espérés) sous H0. Ce sont des moyennes (les mathématiciens disent des "Espérances
mathématiques") qui s'interprètent de la façon suivante : si on pouvait disposer d'un "très grand
nombre" d'échantillons de 17 taurillons provenant de la même population et présentant au départ
une arthrite, 1.97 animaux seraient, en moyenne, abattus, 3.93 auraient une boîterie chronique et
11.10 guériraient en moyenne.

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 3


L'analyse des correspondances

On aboutit ainsi au tableau des effectifs espérés suivant :

abattage chronicité guérison Total


___________________________________________________________________

arthrite 1.97 3.93 11.10 17

traumatisme 4.28 8.56 24.16 37

défaut d'aplomb 0.93 1.85 5.22 8

jarret droit 1.04 2.08 5.88 9

panaris 1.04 2.08 5.88 9

érosion des talons 2.08 4.16 11.76 18

clou de rue 1.04 2.08 5.88 9

o. ligne blanche 12.73 25.45 71.82 110

fourbure 2.54 5.09 14.37 22

fissure de muraille 0.35 0.69 1.96 3


___________________________________________________________________

28 56 158 242

-tableau 2-

Le test du Chi-deux consiste alors à comparer le tableau observé (tableau 1) au tableau espéré
sous H0 (tableau 2) à l'aide de la statistique suivante :

(Oij - Eij)2

χ2 = Σ Σ ________

i j Eij

où Oij est le nombre "observé" de taurillons présentant la lésion i et l'évolution j (tableau 1),
Eij est le nombre "attendu" (Espéré) de taurillons présentant la lésion i et l'évolution j sous
H0 (tableau 2).

Le calcul donne ici une valeur de χ2 = 71.33 à (10-1)*(3-1) = 18 ddl.

Un tel résultat a moins de une chance sur mille d'être observé s'il y a indépendance entre la
lésion à l'origine de la boîterie et l'évolution ultérieure !! ...

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 4


L'analyse des correspondances

... on rejette donc l'hypothèse nulle d'indépendance et on conclut qu'il y a des lésions présentant
plus de risque que les autres.

Remarque : le test précédant est approché car il faut théoriquement pour pouvoir l'utiliser que
tous les effectifs théoriques (les Eij) soient supérieurs à 5 ce qui n'est pas le cas ici. Il fournit
néanmoins un résultat qui suffit pour notre exemple étant donné la valeur élevée du chi-deux.

III L'identification des lésions à risque

Une première méthode consiste à regarder quelles sont les lésions qui présentent un nombre
d'abattage (très) supérieur au nombre d'abattages attendus sous H0.

Oi1 >> Ei1 =====> lésion i à risque

Oi1 << Ei1 =====> lésion i sans risque

On trouve alors 3 lésions plutôt associées à abattage:

Oi1/Ei1
_______

arthrite 7/1.97

défaut d'aplomb 4/0.93

jarret droit 4/1.04

alors que "fourbure" est plutôt associé à guérison 0/2.54

Oi1/Ei1 est en quelque sorte une mesure de risque relatif. Les boîteries ayant pour cause une
arthrite sont associées 3.5 fois plus à un abattage que par le simple fait du hasard.

Cette méthode est déjà un embryon d'Analyse Factorielle des Correspondances (A.F.C.) dans la
mesure où l'on voit déjà apparaître la démarche de recherche d'associations (ou encore de
correspondances) entre les modalités de la variable "LESION" et celles de la variable
"EVOLUTION".

L'AFC va permettre d'affiner cette première analyse en quantifiant et en ordonnant


l'importance des associations trouvées et en offrant également une représentation graphique
des modalités lésions et des modalités d'évolution mettant en évidence de façon optimale ces
associations.

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 5


L'analyse des correspondances

IV L'AFC : une ACP particulière sur les profils-lésions

Les 10 lésions peuvent être tout d'abord considérées comme un nuage de points dans l'espace à 3
dimensions des évolutions. Chaque coordonnée d'une lésion donnée serait alors le nombre de cas
recensés dans l'évolution correspondante.

Ainsi à la lésion "arthrite" correspondrait le point : (7, 6, 4).

En fait en AFC les lésions ne sont pas représentées par le profil des fréquences absolues mais le
profil des fréquences relatives pour ne pas favoriser les lésions les plus fréquentes quelle que
soit leur évolution.

Les dix lésions seront représentées alors par les dix profils-lésions suivants :

abattage chronicité guérison (masse)


__________________________________________________________________

arthrite 0.412 0.353 0.235 (0.070)

traumatisme 0.135 0.135 0.730 (0.153)

défaut d'aplomb 0.500 0.500 0.000 (0.033)

jarret droit 0.444 0.444 0.112 (0.037)

panaris 0.111 0.000 0.889 (0.037)

érosion des talons 0.056 0.222 0.722 (0.074)

clou de rue 0.000 0.444 0.556 (0.037)

o. ligne blanche 0.055 0.246 0.700 (0.454)

fourbure 0.000 0.091 0.909 (0.091)

fissure de muraille 0.000 0.000 1.000 (0.012)


__________________________________________________________________

Profil-lésion moyen : 0.116 0.231 0.653 (1.000)

-tableau 3-

Le centre de gravité du nuage est alors tout simplement le profil des fréquences relatives
d'évolution sur l'ensemble de toutes les lésions: le profil marginal "profil-lésion moyen".

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 6


L'analyse des correspondances

L'AFC est alors l'Analyse en Composantes Principales (A.C.P.) du nuage des dix profils-
lésions avec deux particularités :

1/ Chaque individu (profil-lésion) a un poids ou encore "masse" (représenté par la dernière


colonne du tableau 3) égale à son importance relative dans l'échantillon.

Ainsi l'individu "arthrite" a une masse égale à 17/242 = 0.070 puisque 17 taurillons sur 242 ont
été diagnostiqués comme ayant eu une arthrite à l'origine de la boîterie.

2/ La "métrique" (c'est-à-dire la règle) pour mesurer la distance entre deux points lésions dans
cet espace à trois dimensions ne donne pas la même importance à toutes les coordonnées
(évolutions) mais privilégie les évolutions les plus rares.

Ainsi en ACP classique la distance entre les individus "Arthrite" et "Traumatisme" aurait été :

Dis tan ce( arthrite, traumatism e) = (0.412 − 0.135) 2 + (0.353 − 0.135) 2 + (0.235 − 0.730) 2
= (0.077 + 0.047 + 0.245) = 0.607

C'est la distance euclidienne classique des cours élémentaires de géométrie (voir le théorème de
Pythagore).

En AFC les carrés des écarts entre fréquences relatives, pour chaque modalité d'évolution, sont
divisés par la fréquence relative marginale de la modalité d'évolution correspondante.

Ainsi, toujours pour les lésions "arthrite" et "traumatisme", la composante sur la modalité
abattage est :

(0.412-0.135)2 <------- carrés des écarts des fréquences relatives


____________
0.116 <------- importance relative de l'évolution "abattage"

La distance entre ces deux points sera alors:

(0.412 − 0.135) 2 (0.353 − 0.135) 2 (0.235 − 0.730) 2


+ +
0.116 0.231 0.653

(0.661 + 0.206 + 0.375 = 1.114

On voit que la composante "abattage" a un poids plus important dans l'AFC : 0.661/(1.114)2 = 0.53
que dans l'ACP : 0.077/(0.607)2 = 0.21 .

2
Cette distance est appelée distance du Chi-deux et est notée 'distance χ ' dans la suite

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 7


L'analyse des correspondances

• La pondération des points-lésions ne pose pas trop de problème de compréhension étant donnée
la nature particulière des individus (il est normal, par exemple, que "ouverture de ligne blanche"
qui est 5 fois plus fréquente que la "fourbure" ait un poids 5 fois plus important).
Cette pondération sera prise en compte dans la recherche des axes factoriels ; les points à forte
masse seront plus proches du centre de gravité du nuage car ayant un profil d'évolution plus
proche de celui du profil moyen.

• Le choix de la distance du Chi-deux est plus difficile à comprendre.

Il se justifie toutefois lorsque l'on calcule la variance (en AFC on dit aussi l'inertie) du nuage des
10 profils-lésions.

Cette inertie qui est la somme des carrés des distances des 10 points-lésions au profil moyen des
lésions, carrés pondérés par la masse de chaque lésion :

I = Σ masse(lésion i)*[ distance χ (lésion i ; lésion moyenne)]2


2

lésion i

est égale au Chi-deux mesurant la liaison entre les lésions et les évolutions divisé par le nombre
de taurillons.
χ2
I=
n

Cet indice qui est appelé le 'Phi-deux' de K. PEARSON (φ2) est une mesure de l'association
existant entre les variables 'Lésion' et 'Evolution'. Elle ne dépend pas du nombre de taurillons
contrairement au Chi-deux.

Le choix de la distance du chi-deux permet ainsi d'obtenir une inertie du nuage des 10
points lésions qui s'interprète comme une mesure de l'intensité de la liaison entre les lésions
et les évolutions.

Si aucune lésion ne présente de risque accru d'abattage par rapport aux autres, alors les 10
profils-lésions sont tous égaux (aux fluctuations d'échantillonnage près) et égaux en particulier
au profil moyen. Le χ2 est nul , tous les points-lésions sont confondus avec le point moyen et
l'inertie est nulle.
A contrario s'il existe des lésions à risque l'inertie du nuage sera d'autant plus élevée que
l'association entre lésions et évolutions sera importante.

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 8


L'analyse des correspondances

V Les axes factoriels

Cette inertie, mesure globale d'intensité de la liaison LESION*EVOLUTION, est décomposée


par l'AFC en une suite décroissante de coefficients (les valeurs propres λi) qui correspondent à
des associations lésions*évolutions particulières.
Ces valeurs propres présentent deux caractéristiques spécifiques à l'AFC.

1/ Il y en a autant que de nombre de modalités-évolutions moins un

donc deux dans notre exemple : λ1 et λ2.

2/ Elles sont toutes comprises entre 0 et 1

0 ≤ λ2 ≤ λ1 ≤ 1

• La première particularité est due au fait que les coordonnées des points-lésions sont des
fréquences relatives. La somme des 3 coordonnées évolution est alors constante (égale à 1).
Il suffit donc de connaître deux coordonnées parmi les trois pour connaître parfaitement tout
profil-lésion.

Sur un plan mathématique cela signifie que les 10 points lésions sont contenus dans un plan de
l'espace à 3 dimensions des profils-lésions.
Plus précisemment les 10 points sont contenus dans le triangle suivant appelé 'simplex'.

Nuage des profils-


profils-lésions
(représentation du Simplex)

Guérison
FM

P ET

OLB
T CR

0
A
Chronicité
JD
DA

Abattage

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 9


L'analyse des correspondances

• La seconde propriété des valeurs propres λi provient de ce que ces coefficients peuvent
s'interpréter comme des carrés de coefficients de corrélation (1).

(1) Sur un plan mathématique les valeurs propres λi sont les carrés des coefficients de
corrélation maximum entre des combinaisons linéaires d'indicatrices des modalités lésions d'une
part et d'indicatrices des modalités évolutions d'autre part.

(Bien, entendu comme en ACP classique, ces valeurs propres sont associées à des axes factoriels
orthogonaux deux à deux ).

Contrairement à l'ACP l'examen des valeurs propres est donc particulièrement pertinent en
AFC.

Une valeur propre importante (c'est-à-dire proche de 1) pour un axe donné signifie que celui-ci
décrit une association très forte entre certaines modalités de la variable 'ligne' (ici les lésions)
et certaines modalités de la variable 'colonne' (ici les évolutions). A contrario une valeur propre
faible sur un axe dénote de simples fluctuations aléatoires sur cet axe.

VI Les résultats de l'analyse des profils-lésions

VI-1 Les valeurs propres

Les deux valeurs propres associées au nuage des profils-lésions figurent ci-dessous :

Axe valeur propre pourcentage (%)


____________________________________________________
1 0.258 87.70

2 0.036 12.30
____________________________________________________

total 0.294 100.00

La somme des valeurs propres redonne bien l'inertie du nuage c'est-à-dire le Phi-deux de
PEARSON.

0.294 = χ2 /n = 71.33 / 242

Un seul axe, le premier, s'avère avoir une valeur propre importante : λ1 = 0.258. Cette valeur
correspond à près de 88% de l'inertie I du nuage.

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 10


L'analyse des correspondances

VI-2 Une aide à l'interprétation des axes factoriels : les contributions absolues

Comme dans l'ACP les axes sont des combinaisons linéaires des variables (ici les modalités
évolutions) discriminant au mieux les individus (ici les profils-lésions) d'après leur association
avec les évolutions.
La valeur propre associée à un axe numéro u est alors l'inertie des coordonnés des points-lésions
sur cet axe.

λu = inertie des points-lésions sur l'axe u

Chaque modalité lésion 'contribue' donc à la variance λu d'autant plus qu'elle est 'loin' de
l'origine de l'axe c'est-à-dire que la lésion correspondante a une évolution différente de
l'évolution moyenne.

Cette part de variance due à la lésion i exprimée en pourcent de l'inertie λu s'appelle la


'contribution absolue' de la lésion i à l'axe étudié.

Contribution absolue de la lésion i à l'axe factoriel u

= 100*variance de la lésion i sur l'axe u / λu

Les contributions absolues de chaque lésion aux deux axes sont représentées dans le tableau 4
ci-dessous.

Lésions axe1 axe2


____________________________________________
Arthrite 29.1 3.6
Traumatisme 0.3 19.6
Défaut d'aplomb 28.6 0.2
Jarret droit 22.7 0.0
Panaris 1.6 21.0
Erosion des talons 1.0 0.7
Clou de rue 0.0 33.3
O. ligne blanche 4.5 14.0
Fourbure 10.0 4.3
Fissure de muraille 2.1 3.3
____________________________________________
100.0 100.0

table au 4-

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 11


L'analyse des correspondances

On retrouve les 4 lésions arthrite, défaut d'aplomb, jarret droit et fourbure qui expliquent à
plus de 90% l'axe 1. L'axe 2 n'est pas interprétable étant donnée la faible variance portée par
l'axe (λ2 = 0.036).
L'examen des coordonnées des points-lésions sur le premier axe (tableau 4) montre
effectivement une opposition entre les lésions à risque : "défaut d'aplomb", "jarret droit" et
"arthrite" se terminant dans près de 50% des cas par un abattage (respectivement 50%, 44% et
41%) et la "fourbure" et la "fissure de muraille" considérées comme des lésions bénignes (pas de
cas d'abattage).

lésions coordonnées
_________________________________

arthrite 1.034
traumatisme -0.077
défaut d'aplomb 1.496
jarret droit 1.257
panaris -0.334
érosion des talons -0.189
clou de rue -0.043
ouverture ligne blanche -0.131
fourbure -0.533
fissure -0.659
_________________________________

tableau 4

Cet axe 1 peut donc être considéré comme un axe de gravité des lésions.

fourbure jarret droit défaut d'aplomb


_____________________ _________________________________________________

fissure arthrite

VII Une autre ACP possible : l'ACP des points-évolutions

Le tableau de contingence (tableau1) est parfaitement symétrique en ce sens que les lignes et les
colonnes sont de même nature, ce sont des modalités de deux variables qualitatives : la variable
nominale "LESION" à 10 modalités en lignes et la variable ordinale "EVOLUTION" à 3 niveaux en
colonnes.

Il était tout à fait logique de tenter de discriminer les 10 lésions quant à leur évolution future.
On pourrait tout aussi bien caractériser rétrospectivement les 3 évolutions à partir des lésions
initiales.

L'analyse en composantes principales des 3 profils-évolution (vecteurs dans un espace à 10


dimensions !!) est tout aussi pertinente que celle des 10 profils-lésions.

Qu'aurait-elle donnée ?

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 12


L'analyse des correspondances

Et bien ....elle redonne la même chose !

En effet l'inertie de ce nuage est aussi égale au Phi-deux du tableau de contingence.

Par ailleurs les 3 profils-évolutions sont contenus dans un plan de l'espace à dix dimensions (tout
comme par deux points on ne peut faire passer qu'une droite).
Deux axes suffisent donc pour représenter les 3 profils-évolutions.

On montre que ces deux axes sont associés au deux axes de l'analyse des profils-évolution :

Le premier axe de chaque analyse est associé à la même valeur propre : λ1. De même, le deuxième
axe de chaque analyse est associé à la seconde valeur propre : λ2 .

Le premier axe de l'analyse des profils-évolutions oppose la modalité "abattage" à la modalité


"guérison".

évolutions coordonnées
_________________________________

abattage 1.151
chronicité 0.370
guérison -0.335
_________________________________

guérison chronicité abattage


_____________________
__________________________________________________

Il est naturellement associé au premier axe de l'analyse des profils-lésions qui, rappellez-vous, a
été caractérisé comme étant un axe de gravité de la lésion.

En fait ces deux axes décrivent (dans deux espaces différents) une même réalité à savoir une
discrimination des lésions suivant leur gravité ou encore une caractérisation des évolutions
d'après les lésions à l'origine de la boîterie. On les appelle aussi axes "duaux".

Dans le cas général de l'analyse d'un tableau de contingence à L lignes et C colonnes, l'AFC
fournira un nombre de valeurs propres égal au plus petit des deux nombres (L-1) et (C-1).

nombre de valeurs propres ≤ Min(L-1 ; C-1)

Ces valeurs propres sont associées à deux systèmes d'un nombre correspondant d'axes
factoriels.

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 13


L'analyse des correspondances

VIII Une propriété intéressante : la représentation simultanée des deux ensembles de


profils

Puisque les deux systèmes d'axes décrivent une même réalité, l'analyse permet de représenter
"simultanément" (1) les profils-lésions et les profils-évolutions grâce à une propriété intéressante
de l'AFC .

Si on appelle Xi(1) la coordonnée du profil-lésion numéro i sur l'axe 1 de l'analyse des lésions,
alors la coordonnée Yj(1) du profil-évolution numéro j sur l'axe 1 de l'analyse associée s'écrit :

1

10
Yj(1) = FRj(i) * Xi(1)
λ1 i=1

où FRj(i) est la coordonnée du profil-évolution j sur la lésion i c'est-à-dire la fréquence relative


des cas de lésion i parmi tous les cas de boîteries ayant eu l'évolution j.

Ainsi pour l'évolution "abattage" FR1(1) est la proportion des animaux ayant eu une arthrite à
l'origine de la boîterie parmi ceux qui ont été abattus :

FR1(1) = 7/28

et ainsi de suite pour les autres lésions.

La somme des ces fréquences relatives, pour une évolution donnée, est par construction égale à 1.

La coordonnée Yj(1) est donc, à 1 / λ1 près, une moyenne pondérée des coordonnées des profils-
lésions sur l'axe 1 de l'analyse associée.

Autrement dit les point-évolutions, sur un axe donné, peuvent s'interpréter (à un coefficient
près) comme étant des centres de gravité des points-lésions sur l'axe associé pour les individus
(les taurillons) qui ont eu l'évolution correspondante.

Cette propriété, spécifique à l'AFC, permet d'apporter une aide à l'interprétation dans la
position des points sur les axes.

On a vu précédemment que la proximité entre deux points correspondant à des modalités d'une
même variable (par exemple lésion) signifie qu'ils ont des profils très proches. De même deux
points qui s'opposent sur un axe ont des profils différents. Cette propriété est caractéristique
de l'ACP.

La proximité entre deux points correspondant chacun à une modalité d'une variable différente
traduit une prédominance réciproque entre ces deux modalités. Cette prédominance est d'autant
plus manifeste que les deux points sont éloignés du centre de gravité (qui est "à la fois" le profil
de lésion moyen et le profil d'évolution moyen). Cette propriété qui se déduit de la formule
précédante est spécifique à l'AFC.

______________________________________________________
(1) attention les deux axes associés, bien que que représentés simultanément sont dans des espaces
différents , ce n'est pas formellement un seul et même axe.

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 14


L'analyse des correspondances

Attention toutefois, il ne faut jamais oublier que les représentations sur les axes sont des
résumés de proximités dans un espace plus grand. Il peut y avoir de fausses proximités dues aux
effets de perspective !!

Le graphique suivant propose la représentation simultanée de nos données sur les deux axes.

On a constaté précédemment que le second axe n'apporte aucune contribution significative à


l'explication de l'association entre lésions et évolutions. On l'a toutefois gardé ici car, dans
notre cas particulier, nous avons sur un plan la totalité de l'information contenue dans le tableau
initial des données.

En général on se contente d'interpréter les graphiques (encore appelés plans factoriels)


correspondant aux valeurs propres "importantes". Les autres axes sont négligés, on considère
qu'il ne décrivent que des fluctuations aléatoires.
Une démarche possible consiste alors à examiner tous les plans que l'on peut former à partir des
axes retenus.
Ainsi, si les trois premiers axes sont retenus, on aura un bon résumé de l'information contenue
dans le tableau des données en interprétant les plans (1 ; 2), (1 ; 3) et (2 ; 3).
Le nombre de plans à examiner peut toutefois augmenter très rapidement. On en choisit alors
empiriquement quelques uns. Si on décide, par exemple, de garder les 4 premiers axes on pourra
interpréter les plans (1 ; 2), (2 ; 3) et (3 ; 4).

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 15


L'analyse des correspondances

IX L'examen du plan (1 ; 2)

Les points-évolutions sont joints par des segments parce que la variable EVOLUTION est
qualitative ordinale. Ces segments fournissent ainsi une aide à l'interprétation dans la mesure où
ils permettent de matérialiser des gradients sur les plans.
C'est le cas ici où l'on retrouve sur le plan le gradient de gravité des lésions de gauche à droite
(1).

Il serait par contre incorrect de relier les points-lésions, la variable correspondante étant par
nature qualitative nominale.

On constate que des lésions ayant des profils semblables sont proches.

Ainsi les lésions "défaut d'aplomb" et "jarret droit" et à un degré moindre "arthrite"

Lésion abattage chronicité guérison


____________________________________________________

défaut d'aplomb 0.500 0.500 0.000

jarret droit 0.444 0.444 0.112

arthrite 0.412 0.353 0.235


____________________________________________________

sont-elles plus 'proches', sur le graphique, du point-évolution "abattage" que des autres points-
évolutions ce qui indique, comme vu plus haut, que les boîteries ayant pour cause ces lésions sont
plus à risque que la moyenne.

De même, les lésions "ouverture de la ligne blanche" et "érosion des talons" sont-elles proches.
Leurs profils sont très semblables.

Lésion abattage chronicité guérison


____________________________________________________

o. l. blanche 0.054 0.245 0.700

érosion des talons 0.056 0.222 0.722


____________________________________________________

______________________________________________
(1) Le sens donné à un axe n'a pas d'intérêt en soi ; ce qui compte, ce sont les oppositions/proximités entre
les points

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 16


L'analyse des correspondances

Ce sont des lésions qui se caractérisent essentiellement par une majorité de boîteries bénignes
et quelques unes chroniques. Elles ont une évolution assez semblable à l'évolution moyenne

Lésion abattage chronicité guérison


____________________________________________________

lésion-moyenne 0.116 0.231 0.653


____________________________________________________

d'où leur position proche du centre de gravité (le point (0 ; 0)).

Les lésions "fourbure", fissure" et "panaris" sont représentées, elles, par les points les plus
excentrés à gauche

Lésion abattage chronicité guérison


____________________________________________________

fourbure 0.000 0.091 0.909

fissure 0.000 0.000 1.000

panaris 0.111 0.000 0.889


____________________________________________________

Elles entraînent des boîteries essentiellement bénignes. Elles sont, de ce fait, plus 'proches' de
l'évolution "guérison" que des autres modalités d'évolution.

Il reste enfin deux lésions "clou de rue" et "traumatisme" plus délicates à caractériser en partie
parce qu'elles sont associées à l'axe 2 dont on a vu que le pouvoir explicatif était quasi-nul.
Les deux points correspondant s'opposent sur cet axe mais se projettent à l'origine sur le
premier axe !

Il est délicat d'aller plus loin dans l'interprétation des ces lésions. Tout au plus peut-on dire qu'à
la lésion "clou de rue" est associée un nombre important de boîteries chroniques (44%).

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 17


L'analyse des correspondances

X CONCLUSION

L' analyse factorielle des correspondances a permis de préciser la liaison constatée entre les
variables LESION et EVOLUTION en décrivant les associations entre les lésions et l'évolution
des boîteries.

De ce point de vue l'AFC fournit une décomposition de la liaison globale existant entre deux
variables qualitatives en une séries de composantes spécifiques de certaines associations
ordonnées suivant leur importance (quantifiée par les valeurs propres).

Elle aboutit, dans notre exemple, à une partition des lésions suivant leur gravité.

abattage chronicité guérison boîterie


__________________________________________________________________

défaut d'aplomb 0.500 0.500 0.000


jarret droit 0.444 0.444 0.112 graves
arthrite 0.412 0.353 0.235

érosion des talons 0.056 0.222 0.722 à


o. ligne blanche 0.055 0.246 0.700 problèmes

panaris 0.111 0.000 0.889


fourbure 0.000 0.091 0.909 bénignes
fissure de muraille 0.000 0.000 1.000

clou de rue 0.000 0.444 0.556 plus de b. chroniques ?


traumatisme 0.135 0.135 0.730
___________________________________________________________________

Il est bien évident qu'ici la taille du tableau des données ne justifiait pas l'utilisation d'une AFC.
Un simple examen du tableau des profils-lésions aurait suffi.

L'AFC peut, par contre, s'avérer un outil puissant dans la description des liaisons lorsque l'on a
beaucoup de variables qualitatives avec un grand nombre de modalités. Cette technique se
généralise, en effet, à la description des liaisons existant entre plus de deux variables
qualitatives : c'est l'Analyse Factorielle des Correspondances Multiples (A.F.C.M.).

Elle est aussi adaptée lorsque l'on a à traiter des variables quantitatives et que l'on soupçonne a
priori l'existence de liaisons non linéaires entre certaines variables.
Une ACP réalisée sur le tableau 'individus x variables' ne dégagera que des tendances linéaires
qui restitueront mal la réalité. Il est alors plus payant de découper les variables en classes et de
pratiquer une AFCM qui mettra en évidence, si elles existent, tous les types de liaisons.

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 18


L'analyse des correspondances

Il faut prendre garde, lors du découpage en classes à essayer d'avoir sensiblement le même
nombre de classes d'une variable à l'autre sinon celles ayant le plus grand nombre de niveaux
risquent de contribuer plus à la construction des axes. Il faut également éviter d'avoir des
classes trop faibles en effectifs car alors on a vu, plus haut, que l'AFC va amplifier,
relativement, les distances sur ces niveaux et les axes déduits risquent d'être en partie
construits à partir de modalités de variables qui ne représentent rien ou pas grand chose. C'est
un des inconvénients majeurs de l'AFC. On peut également rencontrer ce problème avec des
variables qualitatives.
Le choix et le codage des variables soumis à l'analyse est l'étape la plus délicate à régler. Elle
doit, dans la mesure du possible (et surtout pour une analyse nouvelle), être le résultat d'un
travail de groupe entre le zootechnicien et le statisticien.

Les variables illustratives

L'AFC permet aussi d'enrichir l'aide à l'interprétation des plans factoriels par le positionnement
(on dit "projection") sur ceux-ci des modalités de variables supplémentaires (encore appelées
variables "illustratives").
Ces variables qualitatives ou quantitatives discrétisées, n'ont pas contribué à la construction des
axes mais leurs modalités se positionnent près des modalités des variables "actives" dont elles
sont caractéristiques.

Ainsi la connaissance du type de logement des animaux pourrait être utilisé à profit pour tenter
d'interpréter les associations constatées. A cette fin les profils-logement suivant l'évolution
(c'est-à-dire la proportion de taurillons ayant une évolution donnée par type de logement)
peuvent être représentés d'après leurs coordonnées sur les axes factoriels permettant ainsi de
caractériser, en partie, le contexte dans lequel se situe les lésions.

Une pratique courante, également, consiste à positionner sur les plans factoriels les individus de
l'échantillon (ici les taurillons) décrits par leur profil d'indicatrices d'évolution (encore appelé
profil disjonctif complet). Ces individus peuvent alors être représentés par une suite de
caractères codant plusieurs variables illustratives.
Cette méthode est assez souvent une étape préalable à une recherche de typologie.

Une AFC, pour quoi faire ?

Tout au long de l'exemple sur les boîteries, notre objectif a été de décrire une liaison constatée
entre deux variables qualitatives.
Cette liaison (dont on ne préjuge absolument pas du caractère causal et à ce titre il serait plus
juste de parler d'association) peut être jugée significative à la suite d'un test statistique (le
Chi-deux) ou bien constatée sans faire de test, tout simplement parce que l'échantillon est
suffisamment grand pour qu'il n'y en n'ait pas besoin (c'est assez généralement le cas des
données d'enquêtes)

Mais dans tous les cas, l'objectif est de décrire des associations entre lignes et colonnes.

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 19


L'analyse des correspondances

Dans ce cadre souvent appelé "étape exploratoire" l'AFC est une méthode tout à fait analogue,
dans l'esprit, à l'ACP.

Ce sont, toutes les deux, des analyses descriptives multidimensionnelles.

L'AFC est donc particulièrement utile dans une première étape d'exploration des données et
surtout dans un contexte d'enquêtes (ces techniques sont assez rarement utilisées en
expérimentation où le protocole balise très précisément la stratégie d'analyse à suivre).
Elle va permettre, grâce à sa puissance, de faire le tri entre les variables et d'en définir de
nouvelles, combinaisons des premières, résumant au mieux leurs relations réciproques.
Ces nouvelles variables (matérialisées en fait par les valeurs des individus sur les axes) peuvent
alors être utilisées comme point de départ d'une classification des individus (recherche de
typologie). Une autre utilisation possible consiste à les utiliser comme variables explicatives
d'une variable n'ayant pas participé à l'AFC (variable exogène) ; c'est le cas par exemple lorsque
l'on veut prédire des variables technico-économiques (la marge brute par exemple) à partir de
variables de structure d'exploitations.
Une régression multiple directe sur un ensemble souvent important de variables n'est pas
toujours souhaitable en raison de la forte redondance pouvant exister entre ces variables. Il est
plus judicieux de faire une AFC préalable et de régresser la variable d'intérêt sur les nouvelles
variables associées aux axes retenus. L'orthogonalité des axes assure une stabilité aux
prédictions et une précision plus grande.

D'autres utilisations existent bien entendu mais dans tous les cas l'AFC (c'est aussi vrai pour
l'ACP) n'est pas une fin en soi. Pour puissante que soit la méthode, pour séduisantes et
synthétiques que soient ses sorties graphiques elle doit être considérée commme faisant partie
d'une étape d'exploration des données.

Août 1992

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 20


L'analyse des correspondances

BIBLIOGRAPHIE

BOUROCHE J.M., SAPORTA G. :

"L'analyse des données"


Que sais-je ? PUF
Paris 1977

CIBOIS P. :

"L'analyse factorielle"
Que-sais-je ? PUF
Paris 1983

DELAGARDE J. :

"initiation à l'analyse des données"


DUNOD
Paris 1983

FENELON J.P. :

"Qu'est-ce que l'analyse des données ?"


LEFONEN
Paris 1983

LEBART L., MORINEAU A., TABARD N. :

"Techniques de la description statistique"


DUNOD
Paris 1977

C. LOPEZ Service Biométrie – Institut de L'Elevage – août 1992 21

Vous aimerez peut-être aussi