Aide À L'interprétation
Aide À L'interprétation
Aide À L'interprétation
SPAD••Base
Aide à l’interprétation
Aide à l’interprétation
SPAD•Base®
Le logiciel décrit dans le manuel est diffusé dans le cadre d'un accord de licence
d'utilisation et de non divulgation, et ne peut être utilisé ou copié qu'en conformité avec les
stipulations de l'accord. Toute copie du programme sur cassette, disque ou autre support à
des fins autres que l'usage personnel du programme par le licencié est interdite par la loi.
Les informations figurant dans ce manuel sont sujettes à révision sans préavis et ne
présentent aucun engagement de la part du CISIA.
ISBN 2-906711-31-4
4
3. BIVAR-3 : Corrélations entre les variables continues illustratives et les variables continues
définissant le plan .................................................................................................................................. 39
CLASSIFICATION ET TYPOLOGIE 97
GLOSSAIRE........................................................................................................... 121
Avant-propos
Dans la version 5.0 de SPAD, les résultats des différentes méthodes sont mis en forme dans
EXCEL. Pour obtenir ces résultats mis en forme, vous devez cocher l’option « Fichier pour
application tableur » dans l’onglet « Paramètres » de la méthode, puis après exécution de
la méthode cliquer sur l’icône EXCEL à droite de la méthode.
Cet habillage dans EXCEL génère des classeurs contenant des feuilles qui pour une
méthode donnée contiennent toujours les mêmes types de résultats. L’aide à l’interprétation
proposée est faite par rapport à ces feuilles EXCEL.
Auquel il est fait référence dans l’aide en ligne du logiciel, à la rubrique « Objet » de la
méthode.
8
Les Méthodes de
Description Statistique
Après l’indispensable procédure STATS, nous vous conseillons de consulter les sorties des
procédures DEMOD, DESCO, MSMOD qui figurent parmi les méthodes les plus puissantes
en matière d’analyse exploratoire. La procédure BIVAR est surtout utilisée pour sa
représentation graphique.
On travaille sur des données extraites d’une enquête d’opinion réalisée en 1978. Le fichier
contient les réponses de 1000 individus sur environ 50 questions extraites d’un questionnaire
qui porte sur les conditions de vie et les aspirations des français.
Le fichier de données utilisé est fourni avec le logiciel sous le nom ASPI1000.SBA
9
Tris à plat / Histogrammes (STATS)
Cette procédure fournit, dans un classeur Excel, l’ensemble des statistiques élémentaires
sur les variables nominales et continues. Le rapport obtenu constitue la « base statistique »
de l’enquête, à laquelle on pourra se référer à tout moment au cours de l’exploitation
statistique approfondie qui suivra.
1. Histogrammes
Poids : cette colonne donne le poids des individus dans chaque classe.
Si les individus ont un poids uniforme, le poids de la classe est égal au nombre d’individus
dans cette classe (effectif).
Il y a 438 individus qui estiment que le salaire mensuel d’un ingénieur est compris entre 6000
et 9000 Francs (Rappel : Il s’agit d’une enquête effectuée en 1978).
10
SPAD Version 5.0 Tris à plat / Histogrammes (STATS)
2. Variables continues
Pour les variables continues, la procédure STATS édite un tableau rassemblant les
principales statistiques dans la feuille Excel « Variables continues ».
Tous les calculs sont effectués hors données manquantes (194 individus n’ont pas donné
d’estimation du salaire mensuel d’un ingénieur). Les moyennes et les écart-types tiennent
compte du poids des individus.
• Libellé : Libellé complet de la variable continue.
• Effectif : Effectif des individus qui ont répondu.
• Poids : Poids des individus qui ont répondu. L’effectif et le poids sont identiques lorsque
l’on n’utilise pas de pondération.
• Moyenne : Moyenne pondérée de chacune des variables.
• Ecart-type : Ecart-type pondéré de chacune des variables.
• Minimum : Valeur minimale non pondérée de chacune des variables.
• Maximum : Valeur maximale non pondérée de chacune des variables.
11
SPAD Version 5.0 Tris à plat / Histogrammes (STATS)
3. Variables nominales
Les tris à plat des variables nominales apparaissent dans la feuille Excel « Variables
Nominales ». Chaque tri à plat est constitué de 4 composantes :
• Le libellé complet de la variable (60 caractères au plus).
Puis pour chaque modalité
• Effectif : L’effectif absolu de la modalité, c’est-à-dire le nombre d’individus qui ont choisi
cette modalité.
• % / Total : La part de l’effectif de la modalité dans l’ensemble des observations y compris
les données manquantes.
• % / Expr. : La part de l’effectif de la modalité dans l’ensemble des données exprimées
c’est-à-dire sans les données manquantes.
Interprétation
Pour la variable « Regardez-vous la télévision », la part des modalités par rapport au total
est identique à la part des modalités par rapport aux données exprimées. Cette variable ne
contient pas de données manquantes. La variable suivante contient des données
manquantes et les pourcentages ne sont pas égaux.
On note que 49% des personnes interrogées pensent que, pour changer la société, il faut
des réformes progressives. Mais parmi les réponses exprimées, cette opinion est partagée
en fait par 63.06% des individus.
Par défaut, les données manquantes ne sont pas recodées : elles n’apparaissent pas dans
une modalité explicite (modifiez le paramétrage si besoin).
Dans le cas de l’utilisation d’une variable de pondération, les sorties dans Excel n’éditent que
les résultats pondérés, les sorties fournies dans l’éditeur contiennent les résultats pondérés
et non pondérés, permettant de mesurer l’impact de la pondération sur la distribution de
chaque variable.
4. Variables groupées
De façon courante dans les enquêtes, on trouve des batteries de variables admettant la
même liste de modalités : Possédez-vous (oui / non) un instrument de musique, un
ordinateur, un téléphone portable, etc. Ou encore : Etes-vous satisfait (tout à fait / un peu /
pas du tout) par la qualité du service, la rapidité de la livraison, l’accueil, etc.
12
SPAD Version 5.0 Tris à plat / Histogrammes (STATS)
L’option « Variables groupées » est une option d’édition (Tris édités par modalités dans le
paramétrage) qui donne les résultats (effectifs et pourcentages) d’une modalité choisie pour
chacune des variables. Cette édition peut-être triée.
Le tri par modalités concerne des variables nominales ayant les mêmes intitulés de
modalités. Par exemple des variables qui ont 2 modalités : oui et non.
Pour chaque modalité, on obtient la liste des fréquences pour l’ensemble des variables
nominales choisies.
Le listage des résultats se compose de 4 colonnes :
• L’intitulé complet de la variable.
• Effectif : l’effectif absolu de la modalité, c’est-à-dire le nombre d’individus qui ont choisi
cette modalité.
• % / Total : la part de l’effectif de la modalité dans l’ensemble des observations y compris
les données manquantes : % / TOTAL.
• % / Expr : la part de l’effectif de la modalité dans l’ensemble des données exprimées,
c’est-à-dire sans les données manquantes.
5. Discrétisation
Pour les variables continues, l’interface de paramétrage vous permet d’en demander soit les
« Statistiques sommaires et histogrammes », soit la discrétisation. Cette option consiste à
considérer une variable continue comme une variable nominale, chaque valeur de la variable
continue étant considérée comme une modalités. Cette option est intéressante pour détecter
les valeurs aberrantes et déterminer les bornes de découpages en classes des variables
continues. Les résultats sont dans la feuille « Variables discrétisées ». Dans l’exemple on
discrétise la variable Age.
13
SPAD Version 5.0 Tris à plat / Histogrammes (STATS)
Age de l'enquêté(e)
Effectif % / Total % / Expr. % Cum.
18.000000 19 1,90 1,90 1,90
19.000000 21 2,10 2,10 4,00
20.000000 15 1,50 1,50 5,50
21.000000 21 2,10 2,10 7,60
22.000000 24 2,40 2,40 10,00
23.000000 21 2,10 2,10 12,10
24.000000 29 2,90 2,90 15,00
25.000000 28 2,80 2,80 17,80
Pour chaque valeur de la variable, on obtient l’effectif (ou le poids si le calcul est pondéré), le
pourcentage par rapport à l’ensemble de l’échantillon ( % / Total), le pourcentage par rapport
à ceux qui ont donné une réponses (% / Expr.). La colonne % Cum donne le pourcentage
cumulé .
Dans notre exemple, 28 personnes ont 25 ans soit 2,8 % de l’échantillon et 17,8 % des
personnes ont entre 18 et 25 ans (% cum).
14
Tableaux Croisés (TABLE)
La procédure TABLE est conçue pour le calcul et l’édition massive de tableaux croisés.
Cette procédure fournit, dans un classeur Excel, l’ensemble des tableaux croisés demandés
par l’utilisateur. On peut à partir de cette procédure obtenir des tableaux de contingence, des
tableaux de moyenne ou encore des tableaux de fréquence.
Tous les tableaux croisés apparaissent dans la feuille « Tableaux croisés ».
1. Tableau de contingence
Les tableaux de contingence peuvent contenir le poids des individus de chaque case, les
pourcentages lignes et les pourcentages colonnes (optionnels). On choisit ici d’éditer ces
trois composantes dans un même tableau.
Dans cette exemple, nous croisons la variable V11 (en ligne) avec la variable V25 (en
colonne).
Les individus ont un poids uniforme et les individus présentant une donnée manquante ont
été abandonnés (option par défaut).
Les marges du tableau apparaissent par défaut.
Dans chaque case, on retrouve les trois statistiques suivantes :
• Effectifs : effectif pondéré correspondant au nombre d’individus présentant les deux
modalités croisées.
• % ligne : pour chaque case d’une ligne, il correspond à l’effectif pondéré de la case sur
l’effectif total de la ligne. Pour chaque ligne, on obtient un pourcentage ligne total de
100%.
• % colonne : pour chaque case d’une colonne, il correspond à l’effectif de la case sur
l’effectif total de la colonne. Pour chaque colonne, on obtient un pourcentage colonne
total de 100%.
Interprétation
77 hommes pensent que leur travail présente beaucoup de risque pour la santé.
15
SPAD Version 5.0 Tableaux Croisés (TABLE)
Le tableau montre également que 424 individus ont été abandonnés puisque le tableau
comptabilise 576 réponses alors que le fichier contient 1000 enquêtés.
D’après les pourcentages en ligne, on note que 23.4% des hommes qui ont répondu aux
deux questions pensent que leur travail présente beaucoup de risque pour la santé contre
seulement 12.5% chez les femmes.
De même, d’après les pourcentages en colonne, on remarque que parmi les personnes qui
pensent que leur travail présente beaucoup de risque pour la santé, il y a 71.3% d’hommes
et 28.7% de femmes.
2. Tableau de moyennes
Les tableaux de moyennes peuvent contenir le poids des individus de chaque case, la
moyenne pondérée et l’écart-type pondéré de la variable continue dans chaque case. Ces
trois composantes sont éditées dans le même tableau.
Dans cet exemple, nous souhaitons visualiser l’âge moyen en fonction du sexe et du risque
pour la santé que représente le travail. Nous croisons donc les variables V11 et V25 et nous
demandons la moyenne de la variable V37.
On a choisi de faire apparaître les données manquantes dans ce tableau (optionnel). Leur
présence n’influe pas sur les moyennes et les écarts-types mais permet d’obtenir de
l’information sur les individus qui n’ont pas répondu à la question.
Chaque case du tableau contient les trois statistiques suivantes :
• Moyenne : moyenne pondérée calculée à partir des valeurs prises sur les individus
présentant les deux modalités croisées.
• Ecart-type : ecart-type pondéré calculé à partir des valeurs prises sur les individus
présentant les deux modalités croisées.
• Effectif : effectif ou poids correspondant au nombre d’individus présentant les deux
modalités croisées.
Interprétation
Sur ce tableau, on note que l’âge moyen des 147 femmes qui pensent que leur travail ne
présente aucun risque pour la santé est de 36.7 ans. Elles sont sensiblement plus jeunes
que les autres.
16
SPAD Version 5.0 Tableaux Croisés (TABLE)
La moyenne d’âge des enquêtés qui n’ont pas répondu à la question sur les risques du
travail est nettement plus élevée que celle des autres enquêtés : 54.2 ans pour les hommes
et de 46.8 ans pour les femmes. On peut supposer que ces cases contiennent notamment
des retraités et des personnes sans activité professionnelle.
3. Tableaux de fréquence
Les tableaux de fréquence peuvent contenir en plus de la fréquence, le poids des individus
de chaque case, les pourcentages lignes et les pourcentages colonnes. Toutes ces
composantes sont éditées dans le même tableau.
Dans cet exemple, nous souhaitons visualiser la fréquence du nombre de jours de vacances
en été en fonction du sexe et du risque que représente le travail pour la santé. Nous croisons
donc les variables V11 et V25 et nous demandons la fréquence de la variable V49.
On a choisi de faire apparaître les données manquantes dans ce tableau (optionnel).
Chaque case du tableau contient les quatre statistiques suivantes :
• Fréquence : somme du nombre de jours de vacances pris en été par les individus
présentant les deux modalités croisées.
• Effectif : effectif ou poids correspondant au nombre d’individus présentant les deux
modalités croisées.
• % ligne : pour chaque case d’une ligne, il correspond à l’effectif pondéré de la case sur
l’effectif total de la ligne. Pour chaque ligne, on obtient un pourcentage ligne total de
100%.
• % colonne : pour chaque case d’une colonne, il correspond à l’effectif de la case sur
l’effectif total de la colonne. Pour chaque colonne, on obtient un pourcentage colonne
total de 100%.
Interprétation
Les 77 hommes, pour lesquels le travail présente beaucoup de risques pour la santé, ont
pris en tout 1033 jours de vacances en été.
17
Caractérisation automatique d’une variable
nominale (DEMOD)
Un groupe d’individus est défini par une modalité de la variable à caractériser. Par exemple,
les enquêtés qui ont répondu « oui » à la question « La famille est le seul endroit où l’on se
sente bien » constituent un groupe d’individus. Il y a donc autant de groupes d’individus que
de modalités dans la variable à caractériser. On parlera aussi de classe pour faire la
distinction entre cette modalité à caractériser et les modalités des variables caractérisantes.
Fichier utilisé : ASPI1000.SBA
Paramétrage de la méthode : Dans cette exemple, la variable à caractériser est la variable
V1 « La famille est le seul endroit où l’on se sent bien ? ». Toutes les autres variables du
fichier, nominales et continues, sont sélectionnées comme caractérisantes à l’exception du
coefficient de pondération (V50).
18
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Interprétation
La première ligne du tableau correspond au croisement de la variable nominale avec elle-
même. Les lignes suivantes indiquent que de toutes les variables, c’est l’opinion à propos du
mariage qui est la plus liée avec la variable à caractériser. On trouve ensuite l’opinion sur le
mode de garde de la mère au foyer. Les valeurs-tests associées à ces deux variables sont
maximales (99.99).
Les résultats de ces tests sont à prendre avec précaution. Les tableaux croisant la variable
nominale à décrire avec les deux variables précédentes comportent 7 cases d’effectifs
théoriques inférieurs à 5. On pourra vérifier avec l’édition des tableaux qu’il s’agit des cases
définies par les données manquantes.
19
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
La caractérisation d’une variable nominale par les variables nominales permet d’obtenir
l’édition de tableaux de contingence édités dans la feuille Excel intitulée DEMOD-2.
Ce tableau donne les pourcentage lignes et colonnes ainsi que l’effectif de chaque case. Cet
effectif est la somme des poids des individus de la case quand les individus ont des poids
différents. Les pourcentages sont calculés sur les poids des individus des cases (cf. page
15).
Interprétation
20
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
On lit dans ce tableau qu’il existe une sur-représentation des enquêtés pensant que l’union
est indissoluble parmi ceux qui pensent que la famille est le seul endroit où l’on se sent bien
(34.9% contre 23.1% dans la population). D’autre part, les enquêtés estimant que le mariage
doit être dissous en cas d’accord entre les deux parties sont nettement sous-représentés
(22.6% contre 38.7% dans la population).
Dans cet exemple, nous présentons uniquement les résultats de la modalité Oui. Rappelons
que la variable à caractériser est la variable V1 « La famille est le seul endroit où l’on se sent
bien ? ».
21
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Interprétation
La première variable de ce tableau est la variable de la modalité à caractériser. Sa valeur-
test est très grande. Elle est ramenée à un seuil maximal 99.99. Ceci est dû au fait que la
modalité à caractériser appartient à cette variable.
La variable sur l’opinion à propos du mariage est celle dont le profil dans la classe est le plus
différent du profil global dans l’échantillon. C’est la variable nominale qui a la plus grande
valeur-test. Cela signifie que les personnes qui pensent que la famille est le seul endroit où
l’on se sente bien n’ont pas la même opinion à propos du mariage que l’ensemble des
enquêtés de l’échantillon.
22
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Tous les Khi-2 du tableau ont 2 degrés de liberté. En effet la variable « La famille est le seul
endroit où l’on se sente bien » possède deux modalités (« oui » et « non »), et les réponses
manquantes forment une troisième modalité.
Interprétation
Les deux premières lignes du tableau concernent les propres modalités de la variable à
caractériser. Ce sont bien sûr les plus caractéristiques (valeurs-tests bornées à la valeur
maximale 99.9).
Les modalités « dissous si accord » et « union indissoluble » de la variable « Opinion à
propos du mariage » sont ensuite les modalités qui caractérisent le plus la variable « La
famille est le seule endroit où l’on se sente bien ».
23
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
24
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Lorsque la valeur-test est positive, cela signifie que la modalité est sur-représentée dans
la classe. La modalité est sous-représentée si la valeur-test est négative. Si la variable
caractérisante a seulement 2 modalités et pas de données manquantes, les valeurs-tests
associées sont opposées et égales en valeur absolue.
• Probabilité : cette colonne donne la probabilité associée à la valeur-test.
• Poids : il s’agit du poids des individus dans la modalité caractérisante : effectif si le poids
des individus est uniforme (comme c’est le cas ici) et somme des poids des individus si
ceux-ci ont des poids différents.
Les modalités caractérisantes sont rangées par valeur-test décroissante (option par défaut).
Les modalités les plus caractéristiques pour lesquelles la valeur-test est la plus grande (et où
la probabilité est la plus faible) seront éditées en premier (pour réduire l’encombrement,
seules les modalités dont la valeur-test est supérieure à 6 en valeur absolue ont été
conservées).
% de la % de la % de la classe
Modalités Valeur-
Libellés des variables modalité dans modalité dans dans la Probabilité Poids
caractéristiques Test
la classe l'échantillon modalité
La famille est le seul endroit oú l'on se sente bien oui 100,00 56,10 100,00 36,81 0,000 561
Opinion à propos du mariage union indissoluble 34,94 23,10 84,85 10,44 0,000 231
Regardez-vous la télévision ... tous les jours 55,79 41,90 74,70 10,15 0,000 419
La mère au foyer est un mode de garde ... très satisfaisant 89,48 78,60 63,87 9,46 0,000 786
Age et sexe de l'enquêteur femme plus 38 ans 44,21 33,80 73,37 7,92 0,000 338
Diplôme d'enseignement général le plus élevé obtenu CEP ou fin études 41,53 32,10 72,59 7,26 0,000 321
Diplôme de l'enquêté(e) en 5 classes CEP ou fin études 41,53 32,10 72,59 7,26 0,000 321
Age de l'enquêté(e) en 5 classes 65 ans et plus 24,06 16,90 79,88 6,99 0,000 169
Taille d'agglomération (en nombre d'habitants) moins de 2.000 13,37 8,30 90,36 6,97 0,000 83
Diplôme d'enseignement général le plus élevé obtenu aucun 25,85 18,90 76,72 6,43 0,000 189
Diplôme de l'enquêté(e) en 5 classes Aucun 25,85 18,90 76,72 6,43 0,000 189
Diplôme de l'enquêté(e) en 5 classes Bac - Brevet sup. 11,41 18,20 35,16 -6,20 0,000 182
Statut d'occupation du logement locataire 43,49 52,30 46,65 -6,26 0,000 523
Statut d'occupation du logement en 4 classes locataire 43,49 52,30 46,65 -6,26 0,000 523
La mère au foyer est un mode de garde ... assez satisfaisant 6,77 12,90 29,46 -6,45 0,000 129
Age de l'enquêté(e) en 5 classes Moins de 25 ans 8,38 15,00 31,33 -6,55 0,000 150
Diplôme d'enseignement général le plus élevé obtenu baccalauréat (1/2) 9,09 16,20 31,48 -6,82 0,000 162
La préservation de l'environnement est une chose ... très importante 56,51 65,70 48,25 -6,94 0,000 657
Age et sexe de l'enquêteur femme moins 39 ans 42,60 52,60 45,44 -7,13 0,000 526
Diplôme de l'enquêté(e) en 5 classes Université,gde école 6,77 15,00 25,33 -8,20 0,000 150
Diplôme d'enseignement général le plus élevé obtenu université,gde école 6,06 14,20 23,94 -8,32 0,000 142
Taille d'agglomération (en nombre d'habitants) Paris 19,25 32,60 33,13 -10,15 0,000 326
Opinion à propos du mariage dissout si accord 22,64 38,70 32,82 -11,81 0,000 387
La famille est le seul endroit oú l'on se sente bien non 0,00 43,10 0,00 -35,71 0,000 431
Profession de l'enquêté(e) (ou dernière exercée) salarié agricole 0,00 0,00 0,00 -99,99 0,000 0
Age et sexe de l'enquêteur inconnu 0,00 0,00 0,00 -99,99 0,000 0
Interprétation
Tout d’abord, on s’intéresse aux modalités sur-représentées dans le groupe d’individus
définis par la modalité « oui » de la question sur la famille.
La modalité qui caractérise le mieux ce groupe d’individus est la modalité à caractériser elle-
même. La valeur-test associée fixe la limite supérieure de toute valeur-test dans le contexte
de cette variable.
On note que la modalité « union indissoluble » de la variable « Opinion à propos du
mariage » est celle qui caractérise le mieux la variable à décrire (valeur-test la plus élevée).
Parmi les enquêtés qui pensent que la famille est le seul endroit où l’on se sente bien, 34.9%
(% de la modalité dans la classe) pensent que l’union est indissoluble. Seulement 23.1% de
l’échantillon (% de la modalité dans l’échantillon) a cette opinion à propos du mariage. De
plus, 84.8% (% de la classe dans la modalité ) des enquêtés qui pensent que le mariage est
indissoluble se trouvent dans cette classe.
25
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Si l’on regarde les modalités des variables caractérisantes qui sont sous-représentées, on
remarque que celle qui caractérise le mieux la modalité à décrire (valeur-test la plus
négative) est la modalité « dissous si accord » de la question sur l’opinion à propos du
mariage. Seulement 22.6% des enquêtés estimant que la famille est le seul endroit où l’on
se sente bien pensent que le mariage doit être dissous si accord contre 38.7% dans
l’échantillon interrogé (Valeur-test = -11.81).
26
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
• Poids : il s’agit du poids des individus dans la modalité caractérisante : effectif si le poids
des individus est uniforme (comme c’est le cas ici) et somme des poids des individus si
ceux-ci ont des poids différents.
On s’est limité aux modalités dont le pourcentage dans la classe est supérieur à 50%.
La famille est le seul endroit oú l'on se sente bien
La classe: oui (Effectif: 561 - Pourcentage: 56.10) contient ...
% de la % de la
Modalités Valeur-
Libellés des variables modalité dans modalité dans Probabilité Poids
caractéristiques Test
la classe l'échantillon
La famille est le seul endroit oú l'on se sente bien oui 100,00 56,10 36,81 0,000 561
Parcipation à une action de défense de l'environnement non 92,87 87,40 5,80 0,000 874
Possédez vous des biens immobiliers ? non 92,87 91,80 1,28 0,101 918
Faites-vous partie d'une association confessionnelle ? non 92,34 93,10 -0,95 0,170 931
La mère au foyer est un mode de garde ... très satisfaisant 89,48 78,60 9,46 0,000 786
A souffert d'état dépressif ces quatre dernières semaines : non 89,30 87,40 1,95 0,026 874
Possédez vous des valeurs mobilières ? non 88,24 87,90 0,27 0,393 879
Possession ou usage d'une machine à laver la vaisselle non 78,97 78,90 0,02 0,493 789
A souffert de nervosité ces quatre dernières semaines : non 76,47 72,60 3,02 0,001 726
La société francaise a-t-elle besoin de se transformer ? oui 71,30 75,90 -3,80 0,000 759
Etes-vous gêné par les bruits ? pas du tout 65,24 60,60 3,33 0,000 606
Comparée aux personnes de votre âge, votre santé est ... satisfaisante 62,39 60,00 1,68 0,047 600
La vue sur l'extérieur vous plaît-elle ? beaucoup 57,22 51,60 3,96 0,000 516
La préservation de l'environnement est une chose ... très importante 56,51 65,70 -6,94 0,000 657
Regardez-vous la télévision ... tous les jours 55,79 41,90 10,15 0,000 419
Possession ou usage d'une télévision couleur non 55,44 62,40 -5,10 0,000 624
A qui incombent les travaux ménagers et les soins enfants ? homme et femme 55,08 59,90 -3,46 0,000 599
L'enquêté(e) s'est-il (elle) montré(e) intéressé(e) ? assez 55,08 54,20 0,57 0,285 542
Opinion sur le cadre de vie quotidien satisfait 54,19 54,90 -0,45 0,328 549
Vous arrive-t-il d'inviter des amis à déjeuner ? souvent 52,76 60,60 -5,71 0,000 606
Les découvertes scientifiques améliorent-elles la vie ? oui, un peu 52,23 50,90 0,89 0,188 509
Sexe de la personne interrogée féminin 51,34 53,10 -1,20 0,115 531
Vous imposez-vous régulièrement des restrictions ? oui 51,34 56,90 -3,96 0,000 569
Appartenance à au moins une association non 50,62 46,40 2,97 0,002 464
Les dépenses de logement sont pour vous ... pas de gros problème 50,45 44,40 4,30 0,000 444
Interprétation
On compare la colonne % de la modalité dans la classe avec la colonne % de la modalité
dans l’échantillon.
Le groupe d’individus à caractériser est constitué des enquêtés qui ont répondu « oui » à la
question sur la famille (la première ligne du tableau indique que 100% des individus de ce
groupe ont répondu « oui » à cette question).
La seconde ligne du tableau se lit de la façon suivante. Il y a 92.9% des individus du groupe
ont répondu « non » à la question « Participation à une action de défense de
l’environnement » alors qu’on en trouve en moyenne seulement 87.4% dans l’ensemble de
la population. C’est la modalité la plus consensuelle. La valeur-test de 5.80 associée à cette
variable mesure de l’importance de cet écart entre les pourcentages.
27
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Il n’est pas suffisant qu’une modalité soit majoritaire dans un groupe d’individus (donc
minoritaire à l’extérieur) pour être une exclusivité caractéristique de ce groupe. Avec par
exemple seulement 40% dans le groupe d’individus, la modalité peut être caractéristique de
ce groupe lorsque les 60% restant sont dispersés au hasard dans 3 autres groupes à raison
de 20% par groupe. C’est pourquoi, dans le tableau suivant, on se restreint aux modalités
caractéristiques, sélectionnées par les valeurs-tests. Elles permettent de contrôler
l’importance de la modalité correspondante pour caractériser la classe.
Ce tableau se décompose en 6 colonnes :
• Libellé de la variable : libellé complet de la variable dont la modalité caractérisante est
issue.
• Modalité caractérisante : libellé complet de la modalité caractérisante.
• % de la classe dans la modalité : équivaut à l’effectif de la modalité dans la classe
divisé par l’effectif de la modalité dans la population globale.
Les effectifs sont des poids si les individus sont pondérés.
• Valeur-test : cette colonne donne la valeur-test associée à chacune des modalités.
Lorsque la valeur-test est positive, cela signifie que la modalité est sur-représentée dans
la classe. La modalité est sous-représentée si la valeur-test est négative. Si la variable
caractérisante a seulement 2 modalités et pas de données manquantes, les valeurs-tests
associées sont opposées et égales en valeur absolue.
• Probabilité : cette colonne donne la probabilité associée à la valeur-test.
• Poids : il s’agit du poids des individus dans la modalité caractérisante : effectif si le poids
des individus est uniforme (comme c’est le cas ici) et somme des poids des individus si
ceux-ci ont des poids différents.
Le tableau suivant donne les modalités des variables caractérisantes dont la part dans le
groupe est supérieure à 70% (% de la classe dans la modalité). On s’est également limité
aux modalités dont la valeur-test est supérieure à 2 (seuil de 1%).
28
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Interprétation
On note sur la première ligne que 100% des enquêtés qui ont répondu « oui » à la question
sur la famille se trouvent dans cette classe puisque le groupe est constitué par les individus
qui ont choisi la modalité « oui » à cette question.
La seconde ligne du tableau se lit de la façon suivante. 90.6% des enquêtés exploitants
agricoles sont rassemblés dans cette classe. Les autres sont répartis en dehors de la classe.
C’est la modalité la plus exclusive. La valeur-test 4.11 permet de juger de l’intérêt de cette
profession pour caractériser cette classe.
On lit sur la sixième ligne du tableau que 84.8% des individus qui ont choisi l’item « union
indissoluble » à la question « opinion sur le mariage » sont rassemblés dans le groupe
d’individus. Les autres sont répartis en dehors de ce groupe. La valeur-test 10.44 montre
l’intérêt de cet item pour caractériser le groupe (plus caractéristique bien que moins exclusive
que la précédente).
Le tableau suivant liste les variables continues les plus caractéristiques de la variable
nominale à décrire, ici « La famille est le seule endroit où l’on ses sente bien ».
29
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Le premier paramètre de la loi de Fisher (numérateur) est identique pour toutes les variables
continues puisqu’il s’agit du nombre de modalités de la variable à décrire (y compris la
modalité formée par les réponses manquantes) moins un.
Interprétation
Les variables « Age de fin d’études » et « Age de l’enquêté » sont donc les deux variables
continues les plus liées à l’opinion « La famille est le seul endroit où l’on se sente bien ».
Le paramètre Tableaux de moyennes permet de demander l’édition des statistiques
principales (moyenne et écart-type notamment) de la variable continue. Il y aura autant de
tableaux édités que de variables continues caractérisantes.
30
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Age de l'enquêté(e)
Modalités Effectif Poids Moyenne Ecart-type Minimum Maximum
oui 561 561,00 47,897 17,591 18,000 90,000
non 431 431,00 35,729 14,704 18,000 84,000
*Reponse manquante* 8 8,00 51,375 18,069 27,000 81,000
Ensemble 1000 1000,00 42,680 17,496 18,000 90,000
Interprétation
Les personnes qui pensent que la famille est le seul endroit où l’on se sente bien ont en
moyenne 47.9 ans, contre 42.7 ans dans l’ensemble de l’échantillon. Les personnes dont
l’opinion est inverse ont en moyenne 35.7 ans.
Le tableau suivant liste les variables continues pour lesquelles les moyennes dans la classe
(définie par la modalité à décrire) sont les plus différentes des moyennes générales dans
l’échantillon.
31
SPAD Version 5.0 Caractérisation automatique d’une variable nominale (DEMOD)
Interprétation
On note que les variables « Age de l’enquêté » et « Age de fin d’études » sont les deux
variables continues les plus caractéristiques de ce groupe d’individus. Cette classe se
caractérise par des personnes plus âgées que la moyenne et dont l’âge de fin d’études est
plus faible que la moyenne. Ainsi, les individus de cette classe ont 47.9 ans en moyenne
contre 42.7 ans dans l’échantillon. En moyenne, ils ont arrêté leurs études à 15.9 ans contre
17.3 pour l’ensemble de l’échantillon.
32
Caractérisation automatique d’une variable
continue (DESCO)
Dans ce tableau, on a choisi de n’éditer que 10 modalités. Il s’agit de celles qui ont la plus
grande valeur-test en valeur absolue.
33
SPAD Version 5.0 Caractérisation automatique d’une variable continue (DESCO)
Regardez-vous la télévision ... tous les jours 15,74 3,35 -10,64 0,000 416,00
Diplôme d'enseignement général le plus élevé obtenu aucun 14,40 2,98 -11,22 0,000 186,00
La famille est le seul endroit oú l'on se sente bien oui 15,94 3,50 -12,38 0,000 559,00
Diplôme d'enseignement général le plus élevé obtenu CEP ou fin études 14,82 1,77 -13,80 0,000 321,00
Interprétation
On note que les enquêtés diplômés d’une université ou d’une grande école ont un âge
moyen de fin d’études (23.3 ans) très nettement supérieur à la moyenne (17.3 ans). A
l’inverse, les enquêtés titulaires d’un certificat d’études primaires (CEP) ou de fin d’études
ont un âge moyen de fin d’études (14.8 ans) nettement inférieur à la moyenne (17.3 ans).
34
SPAD Version 5.0 Caractérisation automatique d’une variable continue (DESCO)
• Probabilité : cette colonne donne pour chaque variable nominale la probabilité associée
à la statistique de Fisher.
Dans le tableau de résultats suivant, on n’édite que les 10 variables nominales les plus
caractéristiques de la variable « Age de fin d’études ».
Interprétation
Il existe naturellement une forte liaison entre l’âge de fin d’études et le diplôme
d’enseignement le plus élevé. En fonction de la profession exercée, il semble que l’on
observe également des différences significatives au niveau de l’âge moyen de fin d’études.
On note également sur ce tableau les liens qui existent entre l’âge de fin d’études et l’heure
habituelle de coucher ou avec les réponses à la question « La famille est le seul endroit où
l’on se sent bien ? ».
35
SPAD Version 5.0 Caractérisation automatique d’une variable continue (DESCO)
A chaque test de corrélation est associée une probabilité critique associée à l’hypothèse de
nullité. La probabilité critique est ensuite transformée en valeur-test.
Le tableau est constitué de 5 colonnes :
• Libellé de la variable : libellé complet des variables continues caractérisantes.
• Corrélation : corrélation entre la variable à caractériser et chacune des variables
continues. Il faut noter que la corrélation est ici calculée après élimination des données
manquantes.
• Valeur-test : valeur-test associée à la probabilité du test de corrélation nulle.
• Probabilité : probabilité associée au test de corrélation.
• Poids : effectif sur lequel est calculée la corrélation si le poids des individus est uniforme
et le poids des individus si les individus ont des poids différents.
Ici, on a choisi de n’éditer que les corrélations dont la probabilité associée est inférieure à
1%.
Interprétation
On note que la corrélation de la variable « Age de fin d’études » avec elle-même est
logiquement de 1. La valeur-test associée dépasse le seuil maximum fixé à 99.90.
36
Analyse bivariée (BIVAR)
L’analyse bivariée est une procédure essentiellement graphique permettant de visualiser les
liaisons que deux variables continues prises ensemble entretiennent avec les autres
variables d’un fichier. De façon schématique, les deux variables continues seront les axes x
et y du graphique, se coupant au point moyen des variables. Les autres variables continues
seront des directions dans le plan (comme dans une analyse en composantes principales).
Les individus seront des points correspondant à leurs coordonnées dans ce plan. Les
modalités des variables nominales seront les points moyens des groupes correspondants
d’individus (comme en analyse des correspondances multiples).
Interprétation
37
SPAD Version 5.0 Analyse bivariée (BIVAR)
On note que le revenu personnel souhaité par les enquêtés se caractérise par un écart-type
qui représente près des deux tiers de sa moyenne (65,6%). Cette variable est beaucoup plus
dispersée que l’âge de fin d’études.
Moyennes et valeurs-test des modalités sur le plan défini par les variables:
V46 - Age de fin d'étude
V47 - Revenu personnel souhaité
La famille est le seul endroit oú l'on se sente bien
Valeurs-Test Valeurs-Test Moyennes Moyennes
Libellé Effectif Poids
Axe: V46 Axe: V47 Axe: V46 Axe: V47
oui 561 561,00 -12,38 -5,10 15,94 6595,45
non 431 431,00 12,69 5,23 19,07 8109,49
*Reponse manquante* 8 8,00 -1,58 -0,68 15,13 6155,56
38
SPAD Version 5.0 Analyse bivariée (BIVAR)
Interprétation
Si l’on retient les modalités qui ont les plus fortes valeurs-tests (supérieures à 10 en valeur
absolue par exemple), on note que les enquêtés qui ont répondu oui ou non à la variable
« La famille est le seul endroit où l’on se sente bien » ont un âge moyen de fin d’études
significativement différent de l’âge moyen global de fin d’études. Cet âge moyen est
respectivement de 15.94 ans pour les réponses « oui » et 19.07 ans pour les « non » pour
une moyenne générale de 17.29 ans dans l’échantillon (voir tableau des statistiques
sommaires : Bivar-1).
39
SPAD Version 5.0 Analyse bivariée (BIVAR)
Interprétation
On note que la corrélation entre les deux variables de base (46 et 47) n’est pas négligeable
(0.28). Plus l’âge de fin d’études est grand, plus les enquêtés ont tendance à désirer un
revenu personnel élevé.
Les corrélations entre les variables continues de base et les variables continues illustratives
sont parfois assez faibles. La corrélation entre les variables 48 et 47 atteint une valeur
importante ( - 0.40).
En ce qui concerne les coefficients de corrélation partielle, on remarque que ceux-ci ont
parfois fortement évolués par rapport aux coefficients de corrélation simple, ce qui s’explique
par la corrélation non négligeable entre les deux variables de base.
40
Marquage sémantique de modalités de
variables nominales (MSMOD)
Cette procédure permet de caractériser les modalités d'une variable nominale par des
marquages sémantiques.
C'est une généralisation de la procédure DEMOD existante, ou encore la généralisation
d’arbres de segmentation.
Un marquage sémantique est une conjonction logique des modalités des variables
caractérisantes (Exemple: les hommes de moins de 25 ans habitant en région parisienne).
Si vous utilisez des variables continues comme variables caractérisantes, elles seront
découpées à chaud en N classes (paramétrage à spécifier) et considérées comme des
variables nominales.
Pour piloter la recherche des marquages sémantiques d'une modalité, il faut définir 2
paramètres fondamentaux :
• Le seuil (en pourcentage) de débordement admis pour chaque marquage. S’il est de
15%, tout marquage sémantique dont plus de 15% des individus sont extérieurs à la
modalité ou à la classe que l'on caractérise sera rejeté.
Plus le débordement d'un marquage est petit et son recouvrement de la modalité, ou de
la classe, est important, plus le marquage est caractéristique.
• Le seuil (en pourcentage) de recouvrement cumulé souhaité pour la modalité que
l'on caractérise. Si ce seuil vaut 75%, cela veut dire que vous cherchez à recouvrir 75%
de la modalité ou de la classe que vous caractérisez. Au delà, le processus de recherche
des marquages s'arrête.
A l'exception du premier marquage, le Nième marquage peut recouvrir une partie déjà
recouverte par les N-1ième premiers marquages et une partie nouvelle (Ajout du
marquage N). Le cumul des recouvrements est l’union des N marquages.
Si le seuil n'est pas atteint, ceci signifie que les autres paramètres de recherche des
marquages sont trop contraignants (le seuil de débordement, le seuil de la valeur-test
pour une modalité, le seuil de recouvrement nouveau, le seuil de la valeur-test pour un
marquage).
41
SPAD Version 5.0 Marquage sémantique de modalités de variables nominales (MSMOD)
Dans l’exemple suivant, nous caractérisons les 759 enquêtés ayant répondu Oui à la
question « La société française a t’elle besoin de se transformer ? » par leurs 4 premiers
marquages sémantiques.
Les marquages sémantiques d'un groupe sont classés par ordre d'importance à l'aide du
critère de "valeur-test" auquel est associé une probabilité : plus la valeur-test est grande
(plus la probabilité est faible), plus le marquage est caractéristique.
Valeur-
Poids Pourcentage Modalité Variable
Test
Définition du marquage
108 10,80 5,568
numéro 2
5,568 beaucoup moins bien Evolution du niveau de vie des français depuis 10 ans
Recouvrement 103 13,57
Ajout de recouvrement 44 5,80
Cumul de recouvrement 281 37,02
Débordement 5 4,63
Valeur-
Poids Pourcentage Modalité Variable
Test
Définition du marquage
200 20,00 4,208
numéro 3
4,379 locataire Statut d'occupation du logement
3,279 Et non Possédez vous des biens immobiliers ?
2,497 Et assez mauvais Opinion sur le fonctionnement de la justice en 1979
Recouvrement 174 22,92
Ajout de recouvrement 155 20,42
Cumul de recouvrement 436 57,44
Débordement 26 13,00
Valeur-
Poids Pourcentage Modalité Variable
Test
Définition du marquage
161 16,10 3,208
numéro 4
3,279 non Possédez vous des biens immobiliers ?
2,181 Et 34.0000 45.00 Age de l'enquêté(e)
Recouvrement 138 18,18
Ajout de recouvrement 69 9,09
Cumul de recouvrement 505 66,53
Débordement 23 14,29
La première ligne de chaque tableau indique le numéro du marquage, son poids dans
l’ensemble de l’échantillon, le pourcentage global ainsi que sa valeur-test. Le poids du
42
SPAD Version 5.0 Marquage sémantique de modalités de variables nominales (MSMOD)
Interprétation
Dans cet exemple, nous caractérisons les 759 enquêtés ayant répondu Oui à la question
« La société française a t’elle besoin de se transformer ? » par 4 marquages sémantiques.
Le premier marquage regroupe les 256 enquêtés de l’étude qui ont répondu que le
fonctionnement de la justice en 1979 était très mauvais. Ce marquage représente 25.6% de
l’ensemble de l’échantillon. Ce marquage est défini par une seule modalité, ce qui explique
le fait que la valeur-test du marquage et celle de la modalité soient identiques.
Cette valeur élevée (7.8) signifie que la proportion d’enquêtés très critiques sur le
fonctionnement de la justice est significativement plus élevée parmi ceux qui pensent que la
société française à besoin de se transformer que chez les autres.
43
SPAD Version 5.0 Marquage sémantique de modalités de variables nominales (MSMOD)
Ce marquage, qui regroupe en tout 256 enquêtés, recouvre 237 individus parmi les 759
enquêtés qui pensent que la société française à besoin de se transformer, soit 31.23%.
Comme il s’agit du premier marquage, l’ajout et le cumul sont égaux au recouvrement.
Parmi les 256 enquêtés concernés par ce marquage, 19 personnes (256-237) ont une
opinion qui diffère sur la question des transformations à apporter à la société française, soit
7.42% (inférieur au seuil de débordement toléré par défaut : 15%).
Le second marquage concerne les enquêtés qui pensent que le niveau de vie des Français
a fortement régressé depuis 10 ans. Ce marquage rassemble en tout 108 individus.
La valeur-test (5.6) de ce marquage, représenté par une seule modalité, signifie que l’opinion
très pessimiste sur l’évolution du niveau de vie des français est plus représentée en
proportion chez les enquêtés qui pensent que la société à besoin de se transformer que
chez les autres.
Ce marquage recouvre en tout 108 individus dont 103 qui pensent que la société française
doit se transformer, soit un débordement minimal de 5 individus.
En revanche ce marquage n’ajoute que 44 individus par rapport au précédent. Les 57 autres
individus étaient en fait déjà identifiés par le premier marquage.
Au niveau du cumul des deux premiers marquages, 281 individus sur les 759 initiaux ont été
identifiés, soit 37.02%.
44
Les Analyses
Factorielles
45
Analyse en composantes principales (COPRI)
46
SPAD Version 5.0 Analyse en composantes principales (COPRI)
On s’intéresse à 51 villes. Les données recueillies ne font pas seulement référence aux
salaires mais elles constituent un ensemble plus vaste de 40 variables concernant aussi les
prix et quelques autres indicateurs essentiellement économiques1. Les villes sont réparties
dans 10 régions du monde (variable numéro 2) et les observations sont connues à deux
dates (1991 et 1994: variable n° 1) bien que pour le moment on ne considère que les
données de l’édition 1994.
Le tableau des données se présente sous la forme d’un tableau à 40 colonnes et deux fois
51 lignes: chaque ville apparaît deux fois, une première fois pour les observations de 1991,
une autre fois pour celles de 1994 (le tableau est ici constitué de l’empilement des données
des deux périodes).
Le tableau suivant fournit la liste des 40 variables relevées sur chaque ville. Les libellés, bien
que peu explicites, suffiront pour l’analyse que l’on souhaite faire.
Année 2 Modalites
Region du monde 10 Modalites
I_prix sans loyer Continue
I_prix avec loyer Continue
I_salaires bruts Continue
I_salaires nets Continue
Heures travail annuelles Continue
Vacances annuelles payees Continue
Pouvoir d'achat brut Continue
Pouvoir d'achat net Continue
Kg pain=temps de travail Continue
Hamb=temps de travail Continue
Denrées alimentaires Continue
Panier complet Continue
Dames vetements Continue
Hommes vetements Continue
4pièces appart meublé Continue
3pièces appart non meublé Continue
Loyer normale Continue
Appareils ménagers Continue
Bus tram ou metro Continue
Taxi Continue
Voitures Continue
Restaurant Continue
Nuit d'hôtel Continue
Services diverses Continue
Impots et cotisations sociales en % salaire brut Continue
Salaire horaire net Continue
Instituteur Continue
Chauffeur d'autobus Continue
Mécanicien autos Continue
Manoeuvre du bâtiment Continue
Tourneur Continue
Cuisinier chef Continue
Chef de service Continue
Ingeniéur Continue
Caissier de banque Continue
Secrétaire direction Continue
Vendeuse Continue
Ouvrière du textile Continue
1 Données recueillies par l'Union de Banques Suisses, dans sa publication "Prices and Earnings Around the
Globe", 1991 et 1994
47
SPAD Version 5.0 Analyse en composantes principales (COPRI)
D'autres variables informent sur le niveau des salaires, répartis selon 12 professions. Enfin,
d'autres variables donnent plutôt une idée du mode de vie, comme les congés payés, les
jours de travail, etc.
Pour comparer les villes entre elles, il est certes possible de prendre en compte toutes les
variables disponibles. Cela conduira ici à comparer les villes en tenant compte
simultanément du niveau des prix, des salaires, des impôts, des heures nécessaires pour
acquérir un hamburger, etc. Les différences observées entre les villes sont alors difficiles à
interpréter car elles peuvent avoir des causes multiples et de nature très différentes.
Il est plus “sage” de sélectionner un groupe de variables, ce groupe étant homogène par
rapport à un thème bien défini, et cohérent avec l'objectif propre de l'étude. Un thème, c’est-
à-dire un groupe de variables, définit un certain point de vue choisi par l’utilisateur pour
comparer les individus (ici les villes). Ce faisant, l'interprétation des proximités entre villes
sera plus facile à faire.
Les variables choisies, appelées variables actives, constituent donc les seuls éléments
utilisés pour comparer les villes entre elles. Cela ne signifie pas que le reste de l'information
soit abandonné: il servira ensuite à illustrer ou peut-être suggérer des “explications” pour les
similitudes et différences observées entre les villes. C'est pour cela que l’on appelle
illustratives ou supplémentaires les autres variables.
Toute analyse statistique commence donc par le choix des éléments actifs.
Dans notre exemple, nous décidons de prendre comme variables actives l’ensemble des
revenus nets perçus dans les 12 professions retenues. Deux villes seront proches si les
rémunérations sont analogues dans l’ensemble de ces 12 professions, indépendamment de
ce qui peut les différencier par ailleurs (taille, densité, altitude, etc.). La liste des variables
actives est donnée dans le tableau suivant :
Instituteur Continue
Chauffeur d'autobus Continue
Mécanicien autos Continue
Manoeuvre du bâtiment Continue
Tourneur Continue
Cuisinier chef Continue
Chef de service Continue
Ingeniéur Continue
Caissier de banque Continue
Secrétaire direction Continue
Vendeuse Continue
Ouvrière du textile Continue
Les autres variables seront utilisées comme illustratives et serviront, comme on le verra,
dans la phase d’interprétation des résultats. Nous mettons en œuvre une analyse normée.
48
SPAD Version 5.0 Analyse en composantes principales (COPRI)
49
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
Dans cet exemple, aucune valeur-test n’est inférieure à 2. Nous sommes donc en présence
de variables continues linéairement dépendantes. Nous pouvons tout de même établir une
hiérarchie dans la force des liaisons.
50
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
Nous obtenons une première composante principale très dominante, expliquant près de 85%
de l’inertie totale. Avec seulement les trois premiers axes factoriels, nous avons près de 95%
de l'inertie (ou de la dispersion) de tout le nuage de points.
51
SPAD Version 5.0 Analyse en composantes principales (COPRI)
L'ampleur de l'intervalle donne une indication sur la stabilité de la valeur propre vis-à-vis des
fluctuations dues à l'échantillonnage. L'empiètement des intervalles de deux valeurs propres
consécutives suggèrera donc l'égalité de ces valeurs propres. Les axes correspondants sont
alors définis à une rotation près. Ainsi, l'utilisateur pourra éviter d'interpréter un axe instable
selon ce critère.
Ce tableau est constitué de 4 colonnes :
52
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
Les coordonnées des variables ont toutes le même signe sur le premier axe et sont
comprises entre -0,84 et -0.97. Ce sont des valeurs extrêmement élevées en valeur absolue.
Il est clair que le nuage des points-variables n'est pas centré.
Dans cet exemple, la première composante principale naît de la forte corrélation entre les
variables actives. La première composante se situe alors graphiquement au milieu du
faisceau des variables actives.
Cette situation peut s’interpréter de la façon suivante. D’une façon générale pour toute ville,
si un salaire est élevé sur un poste, il est élevé sur l’ensemble de postes; s’il est faible sur un
poste, il est faible sur l’ensemble. C’est la généralité de cette observation sur l’ensemble du
tableau qui constitue la structure la plus forte des données et engendre le premier facteur.
Cette caractéristique, fréquemment rencontrée en ACP sur le premier axe se nomme facteur
de taille.
Le premier axe de l’analyse oppose d’une part les villes dont le salaire moyen est élevé aux
villes dont le salaire moyen est plus faible.
Le second axe oppose d’autre part les villes qui payent relativement bien le chef de service,
le caissier de banque et le cuisinier chef des villes qui payent relativement mieux les
professions socialement moins considérées comme Manœuvre du bâtiment, Mécanicien
Auto, Tourneur et Ouvrière du textile.
Facteur de taille
Le fait le plus marquant de cette analyse est le facteur taille, très dominant, porté par la
première composante. Ce facteur reflète pratiquement exclusivement la disparité des villes
quand au niveau moyen des salaires. Les autres facteurs sont en quelque sorte "écrasés"
par la force de ce phénomène dans le tableau des données.
Dans ce cas, il peut être intéressant de reprendre l'analyse en cherchant à éliminer des
données cette connaissance que nous avons sur les salaires des villes.
On y parvient, par exemple, en divisant les salaires de chaque profession par le salaire
moyen de la ville.
53
SPAD Version 5.0 Analyse en composantes principales (COPRI)
la composante principale est fonction linéaire de la variable). Une corrélation proche de zéro
indique qu'il n'y a pas d'association linéaire entre la composante principale et la variable.
Corrélations des variables actives avec les facteurs
Libellé de la variable Axe 1 Axe 2 Axe 3 Axe 4 Axe 5
Instituteur -0,94 -0,04 -0,21 0,16 0,13
Chauffeur d'autobus -0,96 -0,13 -0,15 0,08 0,09
Mécanicien autos -0,92 -0,27 0,19 0,07 -0,03
Manoeuvre du bâtiment -0,90 -0,37 0,11 0,01 -0,02
Tourneur -0,95 -0,24 -0,02 -0,01 0,11
Cuisinier chef -0,87 0,24 0,40 0,05 0,06
Chef de service -0,84 0,49 -0,01 0,04 0,12
Ingeniéur -0,90 0,27 -0,03 -0,30 0,09
Caissier de banque -0,88 0,38 -0,13 0,11 -0,20
Secrétaire direction -0,97 0,00 -0,10 -0,03 -0,11
Vendeuse -0,96 0,01 0,08 0,00 -0,17
Ouvrière du textile -0,94 -0,25 -0,10 -0,17 -0,06
Interprétation
Comme il s’agit d’une analyse normée, les corrélations coïncident avec les coordonnées. On
peut donc se référer à l’interprétation des coordonnées.
54
SPAD Version 5.0 Analyse en composantes principales (COPRI)
2
ϕ 2jα
COS ( j , α ) = avec φjα la coordonnée de la variable j sur l’axe α.
var( j)
La somme des cosinus carrés pour tous les axes est toujours égale à l'unité :
p
∑ COS 2 ( j , α ) = 1
α =1
En ACP normée les variances sont égales à l'unité. Les cosinus carrés coïncideront avec le
carré des coordonnées des variables :
COS 2 ( j ,α ) = ϕ 2jα en ACP norme" e
Et dans tous le cas:
COS 2 ( j ,α ) = CORR 2 (VARIABLE, FACTEUR )
La contribution d’une variable à l'inertie d'un axe est la part de l'inertie de l'axe due à la
variable. L'inertie sur un axe s’écrit :
p
λα = ∑ ϕ 2j α
j=1
CTR( j,α ) =
ϕ 2jα
=
( λα u jα )
2
= u 2jα
λα λα
Or u jα est la coordonnée de l’ancien axe unitaire porteur de la variable j sur l’axe factoriel
α . On a donc le résultat suivant:
CTR( j ,α ) = ( ANCIEN AXE UNIT.)2
Pour connaître la contribution d'une variable à la formation d'un axe, il suffit d'élever au carré
chaque composante du vecteur u. Ces contributions indiquent quelles variables sont
responsables de la formation des axes. L'addition de toutes les contributions sur un axe est
égale à 1 (ou 100 en pourcentage).
p
∑ CTR ( j , α ) = 100
j =1
Les composantes de u donnent également les combinaisons linéaires des variables d'origine
qui définissent les nouvelles variables de variance maximale. Par exemple, l'expression de la
première composante sera:
Ψ1 = −0.30 z INST − 0.30 zCHAU − 0.29 z MECA − 0.28 z MANO − 0.30 zOUTI
− 0.27 zCUIS − 0.26 zCHEF − 0.28 z INGE − 0.28 zCAIS − 0.31zSECR
− 0.30 zVEND − 0.29 zOUVR
Où z indique la valeur de la variable centrée et réduite (car nous sommes en ACP normée).
La première composante est définie ici par des coefficients similaires entre eux, et définit
donc une variable proche de la moyenne des salaires.
Ces composantes ujα définissent aussi la projection des anciens axes unitaires sur les
nouveaux axes obtenus.
55
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
Sur le premier axe factoriel, même si les corrélations avec les variables "indice des prix" sont
relativement plus faibles que les corrélations avec les "indices de salaire", ce sont ces
mêmes villes, les plus chères, qui ont le meilleur pouvoir d'achat.
56
SPAD Version 5.0 Analyse en composantes principales (COPRI)
On édite dans cette sortie la matrice des corrélations entre les variables actives ordonnées
selon leur coordonnée sur le premier axe factoriel de l'analyse.
Matrice des corrélations permutée suivant le premier facteur
Manoeuvre
Secrétaire Chauffeur Ouvrière Mécanicie Caissier Cuisinier Chef de
Vendeuse Tourneur Instituteur Ingeniéur du
direction d'autobus du textile n autos de banque chef service
bâtiment
Secrétaire direction 1,00
Vendeuse 0,94 1,00
Chauffeur d'autobus 0,93 0,89 1,00
Tourneur 0,92 0,88 0,94 1,00
Instituteur 0,92 0,88 0,96 0,91 1,00
Ouvrière du textile 0,93 0,89 0,92 0,94 0,88 1,00
Mécanicien autos 0,88 0,89 0,89 0,93 0,84 0,89 1,00
Ingeniéur 0,87 0,85 0,82 0,80 0,81 0,81 0,74 1,00
Manoeuvre du 0,86 0,86 0,88 0,93 0,83 0,92 0,95 0,70 1,00
Caissier de banque 0,87 0,85 0,80 0,72 0,82 0,73 0,70 0,85 0,64 1,00
Cuisinier chef 0,80 0,85 0,76 0,76 0,75 0,71 0,80 0,82 0,72 0,79 1,00
Chef de service 0,80 0,79 0,74 0,69 0,78 0,65 0,64 0,87 0,59 0,89 0,82 1,00
57
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
Le premier axe oppose les villes Zurich, Tokyo, Genève et Luxembourg d’une part aux villes
Manila, Jakarta, Budapest, Caracas, Prague, Bombay, Lagos et Nairobi. Les villes dont les
coordonnées sont proches de zéro pour l’axe 1 sont proches du centre de gravité et peuvent
donc être considérées comme des villes moyennes de cet axe d’information.
Remarque : le sens d'un axe factoriel est arbitraire : seule la direction compte. On change le
sens d'un axe en inversant les signes de toutes les coordonnées. Graphiquement, cela
signifie que toutes les symétries sont autorisées : l'utilisateur choisit la représentation qui lui
convient le mieux.
58
SPAD Version 5.0 Analyse en composantes principales (COPRI)
• Axe 1 – Axe 5 : contributions (en pourcentage) des villes à l'inertie portée par chaque
axe. Nous pouvons mesurer la part d'inertie d'un point-ligne par le quotient :
piψ i2α
CTR (i,α ) = ×100
λα
Il s'agit de la contribution du point i à la fabrication de l'axe α avec : Pi le poids de i (1/51),
Ψiα la coordonnées de l’individu i sur l’axe α et λα la valeur propre de l’axe α.
Interprétation
Les contributions des points-lignes servent à détecter les villes qui contribuent le plus à la
formation des axes factoriels.
Si toutes les villes avaient la même contribution, celle-ci devrait osciller autour de 2%
(100/51). Les villes avec des contributions supérieures à 2% ont une influence supérieure à
la moyenne.
Quand la valeur d'une contribution est-elle "élevée"?
La réponse n'est pas simple. Une contribution sera jugée élevée quand, en la comparant au
reste des contributions, elle aura une valeur "anormalement" grande.
Par exemple, la ville qui contribue le plus au second axe est Abu Dhabi (48%). Presque la
moitié de l'inertie de cet axe est due à une seule ville. Cette ville est clairement influente pour
la fabrication de cet axe.
Tous les points actifs interviennent dans la fabrication d'un axe. On vérifie donc que l'addition
de toutes les contributions sur un axe est 100.
n
∑ CTR (i , α ) = 100
i=1
59
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
Les images obtenues (plans factoriels) sont des approximations de la configuration réelle. Il
y aura des distances entre couples de points bien représentées, tandis que d'autres ne
reflèteront pas fidèlement la distance réelle entre les points.
Si deux points sont proches du plan factoriel, alors la distance représentée sera une bonne
approximation à la distance réelle. Mais si au moins un point est éloigné du plan de
projection, alors la distance réelle peut être différente de celle représentée sur le plan.
Cette proximité du plan factoriel de projection est mesurée par les cosinus carrés de chaque
point avec les axes factoriels.
60
SPAD Version 5.0 Analyse en composantes principales (COPRI)
ψ2
COS 2 (i ,α ) = 2 iα
d (i , G )
Un cosinus carré égal à 1 indique que la ville se trouve située sur l'axe (l'angle ω est nul). Un
cosinus carré égal à 0 indique que la ville est dans une direction orthogonale à l'axe.
En additionnant les cosinus carrés par rapport aux p axes factoriels, nous obtiendrons l'unité,
car il faut utiliser tous les axes factoriels pour positionner exactement le point dans l'espace
complet.
p
∑ COS 2 (i , α ) = 1
α =1
L'addition des cosinus carrés d'un point sur différents axes donne, en pourcentage, la
"qualité" de la représentation du point sur le sous-espace défini par ces axes.
A partir de quelle valeur des cosinus carrés dira-t-on qu'un point est "bien représenté" sur le
plan factoriel?
Comme pour les contributions, la question n'est pas simple. On appréciera une valeur par
rapport à l'ensemble des autres valeurs. Nous devrons comparer les cosinus carrés (ou leur
somme sur les deux premiers axes si nous travaillons sur le premier plan factoriel) pour
pouvoir répondre à cette question.
Dans notre exemple, les villes sont en général bien représentées dans les deux premiers
axes (avec une somme des cosinus carrés proche de 1). Seules Dublin, Madrid, Sidney ou
Milan, proches du centre, sont mal représentées sur le premier plan. Bombay ou Caracas et
d'une façon générale les points excentrés, sont bien représentés
Les villes les moins bien représentées dans le premier plan factoriel sont des villes
“moyennes” (proches du centre). On ne peut interpréter avec sécurité les proximités entre
les villes que si elles sont bien représentées dans le plan factoriel.
61
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
L’interprétation des coordonnées des individus illustratifs se fait de la même manière que
pour les individus actifs.
Dans le tableau ci-dessus, on constate que les villes Abudhabi, Bangkok et Budapest
présentent une distance nulle à l’origine.
En effet, ces villes n’étaient pas renseignées pour les variables actives sélectionnées. SPAD
remplace automatiquement toute donnée manquante par la moyenne de la variable
correspondante. Ces villes se sont donc vues affecter la valeur moyenne pour chaque
variable active de l’analyse. Il est donc normal qu’elles soient confondues avec le centre de
gravité du nuage.
62
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
On procède de la même manière que pour les individus actifs.
Nous sommes en présence d’un cas particulier avec les villes confondues avec l’origine :
Abudhabi, Bangkok et Budapest. On ne peut pas calculer leurs cosinus carrés puisque leur
distance à l’origine est nulle tout comme leurs coordonnées (par définition). Or le cosinus
carré s’obtient par le quotient de la coordonnée au carré sur la distance à l’origine au carré.
63
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
L’axe 1 oppose les régions Europe Orientale, Afrique, Asie du Sud et Australie, Amérique du
Sud aux régions Europe Centrale et Amérique du Nord.
L’axe 2 oppose la région Proche Orient à toutes les autres.
64
SPAD Version 5.0 Analyse en composantes principales (COPRI)
Interprétation
Sur l’axe 1, on constate que les régions Europe Centrale, Afrique, Asie du Sud et Australie,
Amérique du Nord, Amérique du Sud occupent une position significativement différente de la
moyenne.
65
Analyse des correspondances binaires (CORBI)
Cette procédure effectue l'analyse des correspondances d'un tableau de contingence ou, de
façon plus générale, de tout tableau de nombres non négatifs.
Les éléments en colonnes seront toujours appelées "fréquences" et les éléments en lignes
des "individus" ou des "lignes".
Fichier utilisé : ALCOOL.SBA
Paramétrage de la méthode : Tous les individus (lignes) et toutes les fréquences
(colonnes) sont utilisés.
Nous effectuons l’analyse du tableau suivant auquel on a ajouté les marges. Il s’agit
d’étudier la perception de différentes boissons alcoolisées.
PASTIS WHISKY MARTINI SUZE VODKA GIN MALIBU BIERE Total
Aime le goût 49 50 42 18 25 23 25 59 291
Avec des amis 83 83 76 60 69 68 69 74 582
Pour se détendre 61 61 51 32 38 39 39 72 393
Qui revient cher 60 88 42 41 75 70 61 19 456
Rafraîchissante, désaltérante 78 22 18 19 17 19 14 80 267
Peu élégante, peu distinguée 26 11 13 17 13 11 13 29 133
Produit sympathique 64 64 56 34 45 42 46 68 419
Bien avant les repas 88 79 85 64 45 46 37 41 485
Bien dans la journée 24 21 12 10 13 12 13 85 190
Bien dans la soirée 7 61 12 11 53 50 48 54 296
Toute l'année 83 87 85 79 83 82 80 90 669
Appréciée des jeunes 45 77 36 16 65 69 76 89 473
Volontiers avec invités 88 92 87 60 70 67 67 81 612
Vieillotte, dépassée 12 4 13 38 5 6 8 7 93
Aussi bien hommes que femmes 50 62 69 43 49 51 61 60 445
Très proche 38 41 27 11 16 18 17 49 217
Par habitude 36 30 24 16 19 19 17 40 201
Fait snob, m'as-tu vu ? 3 35 9 8 28 25 21 4 133
On peut mélanger 43 87 29 32 82 80 43 40 436
La nuit/Bar/Disco 12 91 27 16 84 81 72 67 450
Total 950 1146 813 625 894 878 827 1108 7241
66
SPAD Version 5.0 Analyse des correspondances binaires (CORBI)
entre les effectifs observés et les effectifs théoriques que l’on obtiendrait en moyenne si les
deux variables étaient indépendantes.
Le logiciel édite l’ensemble des valeurs propres, soit 7 valeurs propres.
Interprétation
Le premier axe factoriel extrait près de la moitié de l’inertie totale. La part d’information
expliquée par le second axe est importante puisqu’elle représente un tiers de l’inertie totale.
Les trois premiers axes factoriels résument plus de 90% de l’inertie totale du nuage. On
pourra se servir des plans factoriels 1-2 et 2-3 pour la suite de l’analyse.
67
SPAD Version 5.0 Analyse des correspondances binaires (CORBI)
Le premier axe qui explique près de la moitié de l’information oppose les alcools PASTIS,
BIERE, SUZE, MARTINI aux alcools forts VODKA, GIN, MALIBU et WHISKY.
Le second axe qui explique un tiers de l’inertie totale oppose essentiellement la SUZE et le
MARTINI à la BIERE.
Interprétation
Si toutes les fréquences avaient la même contribution, celle-ci devrait osciller autour de
14,28% (100% / 7). Les fréquences avec des contributions supérieures à 14,28% ont une
influence supérieure à la moyenne.
68
SPAD Version 5.0 Analyse des correspondances binaires (CORBI)
Les fréquences actives PASTIS, VODKA, GIN et BIERE contribuent fortement à la création
de l’axe 1 (72,51% en tout).
Sur l’axe 2, la BIERE explique plus de la moitié de l’inertie de l’axe, la SUZE en explique plus
du tiers. En y ajoutant le MARTINI, on obtient une contribution cumulée de plus de 99% avec
seulement trois fréquences actives.
d 2 ( j, G )
On a par exemple pour la fréquence PASTIS sur le premier facteur : 0.36² / 0,17 = 0.76.
La somme des cosinus carrés d’une modalité sur la totalité des axes est égale à 1
(somme en ligne étendue à tous les axes).
Interprétation
69
SPAD Version 5.0 Analyse des correspondances binaires (CORBI)
Les alcools VODKA, GIN sont tellement bien représentés sur le premier axe qu’ils ne faut
plus les prendre en compte pour l’interprétation des autres axes.
On peut dire que les alcools PASTIS, WHISKY, MALIBU sont également bien représentés
sur l’axe 1.
En revanche, les alcools MARTINI SUZE et BIERE sont mieux représentés sur l’axe 2. Ce
sont les seuls à être bien représentés sur cet axe.
Sur le premier axe factoriel, on remarque une opposition entre les appréciations au niveau
des boissons alcoolisées :
• Bien avant les repas, Aime le goût, Par habitude, Très proche, Peu élégante, peu
distinguée, Bien dans la journée, Vieillotte dépassée, Rafraîchissante, désaltérante.
70
SPAD Version 5.0 Analyse des correspondances binaires (CORBI)
S’oppose à :
• Fait snob, m'as-tu vu ?, La nuit/Bar/Disco, Bien dans la soirée, On peut mélanger, Qui
revient cher, Appréciée des jeunes.
Au niveau des fréquences actives, le premier axe oppose les alcools PASTIS, BIERE,
SUZE, MARTINI aux alcools VODKA, GIN, MALIBU et WHISKY.
71
SPAD Version 5.0 Analyse des correspondances binaires (CORBI)
Interprétation
Si toutes les individus avaient la même contribution, celle-ci devrait osciller autour de 5%
(100% / 20). Les individus avec des contributions supérieures à 5% ont une influence
supérieure à la moyenne.
Les individus actifs « La nuit/Bar/Disco », « Rafraîchissante, désaltérante », « Fait snob,
m'as-tu vu ? », « Bien dans la soirée », « On peut mélanger », « Bien dans la journée »,
« Qui revient cher », contribuent fortement à la création de l’axe 1 (77,36% cumulé).
Sur l’axe 2, les appréciations « Bien dans la journée », « Vieillotte, dépassée », « Bien avant
les repas », « Rafraîchissante, désaltérante », « Appréciée des jeunes », « Bien dans la
soirée », « Qui revient cher » expliquent près de 85% de l’inertie de l’axe, les appréciations
« Bien dans la journée » et « Vieillotte, dépassée » en expliquent près de la moitié à elles
seules.
Pour l’interprétation des deux premiers axes factoriels, on prendra en compte les
appréciations citées précédemment. Il faut maintenant s’assurer qu’elles sont bien
représentées sur ces axes.
72
SPAD Version 5.0 Analyse des correspondances binaires (CORBI)
Les cosinus carrés concernent la qualité de représentation des individus sur l’axe. Pour
l’interprétation, on sélectionne les individus qui ont les cosinus carrés les plus forts : ils
sont les mieux représentées au sens où les distances sont les moins altérées par la
projection.
Si l’individu i a pour coordonnée Ψiα sur l’axe α et si le carré de la distance à l’origine de
cette individu est d²(i,G), le cosinus carré (ou contribution relative) COS²(i,α) de la
individu i sur l’axe α s’écrit :
ψ i2α
COS (i,α ) = 2
2
d (i, G )
La somme des cosinus carrés d’une modalité sur la totalité des axes est égale à 1
(somme en ligne étendue à tous les axes).
Interprétation
Les appréciations « Fait snob, m'as-tu vu ? », « La nuit/Bar/Disco », « Par habitude », « Pour
se détendre », « Peu élégante, peu distinguée », « On peut mélanger », « Produit
sympathique », « Bien dans la soirée », « Rafraîchissante, désaltérante », « Aime le goût »,
« Qui revient cher », « Très proche » sont bien représentés sur le premier axe factoriel. Elles
sont toutes mieux représentées sur cet axe que sur le second axe factoriel. C’est l’inverse
pour les autres appréciations.
Sur le second axe factoriel, les appréciations les mieux représentées sont : « Avec des
amis », « Bien avant les repas », « Bien dans la journée », « Toute l'année », « Volontiers
avec invités », « Appréciée des jeunes », « Vieillotte, dépassée ».
5. Interprétation générale
73
Analyse des correspondances multiples
(CORMU)
Nbre de
Variables actives de l’analyse
modalités
Sexe de la personne interrogée. 2
Possédez-vous des valeurs mobilières ? 2
Taille d’agglomération (en nombre d’habitants). 5
Diplôme de l’enquêté(e) en 5 classes. 5
Statut d’occupation du logement en 4 classes. 4
Age de l’enquêté(e) en 5 classes. 5
Type d’emploi. 4
Les variables nominales illustratives sont constituées par l’ensemble des 39 autres variables
nominales du fichier. Les 8 variables continues du fichier sont également utilisées en
illustratives.
Pour cette analyse, on conserve l’ensemble des individus, avec un poids uniforme.
74
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
les axes factoriels. L’apurement vise à rendre plus robuste l’analyse. Les modalités ne sont
pas abandonnées pour autant. Elles seront positionnées en éléments supplémentaires.
Type d'emploi
Effectif avant Poids avant Effectif après Poids après
Libellé des modalités
apurement apurement apurement apurement
Ouvriers 263 263,00 276 276,00
Employés 335 335,00 344 344,00
Cadres 229 229,00 241 241,00
Autres 48 48,00 Ventilée
*Reponse manquante* 125 125,00 139 139,00
Interprétation
Seule la variable Type d’emploi est concernée par la ventilation (Modalité « Autres »
d’effectif 48).
75
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
On peut s’assurer que la somme des effectifs après ventilation est bien égale à 1000.
La répartition des 48 observations s’est faite de la manière suivante : 13 vers la modalité
« ouvriers », 9 vers la modalité « employés », 12 vers la modalité « cadres » et 14 vers la
modalité formée par les réponses manquantes.
Dans le cas où des modalités ont été ventilées, il est prudent de vérifier si les coordonnées
des modalités actives sont proches de celles de ces mêmes modalités placées en illustratif
à partir des données brutes (non-apurées). Si ces coordonnées ont des valeurs différentes,
cela signifie que la ventilation a notablement affecté la répartition des individus. Il faudrait
alors choisir un seuil d’apurement plus faible.
76
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
Interprétation
Les blocs diagonaux sont les tris à plat des variables. Le poids est égal à l’effectif lorsque les
individus ont un poids uniforme (comme ici).
On note par exemple que l’enquête concerne 469 hommes et 531 femmes.
Les blocs non diagonaux représentent les tris croisés de tous les couples de variables
actives. Les valeurs sont des poids. Lorsque les individus ont des poids uniformes, les poids
coïncident avec les effectifs.
Par exemple, 196 hommes sont ouvriers et 236 femmes sont employées.
77
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
Interprétation
On note par exemple que le fichier est constitué de 46.9% d’hommes et de 53.1% de
femmes. On remarque que 41.8% des hommes sont ouvriers contre seulement 15.1% des
femmes. Parmi les personnes qui déclarent posséder des valeurs mobilières 44.6% sont des
hommes et 55.4% sont des femmes.
78
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
Axe
11 0,1326 4,64 68,93 11
Interprétation
On remarque que la décroissance des valeurs propres n’est pas régulière. Elle le serait sur
un tableau purement aléatoire. L’histogramme des valeurs propres fait apparaître des
différences d’inertie importantes entre la 5ième et la 6ième valeur.
La faible part de variance expliquée sur les premiers axes est une caractéristique de
l’analyse factorielle des correspondances multiples (qui donne généralement des mesures
pessimistes de l’information extraite).
Dans cet exemple, il convient d’archiver au moins les 5 premiers axes de l’analyse. Il est
cependant conseillé d’utiliser en général au moins la moitié des axes factoriels. Ici, on
archivera certainement les 14 premiers axes, le palier entre les axes 14 et 15 étant
notablement marqué, pour une classification ultérieure.
79
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
(au centre de gravité G du nuage) ne dépend en fait que de l’effectif dans la modalité. La
formule est la suivante :
d2(j,G) = (n / nj) – 1, avec nj l’effectif de la modalité j et n l’effectif total
• Axe 1 – Axe 5 : coordonnées des modalités actives sur les premiers axes.
Type d'emploi
Ouvriers 3,94 2,62319 0,88 0,47 -0,54 0,66 0,20
Employés 4,91 1,90698 0,19 0,20 0,38 -0,67 -0,63
Cadres 3,44 3,14938 -0,80 -0,89 -0,74 -0,02 0,14
*Reponse manquante* 1,99 6,19424 -0,80 0,12 1,41 0,38 0,91
80
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
• Distance à l'origine : carré de la distance du Khi-2 à l’origine. Cette distance donne une
idée du caractère périphérique de certains points (comme la modalité « logé
gratuitement, autres » de la variable « Statut d’occupation du logement » pour laquelle
DISTO = 13.93). Il s’agit généralement de points à faible masse. La distance à l’origine
(au centre de gravité G du nuage) ne dépend en fait que de l’effectif dans la modalité. La
formule est la suivante :
d2(j,G) = (n / nj) – 1, avec nj l’effectif de la modalité j et n l’effectif total
• Axe 1 – Axe 5 : contributions absolues des modalités actives sur les 5 premiers axes.
Les contributions absolues, ou contributions, décrivent la part de chaque modalité dans
l’inertie totale de l’axe. Pour l’interprétation d’un axe par exemple, on sélectionne les
modalités qui ont les plus fortes contributions.
Si la modalité j a pour coordonnées sur l’axe φj et a une masse mj, et si λ désigne la
valeur propre de cet axe, la contribution absolue ca(j) de la modalité s’écrit :
ca(j) = mj φj² / λ
La contribution de la modalité masculin sur le premier facteur a donc pour valeur : 6.7 *
0.29² / 0.2703 = 2.1.
La somme des contributions de toutes les modalités actives sur un axe est égale à 100%
(somme en colonne).
Type d'emploi
Ouvriers 3,94 2,62319 11,18 3,63 5,58 8,92 0,84
Employés 4,91 1,90698 0,63 0,80 3,47 11,40 10,45
Cadres 3,44 3,14938 8,25 11,43 8,98 0,01 0,37
*Reponse manquante* 1,99 6,19424 4,74 0,13 18,87 1,51 8,98
81
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
L’analyse compte après apurement 27 modalités actives. Pour chaque axe, le pourcentage
d’inertie théorique moyen expliqué par chaque modalité est de 3,7% (100%/27). Or on
constate sur l’axe 1 que les contributions varient de 0,03% à 12,06%.
Seules les modalités dont la contribution est élevée sont à considérer pour l’interprétation
d’un axe. Les modalités à considérer pour l’interprétation de l’axe 1 sont dans l’ordre
d’apparition dans le tableau : moins de 2.000 (4,96%), Paris (6,23%), Ouvriers (11,8%),
Cadres (8,25%), Aucun (4,96%), CEP ou fin études (10,88%), Bac - Brevet sup. (8,31%),
Université,gde école (12,06%), Moins de 25 ans (5,18%).
Ces 9 modalités représentent à elles seules 72% de l’inertie de l’axe 1.
Pour obtenir la contribution globale d’une variable à la création d’un axe, il suffit d’additionner
les contributions de toutes ses modalités. Ainsi, sur l’axe 1, le sexe (3,93%), la possession
de valeurs mobilières (3,50%) et le statut d’occupation du logement (6%) contribuent très
faiblement à la création de l’axe 1.
Par contre, les variables Diplôme de l’enquêté en 5 classes (36,64%), Type d’emploi (24,8%)
et Taille d’agglomération (13,29%) expliquent près de 75% de l’inertie sur l’axe 1. Pour
chacune de ces 3 variables, on constate que ces fortes contributions globales sont dues
essentiellement à quelques modalités et non à l’ensemble.
82
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
On a par exemple pour la modalité masculin sur le premier facteur : 0.29² / 1.13² = 0.07.
La somme des cosinus carrés d’une modalité sur la totalité des axes est égale à 1
(somme en ligne étendue à tous les axes).
Cosinus carrés des modalités actives
Distance à
Libellé Poids relatif Axe 1 Axe 2 Axe 3 Axe 4 Axe 5
l'origine
Sexe de la personne interrogée
masculin 6,70 1,13220 0,07 0,01 0,16 0,19 0,06
féminin 7,59 0,88324 0,07 0,01 0,16 0,19 0,06
Type d'emploi
Ouvriers 3,94 2,62319 0,29 0,08 0,11 0,17 0,01
Employés 4,91 1,90698 0,02 0,02 0,08 0,23 0,21
Cadres 3,44 3,14938 0,21 0,25 0,17 0,00 0,01
*Reponse manquante* 1,99 6,19424 0,10 0,00 0,32 0,02 0,13
Interprétation
Dans cet exemple, les modalités à prendre en compte pour l’interprétation du premier axe
doivent au minimum avoir un cosinus carré de 0,10.
83
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
La comparaison des coordonnées des modalités actives sur les sorties CORMU-5 et
CORMU-8 montre que les coordonnées de la variable « Type d’emploi » (dont l’une des
modalités a été ventilée) ont des valeurs très légèrement différentes. Ceci confirme que le
seuil d’apurement de 5% était acceptable.
L’édition du tableau a été tronquée.
84
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
Type d'emploi
Ouvriers 263 263,00 2,80228 0,86 0,51 -0,57 0,67 0,18
Employés 335 335,00 1,98507 0,16 0,22 0,38 -0,68 -0,63
Cadres 229 229,00 3,36681 -0,85 -0,86 -0,77 -0,01 0,12
Autres 48 48,00 19,83330 0,73 -0,75 0,50 0,03 0,47
*Reponse manquante* 125 125,00 7,00000 -0,96 0,20 1,39 0,42 0,91
Le tableau ci-après donne les valeurs-tests de toutes les modalités (actives en tête et
illustratives ensuite) à partir des données brutes (avant ventilation). Ainsi, les modalités
actives abandonnées pour la construction des axes du fait de la faiblesse de leur effectif sont
repositionnées ici (exemple : modalité « autres » avant ventilation de la variable « Type
d’emploi »).
Ce tableau se décompose de la manière suivante :
• Libellé : libellé complet de la modalité.
• Effectif : effectif de la modalité.
• Poids absolu : poids de chaque modalité. Le poids des individus est ici uniforme et égal
à 1.
85
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
Type d'emploi
Ouvriers 263 263,00 2,80228 16,14 9,65 -10,73 12,60 3,46
Employés 335 335,00 1,98507 3,64 4,96 8,50 -15,19 -14,21
Cadres 229 229,00 3,36681 -14,64 -14,87 -13,18 -0,20 2,11
Autres 48 48,00 19,83330 5,20 -5,30 3,55 0,24 3,31
*Reponse manquante* 125 125,00 7,00000 -11,44 2,40 16,60 4,99 10,85
86
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
87
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
• Axe 1 – Axe 5 : contributions (en pourcentage) des individus à l'inertie portée par chaque
axe. Nous pouvons mesurer la part d'inertie d'un individu par le quotient :
piψ i2α
CTR (i,α ) = ×100
λα
Il s'agit de la contribution de l’individu i à la fabrication de l'axe α avec : Pi le poids de i
(1/1000), Ψiα la coordonnées de l’individu i sur l’axe α et λα la valeur propre de l’axe α.
Interprétation
Les contributions servent à détecter les individus qui contribuent le plus à la formation des
axes factoriels.
Si tous les individus avaient la même contribution, celle-ci devrait osciller autour de 0,1%
(100/1000). Les individus avec des contributions supérieures à 0,1% ont une influence
supérieure à la moyenne. Dans cet exemple, 818 individus présentent une contribution
supérieure à 0,1% sur le premier axe factoriel.
Dans le cas d’un grand nombre d’individus, il est préférable de visualiser la représentation
graphique des individus actifs (avec une taille proportionnelle à la contribution) sur le plan
factoriel 1-2 pour identifier les individus qui contribuent le plus à la création de ce plan.
Tous les points actifs interviennent dans la fabrication d'un axe. On vérifie donc que l'addition
de toutes les contributions sur un axe est 100.
n
∑ CTR (i , α ) = 100
i=1
88
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
Interprétation
Les images obtenues (plans factoriels) sont des approximations de la configuration réelle. Il
y aura des distances entre couples de points bien représentées, tandis que d'autres ne
reflèteront pas fidèlement la distance réelle entre les points.
Si deux points sont proches du plan factoriel, alors la distance représentée sera une bonne
approximation à la distance réelle. Mais si au moins un point est éloigné du plan de
projection, alors la distance réelle peut être différente de celle représentée sur le plan.
Cette proximité du plan factoriel de projection est mesurée par les cosinus carrés de chaque
point avec les axes factoriels.
ψ2
COS 2 (i ,α ) = 2 iα
d (i , G )
Un cosinus carré égal à 1 indique que l’individu se trouve sur l'axe (l'angle ω est nul). Un
cosinus carré égal à 0 indique que l’individu est dans une direction orthogonale à l'axe.
En additionnant les cosinus carrés d’un individu sur tous les axes factoriels, nous
obtiendrons l'unité, car il faut utiliser tous les axes factoriels pour positionner exactement le
point dans l'espace complet.
p
∑ COS 2 (i , α ) = 1
α =1
89
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
L'addition des cosinus carrés d'un point sur différents axes donne, en pourcentage, la
"qualité" de la représentation du point sur le sous-espace défini par ces axes.
Dans le cas d’un grand nombre d’individus, il est préférable de visualiser la représentation
graphique des individus actifs (avec une taille proportionnelle aux cosinus carrés) sur le plan
factoriel 1-2 pour identifier les individus qui contribuent le plus à la création de ce plan.
Interprétation
On note par exemple que la variable « Age de fin d’études » est corrélée négativement et de
façon importante avec le premier axe (-0.69).
Les coefficients de corrélation des variables sont aussi les coordonnées de ces variables sur
les différents axes factoriels.
90
SPAD Version 5.0 Analyse des correspondances multiples (CORMU)
Il est important de noter que les carrés des coefficients de corrélations sont des
contributions relatives (cosinus carrés). Ils ne sont pas imprimés dans ces tableaux.
Les variables continues qui sont les plus corrélées aux axes factoriels sont donc aussi les
mieux représentées.
91
Analyse des correspondances multiples avec
choix des modalités actives (COREM)
Cette méthode est quasiment identique à l’analyse des correspondances multiples. L’unique
différence réside dans le choix des modalités actives.
La méthode COREM est une alternative à la ventilation automatique des modalités d’effectif
faible utilisée notamment dans l’analyse des correspondances multiples. Avec COREM,
l’utilisateur sélectionne lui-même les modalités actives de son analyse.
La ventilation permet de s’affranchir automatiquement (en spécifiant un seuil en %) des
modalités de faibles effectifs qui peuvent avoir des effets perturbateurs sur l’analyse. Les
réponses appartenant à ces modalités peu fréquentes sont réparties aléatoirement entre les
autres modalités de la variable.
Dans la méthode COREM, l’utilisateur définit lui-même les modalités à ventiler en ne les
sélectionnant pas comme actives. Ces modalités qui ne sont pas sélectionnées comme
actives sont automatiquement positionnées comme illustratives. Les individus concernés par
ces modalités illustratives se voient affecter aléatoirement une autre modalité de la même
variable. C’est cette technique qui est utilisée pour la ventilation de modalités d’effectifs
faibles.
En termes de résultats, les sorties de cette méthode sont strictement identiques à celles de
l’analyse des correspondances multiples, présentée dans le chapitre précédent.
92
Description des axes factoriels (DEFAC)
Cette procédure constitue une aide à l'interprétation des facteurs issus d'une procédure
d'analyse factorielle.
Un facteur (i.e. axe factoriel) peut ainsi être rapidement et clairement décrit par les éléments
les plus significatifs. Ces éléments pourront être les individus, les modalités, les variables
continues, les fréquences, utilisés en tant qu'éléments actifs ou illustratifs dans l'analyse
préalable.
Les éléments caractéristiques sont classés selon leurs coordonnées. Les modalités peuvent
être classées selon le critère statistique appelé "valeur-test".
La description de chaque facteur est faite dans un document indépendant. Dans cet
exemple, nous avons demandé à visualiser au plus 20 éléments caractéristiques par
description : pour les individus actifs, les modalités actives et illustratives ainsi que les
variables continues.
Nous effectuons la description des axes issus de l’analyse des correspondances multiples
réalisée sur le fichier ASPI1000.SBA (CF page 74).
93
SPAD Version 5.0 Description des axes factoriels (DEFAC)
Description de l'axe 1
Par les INDIVIDUS ACTIFS
Identificateur de
Coordonnée Poids
l'individu
4 -1,16 1,00
188 -1,13 1,00
336 -1,09 1,00
297 -1,08 1,00
158 -1,08 1,00
24 -1,07 1,00
200 -1,07 1,00
187 -1,07 1,00
284 -1,07 1,00
334 -1,05 1,00
ZONE CENTRALE
697 0,95 1,00
674 0,98 1,00
775 1,04 1,00
871 1,04 1,00
858 1,05 1,00
753 1,07 1,00
787 1,09 1,00
952 1,12 1,00
841 1,12 1,00
750 1,12 1,00
Interprétation
Dans cet exemple, l’identificateur des individus correspond à un numéro de questionnaire. Il
est donc difficile d’interpréter directement ces résultats.
94
SPAD Version 5.0 Description des axes factoriels (DEFAC)
Description de l'axe 1
Par les MODALITES ACTIVES
Libellé de la variable Libellé de la modalité Valeur-Test Poids
Diplôme de l'enquêté(e) en 5 classes Université,gde école -16,38 150,000
Type d'emploi Cadres -14,64 229,000
Diplôme de l'enquêté(e) en 5 classes Bac - Brevet sup. -13,86 182,000
Taille d'agglomération (en nombre d'habitants) Paris -13,22 326,000
Type d'emploi *Reponse manquante* -11,44 125,000
Age de l'enquêté(e) en 5 classes Moins de 25 ans -10,73 150,000
Statut d'occupation du logement en 4 classes locataire -8,98 523,000
Sexe de la personne interrogée féminin -8,62 531,000
Possédez vous des valeurs mobilières ? oui -8,14 121,000
Age de l'enquêté(e) en 5 classes 25 à 34 ans -7,03 284,000
ZONE CENTRALE
Age de l'enquêté(e) en 5 classes 35 à 49 ans 5,34 209,000
Taille d'agglomération (en nombre d'habitants) 2.000 - 20.000 5,40 87,000
Age de l'enquêté(e) en 5 classes 50 à 64 ans 7,74 188,000
Possédez vous des valeurs mobilières ? non 8,14 879,000
Sexe de la personne interrogée masculin 8,62 469,000
Statut d'occupation du logement en 4 classes propriétaire 8,88 290,000
Taille d'agglomération (en nombre d'habitants) moins de 2.000 10,11 83,000
Diplôme de l'enquêté(e) en 5 classes Aucun 10,75 189,000
Type d'emploi Ouvriers 16,14 263,000
Diplôme de l'enquêté(e) en 5 classes CEP ou fin études 17,40 321,000
Interprétation
Sur l’axe 1, on note la présence de valeurs-tests extrêmement élevées en valeur absolue,
indiquant la présence de modalités significativement différentes du centre de gravité.
On remarque une nette opposition au niveau des diplômes, de l’emploi et de la taille
d’agglomération. On observe ensuite une opposition moins marquée au niveau des classes
d’âges, du statut d’occupation du logement, du sexe et des valeurs mobilières.
Cet axe oppose des personnes plus jeunes (moins de 25 ans jusqu’à 34 ans), assez bien
diplômées (Bac, Brevet sup., Université gde école) où les femmes sont plus représentées à
des personnes plus âgées (de 35 à 64 ans) et beaucoup moins diplômées (aucun diplôme,
CEP ou fin d’études).
Dans le même sens, on constate une opposition entre Paris où le statut de locataire est
prépondérant, et des communes de moins de 20 000 habitants dans lesquelles on retrouve
davantage de propriétaires.
On observe également une opposition entre les cadres qui semblent posséder des valeurs
mobilières et les ouvriers qui n’en possèdent pas ou moins.
Nous présentons maintenant la description de l’axe 1 par les 20 modalités illustratives les
plus caractéristiques.
Description de l'axe 1
Par les MODALITES ILLUSTRATIVES
Libellé de la variable Libellé de la modalité Valeur-Test Poids
Diplôme d'enseignement général le plus élevé obtenu université,gde école -15,80 142,000
La famille est le seul endroit oú l'on se sente bien non -14,56 431,000
Diplôme d'enseignement général le plus élevé obtenu baccalauréat (1/2) -13,22 162,000
Profession de l'enquêté(e) en 7 classes *Reponse manquante* -11,44 125,000
Profession de l'enquêté(e) (ou dernière exercée) *Reponse manquante* -11,44 125,000
Profession de l'enquêté(e) en 7 classes prof. lib.-cad. sup. -10,13 84,000
Profession de l'enquêté(e) (ou dernière exercée) cadre supérieur -9,23 69,000
Profession de l'enquêté(e) (ou dernière exercée) cadre moyen -9,13 135,000
Statut d'occupation du logement locataire -8,98 523,000
Opinion à propos du mariage dissout si accord -8,71 387,000
ZONE CENTRALE
Opinion à propos du mariage union indissoluble 7,94 231,000
Age et sexe de l'enquêteur femme plus 38 ans 8,77 338,000
Statut d'occupation du logement propriétaire 8,88 290,000
Profession de l'enquêté(e) (ou dernière exercée) ouvrier spécialisé 9,05 98,000
Diplôme d'enseignement général le plus élevé obtenu aucun 10,75 189,000
Profession de l'enquêté(e) (ou dernière exercée) ouvrier qualifié 11,31 152,000
Regardez-vous la télévision ... tous les jours 12,14 419,000
La famille est le seul endroit oú l'on se sente bien oui 14,47 561,000
Profession de l'enquêté(e) en 7 classes ouvriers 16,14 263,000
Diplôme d'enseignement général le plus élevé obtenu CEP ou fin études 17,40 321,000
95
SPAD Version 5.0 Description des axes factoriels (DEFAC)
Description de l'axe 1
Par les VARIABLES CONTINUES ILLUSTRATIVES
Libellé de la variable Coordonnée Poids Moyenne Ecart-type
Age de fin d'étude -0,69 997,00 17,286 3,883
Nombre de jours de vacances en été -0,38 1000,00 18,311 19,367
Revenu personnel souhaité -0,26 915,00 7244,480 4756,780
Estimation du revenu minimum d'une famille de 2 enfants -0,19 897,00 5561,890 2423,400
ZONE CENTRALE
Estimation du salaire mensuel d'un ingénieur 0,04 806,00 8478,730 3668,950
Estimation du revenu mensuel d'un médecin 0,05 713,00 19383,900 12608,800
Nombre de non-réponses au questionnaire 0,20 1000,00 4,054 4,190
Age de l'enquêté(e) 0,40 1000,00 42,680 17,496
Interprétation
Ces résultats nous confortent dans l’analyse de la description de l’axe 1 par les modalités
actives.
Les fortes valeurs pour l’âge de fin d’études, le nombre de jours de vacances en été et le
revenu personnel souhaité concernent davantage les jeunes, les cadres, les plus diplômés,
habitant Paris avec un statut de locataire, etc.
Les fortes valeurs pour l’âge concernent les plus âgés et les moins diplômés.
96
Classification et Typologie
Dans ce chapitre, nous réalisons une typologie à partir des résultats issus de l’analyse des
correspondances multiples réalisée précédemment (CF page 74).
Pour cela, on va procéder à une classification. Il s’agit d’une classification sur facteurs. On
se sert donc des facteurs issus de l’analyse des correspondances multiples.
Pour cette première étape, on utilise la procédure RECIP/SEMIS. Cette procédure permet de
choisir les niveaux de coupure de l’arbre hiérarchique (aussi appelé dendrogramme). Il
s’agit de choisir une ou plusieurs partitions au vu des résultats fournis en sortie.
La seconde étape, effectuée par la procédure PARTI-DECLA, permet d’obtenir une ou
plusieurs partitions des individus. Il est possible de réaliser plusieurs partitions
simultanément. Cette procédure propose aussi la description statistique des partitions
choisies. On peut caractériser soit chacune des classes d’une partition, soit globalement
l’ensemble de la partition. Les modalités des variables nominales, les variables nominales
elles-mêmes, les variables continues et les axes factoriels peuvent intervenir dans les
caractérisations statistiques.
97
Classification sur facteurs (RECIP / SEMIS)
• la CAH fournit un grand nombre de partitions parmi lesquelles on doit en choisir une : il
n’est souvent pas aisé de choisir la coupure significative. D’autre part, l’arbre
hiérarchique obtenu n’est pas un arbre optimal puisque la partition construite à un niveau
donné dépend de la partition obtenue à l’étape précédente.
• dans la méthode des centres mobiles, le nombre de classes doit être fixé au départ, et la
partition obtenue dépend du tirage initial des centres provisoires des classes.
98
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
Pour remédier en partie à ces inconvénients et pour essayer de s’approcher le plus possible
de la partition optimale si elle existe, on peut avoir recours à l’utilisation conjointe de la CAH
et de la CCM : c’est l’objet de la classification mixte appelée SEMIS dans SPAD.
Une première utilisation conjointe des deux techniques de classification est la suivante : on
effectue une classification (CCM) autour d’un nombre important de centres mobiles et on
construit ensuite un arbre hiérarchique à partir des classes formées dans cette CCM.
Cependant, cette méthode est relativement instable sur des échantillons de petite taille.
Nous vous conseillons d’utiliser la procédure RECIP (CAH) sur des échantillons de moins de
10000 individus. Au delà, la méthode SEMIS permet de réduire les temps d’exécution et
fournit des partitions stables.
Nous présentons dans ce chapitre les méthodes RECIP et SEMIS à partir des données
issues de l’analyse des correspondances multiples présentées page 74.
99
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
Par défaut, les 50 premiers nœuds sont édités. Ici, la publication des 30 premiers est
suffisante.
Description des 30 noeuds d'indices les plus élevés
Nb d'éléments
Poids du Indice de
Numéro Ainé Benjamin terminaux du
noeud niveau
noeud
1970 1936 1938 78 78,00 0,01097
1971 1946 1953 60 60,00 0,01101
1972 1964 1943 50 50,00 0,01116
1973 1928 1951 52 52,00 0,01136
1974 1940 1958 49 49,00 0,01139
1975 1969 1966 79 79,00 0,01188
1976 1968 1952 84 84,00 0,01213
1977 1944 1954 49 49,00 0,01285
1978 1965 1878 68 68,00 0,01304
1979 1923 1904 42 42,00 0,01387
1980 1930 1901 53 53,00 0,01397
1981 1972 1920 63 63,00 0,01417
1982 1963 1947 101 101,00 0,01450
1983 1967 1959 73 73,00 0,01582
1984 1979 1955 76 76,00 0,01687
1985 1935 1950 54 54,00 0,01835
1986 1974 1962 110 110,00 0,02384
1987 1980 1970 131 131,00 0,02446
1988 1971 1985 114 114,00 0,02504
1989 1982 1976 185 185,00 0,03104
1990 1973 1984 128 128,00 0,04241
1991 1983 1987 204 204,00 0,04329
1992 1977 1986 159 159,00 0,06131
1993 1989 1990 313 313,00 0,06857
1994 1993 1992 472 472,00 0,07922
1995 1978 1981 131 131,00 0,08172
1996 1988 1994 586 586,00 0,08705
1997 1975 1996 665 665,00 0,10724
1998 1995 1997 796 796,00 0,11979
1999 1991 1998 1000 1000,00 0,12828
Somme des 0,00000 0,02000 0,04000 0,06000 0,08000 0,10000 0,12000 0,14000
indices de 1,83681
niveau
100
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
Le nœud 1970, par exemple, est formé des nœuds 1936 et 1938. Il est constitué de 78
éléments de poids 78. La valeur de l’indice d’agrégation est de 0.01097.
On observe sur l’histogramme des indices de niveau des sauts importants pour une coupure
en quatre classes (trois dernières barres) et en neuf classes (huit dernières barres). On
optera pour une partition en neuf classes.
Numéro Noeud Indice Ainé Benjamin Effectif Identificateur Identificateur Identificateur Identificateur Identificateur Identificateur Identificateur Identificateur
1 1962 0,00888 1915 1948 61 1 90 201 36 249 14 234 185
230 233 383 859 607 992 822 837
779 857 590 271 51 91 290 250
209 327 298 229 47 177 329 206
255 93 65 40 11 39 723 722
384 618 845 539 897 368 619 485
892 980 405 114 232 238 184 306
276 269 252 15 248
2 1958 0,00754 1933 1891 27 254 647 599 805 851 896 270 911
890 500 724 366 616 409 693 929
694 883 676 698 968 704 281 408
930 552 555
3 1940 0,00476 1868 1875 22 548 549 739 901 696 902 951 683
707 277 759 962 933 936 964 538
20 283 97 125 935 96
4 1954 0,00650 1870 1911 21 133 107 512 160 214 461 612 418
820 463 378 435 400 632 385 483
335 334 285 879 563
5 1944 0,00525 1850 1888 28 577 889 315 910 482 645 484 157
131 313 49 212 167 396 818 908
456 623 988 987 375 727 509 600
397 535 833 855
101
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
102
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
Cette sortie n’est pas éditée par défaut. Il permet de juger, à travers les coordonnées, de
« l’originalité » des éléments terminaux sur les premiers axes factoriels, et à travers les
valeurs-tests de la significativité de ces éléments terminaux ces axes.
Le tableau des coordonnées et des valeurs-tests des classes de la partition que l’on verra
ultérieurement est souvent suffisant.
103
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
• Rang du dernier nœud terminal : donne le rang du dernier nœud terminal compris dans
le nœud étudié.
Ainsi, le nœud de rang 57 est le regroupement des nœuds terminaux de rang 1 à 20.
104
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
L’algorithme de classification mixte est effectué par la procédure SEMIS sur les individus
décrits par leurs premières coordonnées factorielles.
Cet algorithme procède en trois étapes :
1. Partitionnement préliminaire
L’ensemble des éléments à classer subit tout d’abord un partitionnement préliminaire (autour
des centres mobiles).
Cette première étape consiste à obtenir une partition des n objets en k classes homogènes,
où k sera choisi largement plus élevé que le nombre réel de classes désirées, et largement
plus petits que le nombre total d’objets à classer.
Pour ce partitionnement préliminaire en quelques dizaines ou quelques centaines de classes
homogènes, on utilise l’algorithme d’agrégation autour des centres mobiles (ou nuées
dynamiques). Cet algorithme augmente l’inertie entre les classes à chaque itération et
produit une partition en un nombre de classes fixé au préalable. Ce nombre dépend du choix
initial des centres qui sont tirés au hasard ou choisis par l’utilisateur.
L’optimum ne peut pas être atteint, mais la partition obtenue peut être améliorée à partir de
groupements stables. Ces groupes d’individus qui apparaissent toujours dans les mêmes
classes seront les éléments de base de l’étape suivante.
2. Agrégation hiérarchique des classes obtenues
La seconde étape vise à effectuer une classification ascendante hiérarchique où les
éléments terminaux de l’arbre sont les k classes de la partition préliminaire. Certains de ces
groupements peuvent être proches les uns des autres. Ils correspondent à un groupe
« réel » qui aurait été coupé artificiellement par l’étape précédente.
L’étape précédente crée, en général, plusieurs petits groupes ne contenant parfois qu’un
seul élément. L’objectif de l’étape d’agrégation hiérarchique est de reconstituer les classes
qui ont été fragmentées et d’agréger des éléments apparemment dispersés autour de leur
centre d’origine. L’arbre est construit en utilisant le critère de Ward. Cette étape est
semblable à la classification hiérarchique présentée précédemment. Le dendrogramme
suggérera éventuellement le nombre de classes finales à retenir.
3. Partition finale et consolidation
La partition finale de la population est définie par coupure de l’arbre de classification
hiérarchique. L’homogénéité des classes obtenues peut être optimisée par réaffectations par
la technique des centres mobiles (voir la consolidation de la partition).
Les deux premières étapes sont effectuées par la procédure SEMIS. La dernière est réalisée
par les procédures PARTI-DECLA qui effectuent également la description statistique des
classes obtenues.
105
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
Dans l’exemple, nous avons choisi de construire une partition de base sur 10 centres
mobiles tirés au hasard et 2 partitions croisées de taille 10 chacune.
4.2.1 Résultats obtenus avec la partition de base sur 10 centres mobiles tirés au
hasard
Le tableau suivant comporte 4 colonnes :
• Numéro de la classe : rang de chaque classe.
• Numéro d’individu : numéro du centre mobile de chaque classe, tiré au hasard ou
choisi.
• Poids : indique le poids des individus de la classe.
• Effectif : effectif de la classe.
Le nombre de classes dépend de la taille (ou du nombre de centres mobiles) adoptée pour la
partition (10 dans l’exemple).
106
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
Ces classes sont censées être des morceaux de classes « réelles » que l’algorithme
d’agrégation autour des centres mobiles a éclatées.
Partition 2
107
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
4.3.1 Résultats obtenus avec la partition de base sur 10 centres mobiles tirés au
hasard
Le tableau est composé des colonnes suivantes :
Poids avant : indique le poids de la classe avant les réaffectations éventuelles.
Pourcentage cumulé : donne le pourcentage cumulé des poids des individus des classes
avant les réaffectations.
Numéro de la classe : rang de la classe. Chaque classe est considérée comme un nœud
ou un élément terminal.
Poids après : représente le poids des individus de la classe après les réaffectations
éventuelles.
Résultats du croisement
Poids avant Pourcentage cumulé Numéro de la classe Poids après
122,00 12,20 &01& 122,00
112,00 23,40 &02& 112,00
106,00 34,00 &03& 106,00
104,00 44,40 &04& 104,00
102,00 54,60 &05& 102,00
101,00 64,70 &06& 101,00
101,00 74,80 &07& 101,00
97,00 84,50 &08& 97,00
89,00 93,40 &09& 89,00
66,00 100,00 &10& 66,00
0,00 100,00 Classe résiduelle
Dans le cas d’une partition de base unique autour de N centres mobiles (10 dans l’exemple),
on retrouve les classes (que l’on considère stables) obtenues par l’algorithme d’agrégation
autour des centres mobiles :
108
SPAD Version 5.0 Classification sur facteurs (RECIP / SEMIS)
Résultats du croisement
Poids avant Pourcentage cumulé Numéro de la classe Poids après
85,00 8,50 &01& 85,00
82,00 16,70 &02& 82,00
72,00 23,90 &03& 72,00
65,00 30,40 &04& 65,00
58,00 36,20 &05& 58,00
49,00 41,10 &06& 49,00
49,00 46,00 &07& 49,00
43,00 50,30 &08& 43,00
43,00 54,60 &09& 43,00
39,00 58,50 &10& 39,00
…
1,00 99,60 &55& 1,00
1,00 99,70 &56& 1,00
1,00 99,80 &57& 1,00
1,00 99,90 &58& 1,00
1,00 100,00 &59& 1,00
0,00 100,00 Classe résiduelle
Dans l’exemple, on remarque qu’à partir des 2 partitions de 10 classes, on obtient 59 classes
stables. Ces classes seront ensuite agrégées par l’algorithme d’agrégation hiérarchique dont
les résultats sont rassemblés dans le tableau de la description des nœuds d’indices les plus
élevés. Les 10 classes obtenues dans l’autre exemple sont agrégées de la même manière.
109
Coupure de l’arbre et description des classes
(PARTI/DECLA)
Dans cet exemple, nous reprenons les résultats issus de la procédure RECIP présentée
page 99. Le fichier utilisé est toujours ASPI1000.sba fourni avec le logiciel.
1. La procédure PARTI
La procédure PARTI construit des partitions par coupure de l’arbre d'agrégation obtenu
précédemment avec la procédure RECIP/SEMIS. Elle constitue les partitions demandées
par l'utilisateur ou par recherche automatique des meilleures partitions, en les améliorant
éventuellement par des itérations à centres mobiles (consolidation). Les partitions ainsi
créées seront ensuite caractérisées de façon automatique par la procédure DECLA.
La procédure PARTI fournit une série de listages (une par partition demandée). Chaque
listage possède la même structure : on obtient d'abord une description sommaire de la
partition obtenue par coupure de l'arbre, indiquant pour chaque classe formée quels
éléments terminaux la composent.
Si elle a été demandée, l'édition des coordonnées et valeurs-tests de ces classes apparaît
ensuite. On obtient également, à la demande, la correspondance entre les classes et les
individus.
Dans le cas d'une "consolidation" de cette partition par des itérations à centres mobiles, on
trouve ensuite la chronique de progression de l'inertie inter-classes au cours des itérations.
Dans tous les cas, on trouve ensuite la décomposition de l'inertie en inertie inter-classes et
inerties intra-classe, divisée en "avant et après consolidation" dans le cas où des itérations
ont été effectuées. Si la consolidation a eu lieu et que cette édition est demandée, on trouve
alors à nouveau les coordonnées et valeurs-tests des classes de la partition, puis la
correspondance entre les classes et les individus.
Egalement à la demande, vient ensuite pour chaque classe, la liste des parangons (points
les plus proches du centre de gravité des classes) et celle des points qui contribuent le plus
à l'inertie intra-classe.
110
SPAD Version 5.0 Coupure de l’arbre et description des classes (PARTI/DECLA)
Si le nombre d’itérations est fixé à 0, il n’y aura pas de consolidation : les résultats de la
coupure de l’arbre sont conservés tels quels.
Si le nombre d’itérations est positif, le logiciel édite l’affectation des individus seulement
après la consolidation.
Si le nombre d’itérations est négatif, le logiciel édite l’affectation des individus avant et
après la consolidation.
Nous avons fixé le nombre d’itérations à -10 dans le cadre de cet exemple.
• Affectation des individus illustratifs aux classes les plus proches :
Ce paramètre commande l’affectation des individus illustratifs à la classe dont le centre
de gravité est le plus proche au sens de la distance euclidienne. Par défaut, le logiciel ne
réalise pas cette affectation et considère les individus illustratifs comme des données
manquantes.
Nous optons pour une partition en 9 classes. Les résultats de la procédure PARTI vous sont
présentés ci-après.
111
SPAD Version 5.0 Coupure de l’arbre et description des classes (PARTI/DECLA)
Interprétation
La partition en 9 classes, adoptée pour les 1000 individus, donne deux grandes classes de
204 et 185 éléments, trois classes allant de 110 à 128 éléments et quatre petites classes (49
à 79 éléments).
Les poids des classes sont identiques aux effectifs puisque tous les individus ont le même
poids égal à un.
112
SPAD Version 5.0 Coupure de l’arbre et description des classes (PARTI/DECLA)
Interprétation
D’après les carrés des distances à l’origine, la classe 8 est la plus « atypique ». Elle contient
des individus dont les caractéristiques sont très différentes de « l’individu moyen » de
l’échantillon. La classe 4 est la plus proche de cet « individu moyen » (du moins dans
l’espace des 14 premiers axes factoriels).
Interprétation
L’intérêt de ce tableau est de juger à travers la statistique des valeurs-tests de l’intérêt des
classes dans les différentes directions factorielles. On voit par exemple que toutes les
classes sont bien différenciées sur le premier plan factoriel sauf la classe 7 qui a besoin des
trois axes suivants pour trouver sa place dans l’espace.
113
SPAD Version 5.0 Coupure de l’arbre et description des classes (PARTI/DECLA)
1.3 PARTI-3 : Avant consolidation - Liste des individus actifs dans les
classes de la partition
La correspondance classe-individu est pertinente lorsque l’on s’intéresse de près aux
individus. Dans cette enquête, comme dans la majorité des cas, les individus sont anonymes
et la correspondance classe-individu présente peu d’intérêt.
Le tableau contient 3 colonnes :
• Numéro d’ordre : numéro de l’individu dans la classe.
• Numéro dans la base : indique le numéro de la ligne où apparaît l’individu dans la base.
Pour chaque classe, les individus sont triés dans l’ordre d’apparition dans la base.
• Libellé de l’individu : identifiant court ou long (voir onglet Paramètres) de l’individu.
Dans cet exemple, les individus sont anonymes, SPAD leur affecte comme libellé le
numéro de la ligne sur laquelle ils se trouvent dans la base.
Le tableau suivant a été tronqué :
Avant consolidation - Liste des individus actifs dans l
Coupure 'a' de l'arbre en 9 classes
CLASSE 1 / 9
Numéro dans
Numéro d'ordre Libellé de l'individu
la Base
1 1 1
2 11 11
3 14 14
4 15 15
5 20 20
6 36 36
7 39 39
8 40 40
Interprétation
Les individus 1, 11, 14, 15, etc. appartiennent à la classe 1 de la partition en 9 classes.
114
SPAD Version 5.0 Coupure de l’arbre et description des classes (PARTI/DECLA)
Interprétation
L’individu 9 appartient à la classe 4.
Consolidation de la partition
réalisée par 10 itérations à centres mobiles
Inertie inter-
Itération Inertie totale Quotient
classes
0 1,83681 0,73318 0,39916
1 1,83681 0,82054 0,44672
2 1,83681 0,82550 0,44942
3 1,83681 0,82669 0,45007
4 1,83681 0,82870 0,45116
5 1,83681 0,83069 0,45225
6 1,83681 0,83326 0,45364
7 1,83681 0,83580 0,45503
8 1,83681 0,83639 0,45535
9 1,83681 0,83650 0,45541
Interprétation
La consolidation de la partition a permis de faire passer la part de l’inertie inter-classes de
39.9% à 45.5%. Les classes sont globalement devenues plus homogènes.
L’accroissement de l’inertie inter-classes est pratiquement nul après la neuvième itération.
Les calculs sont alors arrêtés.
En principe, un nombre important d’itérations (au-delà de 10) témoigne d’une classification
peu stable.
115
SPAD Version 5.0 Coupure de l’arbre et description des classes (PARTI/DECLA)
• Inertie avant/après : donne l’inertie inter-classes, les inerties intra-classe ainsi que
l’inertie totale (somme de l’inertie inter-classes et des inerties intra-classe), avant et
après la consolidation.
• Effectifs avant/après : contient les effectifs de classes avant et après la consolidation.
• Poids avant/après : poids de chaque classe avant et après la consolidation.
• Distances avant/après : le carré de la distance du Khi-2 de l’origine au centre de gravité
de la classe, avant et après la consolidation. Cette distance est mesurée dans le sous-
espace vectoriel choisi précédemment (14 axes factoriels dans l’exemple).
Intra-classe
Interprétation
On constate que la consolidation améliore globalement la partition. Cependant, l’inertie intra-
classe ne diminue pas dans toutes les classes. Si les classes 3 et 9 voient leur inertie intra-
classe fortement diminuée, la classe 2 voit quant à elle son inertie augmenter (en même
temps que son poids).
1.8 PARTI-9 : Avant consolidation - Liste des individus actifs dans les
classes de la partition
Ces tableaux s’interprètent de la même manière que ceux obtenus avant consolidation dans
la sortie PARTI-3 (CF page 114).
116
SPAD Version 5.0 Coupure de l’arbre et description des classes (PARTI/DECLA)
Interprétation
On note que dans la classe 1, l’élément le plus proche du centre de gravité est l’individu 237
dont la distance au centre de gravité de la classe est de 0.29766.
117
SPAD Version 5.0 Coupure de l’arbre et description des classes (PARTI/DECLA)
Interprétation
Dans l’exemple, les individus ont des poids uniformes. Les individus dont la contribution à
l’inertie de la classe est la plus grande sont donc les individus les plus éloignés du centre de
gravité de la classe.
On note que dans la classe 1, l’élément qui a la contribution à l’inertie la plus forte est
l’individu 676. Compte tenu de l’uniformité des poids, il s’agit de l’individu le plus éloigné du
centre de gravité de la classe 1.
2. La procédure DECLA
La procédure DECLA permet de décrire les partitions déterminées par la procédure PARTI.
On peut caractériser soit chaque classe d'une partition, soit globalement la partition elle-
même.
Cette procédure est en tous points identique à la procédure DEMOD présentée page 18.
Dans DECLA, la variable à caractériser est la partition et les modalités sont les classes
d’appartenance des individus. Dans cet exemple, la partition contient 9 classes donc 9
modalités.
Tous les éléments disponibles (actifs et illustratifs, sélectionnés pour l’analyse factorielle
préalable) peuvent intervenir dans la caractérisation : les modalités des variables nominales,
les variables nominales elles-mêmes, les variables continues, les fréquences (seulement
lorsque l’analyse factorielle préalable est une AFC) et les axes factoriels.
Les éléments caractéristiques sont classés par ordre d'importance à l'aide d'un critère
statistique ("valeur-test") auquel est associé une probabilité : plus la valeur-test est grande,
plus la probabilité est faible, plus l'élément est caractéristique.
Dans le cas de la description des classes par les modalités des variables nominales, une
option permet de classer les modalités caractéristiques soit suivant les valeurs-tests, soit
suivant les pourcentages.
118
Caractérisation des classes de typologies
(CLASS-MINER)
119
Marquage sémantique des classes d’une
partition (MSCLA)
Cette procédure permet de caractériser les classes d'une partition par des marquages
sémantiques.
La partition est créée par la procédure PARTI-DECLA, la procédure MSCLA doit être insérée
dans la filière après cette méthode.
L’interprétation des résultats de cette méthode est en tous points identique à l’interprétation
des résultats issus de la procédure MSMOD (CF page 41). Dans MSMOD, la variable
nominale à caractériser est sélectionnée par l’utilisateur, tandis que dans MSCLA la variable
nominale à caractériser est la partition obtenue avec la procédure PARTI-DECLA.
120
Glossaire
A C
ALEATOIRE (sondage ou tirage…) : CARACTERISTIQUES (ou caractères) :
Tirage au sort pour sélectionner un échantillon. Critères permettant de rendre compte de la
Chaque unité statistique a une probabilité diversité des individus d’une population. On
connue d’appartenir à cet échantillon. Pour distingue les caractères qualitatifs (sexe,
constituer ce dernier, il est nécessaire de profession, diplôme…), des caractères
disposer d’une base de sondage de façon à quantitatifs continues (âge, revenu…) et des
connaître la totalité des caractères applicables caractères quantitatifs discrets (nombre
aux individus de la population sur laquelle porte d’enfants, nombre de voiture dans le foyer…). Le
l’enquête. statisticien parle souvent de variables nominales
et de variables continues.
ANALYSE DES CORRESPONDANCES
MULTIPLES : CHOIX DE L’ECHANTILLON :
Analyse factorielle qui s’applique à des tableaux Il peut être effectué à l’aide de différentes
dont les lignes sont des individus ou des techniques de sondage parmi lesquelles les
observations et dont les colonnes sont des échantillons de type probabiliste (échantillons
modalités de variables nominales. aléatoires), les échantillons d’unités-types et les
ANALYSE EN COMPOSANTES échantillons par quotas.
PRINCIPALES : CLASSIFICATION (voir typologie).
Analyse factorielle qui s’applique à des tableaux COEFFICIENT DE VARIATION (CV) :
rectangulaires dont les colonnes sont des
variables à valeurs numériques (ou variables C’est le rapport entre l’écart-type d’une variable
continues) et dont les lignes représentent les et sa moyenne. Il est le plus souvent exprimé en
individus sur lesquels sont mesurées ces pourcentage.
variables.
CONTINUE (variable…) :
ANALYSE FACTORIELLE :
Méthode statistique dont le but est de On parle de variable continue quand la mesure
représenter graphiquement des objets et de faite sur l’individu est de type quantitatif. Pour
décrire des liaisons entre ces objets. Parmi ces fixer les idées, une variable est continue quand
méthodes, on retient notamment l’analyse en la notion de moyenne a un sens.
composantes principales, l’analyse des CONTRIBUTION (ou contribution absolue) :
correspondances simples et l’analyse des
correspondances multiples. Mesure de la participation d’un élément
(modalité, variable, fréquence ou individu) à la
ANALYSE FACTORIELLE DES construction d’un axe factoriel.
CORRESPONDANCES:
CORRELATION :
Analyse factorielle qui s’applique à des tableaux
de contingence afin d’étudier les relations Elle mesure la dépendance entre deux variables
existant entre deux variables nominales. continues. La corrélation est exprimée par un
coefficient de corrélation linéaire, partielle,
ATYPIQUE : multiple, ou encore par une droite de régression,
Individu ou donnée pour laquelle les etc.
informations sont jugées trop éloignées de la COSINUS (ou contribution relative) :
réalité ou de leurs valeurs habituelles pour en
tenir compte. Mesure de la qualité de représentation d’un
élément (modalité, variable, fréquence ou
individu) sur un axe factoriel.
121
SPAD Version 5.0 Glossaire
ERREURS D’OBSERVATION :
D Ce sont les erreurs de mesure liées à la
méthodologie, au questionnaire ou à
l’enquêteur, mais aussi les erreurs de réponse
DEONTOLOGIE :
des enquêtés dûes à une défaillance de la
Règles que les instituts de sondage et d’études mémoire ou à un manque de franchise.
de marché s’engagent à respecter. Le Code
International CCI/ESOMAR de pratiques loyales
concerne les études de marché et d’opinion. Le
Code Syntec/U.D.A. de pratiques loyales
concerne les panels et les enquêtes répétitives.
F
Les sondages politiques doivent suivre les
directives de la Commission des sondages. FOURCHETTE :
DISPERSION :
Terme statistique qui représente l’intervalle entre
Critère permettant de mesurer la plus ou moins deux valeurs extrêmes.
grande dispersion des observations autour de la
FREQUENCE :
moyenne (voir Ecart-type, Variance).
Dans un sondage, la dispersion de l’échantillon Il s’agit d’un nombre de quelque chose tel que le
est une qualité nécessaire pour avoir une bonne nombre d’observations d’un événement ou d’un
représentativité. phénomène. La fréquence peut être en
pourcentage ou en effectif.
DISTRIBUTION STATISTIQUE :
Dans le cas d’une variable nominale, la
distribution statistique est la répartition des
individus d’une population dans les modalités
d’une variable (effectifs).
G
Dans le cas d’une variable continue, la GAUSS (courbe de…) :
distribution est caractérisée en particulier par sa
moyenne et son écart-type. Courbe en cloche ou courbe de la loi normale
qui donne la probabilité d’une variable aléatoire
continue. Cette courbe est symétrique et elle est
définie par sa moyenne et son écart-type.
E
ECART-TYPE : I
Critère de dispersion d’une distribution. C’est la
racine carrée de la variance. Il est fonction de la
taille de l’échantillon. INDIVIDU :
122
SPAD Version 5.0 Glossaire
KHI-2 (test du …)
Le test (basé sur la distribution statistique d’une
variable aléatoire suivant une loi du Khi-2)
N
permet de tester la similitude entre une
distribution observée et une distribution NOMINALE (variable…) :
théorique et de tester l’indépendance entre deux
variables qualitatives. La variable est nominale quand les valeurs
qu’elle prend sont des catégories. C’est le cas
du sexe, de l’âge (s’il est découpé en classes),
de la catégorie socioprofessionnelle. On parle
L aussi de variable qualitative ou catégorielle.
NON-REPONSE :
LISSAGE : Nom donné à une réponse lorsque la personne
interrogée ne répond pas à une question. On
Calculs permettant de réduire l’influence de
parle de non-réponse totale lorsqu’une personne
facteurs accidentels et de variations
interrogée ne répond à aucune des questions et
saisonnières observées sur des données
de non réponse partielle lorsqu’une personne
chronologiques.
interrogée répond seulement à certaines
questions.
LOI NORMALE :
Loi de probabilité représentée par une courbe
symétrique (courbe en cloche). Elle intervient
dans le calcul de la précision d’un sondage
aléatoire, en particulier pour la détermination
O
d’intervalles de confiance. Une loi normale de
moyenne nulle et d’écart-type 1 est dite centrée OPINION :
réduite.
Avis, idée, sentiment, jugement émis par une
personne interrogée sur des faits ou des
phénomènes.
M
MEDIANE : P
Paramètre de position de la valeur centrale
d’une distribution. Elle scinde la population en POIDS :
deux parties égales (50% des observations de
part et d’autre de cette valeur). Part d’un groupe d’individus par rapport à
l’ensemble de la population (exemple : 48%
MODALITE : d’hommes et 52% de femmes). Il s’agit d’un
coefficient affecté à chacun des individus d’un
Les modalités sont les valeurs que prend une échantillon (poids de redressement).
variable nominale. La variable sexe a deux
modalités. On peut dire aussi : groupe, PONDERATION :
catégorie, classe.
Traitement statistique dont l’objet est d’affecter
MODE : un poids à des catégories d’individus notamment
dans le but de redresser l’échantillon.
Paramètre de position de la valeur centrale
d’une distribution. Il s’agit de la valeur,d’une POPULATION :
distribution où l’effectif est le plus important.
Il s’agit d’unités statistiques telles que des
MOYENNE : personnes, des ménages ou des entreprises.
Elles servent de base de sondage pour
Paramètre de position d’une distribution le plus constituer un échantillon.
123
SPAD Version 5.0 Glossaire
124
SPAD Version 5.0 Glossaire
U
UNITE STATISTIQUE :
L’unité statistique est l’individu si le
questionnaire concerne l’individu interrogé.
L’unité statistique est le ménage si le
questionnaire concerne le ménage.
V
VARIABLES :
Ce sont les caractéristiques de l’unité statistique.
Les variables permettent de décrire ou de
caractériser son comportement. Pour chaque
unité statistique, on fait les mêmes mesures, les
mêmes relevés, on pose les mêmes questions.
Au lieu de variables, on peut dire mesure ou
paramètre, ou question.
VARIABLES ACTIVES :
Variables qui participent à la construction des
axes de l’analyse factorielle.
VARIABLES ILLUSTRATIVES :
Toutes les variables qui n’ont pas participé à la
construction des axes, mais permettent d’illustrer
les analyses factorielles.
VARIANCE :
Critère de dispersion d’une distribution. Il s’agit
plus précisément de la moyenne des carrés des
écarts entre les valeurs de la distribution et sa
moyenne. Sa racine carrée est appelée écart-
type.
125
Bibliographie
Benzécri, J.P. (1976) – L’Analyse des Données. Tome 1 : La Taxinomie. Tome 2 : L’Analyse
des Correspondances. Dunod.
Benzécri, J.P. (1982) – Construction d’une classification ascendante hiérarchique par la
recherche en chaîne de voisins réciproques. Cahiers d’Analyse des Données, 7, 209-218.
Benzécri, J.P., Benzécri, F. (1985) – Introduction à la Classification Ascendante hiérarchique
d’après un exemple de Données Economiques. J. Soc.Stat. de Paris, 1, 14-34
Bouroche J.-M., Saporta G. (1980) – L’analyse des données. Coll « Que sais-je », n°1854,
PUF, Paris.
Brossier G., Dussaix A-M. (1999), Enquêtes et sondages – Méthodes, modèles, applications,
nouvelles approches. Dunod, Paris.
Confais J., Nakache J.P. (2000) – Méthodes de classification. Cisia-Ceresta.
Grangé D., Lebart L. (1993) - Traitements statistiques des enquêtes. Dunod, Paris.
Lebart L. (1975 a) – L’orientation du dépouillement de certaines enquêtes par l’analyse des
correspondances multiples. Consommation, 2, p 73-96. Dunod.
Lebart L. (1989), Stratégies du traitement des données d’enquêtes, La revue de Modulad,
numéro 3, p 21-29.
Lebart L., Fénélon J.P. (1971) – Statistique et informatique appliquées. Dunod, Paris.
Lebart L., Morineau A., Piron M. (1995) – Statistique exploratoire multidimensionnelle.
Dunod, Paris.
Lebart L., Morineau A., Tabard N. (1977) – Technique de la description statistique. Dunod,
Paris.
Morin S., Morineau A. (2000) – Pratique du traitement des enquêtes. Cisia-Ceresta.
Morineau A. (1984) – Note sur la caractérisation statistique d’une classe et les valeurs-tests,
Bull. Techn. du Centre de Statist. et d’Infor. Appl., 2 , p20-27.
Saporta G. (1990) – Probabilités, analyse des données et statistiques. Technip, Paris.
Tenenhaus M. (1994) – Méthodes statistiques en gestion. Dunod, Paris.
126