Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Exercices Sur Le Chapitre 9

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 1

EXERCICES SUR LE CHAPITRE 9

1. ANALYSE DESCRIPTIVE DES VALEURS PROPRES.

1) On effectue l’analyse en composantes principales normée d’un tableau de données constitué des observations de sept variables quantitatives sur 454 unités statistiques. Seules six variables ont
été considérées pour définir la distance entre les unités statistiques. Déduire des cinq premières valeurs propres données ci-dessous la ou les valeurs propres manquantes. Construire le diagramme des
valeurs propres et préciser le nombre d’axes a priori significatifs.
l1 = 2.38 l2 = 2.12 l3 = 0.55 l4 = 0.41 l5 = 0.33
2) Construire, dans chaque cas ci-dessous, le diagramme des valeurs propres et sélectionner les axes à interpréter.
l1 l2 l3 l4 l5 l6 l7 l8 l9 l10 l11
cas n°1 2.326 2.054 0.423 0.182 0.015
cas n°2 3.541 2.126 1.510 0.632 0.414 0.305 0.225 0.182 0.065
cas n°3 3.125 3.101 1.984 1.823 0.541 0.220 0.110 0.050 0.025 0.015 0.006
cas n°4 2.154 1.453 1.213 0.646 0.541 0.532 0.461

2. PROPRIÉTÉS NUMÉRIQUE DES VALEURS PROPRES.

1) Montrer que la somme des k premières valeurs propres obtenues dans une ACP normée est supérieure ou égale à k.
2) En déduire que la somme des l dernières valeurs propres est inférieure ou égale à l.
3) Soit S(k) la somme des k premières valeurs propres. On note lk la valeur propre de rang k. Montrer que :

lk > (p – S(k-1))/ (p – k+1)

3. INTRODUCTION THÉORIQUE À L’ANALYSE EN COMPOSANTES PRINCIPALES.

Cet exercice donne la théorie de l’analyse en composantes principales dans le cas particulier de deux variables X1 et X2 centrées réduites. Les résultats établis peuvent être généralisés (cette
généralisation est précisée dans la correction).
On considère deux variables statistiques X1, X2 centrées réduites observées sur n individus et dont le coefficient de corrélation est noté r. Soient les variables Z et Z’ de la forme :
Z = a1 X1 + a2 X2 : quel que soit i = 1, …, n, Z(i) = a1 X1(i) + a2 X2(i)
Z’ = a1’ X1 + a2’ X2 : quel que soit i = 1, …, n, Z’(i) = a1’ X1(i) + a2’ X2(i)
1) Calculer la moyenne et la variance de Z en fonction de a1 et a2. Calculer la covariance cov(Z, Z’).
2) Calculer le vecteur u = (a1, a2) tel que la variance de Z soit maximale et vérifiant la condition :
a 1 2 + a2 2 = 1

3) On note C1 la variable Z précédente et l1 sa variance. Déterminer la variable Z’ = a1’ X1 + a2’ X2 telle que :

a1’2 + a2’2 = 1
cov(C1, Z’) = 0
On note C2 cette variable. Calculer sa variance l2 et la somme l1 + l2.
4) Calculer les coefficients de corrélation r(X1, C1), r(X1, C2), r(X2, C1), r(X2, C2) et les expressions

S1 = r2(X1, C1) + r2(X2, C1)


S2 = r2(X1, C2) + r2(X2, C2)
5) Calculer les expressions :
S1’ = r2(X1, C1) + r2(X1, C2)
S2’ = r2(X2, C1) + r2(X2, C2)
S3’ = r(X1, C1) x r(X2, C1) + r(X1, C2) x r(X2, C2)
6) Vérifiez ces propriétés dans les applications données dans les exercices ci-dessous.

4. EXEMPLE ÉLÉMENTAIRE D’A.C.P.

On considère le poids, la taille, l’âge et la note de dix élèves de 4e d’un collège :


Poids Taille Age Note

1 45 1.50 13 14
2 50 1.60 13 16
3 50 1.65 13 15
4 60 1.75 15 9
5 60 1.70 14 10
6 60 1.70 14 7
7 70 1.60 14 8
8 65 1.60 13 13
9 60 1.55 15 17
10 65 1.70 14 11
Tableau de données initiales
1) Compléter les tableaux ci-dessous :
Variable moyenne écart-type variance
Poids 58.500 55.250000
Taille 1.635
Age
Note 12.000 3.31662 11.000000
Moyennes et variances
Poids Taille Age Note
Poids 1.0000 0.4854 -0.5679
Taille 0.3665 1.0000 -0.6287
Age 0.4854 0.3955 1.0000 -0.3223
Note -0.5679 -0.6287 -0.3223 1.0000
Corrélations entre les variables initiales
2) Calculer les distances entre les individus 4, 5 et 6 en considérant les valeurs centrées réduites.
3) On donne ci-dessous les valeurs propres et les vecteurs principaux.
l1 =2.391 l2 = 0.750 l3 = 0.584 l4 = 0.274
Valeurs propres et vecteurs principaux
Calculer le pourcentage d’inertie expliquée par chaque axe, les pourcentages cumulés et construire le diagramme des valeurs propres.
4) On donne ci-dessous les vecteurs principaux :
u1 = ( 0.5080, 0.5038, 0.4453, -0.5383 )
u2 = ( 0.3065, -0.4647, 0.7058, 0.4381 )
u3 = (-0.6593, 0.5253, 0.4712, 0.2594 )
u4 = (-0.4619, -0.5042, 0.2855, -0.6715 )
Compléter le tableau donnant les composantes principales de chaque individu :
c1 c2 c3 c4
1 -2.638 -0.203 -0.104 1.044
2 -1.943 -0.358 0.316 -0.350
3 -1.442 -0.803 0.591 -0.486
4 0.078 1.201 0.192
5 0.987 -0.420 0.296 -0.053
6 1.474 0.061 0.555
7 1.317 -1.454 0.409
8 -0.431 -0.136 -1.249 -0.674
9 -0.571 2.386 0.413 -0.071
10 1.166 -0.082 -0.069 -0.566
Composantes principales
5) Représenter les individus sur le plan principal 1 x 2, et constituer des groupes d’élèves homogènes. Comparer les distances entre les représentations des individus 4, 5 et 6 sur le plan 1 x 2 et les
distances réelles. Expliquer les résultats.
6) On étudie les coefficients de corrélation des composantes principales avec les variables initiales :
Axe 1 Axe 2 Axe 3 Axe 4
r r² r r² r r² r²
Poids 0.785 0.617 0.266 0.070 -0.504 0.254 -0.242 0.059
Taille 0.779 0.607 -0.403 0.162 0.402 0.161 -0.264 0.070
Age 0.689 0.474 0.611 0.374 0.360 0.130 0.150 0.022
Note -0.832 0.693 0.380 0.144 0.198 0.039 -0.352 0.124
Coefficients de corrélations et carrés entre les variables et les composantes principales
Représenter graphiquement le cercle de corrélation 1 x 2, et expliquer les propriétés communes des élèves de chaque groupe.

5. ANALYSE EN COMPOSANTES PRINCIPALES DE NOTES.

On considère le tableau des notes obtenues par 10 étudiants en gestion, en mathématiques, langue, expression, économie (ces données figurent sur le fichier ex4chap9.dat, fichier de paramètres
ex4chap9.par). L’économie étant en option, on la considère comme une variable supplémentaire.
1) On effectue l’analyse en composantes principales de X1, X2, X3 et X4. Déduire des résultats donnés en annexe la moyenne et la variance des trois premières composantes principales. En
déduire la moyenne et la variance de la quatrième.
2) Construire le diagramme des valeurs propres. En déduire le nombre de composantes principales significatives. Quel est le pourcentage d’information conservée par les deux premières
composantes principales ? Par les trois premières ?
3) Calculer les coefficients de corrélation entre la note d’économie et les deux premières composantes principales.
4) Représenter graphiquement le cercle de corrélation C1 x C2. Donner une interprétation aux deux composantes principales C1 et C2.
5) Représenter le plan principal 1 x 2. Que peut-on dire de la représentation de l’individu 8 sur ce plan ? Que peut-on dire des étudiants 6 et 3 ? De l’étudiant 5 ? Placer approximativement
l’étudiant dont toutes les notes seraient égales à 10.

Annexe
étudiant 1 2 3 4 5 6 7 8 9 10

note 13 8 12 9 10 15 13 11 9 9
Notes d’économie
moyenne écart-type variance
Gestion 10.6 3.04 9.24
Mathématiques 10.1 3.45 11.89
Langue 11.0 2.32 5.40
Expression 11.3 2.90 8.41
Économie 10.9 2.17 4.69

Gestion Mathématiques Langue Expression Économie


Gestion 1.0000 0.7861 0.5663 0.3766 0.8294
Mathématiques 0.7861 1.0000 0.2371 0.3670 0.8048
Langue 0.5663 0.2371 1.0000 0.7123 0.2782
Expression 0.3766 0.3670 0.7123 1.0000 0.3232
Économie 0.8294 0.8048 0.2782 0.3232 1.0000
Matrice des corrélations
C1 C2 C3 C4
r r2 r r2 r r2 r r2
Gest -0.868 0.753 0.378 0.143 -0.280 0.078 -0.161 0.026
Math -0.752 0.565 0.596 0.355 0.246 0.061 0.138 0.019
Lang -0.793 0.629 -0.502 0.252 -0.318 0.101 0.133 0.018
Expr -0.763 0.583 -0.494 0.244 0.406 0.165 -0.091 0.008
Coefficients de corrélations entre les variables initiales et les composantes principales
C1 C2 C3 C4
c1 cos2 c2 cos2 c3 cos2 c4 cos2
1 -1.261 0.624 0.044 0.001 0.937 0.345 -0.278 0.030
2 -0.164 0.010 -1.632 0.989 0.048 0.001 -0.039 0.001
3 -2.419 0.772 -1.137 0.171 -0.652 0.056 0.095 0.001
4 1.029 0.418 -1.029 0.418 -0.585 0.135 0.267 0.028
5 2.672 0.953 -0.291 0.011 -0.245 0.008 -0.457 0.028
6 -1.915 0.779 0.939 0.187 0.329 0.023 0.227 0.011
7 -0.821 0.131 1.739 0.587 -1.182 0.271 -0.248 0.012
8 -0.082 0.011 0.007 0.000 0.777 0.949 -0.160 0.040
9 2.152 0.863 0.746 0.104 0.096 0.002 0.414 0.032
10 0.808 0.507 0.612 0.291 0.476 0.176 0.178 0.025
Cordonnées des unités statistiques sur les axes principaux et cosinus carrés

6. RÉGRESSION SUR COMPOSANTES PRINCIPALES.

On introduit ici, sur un plan théorique, la régression sur composantes principales, encore appelée régression orthogonale. On applique les résultats sur les données traitées dans l’exercice
précédent (on note Y la note d’économie, mY et sY sa moyenne et son écart type, X1, X2, X3 et X4 les notes centrées réduites en gestion, mathématiques, langue et expression).
1) On considère le modèle de régression de Y par la composante principale C1 :
Y = b0 + b1C1 + E

E étant la série des résidus. Calculer les coefficients de régression b0, b1 et la variance des résidus s2.
2) On sait que la première composante principale C1 est égale à :
C1 = -0.5456 X1 - 0.4727 X2 - 0.4986 X3 - 0.4798 X4
où X1 , X2, X3 et X4 sont les variables centrées réduites déduites des notes de gestion, de mathématiques, de langue et d’expression. En déduire une première expression de Y en fonction des
quatre variables X1, X2, X3 et X4 (modèle 1). Compléter les résidus donnés en première ligne du tableau en annexe.
3) On considère maintenant le modèle de régression linéaire ci-dessous :
Y = b0 + b1C1 + b2 C2 + E
On note r1 et r2 les coefficients de corrélation de Y avec C1 et avec C2. Montrer que :
b0 = mY b1 = r1 sY / l11/2 b2 = r2 sY / l21/2
4) On sait que la deuxième composante principale C2 est calculée de la façon suivante, en fonction des variables centrées réduites :
C2 = 0.3787 X1 + 0.5975 X2 - 0.5039 X3 - 0.4957 X4
En déduire une deuxième expression de Y en fonction des quatre variables X1, X2, X3 et X4 (modèle 2). Compléter les résidus données en deuxième ligne du tableau en annexe.
5) On effectue la régression linéaire multiple de Y par X1, X2, X3 et X4 directement, à l’aide d’un logiciel. Les résultats sont les suivants (modèle 3) :
Y = 0.8874 X1 + 0.2520 X2 - 0.9393 X3 + 0.5527 X4 + 10.9000
Compléter les résidus donnés en ligne 3 du tableau ci-dessous.
6) En comparant les estimations sans biais des variances résiduelles, choisir un des trois modèles.
Annexe
e1 e2 e3 e4 e5 e6 e7 e8 e9 e10
1 0.884 -1.233 -0.907 1.677 1.308 0.0205 0.176 -1.121
2 0.836 -0.008 0.202 1.991 -0.566 0.0125 -0.629 -1.781
3 0.298 0.200 0.695 1.238 -0.897 -0.314 0.063 -1.515
résidus obtenus dans chacun des trois modèles considérés

7. A.C.P. DES DONNÉES EUROMARKET.

On considère l’échantillon de 50 clients de l’hypermarché Euromarket dont on connaît l’âge, le revenu, le montant des achats et le nombre d’enfants (fichier de données Euromar.dat et fichier de
paramètres Euromar.par). On veut déterminer les caractéristiques principales de la clientèle. On utilisera un logiciel ou les résultats numériques fournis en annexe pour répondre aux questions.
1) On considère les clients de rangs 1 et 2 (cf. ci-dessous). Calculer le carré de la distance d(1,2) utilisée en ACP.
nombre
n° âge revenu achats
d’enfants
1 51 195888 150.15 3
2 39 128456 173.12 2
2) Quel est le nombre d’axes principaux que l’on peut calculer ? Quelle est la somme des variances des composantes principales ? Calculer la variance de la quatrième composante principale.
3) Représenter graphiquement le cercle des corrélations.
4) On considère le plan principal 1 x 2. Que peut-on dire des clients de rangs 31, 43, 25, 28 ? Du client n°10 ? Des clients n°9 et 18 ?
5) Calculer les carrés des distances d’(1,2), d’(2,10), d’(1,10) entre les projections des clients de rang 1, 2 et 3 sur le pan 1 x 2. Que peut-on dire de chacune de ces approximations ?

Annexe
Variable moyenne écart-type
âge 40.06 9.34
revenu 107639.5 29615.79
achats 316.945 207.13
enfants 1.82 1.03

âge revenu achats enfants


âge 1.0000 0.2984 -0.1320 -0.1916
revenu 0.2984 1.0000 0.1370 0.3841
achats -0.1320 0.1370 1.0000 0.6264
enfants -0.1916 0.3841 0.6264 1.0000
Matrice des corrélations
l1 l2 l3
1.810 1.290 0.620
trois premières valeurs propres
variable composante principale C1 composante principale C2
r r2 r r2
âge 0.161 0.026 0.863 0.745
revenu -0.515 0.265 0.707 0.501
achats -0.823 0.677 -0.200 0.040
enfants -0.918 0.843 -0.065 0.004
corrélations entre les variables initiales et les composantes principales

Plan principal 1 x 2
n° axe 1 axe 2
1 c1(i) cos2 c2(i) cos2
1 -1.286 0.135 2.822 0.653
2 0.023 0.001 0.464 0.211
10 -3.072 0.523 2.923 0.473
Coordonnées et cosinus carrés des clients de rang 1, 2 et 10
sur les deux premiers axes principaux.

8. A.C.P. ET CENTRES DE GRAVITÉ.

Pour mieux connaître ses clients et particulièrement leur solvabilité lorsqu’ils demandent un prêt, une banque a étudié un échantillon de clients en fonction de quatre variables : l’âge, le revenu
annuel, le patrimoine, et l’emprunt obtenu. Ces 10 clients ont été classés en trois groupes : mauvais payeurs (groupe 1, n° 3, 4, 5), risque moyen (groupe 2, n° 2, 7, 9, 10), sans problèmes (groupe 3, n° 1,
6, 8).
n° Age Revenu Patrimoine Emprunt Groupe
1 45 250kF 1300kF 600kF 3
2 47 160kF 1150kF 450kF 2
3 38 165kF 850kF 370kF 1
4 36 175kF 770kF 250kF 1
5 29 99kF 450kF 400kF 1
6 39 170kF 1400kF 120kF 3
7 27 120kF 1400kF 160kF 2
8 51 160kF 1300kF 320kF 3
9 32 155kF 1500kF 350kF 2
10 35 170kF 1400kF 180kF 2

Tableau des données


1) Calculer les carrés des distances d2(1,7) et d2 (4,8) utilisées en analyse en composantes principales.
2) On donne les trois premières valeurs propres : l1 = 1.998, l2 = 1.245, l3 = 0.451. Calculer la ou les valeurs propres manquantes. Déterminer le nombre d’axes dont l’interprétation est a priori
pertinente et indiquer la part d’information conservée.
3) Construire le cercle de corrélation 1 x 2 à l’aide des résultats donnés en annexe. Que caractérise la première composante principale ? La seconde ?
4) On donne en annexe les coordonnées des unités statistiques sur les deux premiers axes principaux. Quelle est la moyenne de la troisième composante principale c3 ? Sa variance ? Son
coefficient de corrélation avec la quatrième ?
5) Construire le plan principal 1 x 2. Que représente l’origine des axes par rapport aux variables initiales ? Que peut-on dire des clients de rang 1, 5 et 7 ? Des clients de rangs 4, 8 et 9 ? Calculer
les carrés des distances entre les projections sur le plan 1 x 2 des unités statistiques 1 et 7, puis 4 et 8. Conclure.
6) Les clients du groupe 1 portent les n° 3, 4 et 5. Représenter graphiquement le triangle qu’ils déterminent sur le plan 1 x 2 et construire leur centre de gravité graphiquement. Même question
avec les clients du groupe 2 n° 2, 7, 9 10 et du groupe 3 n° 1, 6 et 8. Les positions des centres de gravité ont-elles une interprétation claire ?
7) Calculer les coordonnées des unités statistiques g1, g2 et g3 définies par les moyennes des variables dans chaque groupe. Soit g le centre de gravité des unités statistiques g1, g2 et g3, pondérées
par les effectifs des groupes correspondants. Quelles sont les coordonnées de g sur les axes 1 et 2 ?
8) Calculer la variance des coordonnées des centres de gravité sur chaque axe. En déduire le rapport de corrélation des composantes principales. Quelle est la composante principale séparant le
mieux les groupes ?

Annexe
Variable moyenne écart-type variance
age (années) 37.9 7.422264 55.09
revenu (kF) 162.4 37.2 1383.84
patrimoine (kF) 1152 328.5361 107936
emprunt (kF) 320 139.714 19520

Moyennes et variances
âge revenu patrimoine emprunt
âge 1.0000
revenu 0.5800 1.0000
patrimoine 0.1932 0.3453 1.0000
emprunt 0.4195 0.4304 -0.2547 1.0000

Coefficients de corrélation
C1 C2 C3 C4
r r2 r r2 r r2 r r2
âge -0.843 0.710 0.006 0.000 -0.536 0.288 -0.043 0.002
revenu -0.876 0.768 0.164 0.027 0.269 0.072 0.365 0.133
patrimoine -0.299 0.089 0.900 0.811 0.143 0.020 -0.282 0.079
emprunt -0.656 0.430 -0.638 0.407 0.265 0.070 -0.304 0.093
Coefficients de corrélation r et carré r2
entre les composantes principales et les variables initiales.
axe 1 axe 2 axe 1 axe 2
n° c1 cos2 c2 cos2 n° c1 cos2 c2 cos2
1 -3.056 0.874 -0.431 0.017 6 0.290 0.031 1.459 0.793
2 -1.122 0.530 -0.539 0.123 7 1.954 0.715 1.088 0.222
3 -0.023 0.001 -0.936 0.896 8 -1.108 0.369 0.364 0.040
4 0.421 0.099 -0.604 0.204 9 0.274 0.041 0.698 0.265
5 1.958 0.415 -2.309 0.577 10 0.412 0.096 1.210 0.828

Coordonnées des unités statistiques sur les axes principaux

9. ANALYSE FACTORIELLE DES CORRESPONDANCES.

Pour poursuivre l’analyse du risque financier dans sa clientèle , la banque a effectué une enquête plus importante sur sa clientèle. On étudie maintenant le tableau donnant la répartition de la
clientèle suivant les produits financiers qu’elle détient et le groupe de risque auquel elle appartient, auquel on a ajouté le groupe 4 constitué des nouveaux clients dont le risque n’est pas connu.
risque risque moyen risque faible risque inconnu
élevé Groupe 2 Groupe 3 Groupe 4
Groupe 1
PEA 27 40 25 17
Assurance vie 15 46 70 22
Épargne logement 10 35 66 19
Compte titre 22 33 25 13
CODEVI 29 35 43 18
Autres 11 41 13 9
Aucun 81 39 41 27
1) Quelle est la nature du tableau de données précédent ? Calculer et représenter graphiquement les répartitions marginales.
2) Calculer le profil des titulaires d’un PEA. Calculer le profil des clients à risque élevé (on donnera ces profils en pourcentages). Représenter graphiquement ces profils et les comparer ces
profils aux profils marginaux correspondants.
3) On effectue l’analyse factorielle des correspondances de ce tableau. Les trois premières valeurs propres sont les suivantes :
l1 = 0.10148 l2 = 0.03929 l3 = 0.00035
Quel est le pourcentage d’information conservée par les deux premiers axes ? Quelle est l’inertie totale ? Effectuer le test d’indépendance du c2 sur ce tableau. Donner un ordre de grandeur en
valeur absolue des coordonnées des profils sur le troisième axe.
4) Représenter simultanément les profils lignes et les profils colonnes sur le plan principal 1 x 2. Quels sont les profils représentés par l’origine des axes ? Que peut-on dire des comparaisons
demandées en question 2 ?
5) La proximité entre le point représentant le groupe 4 sur le plan 1 x 2 et l’origine des axes est-elle réelle ? Que peut-on en déduire sur les nouveaux clients ?
6) Calculer l’approximation du carré de la distance du chi2 entre les profils Assurance vie et Épargne logement donnée par le plan 1 x 2. Cette approximation est-elle précise ? .
7) Proposer une expression caractérisant la propriété mise en évidence par le premier axe.

Annexe
poids c1 cos2 contrib. c2 cos2 contrib.
PEA 0.125 -0.121 0.343 1.8 -0.161 0.608 8.3
Assurance vie 0.175 0.346 0.956 20.7 0.074 0.044 2.5
Ép. logement 0.149 0.424 0.879 26.4 0.157 0.121 9.4
Compte titre 0.107 -0.066 0.250 0.5 -0.114 0.749 3.5
CODEVI 0.143 -0.002 0.001 0.0 0.064 0.998 1.5
Autres 0.085 0.043 0.006 0.2 -0.538 0.991 62.5
Aucun 0.216 -0.487 0.913 50.5 0.150 0.086 12.3

Coordonnées des profils lignes sur les deux premiers axes principaux
poids c1 cos2 contrib. c2 cos2 contrib.
risque élevé G1 0.2236 -0.553 0.968 67.4 0.101 0.032 5.8
risque moyen G2 0.3085 0.075 0.064 1.7 -0.286 0.936 64.3
risque faible G3 0.3245 0.311 0.729 30.9 0.189 0.270 29.6
risque inconnu G4 0.1433 -0.002 0.001 0.0 0.031 0.306 0.3

Coordonnées des profils colonnes sur les deux premiers axes principaux

10. OPTIMISATION D’UN MAILING.

Une société de ventes par correspondance veut proposer à ses clients d’acheter à des conditions spéciales un lecteur de DVD ne figurant pas dans son catalogue. La démarche qu’elle envisage de
suivre consiste à envoyer par courrier une proposition à ses clients habituels, mais elle cherche à cibler la clientèle. Pour cela, on décide d’effectuer un premier envoi auprès d’un échantillon de 500
clients tirés au hasard dans son fichier, et d’en examiner les résultats avant de procéder au mailing proprement dit.
Les informations dont on dispose sur chaque client sont les suivantes :
· l’âge du chef de famille, codé de 1 à 6 suivant les classes ci-dessous, noté « âge » :

classe 1 : ]25-35[ classe 4 : [45-50[


classe 2 : [35-40[ classe 5 : [50-60[
classe 3 : [40-45[ classe 6 : [60-75[
· la catégorie de revenu, codée de 1 (faible) à 5 (élevé), et notée « revenu »
· le montant des achats en 1993 exprimés en francs, et noté « a93»
· le montant des achats en 1994, et noté « a94»
· la zone d’habitation (de 1 : peu peuplée à 5 : Paris et banlieue) et notée « zh»

Une fois le délai de l’offre d’achat passé, on sait si le client a acheté ou non.

Les objectifs de cette étude de cas sont multiples :


· déterminer les variables les plus liées à l’acte d’achat ;
· construire une règle de décision pour choisir les personnes auxquelles la proposition va être faite.
Ce type d’étude est effectivement réalisé dans la pratique, mais dans ce texte, les données ne sont pas réelles. Elles figurent dans les fichiers Omail1.par (non acheteurs) et Omail2.par (acheteurs)
regroupés dans Optimail.par. L’utilisation d’un logiciel d’analyse factorielle discriminante est indispensable.
1) Quelles sont les variables qui permettent le mieux de distinguer les acheteurs des non acheteurs? Que peut-on dire des variances des variables ? des matrices de corrélation ?
2) Compte tenu du nombre de groupes et de variables, combien peut-on calculer de composantes discriminantes ? Peut-on préciser une valeur à laquelle le pouvoir discriminant de la première
composante discriminante est toujours supérieur ou égal (on expliquera rapidement pourquoi).
3) Le pouvoir discriminant est-il significatif ? Que peut-on dire de la composante discriminante et des variables initiales? Calculer les coordonnées des centres de gravité des groupes et la
moyenne de ces coordonnées. Expliquer le résultat.
4) On décide d’affecter chaque unité statistique au groupe dont le centre de gravité lui est le plus proche. Cette règle est-elle a priori satisfaisante ? Calculer les distances aux centres de gravité
des unités statistiques ci-dessous et en déduire leur affectation que l’on comparera au groupe auquel elles appartiennent effectivement.
Unités statistiques à classer :
n° âge revenu achat 93 achat 94 zone groupe
1 5 3 2958.653 3138.581 3 1
2 4 2 2529.048 3073.991 1 1
3 3 3 1935.538 1752.815 3 2
4 3 2 2605.518 2530.29 2 2

5) Quel est le pourcentage d’observations bien classées parmi les unités statistiques connues ? Quel est le pourcentage d’observations du groupe 1 bien classées ? Du groupe 2 ? Pourquoi ce
tableau ne donne-t-il pas nécessairement une bonne évaluation de l’efficacité de la règle ?
6) Proposer une démarche différente pour effectuer l’analyse factorielle discriminante.

Vous aimerez peut-être aussi