Exercices Sur Le Chapitre 9
Exercices Sur Le Chapitre 9
Exercices Sur Le Chapitre 9
1) On effectue l’analyse en composantes principales normée d’un tableau de données constitué des observations de sept variables quantitatives sur 454 unités statistiques. Seules six variables ont
été considérées pour définir la distance entre les unités statistiques. Déduire des cinq premières valeurs propres données ci-dessous la ou les valeurs propres manquantes. Construire le diagramme des
valeurs propres et préciser le nombre d’axes a priori significatifs.
l1 = 2.38 l2 = 2.12 l3 = 0.55 l4 = 0.41 l5 = 0.33
2) Construire, dans chaque cas ci-dessous, le diagramme des valeurs propres et sélectionner les axes à interpréter.
l1 l2 l3 l4 l5 l6 l7 l8 l9 l10 l11
cas n°1 2.326 2.054 0.423 0.182 0.015
cas n°2 3.541 2.126 1.510 0.632 0.414 0.305 0.225 0.182 0.065
cas n°3 3.125 3.101 1.984 1.823 0.541 0.220 0.110 0.050 0.025 0.015 0.006
cas n°4 2.154 1.453 1.213 0.646 0.541 0.532 0.461
1) Montrer que la somme des k premières valeurs propres obtenues dans une ACP normée est supérieure ou égale à k.
2) En déduire que la somme des l dernières valeurs propres est inférieure ou égale à l.
3) Soit S(k) la somme des k premières valeurs propres. On note lk la valeur propre de rang k. Montrer que :
Cet exercice donne la théorie de l’analyse en composantes principales dans le cas particulier de deux variables X1 et X2 centrées réduites. Les résultats établis peuvent être généralisés (cette
généralisation est précisée dans la correction).
On considère deux variables statistiques X1, X2 centrées réduites observées sur n individus et dont le coefficient de corrélation est noté r. Soient les variables Z et Z’ de la forme :
Z = a1 X1 + a2 X2 : quel que soit i = 1, …, n, Z(i) = a1 X1(i) + a2 X2(i)
Z’ = a1’ X1 + a2’ X2 : quel que soit i = 1, …, n, Z’(i) = a1’ X1(i) + a2’ X2(i)
1) Calculer la moyenne et la variance de Z en fonction de a1 et a2. Calculer la covariance cov(Z, Z’).
2) Calculer le vecteur u = (a1, a2) tel que la variance de Z soit maximale et vérifiant la condition :
a 1 2 + a2 2 = 1
3) On note C1 la variable Z précédente et l1 sa variance. Déterminer la variable Z’ = a1’ X1 + a2’ X2 telle que :
a1’2 + a2’2 = 1
cov(C1, Z’) = 0
On note C2 cette variable. Calculer sa variance l2 et la somme l1 + l2.
4) Calculer les coefficients de corrélation r(X1, C1), r(X1, C2), r(X2, C1), r(X2, C2) et les expressions
On considère le tableau des notes obtenues par 10 étudiants en gestion, en mathématiques, langue, expression, économie (ces données figurent sur le fichier ex4chap9.dat, fichier de paramètres
ex4chap9.par). L’économie étant en option, on la considère comme une variable supplémentaire.
1) On effectue l’analyse en composantes principales de X1, X2, X3 et X4. Déduire des résultats donnés en annexe la moyenne et la variance des trois premières composantes principales. En
déduire la moyenne et la variance de la quatrième.
2) Construire le diagramme des valeurs propres. En déduire le nombre de composantes principales significatives. Quel est le pourcentage d’information conservée par les deux premières
composantes principales ? Par les trois premières ?
3) Calculer les coefficients de corrélation entre la note d’économie et les deux premières composantes principales.
4) Représenter graphiquement le cercle de corrélation C1 x C2. Donner une interprétation aux deux composantes principales C1 et C2.
5) Représenter le plan principal 1 x 2. Que peut-on dire de la représentation de l’individu 8 sur ce plan ? Que peut-on dire des étudiants 6 et 3 ? De l’étudiant 5 ? Placer approximativement
l’étudiant dont toutes les notes seraient égales à 10.
Annexe
étudiant 1 2 3 4 5 6 7 8 9 10
n°
note 13 8 12 9 10 15 13 11 9 9
Notes d’économie
moyenne écart-type variance
Gestion 10.6 3.04 9.24
Mathématiques 10.1 3.45 11.89
Langue 11.0 2.32 5.40
Expression 11.3 2.90 8.41
Économie 10.9 2.17 4.69
On introduit ici, sur un plan théorique, la régression sur composantes principales, encore appelée régression orthogonale. On applique les résultats sur les données traitées dans l’exercice
précédent (on note Y la note d’économie, mY et sY sa moyenne et son écart type, X1, X2, X3 et X4 les notes centrées réduites en gestion, mathématiques, langue et expression).
1) On considère le modèle de régression de Y par la composante principale C1 :
Y = b0 + b1C1 + E
E étant la série des résidus. Calculer les coefficients de régression b0, b1 et la variance des résidus s2.
2) On sait que la première composante principale C1 est égale à :
C1 = -0.5456 X1 - 0.4727 X2 - 0.4986 X3 - 0.4798 X4
où X1 , X2, X3 et X4 sont les variables centrées réduites déduites des notes de gestion, de mathématiques, de langue et d’expression. En déduire une première expression de Y en fonction des
quatre variables X1, X2, X3 et X4 (modèle 1). Compléter les résidus donnés en première ligne du tableau en annexe.
3) On considère maintenant le modèle de régression linéaire ci-dessous :
Y = b0 + b1C1 + b2 C2 + E
On note r1 et r2 les coefficients de corrélation de Y avec C1 et avec C2. Montrer que :
b0 = mY b1 = r1 sY / l11/2 b2 = r2 sY / l21/2
4) On sait que la deuxième composante principale C2 est calculée de la façon suivante, en fonction des variables centrées réduites :
C2 = 0.3787 X1 + 0.5975 X2 - 0.5039 X3 - 0.4957 X4
En déduire une deuxième expression de Y en fonction des quatre variables X1, X2, X3 et X4 (modèle 2). Compléter les résidus données en deuxième ligne du tableau en annexe.
5) On effectue la régression linéaire multiple de Y par X1, X2, X3 et X4 directement, à l’aide d’un logiciel. Les résultats sont les suivants (modèle 3) :
Y = 0.8874 X1 + 0.2520 X2 - 0.9393 X3 + 0.5527 X4 + 10.9000
Compléter les résidus donnés en ligne 3 du tableau ci-dessous.
6) En comparant les estimations sans biais des variances résiduelles, choisir un des trois modèles.
Annexe
e1 e2 e3 e4 e5 e6 e7 e8 e9 e10
1 0.884 -1.233 -0.907 1.677 1.308 0.0205 0.176 -1.121
2 0.836 -0.008 0.202 1.991 -0.566 0.0125 -0.629 -1.781
3 0.298 0.200 0.695 1.238 -0.897 -0.314 0.063 -1.515
résidus obtenus dans chacun des trois modèles considérés
On considère l’échantillon de 50 clients de l’hypermarché Euromarket dont on connaît l’âge, le revenu, le montant des achats et le nombre d’enfants (fichier de données Euromar.dat et fichier de
paramètres Euromar.par). On veut déterminer les caractéristiques principales de la clientèle. On utilisera un logiciel ou les résultats numériques fournis en annexe pour répondre aux questions.
1) On considère les clients de rangs 1 et 2 (cf. ci-dessous). Calculer le carré de la distance d(1,2) utilisée en ACP.
nombre
n° âge revenu achats
d’enfants
1 51 195888 150.15 3
2 39 128456 173.12 2
2) Quel est le nombre d’axes principaux que l’on peut calculer ? Quelle est la somme des variances des composantes principales ? Calculer la variance de la quatrième composante principale.
3) Représenter graphiquement le cercle des corrélations.
4) On considère le plan principal 1 x 2. Que peut-on dire des clients de rangs 31, 43, 25, 28 ? Du client n°10 ? Des clients n°9 et 18 ?
5) Calculer les carrés des distances d’(1,2), d’(2,10), d’(1,10) entre les projections des clients de rang 1, 2 et 3 sur le pan 1 x 2. Que peut-on dire de chacune de ces approximations ?
Annexe
Variable moyenne écart-type
âge 40.06 9.34
revenu 107639.5 29615.79
achats 316.945 207.13
enfants 1.82 1.03
Plan principal 1 x 2
n° axe 1 axe 2
1 c1(i) cos2 c2(i) cos2
1 -1.286 0.135 2.822 0.653
2 0.023 0.001 0.464 0.211
10 -3.072 0.523 2.923 0.473
Coordonnées et cosinus carrés des clients de rang 1, 2 et 10
sur les deux premiers axes principaux.
Pour mieux connaître ses clients et particulièrement leur solvabilité lorsqu’ils demandent un prêt, une banque a étudié un échantillon de clients en fonction de quatre variables : l’âge, le revenu
annuel, le patrimoine, et l’emprunt obtenu. Ces 10 clients ont été classés en trois groupes : mauvais payeurs (groupe 1, n° 3, 4, 5), risque moyen (groupe 2, n° 2, 7, 9, 10), sans problèmes (groupe 3, n° 1,
6, 8).
n° Age Revenu Patrimoine Emprunt Groupe
1 45 250kF 1300kF 600kF 3
2 47 160kF 1150kF 450kF 2
3 38 165kF 850kF 370kF 1
4 36 175kF 770kF 250kF 1
5 29 99kF 450kF 400kF 1
6 39 170kF 1400kF 120kF 3
7 27 120kF 1400kF 160kF 2
8 51 160kF 1300kF 320kF 3
9 32 155kF 1500kF 350kF 2
10 35 170kF 1400kF 180kF 2
Annexe
Variable moyenne écart-type variance
age (années) 37.9 7.422264 55.09
revenu (kF) 162.4 37.2 1383.84
patrimoine (kF) 1152 328.5361 107936
emprunt (kF) 320 139.714 19520
Moyennes et variances
âge revenu patrimoine emprunt
âge 1.0000
revenu 0.5800 1.0000
patrimoine 0.1932 0.3453 1.0000
emprunt 0.4195 0.4304 -0.2547 1.0000
Coefficients de corrélation
C1 C2 C3 C4
r r2 r r2 r r2 r r2
âge -0.843 0.710 0.006 0.000 -0.536 0.288 -0.043 0.002
revenu -0.876 0.768 0.164 0.027 0.269 0.072 0.365 0.133
patrimoine -0.299 0.089 0.900 0.811 0.143 0.020 -0.282 0.079
emprunt -0.656 0.430 -0.638 0.407 0.265 0.070 -0.304 0.093
Coefficients de corrélation r et carré r2
entre les composantes principales et les variables initiales.
axe 1 axe 2 axe 1 axe 2
n° c1 cos2 c2 cos2 n° c1 cos2 c2 cos2
1 -3.056 0.874 -0.431 0.017 6 0.290 0.031 1.459 0.793
2 -1.122 0.530 -0.539 0.123 7 1.954 0.715 1.088 0.222
3 -0.023 0.001 -0.936 0.896 8 -1.108 0.369 0.364 0.040
4 0.421 0.099 -0.604 0.204 9 0.274 0.041 0.698 0.265
5 1.958 0.415 -2.309 0.577 10 0.412 0.096 1.210 0.828
Pour poursuivre l’analyse du risque financier dans sa clientèle , la banque a effectué une enquête plus importante sur sa clientèle. On étudie maintenant le tableau donnant la répartition de la
clientèle suivant les produits financiers qu’elle détient et le groupe de risque auquel elle appartient, auquel on a ajouté le groupe 4 constitué des nouveaux clients dont le risque n’est pas connu.
risque risque moyen risque faible risque inconnu
élevé Groupe 2 Groupe 3 Groupe 4
Groupe 1
PEA 27 40 25 17
Assurance vie 15 46 70 22
Épargne logement 10 35 66 19
Compte titre 22 33 25 13
CODEVI 29 35 43 18
Autres 11 41 13 9
Aucun 81 39 41 27
1) Quelle est la nature du tableau de données précédent ? Calculer et représenter graphiquement les répartitions marginales.
2) Calculer le profil des titulaires d’un PEA. Calculer le profil des clients à risque élevé (on donnera ces profils en pourcentages). Représenter graphiquement ces profils et les comparer ces
profils aux profils marginaux correspondants.
3) On effectue l’analyse factorielle des correspondances de ce tableau. Les trois premières valeurs propres sont les suivantes :
l1 = 0.10148 l2 = 0.03929 l3 = 0.00035
Quel est le pourcentage d’information conservée par les deux premiers axes ? Quelle est l’inertie totale ? Effectuer le test d’indépendance du c2 sur ce tableau. Donner un ordre de grandeur en
valeur absolue des coordonnées des profils sur le troisième axe.
4) Représenter simultanément les profils lignes et les profils colonnes sur le plan principal 1 x 2. Quels sont les profils représentés par l’origine des axes ? Que peut-on dire des comparaisons
demandées en question 2 ?
5) La proximité entre le point représentant le groupe 4 sur le plan 1 x 2 et l’origine des axes est-elle réelle ? Que peut-on en déduire sur les nouveaux clients ?
6) Calculer l’approximation du carré de la distance du chi2 entre les profils Assurance vie et Épargne logement donnée par le plan 1 x 2. Cette approximation est-elle précise ? .
7) Proposer une expression caractérisant la propriété mise en évidence par le premier axe.
Annexe
poids c1 cos2 contrib. c2 cos2 contrib.
PEA 0.125 -0.121 0.343 1.8 -0.161 0.608 8.3
Assurance vie 0.175 0.346 0.956 20.7 0.074 0.044 2.5
Ép. logement 0.149 0.424 0.879 26.4 0.157 0.121 9.4
Compte titre 0.107 -0.066 0.250 0.5 -0.114 0.749 3.5
CODEVI 0.143 -0.002 0.001 0.0 0.064 0.998 1.5
Autres 0.085 0.043 0.006 0.2 -0.538 0.991 62.5
Aucun 0.216 -0.487 0.913 50.5 0.150 0.086 12.3
Coordonnées des profils lignes sur les deux premiers axes principaux
poids c1 cos2 contrib. c2 cos2 contrib.
risque élevé G1 0.2236 -0.553 0.968 67.4 0.101 0.032 5.8
risque moyen G2 0.3085 0.075 0.064 1.7 -0.286 0.936 64.3
risque faible G3 0.3245 0.311 0.729 30.9 0.189 0.270 29.6
risque inconnu G4 0.1433 -0.002 0.001 0.0 0.031 0.306 0.3
Coordonnées des profils colonnes sur les deux premiers axes principaux
Une société de ventes par correspondance veut proposer à ses clients d’acheter à des conditions spéciales un lecteur de DVD ne figurant pas dans son catalogue. La démarche qu’elle envisage de
suivre consiste à envoyer par courrier une proposition à ses clients habituels, mais elle cherche à cibler la clientèle. Pour cela, on décide d’effectuer un premier envoi auprès d’un échantillon de 500
clients tirés au hasard dans son fichier, et d’en examiner les résultats avant de procéder au mailing proprement dit.
Les informations dont on dispose sur chaque client sont les suivantes :
· l’âge du chef de famille, codé de 1 à 6 suivant les classes ci-dessous, noté « âge » :
Une fois le délai de l’offre d’achat passé, on sait si le client a acheté ou non.
5) Quel est le pourcentage d’observations bien classées parmi les unités statistiques connues ? Quel est le pourcentage d’observations du groupe 1 bien classées ? Du groupe 2 ? Pourquoi ce
tableau ne donne-t-il pas nécessairement une bonne évaluation de l’efficacité de la règle ?
6) Proposer une démarche différente pour effectuer l’analyse factorielle discriminante.