Chap2 Statistique Descriptive 2

Statistique descriptive pour deux
variables
Chapitre 2 - Probabilités et Statistique - SMC4
9 décembre 2021
Table des matières
0.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . 2
0.1.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . 2
0.1.2 Représentation graphique . . . . . . . . . . . . . . . . 2
0.1.3 La covariance et la corrélation . . . . . . . . . . . . . . 3
0.1.4 La Regression linéaire simple . . . . . . . . . . . . . . . 4
0.2 Une variable quantitative et une variable qualitative . . . . . . 6
0.2.1 Exemple introductif : . . . . . . . . . . . . . . . . . . . 6
0.2.2 Illustration graphique de la liaison entre les deux va-
riables . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
0.2.3 Les données . . . . . . . . . . . . . . . . . . . . . . . . 7
0.2.4 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 8
0.2.5 Le rapport de corrélation . . . . . . . . . . . . . . . . . 8
0.2.6 représentation graphique . . . . . . . . . . . . . . . . . 9
0.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . 9
0.3.1 Exemple introductif : . . . . . . . . . . . . . . . . . . . 9
0.3.2 Illustration graphique de la liaison entre les deux va-
riables . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
0.3.3 Les données . . . . . . . . . . . . . . . . . . . . . . . . 12
0.3.4 Les indices de liaisons : le khi-deux et ses dérivés . . . 13
Introduction
Dans ce chapitre, on s'interesse à l'étude simultanée de deux variables,

notées X et Y , observées sur le même échantillon de n individus ω1 , ...ωn .
L'objectif est de mettre en évidence une éventuelle liaison entre les deux
variables, permettant, dans certains cas, d'expliquer l'une par l'autre, et/ou
de prévoir l'une à partir de l'autre. On introduira des indices statistiques
permettant de mesurer cette liaison.
1
0.1 Deux variables quantitatives
Les données de base sont constituée à partir de la série {(Xi , Yi ); i =

1, ..., n} ; où Xi = X(ωi ) et Yi = Y (ωi ). On peut saisir les données sous la
forme d'un tableau de n lignes et 2 colonnes.
0.1.1 Un exemple
Sur une population de 12 étudiants, on a observé la note à l'examen de

deux matières A et B :
Etudiant 1 2 3 4 5 6 7 8 9 10 11 12
A 3 4 4 5 5 6 6 7 7 8 8 9
B 3 3 5 4 5 5 6 5 6 6 8 7
Le but qu'on peut se xer est :

1) mesurer la liaison entre ces deux notes.
2) trouver une relation reliant les deux notes.
0.1.2 Représentation graphique
On reporte sur un repère plan les deux variables X (matière A) et Y

(matière B), On obtient un nuage de n = 12 points (Xi , Yi ).
2
0.1.3 La covariance et la corrélation
Il est interessant de dénir un indice rendant compte numériquement de la

manière dont les deux variables considérées varient simultanément. Cet indice
est le Coecient de Corrélation Lineaire ; il nécessite la déntion préalable
de la Covariance
La covariance
Dénition :
n n
1X 1X
Cov(X, Y ) = (Xi − X)(Yi − Y ) (= Xi Yi − XY )
n i=1 n i=1
où X et Y désignent les moyennes de X et Y .
Propriétés :
var(X) = cov(X, X) = V (X).
La covariance est un indice symétrique : cov(X, Y ) = cov(Y, X).
La covariance peut prendre toute valeure réelle (négative, nulle ou po-
sitive ).
3
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
[cov(X, Y )]2 ≤ var(X)var(Y ) ; (inégalité de Cauchy-Schwarz)
Le coecient de corrélation
Dénition :
cov(X, Y )
Cor(X, Y ) =
σX σY
.
Propriétés :
Le coecient de corrélation est égal à la covariance des variables cen-
X −X Y −Y
trées et réduites : cor(X, Y ) = cov( , ).
σX σY
Par conséquent, cor(X, Y ) est indépendant des unités de mesures de X
et Y .
La corrélation est un indice symétrique : cor(X, Y ) = cor(Y, X).
-1 ≤ cor(X, Y ) ≤ 1
Les valeurs -1 et +1 correspondent à une liaison linéaire parfaite entre
X et Y .
Retour à l'exemple : Pour les deux variables "A" et "B", ci-dessus,
cor(A,B) = 0.856. La liaison lineaire entre les deux matières est donc posi-
tive et assez forte : quand on une "bonne" note en A, on l'aurait aussi en B.
0.1.4 La Regression linéaire simple
Introduction
Lorsque deux variables quantitatives sont fortement corrélées (cor(X, Y ) '
1), il est naturel de chercher à établir, dans un but explicatif et prévisionnel,
une relation (qu'on suppose) linéaire reliant les deux variables de la forme
Y = aX + b où a et b sont deux réels à determiner à partir des données. Le
critère utilisé pour déterminer a et b est le critère des " moindres carré ".
Critère des "moindres carrés"

Il consiste à trouver a et b minimisant la quantité suivante :
S(a, b) = ni=1 {Yi − [aXi + b]}2

P
4
On notera que |Yi −[aXi +b]| représente, sur le graphique du nuage de points,
la distance verticale du point gurant sur la droite et le point (Xi , Yi ) .
Solution :
La minimisation de S en a et b fournit la solution unique suivante :
cov(X, Y )
a=
b ; bb = Y − b
aX
var(X)
Propriétés :
La droite d'équation Y = b aX + bb est appelé droite de régression de Y
sur X, elle passe par le centre de gravité du nuage (X, Y )
aXi + bb ( voir la gure ) sont appelés valeurs estimées.
Les valeurs Ybi = b
Elles ont la même valeur moyenne Y que Y .
Les valeurs ei = Yi − Ybi sont appelés résidus, ils sont de moyenne nulle,
1
et de variance égale à S(b a, bb) .
n
La variable X et la variable E des résidus sont non correlées : cor(X, E)
=0.
Qualité de la regression
Comment apprécier la qualité de la regression de Y sur X ? La relation
obtenue permet elle de bien expliquer Y par X ? de bien prévoir Y à partir
de X ?
Il existe un indice, appelé coecient de détermination permettant de juger
de la qualité de la regression c'est cor(X, Y )2 . Plus sa valeur (positive) est
proche de 1, plus la qualité de la regression est bonne, et donc X explique
bien Y .
Retour à l'exemple
La droite de regression de la variables "B" sur "A" est : B = 0.6842 A +
1.1447
Pour un individu donné, connaissant sa note en A, on peut "prévoir" sa note
en B.
5
Exercice : Refaire manuellement les calculs relatifs à cet exemple. Retrouver
la droite de regression de "B" sur "A" et vérier par le calcul les propriétés
de la regression. Tracer le graphique avec le nuage des points et la droite de
regression.
0.2 Une variable quantitative et une variable
qualitative
0.2.1 Exemple introductif :
étudier la liaison entre la variable quantitative "note" ( dans une matière),

et la variable qualitative "sexe", observée dans une population d'étudiants,
revient à répondre à la question suivante : Dans quelle mesure la note d'un
étudiant dépend de son sexe ? On se propose dans ce paragraphe d'établir un
indice statistique, qui permettra de répondre à cette question. il constituera
une mesure de liaison entre les deux variables, quantitative et qualitative.
sexe g g g g g g g g g g g g f f f f f f f f
note 2 5 4 7 8 4 1 2 3 6 9 8 7 5 5 4 1 2 8 6
6
0.2.2 Illustration graphique de la liaison entre les deux
variables
Reprenant les deux variables de l'exemple ci-dessus : la variable quanti-

tative "note", et la variables qualitative "sexe", à deux modalités : "garçon",
et " lle". Les trois graphiques ci-dessous, de type "boites à moustaches"
présentent trois situations diérentes, de liaison :
Dans le graphe 1, la "note" dépend très sensiblement du "sexe", de l'étu-

diant, on parlera alors d'une "liaison forte" ; dans le second graphe la note dé-
pend "moyennement" du "sexe" (liaison moyenne) ; et dans le dernier graphe,
la "note" dépend faiblement du "sexe" ( liaison faible).
0.2.3 Les données
Soit X la variable qualitative considérée, supposée à r modalités notées

x1 , ..., xl , ..., xr
7
et soit Y la variable quantitative de moyenne y et de variance σY2 . Ω désigne
l'ensemble de tus les individus ω1 , ..., ωn , chaque modalité xl de X dénit
un sous ensemble Ωl de Ω : c'est l'ensemble des individus sur lesquels a été
observé la modalité xl ; on obtient
P ainsi une partition Ωl , l = 1, ..., r, chaque
élément aura pour cardinal nl , ( nl = n) .
Considérons alors la restriction de Y à Ωl , (l = 1, ..., r), on peut dénir la
moyenne et la variance partielle de Y sur cette sous-population ; on les notera
respectivement : y l , et σl2 :
1 X
yl = Y (ω),
nl ω∈Ω
l
1 X
σl2 = [Y (ω) − y l ]2
nl ω∈Ω
l
0.2.4 Propriétés
X nl
y= y
l=1,r
n l
, X nl X nl
σY2 = (y l − y)2 + σl2
l=1,r
n l=1,r
n
Le premier terme de la décomposition de σY2 , noté σE2 , est appelé variance

expliquée (par la partition, ou, la variable qualitative X ), le second terme,
noté σR2
, appelé la variance résiduelle
σY2 = σE2 + σR2
0.2.5 Le rapport de corrélation
Dénition : C'est l'indice de liaison entre les deux variables X , et Y ; il

est déni de la façon suivante :
s
σE2
sY /X = .
σY2
8
Plus cet indice est grand, plus forte est la liaison entre les deux variable .
Propriétés :
-) sY /X n'est pas symétrique .
-) 0 ≤ sY /X ≤ 1
0.2.6 représentation graphique
On utilise La boîte à moustaches, un diagramme qui résume quelques ca-

ractéristiques de position du caractère étudié (médiane, quartiles, minimum,
maximum et médiane). Voir paragraphe 2.2 ci-dessus.
0.3 Deux variables qualitatives
0.3.1 Exemple introductif :
Deux variables qualitatives : le " sexe", de modalités "G" et "F" (garçon

et lle), et la "mention " à l'examen, de modalités "P" et "B" (passable
et bien), ont été observées sur une population de 359 étudiants. On dispose
donc d'un tableau de données qui a la structure suivante :
Etudiants 1 2 ... 359

sexe G F ... F
Mention P B ... P
qui peut se résumé par un tableau de dimensions plus réduites :
sexe ↓ mention → passable bien Total

garçon 130 55 185
lle 107 67 174
Total 237 122 359
Etudier la liaison entre les deux variables qualitatives "mention" ( à l'exa-
men), et "sexe", observées dans une population d'étudiants, revient à ré-
pondre à la question suivante : Dans quelle mesure la "mention" obtenue
9
par un étudiant dépend, ou ne dépend pas de son sexe ? On se propose dans
ce paragraphe d'établir un indice statistique, qui permettra de répondre à
cette question, il constituera une mesure de liaison entre les deux variables
qualitatives.
0.3.2 Illustration graphique de la liaison entre les deux

variables
Reprenant les deux variables qualitatives "mention" et "sexe" de l'exemple

ci-dessus. Pour bien saisir le sens l'indépendance, c'est à dire l'absence de liai-
son, et la dépendance, c'est à dire la présence de liaison, regardons de près
ces deux situations (ctives) extrêmes :
Situation 1 :
garçon 88 22 110
lle 48 12 60
Total 136 34 170
On en déduit le tableau des pourcentages :

garçon 80 % 20 % 100 %
lle 80 % 20 % 100 %
10
Auquel, on associe le graphique suivant :
Situation 2 :
garçon 22 88 110
lle 48 12 60
Total 70 100 170
On en déduit le tableau des pourcentages :

garçon 20 % 80 % 100 %
lle 80 % 20 % 100 %
11
Auquel, on associe le graphique suivant :
Il est clair que la situation 1, vue les mêmes pourcentages de mention

chez les garçons et les lles, présente une parfaite situation d'indépendance.
Dans la situation 2, on beaucoup plus de chance (4 fois plus ! !) d'avoir une
mention bien quand est garçon, que quand on est lle ; la mention dépend
bien du sexe de l'étudiant, il y a donc une certaine dépendance entre les deux
variables "sexe" et "mention". La mesure de cette dépendance sera donné par
la distance entre les deux tableaux : (22 − 48)2 + (88 − 22)2 + (48 − 48)2 +
(12 − 12)2
0.3.3 Les données
On considère dans ce paragraphe deux variables qualitatives, X , et Y

observées simultanément sur n individus, leurs modalités respectives sont
x1 , ..., xl , ...xr et y1 , ..., yl , ...yc . Le plus souvent ces données sont présentées
dans un tableau, de dimension rxc, appelé "table de contingence", son terme
générique nlh est le nombre d'individus ayant, à la fois, la modalité xl de X ,
12
et yh de Y .
y1 ... yh ... yc sommes

x1 n11 ... n1h ... n1c n1.
.. .. .. .. ..
. . ... . ... . .
xl nl1 ... nlh ... nlc nl.
.. .. .. .. ..
. . ... . ... . .
xr nr1 ... nrh ... nrc nr.
sommes n.1 ... n.h ... n.c n
Les quantitésP P les eectifs marginaux,P
nl. et n.h sont appelés ils sont dé-
nis par n l. = n
h=1,c lh et n .h = n
l=1,r lh , et il vérient l=1,r nl. =
h=1,c n.h = n .
P
0.3.4 Les indices de liaisons : le khi-deux et ses dérivés
Dénition du khi-deux
De façon naturelle, pour mesurer la liaison sur une table de contingence,
on utilise donc l'indice appelé "khi-deux", dénit par :
2 r c {nlh − nl.nn.h }2
χ = Σl=1 Σh=1 nl. n.h
n
Le coecient χ2 est toujours positif ou nul et il est d'autant plus grand que la
liaison est forte. Malheureusement, il dépend aussi des dimensions r et c de la
table étudiée, ainsi que de la taille n de l'échantillon observé ; en particulier,
il n'est pas majoré. C'est la raison pour laquelle on a déni d'autres indices.
Autres indices liés au khi-deux

Nous en citerons trois.
Le phi-deux : Φ2 = χn . Il ne dépend plus de n, mais dépend encore de
2
r et de c.
Le coecient T de Tschuprow :
s
Φ2
p
(r − 1)(c − 1)
13
On peut vérier que 0 ≤ T ≤ 1.
Le coecient C de Cramer :
s
Φ2
C= ,
d−1
avec : d = inf (r, c). On vérie maintenant : 0 ≤ T ≤ C ≤ 1.
Retour à l'exemple
Calculer les diérents indices de liaison : χ2 ; Φ2 ; T ; C ; puis interpréter.
14

Chap2 Statistique Descriptive 2

Transféré par

Droits d'auteur :

Formats disponibles

Chap2 Statistique Descriptive 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chap2 Statistique Descriptive 2

Transféré par

Droits d'auteur :

Formats disponibles

Statistique descriptive pour deux

Dans ce chapitre, on s'interesse à l'étude simultanée de deux variables,

Les données de base sont constituée à partir de la série {(Xi , Yi ); i =

Sur une population de 12 étudiants, on a observé la note à l'examen de

Le but qu'on peut se xer est :

0.1.2 Représentation graphique

On reporte sur un repère plan les deux variables X (matière A) et Y

Il est interessant de dénir un indice rendant compte numériquement de la

où X et Y désignent les moyennes de X et Y .

0.1.4 La Regression linéaire simple

Critère des "moindres carrés"

S(a, b) = ni=1 {Yi − [aXi + b]}2

0.2 Une variable quantitative et une variable

0.2.1 Exemple introductif :

étudier la liaison entre la variable quantitative "note" ( dans une matière),

Reprenant les deux variables de l'exemple ci-dessus : la variable quanti-

Dans le graphe 1, la "note" dépend très sensiblement du "sexe", de l'étu-

0.2.3 Les données

Soit X la variable qualitative considérée, supposée à r modalités notées

Le premier terme de la décomposition de σY2 , noté σE2 , est appelé variance

σY2 = σE2 + σR2

0.2.5 Le rapport de corrélation

Dénition : C'est l'indice de liaison entre les deux variables X , et Y ; il

0.2.6 représentation graphique

On utilise La boîte à moustaches, un diagramme qui résume quelques ca-

0.3 Deux variables qualitatives

0.3.1 Exemple introductif :

Deux variables qualitatives : le " sexe", de modalités "G" et "F" (garçon

Etudiants 1 2 ... 359

qui peut se résumé par un tableau de dimensions plus réduites :

sexe ↓ mention → passable bien Total

0.3.2 Illustration graphique de la liaison entre les deux

Reprenant les deux variables qualitatives "mention" et "sexe" de l'exemple

On en déduit le tableau des pourcentages :

sexe ↓ mention → passable bien Total

On en déduit le tableau des pourcentages :

sexe ↓ mention → passable bien Total

Il est clair que la situation 1, vue les mêmes pourcentages de mention

0.3.3 Les données

On considère dans ce paragraphe deux variables qualitatives, X , et Y

y1 ... yh ... yc sommes

0.3.4 Les indices de liaisons : le khi-deux et ses dérivés

Autres indices liés au khi-deux

avec : d = inf (r, c). On vérie maintenant : 0 ≤ T ≤ C ≤ 1.

Vous aimerez peut-être aussi

Le but qu'on peut se xer est :

Il est interessant de dénir un indice rendant compte numériquement de la

Dénition : C'est l'indice de liaison entre les deux variables X , et Y ; il

avec : d = inf (r, c). On vérie maintenant : 0 ≤ T ≤ C ≤ 1.