Chap2 Statistique Descriptive 2
Chap2 Statistique Descriptive 2
Chap2 Statistique Descriptive 2
variables
Chapitre 2 - Probabilités et Statistique - SMC4
9 décembre 2021
Table des matières
0.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . 2
0.1.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . 2
0.1.2 Représentation graphique . . . . . . . . . . . . . . . . 2
0.1.3 La covariance et la corrélation . . . . . . . . . . . . . . 3
0.1.4 La Regression linéaire simple . . . . . . . . . . . . . . . 4
0.2 Une variable quantitative et une variable qualitative . . . . . . 6
0.2.1 Exemple introductif : . . . . . . . . . . . . . . . . . . . 6
0.2.2 Illustration graphique de la liaison entre les deux va-
riables . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
0.2.3 Les données . . . . . . . . . . . . . . . . . . . . . . . . 7
0.2.4 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 8
0.2.5 Le rapport de corrélation . . . . . . . . . . . . . . . . . 8
0.2.6 représentation graphique . . . . . . . . . . . . . . . . . 9
0.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . 9
0.3.1 Exemple introductif : . . . . . . . . . . . . . . . . . . . 9
0.3.2 Illustration graphique de la liaison entre les deux va-
riables . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
0.3.3 Les données . . . . . . . . . . . . . . . . . . . . . . . . 12
0.3.4 Les indices de liaisons : le khi-deux et ses dérivés . . . 13
Introduction
1
0.1 Deux variables quantitatives
0.1.1 Un exemple
Etudiant 1 2 3 4 5 6 7 8 9 10 11 12
A 3 4 4 5 5 6 6 7 7 8 8 9
B 3 3 5 4 5 5 6 5 6 6 8 7
2
0.1.3 La covariance et la corrélation
La covariance
Dénition :
n n
1X 1X
Cov(X, Y ) = (Xi − X)(Yi − Y ) (= Xi Yi − XY )
n i=1 n i=1
Propriétés :
var(X) = cov(X, X) = V (X).
La covariance est un indice symétrique : cov(X, Y ) = cov(Y, X).
La covariance peut prendre toute valeure réelle (négative, nulle ou po-
sitive ).
3
var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
[cov(X, Y )]2 ≤ var(X)var(Y ) ; (inégalité de Cauchy-Schwarz)
Le coecient de corrélation
Dénition :
cov(X, Y )
Cor(X, Y ) =
σX σY
.
Propriétés :
Le coecient de corrélation est égal à la covariance des variables cen-
X −X Y −Y
trées et réduites : cor(X, Y ) = cov( , ).
σX σY
Par conséquent, cor(X, Y ) est indépendant des unités de mesures de X
et Y .
La corrélation est un indice symétrique : cor(X, Y ) = cor(Y, X).
-1 ≤ cor(X, Y ) ≤ 1
Les valeurs -1 et +1 correspondent à une liaison linéaire parfaite entre
X et Y .
Retour à l'exemple : Pour les deux variables "A" et "B", ci-dessus,
cor(A,B) = 0.856. La liaison lineaire entre les deux matières est donc posi-
tive et assez forte : quand on une "bonne" note en A, on l'aurait aussi en B.
Introduction
Lorsque deux variables quantitatives sont fortement corrélées (cor(X, Y ) '
1), il est naturel de chercher à établir, dans un but explicatif et prévisionnel,
une relation (qu'on suppose) linéaire reliant les deux variables de la forme
Y = aX + b où a et b sont deux réels à determiner à partir des données. Le
critère utilisé pour déterminer a et b est le critère des " moindres carré ".
4
On notera que |Yi −[aXi +b]| représente, sur le graphique du nuage de points,
la distance verticale du point gurant sur la droite et le point (Xi , Yi ) .
Solution :
La minimisation de S en a et b fournit la solution unique suivante :
cov(X, Y )
a=
b ; bb = Y − b
aX
var(X)
Propriétés :
La droite d'équation Y = b aX + bb est appelé droite de régression de Y
sur X, elle passe par le centre de gravité du nuage (X, Y )
aXi + bb ( voir la gure ) sont appelés valeurs estimées.
Les valeurs Ybi = b
Elles ont la même valeur moyenne Y que Y .
Les valeurs ei = Yi − Ybi sont appelés résidus, ils sont de moyenne nulle,
1
et de variance égale à S(b a, bb) .
n
La variable X et la variable E des résidus sont non correlées : cor(X, E)
=0.
Qualité de la regression
Comment apprécier la qualité de la regression de Y sur X ? La relation
obtenue permet elle de bien expliquer Y par X ? de bien prévoir Y à partir
de X ?
Il existe un indice, appelé coecient de détermination permettant de juger
de la qualité de la regression c'est cor(X, Y )2 . Plus sa valeur (positive) est
proche de 1, plus la qualité de la regression est bonne, et donc X explique
bien Y .
Retour à l'exemple
La droite de regression de la variables "B" sur "A" est : B = 0.6842 A +
1.1447
Pour un individu donné, connaissant sa note en A, on peut "prévoir" sa note
en B.
5
Exercice : Refaire manuellement les calculs relatifs à cet exemple. Retrouver
la droite de regression de "B" sur "A" et vérier par le calcul les propriétés
de la regression. Tracer le graphique avec le nuage des points et la droite de
regression.
qualitative
sexe g g g g g g g g g g g g f f f f f f f f
note 2 5 4 7 8 4 1 2 3 6 9 8 7 5 5 4 1 2 8 6
6
0.2.2 Illustration graphique de la liaison entre les deux
variables
7
et soit Y la variable quantitative de moyenne y et de variance σY2 . Ω désigne
l'ensemble de tus les individus ω1 , ..., ωn , chaque modalité xl de X dénit
un sous ensemble Ωl de Ω : c'est l'ensemble des individus sur lesquels a été
observé la modalité xl ; on obtient
P ainsi une partition Ωl , l = 1, ..., r, chaque
élément aura pour cardinal nl , ( nl = n) .
Considérons alors la restriction de Y à Ωl , (l = 1, ..., r), on peut dénir la
moyenne et la variance partielle de Y sur cette sous-population ; on les notera
respectivement : y l , et σl2 :
1 X
yl = Y (ω),
nl ω∈Ω
l
1 X
σl2 = [Y (ω) − y l ]2
nl ω∈Ω
l
0.2.4 Propriétés
X nl
y= y
l=1,r
n l
, X nl X nl
σY2 = (y l − y)2 + σl2
l=1,r
n l=1,r
n
8
Plus cet indice est grand, plus forte est la liaison entre les deux variable .
Propriétés :
-) sY /X n'est pas symétrique .
-) 0 ≤ sY /X ≤ 1
9
par un étudiant dépend, ou ne dépend pas de son sexe ? On se propose dans
ce paragraphe d'établir un indice statistique, qui permettra de répondre à
cette question, il constituera une mesure de liaison entre les deux variables
qualitatives.
10
Auquel, on associe le graphique suivant :
Situation 2 :
sexe ↓ mention → passable bien Total
garçon 22 88 110
lle 48 12 60
Total 70 100 170
11
Auquel, on associe le graphique suivant :
12
et yh de Y .
Dénition du khi-deux
De façon naturelle, pour mesurer la liaison sur une table de contingence,
on utilise donc l'indice appelé "khi-deux", dénit par :
2 r c {nlh − nl.nn.h }2
χ = Σl=1 Σh=1 nl. n.h
n
Le coecient χ2 est toujours positif ou nul et il est d'autant plus grand que la
liaison est forte. Malheureusement, il dépend aussi des dimensions r et c de la
table étudiée, ainsi que de la taille n de l'échantillon observé ; en particulier,
il n'est pas majoré. C'est la raison pour laquelle on a déni d'autres indices.
r et de c.
Le coecient T de Tschuprow :
s
Φ2
p
(r − 1)(c − 1)
13
On peut vérier que 0 ≤ T ≤ 1.
Le coecient C de Cramer :
s
Φ2
C= ,
d−1
Retour à l'exemple
Calculer les diérents indices de liaison : χ2 ; Φ2 ; T ; C ; puis interpréter.
14