Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Chap2 Statistique Descriptive 2

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 15

Statistique descriptive pour deux

variables
Chapitre 2 - Probabilités et Statistique - SMC4

9 décembre 2021
Table des matières
0.1 Deux variables quantitatives . . . . . . . . . . . . . . . . . . . 2
0.1.1 Un exemple . . . . . . . . . . . . . . . . . . . . . . . . 2
0.1.2 Représentation graphique . . . . . . . . . . . . . . . . 2
0.1.3 La covariance et la corrélation . . . . . . . . . . . . . . 3
0.1.4 La Regression linéaire simple . . . . . . . . . . . . . . . 4
0.2 Une variable quantitative et une variable qualitative . . . . . . 6
0.2.1 Exemple introductif : . . . . . . . . . . . . . . . . . . . 6
0.2.2 Illustration graphique de la liaison entre les deux va-
riables . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
0.2.3 Les données . . . . . . . . . . . . . . . . . . . . . . . . 7
0.2.4 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . 8
0.2.5 Le rapport de corrélation . . . . . . . . . . . . . . . . . 8
0.2.6 représentation graphique . . . . . . . . . . . . . . . . . 9
0.3 Deux variables qualitatives . . . . . . . . . . . . . . . . . . . . 9
0.3.1 Exemple introductif : . . . . . . . . . . . . . . . . . . . 9
0.3.2 Illustration graphique de la liaison entre les deux va-
riables . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
0.3.3 Les données . . . . . . . . . . . . . . . . . . . . . . . . 12
0.3.4 Les indices de liaisons : le khi-deux et ses dérivés . . . 13

Introduction

Dans ce chapitre, on s'interesse à l'étude simultanée de deux variables,


notées X et Y , observées sur le même échantillon de n individus ω1 , ...ωn .
L'objectif est de mettre en évidence une éventuelle liaison entre les deux
variables, permettant, dans certains cas, d'expliquer l'une par l'autre, et/ou
de prévoir l'une à partir de l'autre. On introduira des indices statistiques
permettant de mesurer cette liaison.

1
0.1 Deux variables quantitatives

Les données de base sont constituée à partir de la série {(Xi , Yi ); i =


1, ..., n} ; où Xi = X(ωi ) et Yi = Y (ωi ). On peut saisir les données sous la
forme d'un tableau de n lignes et 2 colonnes.

0.1.1 Un exemple

Sur une population de 12 étudiants, on a observé la note à l'examen de


deux matières A et B :

Etudiant 1 2 3 4 5 6 7 8 9 10 11 12
A 3 4 4 5 5 6 6 7 7 8 8 9
B 3 3 5 4 5 5 6 5 6 6 8 7

Le but qu'on peut se xer est :


1) mesurer la liaison entre ces deux notes.
2) trouver une relation reliant les deux notes.

0.1.2 Représentation graphique

On reporte sur un repère plan les deux variables X (matière A) et Y


(matière B), On obtient un nuage de n = 12 points (Xi , Yi ).

2
0.1.3 La covariance et la corrélation

Il est interessant de dénir un indice rendant compte numériquement de la


manière dont les deux variables considérées varient simultanément. Cet indice
est le Coecient de Corrélation Lineaire ; il nécessite la déntion préalable
de la Covariance

La covariance
Dénition :
n n
1X 1X
Cov(X, Y ) = (Xi − X)(Yi − Y ) (= Xi Yi − XY )
n i=1 n i=1

où X et Y désignent les moyennes de X et Y .

Propriétés :
 var(X) = cov(X, X) = V (X).
 La covariance est un indice symétrique : cov(X, Y ) = cov(Y, X).
 La covariance peut prendre toute valeure réelle (négative, nulle ou po-
sitive ).

3
 var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
 [cov(X, Y )]2 ≤ var(X)var(Y ) ; (inégalité de Cauchy-Schwarz)

Le coecient de corrélation
Dénition :
cov(X, Y )
Cor(X, Y ) =
σX σY
.
Propriétés :
 Le coecient de corrélation est égal à la covariance des variables cen-
X −X Y −Y
trées et réduites : cor(X, Y ) = cov( , ).
σX σY
Par conséquent, cor(X, Y ) est indépendant des unités de mesures de X
et Y .
 La corrélation est un indice symétrique : cor(X, Y ) = cor(Y, X).
 -1 ≤ cor(X, Y ) ≤ 1
Les valeurs -1 et +1 correspondent à une liaison linéaire parfaite entre
X et Y .
Retour à l'exemple : Pour les deux variables "A" et "B", ci-dessus,
cor(A,B) = 0.856. La liaison lineaire entre les deux matières est donc posi-
tive et assez forte : quand on une "bonne" note en A, on l'aurait aussi en B.

0.1.4 La Regression linéaire simple

Introduction
Lorsque deux variables quantitatives sont fortement corrélées (cor(X, Y ) '
1), il est naturel de chercher à établir, dans un but explicatif et prévisionnel,
une relation (qu'on suppose) linéaire reliant les deux variables de la forme
Y = aX + b où a et b sont deux réels à determiner à partir des données. Le
critère utilisé pour déterminer a et b est le critère des " moindres carré ".

Critère des "moindres carrés"


Il consiste à trouver a et b minimisant la quantité suivante :

S(a, b) = ni=1 {Yi − [aXi + b]}2


P

4
On notera que |Yi −[aXi +b]| représente, sur le graphique du nuage de points,
la distance verticale du point gurant sur la droite et le point (Xi , Yi ) .

Solution :
La minimisation de S en a et b fournit la solution unique suivante :
cov(X, Y )
a=
b ; bb = Y − b
aX
var(X)

Propriétés :
 La droite d'équation Y = b aX + bb est appelé droite de régression de Y
sur X, elle passe par le centre de gravité du nuage (X, Y )
aXi + bb ( voir la gure ) sont appelés valeurs estimées.
 Les valeurs Ybi = b
Elles ont la même valeur moyenne Y que Y .

 Les valeurs ei = Yi − Ybi sont appelés résidus, ils sont de moyenne nulle,
1
et de variance égale à S(b a, bb) .
n
 La variable X et la variable E des résidus sont non correlées : cor(X, E)
=0.

Qualité de la regression
Comment apprécier la qualité de la regression de Y sur X ? La relation
obtenue permet elle de bien expliquer Y par X ? de bien prévoir Y à partir
de X ?
Il existe un indice, appelé coecient de détermination permettant de juger
de la qualité de la regression c'est cor(X, Y )2 . Plus sa valeur (positive) est
proche de 1, plus la qualité de la regression est bonne, et donc X explique
bien Y .

Retour à l'exemple
La droite de regression de la variables "B" sur "A" est : B = 0.6842 A +
1.1447
Pour un individu donné, connaissant sa note en A, on peut "prévoir" sa note
en B.

5
Exercice : Refaire manuellement les calculs relatifs à cet exemple. Retrouver
la droite de regression de "B" sur "A" et vérier par le calcul les propriétés
de la regression. Tracer le graphique avec le nuage des points et la droite de
regression.

0.2 Une variable quantitative et une variable

qualitative

0.2.1 Exemple introductif :

étudier la liaison entre la variable quantitative "note" ( dans une matière),


et la variable qualitative "sexe", observée dans une population d'étudiants,
revient à répondre à la question suivante : Dans quelle mesure la note d'un
étudiant dépend de son sexe ? On se propose dans ce paragraphe d'établir un
indice statistique, qui permettra de répondre à cette question. il constituera
une mesure de liaison entre les deux variables, quantitative et qualitative.

sexe g g g g g g g g g g g g f f f f f f f f
note 2 5 4 7 8 4 1 2 3 6 9 8 7 5 5 4 1 2 8 6

6
0.2.2 Illustration graphique de la liaison entre les deux
variables

Reprenant les deux variables de l'exemple ci-dessus : la variable quanti-


tative "note", et la variables qualitative "sexe", à deux modalités : "garçon",
et " lle". Les trois graphiques ci-dessous, de type "boites à moustaches"
présentent trois situations diérentes, de liaison :

Dans le graphe 1, la "note" dépend très sensiblement du "sexe", de l'étu-


diant, on parlera alors d'une "liaison forte" ; dans le second graphe la note dé-
pend "moyennement" du "sexe" (liaison moyenne) ; et dans le dernier graphe,
la "note" dépend faiblement du "sexe" ( liaison faible).

0.2.3 Les données

Soit X la variable qualitative considérée, supposée à r modalités notées


x1 , ..., xl , ..., xr

7
et soit Y la variable quantitative de moyenne y et de variance σY2 . Ω désigne
l'ensemble de tus les individus ω1 , ..., ωn , chaque modalité xl de X dénit
un sous ensemble Ωl de Ω : c'est l'ensemble des individus sur lesquels a été
observé la modalité xl ; on obtient
P ainsi une partition Ωl , l = 1, ..., r, chaque
élément aura pour cardinal nl , ( nl = n) .
Considérons alors la restriction de Y à Ωl , (l = 1, ..., r), on peut dénir la
moyenne et la variance partielle de Y sur cette sous-population ; on les notera
respectivement : y l , et σl2 :

1 X
yl = Y (ω),
nl ω∈Ω
l

1 X
σl2 = [Y (ω) − y l ]2
nl ω∈Ω
l

0.2.4 Propriétés

X nl
y= y
l=1,r
n l
, X nl X nl
σY2 = (y l − y)2 + σl2
l=1,r
n l=1,r
n

Le premier terme de la décomposition de σY2 , noté σE2 , est appelé variance


expliquée (par la partition, ou, la variable qualitative X ), le second terme,
noté σR2
, appelé la variance résiduelle

σY2 = σE2 + σR2

0.2.5 Le rapport de corrélation

Dénition : C'est l'indice de liaison entre les deux variables X , et Y ; il


est déni de la façon suivante :
s
σE2
sY /X = .
σY2

8
Plus cet indice est grand, plus forte est la liaison entre les deux variable .

Propriétés :
-) sY /X n'est pas symétrique .
-) 0 ≤ sY /X ≤ 1

0.2.6 représentation graphique

On utilise La boîte à moustaches, un diagramme qui résume quelques ca-


ractéristiques de position du caractère étudié (médiane, quartiles, minimum,
maximum et médiane). Voir paragraphe 2.2 ci-dessus.

0.3 Deux variables qualitatives

0.3.1 Exemple introductif :

Deux variables qualitatives : le " sexe", de modalités "G" et "F" (garçon


et lle), et la "mention " à l'examen, de modalités "P" et "B" (passable
et bien), ont été observées sur une population de 359 étudiants. On dispose
donc d'un tableau de données qui a la structure suivante :

Etudiants 1 2 ... 359


sexe G F ... F
Mention P B ... P

qui peut se résumé par un tableau de dimensions plus réduites :

sexe ↓ mention → passable bien Total


garçon 130 55 185
lle 107 67 174
Total 237 122 359
Etudier la liaison entre les deux variables qualitatives "mention" ( à l'exa-
men), et "sexe", observées dans une population d'étudiants, revient à ré-
pondre à la question suivante : Dans quelle mesure la "mention" obtenue

9
par un étudiant dépend, ou ne dépend pas de son sexe ? On se propose dans
ce paragraphe d'établir un indice statistique, qui permettra de répondre à
cette question, il constituera une mesure de liaison entre les deux variables
qualitatives.

0.3.2 Illustration graphique de la liaison entre les deux


variables

Reprenant les deux variables qualitatives "mention" et "sexe" de l'exemple


ci-dessus. Pour bien saisir le sens l'indépendance, c'est à dire l'absence de liai-
son, et la dépendance, c'est à dire la présence de liaison, regardons de près
ces deux situations (ctives) extrêmes :
Situation 1 :
sexe ↓ mention → passable bien Total
garçon 88 22 110
lle 48 12 60
Total 136 34 170

On en déduit le tableau des pourcentages :

sexe ↓ mention → passable bien Total


garçon 80 % 20 % 100 %
lle 80 % 20 % 100 %

10
Auquel, on associe le graphique suivant :

Situation 2 :
sexe ↓ mention → passable bien Total
garçon 22 88 110
lle 48 12 60
Total 70 100 170

On en déduit le tableau des pourcentages :

sexe ↓ mention → passable bien Total


garçon 20 % 80 % 100 %
lle 80 % 20 % 100 %

11
Auquel, on associe le graphique suivant :

Il est clair que la situation 1, vue les mêmes pourcentages de mention


chez les garçons et les lles, présente une parfaite situation d'indépendance.
Dans la situation 2, on beaucoup plus de chance (4 fois plus ! !) d'avoir une
mention bien quand est garçon, que quand on est lle ; la mention dépend
bien du sexe de l'étudiant, il y a donc une certaine dépendance entre les deux
variables "sexe" et "mention". La mesure de cette dépendance sera donné par
la distance entre les deux tableaux : (22 − 48)2 + (88 − 22)2 + (48 − 48)2 +
(12 − 12)2

0.3.3 Les données

On considère dans ce paragraphe deux variables qualitatives, X , et Y


observées simultanément sur n individus, leurs modalités respectives sont
x1 , ..., xl , ...xr et y1 , ..., yl , ...yc . Le plus souvent ces données sont présentées
dans un tableau, de dimension rxc, appelé "table de contingence", son terme
générique nlh est le nombre d'individus ayant, à la fois, la modalité xl de X ,

12
et yh de Y .

y1 ... yh ... yc sommes


x1 n11 ... n1h ... n1c n1.
.. .. .. .. ..
. . ... . ... . .
xl nl1 ... nlh ... nlc nl.
.. .. .. .. ..
. . ... . ... . .
xr nr1 ... nrh ... nrc nr.
sommes n.1 ... n.h ... n.c n
Les quantitésP P les eectifs marginaux,P
nl. et n.h sont appelés ils sont dé-
nis par n l. = n
h=1,c lh et n .h = n
l=1,r lh , et il vérient l=1,r nl. =
h=1,c n.h = n .
P

0.3.4 Les indices de liaisons : le khi-deux et ses dérivés

Dénition du khi-deux
De façon naturelle, pour mesurer la liaison sur une table de contingence,
on utilise donc l'indice appelé "khi-deux", dénit par :

2 r c {nlh − nl.nn.h }2
χ = Σl=1 Σh=1 nl. n.h
n

Le coecient χ2 est toujours positif ou nul et il est d'autant plus grand que la
liaison est forte. Malheureusement, il dépend aussi des dimensions r et c de la
table étudiée, ainsi que de la taille n de l'échantillon observé ; en particulier,
il n'est pas majoré. C'est la raison pour laquelle on a déni d'autres indices.

Autres indices liés au khi-deux


Nous en citerons trois.
 Le phi-deux : Φ2 = χn . Il ne dépend plus de n, mais dépend encore de
2

r et de c.
 Le coecient T de Tschuprow :
s
Φ2
p
(r − 1)(c − 1)

13
On peut vérier que 0 ≤ T ≤ 1.
 Le coecient C de Cramer :
s
Φ2
C= ,
d−1

avec : d = inf (r, c). On vérie maintenant : 0 ≤ T ≤ C ≤ 1.

Retour à l'exemple
Calculer les diérents indices de liaison : χ2 ; Φ2 ; T ; C ; puis interpréter.

14

Vous aimerez peut-être aussi