Esseg-Statistique: Février 2019
Esseg-Statistique: Février 2019
Esseg-Statistique: Février 2019
Février 2019
EXERCICE 1
Soit x une série statistique. Démontrer la formule de Koenig pour la variance :
V ( X ) = x² − x ² .
EXERCICE 2
Au poste de péage, on compte le nombre de voitures se présentant sur une période de 5mn. Sur
100 observations de 5mn, on obtient les résultats suivants :
Nombre de voitures 1 2 3 4 5 6 7 8 9 10 11 12
Nombre d’observations 2 8 14 20 19 15 9 6 2 3 1 1
On cherche à étudier la relation entre le nombre d’enfants d’un couple et son salaire. On dispose
de la série bidimensionnelle suivantes :
Nombre d’enfants 4 3 2 1 0 5 6 7 8
Salaire en euros 510 590 900 1420 2000 600 850 1300 2200
Année 1 2 3 4 5 6 7
Indice 165 176 193 202 222 245 253
EXERCICE 7
(resp. la variance) des valeurs de la variable Y pour les individus de la modalité j. Montrer que
1 k 1 k
s ²Y = sE2 + sR2 où sE2 = j j
n j =1
n ( y − y )² et s 2
R = n j s 2j ( y) . On les appelle respectivement
n j =1
variances inter et intra-catégories.
EXERCICE 8
On observe le nombre d’enfants Y sur un ensemble de 12 individus répartis entre les sexes
(variable X) :
F 3 4 5 4 2 5
H 10 7 6 3 4 2
Variance inter
Le rapport de corrélation entre X et Y =
Variance totale
EXERCICE 9
On considère un échantillon de 797 étudiants d’une université ayant obtenu le DEUG. On étudie
le lien entre l’age d’obtention du Bac (variable Y), à 4 modalités (moins de 18 ans, 18 ans, 19
ans, plus de 19 ans), et la durée d’obtention du DEUG (variable X), à 3 modalités (2 ans, 3 ans,
4 ans). On a la table de contingence ci-dessous :
EXERCICE 10
Soient x et y deux séries statistiques de taille n. On note rx et ry les séries des rangs
correspondantes.
n +1
1. Montrer que rx = .
2
n² − 1
2. Montrer que srx ² = .
12
1 n
3. En posant d i = rxi − ryi , montrer que 2s(rx, ry ) = srx ² + sry2 − di ² .
n i =1
4. En déduire l’expression du coefficient linéaire entre ces deux séries, appelé coefficient
n
6 d i ²
de corrélation des rangs de Spearman : rs = 1 − i =1
.
n(n² − 1)
EXERCICE 11
Dix échantillons de cidre ont été classés par ordre de préférence par deux gastronomes. On
obtient les classements suivants :
A 1 2 3 4 5 6 7 8 9 10
B 3 1 4 2 6 5 9 8 10 7
2. Une autre façon d’évaluer le lien entre les rangs de deux séries consiste à utiliser le
2S
coefficient de corrélation des rangs de Kendall. Ce coefficient est défini par : = ,
n(n − 1)
où S est obtenue de la façon suivante : on considère tous les couples d’individus de la série.
On note 1 si les individus i et j sont dans le même ordre pour les deux variables considérées
(ici a i a j et bi b j ). On note -1 si les deux classements discordent (ici a i a j et
n(n − 1)
bi b j ). S est la somme les valeurs obtenues pour les couples distincts. Montrer
2
que est compris entre -1 et 1 et qu’il est d’autant plus proche de 1 que les classements
sont semblables. Calculer pour les données dont on dispose.
EXERCICE DE REFLEXION
Soit une série statistique de taille n, classée suivant la partition [d1 , d2 [,...,[dk , dk +1[,...,[dm−1, dm[
. On note nk , Nk , ak respectivement l’effectif, l’effectif cumulé et l’amplitude de la classe
[ d k , d k +1[ . Soit [ d j , d j +1[ la première classe contenante au moins 50% des effectifs cumulés.
Démontrer que l’on peut approcher la médiane par interpolation linéaire :
n / 2 − N j −1
Me d j + .a j . De façon analogue, trouver des formules approchées pour les
nj
premiers et troisièmes quartiles.