Chapitre III Caractéristiques de Dispersion
Chapitre III Caractéristiques de Dispersion
Chapitre III Caractéristiques de Dispersion
I. Introduction
Les caractéristiques de tendance centrale vues précédemment ne nous permettent pas de faire la
différence entre deux séries statistiques.
En effet, deux séries peuvent avoir la même moyenne arithmétique et la même médiane sans
qu’elles soient identiques.
On introduit, alors, autres caractéristiques dites de dispersion qui estiment dans quelle mesure
les observations s’écartent les unes des autres ou de leur valeur centrale.
Les caractéristiques de dispersion sont :
les Quantiles,
la Variance,
l’Écart-type,
le coefficient de variation,
et les moments.
II. Étendue d’une série statistique
L’Étendue ou l’Intervalle de Variation est la différence entre la valeur la plus faible et la
valeur la plus élevée d’une série statistique.
Exemple 1 :
On considère les salaires des employés de deux entreprises A et B :
Pour A : 700, 720, 750, 800, 900, 1000, 1150
Pour B : 20, 100, 200, 800, 1300, 1600, 2000.
On a X A X B 860 et Mé A Mé B 800 ,
Même si les moyennes arithmétiques et les médianes de ces deux séries statistiques sont
identiques, on ne peut conclure qu’elles sont identiques car l’information sur le
groupement/l’écart (la dispersion) des éléments des séries n’est pas encore disponible.
Calculons maintenant l’étendue pour ces deux entreprises :
Pour A, l’étendue est de 𝟒𝟓𝟎 = 1150 − 700
Pour B, l’étendue est de 𝟏𝟗𝟖𝟎 = 2000 − 20
La dispersion des salaires est donc plus forte chez l’entreprise B que l’entreprise A.
Exemple 2 :
On considère deux populations :
𝑃 = {6 ; 8 ; 10 ; 12 ; 14}, 𝑃 = {2 ; 6 ; 10 ; 14 ; 18}
on a : 𝑥̅ = 𝑚𝑜𝑦(𝑋 ) = 𝑥̅ = 𝑚𝑜𝑦(𝑋 ) = 10 et 𝑀é(𝑋 ) = 𝑀é(𝑋 ) = 10.
Mais les modalités des individus qui les composent ne sont pas réparties de la même manière
autour de la valeur centrale 10. On dit que les séries 1 et 2 n’ont pas la même dispersion ; la
Série 2 est plus dispersée que la Série 1. Donc il est nécessaire pour comparer deux populations
de considérer à la fois leurs valeurs centrales et leurs dispersions.
Exemple 3 :
Sur 1000 employés d’une entreprise, l’étendue de l’âge est de 11 ans (49 ans – 38 ans), il suffit
qu’un jeune employé (sur 1000) de 18 ans soit embouché pour que l’étendue passe à 31 ans (49
ans – 18 ans)!
On voit donc que l’étendue est une manière très simpliste de mesurer la dispersion.
III. Quantiles d’une série statistique
Les quantiles sont les valeurs de la variable statistique qui partagent la distribution en "𝑛"
parties composées du même effectif " N ".
n
Exemple :
La médiane est un quantile qui partage la distribution en « 2 » parties composées du même
effectif « N ».
2
Remarque :
Les quantiles en eux-mêmes sont des caractéristiques de position (non centrale), tandis que
l’intervalle mesurant l’écart entre deux quantiles et une caractéristique de dispersion.
Pour la détermination des quantiles, on suppose que les valeurs de la série statistique sont
classées dans un ordre croissant ou décroissant.
1) Les quartiles
a) Notion de quartile
Les quartiles sont les trois valeurs que l’on note 𝑄 , 𝑄 de 𝑄 de la variable statistique qui
partagent la distribution en "4" parties composées du même effectif " N ".
4
𝑁 𝑁 𝑁 𝑁
4 4 4 4
25% 50% 75% 100%
𝑁 2𝑁 𝑁 3𝑁 4𝑁
= =𝑁
4 4 2 4 4
Remarque :
N
Il y a i observations à gauche (inférieurs à) de 𝑄 , 𝑖 = 1 ; 2 ; 3
4 𝑵 𝑵 𝟑𝑵
𝟒 𝟐 𝟒
𝑸𝟏 𝑸𝟐 𝑸𝟑
b) L’intervalle interquartile
L’intervalle interquartile est la différence entre 𝑄 et 𝑄 c.à.d. 𝑄 − 𝑄 ; il contient 50% des
valeurs de la variable présentés par la moitié centrale des effectifs observés.
Cet intervalle élimine l’influence des valeurs extrêmes.
2) Les déciles
Les déciles sont les 9 valeurs 𝐷 , 𝐷 , …, 𝐷 et 𝐷 de la variable statistique qui partagent la
N N
distribution en "10" parties composées du même effectif « » et qui ont, donc, i
10 10
observations inférieures à chaque 𝐷 , avec 𝑖 = 1 ; 2 ; … ; 9.
𝑵 𝑫𝟓 = 𝑴é = 𝑸𝟐
𝟏𝟎
𝟏𝟎% 𝑫𝟏 𝑫𝟐 𝑫𝟗
𝟓𝟎%
3) Les percentiles :
Les percentiles sont les 99 valeurs 𝑃 ; 𝑃 ; … ; 𝑃 et 𝑃 de la variable statistique qui partagent
N
la distribution en "100" parties composées du même effectif « N » ayant, donc, i
100 100
observations inférieures à chaque 𝑃 𝑃𝑜𝑢𝑟 𝑡𝑜𝑢𝑡 𝑖 ∈ {1 ; 2 ; … ; 99}.
50%
2%
1% 1%
𝑵 𝑷𝟏 𝑵 𝑷𝟐 𝑷𝟗𝟗
𝟏𝟎𝟎
𝑷𝟓𝟎 = 𝑴é = 𝑸𝟐
𝟏𝟎𝟎
Remarque :
N
Le calcul des quantiles est pareil à celui de la médiane, en changeant la fréquence (nombre
2
N
d’observations inférieures à la médiane) par i (nombre d’observations inférieures au
n
i
quantile d’ordre cherché).
n
Exemple 1 : (cas de la variable discrète "pondérée")
Calculer les percentiles 55 et 75 de la série statistique suivante :
𝑥 𝑛 𝑛 𝑐𝑐
3 3 3
4 7 10
8 30 40
10 20 60←
11 15 →75
20 25 100
𝑁 = 100
N 100
1) On a : 55 55 55
100 100
Alors, on va chercher ce 55 entre les 𝑛 𝑐𝑐
Puis, on trouve 55 n’existe pas exactement parmi les 𝑛 𝑐𝑐 mais 60 est la 1ère valeur qui
dépasse la valeur 55 ;
Alors, on a : 𝑃 = 10
N 100
2) On a : 75 75 75
100 100
Ainsi qu’on trouve la valeur 75 parmi les 𝑛 𝑐𝑐
11 20
Donc P75 15,5
2
Exemple 2 : (cas de la variable continue)
Calculons les déciles troisième et septième de la distribution statistique suivante :
[𝒆𝒊 𝟏 , 𝒆𝒊 [ 𝑛 𝑛 𝑐𝑐
[0, 10[ 4 4
[10, 30[ 8 12 *
[30, 35[ 13 25
[80,100[ 3 33
[100, 150[ 7 40
𝑁 = 40
Cherchons la valeur 𝑫𝟑 :
N 40
On a : 3 3 12
10 10
cette valeur apparaît parmi les 𝑛 𝑐𝑐 dans le tableau*, alors on prend 𝐷 = 𝑒
C’est-à-dire 𝐷 = 30.
Cherchons la valeur 𝑫𝟕 :
N 40
On a : 7 7 28
10 10
Cette valeur, 28, ne se trouve pas parmi les 𝑛 𝑐𝑐 dans le tableau et 30 est la 1ère valeur qui la
N
7 n i 1cc
dépasse, pour calculer 𝐷 on applique alors la formule : D 7 e i 1 10 ai
ni
On a : [e i 1 ;e i [ donc : 𝑛 = 5 ; 𝑛 𝑐𝑐 = 30 ; 𝑛 𝑐𝑐 = 25 ; 𝑎 = 𝑒 − 𝑒 = 45 et 𝑒 = 35
N 40
7 n i 1cc 7 25
10 28 25
Alors D 7 e i 1 ai 35 10 45 35 45 62
ni 5 5
On distingue sur ce schéma la « boîte de Tuckey » qui est le rectangle limité par le premier
quartile 𝑄 et le troisième 𝑄 en traçant aussi le 2ème quartile 𝑄 tous sur une droite graduée
(voir par exemple Fig7).
Exemple 1 : (cas de variable discrète "pondérée")
Calculons les quartiles 𝑄 , 𝑄 et 𝑄 de la série statistique suivante :
𝒙𝒊 𝒏𝒊 𝒏𝒊 𝒄𝒄
3 3 3
4 7 10
8 30 40
10 20 60←
11 15 →75
20 25 100
𝑁 = 100
N 100
1) On a : 1 25
4 4
On cherche cette valeur 25 parmi les 𝑛 𝑐𝑐.
Cette valeur 25 n’existe pas parmi les 𝑛 𝑐𝑐
La 1ère valeur qui dépasse 25 c’est 40
Ainsi, 𝑄 = 8
N 100
2) On a : 2 50
4 2
On cherche 50 parmi les 𝑛 𝑐𝑐,
Elle n’existe pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui dépasse 50 c’est 60
Alors 𝑄 = 𝑀é = 40.
N 300
3) On a : 3 75
4 4
On cherche 75 parmi les 𝑛 𝑐𝑐,
La valeur 75 existe parmi les 𝑛 𝑐𝑐 donc 𝑥 = 11 et 𝑥 = 20
Alors 𝑄 = = = 15,5.
[𝒆𝒊 𝟏 ; 𝒆𝒊 [ 𝒏𝒊 𝒏𝒊 𝒄𝒄
[0, 10[ 4 4
[10, 30[ 8 12 *
[30, 35[ 13 25
[35, 80[ 5 30**
[80,100[ 3 33
[100, 150[ 7 40
𝑁 = 40
Calculons 𝑸𝟏
N 40
On a : 1 10
4 4
La valeur 10 n’apparaît pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui la dépasse est 12. D’où, on prend
N
1 n i 1cc
[𝑒 ; 𝑒 [ = [30; 35[, puis on applique la formule : Q1 e i 1 4 ai
ni
40
1 4
Donc Q1 10 4 20 25
8
Calculons 𝑸𝟐
N 40
On a : 2 2 20
4 4
La valeur 20 n’apparaît pas parmi les 𝑛 𝑐𝑐 et la 1ère valeur qui la dépasse est 25. D’où, on prend
N
2 n i 1cc
[𝑒 ; 𝑒 [ = [30; 35[, puis on applique la formule : Q 2 e i 1 4 ai
ni
40
2 12
Donc Q 2 30 4 5 ; 33, 077
13
Calculons 𝑸𝟑
N 40
On a : 3 3 30
4 4
La valeur 30 existe parmi les 𝑛 𝑐𝑐 D’où, on prend [𝑒 ; 𝑒 [ = [35; 80[, puis on applique la
formule : Q 3 e i
Donc Q 3 80
Boîte de Tuckey ou diagramme de Box & Wiskers
L’intervalle interquartile = 𝑄 − 𝑄 = 80 − 25 = 55
Q Q1 55
La dérivation quartile ou le semi-interquartile est : 3 27,5
2 2
Q Q1 55
L’écart interquartile relatif est : 3 1, 66
Q2 33, 08
V. Variance et écart type d’une série statistique
1) Notion de variance
La variance d’une variable statistique 𝑋 que l’on note 𝑉𝑎𝑟(𝑋) (ou 𝑉(𝑋)) est la moyenne
arithmétique des carrés des écarts des valeurs de la variable à leur moyenne arithmétique :
k k
1
V ( X ) V ar ( X )
N
n (x
i 1
i i x )2 f i (x i x )2
i 1
Donc :
k
1 1
La moyenne de cette série statistique est : x
i 1 10 N
n c
250 25 i i
1 k 1
Formule non-simplifiée de la variance : V ar X n i c i x 1000 100
2
N i 1 10
1 k 1
Formule simplifiée de la variance : V ar (X ) n i c i2 x 2 7250 252 100
N i 1 10
D’où, l’écart-type est : X V ar ( X ) 100 10
VI. Coefficient de variation
Le coefficient de variation est égal au rapport de l’écart-type à la moyenne et il est présenté
sous forme de nombre abstrait sans dimension et indépendant des unités de mesure :
(X )
CV
x