Statistique Univariee
Statistique Univariee
Statistique Univariee
République
Algérienne et de la Recherche Scientifique
Démocratique
et Populaire
LA STATISTIQUE
DESCRIPTIVE UNIVARIÉE
APPLIQUÉE À LA BIOLOGIE
L2 L3
M1
Auteur:
2016-2017
AVANT PROPOS
TABLE DE MATIÈRES
TABLE DE MATIERES
INTRODUCTION……………………………………………………………………………...
03
2. La statistique descriptive…………………………………………………………………
06
3.1. Elément…………………………………………………………………………… 06
3.2. Population ………………………………………………………………………... 07
3.3. Echantillon……………………………………………………………………….. 07
3.4. Echantillonnage…………………………………………………………………... 07
3.5. Inférence statistique………………………………………………………………. 08
3.6. Caractère …………………………………………………………………………. 08
3.7. Modalité………………………………………………………………………….. 08
3.8. Effectif …………………………………………………………………………… 08
3.9. Fréquence d’une modalité ou d’une classe………………………………………..
10
5. Tableaux statistiques……………………………………………………………………….
15
1
6. Représentations graphiques………………………………………………………………..
19
6.2.Cas quantitatif………………………………………………………………………. 20
6.2.1. Variable statistique discrète………………………………………………….
21
6.2.2. Variable statistique continue…………………………………………………
22
BIBLIOGRAPHIE……………………………………………………………………………
66
2
INTRODUCTION
INTRODUCTION
La « Biostatisique » est née à la fin du 19ème siècle avec les travaux de Karl Pearson, le
fondateur du premier département de statistique au monde, à l'Université de London, et de
Ronald Fisher, un pionnier dans le domaine des plans expérimentaux.
Cette science, qui est aussi connue sous le nom « Biométrie », est un champ scientifique
constitué par l'application de la « Science Statistique » à un large éventail de sujets dans le
domaine du vivant, plus particulièrement la « Biologie » qui recouvre une partie des sciences
de la nature et de l'histoire naturelle des êtres vivants, et la « Médecine » qui étudie
l'organisation du corps humain, son fonctionnement normal, et cherchant à préserver la santé
par le traitement et la prévention des pathologies.
Par ailleurs, les « Statistiques » sont la science des données, qui est à la fois une science, une
méthode et un ensemble de techniques. Ceci implique la collection, la classification, le
résumé, l'organisation, l'analyse et l'interprétation d'une information numérique.
Elle permet donc de décrire un groupe d'individus selon ses attributs et ses qualités, de
mesurer la précision d'une estimation ou de définir le degré d'association entre une série de
caractères et d'événements.
Cette science est exploitée alors dans plusieurs domaines: (1) La santé publique, y compris
l'épidémiologie, les services de santé, la nutrition et l'environnement ; (2) La conception et
analyse d'essais cliniques en médecine ; (3) La génomique, génétique des populations et la
génétique statistique afin de relier la variation dans le génotype avec une variation dans le
phénotype ; (4) L'agriculture afin d'améliorer les cultures et les animaux d'élevage ; (5)
L'écologie en vue de mettre en place des prévisions écologiques ; (6) L'analyse de séquences
biologiques.
La Biostatistique est l’une des matières fondamentales intégrées dans le programme de tous
les étudiants de Biologie de l’Université de Béjaïa. Le but recherché par ces programmes
d’enseignement est l’initiation de l’étudiant aux traitements de données liées aux thématiques
biologiques. L’enseignement de biostatistique aux étudiants de 3ème année « Biochimie
Appliquée » que j’ai pris en charge depuis 2006 jusqu’à ce jour a été travaillé et remanié à
3
plusieurs reprises afin de l’adapter au maximum possible aux diverses applications à
l’affiliation des étudiants en question.
4
LA STATISTIQUE
DESCRIPTIVE
UNIVARIÉE
APPLIQUÉE À LA
BIOLOGIE
LA STATISTIQUE DESCRIPTIVE UNIVARIEE
L'origine du mot « statistique » remonte au latin classique « status » (état) qui, par une série
d'évolutions successives, aboutit au mot français « statistique », attesté pour la première fois
en 1771.
C'est vers la même époque que « statistik » apparut en allemand, alors que les anglophones
utilisaient l'expression « political arithmetic » jusqu'en 1798, date à laquelle le mot
« statistics » fit son entrée dans cette langue.
Les statistiques concernent l'étude méthodique des faits sociaux qui définissent un Etat, par
des procédés numériques (dénombrements, inventaires, recensements,...).
La statistique est pour les uns un domaine des mathématiques, pour les autres (en particulier
les anglo-saxons) une discipline à part entière hors des mathématiques. Enfin, de plus en plus,
elle fait partie de ce que l'on appelle aujourd'hui la Science des Données.
Fisher a défini la statistique comme la discipline qui étudie les méthodes de réduction de
données, la variabilité et les populations.
Les méthodes de réduction des données font partie de la statistique descriptive (ou
exploratoire). Elles consistent à essayer de résumer un échantillon de données via des
graphiques ou des caractéristiques numériques.
L’étude des populations fait partie de la statistique inférentielle qui prend un échantillon et en
tire des conclusions pour toute la population. Elle part donc de l’expérience à l’hypothèse
(faite au départ).
5
2. La statistique descriptive
La statistique descriptive est la branche des statistiques qui regroupe les nombreuses
techniques utilisées pour décrire un ensemble relativement important de données. Il est assez
compliqué de définir la meilleure description possible d'un phénomène. Dans le cadre des
statistiques, il s'agira de fournir toute l'information disponible sur le phénomène en moins de
chiffres et de mots possibles
Les Tableaux ;
Les Graphiques ;
Les indicateurs.
Si les données ne sont relatives qu'à une seule variable, on parle de statistique descriptive
« univariée ». Dans le cas où l'on s'intéresse à deux variables simultanément, on met en
œuvre la statistique descriptive « bivariée ». Si l'ensemble de données provient de
l'observation de plusieurs variables, on doit faire appel aux méthodes de la statistique
descriptive « multivariée ».
3.1. Elément
6
Un objet : Table, chaise, verrerie de laboratoire ;
Une association (dans les études écologiques en général) : une parcelle d’herbe, une
association d’arbustes…
3.2. Population
Exemple
3.3. Echantillon
Pour des raisons techniques ou économiques, il n’est généralement pas possible de collecter
des données sur tous les éléments de la population. En outre, si cette opération est possible il
est rarement utile de la faire, car l’analyse d’un groupe restreint d’éléments extraits de la
population fournit généralement des résultats de précision satisfaisante. Cette petite partie de la
population qu’on va examiner s’appelle « échantillon ».
Exemple
3.4. Echantillonnage
C’est une opération logique qui consiste à porter un jugement sur un ensemble vaste
« population statistique », à partir d’un sous ensemble « échantillon ».
3.6. Caractère
C’est une propriété possédée par les unités statistiques permettant de les décrire et de les
distinguer les unes des autres. Toute unité statistique peut être étudiée selon un ou plusieurs
caractères –le détail de cette notion est donnée dans la section 4).
Exemple
3.7. Modalité
Ce sont les diverses situations (cas, état, valeur) susceptibles d’être prises par le caractère. Un
caractère peut posséder une ou plusieurs modalités.
Exemple
3.8. Effectif
8
L'effectif total N est la somme de tous les effectifs, appelé également en Maths
« cardinal ou la taille » ;
En rangeant les valeurs du caractère dans l'ordre croissant, on peut calculer l'effectif
cumulé croissant en faisant la somme des effectifs de cette valeur et de tous ceux qui
la précèdent.
Exemple
Dans une promotion de 20 étudiants de Biochimie, voici les notes obtenues au dernier examen
de Biostatistique : 10, 14, 12, 15, 7, 8, 10, 11, 12, 18, 2, 4, 12, 13, 14, 15, 19, 11, 9, 0.
Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Effectifs ni 1 1 1 1 1 1 2 2 3 1 2 2 1 1
Les effectifs cumulés maintenant. On fait la somme des effectifs de la note + la somme des
effectifs de toutes les notes qui la précédent. Ce qui nous donne (Tableau II):
Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Effectifs ni 1 1 1 1 1 1 2 2 3 1 2 2 1 1
Effectifs Ni↑ 1 2 3 4 5 6 8 10 13 14 16 18 19 20
Remarque
Pour vérifier qu'on ne s’est pas trompé dans le calcul des effectifs cumulés, on vérifie bien
que le dernier effectif cumulé correspond bien au nombre d'individus Ni. Ici, on retrouve bien
20, le nombre d'étudiants de cette promotion de Biochimie.
9
3.9. Fréquence d’une modalité ou d’une classe
La fréquence d'une valeur est le quotient de l'effectif de la valeur par l'effectif total ;
En rangeant les valeurs du caractère dans l'ordre croissant, on peut calculer les
fréquences cumulées croissantes en faisant la somme des fréquences de cette valeur et
de tous ceux qui la précèdent ;
Pour les fréquences cumulées croissantes, c'est un peu le même principe que pour les
effectifs cumulés croissants.
Remarque
Exemple
Notes xi 0 2 4 7 8 9 10 11 12 13 14 15 18 19
Fréquences fi 0,05 0,05 0,05 0,05 0,05 0,05 0,1 0,1 0,15 0,05 0,1 0,1 0,05 0 ,05
Fréquences Fi↑ 0,05 0,1 0,15 0,2 0,25 0,3 0,4 0,5 0,65 0,7 0,8 0,9 0,95 1
Remarque
Pareil, pour vérifier qu'on ne s’est pas trompé dans le calcul des fréquences cumulées, on
vérifie bien que la dernière fréquence cumulée vaut bien 1.
Le caractère d'une série statistique est l'objet de notre étude sur une population donnée. Ce
caractère prend un certain nombre de valeurs ou de modalités.
10
Un critère commode est le suivant : la moyenne d'un caractère quantitatif a un sens alors que la
moyenne d'un caractère qualitatif est impossible à réaliser ou bien n'a aucune signification.
4.1.Caractère qualitatif
Un caractère est dit qualitatif lorsque ses modalités ne sont pas mesurables. Le nombre de
valeurs que peut prendre la variable est limité. Il existe au sein de ce type deux échelles :
nominale et ordinale.
Chaque modalité est exprimée par un nom ou un code. Les différentes modalités ne sont pas
ordonnables.
Etat matrimoniale : marié (1), célibataire (2), veuf (3), divorcé (4) ;
Sexe : féminin (1), masculin (2) ;
Profession : enseignant (1), médecin (2) ;
Nationalité : Algérienne (1), Tunisienne (2) ;
Chaque modalité est explicitement significative du rang pris par chaque individu pour le
caractère considéré.
Exemple :
Degré d’intelligence : pas intelligent (0), peu intelligent (1), moyennement intelligent
(2), très intelligent (3) ;
Forme des fruits : petite (1), moyenne (2), grosse (3) ;
Abondance/Dominance : peu abondant (1), abondant (2), très abondant (3).
11
4.2.Caractère quantitatif
Un caractère est quantitatif si ses modalités s'expriment par des nombres. Le nombre de valeurs
que peut prendre la variable est illimité. Il existe 3 critères :
On distingue les caractères quantitatifs repérables sur une échelle d'intervalle et les caractères
quantitatifs mesurables selon que la valeur 0 est arbitraire ou selon qu'elle a un sens concret.
Ces caractères permettent de repérer la position de chaque individu par rapport à une origine
arbitraire. La valeur 0 est donc conventionnelle et ne signifie pas l'absence du phénomène.
Exemple :
Exemple :
On peut par ailleurs distinguer les caractères quantitatifs de stock et les caractères quantitatifs
d'intensité (taux) selon que la somme des modalités a un sens ou non.
Expriment des quantités concrètes : la somme des modalités des éléments a un sens.
Exemple :
12
b. Les caractères quantitatifs d'intensité
Expriment des caractéristiques des individus mais leur total n'a pas de signification.
Exemple :
Les âges des individus car la somme de plusieurs âges de population n'a aucun sens.
Enfin, on peut distinguer les caractères quantitatifs discrets et les caractères quantitatifs
continus selon que leurs modalités (valeurs) sont définies sur un intervalle continu de
l'ensemble des réels (modalités en nombre infini) ou selon qu'elles correspondent à un
ensemble fini et dénombrable de valeurs entières ou réelles.
Sont des caractères dont les modalités sont des nombres isolés, pas nécessairement entiers.
Exemple :
Sont des caractères dont les modalités sont définies sur un intervalle (continu) de valeur donné
appelé domaine de variation et défini par les valeurs minimales et maximales.
Exemple :
4.3.Combinaisons de critères
Les typologies précédentes se combinent lorsque l'on veut définir le type d'un caractère
quantitatif :
Exemple :
13
Température : continue, d’intensité, repérable.
Altitude : continue, d’intensité, repérable.
Il est très important de savoir définir le type d'un caractère car les outils statistiques ou les
représentations graphiques ne sont pas les mêmes selon le type de caractère à étudier.
Dans le cas continu, il est nécessaire de regrouper les résultats en classes à cause de leur grande
masse.
14
4.4.2. Nombre de classes
Il existe plusieurs formules pour le calcul du nombre de classes. Pour les applications de ce
cours, nous avons opté pour la Règle de STURGE - La formule mathématique de
HUNTSBERGER-
k 1 3 .3 log N ……………...……………………………………………………….Formule 1
x x
a max min ……………..……………………………………………………...Formule 2
i k
ei 1 ei
ci ………………...………………………………………………………..Formule 3
2
5. Tableaux statistiques
Un tableau statistique constitue un résumé ou une synthèse numérique des résultats d’une
distribution statistique, on distingue trois formes de tableaux statistiques qui sont fonction de
l’objectif envisagé et de la nature du caractère étudié.
Eléments i Modalités xi
1 x1
2 x2
3 x3
. .
. .
. .
k xk
15
Après la collecte des données, celles-ci apparaissent de façon brute. Sous cette forme, elles
sont peu informatives. Il nous faut donc des moyens pour en extraire un maximum
d'informations.
Dans une étude d’extraction de substances végétales, on fait un sondage pour savoir ce que
chacun des 25 étudiants/es a trouvé le plus intéressant. On utilise la règle suivante (Tableau
VI) :
Réponse X
Les huiles essentielles 1
Les flavonoïdes 2
Les polyphénols totaux 3
Les tannins 4
Autres 5
E R E R E R E R E R
E1 3 E6 2 E11 2 E16 4 E21 2
E2 3 E7 4 E12 2 E17 3 E22 2
E3 5 E8 3 E13 3 E18 4 E23 3
E4 4 E9 4 E14 5 E19 4 E24 5
E5 2 E10 5 E15 5 E20 3 E25 1
Voici les résultats du dosage des polyphénols obtenus par 25 étudiants de Biochimie par des
méthodes d’extraction différentes (unité en µg/g * 100) (Tableau VIII):
16
Tableau VIII : Tableau des résultats des doses en polyphénols obtenus par des méthodes
d’extraction différente (E : Etudiant, D : Doses en polyphénols)
E D E D E D E D E D
E1 68 E6 65 E11 78 E16 55 E21 88
E2 74 E7 52 E12 66 E17 61 E22 68
E3 42 E8 41 E13 49 E18 72 E23 90
E4 47 E9 57 E14 59 E19 56 E24 63
E5 50 E10 65 E15 60 E20 79 E25 69
5.2.Tableau de dénombrement
Total n 1
17
Exemples
Cas discret
On observe 20 lots au laboratoire, on a le nombre de lapins dans chacun : 10, 1, 0, 0, 0, 10, 12,
18, 5, 5, 12, 10, 12, 12, 0, 10, 15, 10, 20, 20 (Tableau XII) :
xi 0 1 5 10 12 15 18 20 T
ni 4 1 2 5 4 1 1 2 20
fi 0.20 0.05 0.10 0.25 0.20 0.05 0.05 0.10 1
Cas continu
On s’intéresse à la taille (cm) de 20 étudiants, les résultats obtenus sont (Tableau XIII) :
Application
18
Nombre de classe :
ei 1 ei 140 145
x1 142 . 5
2 2
ei 1 ei 145 150
x2 147 . 5
2 2
ei 1 ei 1150 155
x3 152 .5
2 2
ei 1 ei 155 160
x4 157 . 5
2 2
ei 1 ei 160 165
x5 162 .5
2 2
Tableau XIV : Tableau de la distribution des fréquences des tailles des étudiants
Classes xi ni fi
[140-145[ 142.5 6 0.30
[145-150[ 147.5 3 0.15
[150-155[ 152.5 5 0.25
[155-160[ 157.5 5 0.25
[160-165[ 162.5 1 0.05
Total - 20 1
6. Représentations graphiques
6.1.Cas qualitatif
19
180
170
150
140
130
120
110
100
90
BPC SA MB SBE
DEPARTEMENTS
6.1.2. Le camembert
SBE, 18,4 %
BPC, 27,7 %
MB, 31,6 %
SA, 22,3 %
DEPARTEMENTS
6.2.Cas quantitatif
20
6.2.1. Variable statistique discrète.
a. Diagramme différentiel
La différence avec le cas qualitatif consiste en ce que les abscisses ici sont les valeurs de la
variable statistique (Figure 3).
b. Diagramme intégral
Courbe en escalier : est réalisée en fonction des effectifs cumulés ou des fréquences cumulées.
Dans cette représentation les effectifs ou les fréquences des diverses valeurs de la variable
statistique correspondent aux hauteurs des marches de la courbe (Tableau 4).
30
24
NOMBRE DE COUPLES (Ni)
18
12
0
0 1 2 3 4
NOMBRE D'ENFANTS (xi)
21
6.2.2. Variable statistique continue
a. Diagramme différentiel
L'histogramme est une représentation graphique (en tuyaux d'orgue) de la distribution des
effectifs ou des fréquences d'une variable quantitative. Souvent, les «tuyaux» sont accolés pour
montrer la continuité de la variable. La hauteur du tuyau est proportionnelle à l’effectif ou la
fréquence de la classe correspondante (Figure 5).
Le polygone des effectifs ou des fréquences : est une autre représentation graphique (en ligne
brisée) de la distribution des effectifs ou des fréquences d'une variable quantitative.
Pour tracer le polygone, on joint les points milieu du sommet des rectangles adjacents par un
segment de droite. Le polygone est fermé aux deux bouts en le prolongeant sur l'axe horizontal.
60
55
NOMBRE D'ETUDIANTS (ni)
50
45
40
35
30
25
20
15
2 4 6 8 10 12 14 16 18
NOTES DES ETUDIANTS (Ci)
b. Diagramme intégral
Une telle figure fournit des données descriptives intéressantes telles que la valeur médiane, i.e.
le point séparant le groupe en deux parties égales.
22
350
300
200
150
100
50
0
2 4 6 8 10 12 14 16 18
NOTES DES ETUDIANTS (Ci)
7. Description numérique
En statistiques, les distributions de variables sont caractérisées à travers trois critères, qui
suffisent généralement : Forme de la distribution, tendance centrale et dispersion.
7.1.1. Le mode
Le mode est la valeur la plus fréquente d'une distribution. Il se calcule toujours à partir d'un
dénombrement des modalités du caractère. Comme pour le tableau de dénombrement, il faut
distinguer le cas des caractères discrets et des caractères continus.
a. Caractère discret
Pour un caractère quantitatif discret le mode est la modalité qui a la fréquence la plus élevée
(ou l'effectif le plus élevé).
Exemple :
10, 11, 12, 10, 10, 10, 9, 14 → Mode : 10 (4 fois) → Distribution unimodale.
10, 11, 12, 10, 10, 12, 12, 9, 14 → Modes : 10 (3 fois) et 12 (3 fois) → Distribution
bimodale.
23
b. Caractère quantitatif continu
Approche 1
Les modalités étant en nombre infini, il est peu probable que deux éléments aient la même
valeur. Dans ce cas, le mode ne peut pas être défini directement, il faut au préalable établir
une partition en classes. Le mode est alors le centre de la classe modale, c'est à dire la classe
qui a l’effectif le plus élevé ou la fréquence la plus élevée (Figure 7).
100
90
L A CL A
80 SSE M
O DALE
LES EFFECTIFS ni
70
60
50
40
LE MO
30 D E
C1 C2 C3 C4 C5 C6 C7 C8 C9
CENTRES DES CLASSES
Approche 2
Dans ce cas on peut calculer le mode par une deuxième méthode appelée « le calcul
approché », en utilisant la formule :
1
Mo ei1 ai ……………………………….………………........................Formule 5
1 2
ai : C’est l’amplitude
24
ni/fi
f ( ei ) 2
1
f ( ei1 )
xi
ei 1 ei
Mo
7.1.2. La médiane
Les valeurs étant classées par ordre croissant, la médiane est la valeur du caractère qui partage
celui-ci en deux ensembles d'effectifs égaux : 50 % des valeurs lui sont supérieures et 50 % lui
sont inférieures.
a. Cas discret
n est impair
n 2 p 1 ……………………..………………………………………………………Formule 6
Me x( p1) ….……..………………..…………………………………………………Formule 7
p : est l’ordre de la variable dans la série statistique supposée ordonnée dans l’ordre croissant
ou décroissant.
n est pair
n 2 p .…………….………………………...………………………………………..Formule
8
Exemple :
0, 0, 0, 0, 1, 5,5, 10, 10, 10, 10, 10, 12, 12, 12, 12, 15, 15, 18, 20, 20.
n=20 (pair) : n=2*p → p=20/2=10.
Me=[x10+x11] / 2 → Me= [10+10] / 2=10.
25
b. Cas continu
Comme la fonction F(x) est continue et monotone entre 0 et 1, alors l’équation F(x)=1/2 admet
une racine unique.
Supposons que la classe médiane est ei1, ei on a :
BC AB AB * DE
BC
D AD AD
AB * DE
Me ei 1 BC ei 1
AD
On a : AB 1 F (ei 1 ) et DE ai et AD fi (fi est la fréquence de ei 1, ei )
2
Alors:
1 F (e )
i 1
Me ei 1 ai 2 .…………………………....…………………….............Formule 10
fi
fi F(ei ) F(ei1)
1 F (ei 1 ) ……………………………………………………..Formule 11
Me ei 1 ai 2
F (ei ) F (ei 1 )
26
A B
Me ei 1 b ………………..………………………………………………………Formule 12
Supposons ei 1, ei la classe médiane :
50% 50%
ai
ei-1 b ei
Me
ni ai b
ai * ni'
………………………………………………………....Formule13
ni' b ni
27
7.1.3. La moyenne
La moyenne est la valeur unique que devraient avoir tous les individus d'une population pour
que leur total soit inchangé. C'est un critère de position. Il s’agit d’une mesure statistique
caractérisant les éléments d'un ensemble de quantités et elle exprime la somme de toutes les
mesures divisée par l’effectif total de l’échantillon étudié ou bien une valeur telle qu’en la
multipliant par l’effectif total on trouve la somme des mesures effectuées sur toute la
population.
Il est à signaler que les notations de la moyenne diffèrent selon que l’étude s’effectue sur une
population ou un échantillon (ceci est détaillé dans le section qui suit).
a. Cas discret
Etude de la moyenne d’une population
Soit X une variable statistique discrète pouvant prendre les valeurs X1, X2, …,Xk auxquelles
correspondent les effectifs N1, N2, …, Nk La moyenne notée µ est de forme :
1 N N
µ i
N i1
X
i 1
X i ..……………………………………………….………….…Formule 14
Soit x une variable statistique discrète pouvant prendre les valeurs x1, x2, …,xk auxquelles
k
correspondent les effectifs n1, n2, …, nk avec ni n
i 1
1 n n
m
n i 1
xi xi …………………………………………………………….…Formule 15
i 1
b. Cas continu
Dans ce cas on utilise les mêmes formule que dans la cas précédent sauf que les modalités
seront les centres de classes.
avec : ci
ei1 ei
est le centre de la classe ei1 ,ei et ni son effectif.
2
28
Remarque : Comparaison des valeurs centrales
Il n'y a pas de règle générale pour déterminer laquelle des mesures de tendance centrale est la
plus pertinente pour caractériser une distribution.
Exemple :
Les nombres ci-dessous représentent le nombre d'enfants dans chacune de dix familles
choisies au hasard :3, 8, 1, 1, 4, 5, 2, 3, 0, 1 (il s’agit d’étude d’un échantillon).
Moyenne
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
m = 1/10 [(3+8+1+1+4+5+2+3+0+1)] = 28 /
n
10
m= 2,8
Médiane
Mode
On voit immédiatement que Mo = 1
On remarque que les trois mesures sont différentes.
Laquelle est la plus «représentative» ? (Voir ce qui suit.)
Le meilleur résumé est alors donné par les modes principaux et secondaires de la distribution.
29
7.4.2. Distributions unimodales symétriques
Le meilleur résumé est alors donné par la moyenne car elle tient compte de toutes les
observations et elle possède des propriétés statistiques intéressantes.
* mode < médiane < moyenne : la distribution est dissymétrique à gauche (ou la distribution
est positivement dissymétrique (Figure 10 A). c'est à dire qu'il y a concentration pour les
valeurs faibles et dispersion pour les valeurs fortes. C'est le cas le plus fréquent
* moyenne < médiane <mode : la distribution est dissymétrique à droite (ou la distribution est
négativement dissymétrique (voir la distribution B), c'est à dire qu'il y a concentration pour les
valeurs élevées et dispersion pour les valeurs faibles. Ce cas est plus rare que le précédent.
Remarque :
30
7.5.Paramètres de dispersion absolue
L'étendue E est la différence entre la plus grande valeur et la plus petite valeur. La formule
générale est :
Où :
Remarque :
Exemple :
1, 10, 11, 12, 10, 11, 12, 13, 11, 12, 11, 11, 12, 11, 12, 12, 19
E = 19 - 1 = 18
Valeur peu représentative.
En réalité, il existe une faible dispersion.
L'écart absolu moyen est la moyenne de la valeur absolue des écarts à la moyenne. On peut
calculer de la même manière l'écart absolu médian qui est la moyenne des écarts à la médiane.
Formules de l'écart absolu moyen et de l'écart absolu médian.
31
La variance dans la population « σ2 » : elle est immuable, on ne la connait pas et on ne peut
pas la déterminer avec précision, puisqu'il faudrait avoir un échantillon contenant toute la
population à étudier. Puisqu'on ne peut pas la trouver, on se contente de l'estimer, à partir d'un
échantillon.
1 N
² xi µ² ……....…………………………………………...…………….Formule 19
N i1i
² …………..…………………………...…………………………………….Formule 20
S² exprime la moyenne des carrés des écarts entre chaque observation et la moyenne des
observations.
1 n
s² xi m² ……………....……………………………………...………...Formule 21
n 1 i1i
s s² ………………………………………………………………...…………....Formule 22
Remarque
Si on choisit un individu de manière aléatoire dans une population et que l’on relève une valeur
numérique sur cet individu, les valeurs possibles sont les valeurs présentes dans la population
(et les probabilités associées sont les fréquences dans la population). De ce fait, la moyenne μ
et l’écart-type σ des valeurs possibles sont égales à la moyenne x et à l’écart-type s des valeurs
prises par les individus de la population.
Les quartiles sont les trois valeurs qui permettent de découper la distribution en quatre classes
d'effectifs égaux, on les note Q1, Q2 et Q3.
32
Le premier quartile, noté Q1, est le point qui sépare la portion de 25% des valeurs les plus
petites de la portion de 75% des valeurs les plus grandes.
Le troisième quartile, noté Q3, est le point qui sépare la portion de 25% des valeurs les plus
grandes de la portion de 75% des valeurs les plus petites.
Iq Q3 Q1 ...............................................................................................................Formule 23
Remarque :
Q1 et Q3 sont obtenus par les mêmes méthodes exposées plut haut pour la médiane.
Le coefficient de variation noté CV est une mesure relative de l'écart type qui permet de
prendre en compte l'ordre de grandeur de la moyenne. Autrement dit, ce coefficient correspond
à l'écart type de la distribution exprimé en pourcentage de la moyenne de la distribution
CV ( s / m ) * 100 ……………………………………...…………………….Formule 25
L'écart-type seul ne permet le plus souvent pas de juger de la dispersion des valeurs autour de
la moyenne. Si par exemple une distribution a une moyenne de 0,1 et un écart-type de 1, elle
sera beaucoup plus dispersée (CV de 1000%) qu'une distribution de moyenne 1000 et d'écart-
type 10 (CV de 1%).
Ce nombre est sans unité, c'est une des raisons pour lesquelles il est parfois préféré à l'écart
type. En effet, pour comparer deux séries de données d'unités différentes, l'utilisation du
coefficient de variation est plus judicieuse.
33
7.6.2. Le coefficient interquartile relatif
Le résumé d'une distribution par une valeur centrale est souvent trompeur parce qu'il est
incomplet : on connaît l'ordre de grandeur des valeurs mais on ignore la dispersion des valeurs
autour de la valeur centrale de référence. Le premier rôle des paramètres de dispersion est
donc :
Un bon résumé statistique doit donc toujours comporter au moins deux paramètres : une
valeur centrale et un paramètre de dispersion. L'appariement des valeurs centrales et des
paramètres de dispersion ne peut toutefois pas s'effectuer de n'importe quelle manière et
certaines associations peuvent se faire de façon privilégiée.
Le mode, qui n'est véritablement utile que dans le cas des distributions
multimodales, peut être accompagné de l'étendue (qui est le seul paramètre
de dispersion conservant une signification dans le cas des distributions
multimodales).
34
7.6.Les paramètres de forme
m 1
( xi m) 3
S 33 3 i 1 ………………………………………………………....Formule 27
s s n
1 n
m3
n i 1
( xi m) 3 ………………………………………………………………...Formule 28
Remarque :
Le coefficient d'aplatissement (K) évalue la dispersion des valeurs extrêmes par référence à la
loi normale. Il permet d'étudier la forme plus ou moins pointue ou aplatie.
m4 1
(x i m) 4
K i 1
………………………………………………..……….Formule 29
s4 s4 n
1 n
m4 ( xi m) 4 ………………………………...…………………...……….....Formule 30
n i 1
35
La kurtosis d’une loi normale (de Gauss) est égale à 3. Certains auteurs et logiciels retranchent
3 à la forme ci-dessus, ce qui conforte la loi normale dans son rôle de « loi étalon ». Le
coefficient obtenu K’ est dit « de Fisher » (ou excess kurtosis).
K’ = K – 3 …………………………………...…………………...………………...Formule 31
Remarque :
Figure 11 : Courbe illustrant les trois formes de distribution générées par la variation du
coefficient d’aplatissement.
Soit X une variable, µ est une moyenne, σ un écart-type et Z la variable définie comme suit :
Z ( X µ) / …………………………………………………………..............….Formule 31
Si Z suit une loi normale, alors X suit une loi normale d’une moyenne µ et d’écart-type σ
notée :
N (µ; )
36
En termes de variance, la fonction de densité de la loi normale s’exprime ainsi :
La loi normale centrée réduite est donc la loi normale dont les paramètres sont µ = 0 et σ = 1.
L’allure de la courbe représentative d’une fonction de densité de loi normale centrée réduite est
donnée ci-après, accompagnée des courbes représentant des densités de lois normales ayant
d’autres écart-types pour une même moyenne nulle (la loi normale d’écart-type 2 ; la loi
d’écart-type 0,5).
Figure 12 : Courbe illustrant les trois différentes allures des fonctions de densités des lois
normales.
On remarque que plus la dispersion est élevée, plus la courbe est aplatie et plus elle est faible,
plus la courbe est resserrée.
37
QUELQUES EXERCICES
D’APPLICATION ET
SOLUTIONS
QUELQUES EXERCICES D’APPLICATION
EXERCICE N°1
SOLUTION
1. Les notions de base :
2. Tableau statistique
5,5
5,0
4,5
Les plante (Ni)
4,0
3,5
3,0
2,5
Figure 1 : Diagramme intégral des plantes
2,0
13 14 15 en fonction des doses en polyphénols.
Doses en polyphénols (xi)
38
EXERCICE N°2
SOLUTION
2. Tableau statistique
3,6
3,0
Les espèces (Ni)
2,4
1,8
39
EXERCICE N°3
SOLUTION
2. Tableau statistique
54
50
46
42
Les étudiants (Ni)
38
34
30
26 Figure 3 : Diagramme intégral des
22
18
étudiants Biochimie en fonction de leurs
14
10 11 12 13 14 15
notes en BMGG.
Les notes (xi)
40
EXERCICE N°4
Afin de tester la toxicité d’une molécule synthétique sur les organes reproducteurs des souris
blanches, un biologiste a préparé 10 lots de 10 souris chacun. Pour des doses (µg/g)
différentes, il a obtenu, en fonction des lots, les taux de mortalité (%) suivants : 0, 12, 0, 50,
12, 50, 100, 12, 50, 100.
SOLUTION
2. Tableau statistique
10
8
Les lots -Ni)
41
EXERCICE N°5
Dans un laboratoire de Biochimie, 20 étudiants ont élaboré une liste d’espèce de plantes qui
seront sujettes d’une extraction des huiles essentielles, les résultats en nombre sont comme
suit : 75 / 69 / 75 / 96 / 80 / 102 / 102 / 69 / 75 / 75 / 90 / 80 / 96 / 80 / 96 / 80/ 96 / 80 / 90
/ 102.
SOLUTION
42
3. Représentation graphique
22
18
Les étudiants (Ni)
14
10
6
Figure 5 : Diagramme intégral des
2
69 74 79 84 89 94 99 104
étudiants en fonction du nombre de
Nombre de plantes à étudier (xi)
plantes à étudier.
a. La moyenne
m = [(0,1 x 69) + (0,2 x 75) + (0,25 x 80) + (0,1 x 90) + (0,2 x 96) + (0,15 x 102)]
m = 85,4 plantes
b. Le mode
Mo=80 plantes
c. La médiane
P = 10
Me = [x(10) + x(11) ] / 2
Me = (80 + 80) / 2
Me = 80 plantes
a. La variance
ݏ² = 1/19 [2(69 – 85,4)² + 4(75– 85,4)² + 5(80 – 85,4)² + 2(90 – 85,4)² + 4(96 – 85,4)²
+ 3(102 – 85,4)²]
ܛ² = 134,88 plantes
b. Ecart-type
= ܛ11,61 plantes.
6. Type de la distribution
m > Me = Mo
La distribution est positivement dissymétrique
43
EXERCICE N°6
Au laboratoire, lors des tests de toxicité, un biochimiste s’est intéressé au nombre de lapins
décédés soumis à des concentrations différentes d’une toxine. Afin d’atteindre au parfait
l’objectif recherché, ce chercheur a effectué 100 expériences. Les résultats sont les suivants :
4 / 1 /1 / 3 / 3 / 4 / 2 / 2 / 2 / 3 / 3 / 4 / 1 / 1 / 1 / 2 / 2 / 3 / 4 / 4 / 2 / 3 / 3 / 5 / 0 / 2 / 2 / 3 / 2 / 2
/3/2/3/2/0/3/2/2/1/2/4/3/4/2/3/2/2/2/1/1/4/3/2/1/3/5/4/1/2/
2/4/1/3/3/4/2/2/3/1/4/3/2/0/2/4/1/3/5/0/3/2/2/2/3/4/2/2/3/2
/ 3 / 3 / 4 / 1 / 3 / 2 / 3 / 2 / 3 / 1 / 2.
SOLUTION
44
3. Représentation graphique
104
84
Les expériences (Ni)
64
44
24
Figure 6 : Diagramme intégral des
4
0 1 2 3 4 5 expériences en fonction du nombre de
Les mortalités en lapins (xi)
lapins décédés.
a. La moyenne
m =2,44 mortalités
b. Le mode
Mo=2 mortalités
c. La médiane
P = 50
Me = [x(50) + x(51) ] / 2
Me = (2 + 2) / 2
Me = 2 mortalités
a. La variance
ݏ² = 1/99 [4(0 – 2,44)² + 15(1– 2,44)² + 35(2 – 2,44)² + 28(3 – 2,44)² + 15(4 – 2,44)² +
3(5 – 2,44)²]
ܛ² = 0,66 mortalités
b. Ecart-type
= ܛ0,81 mortalités
6. Type de la distribution
m > Me = Mo
La distribution est positivement dissymétrique
45
EXERCICE N°7
Une insémination artificielle a été exercée sur cinquante vaches, après une période il a été
enregistré l’efficacité de ce dispositif par comptage du nombre de descendants. Les résultats
sont : 2 / 2 / 3 / 5 / 2 / 1 / 4 / 2 / 3 / 5 / 3 / 2 / 3 / 3 / 4 / 1 / 2 / 4 / 2 / 2 / 4 / 2 / 3 / 2 / 3 / 3 / 2 / 2
/ 4 / 2 / 1 / 4 / 2 / 3 / 2 / 2 / 3 / 1 / 3 / 3 / 2 / 3 / 2 / 2 / 3 / 4 / 3 / 2 / 3 / 2.
SOLUTION
46
3. Représentation graphique
58
52
46
40
Les vaches (Ni)
34
28
22
16
10
4
1 2 3 4 5
Figure 7 : Diagramme intégral des vaches
Bombre de descendance (xi) en fonction du nombre de descendants.
a. La moyenne
m = 2,64 vaches
b. Le mode
Mo=2 vaches
c. La médiane
P = 25
Me = [x(25) + x(26) ] / 2
Me = (2 + 3) / 2
Me = 2,5 vaches
a. La variance
ݏ² = 1/49 [4(1 – 2,64)² + 21 (2– 2,64)² + 16(3 – 2,64)² + 7(4 – 2,64)² + 2(5 – 2,64)²]
࢙² = 0,92 vaches
b. Ecart-type
࢙ = 0,95 vaches
6. Type de la distribution
m > Me > Mo
La distribution est positivement dissymétrique
47
EXERCICE N°8
48
SOLUTION
Caractère : Age
Nature du caractère : Caractère quantitatif continu, mesurable, d’intensité
Modalités : 5 classes (voir tableau ci-après)
VARIABLE 2
VARIABLE 3
k = 5 classes
VARIABLE 1
a = 8 ans
49
VARIABLE 2
a = 14,48 µUl/ml
VARIABLE 3
VARIABLE 1
a. La moyenne
m = 31 ans
b. Le mode
Approche 1
Mo = 23 ans
La classe modale est [19 – 27[ ans
Approche 2
Mo = 19 + 8 [8 / (8 + 5)] = 19 + (8 x 0,61)
Mo = 23,88 ans
50
c. La médiane
Approche 1
Me = 19 + 8 [(7,5 - 0) / (8 - 0)]
Me = 26,50 ans
Approche 2
Me = 19 + b
b = (7,5 x 8 ) / 8 = 7,5
Me = 26,50 ans
VARIABLE 2
a. La moyenne
m = 22,78 µUl/ml
b. Le mode
Approche 1
Mo = 7,34 µUl/ml
La classe modale est [0,1 – 14,58[ µUl/ml
Approche 2
Mo = 7,34 µUl/ml
c. La médiane
Approche 1
Approche 2
Me = 0,1 + b
b = (7,5 x 14,48) / 11 = 9,87
Me = 9,97 µUl/ml
51
4. Calcul des paramètres de dispersion
VARIABLE 1
a. La variance
ݏ² = 1/14 [8 (23 – 31)² + 3 (31– 31)² + 1 (39 – 31)² + 2 (47 – 31)² + 1 (55 – 31)²]
࢙² = 118,85 ans
b. Ecart-type
࢙= 10,90 ans
c. Etendu interquartile
Q1 ?
Approche 1
Q1 = 19 + 8 [(3,75 - 0) / (8 - 0)]
Q1 = 22,75 ans
Approche 2
Q1 = 19 + b
b = (3,75 x 8 ) / 8 = 3,75
Q1 = 22,75 ans
Q3 ?
Approche 1
Approche 2
Q3 = 35 + b
b = (0,25 x 8 ) / 1 = 2
Q3 = 37 ans
Iq = 37 – 22,75
Iq = 14,25 ans
d. L'intervalle semi-interquartile
Q = 14,25 / 2
52
Q = 7,12 ans
CIQ = 0,53
VARIABLE 2
a. La variance
ݏ² = 1/14 [11 (7,34 – 22,78)² + 0 (21,83– 22,78)² + 0 (36,3 – 22,78)² + 0 (50,78 –
22,78)² + 4 (65,26 – 22,78)²]
࢙² = 702,88 µUl/ml
b. Ecart-type
࢙ = 26,51 µUl/ml
c. Etendu interquartile
Q1 ?
Approche 1
Q1 = 5,03 µUl/ml
Approche 2
Me = 0,1 + b
b = (3,75 x 14,48 ) / 11 = 4,93
Q1 = 5,03 µUl/ml
Q3 ?
Approche 1
Q3 = 44,48 µUl/ml
Approche 2
Q3 = 43,58 + b
b = (0,25 x 14,48 ) / 4 = 0,90
53
Q3 = 44,48 µUl/ml
Iq = 44,48 – 5,03
Iq = 49,51 µUl/ml
d. L'intervalle semi-interquartile
Q = 49,51 / 2
Q = 24,75 µUl/ml
CIQ = 4,96
5. Type de la distribution
VARIABLE 1
m > Me > Mo
La distribution est positivement dissymétrique
S = m3 / ݏ3
m3 = 1/15 [8 (23 – 31)3 + 3 (31– 31) 3 + 1 (39 – 31) 3 + 2 (47 – 31) 3 + 1 (55 – 31) 3] =
1228,8 ans
S =0,94
K = m4 / s4
m4 = 1/15 [8 (23 – 31)4 + 3 (31– 31) 4 + 1 (39 – 31) 4 + 2 (47 – 31) 4 + 1 (55 – 31) ] =
33314,13 ans
K = 2,36
54
K’ = -0,64
K’ < 0, donc les queues comptent moins d'observations que dans une distribution
normale.
VARIABLE 2
m > Me > Mo
La distribution est positivement dissymétrique
S = m3 / s3
S = 0,95
K = m4 / ݏ4
K = 1,84
K’ = - 1,16
K’ < 0, donc les queues comptent moins d'observations que dans une distribution
normale.
Remarque
55
EXERCICE N°9
Dans une étude sur les malformations morphologiques des poissons d’eau douce suite à leur
exposition à la pollution, il a été analysé 33 individus. Les résultats obtenus sont ainsi :
Anomalies 2 4 5 8 10 11 12 14 15 18 20
Effectifs 1 2 1 4 2 7 6 3 4 2 1
SOLUTION
1. Etendue et mode
a. Etendue
E = 20 - 2= 18
E = 18 anomalies
b. Le mode
Mo = 11 anomalies
2. Tableau statistique
Tableau XI : Tableau des effectis et des fréquences des anomalies relatives aux 33 poissons
analysés.
xi 2 4 5 8 10 11 12 14 15 18 20 T
ni 1 2 1 4 2 7 6 3 4 2 1 33
fi 0,03 0,06 0,03 0,12 0,06 0,22 0,18 0,09 0,12 0,06 0,03 1
Ni↑ 1 3 4 8 10 17 23 26 30 32 33 -
Fi↑ 0,03 0,09 0,12 0,24 0,30 0,52 0,70 0,79 0,91 0,97 1 -
3. La moyenne
56
4. La médiane
P = 16
Me = x(17)
Me = 11 anomalies
5. D’après le tableau des effectifs cumulés croissants, il y a 4 poissons qui ont un nombre
d’anomalie strictement inférieur à 8.
EXERCICE N°10
On prélève 20 poulets dans un élevage et on mesure le taux de dioxine (µg/l) contenu dans
leur viande afin d'estimer le taux moyen pour tout l'élevage. Les résultats sont donnés dans le
tableau ci-dessous :
Poulets 1 2 3 4 5 6 7 8 9 10
Taux 0,34 0,23 0,11 0,42 0,22 0,33 0,16 0,12 0,11 0,21
Poulets 11 12 13 14 15 16 17 18 19 20
Taux 0,14 0,44 0,27 0,36 0,43 0,38 0,34 0,22 0,32 0,11
SOLUTION
1. Tableau statistique
57
Tableau XII : Tableau des classes de quantité en dioxine retrouvée chez 20 poulets.
Classe ci ni fi Ni↑ Fi ↑
[0,11 – 0,18 [ 0,145 6 0,3 6 0,3
[0,18 – 0,25 [ 0,215 4 0,2 10 0,5
[0,25 – 0,32[ 0,285 1 0,05 11 0,55
[0,32 – 0,39[ 0,355 6 0,3 17 0,85
[0,39 – 0,46] 0,425 3 0,15 20 1
T - 20 1 - -
2. Les effectifs croissants et les fréquences croissantes sont donnés dans le tableau ci-
dessus.
a. La moyenne
m = 0,271 µg/l
b. Le mode
Approche 1
Mo1 = 0,145 µg/l
Mo2 = 0,355 µg/l
La classe modale 1 est [0,11 – 0,18[ µg/l
La classe modale 2 est [0,32 – 0,39[ µg/l
Approche 2
Mo1 = 0,11 + 0,07 [6 / (6 + 2)] = 0,11 + (0,07 x 0,75)
Mo1 = 0,162 µg/l
Remarque
Cette méthode (approche 2) est appelée méthode de calcul approché cela explique alors la
différence entre les résultats obtenus par les deux approches.
c. La médiane
Approche 1
Me = 0,18 + 0,07 [(10 - 6) / (10 - 6)]
Me = 0,25 µg/l
Approche 2
Me = 0,18 + b
b = (10 x 0,07) / 10 = 0,07
58
Me = 0,25 µg/l
a. La variance
ݏ² = 1/19 [6 (0,145 – 0,271)² + 4 (0,215 - 0,271)² + 1 (0,285 - 0,271)² + 6 (0,335 - 0,271)²
+ 3 (0,425 - 0,271)²]
࢙² = 0,011 µg/l
b. Ecart-type
࢙ = 0, 10 µg/l
EXERCICE N°11
Des agriculteurs ont inventorié le nombre de terrains cultivés dans un village à Chemini,
suivant la surface en m2. Les résultats sont ainsi :
Surface [400, 800[ [800, 1000[ [1000, 2500]
Effectif 2613 928 3379
SOLUTION
1. Calcul de la surface moyenne
Tableau XIII : Tableau du nombre de terrains cultivés en fonction des centres de classe des
surfaces en m².
ci 600 900 1750
ni 2613 928 3379
Si la surface totale de répartition est de 6739000 m2 , la surface moyenne d’une terrain cultivé
est égale à
6739000/6920 = 973.84 m²
59
EXERCICE N°12
Une compétition entre étudiants, à l’université de Béjaïa, a été organisée avec des gains en
points. Le tableau ci-dessous résume les points perçus par les étudiants :
Points 100 200 300 400 500 600 700 800 900 1000
Etudiants 2 1 1 3 2 2 3 5 0 1
SOLUTION
1. Le nombre d’étudiants à la compétition est égal à :
n = 2+1+1+3+2+2+3+5+0+1=20
n = 20 étudiants
2. La moyenne
m = 1/20 [(2 x 100) + (1 x 200) + (1 x 300) + (3 x 400) + (2 x 500) + (2 x 600) + (3 x
700) + (5 x 800) + (0 x 900) + (1 x 1000)]
m = 560 points
a. La médiane
P = 10
Me = [x(10) + x(11) ] / 2
Me = (600 + 600) / 2
Me = 600 points
60
b. Les quartiles
Q1 ?
P=5
Q1 = [x(5) + x(6) ] / 2
Q1 = (400 + 400) / 2
Q1 = 400 points
Q3 ?
P = 15
Q3 = [x(15) + x(16) ] / 2
Q3 = (800 + 800) / 2
Q3 = 800 points
c. L’étendue interquartile
Iq = Q3 – Q1 = 800 – 400
Iq = 400 points
d. Le coefficient interquartile
4. L’écart-type
a. Variance
ݏ² = 1/19 [2 (100 - 560)² + 1 (200 - 560)² + 1 (300 - 560)² + 3 (400 - 560)² + 2 (500 -
560)² + 2 (600 - 560)² + 3 (700 - 560)² + 5 (800 - 560)² + 0 (900 - 560)² + 1 (1000 -
560)²]
࢙² = 65684,21 points
b. Ecart-type
࢙= 256,28 points
a. Hypothèse 1
La moyenne
61
L’écart-type
Il est inchangé car la dispersion des valeurs autour de la moyenne n’est pas modifiée par cette
augmentation.
La médiane
b. Hypothèse 2
La moyenne
L’écart-type
EXERCICE N°13
Un contrôle de mortalité a été effectué pendant 100 jours d‘observation sur deux sites
d’élevage des crustacés destinés pour l’exportation. Certains individus présentent une
infestation parasitaire qui les rend inexploitables. On a relevé le nombre de spécimens infestés
constatés durant chaque jour :
Site 1 « El Kala »
Nombre de spécimens infestés 0 1 2 3 4 5 6 7
Nombres de jours 13 42 38 2 2 1 1 1
62
Site 2 « Annaba »
Nombres de spécimens infestés 0 1 2 3 4 5
Nombres de jours 35 40 1 1 10 13
1. Calculer le nombre moyen m1 de spécimens infestés pendant les 100 jours observés
dans le premier site. Calculer ensuite la variance ݏ²1.
2. Calculer le nombre moyen m2 de spécimens infestés pendant les 100 jours observés
dans le site 2. Calculer ensuite la variance ݏ²2.
3. Déterminer la médiane puis l’étendue interquartile dans le cas 1. Calculer l’étendue.
4. Déterminer la médiane puis l’étendue interquartile dans le cas 2. Calculer l’étendue.
5. Parmi la moyenne, l’écart type, la médiane, l’étendue interquartile ou l’étendue, quels
sont les paramètres qui mesurent la dispersion ?
6. Quel(s) paramètre(s) semble(nt) le(s) plus intéressant(s) à exploiter pour comparer ces
deux sites ? Justifier.
SOLUTION
1. La moyenne et la variance dans le cas 1
a. La moyenne
b. La variance
a. La moyenne
m2 = 1.5 spécimens
c. La variance
63
࢙²2 = 3,16 spécimens
a. La médiane
P1 = 50
Me1 = [x(50) + x(51) ] / 2
Me1 = (1 + 1) / 2
Me1 = 1 spécimen
b. L’étendue interquartile
Q1
P1 = 25
Q1 = [x(25) + x(26) ] / 2
Q1 = (1 + 1) / 2
Q1 = 1 spécimen
Q3
P1 = 75
Q3 = [x(75) + x(76) ] / 2
Q3 = (2 + 2) / 2
Q3 = 2 spécimens
Iq1= Q3 – Q1 = 2 – 1
Iq1 = 1 spécimen
c. Etendue
E1 = 7 – 0
E1 = 7 spécimens
a. La médiane
P2 = 50
Me2= [x(50) + x(51) ] / 2
Me2 = (1 + 1) / 2
Me2 = 1 spécimen
b. L’étendue interquartile
Q1
P2 = 25
Q1 = [x(25) + x(26) ] / 2
Q1 = (0 + 0) / 2
Q1 = 0 spécimen
Q3
P2 = 75
Q3 = [x(75) + x(76) ] / 2
Q3 = (1 + 2) / 2
Q3 = 1,5 spécimens
64
Iq2= Q3 – Q1 = 1,5 – 1
Iq2 = 0,5 spécimen
c. Etendue
E2 = 5 – 0
E2 = 5 spécimens
5. Les paramètres qui mesurent la dispersion sont l’écart type et l’étendue interquartile.
Plus ils sont petits, et plus la série est regroupée. Plus ils sont grands, et plus la série
est dispersée.
6. Dans le cas des deux sites ci-dessus, puisque leurs moyennes sont identiques, les
variances (et donc les écarts-types qui en sont leurs racines carrées) nous indique que
les valeurs du site 2 sont plus dispersées que celles du site 2. Il en est de même de
l’étendue interquartile. Le site 1 semble donc plus homogène que le site 2.
65
BIBLIOGRAPHIE
BIBLIOGRAPHIE
Balan R., Lamothe G., 2012: Une introduction à la biostatistique. Publication D3489, ISBN
978-2-7605-3489-6, 292p.
Bressoud E., Kahané J.-C., 2010: Statistique descriptive. 2ème Ed. Pearson France, 35p.
Carrat F., Mallet A., Morice V., 2014: Biostatistique. Université Pierre et Marie Curie,
Paces - UE4, 179p.
Carricano M., Poujol F., Bertrandias L., 2010: Analyse de Données avec SPSS». 2ème
Ed. Pearson France, 28 p.
Castillo I., 2012: Statistique descriptive. Cours 1, École des Ponts: 44p.
Colin M., Payette G., 2004: Biostatistiques pour les techniques biologiques. 3ème Ed.,
Montréal, Québec, 245p.
66
Delignette-Muller M.L., 2008: Biostatistique. Ecole Nationale Vétérinaire de Lyon ENVL,
89p.
Grenier E., Goupy J., Aubert H. P., 2007: Quelle est la bonne formule de l’écart-type ?.
Reims Management School, Revue MODULAD N°37, pp: 102-105.
Long D.: La variance. Université de Moncton, Canada E1A 3E9, pp: 858-488.
67
Putois B., 2009: Statistique descriptive: décrire, synthétiser, mettre en forme vos données.
Statistica, Psychologie Niv L3‐03, 12p.
ANONYMES
68