Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

LA BIOSTATISTIQUE PR Ben Salem Kamel 1

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 129

LA BIOSTATISTIQUE

DANS LES SCIENCES BIOLOGIQUES, MEDICALES

ET JUXTAMEDICALES

Pr : BEN SALEM kamel


PREAMBULE

Le mot « statistique » est d’origine latine « statisticus » c’est à dire se rapportant à l’état.
Au18ème siècle un journaliste allemand « Gottbried Anchenwell -1719-72» a utilisée pour la
première fois le mot « statistik » en remplacement de l’expression Political Arithmetic dans le
même sens que celui du mot latin. De nos jours ce mot a des significations différentes selon
qu’on parle des statistiques ou de la statistique

Les Statistiques :

Définition : ensemble de données numériques découlant de dénombrement ou de


recensement dans plusieurs domaines exemple :
- recensements de population
- des données de registres de l’état civil
- données d’enquêtes appropriées
- statistiques de décès
- statistiques de production agricole, industrielle …

Se dégage de cette définition la notion fondamentale de population « ensemble d’éléments de


même nature » encore appelé ensemble statistique
La statistique :
Définition 1: C’est l’ensemble des méthodes de raisonnement scientifique à partir
desquelles, on recueille, résume, présente et analyse des données d’une population caractérisées

1
essentiellement par leur variabilité. Les sciences de la vie sont un champ important de
l’application de la statistique.

Définition 2 : C’est également toute quantité ou grandeur mathématique calculée à partir


de données d’observations. Exemple la moyenne arithmétique d’une distribution de valeurs
numériques est une statistique.
La statistique des données quantitatives comporte deux niveaux.

1er niveau : La statistique descriptive :

La statistique descriptive est une méthode de description quantitative, aussi complète que
possible, avec des outils appropriés d’une masse de données numériques ou autres des modalités
de caractères (variables) d’un ensemble d’unités statistiques.

2ème niveau : La statistique analytique et inférentielle:

Elle prend la suite de la statistique descriptive lorsque l’on tente d’élaborer une théorie ou
d’extrapoler des résultats observés sur des échantillons. Elle utilise le calcul des probabilités.

I) INTRODUCTION DEFINITIONS

1- Unités statistiques ou individus : Ce sont les éléments comportant la population étudiée.


L’unité peut-être simple : individu, objet
L’unité peut-être complexe : revenu par habitant d’un pays, permet de tenir compte à la fois du
revenu en unité monétaire et du nombre d’habitants du pays.

2- Ensemble statistique : Groupement d’unités statistiques délimité de façon précise.


Exemple : Personnel d’un hôpital. On doit préciser s’il s’agit de l’effectif total (directeur, chef de
service, assistantes, infirmiers, personne de service) ou seulement du personnel soignant
(directeur, personnel de service exclus).

2
Pour ensemble statistique on emploie le terme « population » pour unités statistiques on emploie
le terme « membres de la population ».
Parfois on est amené à étudier un petit groupe des membres d’une population plus large,
notamment dans le cas des enquêtes par sondage  ce petit groupe est appelé échantillon

3- Variable Chaque individu peut-être décrit relativement par un ou plusieurs caractères.


Ces caractères sont caractérisés par leur variabilité d’un individu à un autre (et même pour un
même individu) d’ou l’appellation variables. Si le caractère ne varie pas dans une population on
l’appellera « constante »
Exemple : Dans le cas d’un groupe d’étudiants, on pourra étudier les variables suivantes :
- Sexe, âge, année d’étude, type du baccalauréat, niveau socioéconomique etc. …
4- Modalités : On appelle modalités les différentes situations possibles de la variable.
Chacune des variables étudiées peut présenter deux ou plusieurs modalités
Ces modalités constituent des classes. Ces classes doivent être à la fois exhaustives (toutes les
modalités) et mutuellement exclusives (incompatibles) en d’autres termes, au même moment
chaque unité statistique doit présenter une et une seulement des modalités de la variable.
Exemple : Si la variable étudiée est le genre des étudiants, les modalités sont : masculin,
féminin. Par contre si la variable étudiée est l’âge des étudiants, les modalités de cette variable
seraient les « valeurs » des âges de chaque étudiant.

II) DIFFERENTS TYPES DE VARIABLES

A) VARIABLES QUALITATIVES :

Une variable est dite qualitative quand ses diverses modalités ne sont pas mesurables.

1) Variables qualitatives nominales


Une variable qualitative est dite nominale quand les différentes classes de ses modalités ne sont
pas hiérarchisées. L’ordre de présentation des classes est purement arbitraire.
Exemple : la variable état civil peut avoir les modalités suivantes : célibataire, marié, divorcé ou
vœuf.

3
Dans sa forme la plus simple la variable qualitative est à deux classes elle est dite dichotomique
ou binaire. Les variables binaires peuvent être booléennes, les modalités sont alors « vrai » ou
« faux » ou bien de Bernouilli et les deux modalités seront codées « 0,1 ». Cette façon de
présenter les modalités d’une variable qualitative est assez fréquente en biologie. Elle permet la
« manipulation » de ces données selon des procédés mathématiques qui seront développés dans
ce cours.
Exemple le groupe sanguin Rhésus a deux classes, il est positif ou négatif, un malade peut être
infecté ou non.

2) Variables qualitatives ordinales


Une variable qualitative est dite ordinale lorsque ses différentes classes se présentent sous l’ordre
naturel existant entre ses classes.

Exemple
* Niveau de scolarité : il est logique de le présenter dans l’ordre primaire, secondaire et
supérieur.
* Niveau économique : bas, moyen, élevé

B) VARIABLES QUANTITATIVES
Une variable est dite quantitative quand ses diverses modalités sont mesurables c’est-à-dire qu’à
chaque modalité est associé un nombre d’observations ou de mesures. Ainsi les modalités
peuvent être évaluées et comparées numériquement.

1) Variables discrètes
Une variable quantitative est dite discrète si les valeurs possibles pour chaque modalité sont des
valeurs isolées sous forme de nombres entiers (le plus souvent). Leur échelle de mesure est une
échelle comptée.
Exemple : nombre d’enfants d’un ménage, parité, gravidité, nombre de colonies d’une boite de
Pétri, nombre de contacts par patient, fréquence cardiaque, rythme respiratoire …

4
2) Variables continues :
Une variable statistique est continue si ses valeurs possibles sont en nombre infini dans un
intervalle donné. Elles correspondent à des valeurs mesurées et chaque mesure peut
(théoriquement au moins) prendre des valeurs entre ±∞. Le facteur limitant demeure le degré de
précision de l’instrument de mesure.

Exemple : la glycémie peut prendre la valeur 6,24789…. mmol/l ce qui limite la lecture c’est
le degré de précision du glucomètre utilisé.

Très souvent, pour étudier une variable continue, on répartit les données en classes. On
discrétise en quelques sorte la variable continue en créant des intervalles de valeurs généralement
croissantes et dans chaque intervalle on indique le nombre des observations. Les classes
deviennent ainsi les modalités de la variable.

Remarque : les variables quantitatives peuvent être transformées en variables qualitatives


ordinales en regroupant les modalités. Cette opération, bien qu’intéressante et très utilisée en
pratique, fait perdre une certaine quantité de l’information des variables.

3) Variables temporelles
La notion de temps est très utilisée en biologie. Les variables temporelles sont en fait des
variables quantitatives continues mais l’échelle de temps n’est pas une échelle décimale
(secondes, minutes, heures, jours, mois, années, siècles …). Les différentes études sur les délais
leur font appel.

Exemple : durée de rémission d’une maladie, la durée de survie ou tout simplement des délais de
connaître un événement préalablement défini

III) SYNTHESE DES DONNEES

Les données statistiques telles qu’elles se présentent au fur et à mesure de leur enregistrement ne
forment souvent qu’une masse de données inutilisables immédiatement. La synthèse statistique

5
permet de les organiser et de les présenter sous une forme condensée afin de mieux étudier leur
distribution.
La synthèse d’une distribution statistique peut s’opérer de trois façons :
- Une synthèse par l’image en construisant des graphiques
Les méthodes graphiques sous leurs différentes formes sont les traductions visuelles des
différentes modalités d’une variable. Cette représentation doit traduire le plus fidèlement possible
la réalité. Ainsi on peut :
 visualiser la forme générale de la distribution
 reconnaître les valeurs extrêmes
 détecter des anomalies dans la distribution (pics, des valeurs lointaines ou
exceptionnelles …)
 déceler la concentration des informations autour de certaines valeurs
 comparer deux ou plusieurs distributions
 choisir correctement les paramètres de réduction des variables
Le choix de la méthode graphique dépendra toujours de la nature qualitative ou quantitative de la
variable à représenter.
- Une synthèse par des tableaux
- Une synthèse numérique en calculant des paramètres ou des statistiques (quand les données
proviennent d’un échantillon) cette synthèse fera l’objet d’une session à part.

A) Distribution d’une variable statistique


Définition:
On appelle distribution d’une variable statistique « V », quantitative ou qualitative, l’occurrence
de ses différentes modalités « vi » dans la population sujet de l’étude. Une variable statistique
peut avoir k modalités distinctes, i varie entre 1 et k.

1) Effectifs ou fréquences absolues


Chaque modalité vi peut s’observer ni fois, i variant entre 0 et théoriquement +∞. ni représente
l’effectif de la modalité vi et les couples (vi , ni ) forment la distribution de la variable « V ».
Pour une variable à k modalités on aura k couples de valeurs (tableau 1).
Exemple:

6
Tableau 1: Distribution du genre des nouveaux nés dans les maternités publiques du gouvernorat
de Monastir au cours de l’année 2002

vi ni
Masculin 3520
Féminin 3373
Total 6893

La variable genre se présente sous deux modalités la fréquence absolue de la modalité


« masculin » est de 3520 nouveaux nés.
Dans notre exemple la variable genre a deux modalités, masculin et féminin, l’effectif total
« n » est égal à la somme des effectifs de ces deux modalités.

D’une façon générale, l’effectif total « n » sera la somme des effectifs de chaque modalité.
k
n = n1 + n 2 + .... + n k = 
i=1
ni

2) Fréquences relatives
Résumer des données par les fréquences absolues est souvent pauvre d’informations et ne permet
surtout pas de faire des comparaisons entre populations de différentes tailles. Il est plus
intéressant de rapporter les fréquences absolues à un dénominateur.

Définition :
La fréquence relative d’une modalité d’une variable ou plus simplement fréquence (terme que
nous utiliserons pour le reste du cours) notée fi est le rapport entre la fréquence absolue de cette
modalité (effectifs) et la somme de l’ensemble des effectifs de toutes les modalités.
Important :
Dans le calcul des fréquences le dénominateur inclus le numérateur.

On peut facilement démontrer que la somme des fi = 1 et 0 ≤ fi ≤ 1

7
k k
ni 1 n
i=1 n
=
n
i=1
n i =
n
= 1

Cette fréquence fi s’exprimera en % quand elle est multipliée par 100 et la somme des fi sera
100%. Dans l’exemple de la distribution du genre des nouveaux nés, la fréquence relative des
garçons est de 0,51 soit 51%.

3) Fréquences cumulées
Les fréquences cumulées ont un intérêt pour les variables quantitatives discrètes ou continues
regroupées en classes, ils consistent à sommer d’une façon descendante les modalités ordonnées
de cette variable. Ainsi pour un niveau donné des modalités d’une variable la fréquence cumulée
informe sur la fréquence ou la proportion des observations qui lui est égale ou inférieure (voir
tableau 2).

B) Synthèse tabulaire
Une fois le calcul des différentes fréquences fait celles-ci seront présentées sous forme d’un
tableau.
Le tableau peut être :
 élémentaire et indique pour chaque unité statistique les modalités des variable
étudiées. D’un point de vue pratique il correspond à celui que nous utilisons pour
la saisie de données sur les logiciels d’épidémiologie.
 Tableau de dénombrement qui contient deux colonnes, dans la première les
modalités d’une variable et dans la seconde les effectifs de chaque modalité
 Tableau de traitement qui en plus de celui du dénombrement comprend des
colonnes relatives aux différents calculs statistiques
Les tableaux de dénombrement et de traitement sont ceux obtenus lors de l’analyse statistique.

1) Représentation tabulaire d’une variable qualitative ou quantitative discrète


Les modalités de ces variables peuvent figurer tel qu’on les a collectées dans un tableau ou être
regroupées comme dans l’exemple suivant qui s’intéresse à la parité de femmes ayant accouché
dans les maternités publiques de gouvernorat de Monastir en 2002. La parité est une variable

8
quantitative discrète, peut être transformée en une variable qualitative ordinale en regroupant
les modalités de la façon suivante :
 Primipare 1er accouchement
 Paucipare 2ème – 3ème accouchement
 Multipare 4ème -5ème accouchements
 Grande multipare au-delà du 5ème accouchement.

Tableau 2 : Distribution de la parité des femmes ayant accouchés dans les maternités publiques
du gouvernorat de Monastir en 2202

Parité (vi ) Effectifs (ni ) Fréquences Fréquences cumulées


ni /n (%) (%)
1 2210 32,1 32,1
2 1903 27,6 59,7
3 1457 21,1 80,8
4 786 11,4 92,2
5 342 5 97,2
6 116 1,7 98,9
7 46 0,7 99,5
8 18 0,3 99,8
9 9 0,1 99,9
10 6 0,1 100
Total (n) 6893 100

Les deux premières colonnes (vi , ni) constituent un tableau de dénombrement, l’ensemble est un
tableau statistique .
Après transformation de la variable parité en une variable ordinale le tableau sera :

9
Tableau 3 : Transformation de la parité en variable ordinale

Parité Effectifs (ni ) Fréquences Fréquences


ni /n % cumulées
Primipare 2210 32,1 32,1
Paucipare 3360 48,7 80,8
Multipare 1128 16,4 97,2
Grande 195 2,8 100
multipare
Total 6893 100

2) Représentation tabulaire d’une variable quantitative continue


Nous avons vue que les modalités d’une variable quantitative continue peuvent théoriquement
prendre des valeurs entières ou décimales. Ainsi il devient difficile de les résumer par les
méthodes tabulaires ou graphiques à moins qu’on opère à une transformation en regroupant les
différentes modalités dans des intervalles de valeurs appeler classes et qui représenteront
désormais les nouvelles modalités de la variable.
Exemple
La distribution du poids à la naissance des nouveaux nés des femmes ayant accouché dans les
maternités publiques du gouvernorat de Monastir en 2002 varie entre 300 grammes et 5520
grammes pour une précision de 10 grammes. Le nombre de modalité pour cette variable peut
atteindre les 520 d’où la difficulté et surtout l’absence de tout intérêt de résumer cette variable
par un tableau. Par contre nous pouvons créer des classes (ci ) de 200 grammes d’amplitudes par
exemple et ainsi nous réduisons à un niveau acceptable les modalités de cette variable à 26
modalités.

10
Définition 1 :
Une classe est un intervalle mathématique dans lequel on regroupe des valeurs d’une variable
quantitative. Une classe a deux bornes une inférieure et une supérieur. Toutes les modalités de la
variable doivent appartenir à une classe donnée et chaque modalité doit figurer dans une et une
seule classe. Les classes sont dites exhaustives et mutuellement exclusives.

Définition 2 :
On appelle amplitude d’une classe la différence entre la valeur de la borne supérieure et celle de
la borne inférieure.

Définition 3 : on appelle centre d’une classe la moyenne arithmétique des valeurs des bornes
inférieures et supérieures de cette classe.
S’agissant en fait d’une variable quantitative continue les classes doivent être également continue
leur représentation se fera par des intervalles semi-ouverts à droite. La valeur de la borne
supérieure d’une classe appartient à la classe adjacente.

Exemple :
Pour le poids des nouveaux nés, réparti dans des classes de 200g, les bornes de la première classe
sont [300 – 500 [la valeur exacte 500 bien qu’étant la limite supérieure de la première classe
appartient en fait à la classe suivante [500-700[. Elle servira cependant pour le calcul du centre de
la classe [300–500[soit c1:
300 + 500
c1 = = 400 g
2
La valeur 400 g sera la modalité de la variable poids pour l’ensemble des effectifs de cette
classe.
Remarque
Les valeurs prises par une variable quantitative discrète peuvent être assimilées à des centres de
classes « fictifs » et on peut dire d’une façon purement théorique que parité égal 2 est le centre
d’une classe hypothétique [1,5-2,5[

11
Avec l’ensemble de ces définitions et transformations nous pouvons résumer les nouvelles
différentes modalités de la variable poids (classes) dans un tableau en appliquant les mêmes
principes de la représentation tabulaire des variables qualitatives ou quantitatives discrètes.

C) Représentation graphique des variables qualitatives

Les variables qualitatives nominales ou ordinales peuvent être correctement synthétisées par un
diagramme en bâtonnets ou un diagramme circulaire dit en secteur (camembert).

1) Le diagramme en bâtonnets
Le diagramme en bâtonnets est établi en traçant un axe horizontal qui servira uniquement de
support pour les modalités de la ou les variables à représenter par ce graphique. On mettra les
bâtonnets à la verticale de cet axe, la hauteur de chaque bâtonnet sera proportionnelle à
l’importance d’une modalité par rapport aux autres. Cette hauteur peut être exprimée en
fréquence absolue ou relative.

Exemple :
Dans la maternité du Centre Hospitalo Universitaire de Monastir en l’an 2002 nous avons
enregistré 6893 naissances dont 3520 de genre masculin.

3600

3500

3400

3300

3200
Masculin Féminin

Figure 1 : Distribution du genre des nouveaux nés de la maternité du Centre


Hospitalo Universitaire de Monastir en l’an 2002

12
Représentation graphique par un diagramme en bâtonnets d’une variable qualitative ordinale
(figures 2, 3).
La distribution de la parité groupée en classes des femmes ayant accouché à la même maternité
en 2002 se présente ainsi :
 2210 primipares
 3360 paucipares
 1323 multipares

4000

3000

2000

1000

0
Primipare Paucipare Multipare

Figure 2 : Distribution de la parité des femmes ayant accouché


à la même maternité en 2002

Dans sa forme la plus simple le même diagramme en bâtonnets peut se présenter sous cette
3500

3000

2500

2000

1500

1000

500

0
forme: Primipare Paucipare Multipare

Figure 3 : Distribution de la parité des femmes ayant accouché


à la même maternité en 2002

13
2) Le diagramme en secteur
Ces mêmes variables peuvent être représentées par un autre type de diagramme de forme
circulaire dit en secteur ou plus communément appelé « camembert » ou pie chart en anglais.
Un secteur équivaut à l’angle interne formée par deux rayons d’un cercle (un cercle contient
360°).
Il s’agit ici de convertir les fréquences des modalités en angles (les secteurs ou portions du
camembert) proportionnels à l’importance d’une modalité par rapport à l’ensemble des
modalités.

Le secteur correspondant à la modalité primipare par exemple aura un angle de :

2210 °
× 360 = 116
6893

portion fond « briques » de la figure suivante.

Primipare Paucipare Multipare

Figure 4 : Distribution de la parité des femmes ayant accouché


à la même maternité en 2002

Distribution des parturientes de la maternité du Centre Hospitalo Universitaire de Monastir en


l’an 2002 selon leur parité (la parité est une variable qualitative ordinale)

14
Remarque : les logiciels actuels donnent la possibilité de faire ces représentations graphiques
dans l’éspace en trois dimensions, ceci n’ajoute absolument rien au message véhiculé par un
graphique à deux dimensions.
D) Représentation graphique d’une variable quantitative
Une variable quantitative peut être, comme nous l’avons vu, discrète ou continue. La
représentation graphique d’une variable discrète est facilement concevable celle d’une variable
continue l’est moins. Une variable quantitative peut prendre des valeurs allant théoriquement de -
∞ à +∞, l’occurrence des différentes mesures est ainsi impossible à déterminer. Il convient alors
de transformer cette variable continue en créant des classes (intervalles de mesures) et de
représenter le nombre de mesures dans cet intervalle. Il s’agit en quelque sorte de transformer une
variable quantitative continue en une variable discrète.
1) Variable quantitative discrète
Une variable quantitative discrète est une variable dont les modalités prennent des valeurs
entières et d’effectifs ni. La représentation graphique dans ce cas rejoint celle du diagramme en
bâtonnet avec la différence que l’axe des abscisses est un axe mathématique et où les modalités
sont portées sur cet axe d’une façon croissante. .
Reprenons l’exemple de la parité du tableau 2
La parité tel que présentée dans ce tableau est une variable quantitative discrète, sa représentation
graphique sera ainsi :
Effectifs
2500

2000

1500

1000

500

0
0 1 2 3 4 5 6 7 8 9 10 11

Parité
Figure : distribution de la parité des femmes ayant accouché dans les maternités publiques de la
région de Monastir en 2003

15
2) Variable quantitative continue
La représentation graphique d’une variable quantitative continue ne sera possible qu’après
regroupement des mesures dans des intervalles qui seront comme déjà vu l’équivalent des
modalités de cette variable. Il serait ainsi possible de rapporter les effectifs de ces modalités sur
des axes et nous obtiendrons ainsi une figure où c’est la surface du rectangle ayant pour base
l’amplitude de la classe et comme hauteur les effectifs (ou les fréquences relatives) de cette classe
qui indiquera l’importance d’une modalité par rapport à une autre. La figure obtenue est appelée
histogramme.

Définition : On appelle histogramme, la juxtaposition de rectangles contigus de surfaces


proportionnelles aux fréquences absolues ou relatives des modalités de la variable étudiée.
Remarque :
Si les intervalles de classes sont inégaux par exemples pour des intervalles plus grands les
hauteurs des rectangles devront être réduites dans le même rapport afin que les surfaces restent
proportionnelles aux fréquences.
Cette remarque nous conduit à définir deux notions :
Densité d’effectifs
Densité de proportions
Définition : La densité d’effectifs d’une classe ci d’amplitude ai et d’effectifs ni notée di est le
rapport di = ni / ai
Définition : La densité de fréquence relative fi de la classe ci notée d’i est le rapport : d’i = fi
/ ai et fi = ni / n, n étant l’effectif total.
Les densités d’effectifs ou de fréquences représentent ces effectifs ou ces fréquences par unité
d’amplitude. Elle permet ainsi la comparaison entre les différentes classes sans donner une image
déformée de la réalité (tableaux 4 et 5).

3) Construction d’un histogramme


On porte sur un système d’axes orthogonaux, les valeurs des modalités sur l’axe des abscisses
(classes) et les effectifs ou les fréquences relatives sur l’axe des ordonnées.
Illustration :
Choix du nombre de classes : Ce choix est arbitraire, mais :

16
- Si le nombre est trop restreint il en résulte une perte d’information
- Si le nombre est trop élevé, il fait apparaître des irrégularités accidentelles
Une formule permet d’avoir à priori une idée sur le nombre optimal n de classes à construire n ≈
1 + 3Log N, N le nombre d’observations et Log (base 10).
Le tableau 4 nous donne la distribution du poids à la naissance des nouveaux nés regroupés par
classes de 500 grammes des maternités publiques de Monastir en 2002.
D’après la formule ci-dessus le nombre de classes est égal à 12. Nous avons choisi 10 classes
pour éviter de diluer encore plus les effectifs des deux premières classes.
La différence entre la plus grande et la plus petite mesure de la distribution (appelée amplitude de
la distribution:sera sera définie ultérieurement). L’amplitude « a » des classes se calcule en
divisant cette différence par le nombre de calasses. Dans notre exemple on aura (5300 – 300) / 10
= 500 grammes.
De même on comprend à partir de ce tableau les notions de densité d’effectifs et de densité de
fréquences, l’amplitude des classes étant de 500g
Tableau 4 : Distribution du poids à la naissance des nouveaux nés regroupés par classes de 500
grammes des maternités publiques de Monastir en 2002

Poids (classes) Effectifs Fréquences Fréquences Densité d’effectifs Densité de


relatives (%) cumulées (%) fréquences
(%)
[300-800[ 12 0,2 0,2 0,024 0,00035
[800-1300[ 36 0,5 0,7 0,072
[1300-1800[ 50 0,7 1,4 0,1
[1800-2300[ 142 2,1 3,5 0,284
[2300-2800[ 539 7,8 11,3 1,078
[2800-3300[ 2061 29,9 41,2 4,122 0,06
[3300-3800[ 2560 37,1 78,3 5 ,12 0,07
[3800-4300[ 1185 17,2 95,5
[4300-4800[ 263 3,8 99,3
[4800-5300[ 45 0,6 100
Total 6893 100

17
A partir de ce tableau nous pouvons construire le graphique suivant :

3000

2500

2000
Effectifs 1500

1000

500

0
Poids (classes de 500g)

300 g 5300 g

Pour des classes d’amplitudes inégales par exemple on regroupe la 5ème et la 6ème classe on aura
une classe d’amplitude mille grammes mais la hauteur serait de (539+2061) /2 = 1300.

Dans le cas ou les classes sont inégales (tableau 5)

Classes effectifs Fréquences Densité Amplitude Densité de


relatives (%) d’effectifs (grammes) fréquences
relatives
[300-1300[ 48 0,75 0,048 1000
[1300-2800[ 731 0,49 1500 0,008
[2800-4800[ 6069 3,03 2000 0,047
[4800-5300[ 45 0,045 500
Total 6398

L’histogramme aura l’allure suivante :

18
2500

2000

1500

1000

500

Avec les densités de fréquences relatives on peut interpréter correctement les valeurs d’2 = 0,008
% et d’3 = 0,047 en disant que dans la tranche de poids comprise entre [1300-2800[chaque
gramme représente 0,008 % des nouveaux nés et 0,047% pour la tranche suivante [2800-4800[.

4) Polygone de fréquence
Nous avons vu que l’histogramme est la représentation graphique d’une variable quantitative
continue regroupée en classes. Le polygone de fréquence est la courbe obtenue en joignant les
milieux des sommets des rectangles de l’histogramme. Si au préalable on ajoute deux classes
fictives aux extrémités (1et 7 de la figure suivante) d’effectifs nuls, le polygone de fréquence
coupera l’axe des abscisses et la surface ainsi délimitée sera la même que celle de l’histogramme
(figure suivante).

Polygone de fréquences

7
1

19
5) Le polygone des fréquences cumulées

C’est une autre représentation graphique des variables quantitatives regroupées en classes où on
représentera dans un système d’axes orthogonaux portant en abscisses les extrémités supérieures
(cs ) des classes et en ordonnées les fréquences cumulées correspondantes (Fc ). Pour l’exemple
de la distribution du poids de naissance, le polygone des fréquences cumulées aura l’aspect
suivant :
Courbe des fréquences cumulées du poids des nouveaux nés regroupés
en classes
(%)

100
80
60
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500

Poids

E) Autres représentations graphiques

1) Diagramme polaire

Le diagramme polaire également dit en radar est utilisé lorsque les observations de la variable
étudiée appartiennent à des sous populations dont chacune a deux ou plusieurs modalités.

Remarque :

En cordonnées polaires chaque point sera repéré par l’angle que fait l’axe des abscisses avec celui
des ordonnées et la distance entre ce point et le point d’intersection des axes.

α 20
O X

En coordonnées polaires le point « p » aura comme repères l’angle α et la distance Op

Exemple:
Dans une étude sur la perception des étudiants de leurs enseignants, une étude a été menée
auprès de cinq cohortes de 794 étudiants de la faculté de médecine de Monastir. Elle a été basée
sur un questionnaire explorant cette dimension a travers des propositions et où les étudiants
devraient indiquer sur une échelle leur degré d’accord avec les propositions. Pour simplifier
l’exemple nous avons dichotomisé cette échelle soit d’accord ou en désaccord. Les résultats ci
dessous indiquent le pourcentage d’étudiants en accord avec la proposition :
Se soucient des étudiants 43,7 %
Disponibles pour les étudiants 41,4 %
Aiment enseigner 71,6 %
Responsabilisent les étudiants 63 %
Respectent le choix des étudiants 37,5 %
Se préoccupent de la qualité du cours 65 %
Cherchent à comprendre les difficultés des étudiants 34 %
Enseignent la communication médecins patients 36,9 %

Chaque proposition est une sous population de la variable « relation enseignants enseignés » et
chaque axe représente une proposition. Le graphique polaire se présente ainsi

100

43,7
50 41,4
36,9

0
34 71,6

65 63
37,5

21
On aurait pu également représenter ces réponses selon les cohortes et on aurait obtenu cinq
courbes sur le même diagramme.

2) Autres diagrammes

Nous rappelons à ce niveau la pyramide des âges (cours démographie) qui comme nous l’avons
présenté, est la représentation graphique de la distribution de la population selon l’âge et le genre.
La cartographie discipline à part entière permet de représenter une variable dont les modalités ont
une distribution spatiale. Elle dépasse le cadre de ce cours.
Le diagramme en boite sera étudié plus loin dans l’étape analyse des données selon la méthode de
Tukey.

IV) CARACTERISTIQUES DE TENDANCE CENTRALE

Outre les méthodes déjà décrites pour la synthèse des différentes distributions des variables, ces
distributions statistiques ont l’avantage d’être manipulées par différentes méthodes
mathématiques permettant de décrire leurs caractéristiques. Nous pouvons distinguer les
caractéristiques de tendance centrale et les caractéristiques de dispersion.

A) Le mode

1) Définition

On appelle mode également appelée valeur dominante d’une distribution la ou les valeurs qui ont
les effectifs les plus élevés. Une série peut être uni, bi ou multimodale. <Définition/>
Dans l’exemple de la parité des femmes ayant accouché dans les maternités publiques de
Monastir les primipares constituent la classe modale.
Pour une variable quantitative continue on ne peu pas parler de mode mais de classe modale.
Pour la distribution du poids de naissance regroupée en classe, la classe [3300- 3800[ est la
classe modale.

22
Distribution unimodale Distribution bimodale

2) Avantages et inconvénients du mode


L’avantage du mode est sa rapide détermination soit à partir du tableau statistique ou du
graphique. Quand la distribution est unimodale il peut suggérer si elle est compatible ou non avec
une distribution théorique (Gaussienne par exemple) et permet de choisir le seuil qui nous
permet de transformer une variable quantitative en une variable qualitative ordinale.
Paramètre purement descriptif il ne rentre pas dans les calculs statistiques.
Une distribution sans mode indique l’absence de variation de la variable étudiée.

B) La médiane
Définition et calcul
La médiane est la valeur qui divise la distribution d’une variable quantitative en ordre croissant
ou décroissant en deux groupes de même effectifs. Ainsi nous devont calculer sa position et
reconnaître sa valeur.
La position de la médiane notée Pos (méd) est déterminée par la formule suivante :

n + 1 avec n nombre d’observation


p o s (m é d ) =
2

La valeur de la médiane notée « x% » est celle de l’observation ayant le rang de la position ainsi
calculée.
Deux situations se présentent :
Si n est impair la position de la médiane est un nombre entier et sa valeur est celle correspondant
à ce rang.

23
Si n est pair sa position sera comprise entre n/2 et (n/2 ) + 1 sa valeur sera la moyenne
arithmétique des valeurs de ces deux positions.

<Exemple> Distribution par ordre croissant du poids en kilogrammes de 11 étudiants inscrits en


première année des études médicales : 62 ; 64 ; 65 ; 67 ; 67 ; 70 ; 71 ; 74 ; 75 ; 75 ; 78.

Pos (méd) = (11 +1) / 2 = 6


Médiane = 70 kilogrammes
On remarque bien que 5 étudiants ont un poids inférieur à 70 Kg et les 5 autres ont un poids
supérieur à cette valeur.
Par contre si cette distribution comportait 12 étudiants 62 ; 64 ; 65 ; 67 ; 67 ; 70 ; 71 ; 74 ; 75 ;
75 ; 78 ; 84 ; la position de la médiane serait Pos (méd) = (12 +1) / 2 = 6,5. Cette position est

entre la 6ème n/2 et la 7ème (n/2 ) + 1 observation, sa valeur sera égale à x% = (70+71) / 2 = 70,5
Kg.

2) Cas d’une variable quantitative regroupée en classes


Reprenons l’exemple de la distribution du poids des nouveaux nés regroupés par classe de 500 g.
La classe pouvant contenir la valeur de la médiane est la classe [3300-3800[. En effet on peut lire
qu’au niveau de la borne 3300 g, 41,7% des poids lui sont inférieurs (colonne des fréquences
cumulées) et à la borne 3800 78,3%. Nous rappelons que la valeur de la médiane et celle de
l’observation qui divise la distribution en 2 parties égales, valeur où 50% des poids lui sont
inférieurs ou supérieurs. Cette valeur est obtenue par interpolation linéaire des poids au niveau de
cet intervalle et peut être calculée de deux façons identiques :

( 0 , 5 − f c in f )
x% = b i n f + a i
( f c s u p − f c in f )
ou
( fc sup − 0 , 5 )
x% = b s u p − a i
( f c s u p − f c in f )

24
Application
(0, 5 − 0, 42 )
x% = 3300 + 500 ≈ 3411 g
(0, 78 − 0, 42 )

ou
(0, 78 − 0,5)
x% = 3800 − 500 ≈ 3411g
(0, 78 − 0, 42)

Nous avons utilisé les fréquences relatives (après les avoir arrondies) dans ces formules, on aurait
eu les mêmes résultats avec les effectifs cumulés.

3) Propriétés de la médiane

Reprenons l’exemple de la distribution du poids des 11 étudiants et calculons la valeur absolue


des écarts entre les valeurs observées de la variable poids et la médiane de cette distribution.
8, 6, 5, 3, 3, 0, 1, 4, 5, 5, 8, la somme est 48.
Faisons la même opération en prenant une autre valeur de la variable par exemple 67 kg. Les
écarts en valeurs absolues seront : 5, 3, 2, 0, 0, 3, 4, 7, 8, 8, 11, la somme de ces écarts est de 51
d’où ces propriétés de la médiane :
La somme des écarts en valeurs absolues entre les valeurs de la variable et la médiane est la plus
faible parmi les sommes des ces différences et n’importe quelle autre valeur de cette variable.
Deuxième propriété de la médiane (sera démontrée par les apprenants en calculant et en
additionnant les surfaces des différents rectangles)
Reprendre l’histogramme de la distribution du poids des nouveaux nés et traçons la verticale à
l’axe des abscisses passant par la valeur de la médiane (3411 g), les surfaces de part et d’autre de
cette verticale sont égales.
Troisième propriété
La médiane n’est pas influencée par les valeurs extrêmes de la distribution.

25
C) Les quantiles

1) Définition
On appelle quantile d’ordre α d’une variable statistique V dont les valeurs sont rangées par ordre
croissant la valeur de V notée x α tel que α % des valeurs observées lui sont inférieurs.
Ainsi pour un quantile α il faut déterminer sa position et sa valeur.
Les quantiles les plus utilisés sont les quartiles, les déciles et les centiles a sera égale à 4 pour les
quartiles, 10 pour les déciles, 100 pour les centiles …
Un quantile divise la distribution en α % de valeurs inférieures et (1- α %) de valeurs
supérieures.
2) Les quartiles
Définition :
On appelle quartiles d’une distribution d’une variable quantitative V ordonnée d’une façon
croissante, les valeurs correspondants aux quantiles 25%, 50% et 75%. Ils divisent la distribution
en 4 parties contenant chacune 25% des observations.

Les quartiles, au nombre de trois (1er, 2ème et 3ème quartile), sont notés Q1, Q2 et Q3 Q2 le
deuxième quartile correspond à la médiane.
D’une façon générale le rang d’un quartile peut être calculé selon la formule

n
r = i + 0, 5
4
avec r = rang du quartile , i ordre du quartile, n = nombre d’observations de la distribution.
Pour le 2ème quartile de la distribution du poids des 11 étudiants aura le rang

2 × 11
r = + 0 .5 = 6
4
3) Autres quantiles

Comme autres quantiles nous pouvons citer :


 les déciles sont au nombre de neuf notés D1, D2 ,…, D9 . Ils partagent la
distribution d’une variable quantitative ordonnée selon les valeurs en dix parties

26
contenant chacune 10% des mesures. Les fréquences cumulées 10%, 20% , ...,
90% sont associées aux déciles D1, D2 ,…, D9. Le 5ème décile est la médiane.
 Les centiles divisent la distribution d’une variable quantitative ordonnée selon
les valeurs en 100 parties égales contenant chacune 1% des mesures. Le 10ème
percentile est évidemment le 1er décile et le 50ème la médiane.
 Les milliles divisent avec la même logique la distribution en 1000 parties égales
contenant chacune 1‰ des mesures.

D) La moyenne arithmétique
La moyenne arithmétique d’une variable quantitative sera représentée par le symbole X
quand elle est calculée sur des données d’un échantillon soit le symbole μ quand il s’agit d’une
population.

1) Observations non groupées


La moyenne arithmétique est la somme des valeurs « xi » de la variable divisée par le nombre
d’observations ( n )
n
1
X =
n

i=1
xi

Dans l’exemple du poids des 11 étudiants la moyenne arithmétique sera

6 2 + 6 4 + 6 5 + .... + 7 5 + 7 8
= 6 9 , 8 K g
1 1

2) Cas des données groupées


Il s’agit ici du cas où les modalités de la variable (k valeurs) sont affectées d’un coefficient ni
égal au nombre de fois que cette valeur a été observée. La moyenne arithmétique sera :

k
n1 x1 + n 2 x 2 + ... + n k x k 1
X =
n1+ n 2 + ... + n k
=
n
i =1
ni xi

n = n1+n2+…+nk

27
Cette moyenne est également appelée moyenne arithmétique pondérée.
La moyenne peut également s’écrire : k or
n1 n2 nk
X =  i=1 n
x1 +
n
x 2 + ... +
n
xk

n1 n d’où k
= f 1 , 2 = f 2 etc ... X =  f i xi
n n i =1

fi fréquence relative de la mesure xi


L’avantage de dette formule c’est qu’elle permet de calculer la moyenne arithmétique même si on
ne connaît pas la taille de la population.
Exemple
La parité moyenne (Tableau 2) des femmes ayant accouché dans les maternités publiques de
Monastir en 2002 sera :
( 2 2 1 0 × 1) + (1 9 0 3 × 2 ) + (1 4 5 7 × 3) + ... + (9 × 9 ) + ( 6 × 1 0 )
X = = 2, 4
6893
<Remarque > Pour les données regroupées en classes cette même formule s’applique, ni
représentera l’effectif de la classe et xi le centre de la classe.
Exemple tableau 6 : Poids moyen des nouveaux nés pour les données regroupées en classes de
500 g:
Poids (calasses) Effectifs (ni) Centre classe (xi)
[300-800[ 12 550
[800-1300[ 36 1050
[1300-1800[ 50 1550
[1800-2300[ 142 2050
[2300-2800[ 539 2550
[2800-3300[ 2061 3050
[3300-3800[ 2560 3550
[3800-4300[ 1185 4050
[4300-4800[ 263 4550
[4800-5300[ 45 5050
Total 6893

(12 × 550) + (36 ×1050) + (50×1550) + ... + (263× 4550) + (45× 5050)
X= = 3392,5g
6893

28
Remarque : Le calcul de la moyenne du poids sur les données brutes non regroupées en classes
donne un résultat différent. Le regroupement en classes fait perdre une certaine quantité de
l’information.
Si on considère les différentes fréquences relatives comme étant la loi de distribution de la
variable en question, k
est appelée espérance mathématique de x, elle sera notée
X = 
i=1
fi xi

E(X).

3) Avantages et inconvénients de la moyenne


L’avantage de la moyenne c’est qu’elle utilise toutes les valeurs de la distribution pour son calcul
(ce n’est pas le cas pour la médiane). C’est un bon moyen pour faire des comparaisons ou des
estimations quand la dispersion des données autour de la moyenne est acceptable
L’inconvénient majeur de la moyenne est d’être très influencée par les valeurs extrêmes de la
distribution des valeurs.
Exemple:
Le tableau suivant donne les notes de deux étudiants (A ;B) dans trois disciplines

Discipline A B
Anatomie 10 0
Statistiques 10 20
Biophysique 10 10

Ces deux étudiants auront chacun 10 de moyenne arithmétique, mais il est évident qu’ils ne sont
pas sont pas identiques.

4) Propriétés de la moyenne
Les principales propriétés de la moyenne arithmétiques découlent de la transformation des
variables. Nous citons les plus fréquentes :

1. x, = x+c, x , est la transformation des valeurs x d’une variable quantitative en


,
ajoutant (ou en retranchant une constante) à toutes les mesures, X = X + c (ou

29
moins c quand la transformation est une soustraction). Nous pouvons également
,
écrire E(X ) = E(X) + c

2. x , = ax quand les mesures de la variable sont un multiple d’un nombre, X , = aX


,
de même E ( X ) = aE ( X )
3. Une combinaison intéressante de ces deux transformations est celle qui
x+c X +c
x, = X, =
a a

4. Si X est la somme de deux variables tel que X=Z+Y X = Z +Y et


E ( X ) = E ( Z ) + E (Y )

E) Autres moyennes
1) La moyenne géométrique
La moyenne géométrique est intéressante à calculer quand les mesures suivent une progression
géométrique ou si la variable a eu une transformation logarithmique.

La moyenne géométrique sera notée G = n n1 n2


x1 × x 2 × ... × x i ni
avec n= n
i =1
i

n n
d’une façon plus simple G = n Π xi i . Ainsi présentée la moyenne géométrique est de calcul
i =1

difficile, le passage au logarithme le simplifie.

log G =
n1 log x1 + n 2 log x 2 + ... + n i log x i
, d’une façon plus simple log G =
 n i log xi . Cette
n  ni
simplification permet d’énoncer
Définition : le logarithme de la moyenne géométrique et égal à la moyenne arithmétique des
logarithmes des mesures de la variable.

30
Exemple : Le tableau suivant indique les notes obtenues par un groupe d’étudiants
Notes Nombre log(xi) ni log(xi)
xi d’étudiants (ni )
2 3 0,3 0,6
3 5 0,477 2,385
5 8 0,699 5,592
6 5 0,778 3,89
8 3 0,903 2,709
10 1 1 1

25 3 5 8 5 3
G = 2 × 3 × 5 × 6 × 8 × 10

0 , 6 + 2 , 3 8 5 + 5, 5 9 2 + 3, 8 9 + 2 , 7 0 9 + 1
lo g G = = 0 , 6 5 et G≈ 4,5 Remarque : Une seule
25
note égale à zéro aurait donné une moyenne géométrique nulle.

2) La moyenne harmonique
La moyenne harmonique est l’inverse de la moyenne arithmétique des inverses des mesures.
H = 1 n
1 1
n
i =1 xi

La moyenne harmonique est intéressante chaque fois ou on s’intéresse à l’inverse de la mesure.

3) La moyenne quadratique

Se définit comme la racine carrée de la moyenne arithmétique des carrés des mesures

n
1
Q =
n

i=1
x i
2

4) Moyenne d’une variable de Bernouilli

Nous avons déjà vue qu’une variable qualitative peut être assimilée à une variable de Bernouilli
quand elle est dichotomique et ses modalités codées 0 et 1. Cette approche considère la variable
qualitative comme une variable quantitative et aura par conséquent des caractéristiques de
tendance centrale (moyenne) et de dispersion (voir ce qui suit). Pour le calcul de la moyenne

31
reprenons l’exemple de la parité des femmes (voir tableau 2) mais après l’avoir transformé en
primipare codée « 1 » et autre codée « 0 ».
Ainsi transformée la variable parité aura deux modalités selon le tableau suivant

Parité Effectifs Fréquence (%)


Primipare « 1 » 2210 32,1
Autre « 0 » 4683 67,9

Dans cet exemple les valeurs des différents xi (k modalités de la variable) sont désormais 1 et 0.
k
Reprenons la formule de la moyenne arithmétique [E(X)] µ =  f i xi  0,321× (1) + 0, 679 × (0)
i =1

µ = 0,321 soit 32,1%


La moyenne d’une distribution de Bernouilli et égale à f1 et sera notée « p » fréquence relative
de la modalité codée « 1 »

V) CARACTERISTIQUES DE DISPERSION

Nous avons déjà signalé au moins un inconvénient des moyennes (leur sensibilité aux valeurs
extrêmes) à travers celui de la moyenne arithmétique, nous présenterons dans ce qui suit d’autres
statistiques qui permettent de compléter et d’améliorer la qualité de l’information que peut nous
fournir la distribution d’une variable. Les caractéristiques de dispersion vont justement nous
donner une idée sur la dispersion des données autour de la caractéristique de tendance centrale.

A) Dispersion autour de la moyenne arithmétique


1) La variance et l’écart type
La variance traduit l’écart moyen des mesures d’une distribution par rapport à la moyenne
arithmétique de cette distribution.
Exemple :
Le tableau suivant résume la distribution du poids en kg (xi) de 12 étudiants. La moyenne
arithmétique est X = 7 1kg .

32
Poids (xi) 62 64 65 67 67 70 71 74 75 75 78 84
-9 -7 -6 -4 -4 -1 0 3 4 4 7 13
(x i −X )
2 81 49 36 16 16 1 0 9 16 16 49 169
(x i −X)

D’après ce tableau nous remarquons que la somme des écarts des mesures par rapport à la
moyenne est nulle. La somme des écarts au carré par contre est non nulle. Cette somme est
utilisée pour calculer la variance notée σ 2 qui est le carré moyen des écarts des mesures par
rapport à la moyenne de la distribution. La formule de la variance s’écrit ainsi :

1 n
σ =  ( xi − X )2
2
x
n i =1
n étant le nombre d’observation et xi les mesures de la variable.
La variance est un carré dont l’unité est bien sur le carré de l’unité de la variable étudiée, la
racine carré positive de la variance donne un paramètre de même unité et s’appelle écart type
noté σx.

σ x = σ x2
2) Développement du calcul de la variance
Le développement de la formule de la variance permet de simplifier son calcul et facilitera la
compréhension des tableaux d’analyse de variance qui seront largement utilisés dans le module
sur les inférences statistiques.
n
La somme 
i =1
( x i − X ) 2 peut se développer de la façon suivante :

x 12 − 2 x 1 X + X 2
+
2 2
x 2 − 2 x 2 X + X +
......................... +
......................... +
2 2
x n − 2 xi X + X
n n
= 
i =1
x i2 − 2 X 
i =1
xi + n X 2

33
Cette somme peut s’écrire
n

n x i n n

x
i =1
i
2
− 2 nX i =1

n
+ nX 2
⇔ x i =1
i
2
− 2 nXX + nX 2
⇔ x
i =1
i
2
− nX 2

 x i
Elle peut également s’écrire en remplaçant la moyenne X par i = 1

n
2 2 2 2
n
 n
  n   n   n 
n n  xi   xi  n
2   xi    xi  n   xi 
x i
2
− 2 x i i =1 + n i =1
 ⇔  x i2 −  i =1  +  i = 1  ⇔  x i2 −  i =1 
i =1 i =1 n  n  i =1 n n i =1 n
 
 

Revenons à la formule de la variance

2
 n 
n n n   xi 
 ( xi − X ) 2  x i2 − n X 2
 x i2 −  i =1 
2 i =1 i =1 i =1
n
σ x = = =
n n n

1 n 2
Maintenant si on se rappelle que la moyenne quadratique Q =  xi
n i =1
la formule de la

variance sera σ x2 = Q 2 − X 2 différence des carrés des moyennes quadratique et arithmétique.


2
n  n 
Attention : ne pas confondre somme des carrés  x i
2
et carré de la somme   x i  .
i=1  i =1 
Remarque :
Pour les k mesures affectées par un coefficient ni les formules deviennent :

2
 k 
k k   nix i 
 nix i
2
− n X 2
 nix i
2
−  i=1 
2 i=1 i=1 n
σ x = =
n n

Nous avons également vu que n


la formule de la variance peut s’écrire
E(X ) = 
i=1
fi xi

34
2
σ X2 = E ( X 2 ) − ( E ( X ) )
3) Propriétés de la variance
Reprenons les situations qui nous ont permis d’étudier les propriétés de la moyenne
arithmétique :
'
 Soit la variable X’ définie par xi = xi + c , c étant une constante.
n n 2
2
 (x '
i −X '
)   ( xi + c ) − X ' 
 
, X ' la moyenne arithmétique de X’et n le nombre de
σ X2 ' = i =1
= i =1
n n
mesures, or X ' = X + c 
n 2 n 2

 (x + c )−
 i ( X + c 
 )  ( xi − X )
σ 2
X ' = i =1
⇔ σ 2
X ' = i =1
 σ 2
X ' = σ 2
X
n n
La variance ne change pas

 Soit maintenant la variable X’ définie par xi' = hxi h étant une constante la
moyenne arithmétique de X’ est X ' = hX , la variance serait :
n n 2 n
2 2
 (x '
i − X '
)  (h x i − hX )  h 2 ( xi − X )
σ X2 ' = i =1
= i =1
= i =1
= h 2σ X2
n n n

3) Variance d’une variable dichotomique


Revenons à l’exemple de la parité transformée en variable dichotomique. Ecrivons p = fréquence
modalité « 1 », q = fréquence de la modalité « 0 » et p+q=1
La variance de la variable parité en utilisant la formule des espérances mathématiques,
2
σ X2 = E ( X 2 ) − ( E ( X ) ) sera :

k
E(X 2) = 
i =1
f i x i2 = p × 1 2 + q × 0 2 = p

2
et  E ( X )  = p 2 d’où σ X2 = p − p 2 = p (1 − p ) = pq

35
4) La variable centrée réduite

xi − X
Soit la variable Z définie par Z= , calculons la moyenne et l’écart type de cette
σX
nouvelle variable ( X = moyenne des xi et σx leur écart type).

Z =
 ( xi − X ) , nous avons déjà vue que  (x i −X )= 0 d’où Z = 0
nσ x

  x − X 
2 
  
   i
  σ X
−

Z 
 
et   1 2 σ X2
σ 2
z =
n
=
n σ X2 ( xi − X ) =
σ X2
=1

Important :
Ainsi la moyenne de la variable centrée réduite est nulle et son écart type égal à 1

5) Coefficient de variation

Le coefficient de variation corrige une erreur que nous pouvons facilement commettre avec le
changement d’unité d’une variable en la multipliant par exemple par une constante. D’après ce
que nous venons de voir la nouvelle variance et par conséquent l’écart type de la nouvelle
distribution sera un multiple de l’écart type de la distribution de la variable d’origine. Peut on
dire alors que la variable est h plus dispersée plus dispersée dans sa nouvelle distribution?
Le coefficient de variation permet d’apporter une réponse.
<Définition> le coefficient de variation noté « CV » est le rapport, exprimé en pourcentage, de
l’écart type d’une distribution par la moyenne arithmétique de cette distribution. <Définition/>

σ X
CV = × 100
X
Reprenons le cas de la variable X’ définie par hX la moyenne de X est X et l’écart type σ X la

moyenne et l’écart type de X’ seront X ' = hX et σ X ' = hσ X


Calculons le coefficient de variation de X’:
σ X ' hσ X σ
CVX' = '
= = X = CVx
X hX X

36
Le coefficient de variation ne change pas.
Par ailleurs le coefficient de variation est sans unité il permet de comparer la variabilité de
variables de nature différente.

B) Autres mesures de la dispersion


1) Intervalle Interquartile
L’intervalle interquartile est l’intervalle qui contient les observations comprises entre les
positions du 3ème et du 1er quartile. Cet intervalle et d’après la définition des quartiles contient
50% des observations. L’amplitude de cet intervalle est la différence entre les valeurs du 3ème et
le 1er quartile cette amplitude est appelée écart interquartile noté EIQ.
Plus petit étant cet écart moins dispersées autour de la médiane sont les observations.
Exemple : Distribution du poids en kg de 13 étudiants, 62 ; 64 ; 65 ; 67 ;67 ;70 ; 71 ; 74 ; 75 ; 75 ;
78 ; 84 ; 90.
Calculons la position et les valeurs des différents quartiles
13 + 1 Soit q 2 = 7 1 k g
P os(q2 ) = =7
2
7 +1 Soit q 1 = 6 7 k g
P o s ( q1 ) = = 4
2
la position du 3ème quartile peut être assimilée à celle du 1er quartile mais en prenant la

distribution dans un ordre décroissant sa valeur sera q 3 = 75 kg


L’écart interquartile sera pour cette distribution :
75 - 67 = 8 kg ce qui veut dire que 50% des poids des étudiants sont compris entre 67 et 75
kilogrammes.
Par contre si on calcule l’écart entre la médiane est la plus petite valeur de la distribution qui
contient également 50% des observations cet écart est égal à 71 – 62 = 9 kg écart différent
de celui de l’écart interquartile de même pour celui entre la médiane et la plus grande valeur qui
est de 19 kg.
2) Amplitude ou magnitude
L’amplitude d’une distribution est la différence entre sa plus grande valeur est sa plus petite
valeur. L’amplitude de la distribution du poids des étudiants est égale à :
90 – 62 = 28 kg.

37
C) Analyse d’une variable quantitative selon la méthode de Tukey

1) Phase exploratoire des données par la méthode branches et feuilles


Il s’agit d’une méthode relativement récente qui est elle même une forme de représentation
graphique et permet un triage rapide des données. D’ailleurs les logiciels d’analyses statistiques
offrent cette possibilité.
Le principe est de diviser les données en deux parties –branches- et –feuilles- . les branches
servent à ranger les données et les feuilles à l’individualiser.
Exemple : le rythme cardiaque de 21 étudiants est ainsi distribué ; 62 - 72 - 60 – 77 – 65 – 62 –
64 - 75 - 73 - 58 - 59 – 80 – 70 - 83 – 72- 56- 82- 57- 60 – 65- 67.
Méthode
Le rythme cardiaque est une variable quantitative discrète à deux chiffres dans cet exemple, les
branches peuvent être les dizaines et les feuilles les unités.
Plaçons dans une colonne les dizaines –branches- dans un ordre croissant puis en face de chaque
ligne nous placerons les unités –feuilles- également dans un ordre croissant, une unité qui se
répète doit figurer autant de fois. Le rythme cardiaque se présentera de la façon suivante :

5 6 7 8 9
6 0 0 2 2 4 5 57
7 0 2 2 3 5 7
8 0 2 3

Ainsi cette représentation est riche d’informations. Nous pouvons déjà deviner l’allure de la
distribution des données, elle permettra aussi de calculer de façon assez facile certaines
statistiques (médiane, quartiles …).

38
2) Calcul des caractéristiques de la distribution

21 + 1
Position de la médiane : = 11 il suffit de lire la valeur correspondant au rang 11, q 2 = 65
2
11 + 1
La position du 1er quartile est de = 6 sa valeur de q1 = 60 .La position du 3ème quartile
2
est la 6ème position par ordre décroissant sa valeur est q3=73
Ecart interquartile : EIQ : 73-65 = 8
A coté de ces caractéristiques Tukey propose de rechercher les valeurs dites lointaines et les
valeurs exceptionnelles de la distribution.
Ces valeurs peuvent être soit supérieures au 3ème quartile soit inférieures au 1er quartile.
Définition :
Les valeurs lointaines sont les valeurs qui se trouvent à une distance comprise entre une fois et
demi l’écart interquartile et trois fois cet écart à partir des quartiles.
V L q1 < q 1 − 1 , 5 E I Q et V L q3 > q 3 + 1, 5 E IQ

Définition : Les valeurs exceptionnelles sont celles qui se trouvent à une distance égale à trois
fois l’écart interquartile à partir des quartiles.
VEq1 < q1 − 3 EIQ et VEq3 > q3 + 3 EIQ
D’une façon générale nous pouvons écrire :
VE q < ( q1 − 3 E IQ ) < VL q1 < ( q1 − 1, 5 EIQ )
1

VE q3 > ( q 3 + 3 EIQ ) > VL q3 > ( q 3 + 1, 5 E IQ )

Pour l’exemple des fréquences cardiaque des étudiants les valeurs lointaines seront
60-3x8 <VLq1< 60 -1,5x8 36< VLq1<48
70 +3x8 > VLq3>70+1,5x8 94> VLq3>82
Les valeurs exceptionnelles seraient celles supérieures à 94 et celles inférieures à 36, non
observées dans notre distribution
Remarque : Il est important de rechercher les valeurs lointaines et exceptionnelles dans une
distribution car elles peuvent cacher des informations intéressantes et surtout de trouver une
explication qui peut être une erreur de mesure, de codage, de transcription etc… sinon il faut les
considérer comme des « outliers » selon l’appellation anglaise.

39
3) Le diagramme en boite
Une fois toutes les caractéristiques de la distribution calculée selon la méthode déjà décrite,
Tukey propose de résumer ces informations sur un diagramme dit « diagramme en boite » ou
« box plot » selon les anglo saxons.
Ce diagramme se présente sous forme d’un axe jouant le rôle de repère et qui représente la
variable quantitative analysée. L’unité de l’axe est bien sur celle de la variable en question. Puis
on repère sur cet axe les différentes caractéristiques de la variable. On trace au dessus de cet axe
deux barres verticales à l’aplomb des valeurs de q1 et q3, joindre par la suite les sommets de ce
deux barres de façon à avoir un rectangle (un boite) et repérer par une croix la position de la
médiane à l’intérieur de la boite. Une fois le rectangle construit on tire une horizontale à partir de
q1 jusqu’à la plus petite valeur et de q3 jusqu’à la plus grande valeur. Ainsi on obtient un
diagramme qui a l’allure de « deux moustaches » et certains auteurs l’appelle d’ailleurs
diagramme en moustaches.
Pour la fréquence cardiaque des étudiants le diagramme en boite aura l’aspect suivant :

4) Interprétation d’un diagramme en boite


L’interprétation d’un tel diagramme suppose l’analyse des points suivants :
 Etalement des données vers les valeurs extrêmes
 La concentration des valeurs entre les 1ers et le 3ème quartile
 La symétrie par rapport à la médiane
 Analyser les valeurs lointaines, cette zone ne doit pas comporter plus de 1% des
observations et revoir la validité des valeurs exceptionnelles.

40
STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS

Nous avons appris dans la première partie de ce cours comment nous pouvons décrire une
variable en synthétisant, par des outils appropriés, les données relatives aux modalités de cette
variable. Nous rappelons également qu’une variable est une caractéristique d’une unité statistique
et cette unité peut être décrite par plusieurs variables pouvant être qualitatives et/ou quantitatives.
L’analyse bivariée consiste à reprendre la même démarche que celle de l’analyse uni variée mais
la synthèse des données se fera d’une façon conjointe pour deux variables définie sur une même
population. Le plus souvent nous aurons à décrire en même temps soit les modalités de deux
variables qualitatives, soit les modalités d’une variable qualitative à celles d’une variable
quantitative soit enfin les modalités de deux variables quantitatives.
Les résultats de l’analyse bivariée sont souvent utilisés pour établir des relations entre les
différentes variables de l’étude, objet du cours d’épidémiologie que nous vous recommandons de
consulter.

A) Distribution statistique de deux variables

1) Le tableau de contingence

Y
j=1 j p total
i= 1 n11 n1j n1p nx1

X i ni1 nij nip nxi

k nk1 nkj nkp nxk


total ny1 nyj nyp n

Soit deux variables, X à k modalités et Y à p modalités, définies sur une même population de n
individus, la synthèse simultanée des données relatives à ces deux variables peut se faire à l’aide
d’un tableau dit tableau de contingence ou à double entrée. Ce tableau aura k lignes et p colonnes

41
délimitants k x p cellules. Si on note ki les modalités de la variable X (i=1…k) et pj les modalités
de la variable Y (j=1…p) chaque cellule du tableau, intersection de la ième ligne et la jème colonne,
contiendra le nombre d’unités statistiques nij ayant en même temps la kième et la pjème modalité des
variables X et Y. Le tableau de contingence aura la forme suivante :

Remarque :
Le tableau de contingence reste la meilleure façon de résumer conjointement deux variables
qualitatives ou une variable qualitative et une quantitative notamment quand les données de cette
dernière ont été regroupées en classes. L’étude simultanée de deux variables quantitatives sera
traitée à part.
Exemple 1 : Distribution des catégories majeures de diagnostic (CMD) des personnes âgées de 60
ans et plus selon la nature des hôpitaux (universitaire ou non) de la région sanitaire de Monastir
entre 1993 et 1994.

Nature de l’hôpital Total


Universitaire Non
universitaire
Appareil 1181 796 1977
circulatoire
Tube digestif 954 194 1148
CMD Œil et annexes 778 6 784
Génito-urinaire 552 262 814
Glandes 189 641 830
endocrines
Autres 1751 1705 3456
Total 5405 3604 9009

Dans ce tableau les deux variables décrites conjointement, CMD et nature de l’hôpital, sont deux
variables qualitatives.

42
Exemple 2 : Distribution des mêmes personnes âgées selon le genre et l’âge (regroupés en
classes)

Genre Total
Masculin Féminin
[60-70[ 2415 2385 4800
Age [70-80[ 1869 1326 3195
80 et plus 599 415 1014
Total 4883 4126 9009

2) Effectifs et distributions marginales


L’observation des tableaux déjà établie nous montre la présence d’une ligne « total » et d’une
colonne « total ». Les effectifs au niveau de leurs cellules sont appelés effectifs marginaux de la
variable « CMD » pour la colonne et de la variable « nature de l’hôpital » pour la ligne.
Le contenu de l’ensemble des cellules de la colonne « total » constituent la distribution marginale
de la variable « CMD » celui de la ligne « total » est la distribution marginale de la variable
« nature de l’hôpital »
Un effectif marginal est l’effectif total d’une modalité d’une variable ne tenant pas compte des
modalités de la deuxième variable.
Exemple : 4800 dans le tableau du deuxième exemple et l’effectif marginal de la tranche d’âge
[60-70[, effectif ne tenant pas compte du genre des patients.
La colonne total est la distribution marginale de la variable « age », données regroupée en
classes.

3) Distribution conditionnelle d’une variable


La distribution conditionnelle d’une variable X est l’ensemble des p (xi,yj) couples de valeurs de
cette variable pour un yj fixé. Il y aurait ainsi autant de distributions conditionnelles de X que de
modalités de Y.
On définie de la même façon les distributions conditionnelles de Y en fonction de X.

43
Ainsi chaque colonne du tableau de l’exemple « 1 » (sauf celle du total) les valeurs des
différentes cellules représentent les distributions conditionnelles des « CMD » pour un hôpital
donné. De même chaque ligne (sauf celle du total) représente la distribution conditionnelle d’une
« CMD » dans chaque hôpital.

4) Représentation graphique conjointe de deux variables : Barres empilées


La représentation graphique en barres empilées dite en « tuyaux d’orgue » est la méthode
graphique la plus utilisée pour représenter conjointement deux variables qualitatives ou une
qualitative et l’autre quantitative dont les données ont été groupées en classes. On distingue une
méthode standard et une méthode pour les distributions conditionnelles.
Sur un système de deux axes on portera sur celui des abscisses le plus souvent les modalités de la
variable qualitative. Cet axe est uniquement indicatif. Sur l’axe des ordonnées les effectifs ou les
proportions de la deuxième variable. Pour un diagramme standard il y aura autant de barres que
de modalités de la variable qualitative mise en abscisse. Chaque barre est la superposition de
rectangles de bases égales mais de hauteurs proportionnelles aux effectifs conjoints des deux
variables. L’axe des ordonnées et un axe mathématique, l’unité est soit les effectifs ou les
proportions. Les modalités de la deuxième variable seront reprises dans la légende du diagramme.
La représentation graphique du tableau de la distribution des CMD en fonction de la nature de
l’hôpital sera ainsi :

6000
5000
4000
3000
2000
1000
0
CHU HR

A.C T.D O.A G.U G.E Autres

44
Une variante du diagramme standard consiste à représenter pour chaque modalité de la variable
en abscisses une barre faite de la superposition de rectangles de bases égales mais de hauteurs
proportionnelles aux distributions conditionnelles des modalités de la deuxième variable. La
hauteur de chaque barre représente 100%.

100%

80%

60%

40%

20%

0%

A.C T.D O.A G.U G.E Autres

Représentation graphique de la distribution conditionnelle des CMD pour chaque catégorie


d’hôpital

5) Autre représentation graphique


Nous avons déjà décrit dans la partie des statistiques descriptives à une dimension la
représentation graphique dite diagramme en boite pour résumer graphiquement une variable
quantitative. Cette représentation peut également être utilisée pour résumer conjointement deux
variables dont l’une est quantitative et l’autre qualitative.
Pour la construction d’un diagramme en boite nous avons besoin de connaître les différents
quartiles les valeurs lointaines et exceptionnelles et la valeur minimale et maximale de la variable
quantitative et ce pour chaque modalité de la variable qualitative.

45
exemple
On s’intéresse à la distribution de la tension artérielle systolique dans une population faite de
fumeur et de non fumeur. Les deux variables d’intérêt sont le statut de l’individu (tabagique ou
non) qui est une variable qualitative et la valeur de la tension artérielle systolique pour chaque
individu qui est une variable quantitative.
Statut TA systolique (mm Hg)
Fumeur 110 120 125 130 140 140 150 160 165 170
Non fumeur 85 90 95 110 120 130 140 150 155 160

Fumeur :
n=10 Q1=125, Q2= 140 Q3=160
Non fumeur
N= 10 Q1= 95, Q2=120 Q3= 150

80 90 100 110 120 130 140 150 160 170

Diagramme en boite de la distribution de la tension artérielle systolique chez les fumeurs et les
non fumeurs.
Interprétation
Cette figure montre une distribution des mesures de la TA systolique symétrique chez les
fumeurs (en rouge) et chez les non fumeurs (en vert) autour des médianes. les valeurs extrêmes

46
inférieures est supérieures sont plus faibles chez les fumeurs que chez les non fumeurs.
Cependant l’écart interquartile est plus important chez les non fumeurs (50 mm Hg ).
B) Distribution statistique de deux variables quantitatives : corrélation et régression
linéaire

Etudier conjointement deux variables quantitatives implique la recherche d’une relation


mathématique entre ces deux variables. Cette relation se matérialise par une fonction
mathématique permettant d’utiliser une variable pour prédire l’autre. Nous parlerons alors de
variable dépendante et de variable indépendante.
Pour l’histoire la première équation mathématique entre deux variables quantitatives est
certainement celle découverte par Sir Francis Galton qui a étudié la relation entre la taille des
parents et celles de leurs enfants et qui conclue: des parents de grande taille auront en moyenne
des enfants de grande taille, il a réalisé une régression par rapport à la moyenne.
Par ailleurs on parlera de régression quand le but est de trouver une équation mathématique entre
les deux variables et de corrélation quand on veut étudier la relation entre ces deux variables
c'est-à-dire quand on veut prédire la variable dépendante en fonction de la variable indépendante,
ce qui ne change rien dans l’approche purement mathématique.
D’autre part nous étudierons dans ce chapitre que la situation où une éventuelle relation linéaire
existe entre les deux variables d’où l’importance et avant de se lancer dans des calculs
mathématiques vérifier au préalable cette linéarité par au moins un graphique de deux axes
orthogonaux la dispersion des deux variables.

1) Equation d’une droite


Nous rappelons que l’équation d’une droite s’écrit sous la forme :

y = b x + a et deux points définissent une droite.


Dans l’équation ci dessus b est la pente de la droite et a une constante.
Supposons maintenant que les points A et B définissent une droite d et de coordonnées respectifs,
(x0, y0), (x1, y1), la pente de la droite sera y1 − y 0 soit la variation de y sur la
b =
x1 − x0
variation de x. La valeur de a se calcule facilement en appliquant les termes de cette équation au
point A ou B.

47
<Exemple> : soit deux points A et B de coordonnées respectifs (1,1) et (3,3), la pente de cette
droite sera 3 − 1 , la pente est positive, et en appliquant les termes de cette équation
b = = 1
3 − 1

pour le point B par exemple on aura :

3 = 1 × 3 + a  a = 0 . L’équation de la droite passant les points A et B est y = x


Exemple

Représentation graphique de la droite


y=x

0
0 1 2 3 4

Autre exemple :
Cherchons l’équation de la droite qui passent par les points A (-3, 3) et B (2,1) et traçons cette
droite.

, la pente de cette droite est négative et l’équation est sous la


1− 3
b = = − 2 = −0, 4
2 − (− 3) 5

forme y = -0,4x + a, appliquons les termes de cette équation au point A par exemple nous
pouvons écrire

3 = −0, 4 × ( −3) + a  a = 1,8 et l’équation de la droite qui passe par les points A et B
s’écrit y = −0, 4x + 1,8 .

48
Sa représentation graphique se présente ainsi :

0
-4 -2 0 2 4 6 8
-1

-2

2) Equation des moindres carrés

En réalité dans les sciences biologiques les couples de valeurs des variables quantitatives
n’obéissent exactement à une loi mathématique préétablie qu’exceptionnellement.
Exemple :
Le poids à la naissance de 3 nouveaux nés en fonction de l’âge gestationnel se présente
ainsi (registre des naissances 2002):

Age gestationnel: (semaines) Poids du nouveau né (grammes)


37 3000
38 2900
39 3650

49
38
Poids de naissace en grammes

36

34
(x100)

32

30

28
36 37 38 39 40

Age gestationnel (semaines)

Sur ce graphique nous pouvons tracer 3 droites passant chacune par deux points comme le
montre la figure ci dessous.
La droite passant les points de coordonnées (37,3000) et (38,2800) aura comme équation :
y = −200 x + 6800
La droite passant par les points (37,3000) et (39,3650) aura comme équation : y = 325 x − 9025
La droite passant par les points (38,2000) et (39,3650) aura comme équation :
y = 1650 x − 60700
Poids de naissance en grammes (X100)
40

38

36

34

32

30

28
36 37 38 39 40

Semaines

50
Ainsi on se demande alors quelle équation choisir pour mieux estimer le poids de naissance en
fonction de l’âge gestationnel ? La réponse nous est suggérée par la figure suivante où nous
avons glissé une droite passant entre les trois points de tel sorte à rendre minimum le carré des
écarts des différentes mesures de la variable dépendante (ici le poids à la naissance) par rapport à
celles qui seraient théoriquement calculées en utilisant l’équation de cette droite.
Cette droite est alors appelée droite des moindres carrés

2
36 37 38 39 40

3) Calcul des coefficients de cette droite

Nous rappelons que l’équation d’une droite est de la forme y = bx + a, où « b » est la pente de la
droite et « a » une constante. Il nous faut alors déterminer « b » et « a ».
Nous constatons par ailleurs qu’avec cette droite nous allons avoir, en supposant que les
différentes valeurs xi sont mesurées sans erreurs, pour chaque xi une valeur yi observée et une
valeur notée ŷi (yi chapeau) calculée selon l’équation de la droite soit un écart noté ei entre la
courbe et les valeurs observées, cette différence est positive ou négative. Pour chaque yi nous
pouvons écrire y i = yˆ i + e i  y i = b x i + a + e i et e i = y i − b x i − a .
La droite recherchée est celle qui rend minimum la somme des carrées de ces écarts. On
démontre également que cette droite passe un point G, appelé centre de gravité du nuage des
points et a comme coordonnées ( X ,Y ) moyennes arithmétiques des xi et yi des valeurs

observées.
Pour retrouver les paramètres « a » et « b » on doit résoudre le système

51
n n

i =1
yi = n a + b  xi
i =1
n n n

i =1
x i y i = a  x i + b  x i2
i =1 i =1

Dans ce système d’équation les seules inconnus sont « a » et « b » d’où

n
1  n
 n


i =1
xi yi −
n 

i =1
xi  

 i=1
yi 

b = 2
n
1  n

i=1
 n 
x i2 − 
i=1
xi 

b peut s’écrire également :

 (x i − X )( y i − Y )
b = i=1
n
en divisant le numérateur et le dénominateur par n on aura
 i=1
( xi − X ) 2

cov ( x , y )
b=
var ( x )

Une fois « b » calculée nous pouvons calculer « a » en utilisant la propriété de la droite des

moindres carrés qui passe par le point G ( X , Y ) soit Y = bX + a  a = Y − bX .

4) Le coefficient de corrélation

En fait pour juger de la relation entre deux variables quantitatives on utilise le coefficient de
corrélation noté ρ quand il est calculé sur une population ou r quand il s’agit d’échantillon et
σ x . On peut démontrer après remplacement des écarts types σx et σy par leur
r = b
σ y

n
formule que r =
cov(xy ) soit 
i =1
( xi − X )( yi − Y ) ainsi le
var x × var y r = n n

i =1
( xi − X )2  ( yi − Y )2
i =1

coefficient de corrélation est sans unité et varie entre -1 et 1. Sa valeur nous renseigne sur le
degré de relation linéaire entre les 2 variables. Cette relation est forte si ‫׀‬r‫ ׀‬est ≥ à 0,75 entre 0,5
et 0,75 la relation linéaire est modérée inférieure à 0,5 elle est faible.

52
Inférences statistiques et tests d’hypothèses
I) Les principales lois de probabilité en biostatistique

Préambule

Un des objectifs de la recherche dans le domaine des sciences biomédicales, est de pouvoir
estimer un paramètre dans une population et/ou trouver des explications pour un évènement à
travers la recherche de relations entre les différentes variables. Or il est impossible au chercheur
de pouvoir disposer de toute la population pour pouvoir tirer des conclusions valides. Il n’aura à
sa disposition qu’une partie de cette population qu’on appellera échantillon à partir duquel il va
extrapoler les résultats observés à la population générale. Pour pouvoir le faire l’échantillon doit
répondre à deux qualités, il doit être aléatoire (tiré au hasard) et de taille suffisante. Dans ce
chapitre nous allons décrire les principales méthodes utilisées pour faire l’inférence des résultats
observés sur un échantillon à la population d’où a été tiré cet échantillon.
A) Rappel de probabilité

L’étude des probabilités est l’étude des phénomènes aléatoires, phénomènes dont la réalisation ne
dépend que du hasard. Il est erroné de croire que le hasard n’est pas soumis à des lois et c’est
justement ces lois que nous allons utiliser pour faire les extrapolations des résultats observés sur
des échantillons tirés au hasard (aléatoire) d’une population à cette population d’origine dite
population mère.

1) Définition de la probabilité
La probabilité d’un évènement A dont la réalisation ne dépend que du hasard (évènement
aléatoire) à l’issu de n essais équiprobables est le rapport du nombre total de réalisation de A dit
essais favorables équiprobables sur le nombre total des essais équiprobables.

Exemple : Jetons une pièce de monnaie parfaitement équilibrée. La pièce de monnaie n’a que
deux faces, les issues possibles après un jet sont au nombre de deux soit pile soit face. Nous
avons une chance sur deux d’obtenir pile ou d’obtenir face. Si nous répétons dans les mêmes
conditions cette expérience n fois (n → ∞) et supposons que l’issue favorable (A) est obtenir pile

53
a
et a fois cette issue, on peut s’attendre à avoir = 0 , 5 . D’où la probabilité d’obtenir pile à
n
l’issue de cette expérience notée P (A) = fréquence relative de pile quand n=∞.

En d’autre terme a nombre d’issues favorables sur le nombre total des issues.
P (A) =
n
<Remarque>
P(A) est un nombre compris entre 0 et 1, P(A)=1 évènement certain, P(A) )=0 évènement
impossible.
L’évènement contraire (obtenir face dans l’expérience précédente) sera noté A et
P ( A ) = 1 − P ( A) <Remarque/>

2) Espace échantillonnal et évènement


Un espace échantillonnal est l’ensemble des issues d’une expérience, il est noté S dans la théorie
des ensembles. Cet ensemble se défini par les éléments qui le constituent.
<Exemple>
Pour un jet de dé, l’espace échantillonnal (appelé également univers) peut être les numéros
inscrits sur chaque face S = {1, 2, 3, 4, 5, 6 } on peut définir le sous ensemble A numéros impairs
A= {1,3,5}. A peut également être l’évènement « obtenir un nombre impair ».
3) Opérations sur les probabilités : (UL 4)
Exemple « classique » le jeu de cartes : un jeu de cartes comprend toujours 2 couleurs (noire et
rouge). Les cartes noires sont pique ou trèfle et les cartes rouges carré ou cœur. Dans tous les cas,
il y a 3 figures : valet, dame ou roi. Le reste des cartes porte un numéro qui se répète pour les
quatre possibilités. Il y a autant de cartes noires que rouges et autant pour chaque figure. Les jeux
de cartes peuvent être de 32, 40 ou 52 cartes.
Le tableau suivant résume la situation pour un jeu de 32 cartes :

As Roi Dame Valet 10 9 8 7





54
A partir de ce jeu quelle est la probabilité de tirer :
1. le sept carreau
2. un as
3. une carte cœur
4. une carte noire
5. tirer un roi de couleur rouge ou une carte noire
6. un as ou une carte rouge
7. successivement deux cartes; une noire et le roi cœur dans un tirage sans remise.
8. même opération que la précédente mais la première carte a été remise au préalable
avant de tirer la deuxième.

1 = 1/32
2 = 4/32
3 = 8/32
4 = 16/32
5= 2/32 + 16/32 soit 0,56.
6= 4/32 + 16/32 – 2/32 = 18/32 soit 0,56
7= 16/32x1/31 +1/32x16/31 soit 0,03.
8=16/32x1/32 + 1/32x16/32 soit 32/1024=0,03
Pour la 6éme proposition nous avons retranché 2/32 qui est la probabilité de tirer un as rouge,
ceci a été rendu nécessaire sinon on aurait compté deux fois les as rouge.
Le diagramme suivant dit diagramme de Venn explique la situation :

Le rectangle noir est l’ensemble échantillonnal (toutes les cartes), la grande ellipse rouge est le
sous ensemble cartes rouges et la petite représente les 4 as. Ces deux ellipses ont une partie
commune (les deux as rouges) partie hachurée de ce diagramme qu’il faut retrancher du calcul de
la probabilité.

55
Quand à la 5ème proposition (diagramme suivant) tirer le roi de couleur rouge (cercle) ou une
carte noire (ellipse) sont deux évènements mutuellement exclusifs

Ainsi nous pouvons énoncer le théorème suivant


P (A ∪ B ) = P (A) + P (B ) − P (A ∩ B )

Si les deux évènements A et B sont mutuellement exclusifs A∩B= Ø


Dans les exemples 7 et 8 la situation est différente. Le résultat de la deuxième carte tirée est
conditionné par le premier tirage. Nous avons ici un résultat conditionné par le résultat précédent
et deux cas se présentent : un avec remise de la première carte tirée et l’autre sans remise. Dans le
premier cas nous parlerons d’évènements indépendants dans le second d’évènements dépendants.
Définitions : Deux évènements sont indépendants si la réalisation de l’un n’affecte pas celle de
l’autre.
P(A et B)=P(A).P(B)

Si les deux évènements sont dépendants P (A et B) = P(A).P(B/A)


(B/A) se lit B sachant A.
Remarque : deux évènements indépendants peuvent s’observer au même moment par contre deux
évènements mutuellement exclusifs ne peuvent l’être.
Exemple
Deux phénomènes indépendants : une personne peut avoir une maladie diabète par exemple
(évènement A) cette même personne peut avoir une grippe (évènement B) s’il est en contact avec
le virus et s’il n’était pas vacciné au préalable. Les deux évènements A et B sont deux
évènements indépendants mais nous pouvons trouver dans la population une personne qui est à la
fois diabétique et ayant une grippe.

56
Par contre deux évènements A et B sont mutuellement exclusifs, situation très fréquente en
médecine, sont deux évènements qui ne peuvent se voir au même moment exemple les statuts
malade (A) et non malade (B) ne peuvent pas être observés chez un même individu, alors que P
(A ou B) est P(A) + P(B).
Les évènements dépendants en biologie se voient dans les situations où nous apportons un
jugement sur une situation donnée. Le diagnostic d’une maladie est toujours posé sur des
probabilités conditionnelles en situation de dépendance. Le raisonnement « involontaire » du
praticien est de se poser la question : quelle est la probabilité que mon patient a le problème de
santé « A » sachant qu’il a par exemple le symptôme « B » ?
</Exemple>

4) Le théorème de Bayes
Si deux évènements sont mutuellement exclusifs (malade, non malade) notés A et Ā et un test
noté B s’il est positif en cas de maladie ou B s’il est négatif et si on connaît par ailleurs la
prévalence de la maladie (probabilité d’avoir la maladie) et la fréquence de positivité du test en
cas de maladie (probabilité d’avoir un test positif quand on a la maladie) ainsi que la probabilité
d’avoir un test positif quand on n’a pas la maladie (faux positifs), nous pouvons calculer la
probabilité d’avoir la maladie sachant que le test est positif. C’est d’ailleurs la situation dans
laquelle travaille toujours un médecin en posant ses diagnostics il va se demander « d’une façon
inconsciente) quelle est la probabilité que mon patient a une maladie M sachant qu’il a tel signe
ou tel examen positif.
D’où nous pouvons écrire le théorème suivant dit théorème de Bayes:
P ( A) P ( B / A)
P( A / B) = et vous pouvez reconnaître dans cette formule la
P ( A) P ( B / A) + P ( A ) P ( B / A )
notion de valeur prédictive positive d’un test ou d’un symptôme (voir cours épidémiologie )
Exemple :
La prévalence du diabète dans une population d’adultes est de 10%. La polyurie est un signe
présent chez 90% des malades et que 10% de la population se plaigne de polyurie. Quelle est la
probabilité pour qu’un patient qui se plaint à son médecin traitant de polyurie présente un
diabète ?

57
Pour simplifier la solution posons M+ (maladie présent) M- (maladie absente) et S+ (signe
présent) et S- (signe absent) dressons le tableau suivant :

M+ M- total
S+ 9 1 10

S- 1 89 90
total 10 90 100

P(M + )P(S + / M + )
Soit P ( M + / S + ) =
P(M + ) P(S + / M + ) + P(M − ) P(S + / M − )

0,1×0,9
P(M + / S + ) = = 0,9 ; résultat prévisible sur la première ligne du tableau en
0,1× 0,9 + 0,9×0,01
+ 9
calculant la valeur prédictive positive du test soit : P ( M / S+) = = 0, 9
10
B) Distribution de probabilité
1) Fréquences relatives et probabilité
Reprenons l’exemple de la distribution de la parité des femmes qui ont accouché à la maternité
du CHU Fattouma Bourguiba de Monastir en 2002 (voir statistiques descriptives). La colonne
des fréquences peut être assimilée à la distribution de probabilités de la variable parité qui a dans
ce cas 10 modalités. Ainsi la probabilité d’observer une femme de parité 2 est égale à 27,6%.

58
Parité (vi ) Effectifs (ni ) Fréquences Fréquences cumulées
ni /n (%)=pi (%)
1 2210 32,1 32,1
2 1903 27,6 59,7
3 1457 21,1 80,8
4 786 11,4 92,2
5 342 5 97,2
6 116 1,7 98,9
7 46 0,7 99,5
8 18 0,3 99,8
9 9 0,1 99,9
10 6 0,1 100
Total (n) 6893 100

2) Moyenne et variance d’une distribution de probabilité


Cette distribution de probabilité a une moyenne μ et un écart type σ. La moyenne μ est ∑ vi pi et
2
l’écart type σ = Σ ( vi − µ ) pi Exemple : la parité moyenne µ serait

µ = 1x 0.32 +2x 0.276+….+10 x 0.1≈ 2.4 résultat identique à celui de la page 30.

C) La loi binomiale
Rappel
La loi binomiale est un cas particulier d’une distribution de probabilité où la variable d’intérêt n’a
que deux modalités.
Supposons qu’un sac contient 3 boules rouges et 7 boules noires. On s’intéresse à la probabilité
de tirer des boules rouges quand on répète le tirage plusieurs fois et après avoir remis les boules
dans le sac avant le tirage suivant. Pour simplifier l’écriture nous utiliserons la lettre « R » pour
une boule rouge tirée et la lettre « N » pour une boule noire tirée.
a) résultat d’un seul tirage deux possibilités

59
N: 0,7
R: 0,3
la somme est égale à 1 et on peut écrire ( 0,3 + 0,7)1 =1
b) deux tirages 4 possibilités
NN : 0,7 x 0,7 soit 0,72
NR ou R N : 0,3x0,7 + 0,7x0, 3 soit 2x0,3x0,7
RR : 0,3x0,3
au total 0,32 +2x0,3x0,7 +0,72 =1 soit (0,3 + 0,7) 2 =1
c) trois tirages huit possibilités
NNN : 0,73
RNN ou NRN ou NNR 3 (0,3 x 0,7x0,7) soit 3x0,3x0,72
RRN ou RNR ou NRR soit 3(0,3x0,3x0,7)
RRR 0,33
Nous trouvons également 0,33 + 3x0,3x0,72+3x0,32x0,7+0,73=1
soit (0,3 + 0,7)3=1
Si nous continuons cette opération n fois nous aurons le développement du monôme (a+b)n qui
nous donne :
n
(a + b ) = C nn a n b 0 + C nn − 1 a n − 1 b + C nn − 2 a n − 2 b 2 + ... + C n1 a b n − 1 + C n0 a 0 b n
nous rappelons que

C k
=
n ! et il est utile de savoir que C n0 = C nn = 1 et C nk = C nn − k
n
k ! (n − k )!
le premier terme du développement C n a n b 0 = a n et le dernier C n0 a 0 b n = b n
n

Ainsi la probabilité P(x) d’avoir k succès dans une expérience répétée n fois pour un évènement
qui a une probabilité p de se produire, {(1-p)=q de ne pas se produire} est donnée par la formule
k k n − k
P (x = k ) = C n p q

60
Important :
L’application de la loi binomiale suppose 3 conditions :
• variable dichotomique
• évènements indépendants
• expérience répétée plusieurs fois
Ainsi:
Si V est une variable dichotomique (maladie présente ou absente), X la modalité d’intérêt
(maladie présente), k le nombre de malade observé dans un échantillon de taille n et p probabilité
de tirer un malade (q=1-p), la probabilité d’observer cet échantillon est donnée par :

P ( X = k ) = C nk p k q n − k
Remarque :
La loi binomiale est caractérisée par deux paramètres :
- La taille n de l’échantillon
- La probabilité p de connaître l’évènement
La loi binomiale est souvent notée B (n,p)

2) Exemple d’application de la loi binomiale


Les études faites en Tunisie trouvent que le tabagisme en 1994 touche environ 60% [p = 0,6 et q
= (1-p)= 0,4] de la population masculine de plus de 15 ans. On tire un échantillon aléatoire de
20 personnes.
a) Quelle est la probabilité de trouver 8 fumeurs dans cet échantillon ?
b) Cette opération a été faite dans 300 agglomérations (un échantillon par agglomération),
combien d’échantillons de 20 individus contiendraient 8 fumeurs ?
Réponse
a) P ( X = 8 ) = C 8
20 0 , 6 80 , 412 = 0 , 0 3 6

b) n = 0, 036 × 300 = 10,8 ≈ 11 échantillons

61
2) Moyenne et variance de la loi binomiale
Nous rappelons que la moyenne d’une variable de Bernouilli est p probabilité d’observer la
modalité qui nous intéresse (voir statistique descriptive). Supposons maintenant qu’on fait n
tirages indépendants dans cette population, nous obtenons une nouvelle distribution de
probabilités avec à chaque tirage une probabilité p d’avoir une issue favorable, la moyenne de
cette distribution devient np.
Revenons à l’exemple des boules rouges et noires du paragraphe précédent. On s’intéresse à la
probabilité de tirer des boules rouges dans 100 tirages indépendants. Nous rappelons que la
probabilité de tirer une boule rouge est de 0,3 le nombre moyen de boules rouges que nous
pouvons tirer dans ce cas est de 30 (np =100 X 0,3), comme si chaque tirage constitue une
« expérience » à part.
En appliquant la formule de l’espérance mathématique et si on avait au préalable codé « tirer une
boule rouge » = 1 sinon = 0 . Appliquons la formule de la moyenne n
µ = 
i = 1
X i p ( X i )

Soit µ = 1 0 0 (1 × 0 , 3 + 0 × 0 , 7 )
La variance se calcule également en utilisant l’espérance mathématique :
σ X = n p q nous rappelons que la variance d’une variable de Bernouilli est égale à pq (cours
statistique descriptive), si l’expérience se répète dans les mêmes conditions n fois la variance sera
la somme des variances de chaque expérience soit npq.

C) La loi de Poisson
1) Conditions d’application
La loi de Poisson est également une loi de probabilité simplifiant la loi binomiale, qui et comme
nous pouvons l’attendre devient difficile à calculer à moins qu’on dispose d’outils de calcul très
performants. Un économiste au nom de Siméon-Denis Poisson a démontré que :

−λ λk
P(X = k) = C p q k
n
k n−k
tend vers e (avec λ=np, n taille de l’échantillon et p
k!
probabilité d’observer un cas) quand n tend vers l’infini (devient très grand) et k tend vers une
constante (k petit).

62
S’agissant par ailleurs d’une approximation de la loi binomiale, les autres conditions de
l’application de cette loi doivent être respectées.
2) Applications de la loi de Poisson
Le décès maternels (décès de femme due la grossesse ou à l’accouchement) est de l’ordre de 7
pour 100000 naissances vivantes dans les pays développés. Quelle est la probabilité d’observer
seulement 5 décès maternels au cours d’une année? (p≈0.15).
D) La loi normale

C’est la loi de probabilité la plus utilisée dans les statistiques de la science de la vie. Elle
s’applique à une variable quantitative continue.

1) Rappel de la distribution d’une variable quantitative continue

Nous avons dans la partie consacrée aux statistiques descriptives que la représentation graphique
d’une variable continue n’était possible qu’après avoir regroupé les modalités de cette variable en
classe et ainsi nous pouvons tracer un histogramme et la surface de chaque rectangle représente
l’importance d’une classe par rapport à une autre.

Reprenons l’exemple de la distribution du poids des nouveaux nés de Monastir en 2002 (données
réelles)

Poids en g (classes) Effectifs Fréquences relatives (%) Fréquences cumulées


(%)
[300-800[ 12 0,2 0,2
[800-1300[ 36 0,5 0,7
[1300-1800[ 50 0,7 1,4
[1800-2300[ 142 2,1 3,5
[2300-2800[ 539 7,8 11,3
[2800-3300[ 2061 29,9 41,2
[3300-3800[ 2560 37,1 78,3
[3800-4300[ 1185 17,2 95,5
[4300-4800[ 263 3,8 99,3
[4800-5300[ 45 0,6 100
Total 6893 100

63
La colonne des fréquences relatives n’est autre que la distribution des probabilités des
différentes classes des mesures de poids des nouveaux nés. Par exemple si on tire au hasard un
nouveau né la probabilité que son poids soit compris entre 2300 grammes et 2800 grammes est
de 0,078 ou 7,8%.

La colonne des fréquences cumulées représente elle la probabilité d’observer des mesures
inférieures ou égales à une proportion donnée. Elle représente une distribution de probabilité
cumulée encore appelée fonction de répartition.

3000

2500

2000
Effectifs 1500

1000

500

0
Poids (classes de 500g)

Si nous traçons le polygone des fréquences, ce dernier à une forme particulière dite en cloche,
forme le plus souvent retrouvée dans la représentation graphique des variables quantitatives
continues. De plus la surface sous la courbe est égale à la surface de l’histogramme déjà
représenté et est égale à « 1 » et si la variable est continue, cette surface représente la densité de
probabilité de la variable étudiée. Nous savons par ailleurs que pour retrouver une surface sous
une courbe il faut avoir l’équation de cette courbe et résoudre son intégrale entre les bornes
souhaitées, limites de la surface recherchée.
La fonction de cette densité de probabilité a été établie par Laplace-Gauss et la courbe en cloche
est appelée courbe de Gauss ou distribution normale. Cette fonction est

64
2
−1
 x−µ 
1 2 σ 
f ( x) = e 
avec μ moyenne de la variable ayant pour modalités les xi et σ
σ 2π
écart type de cette distribution.
Si nous nous intéressons maintenant à la représentation graphique des fréquences cumulées cette
représentation aura la forme suivante :

100

50

En prenant sur l’axe des abscisses la borne supérieure de la classe et en ordonnées la fréquence
cumulée correspondante nous pouvons répondre à la question de la probabilité d’observer un
poids inférieur ou supérieur à une valeur donnée ou un poids compris entre deux valeurs. Cette
a
probabilité n’est rien d’autre que la solution de  −∞
f ( x ) d ( x ) pour des valeurs < à a ou

b
 a
f ( x )d ( x ) pour des mesure comprise entre a et b, la distribution des fréquences cumulées

est également appelée fonction de répartition.

Exemple :

0
0 1 2 3 4 5 6

65
Le bord supérieur du rectangle rouge peut être considérée comme un segment de la droite f(x)=3
(système d’axes orthonormés).
Une primitive de cette fonction est F(x)=3x, la surface du rectangle peut être obtenue par
4
2 f ( x ) d ( x ) = F 4 − F 2 = 12 − 6 = 6 résultat attendu si on avait fait le produit base * hauteur soit

2X3=6

2) Propriétés de la loi normale


Ainsi il y a une infinité de courbes normales, cependant si nous faisons la transformation
x−µ
z= nous obtenons une seule courbe dite courbe normale centrée et nous connaissons
σ
(voir statistiques descriptives) que la moyenne de cette variable est nulle et son écart type est égal

1 − 12 Z 2
à un. La densité de probabilité de cette variable sera f ( z ) = e et sa représentation

graphique est de la forme suivante.

0,25

0
-4 -3 -2 -1 0 1 2 3 4

Toutes les courbes normales sont symétriques autour de la moyenne (zéro pour la centrée réduite)
et 68% de la surface sous la courbe est comprise entre moins un écart type et plus un écart type
de même 95% de cette surface est comprise entre -1,96 et +1,96 écart type. Cette surface qui
comme nous l’avons dit représente la densité de probabilité pour que z soit inférieure à une valeur
donnée ou comprise entre deux valeurs.

66
a
Les solutions de f ( z ) d ( z ) figurent dans des tables dites tables des écarts réduits. Nous
− ∞
savons déjà que la probabilité pour que -1,96 < z <+1,96 = 95%, la courbe étant symétrique
autour de zéro nous pouvons déduire la probabilité pour de z < -1,96 = 2,5%. En d’autres termes
2,5% de la surface sous la courbe se trouve en deçà de z = -1,96 et la même quantité au delà z =
1,96.

Quand est il de la densité de probabilité pour z = a ? La solution peut se retrouver en appliquant


ce que nous savons déjà sur la surface sous la courbe par la méthode de l’intégrale soit
a
 a
f ( z ) d ( z ) = Fa − Fa = 0 . La surface est bien sure nulle et la probabilité d’observer une valeur

exactement égale à « a » est nulle.


Ainsi [ p(z ≤ a)=p(z<a)+p(z=a)] le deuxième terme de cette somme est nul les probabilités pour
que z<a ou z ≤ a sont identiques.

0,5

La courbe de la fonction de répartition de la loi normale est une courbe en S allongé.

67
II) LES INFERENCES STATISTIQUES

Préambule
Dans le domaine de la biologie un résultat observé sur un échantillon si intéressant soit il posera
toujours la question de sa validité externe c'est-à-dire est ce que ce résultat décrit la réalité ou
non. D’une façon générale une étude analytique ou expérimentale sert soit à estimer un paramètre
dans une population à partir de la statistique calculée sur l’échantillon et/ou à porter un jugement
sur un résultat observé sur l’échantillon. Faire une inférence statistique consiste à extrapoler le
résultat observé sur l’échantillon à la population d’où a été tiré cet échantillon. Cette
extrapolation peut se faire, par les intervalles de confiances, les tests d’hypothèses ou la méthode
de maximum de vraisemblance (cette dernière ne sera pas étudiée dans ce cadre).
Dans ce qui va suivre nous utiliserons les lettres grecques pour les paramètres de la population et
les lettres latines pour les statistiques calculées sur les échantillons.

A) Les fluctuations d’échantillonnages


1) Distribution des moyennes d’échantillons
Soit une variable quantitative observée sur une population (P) de moyenne μ et d’écart type = σ.
De cette population nous tirons des échantillons indépendants de grande taille (n ≥ 30) et on
calcule à chaque fois la moyenne arithmétique et l’écart type de cette variable sur les
échantillons. Il est évident que nous trouvons des moyennes différentes d’un échantillon à un
autre. Nous obtenons ainsi une nouvelle distribution des moyennes de cette variable. Les
caractéristiques de cette distribution sont résumées par le théorème suivant.

2) Théorème limite central


Ce théorème s’énonce de la façon suivante :
- La distribution des moyennes d’échantillonnage suit toujours une loi normale, même si la
variable n’est pas normalement distribuée dans la population d’origine. On dira que la
distribution d’échantillonnage est asymptotiquement normale.

68
- La moyenne µX de la distribution des moyennes est la moyenne μ de la variable dans la

population (P)

- L’écart type de la distribution des moyennes est : σ X = σ N −n , σ écart type de la


n N −1

variable dans la population (P), N taille de la population et n taille de l’échantillon.


Si la population est infinie (suffisamment grande) ou en cas de tirage non exhaustif (avec

remise) N −n et l’écart type de la distribution des moyennes d’échantillonnage est


≈1
N −1

σX =σ
n
Illustration :
A travers l’exemple suivant nous allons démontrer les deux premiers points du théorème limite
central :
Exemple : 4 étudiants passent un examen, leur note se présente ainsi « 4, 8, 12 et 20 ».
Considérons ces quatre étudiants comme une population. La moyenne et l’écart type de la

variable note dans la population sont respectivement µ = 11 et σ = 140 4 = 35 , le nombre

d’échantillons aléatoires de taille = 2 que nous pouvons former par un tirage non exhaustif (avec
remise) est 16.

(4 - 4) (8 -4) (12-4) (20-4)


(4 - 8) (8- 8) (12 -8) (20- 8)
(4 - 12) (8-12) (12- 12) (20-12)
(4 - 20) (8- 20) (12-20) (20- 20)
Le tableau suivant résume la distribution des moyennes de chaque échantillon
X 4 6 8 10 12 14 16 18
fréquences 1 2 3 2 3 2 2 1

Nous obtenons ainsi une nouvelle distribution des moyennes des échantillons,
Calculons sa moyenne X et son écart type σ X i

69
X = 11 (Moyenne des moyennes est la vraie moyenne de la population)

σ X = 280 16 = 35 2 ce résultat n’est rien d’autre que σ .


i
n

3) Cas d’une variable qualitative


Le théorème limite central s’étend au cas d’une variable qualitative et dans ce cas nous nous
intéresserons à la fréquence π d’un évènement dans une population (P) de taille N. On tire des
échantillons indépendants de cette population de taille n. Nous obtiendrons une distribution de
proportions calculées sur les échantillons. Dans ce cas également la distribution des proportions
suit une loi normale, la moyenne des proportions est la vraie proportion π de la variable dans la

population d’origine et l’écart type de la distribution des proportions est (1 − π )π avec n


n

taille de l’échantillon.

4) Cas d’une différence de moyennes


Revenons au cas d’une variable quantitative mais nous nous intéressons à sa distribution dans
deux populations différentes par exemple la taille chez les hommes et chez les femmes. Les
paramètres moyennes et variances, de la variable taille, calculés sur ces deux populations seraient
différents.
Appelons µ a la moyenne calculée sur la population masculine, σa l’écart type de et µ b moyenne
sur la population féminine σb l’écart type de la variable taille. Supposons que nous calculons
toutes les différences possibles entre les tailles des hommes et des femmes nous obtenons une
nouvelle distribution des différences et aura comme moyenne Δ = µ a - µ b la différence des
moyennes de la variable calculées chez les hommes et chez les femmes et l’écart type
σ = (σ 2
a )
+ σ b2 .

Supposons maintenant que nous tirons des échantillons de taille na et nb suffisamment grande
(≥30) de chacune de ces populations et nous calculons à chaque fois la différence de la
statistique moyenne de la variable taille calculée sur ces échantillons. Nous obtenons une

70
nouvelle distribution de différences de moyennes notée di, les différentes di vont fluctuer
autour de Δ et le théorème de la limite centrale s’énonce ainsi :

• La distribution des différences de moyennes est toujours normales


• La moyenne de la distribution de différences de moyennes est égale à Δ
• L’écart type de la distribution des différences des moyennes est :

 σ a2 σ2
σd =  + b 
 na nb 

B) Les intervalles de confiances


Comme nous l’avons déjà annoncé, les intervalles de confiances permettent d’extrapoler les
résultats observés sur un échantillon à la population d’où a été tiré cet échantillon. Les intervalles
de confiance répondent à la question où se trouve la valeur du paramètre de la variable qui nous
intéresse. Ils jouent le rôle d’estimateurs du paramètre.

1) Intervalle de confiance autour d’une moyenne


Le théorème limite centrale stipule que les moyennes observées sur des échantillons de taille
suffisamment grande (n > 30) suivent toujours une loi normale de moyenne μ et d’écart type
σ . Notons X la moyenne de la variable qui nous intéresse calculée sur un échantillon.
n
Celle-ci appartient à une distribution de moyenne et nous pouvons la transformer en variable
centrée réduite et écrire Z = X − µ . Nous savons par ailleurs que dans une distribution normale la
σ
n

probabilité pour que (-1,96<Z<+1,96) = 95%. En remplaçant Z par sa valeur nous aurons
l’inéquation suivante : nous pouvons déduire
− 1, 9 6 σ < X − µ < 1, 9 6 σ ⇔ X − 1, 9 6 σ < µ < X + 1, 9 6 σ
n n n n
comme vous le constatez nous avons placé le paramètre μ dans un intervalle calculé à partir de la
statistique de l’échantillon, c’est l’intervalle de confiance à 95% autour de μ. Le seul problème
dans cette solution est que nous n’avons pas toujours la valeur σ écart type de la variable au
niveau de la population, nous utiliserons dans ce cas l’écart type de la variable calculé sur
l’échantillon. En effet l’écart type s calculé sur les données de l’échantillon est un bon estimateur

71
de σ à condition de diviser par n-1 dans la formule de la variance et non par n (n taille de
l’échantillon).
Remarque :

L’estimateur de la variance est souvent noté Ŝ

Important :
Ne pas confondre, lors de la présentation de résultats, l’écart type de la distribution des valeurs
observées sur l’échantillon qui sert à décrire leur dispersion autour de la moyenne de
l’échantillon et l’erreur standard qui je le rappelle est le rapport de l’écart type sur la taille de
σ
l’échantillon ( ) et que nous utilisons pour estimer la vraie moyenne dans la population d’où
n
a été tiré l’échantillon.

2) Intervalle de confiance autour d’une proportion


Le même raisonnement s’applique également pour l’estimation d’une proportion quand la
variable d’intérêt est une variable qualitative.
Soit p fréquence relative d’une variable qualitative observée sur un échantillon et π la valeur du
paramètre dans la population d’où a été cet échantillon. Nous pouvons écrire en appliquant les
données du théorème limite centrale pour la distribution des fréquences :

IC 95%( π ) = p ± 1, 96 π (1 − π ) et comme π est inconnue on l’estime par celle calculée sur


n
l’échantillon. Nous pouvons alors écrire :
p (1 − p )
IC95%(π ) = p ± 1, 96 ceci n’est valable qu’a condition de vérifier que np et n(1-p) sont >
n
5 et ce aux deux bornes de l’intervalle. De même la taille des échantillons ne doit pas dépasser
10% de la taille de la population.

3) Taille des échantillons


Le calcul des intervalles des confiances nous montre que ceux-ci dépendent de deux facteurs qui
sont en fait fixés par le chercheur, à savoir le risque d’erreur α et la taille n de l’échantillon.

72
Remarques :
* L’intervalle obtenu est d’autant plus large que l’erreur est faible (on ne se trompera jamais
« risque 0 » si on dit que la vrai valeur du paramètre est comprise entre ±∞ pour une variable
quantitative, de même pour une variable qualitative on est toujours sur qu’elle est comprise entre
0 et 100% malheureusement de tels intervalles si justes sont ils n’apportent pas de réponse aux
attentes du chercheur.

* Le deuxième facteur qui fixe l’amplitude de l’intervalle est la taille n de l’échantillon,


l’intervalle est d’autant plus étroit que n est grand et pour un intervalle nul il faut prendre toute la
population, solution presque souvent impossible à réaliser.

Ces deux remarques imposent qu’avant d’entamer une étude il faut au préalable fixer la précision
souhaitée pour l’estimation du paramètre qui nous intéresse, le risque d’erreur consenti et calculer
la taille optimale n de l’échantillon pour que notre estimation soit valide.

Dans une étude descriptive le calcul la taille de l’échantillon utilisera les formules suivantes :

• La variable d’intérêt est quantitative


2
2 σ
n = zα 2
i
n taille de l’échantillon, zα écart réduit pour une erreur fixée à l’avance le plus souvent α = 5%
soit zα =1,96, σ 2 variance de la variable et i 2 précision souhaitée pour l’estimation.

• La variable d’intérêt est qualitative


p (1 − p )
n = zα 2
i2
n, zα, i 2 ont la même signification que dans la formule précédente et p est la proportion théorique
de la variable.

73
Nous remarquons d’abord dans ces deux formules que les quantités σ 2 et p sont souvent
inconnues, elles seront estimées à partir des données de littérature, ou à défaut par des études
préliminaires.
Exemples :

* Quelle sera la taille optimale de l’échantillon pour estimer le poids de naissances des nouveaux
nés pour une précision de 50 grammes et un risque de 5% ? Les études antérieures donnent un
écart type pour le poids de naissance de 565 grammes.

5652
En appliquant la 1ère formule n = 1, 9 6 2 soit n ≈ 490 nouveaux nés, nous prendrons d’un
502
point de vue pratique 500 nouveaux nés.

* Quelle sera la taille optimale de l’échantillon pour estimer la fréquence du tabagisme masculin
dans la région de Monastir pour une précision de 5% et un risque d’erreur de 5% ? Des études
antérieures chiffrent à 60% la fréquence du tabagisme masculin à l’échelle national.
En appliquant la 2ème formule : n = 1, 9 6 2 0 , 6 × (1 − 2 0 , 6 ) n ≈ 369 personnes.
0, 05

C) Les tests d’hypothèses


Les tests d’hypothèses représentent la deuxième possibilité pour faire des inférences statistiques
en portant un jugement sur le résultat observé sur l’échantillon.

1) Approche
A partir d’une population on tire un échantillon aléatoire et on détermine sur cet échantillon une
statistique par exemple une moyenne X . Cette moyenne est souvent différente de la vrai
moyenne μ de cette variable dans la population mère. D’une façon générale et devant cette
différence observée nous sommes en droit de se poser trois questions :
La différence est elle due à une erreur dans mon travail ?
La différence est elle due à une fluctuation d’échantillonnage ? (voir fluctuations
d’échantillonnage)
La différence est elle réelle ?

74
Supposons que nous pouvons éliminer la première question en contrôlant convenablement notre
étude et en éliminant les sources possibles d’erreurs. Deux possibilités restent pour porter un
jugement sur une différence observée, soit que celle-ci est due au hasard c'est-à-dire à la
fluctuation d’échantillonnage soit qu’elle est réelle.
Les tests d’hypothèses sont basés sur cette approche en utilisant le raisonnement par l’absurde.
Nous allons émettre deux hypothèses une hypothèse de travail et une hypothèse alternative et
essayer de défendre l’hypothèse de travail. Si j’ai assez d’arguments (mathématiques) je la
conserve sinon je la rejette et j’accepte l’hypothèse alternative.

2) Etapes d’un test d’hypothèse


Tous les tests d’hypothèses suivent une même démarche faite de six étapes.
• Enoncez les deux hypothèses. La première est toujours l’hypothèse de travail que nous
noterons H0 ou hypothèse nulle. Le choix de cette hypothèse va dépendre de la nature du
jugement à porter, hasard, ajustement, indépendance… Ceci sera illustré quand nous
verrons les différents types de tests. La deuxième hypothèse est dite hypothèse alternative
et sera notée Ha, c’est l’hypothèse de « rechange » à accepter quand nous ne pouvons pas
défendre l’hypothèse nulle.
• Trouvez la loi de probabilité à appliquer sous H0 au problème étudier. Nous connaissons
déjà la loi normale, la loi binomiale, etc.… la loi de probabilité dépendra de la nature de
la variable sur laquelle portera le jugement, la taille et le nombre d’échantillons.
• Fixez un seuil sur lequel se basera notre jugement. Ce seuil représente l’erreur que nous
allons tolérer quand nous rejetterons l’hypothèse H0 quand celle-ci est juste. Ce risque est
appelé risque de première espèce et noté α. Il est souvent fixer à 5%.
• Fixer la zone de rejet. Cette zone correspond aux valeurs de la statistique calculée sous H0
pour le seuil fixé. Nous verrons que pour un même risque ces valeurs peuvent être
différents, à l’exception de la loi normale, en fonction de la taille des échantillons et des
modalités à comparer. Nous parlerons dans ce cas de notion de degré de liberté.
• Calculez la statistique appropriée sous H0
• Concluez en décrétant le « jugement ». Si la statistique calculée se trouve dans la zone de
rejet de l’hypothèse nulle, vous concluez que celle-ci est peu plausible et vous la rejetez

75
et vous acceptez obligatoirement l’hypothèse alternative, dans le cas contraire vous avez
assez d’argument pour la défendre et vous devez l’accepter.

3) Hypothèse uni ou bilatérale


Comme nous pouvons le constater l’hypothèse alternative peu se formuler de deux façons
différentes et si A et B sont les résultats à comparer les hypothèses alternatives seraient A≠B
cette différence à deux solutions A>B ou A<B cette hypothèse est dite bilatérale .
Si par contre nous avons une idée avant de faire la comparaison que l’une des valeurs est
théoriquement supérieure à l’autre A>B par exemple le test sera dit unilatéral.
Dans le premier cas le risque α sera divisé par deux, dans le deuxième cas il ne change pas. Ceci
est très important lors de l’utilisation des tables statistiques qu’il faut vérifier au préalable si elles
sont uni ou bilatérales.

4) Erreur α erreur β et degré de signification


En fait le jugement porté comporte non seulement un risque α de se tromper mais également un
deuxième risque dit de deuxième espèce notée β. N’oublions pas que lorsque nous avons rejeté
H0, nous avons accepté l’hypothèse alternative sans qu’on est eu la possibilité de vérifier si elle
est vraie ou non. Le risque β est le risque d’accepter H0 quand c’est l’hypothèse alternative qui
est vraie. Ces deux types d’erreurs sont la conséquence du «croisement» d’une réalité (H0 vraie
ou fausse) et d’une décision (H0 rejetée ou acceptée). Le tableau suivant résume la situation
Réalité
H0 vraie H0 fausse
Décision H0 acceptée 1- α β
H0 rejetée α 1-β

Ce tableau fait ressortir la quantité 1-β. Elle représente le risque de rejeter l’hypothèse nulle
quand celle-ci est réellement fausse, (1-β) s’appelle puissance d’un test.
Par ailleurs pour chaque valeur de la statistique calculée une probabilité peut lui être associée
cette probabilité s’appelle le degré de signification noté « p ». C’est la probabilité d’observer une
valeur au moins égale à cette statistique.

76
Exemple :
la probabilité pour que Z ≥ 1,96 = 2,5%

III) PRINCIPAUX TESTS D’HYPOTHESES


Jusque à présent nous nous sommes contentés de présenter les tests dans leur ensemble sans se
soucier de la situation sur laquelle nous devons porter un jugement. Cependant bien que tous les
tests d’hypothèses sont basés sur la même approche du raisonnement par l’absurde, ils sont en
fait de natures différentes selon la nature des variables sur lequel devraient porter le jugement et
chacun a ces indications et contre indications. L’analyse de variance bien que également basée
sur des tests d’hypothèse sera traitée dans une session à part vue sa spécificité.

A) Test de l’écart réduit


1) Approche
Le test de l’écart réduit est basé sur ce que nous venons de voir déjà à propos du théorème de la
limite centrale. Ce test consiste à émettre l’hypothèse nulle (H0 ) que les différences entre les
valeurs observées lors des expériences et les valeurs réelles dans la population sont la
conséquence d’une fluctuation d’échantillonnage, en d’autre terme dues au hasard. L’hypothèse
alternative serait que cette différence est réelle.
Ainsi nous pouvons comparer des statistiques (valeurs expérimentales) à des paramètres (valeurs
théoriques) soit également des valeurs expérimentales entre elles.
2) Comparaison d’une moyenne observée sur un grand échantillon à une moyenne
théorique
Abordons cette situation par un exemple. D’une population mère on tire un échantillon de taille
(n) suffisamment grande (≥30). Nous déterminons sur cet échantillon une statistique la moyenne
arithmétique ( X ) d’une variable quantitative. Cette moyenne arithmétique appartient à une
distribution de moyennes calculées sur les échantillons de même taille que nous pouvons tiré de
cette population. Le théorème limite centrale nous dit que cette distribution (des moyennes

d’échantillons) est toujours normale de moyenne µ et d’écart type σ µ et σ moyenne et


n
écart type de cette variable dans la population d’origine. Ainsi nous pouvons calculer l’écart
réduit de la moyenne calculée sur un échantillon dans la distribution des moyennes. Or et en

77
pratique nous jugeons toujours le paramètre dans une population à partir de la statistique calculée
sur l’échantillon et la question posée intéressera la validité de valeur expérimentale calculée sur
l’échantillon est ce qu’elle représente réellement la réalité ou non.
Le test de l’écart réduit consiste à émettre l’hypothèse de travail (H0 ) que la moyenne observée
sur l’échantillon représente le mieux la réalité. En d’autre terme la différence entre la moyenne
calculée sur l’échantillon et la moyenne réelle dans la population est la conséquence de la
fluctuation d’échantillonnage c'est-à-dire due au hasard. L’hypothèse alternative sera la
différence est réelle.
Continuons le reste des étapes d’un test d’hypothèse. La loi de probabilité à utiliser dans cette
situation est la loi normale. La statistique à calculer est la quantité Z avec :
(X − µ) n
Z =
σ
Pour un seuil de 5% et si la situation à comparer est bilatérale la zone de rejet serai toute valeur
de Z > 1 , 96 et Z < − 1, 96 , pour un test unilatéral, la zone de rejet serai toute valeur de Z>1,64
ou Z <. – 1,64.
Le calcul de « Z » se fera selon la formule ci-dessus.
Conclure si la probabilité (p) associée à « Z » est supérieure à celle fixée comme seuil nous
pouvons retenir que la différence observée peut être due à la fluctuation d’échantillonnage et que
la valeur observée sur l’échantillon représente correctement la réalité. Dans le cas contraire la
probabilité pour que le hasard (fluctuation d’échantillonnage) explique la différence est faible
nous retenons que celle-ci est réelle et l’échantillon ne représente pas la population avec p
comme degré de signification.
Remarques :
* Dans le calcul de Z apparaît σ (écart type de la variable dans la population) si cette valeur est
inconnue elle sera estimée par celle calculée sur l’échantillon notée « S » avec la précaution de
diviser par n-1 la variance de l’échantillon.
* Plus Z augmente plus p diminue

78
3) Application
La taille moyenne des étudiants de la 1ère année médecine a été de 168 cm. Sur un échantillon
aléatoire de 49 étudiants de la même année la taille moyenne a été de 165 cm et un écart type de 5
cm. Cet échantillon est il représentatif de la taille de l’ensemble des étudiants?
Solution
La question posée peut être résolue par un test d’hypothèse dans une situation bilatérale.
H0 : l’échantillon provient de la population des étudiants de 1ère année médecine.
Ha : l’échantillon ne provient pas de la population des étudiants de 1ère année.
Sous H0 la différence observée entre la taille moyenne calculée sur l’échantillon et la taille
moyenne réelle est supposée être due à la fluctuation d’échantillonnage.
La loi de probabilité sera la loi normale de la distribution des écarts réduits « Z ».
Pour un seuil de signification fixé à 5% par exemple la zone de rejet sera toute valeur de Z

>1,96.
Calculons Z

z=
(165 − 168 ) 49
= − 4, 2
5

Z calculée est > 1,96, la probabilité « p » lue sur une table des écarts réduits pour la valeur de Z

calculée est < 0,0001.


Conclusion : la probabilité pour que la différence observée est la conséquence d’une fluctuation
d’échantillonnage est faible (<10-4), nous rejetons l’hypothèse H0 et nous retenons l’hypothèse
alternative, cet échantillon ne provient pas de la population des étudiants de 1ère année médecine.
Remarque :
Bien que nous savons qu’a priori cet échantillon a été tiré de la population des étudiants de 1ère
année médecine nous n’avons pas eu assez d’arguments pour défendre une hypothèse juste. C’est
le risque α, rejet de H0 alors qu’elle est vraie.

79
4) Comparaison de deux moyennes observées sur des grands échantillons
La comparaison de 2 moyennes calculées sur de grands échantillons par le test de l’écart réduit
est basée sur la distribution des différences de moyennes.
Le test proprement dit suit les mêmes étapes décrites plus haut et l’hypothèse nulle H0 serai dans
ce cas que les paramètres dans les deux populations d’où ont été tirés les échantillons à comparer
sont égaux.
Reprenons les mêmes symboles utilisés dans la fluctuation de différence de moyenne
d’échantillonnage et sous H0 nous pouvons écrire µ a = µ b et dans ce cas Δ = 0. Notons X A

moyenne de la variable calculée sur l’échantillon tiré de la population A et X B moyenne de la


variable calculée sur l’échantillon tiré de la population B et d = X A − X B nous pouvons calculer
la variable centrée réduite
d −∆ et comme sous H0 Δ = 0 nous pouvons écrire
Z =
σ 2
σ 2 
 a
+ b 
 n A nB 
 

X A − XB
Z =
 σ a2 σ b2 
 
n + n 
 A B 

nA et nB taille des échantillons tirés de A et B.


5) Application à la comparaison de deux moyennes sur deux grands échantillons
Nous voulons vérifier l’hypothèse que la présence des étudiants aux travaux dirigés (TD)
améliore leurs résultats aux différents examens. Pour cela deux échantillons aléatoires
d’étudiants ont été sélectionnés parmi ceux qui ont assisté aux TD (A) et ceux qui n’ont pas
assisté (B). Le tableau suivant résume les données :
Note 0 1 2 3 4 5 6 7 8 9 10
A* 0 0 5 6 5 0 10 6 5 3 1
B* 1 3 2 6 7 7 6 3 2 1 0

*= effectifs

80
Calculs nécessaires pour effectuer le test : X A et SA = moyenne et écart type des notes du

groupe A X B SB moyenne et écart type des notes du groupe B


Groupe A B
Moyenne 5,6 4,5

Ecart type 2,3 2,1

Démarche pour tester l’hypothèse :


H0 la présence aux travaux dirigés n’a pas d’influence sur les résultats ( en d’autres termes la
différence des moyennes des groupes A et B et due à une fluctuation d’échantillonnage liée au
hasard lors de la constitution des ces groupes)
Ha la présence aux travaux dirigés améliore les résultats
Le test consiste à comparer deux moyennes arithmétiques calculées sur deux échantillons de
grandes tailles, la loi de probabilité adaptée à cette comparaison est la loi normale centrée réduite.
Si nous fixons un seuil de 5%, la zone de rejet de l’hypothèse nulle serait, en faisant attention que
nous sommes dans une situation de comparaison unilatérale soit Ha> H0, toute valeur de
Z > 1,64 .

X A − XB
Le calcul de Z = nA et nB taille des échantillons A et B
 S A2 S B2 
 + 
 na nB 
 
Le calcul nous donne Z ≈ 2,2 la probabilité associée à cette quantité sur une table unilatérale p≈
0,016
Conclusion : la probabilité pour que la différence des moyennes des groupes A et B soit due au
hasard est faible, nous rejetons l’hypothèse nulle et nous retenons que le fait d’assister aux TD
améliore les résultats des étudiants.

81
C) La distribution t de « Student »
Préambule
En biologie il n’est pas toujours possible d’avoir des échantillons de grande taille. Peut on
toujours porter des jugements à partir d’échantillons dont la taille « n » est < à 30 ?
1) Distribution « t » et les petits échantillons :
Revenons au théorème de la limite centrale. Ce théorème résume les caractéristiques des
distributions d’échantillonnage des moyennes calculées sur des échantillons. Nous rappelons que
cette distribution est toujours normale si la taille des échantillons est suffisamment grande (n ≥
30). Si la taille des échantillons est inférieure à 30 la distribution des moyennes
d’échantillonnage n’est normale que si la variable étudiée a une distribution normale dans la
population mère d’où a été tiré cet échantillon.
La distribution de «t» est une loi de probabilité dite de Student (pseudonyme de l’étudiant
Irlandais William Gosset qui l’a découvert) se basant sur la distribution de la statistique :
X −µ
t = ( n − 1) avec X moyenne calculée sur l’échantillon, µ moyenne de la variable
s
dans la population mère n taille de l’échantillon et s écart type calculé sur l’échantillon.

Si nous remplaçons s par ŝ estimateur de la variance de la variable dans la population mère nous
X −µ
obtenons t = et la distribution f ( t ) = c te où cte est une constante
sˆ t2 n
(1 + ) 2
n
n − 1
dépendant de n de tel sorte que l’aire sous la courbe soit égale à 1.
Posons ddl = ν = n-1 f (t ) =
cte
2 ν +1
t 2
(1 + )
ν
Maintenant quand n augmente et pratiquement pour n≥30 f(t) tend vers
1
1 − t2
f (t ) = e 2 distribution normale centrée réduite.

La distribution « t » dépend de la taille de l’échantillon. Chaque courbe «t» est symétrique autour
de 0. La probabilité pour un t calculée sera lue sur la table de distribution de t en tenant compte
du nombre de degrés de libertés (ddl) des statistiques à comparer.

82
2) Notion de degré de liberté
Nous avons vu que pour le calcul de la statistique « t » nous avons introduit la notion de degré de
liberté notée ddl soit par la lettre grecque « ν ».
Le nombre de degré de liberté est égal au nombre d’observations indépendantes (taille N de
l’échantillon) moins le nombre de paramètre (k) à estimer pour le calcul d’une statistique
donnée : ν = N − k
Par exemple dans le calcul de la statistique « t » de student (voir plus haut) la seule quantité à
estimer est µ , le nombre de degré de liberté sera égal à N-1.

3) Comparaison d’une moyenne observée à une moyenne théorique


Le raisonnement demeure le même que pour les grands échantillons, mais ce qui change ici c’est
la loi de probabilité à appliquer qui sera la distribution t.
Le recours à la distribution t n’est valide qu’à condition que la variable étudiée soit normalement
distribuée dans la population d’où a été tiré l’échantillon.
 
 X −µ n
La statistique sera «t» et t =  

4) Application pour les petits échantillons


Reprenons l’exemple de la taille des étudiants, mais prenons cette fois ci un échantillon aléatoire
de 16 étudiants. La taille moyenne des 16 étudiants était de 170 cm et l’écart type de 5 cm. Pour
répondre a la question si cet échantillon est il représentatif des étudiants de 1ère année médecine
ou non, nous ferons le même raisonnement que pour le cas d’un grand échantillon mais la loi de
probabilité à utiliser et la distribution t de student à 15 ddl.

L’application numérique nous donne t =


(170 − 168) 16
 t = 1,6 .
5
Pour un risque de 5% et pour une hypothèse bilatérale la valeur seuil pour t à 15 ddl est de
2,131 . Cette valeur étant supérieure à la valeur calculée, l’hypothèse nulle ne peut pas être

rejetée. La différence entre la moyenne de la taille observée sur l’échantillon et celle de la


population d’origine peut être expliquée par le hasard.

83
5) Comparaison de deux moyennes observées : cas des petits échantillons
La démarche de cette comparaison est identique à celle déjà décrite pour les grands échantillons.
Elle est basée sur la distribution d’échantillonnage de la différence des moyennes qui elle aussi
suit une distribution t . Cette démarche comprendra comme tout test d’hypothèse six étapes et la
statistique à calculer sera :
Xa − Xb
t=
S2 S2
( + )
n a nb

avec n a , X a taille et moyenne de l’échantillon A et nb , X b taille et moyenne de l’échantillon B


et S2 variance pondérée par la taille des échantillons des deux variances calculées sur les
échantillons A et B.

2 ( n a − 1) S a2 + ( n b − 1) S b2
S =
na + nb − 2
le nombre de degré de liberté de cette statistique « t » sera na + nb – 2 en effet nous avons utilisé
pour son calcul l’effectif des deux échantillons et comme il y a deux variances à estimer (une
pour chaque échantillon) nous retranchons 2.
Important
le calcul de t suppose :
• la distribution de la variable étudiée a une distribution normale au niveau des deux
populations
• les variances au niveau des deux populations sont homogènes

6) Application pour les petits échantillons


Un épidémiologiste a émis l’hypothèse que le poids moyen des nouveaux nés des femmes
multipares (A) est supérieur à celui des primipares (B). Dans le tableau suivant nous rapportons le
poids de naissance* en kg de 30 nouveaux nés, 15 chez des primipares et 15 chez des multipares.
Nous supposons dans cet exemple que les poids à la naissance des nouveaux nés chez les
multipares et les primipares suivent une distribution normale et que les variances sont
homogènes.

84
A 3,4 4,1 3,4 4,2 3,1 4,1 2,5 3,6 4,95 4,2 3,3 3,4 3,6 3,3 4,2
B 3 2,9 3,6 3,2 3,5 2,2 3,1 3,6 3,9 2,95 3,45 3,3 2,85 4,3 2,95

*=registre des naissances année 2003 département de médecine communautaire, faculté de


médecine de Monastir
X A = 3,69 kg S A = 0 , 6 kg et X B = 3, 25 kg S B = 0 , 5 kg

3 , 69 − 3 , 25 2 (15 − 1)0,6 2 + (15 − 1)0,52


t = , S = d’où t ≈ 2 , 2 et le nombre de degré de
S2 S2 15 + 15 − 2
+
15 15
liberté est égal à 28.
Pour la conclusion, l’hypothèse étant unilatérale la quantité t théorique à 28 ddl et pour un seuil
de 5% est de 1, 7 , elle est < à t calculée, l’hypothèse de l’épidémiologiste est vérifiée.

7) Test « t » et coefficient de régression


Quand nous avons étudié la relation entre deux variables quantitatives, nous avons calculé la pente
de la droite dite des moindres carrés ainsi que le coefficient de corrélation appelé « r ».
Cependant une question peut se poser. Peut on toujours affirmer que la relation linéaire retrouvée
sur un échantillon peut être retrouvée si on refait la même étude sur un autre échantillon ? Ainsi
se pose le problème de fluctuation des différentes pentes possibles et par conséquent des
coefficients « r ». D’un point de vue mathématique la statistique :
r
t= n−2
1− r2
suit une distribution de Student à n-2 ddl « n » étant le nombre de couples de valeurs des
variables quantitatives dont on veut étudier la relation à condition que ces deux variables aient
une distribution normale dans la population de l’étude.
Avec cette distribution et quand les conditions sont remplies nous pouvons toujours tester le
coefficient de corrélation par un test d’hypothèse selon la démarche déjà décrite. L’hypothèse
nulle serait dans ce cas : la pente de la droite de régression est nulle, en d’autres termes quand la
variable indépendante augmente la variable supposée être dépendante reste constante.

85
Remarque
Des tables statistiques donnent directement la valeur théorique de « r » en fonction des degrés de

libertés et certains risques α . Si la valeur calculée de r est supérieure à la valeur théorique nous
pouvons conclure à une pente différente de zéro.
B) Le test du chi 2:
Préambule
Jusqu’à présent nous nous sommes intéressés aux modalités quantitatives d’une variable donnée.
Mais quand est il lorsque les modalités de la variable sont qualitatives ? Dans ce cas nous allons
comparer les effectifs des différentes modalités d’une ou deux variables croisées dans les
différents groupes des sujets de l’étude. D’une façon générale le test du chi2 nous permet de
conclure sur une distribution observée par rapport une autre distribution dite théorique. Nous
distinguerons à ce titre le chi2 d’indépendance et le chi2 d’ajustement.
1) Approche mathématique
Supposons que nous avons une population dont la structure par tranche d’âge est bien connue par
exemple la population tunisienne en 2004. Cette structure est représentée dans le tableau qui suit.
On extrait de cette population un échantillon aléatoire de n =300 individus. Appelons Oi le
nombre d’individus observés dans chaque tranche d’âge au niveau de l’échantillon. C’est la
distribution d’effectifs dite observée.
Si la composition de cet échantillon était la même que celle de la population tunisienne on
s’attendrait à avoir un nombre Ci par tranche d’âge dit effectif calculé peu différent de Oi.
L’effectif de chaque tranche sera obtenu en multipliant la proportion réelle dans la population par
l’effectif « 300 » de l’échantillon.
L’ensemble de ces données sont résumées dans le tableau suivant :
Tranche d’âge [0-10[ [10-20[ [20-60[ [20-60[ Total
Proportion réelle (%)* 16,2 20,2 54,1 9,5 100
Effectif observé (Oi) 47 35 180 38 300
Effectif théorique (Ci) 48,6 60,6 162,3 28,5 300
Différence -1,6 -25,6 17,7 9,5

*Structure de la population tunisienne en 2004 (INS)

86
La somme des écarts entre les valeurs observées et théoriques et nulle. Cette situation nous
rappelle ce que nous avons vu dans les statistiques descriptives de la somme des écarts des
valeurs d’une distribution par rapport à la moyenne arithmétique de cette distribution et nous
avons utilisé les carrés des écarts pour étudier la dispersion.
Dans ce cas également on va s’intéresser aux carrés des différences entre les valeurs observées et
les valeurs théoriques et en pondérant cette différence par le nombre théorique nous définissons
la statistique dite du Chi2 de Pearson symbolisée par la lettre grecque χ2. D’où :
(o − c ) 2
χ2 =
c
D’autre part et comme la variable étudiée dans notre exemple comporte 4 modalités « k » , la
structure de la population peut être bien définie par 3 proportions soit k-1 qui représente le
nombre de ddl. La statistique χ2 serait :
k
( oi − ci ) 2
χ2 = 
i =1 ci

oi = effectifs observés dans chaque modalité


ci = effectifs théoriques calculés pour chaque modalité.
Supposons maintenant qu’on tire un autre échantillon indépendant du premier et de même taille
de cette population nous obtiendrons une autre quantité de χ2 et si nous continuons cette
opération un très grand nombre de fois nous obtenons une nouvelle distribution dite du χ2 qui ne
dépend que du nombre de degré de liberté de la variable étudiée. Quand toutes les fréquences
théoriques sont ≥5, la distribution du χ2 est très proche de celle donnée par la formule suivante :
1 2 )
2 ν − 2
− ( χ
f (χ ) = f0 χ e 2

f0 = une constante pour une surface sous la courbe égale 1.


ν=nombre de degré de liberté
Des tables de χ2 donnent en fonction des ddl la probabilité d’observer des quantités de χ2égales
ou supérieures à la valeur calculée.

87
2) Le χ2 d’ajustement

Le χ2 d’ajustement est utilisé chaque fois où l’on doit comparer une distribution observée et une
distribution théorique.
Revenons à l’exemple de la structure de la population tunisienne vu précédemment. Nous avons
pris un échantillon de 300 personnes et nous avons observé une distribution par tranches d’âge de
cette population. Peut on conclure à partir des résultats de l’échantillon que la population
tunisienne a une même structure qu’une population dont la distribution pour ces mêmes tranches
d’âges est : 25%, 30%, 45%, 5%.
Le problème posé ici est un problème d’ajustement de la structure de la population tunisienne à la
structure connue d’une autre population, ce problème peut se résoudre par le test d’hypothèse du
χ2 d’ajustement.
Réponse:
Formulation des hypothèses :
H0 : la structure de la population tunisienne est ajustée à la population de référence
Ha : la population tunisienne a une structure différente.
La loi de probabilité est la distribution du χ2 à 3 degrés de libertés.
Au seuil de 5% la zone de rejet de l’hypothèse nulle toute valeur du χ2 < à 7,81 (voir table du χ2
).
Calculons χ2

Observées 47 35 180 38
Calculées sous 300x0,25= 300x0,3= 300x0,45= 300x0,05=
HO 75 90 135 15

χ =2(47 − 75) (35 − 90) (180 − 135) (38 − 15)


2
+
2
+
2
+
2

75 90 135 15
2
χ ≈ 94,33
Conclusion: χ2 calculé > au χ2 théorique l’hypothèse nulle est très peu vraisemblable, elle sera
rejetée. La structure de la population tunisienne est différente de la population de référence.

88
Ce même raisonnement peut être extrapolé à toutes les situations ou nous voulons ajuster une
distribution observée à une distribution théorique. Le test de normalité d’une distribution est basé
sur le χ2d’ajustement, de même tester si les résultats observés lors d’un croisement (en
génétique) obéissent aux lois de Mendel ou non etc… le nombre de ddl est le nombre de
modalités moins une.

3) Le χ2 d’indépendance

En médecine nous sommes souvent emmenés à rechercher la relation entre un problème de santé
et une exposition par exemple la survenue d’accidents vasculaires coronariens et le tabagisme.
Dans ce cas également il s’agit toujours de comparer une distribution observée à une distribution
théorique mais calculée cette fois sous l’hypothèse de l’indépendance des événements étudiés.
Remarque
Nous rappelons que si deux évènements « A » et « B » sont indépendants et si p(A) est la
probabilité d’observer A et p(B) la probabilité d’observer B, la probabilité d’observer A et B (au
même moment) est p(A). p(B).

4) Application χ2 d’indépendance
Une étude ayant intéressé 500 personnes pris au hasard dans une population sur la relation entre
accidents coronariens et tabagisme a donné les résultas suivants : Parmi les 300 personnes qui
fumaient 50 avaient présenté un accident coronarien et seulement 10 parmi les non fumeurs. Peut
on conclure à partir de ces résultats à l’indépendance des deux événements ou non.
Ces données peuvent être résumées par le tableau de contingence suivant :

Tabagisme Accident vasculaire coronarien Total


Présent Absent
Présent 50 250 300

Absent 10 190 200


Total 60 440 500

89
Nous pouvons répondre à la question de l’éventuelle relation entre le tabagisme et la survenue
d’un accident coronarien par le test χ2 d’indépendance.
HO : hypothèse nulle serait, les deux évènements sont indépendants
Ha : hypothèse alternative, les deux évènements sont liés
Maintenant il faut calculer sous l’hypothèse nulle de l’indépendance des deux évènements le
nombre théorique de personnes attendues pour les différentes modalités des variables accidents
coronariens et tabagisme.
Prenons par exemple la première cellule du tableau « tabagique et coronarien »

• la probabilité d’être tabagique est 300


500

• la probabilité d’être coronarien est 60


500
• la probabilité d’avoir les deux évènements sous l’hypothèse de l’indépendance est
300 × 60
500 × 500
et comme nous cherchons en fait l’effectif théorique nous devons multiplier la probabilité
calculée par l’effectif total. Le nombre attendu de personnes tabagiques et coronariennes sera
300 × 60
× 500 et après simplification nous aurons un effectif théorique de 36 personnes.
500 × 500
Nous continuons de la même façon pour le calcul des autres possibilités et nous pouvons
résumer ces résultats dans le tableau suivant :

Tabagisme Accident vasculaire coronarien Total


Présent Absent
Présent 300 × 60 300 × 440 300
× 500 × 500
500 × 500 500 × 500
Absent 200 × 60 200 × 440 200
× 500 × 500
500 × 500 500 × 500
Total 60 440 500

90
Le tableau ainsi obtenu est dit tableau théorique. Ce tableau nous montre deux choses :
1. l’effectif attendu pour une cellule du tableau est toujours le rapport entre le total de la
ligne multiplié par le total de la colonne le tout divisé par le total général.
2. il n’est pas nécessaire d’effectuer toutes les opérations telles qu’elles figurent dans le
tableau théorique, pour ce cas particulier il suffit de calculer l’effectif théorique de
n’importe quelle cellule, les autres peuvent se déduire par simple soustraction entre les
totaux marginaux et la valeur calculée. C’est un tableau à un degré de liberté.
3. d’une façon générale le nombre de degré de liberté pour un tableau de contingence à
« c » colonnes et « l » lignes est: ddl = ( c − 1 )( l − 1 ) . Le tableau de notre exemple a

deux colonnes et deux lignes.

Le tableau théorique sera :

Tabagisme Accident vasculaire coronarien Total


Présent Absent
Présent 36 264 300
Absent 24 176 200

Total 60 440 500

2 2 2 2

χ 2
=
(5 0 − 3 6 ) +
(2 50 − 2 6 4 ) +
(1 0 − 2 4 ) +
(1 9 0 − 1 7 6 ) = 1 5, 4 7
36 264 24 176
Conclusion : pour un seuil de 5% et un ddl, le χ2 calculé est > au χ2 théorique, la probabilité
d’observer un tel écart est p = 0, 8 4 × 1 0 − 4 , probabilité très faible, l’hypothèse de
l’indépendance sera rejetée et nous pouvons conclure que les deux évènements sont liés.
Remarque
Comme nous l’avons signalé les effectifs calculés doivent tous être > 5

91
5) le χ2 corrigé de Yates
quand les effectifs théoriques sont aux alentours de 5 Yates à apporter une correction du χ2 qui
ne s’applique qu’a un ddl et le χ2 serait :
2

χ2 =
( o−c − 1 )
2
c

Exemple
Soit le tableau de contingence suivant résumant la distribution d’une maladie « M » et une
exposition « E », les symboles « + » et « - » indiquent respectivement la présence ou l’absence
de l’évènement.

M+ M- Total
E+ 5 4 9
E- 3 15 18
Total 8 19 27

Le χ2 classique aurait donné une valeur de 4,35 et p = 0,036 et on aurait conclu à une différence
statistiquement significative au seuil de 5% alors que le χ2 corrigé de Yates donne la valeur 2,69
et p=0,1 différence non significative au seuil de 5%.

6) Le test de Fisher exact


Ce test ne s’applique que pour les tableaux de contingence à un degré de liberté. Il donne la
probabilité exacte d’observer un écart au moins aussi grand que celui observer entre les
fréquences de la maladie chez les exposés et les non exposés par exemple.
C’est un test qui s’applique quelque soit les effectifs attendus. Son calcul est assez fastidieux
mais avec les outils informatiques actuels, son usage est fortement recommandé surtout s’il y’a
discordance entre le χ2 et le Fisher exact.
Soit le tableau de contingence suivant et avec les mêmes annotations que précédemment et li
total d’une ligne, ci total d’une colonne et N total général :

92
M+ M- Total
E+ na nb l1
E- nc nd l2
Total c1 c2 N

c1 ! c2 !l1 !l2 !
p=
na ! nb ! nc ! nd ! N !
l’exemple du tableau précédent donne en utilisant le test de Fisher exact dans une situation
bilatérale p=0,07 différence également non significative.

IV) ANALYSE DE VARIANCE


Préambule
L’analyse de variance est basée sur la réalisation de test F dit de Fisher Snedecor. Elle est
indiquée dans deux situations :
• Chaque fois où nous avons besoin d’utiliser test t de Student
• Lors de la comparaison de plusieurs moyennes.
A) Approche mathématique
1) La distribution F
Supposons qu’on s’intéresse à étudier une variable quantitative normalement distribuée dans
deux populations distinctes « A » et « B ». On extrait de chaque population un échantillon de

taille na et nb, na pouvant être différente de nb. Estimons les variances de la variable par sa2 et

sb2 s a2
variances calculées à partir des données des échantillons et formons le quotient F = .
s b2
On tire maintenant deux autres échantillons indépendants des premiers c'est-à-dire après remise,
et faisons les mêmes calculs de variances ainsi que le quotient comme précédemment. Si on
refait cette opération autant de fois que possible nous obtenons une distribution des quotients des

93
variances. On remarque d’emblée qu’on devrait s’attendre à avoir autant de distributions de
variances que de taille na et nb des échantillons tirés.
Supposons maintenant que par ailleurs les variances de la variable étudiée sont égales dans les
deux populations mères, les quotients des variances calculés sur les échantillons vont fluctuer
autour de la valeur « 1 ». Cette fluctuation des quotients d’échantillonnage suit également une
loi de probabilité dite de Fisher Snedecor, l’aire totale sous la courbe est égale à « 1 » et pour
chaque valeur du quotient calculé les tables « F » nous donnent en fonction des degrés de
libertés la probabilité d’observer des valeurs au moins égales sinon supérieures à celles
calculées.
Remarques :
Le résultat F est le quotient de l’estimation des variances de la variable dans les populations
d’origine
• il est toujours positif
• il varie entre 0 et +∞
• le nombre de degré de liberté est n-1 pour le numérateur et n-1 pour le dénominateur.
• Les tables F sont établies en fonction des degrés de libertés et pour quelques valeurs
seuils. Elles sont toutes unilatérales. La première ligne de la table correspond aux ddl
du numérateur, la première colonne aux ddl du dénominateur. La lecture se fera à
l’intersection des degrés de liberté du numérateur et du dénominateur.
• Toutes les distributions F ont une forme étalée vers la droite, elles sont asymétriques et
toutes unilatérales.
• Le quotient F sera toujours calculé la variance la plus grande au numérateur.

2) Comparaison de deux variances


Revenons à la distribution du poids des nouveaux nés des primipares et des multipares vu dans
les test t de Student. En fait avant de procéder à ce test il fallait vérifier au préalable
l’homogénéité des variances du poids des nouveaux nés des primipares et des poids des nouveaux
nés des multipares. Pour cela nous allons pratiquer un test d’hypothèse.

94
H0 : les variances sont homogènes : les variances des poids des nouveaux nés ne diffèrent pas
chez les primipares et chez les multipares
Ha : les variances diffèrent
Loi de probabilité : distribution F
Le seuil 5%
Le nombre de degré de liberté du numérateur 15-1=14 ainsi que celui du dénominateur
(échantillon de même taille pour cet exemple)
La zone de rejet : sachant que nous avons fixé un seuil à 5% et comme l’hypothèse alternative est
bilatérale la table à utiliser serait la table F pour un seuil de 2,5%. La borne supérieure serai toute
valeur de F supérieure à 2,98 (voir table F intersection de 14 ddl au niveau de la ligne
correspondante au numérateur et 14 également pour la colonne des ddl correspondante au

s a2
dénominateur. La borne supérieure serait celle du rapport F = 2 > 1 . La borne inférieure
sb
2
serait celle correspondante au rapport F = s b2 < 1 mais la valeur seuil serait l’inverse de la
sa

valeur de la borne supérieure soit 1 / 2, 98 ≈ 0, 34 .


Exemple :
Prenons un exemple où les tailles des échantillons ne sont pas identiques.
Le tableau suivant donne la glycémie post prandiale en g/l de deux groupes de malades prenant
des antidiabétiques « A » et « B » différents. En supposant que la glycémie a une distribution
normale dans la population peut on conclure que ces deux antidiabétiques ont des effets différents
sur la glycémie.

A 2,3 2,5 2,1 2,7 1,9 2,2 2,4 2,6 2,8 3 1,5
B 2,9 2,8 3,1 2,9 2,7 3 2,5 2,8 2,6 2,2 2,5 2,4

Pour répondre à la question nous pouvons comparer les moyennes des glycémies dans les deux
groupes à l’aide du test t qui suppose au préalable l’homogénéité des variances dans les deux
groupes.

95
Les calculs nécessaires pour cette comparaison avec nA=11 taille de l’échantillon A et
X A = 2, 4 g / l
moyenne et variance de la glycémie dans le groupe A et nB=12 taille de
S A2 = 0,185 g 2 / l
X B = 2, 7 g / l
l’échantillon B et moyenne et variance dans le groupe B.
S B2 = 0, 073 g 2 / l

S A2 0 ,1 8 5
La comparaison des variances sera basée sur le quotient F = 2
= ≈ 2, 37
SB 0, 078

Au seuil de 5% et pour une hypothèse bilatérale, la valeur seuil borne supérieure de la zone de
rejet de l’hypothèse nulle serai toute valeur F > 3,53 lue sur la table F point 2,5% intersection de
10 ddl (numérateur) et 11 ddl (dénominateur).
La borne inférieure de cet intervalle serait l’inverse de la valeur lue sur la même table mais à
l’intersection 11 ddl au numérateur et 10 ddl au dénominateur 1
≈ 0 , 2 7 qui est la valeur
3, 6 5
2
seuil supérieure pour le quotient de variance S B2 = 0, 0 7 8 ≈ 0, 4 2 . Quelques soit le quotient
SA 0 ,1 8 5

calculé nous sommes dans la zone d’acceptation de l’hypothèse nulle, les variances sont
homogènes nous pouvons continuer pour tester l’égalité des moyennes par le test t et le t calculé
est égal à 2,12 >2,09 valeur seuil pour 19 ddl et un risque de 5% de la table de t de Student.

La conclusion est qu’il y a une différence d’effets des antidiabétiques sur les valeurs de la
glycémie dans les deux groupes traités.

B) Comparaison de plusieurs moyennes

1) Position du problème
La comparaison de plusieurs moyennes s’envisage dans le cas ou la variable qualitative a plus
que deux modalités et on veut comparer les distributions d’une variable quantitative dans ces
différentes modalités.

96
Exemple
Nous voulons comparer 3 modalités d’enseignement de la biostatistique (enseignement magistral
« A », enseignement dirigé « B » et enseignement à distance par correspondance « C ») à travers
les performances des étudiants. Le tableau suivant résume les notes obtenues par 15 étudiants (5
de chaque modalité) tirés au hasard parmi les étudiants ayant suivi le cours. Pour cet exemple
nous supposerons que les notes des étudiants ont une distribution normale.

A B C
5 7 5
6 6 3
4 5 2
4 8 6
8 6 4

La première idée qui nous vient à l’esprit est de comparer deux à deux les moyennes des
différents groupes d’étudiants par le test t de Student soit 3 couples de moyennes à comparer. Si
on fixe à chaque fois un seuil de 5% pour l’erreur α nous allons cumuler les erreurs α et la
3
probabilité de rejeter une des hypothèses nulles n’est plus de 0,05 mais de 1 − ( 0,95 ) = 0,14

ce qui ne constitue pas une bonne solution pour cette comparaison.


2) Solution du problème
Pour faire cette comparaison il nous faut retrouver des hypothèses qui peuvent résumer cette
situation. Supposons que les 3 méthodes pédagogiques sont équivalentes. Dans ce cas les
moyennes et les variances des notes t au niveau de chaque population d’où nous avons tiré ces
échantillons seraient théoriquement identiques. Or dans le tableau suivant nous constatons que
les moyennes et les écarts types des notes calculées sur les échantillons sont différentes :
A B C
moyenne 5,4 6,4 4
écart type 2,78 1,29 2,49

97
Alors si l’hypothèse d’égalité des méthodes éducatives était vraie, les différences observées au
niveau des moyennes et des variances des échantillons peuvent être dues à une fluctuation
d’échantillonnage. L’idée est d’estimer cette variance de deux façons différentes à partir des
données observées sur les échantillons. Une à partir de la distribution des moyennes
d’échantillons l’autre à partir de la distribution des notes dans la population.
Revenons au théorème de la limite centrale. Les moyennes des notes calculées au niveau des 3
échantillons peuvent être considérées comme appartenant à la distribution des moyennes
2
d’échantillonnages. Cette distribution aura comme variance σ 2 σ avec σ 2
m = m
n
2
variance de la distribution des moyennes et σ variance de la distribution des notes de
l’ensemble des étudiants.
Maintenant si H0 est vraie, calculer la variance à partir de la distribution des moyennes ou à

nσ m2
partir des variances des échantillons, le rapport F = serait égal à un.
σ2
2
σ
Puisque σ
2
m = ⇔ σ 2
= nσ 2
m  σ 2
≈ n s m2 première estimation de la variance à
n

partir de la fluctuation des moyennes d’échantillonnage. s m2 est un estimateur de σ 2


m

(inconnue). Elle renseigne sur les différences réelles entre les notes des étudiants des différents
groupes. On appellera cette variance la variance entre les groupes.
2
La première estimation de σ (inconnue) dépend de la taille des échantillons. Elle se calcule de
k

 ni ( X i − X )
la façon suivante : 1 avec :
k −1
k = nombre d’échantillons, ni = taille de l’échantillon, X i = moyenne de l’échantillon et X
moyenne globale de l’ensemble des observations. Nous divisons par k-1 étant pour avoir un

estimateur non biaisé de σ2. Le dénominateur est également le nombre de ddl de cette
estimation.

98
La deuxième estimation peut être obtenue à partir de la variance calculée dans chaque
échantillon et comme nous avons dans ce cas trois échantillons, il serait logique de prendre la
moyenne de trois variances pondérées par la taille des échantillons.

Remarque
Nous avons fait la même chose pour calculer une variance commune dans le cas du test t de
Student.

Cette deuxième estimation sera le témoin de la variation à l’intérieur de chaque groupe, on


l’appellera variance intra groupe. Elle se calcule ainsi :
k

 (n i − 1 ) s k2
1
avec ni taille d’un échantillon Sk2 estimation de la variance sur un
N − k
échantillon N nombre total d’observation et k nombre d’échantillons
Or si H1 est vraie, les notes au niveau des 3 groupes auront des variances différentes, la
première estimation (variance entre les groupes) sera toujours supérieure à la deuxième
estimation (variance intra groupe). Dans cette comparaison de variances nous serons donc
toujours dans une situation de comparaison unilatérale et l’hypothèse alternative Ha serait
variance entre les groupes > variance intra groupe.
C’est d’ailleurs pour cette raison que toutes les tables de la fonction de distribution de F sont
unilatérales.
Le nombre de degrés de liberté pour la variance entre les groupes sera k-1 soit le nombre de
moyennes à comparer moins un, la variance intra groupe sera N-k nombre total des observation
moins le nombre de moyennes à comparer.
3) Application numérique
2 2 2
Variance entre les groupes s e2n tr e = 5 ( 5 , 4 − 5 , 2 6 ) + 5 ( 6 , 4 − 5 , 2 6 ) + 5 ( 4 − 5 , 2 6 ) ≈ 7 , 2 7
2

Variance intra groupe 4 × 2 , 7 8 + 4 × 1, 2 9 + 4 × 2 , 4 9


s i2n t r a = ≈ 2, 2
12

99
7, 27
F = ≈ 3 , 3 Cette quantité F est à comparer avec la valeur seuil au point 0,05 qui se lit à
2, 2

l’intersection des ddl des numérateur et dénominateur du rapport soit F=3,89. F calculé < F
théorique l’hypothèse nulle ne peut pas être rejetée et de conclure que les trois méthodes
éducatives se valent.

4) Comparaison des moyennes à partir du développement de la variance totale


En fait pour la comparaison de plusieurs moyennes les outils informatiques présente cette
comparaison sous forme d’un tableau dit tableau de l’analyse de variance. Ce tableau est la
synthèse de la décomposition de la formule de la variance totale calculée sous l’hypothèse nulle
(les moyennes à comparer appartiennent à une même population) en incluant la variation entre
les groupes.

Revenons à la formule de la variance et posons xi , j la ième observation du jème groupe pour k


groupes à comparer.
N 2

 (x i − X )
La formule estimant la variance dans la population est S 2
= i =1 avec N nombre
N −1

total d’observation X moyenne de toutes les observations. Elle exprime la variation globale
des observations sous l’hypothèse nulle, nous
l’appellerons variance totale. Prenons le numérateur et faisons apparaître la notion de moyenne

à l’intérieur d’un groupe notée X j , le numérateur que nous appellerons somme des écarts

totaux (SCET) s’écrit ainsi :


k j 2
SC E T =    ( x
j =1 i =1
i, j − X j + X j − X )  nous avons tout simplement ajouté et

k j
retranché la moyenne de chaque groupe notée X j dans cette formule. Le symbole  
j =1 i=1

veut dire que nous faisons la somme des carrés des écarts des xi (observation dans chaque
groupe) ainsi que la somme pour l’ensemble des groupes.

100
Posons a = (x i, j − X ) et b = (X j − X ) , SCET se présente sous forme d’un produit
remarquable et peut s’écrire :
k nj

   ( x − X )
2 2
SC ET = i, j − X j ) + (X j − X ) + 2 ( xi, j − X j )( X j 
j =1 n =1

En utilisant les propriétés de la somme nous pouvons écrire :


k nj k nj k nj

SCET = ( xi , j − X j ) + ( X j − X ) +2( xi, j − X j )( X j − X )


2 2

j =1 i =1 j =1 i =1 j =1 i =1

regardons dans le dernier terme de cette somme, (X j − X ) ne dépend pas de i, il peut s’écrire
k n j

donc sous forme 2 (X j − X ) ( x i, j − X j ), nous voyons alors apparaître


j =1 i =1

n j

 (x
i =1
i, j − X j ) qui est la somme des écarts d’une observation d’un groupe par rapport à la
moyenne de ce groupe et cette somme est toujours nulle. Toute la quantité
k nj

2   ( xi , j − X j )( X j − X ) est donc égale à zéro et


j =1 i =1

k nj k nj

  (x ) +   (X
2 2
SE C T = i, j −X j j −X ) . Le deuxième terme de cette somme est
j = 1 i =1 j =1 i = 1

une constante qui se répète nj fois pour un groupe et k fois pour l’ensemble des groupes d’où
nj k 2

 (X
2 2
j − X ) = nj (X j − X ) et tout le terme s’écrit  n j ( X j − X ) .
i =1 j =1

k nj k
SECT =   ( xi , j − X j ) +  n j ( X j − X ) 2
2

j =1 i =1 j =1

Ainsi :
• Le premier terme exprime la variabilité à l’intérieur de chaque groupe (somme des
carrés des écarts de chaque observation d’un groupe à la moyenne de chaque groupe)
nous rappelons que nous l’avons déjà qualifié de intra groupe ou résiduelle et sera notée

101
SCER . Son nombre de degré de liberté dépend du nombre total des observations et du
nombre de moyennes à comparer soit N-k

• Le deuxième terme exprime la variabilité des moyennes de chaque groupe à la moyenne


générale (somme des carrés des écarts de chaque moyenne à la moyenne générale).
C’est la variabilité entre les groupes son origine est attribuée au facteur étudié. Elle sera
notée SCEA. Le nombre de degré de liberté est dans ce cas k-1.

La variation totale peut alors s’écrire : S C E T = S C E A + S C E R


Le nombre de ddl : N-1 = k-1 + N-k

SC E A
Il faut maintenant revenir à la formule de la variance et les quantités
k −1
SCER
et sont des variances, leur rapport suit une loi F de Fisher Snedecor.
N −k
C’est cette décomposition de la variance qui nous permet de dresser le tableau de l’analyse de
variance tel que vous le verrez le plus souvent quand vous manipulez un outil informatique
d’analyse des données, ce tableau présente en fait le développement des deux termes de la
somme calculer plus haut.
5) Le tableau d’analyse de variance

Posons Ti2 carré de la somme des observations pour un groupe et n taille d’un groupe , TG2
carré de la somme totale des observations, k nombre de groupes et N nombre total des
observations les sommes suivantes se développent ainsi:
2
k k
Ti 2 TG2
•  n (X
j =1
j j − X ) =  1 n

N
nj
k k
Ti 2
  (x  x i2 − 
2
• i, j −X j ) =
j =1 i = 1 j =1 n j

102
Remarquez que l’addition de ces termes nous fait revenir au numérateur de la variance totale

TG 2
x − N
2
i .

Avec ces développements le tableau d’analyse de variance se présente ainsi :

Origine Numérateur Dénominateur Carrés des


(1) ddl (2) écarts moyens F
(1/2)
k
Ti 2 TG2
Entre 1 n − N K-1 a
j
a/b
k 2
Ti
Résiduelle  x i2 −  j =1 nj
N-k b

T G2
Totale  x i
2

N N-1 c

103
6) Application numérique
Reprenons l’exemple des notes des élèves selon la méthode éducative et pour dresser le tableau
de l’analyse de variance nous avons besoin d’un certains calculs préliminaires.
.

Totaux
globaux
A B C k n

 x
j i =1
i, j

5 7 5
6 6 3
4 5 2
4 8 6
8 6 4
n

 xi
27 32 20 79
i=1

n
( xi )2
729 1024 400 2153
i =1

n
(  xi ) 2
145,8 204,8 80 430,6
i =1
n
n


i =1
x i2
157 210 90 457

104
Le tableau d’analyse de variance sera :

Origine Numérateur Dénominateur Carrés des


(1) ddl (2) écarts moyens F
(1/2)
k
T i 2 T G2
Entre
1 nj

N K-1 a
2 a/b
430, 6 −
( 79 ) = 14,53 3-1=2 14,53
15 = 7, 26
2 =
k
Ti2
 x i2 − j =1 nj
Résiduelle N-k b 7, 26
457 − 430.6 = 26, 4 ≈ 3,3
15-3=12 = 2, 2
26, 4
= 2, 2
12

T G2
Totale  x i2 −
N N-1 c

Le résultat F ainsi trouvé est le même que celui trouvé plus haut.

105
V) Les échantillons appariés

Préambule
L’appariement est une méthode très utilisée en épidémiologie, disons pour simplifier, qu’il tend à
rendre presque identique (ce qui est toujours approximatif) les sujets à comparer sauf pour le
facteur étudié. Elle permet d’éliminer les biais dit de confusion (voir cours épidémiologie), afin
de pouvoir rapporter le résultat obtenu à l’intervention. L’appariement idéal sera le même
individu qui constitue sa propre paire. Dans le cas de l’appariement les tests statistiques déjà
décrits doivent être adaptés à cette situation.
Important :
Dans les séries appariées ce n’est plus la taille des échantillons qui intervient mais le nombre de
paires à comparer.

A) comparaison de 2 moyennes sur séries appariées

1) Cas des grands échantillons (n couples ≥30)


La comparaison de deux moyennes s’applique au cas où la variable d’intérêt est quantitative.
Chaque moyenne est liée à celle calculée sur l’observation homologue les deux moyennes
constituent ainsi une paire. Le nombre de paires étant égal ou supérieure à 30 le test utilisé est
toujours un test d’hypothèse basé dans ce cas sur le test de l’écart réduit « test Z ».
Le principe du test repose sur l’hypothèse nulle « H0 », « la différence des moyennes de la même
paire est nulle ». Cette différence des moyennes suit une loi normale centrée réduite de
moyenne égale à « 0 » et d’écart type égal « 1 ».

Le test statistique consiste à comparer les différences des mesures pour chaque couple soit n
différences. Dans ce cas également la fluctuation des différences suit une loi normale de moyenne

106
X d et Sd comme écart type. Nous pouvons utiliser le test des écarts réduits en comparant Xd
Xd
à 0, soit Z= n : couples de mesures. La quantité Z sera comparée à la valeur seuil de la
Sd
n
table des écarts réduits pour un risque de 5% par exemple la valeur seuil est comme nous le
savons 1,96 .

2) Calcul de Z
• faire la différence de moyennes pour chaque paire « di »

• calculer la moyenne des différences Xd =


d i
avec nc nombre de couples
nc

( d )
2

d 2 i
i −
2 nc
• calculer la variance des différences S d =
nc − 1

Xd −0
Z =
• Calculer
S d2
nc

3) cas des petits échantillons


Pour les petits échantillons (n couples < 30), c’est la quantité « t » que nous calculerons et

Xd
t= cette quantité sera comparée à la valeur seuil à n-1 ddl .
Sd
n
Le calcul de « t » est identique à celui de « Z »

4) Application numérique
L’exemple suivant résume les données collectées auprès de 30 malades soumis à un régime
hypocalorique. La comparaison des résultats est basée sur l’évolution de l’indice de masse

107
Poids
corporelle ( IMC = ) pour chaque patient, « taille exprimée en mètre », pris avant et après
taille 2
deux mois de régime. Question le régime a-t-il un effet sur l’IMC ?

A 28.2 27.7 28,6 29.3 29.6 27,2 28,4 27.8 30 27.5


B 28.3 26.8 28,7 29.4 29.6 28.1 27 28.7 28.1 27.9
d -0.1 0.9 -0.1 -0.1 0 -0.9 1.4 -0.9 1.9 -0.4

A 28 27.5 27.9 28.1 27.3 28.2 28.3 28.6 28.3 28.3


B 27.8 27.3 27 26.8 28.2 27.7 27 28.1 28.2 28.3
d 0.2 0.2 0.9 1.3 -0.9 05 1.3 -0.5 0.1 0

A 28.1 29.9 29 28.2 29.3 28.5 29.3 30 32.5 33.4


B 28 29.6 28.7 27.2 29.1 28.2 29 28 30 31
d 0.1 0.3 0.3 1 0.2 0.3 0.3 2 2.5 2.4
A= IMC avant , B= IMC après activités physiques d=A-B

Ces données sont un exemple d’une série appariée. Répondre à la question revient à tester les
hypothèses :
H0 : Le régime n’a pas d’effets sur l’IMC
Ha : le régime a un effet
Le test à appliquer est le test de l’écart réduit « Z » sur séries appariées son principe est basé sur
la comparaison de la moyenne des différences IMC avant après activités physiques.

La moyenne des différences X =


 di
=
1 5, 2
≈ 0, 51
d
nc 30

( d )2 (15, 2 )
2

 d2 −
nc
31, 2 −
S d2 = = 30 ≈ 0, 81
nc − 1 29

108
0,51 − 0
Z= ≈ 3.1
0,81
30
Le Z calculé est supérieur au Z seuil (±1,96) pour un test bilatéral, l’hypothèse nulle sera
rejetée.
Supposons que nous ayons comparu l’effet de l’exercice physique d’une façon « classique » par
la comparaison de deux moyennes sans tenir compte de l’appariement. Les deux moyennes à
comparer seraient IMCa moyen avant exercices physiques ≈28,77 et IMCb moyen après ≈ 28,26
IM C a − IM C b 2 8, 7 7 − 2 8, 2 6 le Z ainsi calculé > 1, 9 6 ne permet pas
z = = ≈ 1, 6
2 2
S
a Sb
0, 0 9 7
( + )
na nb

d’éliminer l’hypothèse nulle. Un test sur séries appariées est plus puissant qu’un test de
comparaison de deux moyennes sur des séries indépendantes.

B) Comparaison de deux distributions sur séries appariées

1) Indication du test
Nous rappelons que la comparaison des distributions d’effectifs est indiquée lorsque nous
étudions un caractère qualitatif.
Dans ce cas également, chaque observation d’un échantillon est appariée à une observation d’un
autre groupe, l’appariement fait sur un ou des critères préalablement fixés.
Ainsi et pour le résultat à analyser la paire peut avoir la même caractéristique on dira dans ce cas
que la paire est concordante, sinon la paire est dite discordante (résultats différents).
Cette comparaison est basée sur un test d’hypothèse, le test χ2 de Mac Nemar.

2) Le test statistique
Remarque :
Le test du χ2 de Mac Nemar ne s’applique que lorsque les paires discordantes sont ≥ 10.
Notons (+) quand le caractère étudié est présent et (–) quand ce caractère est absent. Les paires
peuvent être (+ ; +) ou (+ ; -) ou (- ; +) ou (- ; -)

109
Lors de l’analyse statistique seules les paires discordantes seront retenues « elles sont les plus
intéressantes pour le raisonnement ».
Les résultats peuvent se présenter sous forme d’un tableau à double entrée :

Echantillon A
+ -
Echantillon + A b
B - C d

H0 hypothèse nulle sera le nombre de paires discordantes (+ ; -) « c » et b (- ; +) « d » sont


égale
Ha hypothèse alternative le nombre de paires discordantes est différents
2
2 (b − c )
La statistique χ = sera comparée à la valeur théorique du χ2 à un ddl.
(b + c )

110
TD Biostatisques

111
Exercice 1
Les revenus annuels des ménages d’une population figurent dans le tableau suivant :
Revenu* [2-5[ [5-8[ [8-11[ [11-14[ [14-17[ [17-20[ [20-26[ [26-32[
% 15,5 13,3 15,2 17,5 13,3 11,6 10,4 3,2

* : revenus exprimés mille unité monétaire (UM)

Remarque : Les salaires < à 2000 UM et > à 32000 UM sont négligeables dans cette population.

1) tracer sur un même graphique l’histogramme de cette distribution et la courbe des


fréquences cumulées.
2) Calculer les paramètres de tendance centrale et de dispersion de cette population

Exercice 2

Soit x une variable quantitative continue N (0,1) calculer les probabilités suivantes
Pr (x < -1,81)
Pr (x < 0,30)
Pr (-1,96 ≤ x ≤ 1,96)
Pr (0 <x < 1,42)
Pr ( - 1,79 < x < – 0,95)

Exercice: 3

Une étude sur les malades anesthésiés pour acte chirurgical au CHU de Monastir en 2003 a
montré que le caractère urgent a été signalé pour 10,4% des patients admis au bloc opératoire.
Quelle est la probabilité d’opérer 10 patients dans cette situation si 100 patients sont à opérer
dans la semaine.

Exercice: 4

Dans la même étude le nombre de décès liés à l’anesthésie a été de 3 personnes pour 13300 actes
d’anesthésie réalisées au cours d’une année. Si le nombre d’actes d’anesthésie reste inchangé
pour l’année suivante quelle est la probabilité d’observer zéro décès, 1 décès, deux décès et trois
décès.

Exercice: 5

Les études sur le tabagisme en Tunisie estiment sa prévalence à 62% de la population masculine
de + de 15 ans. On tire au hasard 100 échantillons de 50 personnes masculines de plus de 15 ans.
Combien d’échantillons contiendraient 20 fumeurs ?

112
Exercice 6

Un étudiant a obtenu 8 a son examen final de statistiques. La moyenne de la promotion est de 7


et un écart type = 1. Il a également obtenu 8,5 a son examen d’immunologie la moyenne étant à
8 et 1 ET de 1,5. (Les notes sont sur dix)
Cet étudiant est-il meilleur en statistique ou en immunologie ?

Exercice 7

Afin de comparer les promotions entre elles les notes de statistiques sont ramenées à une
distribution normale de moyenne 500 et d’Et 10. Un étudiant ayant obtenu 88,3 pour une
moyenne de 75 et d’ET + 8 ? Quelle note aura-t-il dans la nouvelle distribution ?

Exercice 8
Un supermarché est éclairé par des fluorescents dont la vie moyenne est 3500h et un écart type de
600h. Si les tubes sont allumés 10h/j, 6 jours/s et 52/s/an :

a- Quels proportions de tubes devra t-on remplacer ?


b- Après combien de temps devra t-on remplacer 10 % des tubes ?

Exercice 9

Une usine se basant sur l’expérience des années précédentes affirme qu’en moyenne ses
machines ont une durée de vie de 5,75 ans et un écart type = 2 ans.

Quelle est la durée de la garantie que doit donner cette usine si elle est disposée à ne
reprendre que 1 % des machines ?

Exercice 10
La moyenne des QI des étudiants admis au DEA est de 118 avec un écart type= de 5. 40
étudiants ont un QI compris entre 120 et 125.

Combien d’étudiants ont été admis si on suppose que le QI est distribué normalement ?

Exercice 11

500 étudiants avaient suivi un cours de statistiques. La moyenne des notes est de 77 et d’écart
type = 10. Les notes finales doivent être redistribuées ainsi : 10 % auront la lettre A, 30 % B, 50
% C et 10 % E (échec).
Retrouver les limites des notes pour cette nouvelle distribution ?

113
Exercice:12

300 étudiants ont une taille moyenne de 1,65 m et un écart type: 5cm. Les tailles sont mesurées
au cm près et ont une distribution normale.
1) combien d'étudiants ont une taille comprise 1,67 et 1,71 m ?
2) Combien ont une mesure < 1,64 m ?
3) 30 % des étudiants mesurent moins de combien ?
4) combien d'étudiants ont une taille qui diffère de la moyenne de + 1écart type.
5) Sachant que la plus petite taille est de 1,55 m et la plus grande 1,95 m faire un diagramme
en boite de la taille des étudiants.

Exercice 13

Le poids de nouveaux nés est supposé suivre une distribution normale de moyenne µ = 3.500 kg
et d’écart type = 0,5 kg
1- Combien de nouveaux nés auront un poids inférieur à 2kg ?
2- Combien de nouveaux nés auront un poids compris entre 2 kg et 3,600 kg ?
Combien auront un poids supérieur à 4 kg ?

Exercice 14
La mesure de la pression artérielle systolique de 11 sujets pris au hasard dans service de chirurgie
donne en mm de Hg les valeurs suivantes
181, 172, 157, 168, 230, 161, 149, 160, 119, 157, 132.
Etudier ce caractère quantitatif selon la méthode de Tukey.

Exercice: 15

Afin de déterminer la fréquence du groupe sanguin A dans une population on tire au hasard de
cette population un échantillon de 600 personnes. 276 personnes de cet échantillon ont un G.S.
« A ».
1- A combien peut on estimer le GSA dans la population ?
2- Cet échantillon peut il être représentatif d’une population ou la fréquence du GSA est de
40 %
3- Si la vrai fréquence du GSA est de 40 % combien aurait il fallu d’individu pour le
déterminer au risque de 5% et une précision de 2 % même question au risque de 2 % ?

Exercice: 16

Un juge a trouvé que le temps moyen écoulé entre l’arrestation et le procès d’un échantillon pris
au hasard parmi les personnes arrêtées a été de 300 jours et un écart type de 30 jours.
L’échantillon comprend 81 détenus.
Quel serait le temps moyen de la passation au procès pour l’ensemble des arrêtés ?

114
Exercice: 17
L’examen des dépenses faites par semaines de 64 étudiants pris au hasard d’une faculté pour
l’achat de livres et de CD est en moyenne de 8d,400 avec un écart type de 2d,500.
Quel est le montant moyen dépensé par semaine par l’ensemble des étudiants ?

Exercice: 18

L’examen de 46 des 250 professeurs d’un faculté donne une moyenne de 13,7 années
d’expérience avec un écart type de 2,8 ans au risque de 10 % à combien peut on estimer le temps
moyen des années d’expériences de l’ensemble des professeurs ?

Exercice 19

Sur un échantillon de 28 personnes arrivant dans un pays impaludé, on observe le délais


d’apparition d’une maladie M. Ces délais se présentent ainsi :

71-19-36-135-68-41-91-21-53-45-31-35-62-168-86-28-168-66-66-33-189-84-72-20-181-44-53-
157.

a) Faites un diagramme branches et feuilles complet


b) A combien peut on estimer le délai médian de l’apparition de la maladie dans cette population

Exercice 19 (bis)

Le poids dans une population peut suivre une loi normale, sur un échantillon aléatoire de 100
enfants de même âge le poids moyen était de 7,2 kg et un écart type de 1,2 kg. A combien peut on
estimer le poids moyen des enfants de cette tranche d’âge ?

Sur un échantillon de 303 nouveaux nés, le poids moyen était de 3400g et un écart type de 495g.
a) estimer le poids moyen des nouveau-nés au risque de 0,05
b) combien de nouveau-nés ont un poids inférieur à 2450g ?

Exercice : 20 (emprunté à Schwartz)

Cholestérol en cg/l* 105 125 145 165 185 205 225 245 265 285 305 325 345

effectifs 1 2 18 26 16 17 12 12 4 2 1 2 1

*=Centre des classes

1) Faite une représentation graphique adaptée à cette distribution ?


2) A combien peut on estimer la moyenne µ du taux de cholestérol au niveau de la
population dont est issue cet échantillon ?
3) calculez les paramètres de position et de tendance centrale de cette distribution

115
Exercice: 20(bis)

Un sondage d'opinion portant sur un échantillon de n = 1600 personnes trouve que 51 % voteront
pour Mr X.
1) A combien peut on estimer les personnes qui voleront x dans la population.
2) Quelle serait cette estimation si l'échantillon a une taille de n = 400 personnes.

Exercice : 21

La durée de la gestation humaine dans la région de Monastir (étude faite sur 10 ans) a une
moyenne « μ » = 39,5 semaines et un écart type « σ » = 1,7 semaines.
Dans un service de l’hôpital universitaire de la région on a noté l’âge gestationnel de 100
nouveau-nés. La somme des âges gestationnels est de 3800 semaines et l’écart type s1 = 5
semaines.
1) Peut-on dire que ce service est spécialisé dans la prise en charge des prématurés ?
2) Dans la maternité de cet hôpital 100 femmes ont reçu un traitement inhibant les contractions
utérines. La somme des âges gestationnels dans ce cas et de 3900 semaines et s2 = 5 semaines : le
traitement est-il actif sur les contractions utérines ? Justifier.

Exercice 22

Un anthropologue avance l’hypothèse qu’une ethnie « A » a en moyenne une taille supérieure à


une ethnie « B ».
Il compare la taille moyenne de 2 échantillons de 100 personnes chacun tirés au hasard de A et B.
Il note les résultats suivants :
MA = 175 cm mB = 169 cm
A B
S2A = 20 cm2 S2B = 16 cm2

Son hypothèse est elle vérifiée ?

Exercice 23

La moyenne des battements cardiaques d’une population d’adulte est de 72/mn. Chez un
échantillon de 15 étudiants on trouve les chiffres suivants :
64 / 79 / 85/ 70 / 72 / 77/ 80/ 74 / 70 / 69 / 70 / 73 / 65 / 64 / 67.
Cet échantillon provient il de cette population ?

Exercice : 24

Un laboratoire d’analyse médicale a décidé d’informatiser son service de gestion des actes. 2
concepteurs de programme existent sur le marché. Le responsable de ce laboratoire a lu dans une
revue spécialisée que dans une étude portant sur 12 utilisateurs du système « A » et 15
utilisateurs système « B » et en accordant une note à chaque système eu les résultats se présentent
ainsi :

116
Σxi Σxi2
Système A 168 2392

Système B 240 3896

1- Ces systèmes ont ils été notés différents ?


2- Ces résultats permettent ils de prendre une décision ?

NB : On suppose que les variances sont homogènes et que la distribution des notes suit une loi
normale
Exercice 25

Afin d’étudier l’importance de la plombémie sur certains problème de santé une étude faite
auprès de deux échantillons d’ouvriers :
Le 1er échantillon provient d’une usine de fabrication de pile et la plombémie a été mesurée en
ng/l auprès de 7 ouvriers soit : 0,082/ 0,080/ 0,079/ 0,069/ 0,085/ 0,09/ 0,086.
Le 2ème échantillon provient d’une usine de textile : la plombémie sur un échantillon de cette suite
est comme suit : 0,040/ 0,035/ 0,036/ 0,039/ 0,040/ 0,046/ 0,040.
1) Peut on conclure que le lieu de travail a un effet sur la plombémie ?
2) nous voulons estimer la plombémie dans la population générale
a) quel échantillon choisir
b) calculer cette estimation
Exercice: 26

Une usine de tube de dentifrice stipule dans son cahier de charge que le poids des ses tubes suit
une loi normale de moyenne μ = 50g et d’écart type σ = 3g
On prélève au hasard 9 tubes leur poids total est de 428 g
1- sachant que la somme des carrés du poids des tubes de ce lot de 9 tubes est égal à 20412
peut on conclure que cette usine respecte son cahier des charges?
2- On considère un deuxième échantillon de 8 tubes dont les poids en mg se présentent ainsi
50,6 ; 51,2 ; 50,3 ; 49,5 ; 51,1 ; 48,7 ; 49,8 ; 47,5.
Ces 2 échantillons sont ils différents ?

Exercice : 27

Deux distributrices sont utilisées pour remplir des boites de conserves.


On prend un échantillon aléatoire de 25 boites de la première distributrice : le poids moyen des
boites est 250 g variance 48 g2.
Un deuxième échantillon pris de la 2ème distributrice (n= 31 boites) poids moyen 255g et une
variance 6 g2.
On considère que le poids des boites est distribué normalement.
La première distributrice à t-elle plus de variabilité sur la seconde ?

117
Exercice: 28

Un chercheur s’intéresse à la relation entre le niveau de scolarité et le port de lunettes :

• Sur un échantillon de 50 élèves du secondaire il trouve 15 porteurs de lunettes


• Sur un échantillon de 200 étudiants 70 portent des lunettes
• Sur un échantillon d’élèves d’écoles professionnelles 28 portent des lunettes
N = 100
Son hypothèse est elle vérifiée ?

Exercice : 29

Une étude sur le rapport entre l’utilisation de la pilule par la mère et l’apparition d’un ictère chez
les nourrissons a donné les résultats suivants sur deux groupes de femmes: chez 57 femmes qui
prenaient la pilule l’ictère est apparu chez 33 nourrissons, chez 59 ne prenant pas la pilule l’ictère
n’est apparu que chez 14 nourrissons.
Que peut on conclure sur la relation entre la prise de la pilule par la mère est l’apparition de
l’ictère chez les nourrissons ?

Exercice: 30

Un biologiste s’intéresse à la consommation d’un produit et l’apparition d’effets secondaires chez


un échantillon de souris de même souche.

- 40 souris ayant été soumises à une faible consommation du produit, 12 ont eu des effets
modérés et 12 effets sévères.
- 30 souris ayant été soumis à une consommation modérée, 8 n’ont eu aucun effet et 7 ont
eu un effet sévère
- 30 souris soumises à une consommation importante, 6 n’ont eu aucun effet et 8 un effet
modéré.
Ce biologiste peut il conclure à une relation entre la consommation du produit et les effets
secondaires ?
Exercice: 31

Afin d’étudier l’effet du tabac (T) sur les poumons (maladie M) on dispose d’un échantillon N de
400 personnes dont :

160 ont la maladie M


130 sont fumeurs
80 parmi ceux qui fument ont la maladie

1) dresser le tableau de contingence relatif à ces données


2) Que peut on conclure sur l’effet du tabac et les poumons ?

118
Exercice: 32

Vous êtes responsable d’une région sanitaire et vous désirez évaluer l’activité de votre
programme de vaccination.
1) vous tirez au hasard un échantillon de 200 enfants suivis dans le centre de vaccination (âge
12- 23 mois), 60 d’entre eux ont complété leur vaccination. A combien vous estimez le nombre
d’enfants correctement vaccinés dans votre région ?
2) Les résultats vous paraissent peu satisfaisants et le programme est renforcé. Une année plus
tard on refait une nouvelle évaluation sur un échantillon de 100 enfants (âge 12- 23 mois), 50 ne
sont pas vaccinés.
Pouvez vous affirmez que ce renforcement a eu un effet?

Exercice: 34
Deux groupes de malades tuberculeux ont été sélectionnés pour comparer un nouveau
médicament.
Ses résultats sont les suivants groupe A nouveau médicament nA = 100,
75 guéris
Groupe B ancien médicament nB = 100, 60 guéris
Que peut-on conclure à l’efficacité du nouveau médicament
Exercice 35

Un croisement entre deux souches de tomates : grandes feuilles tomates rouges X feuilles naines
tomates roses donnent les résultats suivants :

- Roses grandes feuilles : 100


- Rouges grandes feuilles : 280
- Rouges feuilles naines : 80
- Roses feuilles naines : 20

Ces résultats confirment ils l’hypothèse que les proportions sont 3, 9, 3, 1


(α = 0,1) ?

Exercice: 35

Deux dés sont lancés 60 fois en même temps. On s’intéresse à la somme 7 apparue sur les faces
des deux dés. Celle-ci est sortie 15 fois. Peut on conclure que ces deux dés sont parfaitement
équilibrés?

Exercice 36
Certains auteurs suggèrent que les naissances d’un garçon ou d’une fille sont des évènements
équiprobables.
a) Calculez les probabilités pour une famille donnée et comportant quatre enfants d’avoir zéro
fille, une fille, deux filles, trois filles et quatre filles.
b) L’examen de 320 familles tirées au sort et ayant chacune 4 enfants s’est traduit par la
distribution suivante

119
Nombre 4 garçons 3 garçons 2 garçons 1 garçon 0 garçon total
de garçons 0 fille 1 fille 2 filles 3 filles 4 filles
et de filles
Nombre 20 58 112 90 40 320
de familles

Cette distribution est elle compatible avec l’hypothèse que la naissance d’un garçon ou d’une
fille sont des évènements équiprobables ? Justifiez votre réponse.

Exercice: 37

On veut évaluer l’efficacité d’une nouvelle technique vaccinale par le B.C.G.


On propose d’effectuer un essai expérimental. On compare cette nouvelle technique à une
technique de référence qui est l’injection intradermique du vaccin B.C.G.
On sélectionne un groupe d’individus n’ayant aucune réaction à la tuberculine de la tranche d’âge
5-10 ans. Ces individus sont répartis en deux groupes comparables, un groupe recevra l’ancienne
méthode de vaccination l’autre la nouvelle méthode. L’efficacité vaccinale sera jugée sur le
diamètre de l’induration obtenue après injection de tuberculine intradermique au niveau de
l’avant bras 12 semaines après la vaccination.
Les résultats figurent dans le tableau suivant :

Groupe référence A 20 19 18 17 16 15 14 13 12 11 10 0
B 1 3 2 2 3 6 3 2 1 2 2 3
Groupe expérimental C 17 16 15 14 13 12 11 10 9 8 7 0
D 1 2 3 4 1 4 2 3 1 2 2 5

1) Estimer les tailles des indurations obtenues après la vaccination dans la population
d’enfants âgés entre 5-10 ans
2) Conclure les performances de ces deux méthodes vaccinales.

Exercice 38
Dans une population on s’intéresse aux nouveau-nés on mesure la taille à la naissance la
moyenne µ = 50cm, σ = 6cm.
Sur un échantillon aléatoire de 64 nouveau-nés la taille moyenne est m = 45 cm
Cet échantillon était il tiré de la population d’intérêt.

Exercice 41
Les fréquences de groupes sanguins dans une population déterminée sont les suivantes :

A O B AB
45 % 43 % 9% 3%

On extrait au hasard dans cette population un échantillon de taille n = 64


Au risque α = 5 %, entre quelles limites seront compris les effectifs observés des groupes A et
O?
Pouvez vous répondre à la même question pour les groupes B et AB ?

120
Exercice 39
On veut d’une part estimer les temps moyens de survie d’un lot de souris après injection d’un
poison A ou d’un poison témoin B, et d’autre part comparer ces temps moyens. On constitue 2
lots de 100 souris, les unes recevant A, les autres B et on note le temps de survie, en jours, de
chaque souris, les résultats sont les suivants :

Nombre de Souris
Temps de survie (J) Poison A Poison B

0-4 4 3
5-9 6 5
10-14 25 12
15-19 28 30
20-24 20 20
25-29 15 20
30-34 0 8
35-39 2 2

1- Calculer la moyenne, la variance, l’écart type et l’intervalle de confiance à


95 % de la moyenne du temps de survie
a. Des souris soumises à A
b. Des souris soumises à B
2- Tracer le diagramme en boite de temps de survie des souris des deux
groupes
Comparer les temps de survie après A et B
Exercice 40
Dans une étude sur l’obésité nous avons noté l’apport calorique journalier et la perte moyenne de
poids (en Kg) après un mois chez 7 groupes de femmes soumises à des régimes différents.

Calories 2500 2000 1800 1500 1200 1000 800


perte 1 2 3 5 6 8 10

Qu’elle serait la perte de poids moyenne d’une femme soumise à un régime 1400 calories

Exercice 41
Le tableau suivant résume les notes de biostatistique et le total des notes obtenues par 10
étudiants en médecine

total 200 320 240 215 190 240 180 234 195 210
stat 14 19 18 13 11 17 11 15 10 12

1) tracer le diagramme de dispersion de notes de stat en fonction du total


2) trouver la droite de régression
3) quelle serait la note pour un total = 0 (logique ?)
4) quelle serait la note de stat d’un étudiant ayant un total de 250

121
Exercice 42
Un botaniste vérifie la productivité de 5 variétés de maïs dans 5 lopins de terre de même
dimension et de même fertilité. Les résultats de la production en quintaux se présentent dans le
tableau suivant :

V1 V2 V3 V4 V5
4 7 10 16 10
3 8 14 14 13
6 9 12 10 12
2 8 9 7 10
2 5 5 3 14

A partir de ces résultats le botaniste peut-il conclure à une différence de productivité entre les
variétés de maïs ?

Exercice 43

Une étude s’est intéressée à l’influence de la vitesse d’injection d’un produit anesthésique sur la
tension artérielle systolique (TAS). Trois groupes de patients à anesthésier ont été constitués et
la vitesse d’injection a été de 15 secondes, 30 secondes et 45 secondes respectivement selon le
groupe les valeurs de la TAS figurent dans le tableau suivant :

G1 2 25 18 9 10 16 7 23 16 9 16
G2 28 19 11 21 9 16 23 14 27 23
G3 9 14 6 9 2 6 9 7 6 9

Peut on conclure à un effet de la vitesse d’injection l’anesthésique sur la TAS ?

Problème
Afin de comparer l’endurance entre hommes et femmes, une course de marathon a été organisée.
Le jugement a été porté sur la distance parcourue par chaque coureur avant qu’il n’abandonne la
course. La distance moyenne parcourue par les hommes a été de 40 Km et un écart type de 5 Km,
la moyenne des femmes a été de 30 Km et un écart type de 8 Km. 100 hommes et 100 femmes
ont participé à cette course. En supposant que les distributions des distances parcourues suivent
une loi normale calculez :
a) Le nombre de personnes (hommes et femmes) encore dans la course après avoir parcouru
une distance de 35 Km.
b) Quelle distance doit parcourir un homme pour distancer 90% des femmes ?
c) combien de femmes sont elles encore en compétition après que 75 hommes auraient
quitté la course?

122
Problème

Le tableau suivant résume les données d’une enquête menée auprès d’un échantillon aléatoire de
300 individus sur l’âge de début de l’habitude tabagique et la consommation actuelle de tabac.

Centre classe Effectif Consommation Variance Nombre de


age de début moyenne de la grands fumeurs
(ans) classe au
moment de
l’étude
15 42 17 70,1 8
18 63 14 71,8 7
22 114 13,7 68,2 7
27 81 13 69,3 5
Total 300 27

1) Représentez graphiquement la distribution de l’âge de début de la consommation


tabagique dans la population de l’étude sachant que l’âge maximal du début de cette
consommation a été de 30 ans.
2) Calculez la variance globale de la consommation de tabac dans l’échantillon.
3) A combien peut on estimer le nombre de grands fumeurs dans la population de l’étude
4) Peut on conclure à un effet de l’âge de début sur la consommation actuelle de cigarettes ?
justifier.
5) Peut on conclure à un effet âge sur la fréquence des grands fumeurs actuels ? justifier.

Problème
Un agronome mesure l’efficacité de 03 insecticides sur 05 différentes colonies de fourmis. Il
prélève à chaque fois 100 fourmis de chaque colonie. Le jugement est porté sur le nombre de
fourmis exterminées. Les résultats figurent dans le tableau suivant

Insecticide 1 Insecticide 2 Insecticide 3


40 50 71
35 60 60
50 53 75
43 40 80
47 55 75

Que peut on conclure sur l’efficacité des insecticides ?

123
Problème
Un biologiste teste l’effet de 3 antimitotiques (A, B, C) sur des cellules cancéreuses de même
souche. L’effet est mesuré par le calcul du nombre de cellules détruites. Chaque antimitotique a
été testé 5 fois sur100 cellules, les résultats se présentent ainsi :

Antimitotique A B C
50 71 45
60 60 55
53 75 55
40 80 40
65 70 60

1) Donnez une estimation de la fréquence des cellules détruites par chacun des deux
médicaments ?
2) Peut on conclure à une différence d’efficacité entre ces antimitotiques ?

Problème :
Une étude portant sur la fréquence d’une maladie M a été réalisée dans deux populations A et B.
Les observations ont été réalisées sur deux échantillons de 1500 individus chacun préalablement
tirés de ces deux populations. Le nombre de malade a été noté par tranche d’âge dans chaque
échantillon. Le tableau ci après rassemble les résultats.

Age Echantillon A Echantillon B


malades effectifs malades effectifs

[20-30[ 5 100 20 500

[30-40[ 5 100 25 400

[40-50[ 20 300 30 200

[50-60[ 70 500 35 300

[60-70[ 200 500 40 100

1) Montrer que les âges moyens des différents échantillons sont statistiquement différents.
Préciser le degré de signification.
On donne variance de l’âge pour la population A = 136 ans2 et pour la population B 169 ans2
1) A combien peut on estimer le nombre de malades dans chaque population ?
2) Peut-on conclure à une différence de ces deux proportions dans les deux populations mères ?
justifier la réponse.
Vu les résultats des questions précédentes peut on réellement conclure que la maladie M est plus
fréquente dans la population A.

124
Problème
On s’intéresse à la distribution de la concentration d’une protéine (P) produite par le gène de
l’obésité et à sa relation avec la consommation de tabac. Un échantillon représentatif de 107
personnes a été tiré d’une population multiraciale (A,B) et les résultats figurent dans le tableau
suivant :

Concentration de « P »

Effectif Moyenne variance


Genre

Masculin 41 2,15 0,63


Féminin 66 3,19 0,27

Race
A 21 3,12 0,48
B 86 2,71 0,68

Tabagisme

Non fumeurs 61 2,94 0,64


Fumeurs actuels 15 2,35 0,61
Ex Fumeurs 31 2,71 0,63

2) Quelle est l’estimation de la concentration moyenne de P dans la population générale ?


3) A partir de ces données peut on conclure à une différence de concentration de « P »
selon :
 le genre
 La race
4) En donnant la valeur 0 pour les non fumeurs, la valeur 1 pour les ex fumeurs et la valeur 2
pour les fumeurs actuels
 Tracer la courbe de régression de la concentration de « P » en fonction de l’habitude
tabagique
 Calculer la pente de cette droite
 Peut on conclure à une relation entre la concentration de « P » et le tabagisme.
4) Comparer les moyennes de la concentration de « P » en fonction du tabagisme. Les résultats
des questions 3 et 4 sont ils contradictoires ?

125
126
127
128

Vous aimerez peut-être aussi