LA BIOSTATISTIQUE PR Ben Salem Kamel 1
LA BIOSTATISTIQUE PR Ben Salem Kamel 1
LA BIOSTATISTIQUE PR Ben Salem Kamel 1
ET JUXTAMEDICALES
Le mot « statistique » est d’origine latine « statisticus » c’est à dire se rapportant à l’état.
Au18ème siècle un journaliste allemand « Gottbried Anchenwell -1719-72» a utilisée pour la
première fois le mot « statistik » en remplacement de l’expression Political Arithmetic dans le
même sens que celui du mot latin. De nos jours ce mot a des significations différentes selon
qu’on parle des statistiques ou de la statistique
Les Statistiques :
1
essentiellement par leur variabilité. Les sciences de la vie sont un champ important de
l’application de la statistique.
La statistique descriptive est une méthode de description quantitative, aussi complète que
possible, avec des outils appropriés d’une masse de données numériques ou autres des modalités
de caractères (variables) d’un ensemble d’unités statistiques.
Elle prend la suite de la statistique descriptive lorsque l’on tente d’élaborer une théorie ou
d’extrapoler des résultats observés sur des échantillons. Elle utilise le calcul des probabilités.
I) INTRODUCTION DEFINITIONS
2
Pour ensemble statistique on emploie le terme « population » pour unités statistiques on emploie
le terme « membres de la population ».
Parfois on est amené à étudier un petit groupe des membres d’une population plus large,
notamment dans le cas des enquêtes par sondage ce petit groupe est appelé échantillon
A) VARIABLES QUALITATIVES :
Une variable est dite qualitative quand ses diverses modalités ne sont pas mesurables.
3
Dans sa forme la plus simple la variable qualitative est à deux classes elle est dite dichotomique
ou binaire. Les variables binaires peuvent être booléennes, les modalités sont alors « vrai » ou
« faux » ou bien de Bernouilli et les deux modalités seront codées « 0,1 ». Cette façon de
présenter les modalités d’une variable qualitative est assez fréquente en biologie. Elle permet la
« manipulation » de ces données selon des procédés mathématiques qui seront développés dans
ce cours.
Exemple le groupe sanguin Rhésus a deux classes, il est positif ou négatif, un malade peut être
infecté ou non.
Exemple
* Niveau de scolarité : il est logique de le présenter dans l’ordre primaire, secondaire et
supérieur.
* Niveau économique : bas, moyen, élevé
B) VARIABLES QUANTITATIVES
Une variable est dite quantitative quand ses diverses modalités sont mesurables c’est-à-dire qu’à
chaque modalité est associé un nombre d’observations ou de mesures. Ainsi les modalités
peuvent être évaluées et comparées numériquement.
1) Variables discrètes
Une variable quantitative est dite discrète si les valeurs possibles pour chaque modalité sont des
valeurs isolées sous forme de nombres entiers (le plus souvent). Leur échelle de mesure est une
échelle comptée.
Exemple : nombre d’enfants d’un ménage, parité, gravidité, nombre de colonies d’une boite de
Pétri, nombre de contacts par patient, fréquence cardiaque, rythme respiratoire …
4
2) Variables continues :
Une variable statistique est continue si ses valeurs possibles sont en nombre infini dans un
intervalle donné. Elles correspondent à des valeurs mesurées et chaque mesure peut
(théoriquement au moins) prendre des valeurs entre ±∞. Le facteur limitant demeure le degré de
précision de l’instrument de mesure.
Exemple : la glycémie peut prendre la valeur 6,24789…. mmol/l ce qui limite la lecture c’est
le degré de précision du glucomètre utilisé.
Très souvent, pour étudier une variable continue, on répartit les données en classes. On
discrétise en quelques sorte la variable continue en créant des intervalles de valeurs généralement
croissantes et dans chaque intervalle on indique le nombre des observations. Les classes
deviennent ainsi les modalités de la variable.
3) Variables temporelles
La notion de temps est très utilisée en biologie. Les variables temporelles sont en fait des
variables quantitatives continues mais l’échelle de temps n’est pas une échelle décimale
(secondes, minutes, heures, jours, mois, années, siècles …). Les différentes études sur les délais
leur font appel.
Exemple : durée de rémission d’une maladie, la durée de survie ou tout simplement des délais de
connaître un événement préalablement défini
Les données statistiques telles qu’elles se présentent au fur et à mesure de leur enregistrement ne
forment souvent qu’une masse de données inutilisables immédiatement. La synthèse statistique
5
permet de les organiser et de les présenter sous une forme condensée afin de mieux étudier leur
distribution.
La synthèse d’une distribution statistique peut s’opérer de trois façons :
- Une synthèse par l’image en construisant des graphiques
Les méthodes graphiques sous leurs différentes formes sont les traductions visuelles des
différentes modalités d’une variable. Cette représentation doit traduire le plus fidèlement possible
la réalité. Ainsi on peut :
visualiser la forme générale de la distribution
reconnaître les valeurs extrêmes
détecter des anomalies dans la distribution (pics, des valeurs lointaines ou
exceptionnelles …)
déceler la concentration des informations autour de certaines valeurs
comparer deux ou plusieurs distributions
choisir correctement les paramètres de réduction des variables
Le choix de la méthode graphique dépendra toujours de la nature qualitative ou quantitative de la
variable à représenter.
- Une synthèse par des tableaux
- Une synthèse numérique en calculant des paramètres ou des statistiques (quand les données
proviennent d’un échantillon) cette synthèse fera l’objet d’une session à part.
6
Tableau 1: Distribution du genre des nouveaux nés dans les maternités publiques du gouvernorat
de Monastir au cours de l’année 2002
vi ni
Masculin 3520
Féminin 3373
Total 6893
D’une façon générale, l’effectif total « n » sera la somme des effectifs de chaque modalité.
k
n = n1 + n 2 + .... + n k =
i=1
ni
2) Fréquences relatives
Résumer des données par les fréquences absolues est souvent pauvre d’informations et ne permet
surtout pas de faire des comparaisons entre populations de différentes tailles. Il est plus
intéressant de rapporter les fréquences absolues à un dénominateur.
Définition :
La fréquence relative d’une modalité d’une variable ou plus simplement fréquence (terme que
nous utiliserons pour le reste du cours) notée fi est le rapport entre la fréquence absolue de cette
modalité (effectifs) et la somme de l’ensemble des effectifs de toutes les modalités.
Important :
Dans le calcul des fréquences le dénominateur inclus le numérateur.
7
k k
ni 1 n
i=1 n
=
n
i=1
n i =
n
= 1
Cette fréquence fi s’exprimera en % quand elle est multipliée par 100 et la somme des fi sera
100%. Dans l’exemple de la distribution du genre des nouveaux nés, la fréquence relative des
garçons est de 0,51 soit 51%.
3) Fréquences cumulées
Les fréquences cumulées ont un intérêt pour les variables quantitatives discrètes ou continues
regroupées en classes, ils consistent à sommer d’une façon descendante les modalités ordonnées
de cette variable. Ainsi pour un niveau donné des modalités d’une variable la fréquence cumulée
informe sur la fréquence ou la proportion des observations qui lui est égale ou inférieure (voir
tableau 2).
B) Synthèse tabulaire
Une fois le calcul des différentes fréquences fait celles-ci seront présentées sous forme d’un
tableau.
Le tableau peut être :
élémentaire et indique pour chaque unité statistique les modalités des variable
étudiées. D’un point de vue pratique il correspond à celui que nous utilisons pour
la saisie de données sur les logiciels d’épidémiologie.
Tableau de dénombrement qui contient deux colonnes, dans la première les
modalités d’une variable et dans la seconde les effectifs de chaque modalité
Tableau de traitement qui en plus de celui du dénombrement comprend des
colonnes relatives aux différents calculs statistiques
Les tableaux de dénombrement et de traitement sont ceux obtenus lors de l’analyse statistique.
8
quantitative discrète, peut être transformée en une variable qualitative ordinale en regroupant
les modalités de la façon suivante :
Primipare 1er accouchement
Paucipare 2ème – 3ème accouchement
Multipare 4ème -5ème accouchements
Grande multipare au-delà du 5ème accouchement.
Tableau 2 : Distribution de la parité des femmes ayant accouchés dans les maternités publiques
du gouvernorat de Monastir en 2202
Les deux premières colonnes (vi , ni) constituent un tableau de dénombrement, l’ensemble est un
tableau statistique .
Après transformation de la variable parité en une variable ordinale le tableau sera :
9
Tableau 3 : Transformation de la parité en variable ordinale
10
Définition 1 :
Une classe est un intervalle mathématique dans lequel on regroupe des valeurs d’une variable
quantitative. Une classe a deux bornes une inférieure et une supérieur. Toutes les modalités de la
variable doivent appartenir à une classe donnée et chaque modalité doit figurer dans une et une
seule classe. Les classes sont dites exhaustives et mutuellement exclusives.
Définition 2 :
On appelle amplitude d’une classe la différence entre la valeur de la borne supérieure et celle de
la borne inférieure.
Définition 3 : on appelle centre d’une classe la moyenne arithmétique des valeurs des bornes
inférieures et supérieures de cette classe.
S’agissant en fait d’une variable quantitative continue les classes doivent être également continue
leur représentation se fera par des intervalles semi-ouverts à droite. La valeur de la borne
supérieure d’une classe appartient à la classe adjacente.
Exemple :
Pour le poids des nouveaux nés, réparti dans des classes de 200g, les bornes de la première classe
sont [300 – 500 [la valeur exacte 500 bien qu’étant la limite supérieure de la première classe
appartient en fait à la classe suivante [500-700[. Elle servira cependant pour le calcul du centre de
la classe [300–500[soit c1:
300 + 500
c1 = = 400 g
2
La valeur 400 g sera la modalité de la variable poids pour l’ensemble des effectifs de cette
classe.
Remarque
Les valeurs prises par une variable quantitative discrète peuvent être assimilées à des centres de
classes « fictifs » et on peut dire d’une façon purement théorique que parité égal 2 est le centre
d’une classe hypothétique [1,5-2,5[
11
Avec l’ensemble de ces définitions et transformations nous pouvons résumer les nouvelles
différentes modalités de la variable poids (classes) dans un tableau en appliquant les mêmes
principes de la représentation tabulaire des variables qualitatives ou quantitatives discrètes.
Les variables qualitatives nominales ou ordinales peuvent être correctement synthétisées par un
diagramme en bâtonnets ou un diagramme circulaire dit en secteur (camembert).
1) Le diagramme en bâtonnets
Le diagramme en bâtonnets est établi en traçant un axe horizontal qui servira uniquement de
support pour les modalités de la ou les variables à représenter par ce graphique. On mettra les
bâtonnets à la verticale de cet axe, la hauteur de chaque bâtonnet sera proportionnelle à
l’importance d’une modalité par rapport aux autres. Cette hauteur peut être exprimée en
fréquence absolue ou relative.
Exemple :
Dans la maternité du Centre Hospitalo Universitaire de Monastir en l’an 2002 nous avons
enregistré 6893 naissances dont 3520 de genre masculin.
3600
3500
3400
3300
3200
Masculin Féminin
12
Représentation graphique par un diagramme en bâtonnets d’une variable qualitative ordinale
(figures 2, 3).
La distribution de la parité groupée en classes des femmes ayant accouché à la même maternité
en 2002 se présente ainsi :
2210 primipares
3360 paucipares
1323 multipares
4000
3000
2000
1000
0
Primipare Paucipare Multipare
Dans sa forme la plus simple le même diagramme en bâtonnets peut se présenter sous cette
3500
3000
2500
2000
1500
1000
500
0
forme: Primipare Paucipare Multipare
13
2) Le diagramme en secteur
Ces mêmes variables peuvent être représentées par un autre type de diagramme de forme
circulaire dit en secteur ou plus communément appelé « camembert » ou pie chart en anglais.
Un secteur équivaut à l’angle interne formée par deux rayons d’un cercle (un cercle contient
360°).
Il s’agit ici de convertir les fréquences des modalités en angles (les secteurs ou portions du
camembert) proportionnels à l’importance d’une modalité par rapport à l’ensemble des
modalités.
2210 °
× 360 = 116
6893
14
Remarque : les logiciels actuels donnent la possibilité de faire ces représentations graphiques
dans l’éspace en trois dimensions, ceci n’ajoute absolument rien au message véhiculé par un
graphique à deux dimensions.
D) Représentation graphique d’une variable quantitative
Une variable quantitative peut être, comme nous l’avons vu, discrète ou continue. La
représentation graphique d’une variable discrète est facilement concevable celle d’une variable
continue l’est moins. Une variable quantitative peut prendre des valeurs allant théoriquement de -
∞ à +∞, l’occurrence des différentes mesures est ainsi impossible à déterminer. Il convient alors
de transformer cette variable continue en créant des classes (intervalles de mesures) et de
représenter le nombre de mesures dans cet intervalle. Il s’agit en quelque sorte de transformer une
variable quantitative continue en une variable discrète.
1) Variable quantitative discrète
Une variable quantitative discrète est une variable dont les modalités prennent des valeurs
entières et d’effectifs ni. La représentation graphique dans ce cas rejoint celle du diagramme en
bâtonnet avec la différence que l’axe des abscisses est un axe mathématique et où les modalités
sont portées sur cet axe d’une façon croissante. .
Reprenons l’exemple de la parité du tableau 2
La parité tel que présentée dans ce tableau est une variable quantitative discrète, sa représentation
graphique sera ainsi :
Effectifs
2500
2000
1500
1000
500
0
0 1 2 3 4 5 6 7 8 9 10 11
Parité
Figure : distribution de la parité des femmes ayant accouché dans les maternités publiques de la
région de Monastir en 2003
15
2) Variable quantitative continue
La représentation graphique d’une variable quantitative continue ne sera possible qu’après
regroupement des mesures dans des intervalles qui seront comme déjà vu l’équivalent des
modalités de cette variable. Il serait ainsi possible de rapporter les effectifs de ces modalités sur
des axes et nous obtiendrons ainsi une figure où c’est la surface du rectangle ayant pour base
l’amplitude de la classe et comme hauteur les effectifs (ou les fréquences relatives) de cette classe
qui indiquera l’importance d’une modalité par rapport à une autre. La figure obtenue est appelée
histogramme.
16
- Si le nombre est trop restreint il en résulte une perte d’information
- Si le nombre est trop élevé, il fait apparaître des irrégularités accidentelles
Une formule permet d’avoir à priori une idée sur le nombre optimal n de classes à construire n ≈
1 + 3Log N, N le nombre d’observations et Log (base 10).
Le tableau 4 nous donne la distribution du poids à la naissance des nouveaux nés regroupés par
classes de 500 grammes des maternités publiques de Monastir en 2002.
D’après la formule ci-dessus le nombre de classes est égal à 12. Nous avons choisi 10 classes
pour éviter de diluer encore plus les effectifs des deux premières classes.
La différence entre la plus grande et la plus petite mesure de la distribution (appelée amplitude de
la distribution:sera sera définie ultérieurement). L’amplitude « a » des classes se calcule en
divisant cette différence par le nombre de calasses. Dans notre exemple on aura (5300 – 300) / 10
= 500 grammes.
De même on comprend à partir de ce tableau les notions de densité d’effectifs et de densité de
fréquences, l’amplitude des classes étant de 500g
Tableau 4 : Distribution du poids à la naissance des nouveaux nés regroupés par classes de 500
grammes des maternités publiques de Monastir en 2002
17
A partir de ce tableau nous pouvons construire le graphique suivant :
3000
2500
2000
Effectifs 1500
1000
500
0
Poids (classes de 500g)
300 g 5300 g
Pour des classes d’amplitudes inégales par exemple on regroupe la 5ème et la 6ème classe on aura
une classe d’amplitude mille grammes mais la hauteur serait de (539+2061) /2 = 1300.
18
2500
2000
1500
1000
500
Avec les densités de fréquences relatives on peut interpréter correctement les valeurs d’2 = 0,008
% et d’3 = 0,047 en disant que dans la tranche de poids comprise entre [1300-2800[chaque
gramme représente 0,008 % des nouveaux nés et 0,047% pour la tranche suivante [2800-4800[.
4) Polygone de fréquence
Nous avons vu que l’histogramme est la représentation graphique d’une variable quantitative
continue regroupée en classes. Le polygone de fréquence est la courbe obtenue en joignant les
milieux des sommets des rectangles de l’histogramme. Si au préalable on ajoute deux classes
fictives aux extrémités (1et 7 de la figure suivante) d’effectifs nuls, le polygone de fréquence
coupera l’axe des abscisses et la surface ainsi délimitée sera la même que celle de l’histogramme
(figure suivante).
Polygone de fréquences
7
1
19
5) Le polygone des fréquences cumulées
C’est une autre représentation graphique des variables quantitatives regroupées en classes où on
représentera dans un système d’axes orthogonaux portant en abscisses les extrémités supérieures
(cs ) des classes et en ordonnées les fréquences cumulées correspondantes (Fc ). Pour l’exemple
de la distribution du poids de naissance, le polygone des fréquences cumulées aura l’aspect
suivant :
Courbe des fréquences cumulées du poids des nouveaux nés regroupés
en classes
(%)
100
80
60
40
20
0
0 500 1000 1500 2000 2500 3000 3500 4000 4500 5000 5500
Poids
1) Diagramme polaire
Le diagramme polaire également dit en radar est utilisé lorsque les observations de la variable
étudiée appartiennent à des sous populations dont chacune a deux ou plusieurs modalités.
Remarque :
En cordonnées polaires chaque point sera repéré par l’angle que fait l’axe des abscisses avec celui
des ordonnées et la distance entre ce point et le point d’intersection des axes.
α 20
O X
Exemple:
Dans une étude sur la perception des étudiants de leurs enseignants, une étude a été menée
auprès de cinq cohortes de 794 étudiants de la faculté de médecine de Monastir. Elle a été basée
sur un questionnaire explorant cette dimension a travers des propositions et où les étudiants
devraient indiquer sur une échelle leur degré d’accord avec les propositions. Pour simplifier
l’exemple nous avons dichotomisé cette échelle soit d’accord ou en désaccord. Les résultats ci
dessous indiquent le pourcentage d’étudiants en accord avec la proposition :
Se soucient des étudiants 43,7 %
Disponibles pour les étudiants 41,4 %
Aiment enseigner 71,6 %
Responsabilisent les étudiants 63 %
Respectent le choix des étudiants 37,5 %
Se préoccupent de la qualité du cours 65 %
Cherchent à comprendre les difficultés des étudiants 34 %
Enseignent la communication médecins patients 36,9 %
Chaque proposition est une sous population de la variable « relation enseignants enseignés » et
chaque axe représente une proposition. Le graphique polaire se présente ainsi
100
43,7
50 41,4
36,9
0
34 71,6
65 63
37,5
21
On aurait pu également représenter ces réponses selon les cohortes et on aurait obtenu cinq
courbes sur le même diagramme.
2) Autres diagrammes
Nous rappelons à ce niveau la pyramide des âges (cours démographie) qui comme nous l’avons
présenté, est la représentation graphique de la distribution de la population selon l’âge et le genre.
La cartographie discipline à part entière permet de représenter une variable dont les modalités ont
une distribution spatiale. Elle dépasse le cadre de ce cours.
Le diagramme en boite sera étudié plus loin dans l’étape analyse des données selon la méthode de
Tukey.
Outre les méthodes déjà décrites pour la synthèse des différentes distributions des variables, ces
distributions statistiques ont l’avantage d’être manipulées par différentes méthodes
mathématiques permettant de décrire leurs caractéristiques. Nous pouvons distinguer les
caractéristiques de tendance centrale et les caractéristiques de dispersion.
A) Le mode
1) Définition
On appelle mode également appelée valeur dominante d’une distribution la ou les valeurs qui ont
les effectifs les plus élevés. Une série peut être uni, bi ou multimodale. <Définition/>
Dans l’exemple de la parité des femmes ayant accouché dans les maternités publiques de
Monastir les primipares constituent la classe modale.
Pour une variable quantitative continue on ne peu pas parler de mode mais de classe modale.
Pour la distribution du poids de naissance regroupée en classe, la classe [3300- 3800[ est la
classe modale.
22
Distribution unimodale Distribution bimodale
B) La médiane
Définition et calcul
La médiane est la valeur qui divise la distribution d’une variable quantitative en ordre croissant
ou décroissant en deux groupes de même effectifs. Ainsi nous devont calculer sa position et
reconnaître sa valeur.
La position de la médiane notée Pos (méd) est déterminée par la formule suivante :
La valeur de la médiane notée « x% » est celle de l’observation ayant le rang de la position ainsi
calculée.
Deux situations se présentent :
Si n est impair la position de la médiane est un nombre entier et sa valeur est celle correspondant
à ce rang.
23
Si n est pair sa position sera comprise entre n/2 et (n/2 ) + 1 sa valeur sera la moyenne
arithmétique des valeurs de ces deux positions.
entre la 6ème n/2 et la 7ème (n/2 ) + 1 observation, sa valeur sera égale à x% = (70+71) / 2 = 70,5
Kg.
( 0 , 5 − f c in f )
x% = b i n f + a i
( f c s u p − f c in f )
ou
( fc sup − 0 , 5 )
x% = b s u p − a i
( f c s u p − f c in f )
24
Application
(0, 5 − 0, 42 )
x% = 3300 + 500 ≈ 3411 g
(0, 78 − 0, 42 )
ou
(0, 78 − 0,5)
x% = 3800 − 500 ≈ 3411g
(0, 78 − 0, 42)
Nous avons utilisé les fréquences relatives (après les avoir arrondies) dans ces formules, on aurait
eu les mêmes résultats avec les effectifs cumulés.
3) Propriétés de la médiane
25
C) Les quantiles
1) Définition
On appelle quantile d’ordre α d’une variable statistique V dont les valeurs sont rangées par ordre
croissant la valeur de V notée x α tel que α % des valeurs observées lui sont inférieurs.
Ainsi pour un quantile α il faut déterminer sa position et sa valeur.
Les quantiles les plus utilisés sont les quartiles, les déciles et les centiles a sera égale à 4 pour les
quartiles, 10 pour les déciles, 100 pour les centiles …
Un quantile divise la distribution en α % de valeurs inférieures et (1- α %) de valeurs
supérieures.
2) Les quartiles
Définition :
On appelle quartiles d’une distribution d’une variable quantitative V ordonnée d’une façon
croissante, les valeurs correspondants aux quantiles 25%, 50% et 75%. Ils divisent la distribution
en 4 parties contenant chacune 25% des observations.
Les quartiles, au nombre de trois (1er, 2ème et 3ème quartile), sont notés Q1, Q2 et Q3 Q2 le
deuxième quartile correspond à la médiane.
D’une façon générale le rang d’un quartile peut être calculé selon la formule
n
r = i + 0, 5
4
avec r = rang du quartile , i ordre du quartile, n = nombre d’observations de la distribution.
Pour le 2ème quartile de la distribution du poids des 11 étudiants aura le rang
2 × 11
r = + 0 .5 = 6
4
3) Autres quantiles
26
contenant chacune 10% des mesures. Les fréquences cumulées 10%, 20% , ...,
90% sont associées aux déciles D1, D2 ,…, D9. Le 5ème décile est la médiane.
Les centiles divisent la distribution d’une variable quantitative ordonnée selon
les valeurs en 100 parties égales contenant chacune 1% des mesures. Le 10ème
percentile est évidemment le 1er décile et le 50ème la médiane.
Les milliles divisent avec la même logique la distribution en 1000 parties égales
contenant chacune 1‰ des mesures.
D) La moyenne arithmétique
La moyenne arithmétique d’une variable quantitative sera représentée par le symbole X
quand elle est calculée sur des données d’un échantillon soit le symbole μ quand il s’agit d’une
population.
6 2 + 6 4 + 6 5 + .... + 7 5 + 7 8
= 6 9 , 8 K g
1 1
k
n1 x1 + n 2 x 2 + ... + n k x k 1
X =
n1+ n 2 + ... + n k
=
n
i =1
ni xi
n = n1+n2+…+nk
27
Cette moyenne est également appelée moyenne arithmétique pondérée.
La moyenne peut également s’écrire : k or
n1 n2 nk
X = i=1 n
x1 +
n
x 2 + ... +
n
xk
n1 n d’où k
= f 1 , 2 = f 2 etc ... X = f i xi
n n i =1
(12 × 550) + (36 ×1050) + (50×1550) + ... + (263× 4550) + (45× 5050)
X= = 3392,5g
6893
28
Remarque : Le calcul de la moyenne du poids sur les données brutes non regroupées en classes
donne un résultat différent. Le regroupement en classes fait perdre une certaine quantité de
l’information.
Si on considère les différentes fréquences relatives comme étant la loi de distribution de la
variable en question, k
est appelée espérance mathématique de x, elle sera notée
X =
i=1
fi xi
E(X).
Discipline A B
Anatomie 10 0
Statistiques 10 20
Biophysique 10 10
Ces deux étudiants auront chacun 10 de moyenne arithmétique, mais il est évident qu’ils ne sont
pas sont pas identiques.
4) Propriétés de la moyenne
Les principales propriétés de la moyenne arithmétiques découlent de la transformation des
variables. Nous citons les plus fréquentes :
29
moins c quand la transformation est une soustraction). Nous pouvons également
,
écrire E(X ) = E(X) + c
E) Autres moyennes
1) La moyenne géométrique
La moyenne géométrique est intéressante à calculer quand les mesures suivent une progression
géométrique ou si la variable a eu une transformation logarithmique.
n n
d’une façon plus simple G = n Π xi i . Ainsi présentée la moyenne géométrique est de calcul
i =1
log G =
n1 log x1 + n 2 log x 2 + ... + n i log x i
, d’une façon plus simple log G =
n i log xi . Cette
n ni
simplification permet d’énoncer
Définition : le logarithme de la moyenne géométrique et égal à la moyenne arithmétique des
logarithmes des mesures de la variable.
30
Exemple : Le tableau suivant indique les notes obtenues par un groupe d’étudiants
Notes Nombre log(xi) ni log(xi)
xi d’étudiants (ni )
2 3 0,3 0,6
3 5 0,477 2,385
5 8 0,699 5,592
6 5 0,778 3,89
8 3 0,903 2,709
10 1 1 1
25 3 5 8 5 3
G = 2 × 3 × 5 × 6 × 8 × 10
0 , 6 + 2 , 3 8 5 + 5, 5 9 2 + 3, 8 9 + 2 , 7 0 9 + 1
lo g G = = 0 , 6 5 et G≈ 4,5 Remarque : Une seule
25
note égale à zéro aurait donné une moyenne géométrique nulle.
2) La moyenne harmonique
La moyenne harmonique est l’inverse de la moyenne arithmétique des inverses des mesures.
H = 1 n
1 1
n
i =1 xi
3) La moyenne quadratique
Se définit comme la racine carrée de la moyenne arithmétique des carrés des mesures
n
1
Q =
n
i=1
x i
2
Nous avons déjà vue qu’une variable qualitative peut être assimilée à une variable de Bernouilli
quand elle est dichotomique et ses modalités codées 0 et 1. Cette approche considère la variable
qualitative comme une variable quantitative et aura par conséquent des caractéristiques de
tendance centrale (moyenne) et de dispersion (voir ce qui suit). Pour le calcul de la moyenne
31
reprenons l’exemple de la parité des femmes (voir tableau 2) mais après l’avoir transformé en
primipare codée « 1 » et autre codée « 0 ».
Ainsi transformée la variable parité aura deux modalités selon le tableau suivant
Dans cet exemple les valeurs des différents xi (k modalités de la variable) sont désormais 1 et 0.
k
Reprenons la formule de la moyenne arithmétique [E(X)] µ = f i xi 0,321× (1) + 0, 679 × (0)
i =1
V) CARACTERISTIQUES DE DISPERSION
Nous avons déjà signalé au moins un inconvénient des moyennes (leur sensibilité aux valeurs
extrêmes) à travers celui de la moyenne arithmétique, nous présenterons dans ce qui suit d’autres
statistiques qui permettent de compléter et d’améliorer la qualité de l’information que peut nous
fournir la distribution d’une variable. Les caractéristiques de dispersion vont justement nous
donner une idée sur la dispersion des données autour de la caractéristique de tendance centrale.
32
Poids (xi) 62 64 65 67 67 70 71 74 75 75 78 84
-9 -7 -6 -4 -4 -1 0 3 4 4 7 13
(x i −X )
2 81 49 36 16 16 1 0 9 16 16 49 169
(x i −X)
D’après ce tableau nous remarquons que la somme des écarts des mesures par rapport à la
moyenne est nulle. La somme des écarts au carré par contre est non nulle. Cette somme est
utilisée pour calculer la variance notée σ 2 qui est le carré moyen des écarts des mesures par
rapport à la moyenne de la distribution. La formule de la variance s’écrit ainsi :
1 n
σ = ( xi − X )2
2
x
n i =1
n étant le nombre d’observation et xi les mesures de la variable.
La variance est un carré dont l’unité est bien sur le carré de l’unité de la variable étudiée, la
racine carré positive de la variance donne un paramètre de même unité et s’appelle écart type
noté σx.
σ x = σ x2
2) Développement du calcul de la variance
Le développement de la formule de la variance permet de simplifier son calcul et facilitera la
compréhension des tableaux d’analyse de variance qui seront largement utilisés dans le module
sur les inférences statistiques.
n
La somme
i =1
( x i − X ) 2 peut se développer de la façon suivante :
x 12 − 2 x 1 X + X 2
+
2 2
x 2 − 2 x 2 X + X +
......................... +
......................... +
2 2
x n − 2 xi X + X
n n
=
i =1
x i2 − 2 X
i =1
xi + n X 2
33
Cette somme peut s’écrire
n
n x i n n
x
i =1
i
2
− 2 nX i =1
n
+ nX 2
⇔ x i =1
i
2
− 2 nXX + nX 2
⇔ x
i =1
i
2
− nX 2
x i
Elle peut également s’écrire en remplaçant la moyenne X par i = 1
n
2 2 2 2
n
n
n n n
n n xi xi n
2 xi xi n xi
x i
2
− 2 x i i =1 + n i =1
⇔ x i2 − i =1 + i = 1 ⇔ x i2 − i =1
i =1 i =1 n n i =1 n n i =1 n
2
n
n n n xi
( xi − X ) 2 x i2 − n X 2
x i2 − i =1
2 i =1 i =1 i =1
n
σ x = = =
n n n
1 n 2
Maintenant si on se rappelle que la moyenne quadratique Q = xi
n i =1
la formule de la
2
k
k k nix i
nix i
2
− n X 2
nix i
2
− i=1
2 i=1 i=1 n
σ x = =
n n
34
2
σ X2 = E ( X 2 ) − ( E ( X ) )
3) Propriétés de la variance
Reprenons les situations qui nous ont permis d’étudier les propriétés de la moyenne
arithmétique :
'
Soit la variable X’ définie par xi = xi + c , c étant une constante.
n n 2
2
(x '
i −X '
) ( xi + c ) − X '
, X ' la moyenne arithmétique de X’et n le nombre de
σ X2 ' = i =1
= i =1
n n
mesures, or X ' = X + c
n 2 n 2
(x + c )−
i ( X + c
) ( xi − X )
σ 2
X ' = i =1
⇔ σ 2
X ' = i =1
σ 2
X ' = σ 2
X
n n
La variance ne change pas
Soit maintenant la variable X’ définie par xi' = hxi h étant une constante la
moyenne arithmétique de X’ est X ' = hX , la variance serait :
n n 2 n
2 2
(x '
i − X '
) (h x i − hX ) h 2 ( xi − X )
σ X2 ' = i =1
= i =1
= i =1
= h 2σ X2
n n n
k
E(X 2) =
i =1
f i x i2 = p × 1 2 + q × 0 2 = p
2
et E ( X ) = p 2 d’où σ X2 = p − p 2 = p (1 − p ) = pq
35
4) La variable centrée réduite
xi − X
Soit la variable Z définie par Z= , calculons la moyenne et l’écart type de cette
σX
nouvelle variable ( X = moyenne des xi et σx leur écart type).
Z =
( xi − X ) , nous avons déjà vue que (x i −X )= 0 d’où Z = 0
nσ x
x − X
2
i
σ X
−
Z
et 1 2 σ X2
σ 2
z =
n
=
n σ X2 ( xi − X ) =
σ X2
=1
Important :
Ainsi la moyenne de la variable centrée réduite est nulle et son écart type égal à 1
5) Coefficient de variation
Le coefficient de variation corrige une erreur que nous pouvons facilement commettre avec le
changement d’unité d’une variable en la multipliant par exemple par une constante. D’après ce
que nous venons de voir la nouvelle variance et par conséquent l’écart type de la nouvelle
distribution sera un multiple de l’écart type de la distribution de la variable d’origine. Peut on
dire alors que la variable est h plus dispersée plus dispersée dans sa nouvelle distribution?
Le coefficient de variation permet d’apporter une réponse.
<Définition> le coefficient de variation noté « CV » est le rapport, exprimé en pourcentage, de
l’écart type d’une distribution par la moyenne arithmétique de cette distribution. <Définition/>
σ X
CV = × 100
X
Reprenons le cas de la variable X’ définie par hX la moyenne de X est X et l’écart type σ X la
36
Le coefficient de variation ne change pas.
Par ailleurs le coefficient de variation est sans unité il permet de comparer la variabilité de
variables de nature différente.
37
C) Analyse d’une variable quantitative selon la méthode de Tukey
5 6 7 8 9
6 0 0 2 2 4 5 57
7 0 2 2 3 5 7
8 0 2 3
Ainsi cette représentation est riche d’informations. Nous pouvons déjà deviner l’allure de la
distribution des données, elle permettra aussi de calculer de façon assez facile certaines
statistiques (médiane, quartiles …).
38
2) Calcul des caractéristiques de la distribution
21 + 1
Position de la médiane : = 11 il suffit de lire la valeur correspondant au rang 11, q 2 = 65
2
11 + 1
La position du 1er quartile est de = 6 sa valeur de q1 = 60 .La position du 3ème quartile
2
est la 6ème position par ordre décroissant sa valeur est q3=73
Ecart interquartile : EIQ : 73-65 = 8
A coté de ces caractéristiques Tukey propose de rechercher les valeurs dites lointaines et les
valeurs exceptionnelles de la distribution.
Ces valeurs peuvent être soit supérieures au 3ème quartile soit inférieures au 1er quartile.
Définition :
Les valeurs lointaines sont les valeurs qui se trouvent à une distance comprise entre une fois et
demi l’écart interquartile et trois fois cet écart à partir des quartiles.
V L q1 < q 1 − 1 , 5 E I Q et V L q3 > q 3 + 1, 5 E IQ
Définition : Les valeurs exceptionnelles sont celles qui se trouvent à une distance égale à trois
fois l’écart interquartile à partir des quartiles.
VEq1 < q1 − 3 EIQ et VEq3 > q3 + 3 EIQ
D’une façon générale nous pouvons écrire :
VE q < ( q1 − 3 E IQ ) < VL q1 < ( q1 − 1, 5 EIQ )
1
Pour l’exemple des fréquences cardiaque des étudiants les valeurs lointaines seront
60-3x8 <VLq1< 60 -1,5x8 36< VLq1<48
70 +3x8 > VLq3>70+1,5x8 94> VLq3>82
Les valeurs exceptionnelles seraient celles supérieures à 94 et celles inférieures à 36, non
observées dans notre distribution
Remarque : Il est important de rechercher les valeurs lointaines et exceptionnelles dans une
distribution car elles peuvent cacher des informations intéressantes et surtout de trouver une
explication qui peut être une erreur de mesure, de codage, de transcription etc… sinon il faut les
considérer comme des « outliers » selon l’appellation anglaise.
39
3) Le diagramme en boite
Une fois toutes les caractéristiques de la distribution calculée selon la méthode déjà décrite,
Tukey propose de résumer ces informations sur un diagramme dit « diagramme en boite » ou
« box plot » selon les anglo saxons.
Ce diagramme se présente sous forme d’un axe jouant le rôle de repère et qui représente la
variable quantitative analysée. L’unité de l’axe est bien sur celle de la variable en question. Puis
on repère sur cet axe les différentes caractéristiques de la variable. On trace au dessus de cet axe
deux barres verticales à l’aplomb des valeurs de q1 et q3, joindre par la suite les sommets de ce
deux barres de façon à avoir un rectangle (un boite) et repérer par une croix la position de la
médiane à l’intérieur de la boite. Une fois le rectangle construit on tire une horizontale à partir de
q1 jusqu’à la plus petite valeur et de q3 jusqu’à la plus grande valeur. Ainsi on obtient un
diagramme qui a l’allure de « deux moustaches » et certains auteurs l’appelle d’ailleurs
diagramme en moustaches.
Pour la fréquence cardiaque des étudiants le diagramme en boite aura l’aspect suivant :
40
STATISTIQUE DESCRIPTIVE À DEUX DIMENSIONS
Nous avons appris dans la première partie de ce cours comment nous pouvons décrire une
variable en synthétisant, par des outils appropriés, les données relatives aux modalités de cette
variable. Nous rappelons également qu’une variable est une caractéristique d’une unité statistique
et cette unité peut être décrite par plusieurs variables pouvant être qualitatives et/ou quantitatives.
L’analyse bivariée consiste à reprendre la même démarche que celle de l’analyse uni variée mais
la synthèse des données se fera d’une façon conjointe pour deux variables définie sur une même
population. Le plus souvent nous aurons à décrire en même temps soit les modalités de deux
variables qualitatives, soit les modalités d’une variable qualitative à celles d’une variable
quantitative soit enfin les modalités de deux variables quantitatives.
Les résultats de l’analyse bivariée sont souvent utilisés pour établir des relations entre les
différentes variables de l’étude, objet du cours d’épidémiologie que nous vous recommandons de
consulter.
1) Le tableau de contingence
Y
j=1 j p total
i= 1 n11 n1j n1p nx1
Soit deux variables, X à k modalités et Y à p modalités, définies sur une même population de n
individus, la synthèse simultanée des données relatives à ces deux variables peut se faire à l’aide
d’un tableau dit tableau de contingence ou à double entrée. Ce tableau aura k lignes et p colonnes
41
délimitants k x p cellules. Si on note ki les modalités de la variable X (i=1…k) et pj les modalités
de la variable Y (j=1…p) chaque cellule du tableau, intersection de la ième ligne et la jème colonne,
contiendra le nombre d’unités statistiques nij ayant en même temps la kième et la pjème modalité des
variables X et Y. Le tableau de contingence aura la forme suivante :
Remarque :
Le tableau de contingence reste la meilleure façon de résumer conjointement deux variables
qualitatives ou une variable qualitative et une quantitative notamment quand les données de cette
dernière ont été regroupées en classes. L’étude simultanée de deux variables quantitatives sera
traitée à part.
Exemple 1 : Distribution des catégories majeures de diagnostic (CMD) des personnes âgées de 60
ans et plus selon la nature des hôpitaux (universitaire ou non) de la région sanitaire de Monastir
entre 1993 et 1994.
Dans ce tableau les deux variables décrites conjointement, CMD et nature de l’hôpital, sont deux
variables qualitatives.
42
Exemple 2 : Distribution des mêmes personnes âgées selon le genre et l’âge (regroupés en
classes)
Genre Total
Masculin Féminin
[60-70[ 2415 2385 4800
Age [70-80[ 1869 1326 3195
80 et plus 599 415 1014
Total 4883 4126 9009
43
Ainsi chaque colonne du tableau de l’exemple « 1 » (sauf celle du total) les valeurs des
différentes cellules représentent les distributions conditionnelles des « CMD » pour un hôpital
donné. De même chaque ligne (sauf celle du total) représente la distribution conditionnelle d’une
« CMD » dans chaque hôpital.
6000
5000
4000
3000
2000
1000
0
CHU HR
44
Une variante du diagramme standard consiste à représenter pour chaque modalité de la variable
en abscisses une barre faite de la superposition de rectangles de bases égales mais de hauteurs
proportionnelles aux distributions conditionnelles des modalités de la deuxième variable. La
hauteur de chaque barre représente 100%.
100%
80%
60%
40%
20%
0%
45
exemple
On s’intéresse à la distribution de la tension artérielle systolique dans une population faite de
fumeur et de non fumeur. Les deux variables d’intérêt sont le statut de l’individu (tabagique ou
non) qui est une variable qualitative et la valeur de la tension artérielle systolique pour chaque
individu qui est une variable quantitative.
Statut TA systolique (mm Hg)
Fumeur 110 120 125 130 140 140 150 160 165 170
Non fumeur 85 90 95 110 120 130 140 150 155 160
Fumeur :
n=10 Q1=125, Q2= 140 Q3=160
Non fumeur
N= 10 Q1= 95, Q2=120 Q3= 150
Diagramme en boite de la distribution de la tension artérielle systolique chez les fumeurs et les
non fumeurs.
Interprétation
Cette figure montre une distribution des mesures de la TA systolique symétrique chez les
fumeurs (en rouge) et chez les non fumeurs (en vert) autour des médianes. les valeurs extrêmes
46
inférieures est supérieures sont plus faibles chez les fumeurs que chez les non fumeurs.
Cependant l’écart interquartile est plus important chez les non fumeurs (50 mm Hg ).
B) Distribution statistique de deux variables quantitatives : corrélation et régression
linéaire
47
<Exemple> : soit deux points A et B de coordonnées respectifs (1,1) et (3,3), la pente de cette
droite sera 3 − 1 , la pente est positive, et en appliquant les termes de cette équation
b = = 1
3 − 1
0
0 1 2 3 4
Autre exemple :
Cherchons l’équation de la droite qui passent par les points A (-3, 3) et B (2,1) et traçons cette
droite.
forme y = -0,4x + a, appliquons les termes de cette équation au point A par exemple nous
pouvons écrire
3 = −0, 4 × ( −3) + a a = 1,8 et l’équation de la droite qui passe par les points A et B
s’écrit y = −0, 4x + 1,8 .
48
Sa représentation graphique se présente ainsi :
0
-4 -2 0 2 4 6 8
-1
-2
En réalité dans les sciences biologiques les couples de valeurs des variables quantitatives
n’obéissent exactement à une loi mathématique préétablie qu’exceptionnellement.
Exemple :
Le poids à la naissance de 3 nouveaux nés en fonction de l’âge gestationnel se présente
ainsi (registre des naissances 2002):
49
38
Poids de naissace en grammes
36
34
(x100)
32
30
28
36 37 38 39 40
Sur ce graphique nous pouvons tracer 3 droites passant chacune par deux points comme le
montre la figure ci dessous.
La droite passant les points de coordonnées (37,3000) et (38,2800) aura comme équation :
y = −200 x + 6800
La droite passant par les points (37,3000) et (39,3650) aura comme équation : y = 325 x − 9025
La droite passant par les points (38,2000) et (39,3650) aura comme équation :
y = 1650 x − 60700
Poids de naissance en grammes (X100)
40
38
36
34
32
30
28
36 37 38 39 40
Semaines
50
Ainsi on se demande alors quelle équation choisir pour mieux estimer le poids de naissance en
fonction de l’âge gestationnel ? La réponse nous est suggérée par la figure suivante où nous
avons glissé une droite passant entre les trois points de tel sorte à rendre minimum le carré des
écarts des différentes mesures de la variable dépendante (ici le poids à la naissance) par rapport à
celles qui seraient théoriquement calculées en utilisant l’équation de cette droite.
Cette droite est alors appelée droite des moindres carrés
2
36 37 38 39 40
Nous rappelons que l’équation d’une droite est de la forme y = bx + a, où « b » est la pente de la
droite et « a » une constante. Il nous faut alors déterminer « b » et « a ».
Nous constatons par ailleurs qu’avec cette droite nous allons avoir, en supposant que les
différentes valeurs xi sont mesurées sans erreurs, pour chaque xi une valeur yi observée et une
valeur notée ŷi (yi chapeau) calculée selon l’équation de la droite soit un écart noté ei entre la
courbe et les valeurs observées, cette différence est positive ou négative. Pour chaque yi nous
pouvons écrire y i = yˆ i + e i y i = b x i + a + e i et e i = y i − b x i − a .
La droite recherchée est celle qui rend minimum la somme des carrées de ces écarts. On
démontre également que cette droite passe un point G, appelé centre de gravité du nuage des
points et a comme coordonnées ( X ,Y ) moyennes arithmétiques des xi et yi des valeurs
observées.
Pour retrouver les paramètres « a » et « b » on doit résoudre le système
51
n n
i =1
yi = n a + b xi
i =1
n n n
i =1
x i y i = a x i + b x i2
i =1 i =1
n
1 n
n
i =1
xi yi −
n
i =1
xi
i=1
yi
b = 2
n
1 n
i=1
n
x i2 −
i=1
xi
b peut s’écrire également :
(x i − X )( y i − Y )
b = i=1
n
en divisant le numérateur et le dénominateur par n on aura
i=1
( xi − X ) 2
cov ( x , y )
b=
var ( x )
Une fois « b » calculée nous pouvons calculer « a » en utilisant la propriété de la droite des
4) Le coefficient de corrélation
En fait pour juger de la relation entre deux variables quantitatives on utilise le coefficient de
corrélation noté ρ quand il est calculé sur une population ou r quand il s’agit d’échantillon et
σ x . On peut démontrer après remplacement des écarts types σx et σy par leur
r = b
σ y
n
formule que r =
cov(xy ) soit
i =1
( xi − X )( yi − Y ) ainsi le
var x × var y r = n n
i =1
( xi − X )2 ( yi − Y )2
i =1
coefficient de corrélation est sans unité et varie entre -1 et 1. Sa valeur nous renseigne sur le
degré de relation linéaire entre les 2 variables. Cette relation est forte si ׀r ׀est ≥ à 0,75 entre 0,5
et 0,75 la relation linéaire est modérée inférieure à 0,5 elle est faible.
52
Inférences statistiques et tests d’hypothèses
I) Les principales lois de probabilité en biostatistique
Préambule
Un des objectifs de la recherche dans le domaine des sciences biomédicales, est de pouvoir
estimer un paramètre dans une population et/ou trouver des explications pour un évènement à
travers la recherche de relations entre les différentes variables. Or il est impossible au chercheur
de pouvoir disposer de toute la population pour pouvoir tirer des conclusions valides. Il n’aura à
sa disposition qu’une partie de cette population qu’on appellera échantillon à partir duquel il va
extrapoler les résultats observés à la population générale. Pour pouvoir le faire l’échantillon doit
répondre à deux qualités, il doit être aléatoire (tiré au hasard) et de taille suffisante. Dans ce
chapitre nous allons décrire les principales méthodes utilisées pour faire l’inférence des résultats
observés sur un échantillon à la population d’où a été tiré cet échantillon.
A) Rappel de probabilité
L’étude des probabilités est l’étude des phénomènes aléatoires, phénomènes dont la réalisation ne
dépend que du hasard. Il est erroné de croire que le hasard n’est pas soumis à des lois et c’est
justement ces lois que nous allons utiliser pour faire les extrapolations des résultats observés sur
des échantillons tirés au hasard (aléatoire) d’une population à cette population d’origine dite
population mère.
1) Définition de la probabilité
La probabilité d’un évènement A dont la réalisation ne dépend que du hasard (évènement
aléatoire) à l’issu de n essais équiprobables est le rapport du nombre total de réalisation de A dit
essais favorables équiprobables sur le nombre total des essais équiprobables.
Exemple : Jetons une pièce de monnaie parfaitement équilibrée. La pièce de monnaie n’a que
deux faces, les issues possibles après un jet sont au nombre de deux soit pile soit face. Nous
avons une chance sur deux d’obtenir pile ou d’obtenir face. Si nous répétons dans les mêmes
conditions cette expérience n fois (n → ∞) et supposons que l’issue favorable (A) est obtenir pile
53
a
et a fois cette issue, on peut s’attendre à avoir = 0 , 5 . D’où la probabilité d’obtenir pile à
n
l’issue de cette expérience notée P (A) = fréquence relative de pile quand n=∞.
En d’autre terme a nombre d’issues favorables sur le nombre total des issues.
P (A) =
n
<Remarque>
P(A) est un nombre compris entre 0 et 1, P(A)=1 évènement certain, P(A) )=0 évènement
impossible.
L’évènement contraire (obtenir face dans l’expérience précédente) sera noté A et
P ( A ) = 1 − P ( A) <Remarque/>
54
A partir de ce jeu quelle est la probabilité de tirer :
1. le sept carreau
2. un as
3. une carte cœur
4. une carte noire
5. tirer un roi de couleur rouge ou une carte noire
6. un as ou une carte rouge
7. successivement deux cartes; une noire et le roi cœur dans un tirage sans remise.
8. même opération que la précédente mais la première carte a été remise au préalable
avant de tirer la deuxième.
1 = 1/32
2 = 4/32
3 = 8/32
4 = 16/32
5= 2/32 + 16/32 soit 0,56.
6= 4/32 + 16/32 – 2/32 = 18/32 soit 0,56
7= 16/32x1/31 +1/32x16/31 soit 0,03.
8=16/32x1/32 + 1/32x16/32 soit 32/1024=0,03
Pour la 6éme proposition nous avons retranché 2/32 qui est la probabilité de tirer un as rouge,
ceci a été rendu nécessaire sinon on aurait compté deux fois les as rouge.
Le diagramme suivant dit diagramme de Venn explique la situation :
Le rectangle noir est l’ensemble échantillonnal (toutes les cartes), la grande ellipse rouge est le
sous ensemble cartes rouges et la petite représente les 4 as. Ces deux ellipses ont une partie
commune (les deux as rouges) partie hachurée de ce diagramme qu’il faut retrancher du calcul de
la probabilité.
55
Quand à la 5ème proposition (diagramme suivant) tirer le roi de couleur rouge (cercle) ou une
carte noire (ellipse) sont deux évènements mutuellement exclusifs
56
Par contre deux évènements A et B sont mutuellement exclusifs, situation très fréquente en
médecine, sont deux évènements qui ne peuvent se voir au même moment exemple les statuts
malade (A) et non malade (B) ne peuvent pas être observés chez un même individu, alors que P
(A ou B) est P(A) + P(B).
Les évènements dépendants en biologie se voient dans les situations où nous apportons un
jugement sur une situation donnée. Le diagnostic d’une maladie est toujours posé sur des
probabilités conditionnelles en situation de dépendance. Le raisonnement « involontaire » du
praticien est de se poser la question : quelle est la probabilité que mon patient a le problème de
santé « A » sachant qu’il a par exemple le symptôme « B » ?
</Exemple>
4) Le théorème de Bayes
Si deux évènements sont mutuellement exclusifs (malade, non malade) notés A et Ā et un test
noté B s’il est positif en cas de maladie ou B s’il est négatif et si on connaît par ailleurs la
prévalence de la maladie (probabilité d’avoir la maladie) et la fréquence de positivité du test en
cas de maladie (probabilité d’avoir un test positif quand on a la maladie) ainsi que la probabilité
d’avoir un test positif quand on n’a pas la maladie (faux positifs), nous pouvons calculer la
probabilité d’avoir la maladie sachant que le test est positif. C’est d’ailleurs la situation dans
laquelle travaille toujours un médecin en posant ses diagnostics il va se demander « d’une façon
inconsciente) quelle est la probabilité que mon patient a une maladie M sachant qu’il a tel signe
ou tel examen positif.
D’où nous pouvons écrire le théorème suivant dit théorème de Bayes:
P ( A) P ( B / A)
P( A / B) = et vous pouvez reconnaître dans cette formule la
P ( A) P ( B / A) + P ( A ) P ( B / A )
notion de valeur prédictive positive d’un test ou d’un symptôme (voir cours épidémiologie )
Exemple :
La prévalence du diabète dans une population d’adultes est de 10%. La polyurie est un signe
présent chez 90% des malades et que 10% de la population se plaigne de polyurie. Quelle est la
probabilité pour qu’un patient qui se plaint à son médecin traitant de polyurie présente un
diabète ?
57
Pour simplifier la solution posons M+ (maladie présent) M- (maladie absente) et S+ (signe
présent) et S- (signe absent) dressons le tableau suivant :
M+ M- total
S+ 9 1 10
S- 1 89 90
total 10 90 100
P(M + )P(S + / M + )
Soit P ( M + / S + ) =
P(M + ) P(S + / M + ) + P(M − ) P(S + / M − )
0,1×0,9
P(M + / S + ) = = 0,9 ; résultat prévisible sur la première ligne du tableau en
0,1× 0,9 + 0,9×0,01
+ 9
calculant la valeur prédictive positive du test soit : P ( M / S+) = = 0, 9
10
B) Distribution de probabilité
1) Fréquences relatives et probabilité
Reprenons l’exemple de la distribution de la parité des femmes qui ont accouché à la maternité
du CHU Fattouma Bourguiba de Monastir en 2002 (voir statistiques descriptives). La colonne
des fréquences peut être assimilée à la distribution de probabilités de la variable parité qui a dans
ce cas 10 modalités. Ainsi la probabilité d’observer une femme de parité 2 est égale à 27,6%.
58
Parité (vi ) Effectifs (ni ) Fréquences Fréquences cumulées
ni /n (%)=pi (%)
1 2210 32,1 32,1
2 1903 27,6 59,7
3 1457 21,1 80,8
4 786 11,4 92,2
5 342 5 97,2
6 116 1,7 98,9
7 46 0,7 99,5
8 18 0,3 99,8
9 9 0,1 99,9
10 6 0,1 100
Total (n) 6893 100
µ = 1x 0.32 +2x 0.276+….+10 x 0.1≈ 2.4 résultat identique à celui de la page 30.
C) La loi binomiale
Rappel
La loi binomiale est un cas particulier d’une distribution de probabilité où la variable d’intérêt n’a
que deux modalités.
Supposons qu’un sac contient 3 boules rouges et 7 boules noires. On s’intéresse à la probabilité
de tirer des boules rouges quand on répète le tirage plusieurs fois et après avoir remis les boules
dans le sac avant le tirage suivant. Pour simplifier l’écriture nous utiliserons la lettre « R » pour
une boule rouge tirée et la lettre « N » pour une boule noire tirée.
a) résultat d’un seul tirage deux possibilités
59
N: 0,7
R: 0,3
la somme est égale à 1 et on peut écrire ( 0,3 + 0,7)1 =1
b) deux tirages 4 possibilités
NN : 0,7 x 0,7 soit 0,72
NR ou R N : 0,3x0,7 + 0,7x0, 3 soit 2x0,3x0,7
RR : 0,3x0,3
au total 0,32 +2x0,3x0,7 +0,72 =1 soit (0,3 + 0,7) 2 =1
c) trois tirages huit possibilités
NNN : 0,73
RNN ou NRN ou NNR 3 (0,3 x 0,7x0,7) soit 3x0,3x0,72
RRN ou RNR ou NRR soit 3(0,3x0,3x0,7)
RRR 0,33
Nous trouvons également 0,33 + 3x0,3x0,72+3x0,32x0,7+0,73=1
soit (0,3 + 0,7)3=1
Si nous continuons cette opération n fois nous aurons le développement du monôme (a+b)n qui
nous donne :
n
(a + b ) = C nn a n b 0 + C nn − 1 a n − 1 b + C nn − 2 a n − 2 b 2 + ... + C n1 a b n − 1 + C n0 a 0 b n
nous rappelons que
C k
=
n ! et il est utile de savoir que C n0 = C nn = 1 et C nk = C nn − k
n
k ! (n − k )!
le premier terme du développement C n a n b 0 = a n et le dernier C n0 a 0 b n = b n
n
Ainsi la probabilité P(x) d’avoir k succès dans une expérience répétée n fois pour un évènement
qui a une probabilité p de se produire, {(1-p)=q de ne pas se produire} est donnée par la formule
k k n − k
P (x = k ) = C n p q
60
Important :
L’application de la loi binomiale suppose 3 conditions :
• variable dichotomique
• évènements indépendants
• expérience répétée plusieurs fois
Ainsi:
Si V est une variable dichotomique (maladie présente ou absente), X la modalité d’intérêt
(maladie présente), k le nombre de malade observé dans un échantillon de taille n et p probabilité
de tirer un malade (q=1-p), la probabilité d’observer cet échantillon est donnée par :
P ( X = k ) = C nk p k q n − k
Remarque :
La loi binomiale est caractérisée par deux paramètres :
- La taille n de l’échantillon
- La probabilité p de connaître l’évènement
La loi binomiale est souvent notée B (n,p)
61
2) Moyenne et variance de la loi binomiale
Nous rappelons que la moyenne d’une variable de Bernouilli est p probabilité d’observer la
modalité qui nous intéresse (voir statistique descriptive). Supposons maintenant qu’on fait n
tirages indépendants dans cette population, nous obtenons une nouvelle distribution de
probabilités avec à chaque tirage une probabilité p d’avoir une issue favorable, la moyenne de
cette distribution devient np.
Revenons à l’exemple des boules rouges et noires du paragraphe précédent. On s’intéresse à la
probabilité de tirer des boules rouges dans 100 tirages indépendants. Nous rappelons que la
probabilité de tirer une boule rouge est de 0,3 le nombre moyen de boules rouges que nous
pouvons tirer dans ce cas est de 30 (np =100 X 0,3), comme si chaque tirage constitue une
« expérience » à part.
En appliquant la formule de l’espérance mathématique et si on avait au préalable codé « tirer une
boule rouge » = 1 sinon = 0 . Appliquons la formule de la moyenne n
µ =
i = 1
X i p ( X i )
Soit µ = 1 0 0 (1 × 0 , 3 + 0 × 0 , 7 )
La variance se calcule également en utilisant l’espérance mathématique :
σ X = n p q nous rappelons que la variance d’une variable de Bernouilli est égale à pq (cours
statistique descriptive), si l’expérience se répète dans les mêmes conditions n fois la variance sera
la somme des variances de chaque expérience soit npq.
C) La loi de Poisson
1) Conditions d’application
La loi de Poisson est également une loi de probabilité simplifiant la loi binomiale, qui et comme
nous pouvons l’attendre devient difficile à calculer à moins qu’on dispose d’outils de calcul très
performants. Un économiste au nom de Siméon-Denis Poisson a démontré que :
−λ λk
P(X = k) = C p q k
n
k n−k
tend vers e (avec λ=np, n taille de l’échantillon et p
k!
probabilité d’observer un cas) quand n tend vers l’infini (devient très grand) et k tend vers une
constante (k petit).
62
S’agissant par ailleurs d’une approximation de la loi binomiale, les autres conditions de
l’application de cette loi doivent être respectées.
2) Applications de la loi de Poisson
Le décès maternels (décès de femme due la grossesse ou à l’accouchement) est de l’ordre de 7
pour 100000 naissances vivantes dans les pays développés. Quelle est la probabilité d’observer
seulement 5 décès maternels au cours d’une année? (p≈0.15).
D) La loi normale
C’est la loi de probabilité la plus utilisée dans les statistiques de la science de la vie. Elle
s’applique à une variable quantitative continue.
Nous avons dans la partie consacrée aux statistiques descriptives que la représentation graphique
d’une variable continue n’était possible qu’après avoir regroupé les modalités de cette variable en
classe et ainsi nous pouvons tracer un histogramme et la surface de chaque rectangle représente
l’importance d’une classe par rapport à une autre.
Reprenons l’exemple de la distribution du poids des nouveaux nés de Monastir en 2002 (données
réelles)
63
La colonne des fréquences relatives n’est autre que la distribution des probabilités des
différentes classes des mesures de poids des nouveaux nés. Par exemple si on tire au hasard un
nouveau né la probabilité que son poids soit compris entre 2300 grammes et 2800 grammes est
de 0,078 ou 7,8%.
La colonne des fréquences cumulées représente elle la probabilité d’observer des mesures
inférieures ou égales à une proportion donnée. Elle représente une distribution de probabilité
cumulée encore appelée fonction de répartition.
3000
2500
2000
Effectifs 1500
1000
500
0
Poids (classes de 500g)
Si nous traçons le polygone des fréquences, ce dernier à une forme particulière dite en cloche,
forme le plus souvent retrouvée dans la représentation graphique des variables quantitatives
continues. De plus la surface sous la courbe est égale à la surface de l’histogramme déjà
représenté et est égale à « 1 » et si la variable est continue, cette surface représente la densité de
probabilité de la variable étudiée. Nous savons par ailleurs que pour retrouver une surface sous
une courbe il faut avoir l’équation de cette courbe et résoudre son intégrale entre les bornes
souhaitées, limites de la surface recherchée.
La fonction de cette densité de probabilité a été établie par Laplace-Gauss et la courbe en cloche
est appelée courbe de Gauss ou distribution normale. Cette fonction est
64
2
−1
x−µ
1 2 σ
f ( x) = e
avec μ moyenne de la variable ayant pour modalités les xi et σ
σ 2π
écart type de cette distribution.
Si nous nous intéressons maintenant à la représentation graphique des fréquences cumulées cette
représentation aura la forme suivante :
100
50
En prenant sur l’axe des abscisses la borne supérieure de la classe et en ordonnées la fréquence
cumulée correspondante nous pouvons répondre à la question de la probabilité d’observer un
poids inférieur ou supérieur à une valeur donnée ou un poids compris entre deux valeurs. Cette
a
probabilité n’est rien d’autre que la solution de −∞
f ( x ) d ( x ) pour des valeurs < à a ou
b
a
f ( x )d ( x ) pour des mesure comprise entre a et b, la distribution des fréquences cumulées
Exemple :
0
0 1 2 3 4 5 6
65
Le bord supérieur du rectangle rouge peut être considérée comme un segment de la droite f(x)=3
(système d’axes orthonormés).
Une primitive de cette fonction est F(x)=3x, la surface du rectangle peut être obtenue par
4
2 f ( x ) d ( x ) = F 4 − F 2 = 12 − 6 = 6 résultat attendu si on avait fait le produit base * hauteur soit
2X3=6
1 − 12 Z 2
à un. La densité de probabilité de cette variable sera f ( z ) = e et sa représentation
2π
graphique est de la forme suivante.
0,25
0
-4 -3 -2 -1 0 1 2 3 4
Toutes les courbes normales sont symétriques autour de la moyenne (zéro pour la centrée réduite)
et 68% de la surface sous la courbe est comprise entre moins un écart type et plus un écart type
de même 95% de cette surface est comprise entre -1,96 et +1,96 écart type. Cette surface qui
comme nous l’avons dit représente la densité de probabilité pour que z soit inférieure à une valeur
donnée ou comprise entre deux valeurs.
66
a
Les solutions de f ( z ) d ( z ) figurent dans des tables dites tables des écarts réduits. Nous
− ∞
savons déjà que la probabilité pour que -1,96 < z <+1,96 = 95%, la courbe étant symétrique
autour de zéro nous pouvons déduire la probabilité pour de z < -1,96 = 2,5%. En d’autres termes
2,5% de la surface sous la courbe se trouve en deçà de z = -1,96 et la même quantité au delà z =
1,96.
0,5
67
II) LES INFERENCES STATISTIQUES
Préambule
Dans le domaine de la biologie un résultat observé sur un échantillon si intéressant soit il posera
toujours la question de sa validité externe c'est-à-dire est ce que ce résultat décrit la réalité ou
non. D’une façon générale une étude analytique ou expérimentale sert soit à estimer un paramètre
dans une population à partir de la statistique calculée sur l’échantillon et/ou à porter un jugement
sur un résultat observé sur l’échantillon. Faire une inférence statistique consiste à extrapoler le
résultat observé sur l’échantillon à la population d’où a été tiré cet échantillon. Cette
extrapolation peut se faire, par les intervalles de confiances, les tests d’hypothèses ou la méthode
de maximum de vraisemblance (cette dernière ne sera pas étudiée dans ce cadre).
Dans ce qui va suivre nous utiliserons les lettres grecques pour les paramètres de la population et
les lettres latines pour les statistiques calculées sur les échantillons.
68
- La moyenne µX de la distribution des moyennes est la moyenne μ de la variable dans la
population (P)
σX =σ
n
Illustration :
A travers l’exemple suivant nous allons démontrer les deux premiers points du théorème limite
central :
Exemple : 4 étudiants passent un examen, leur note se présente ainsi « 4, 8, 12 et 20 ».
Considérons ces quatre étudiants comme une population. La moyenne et l’écart type de la
d’échantillons aléatoires de taille = 2 que nous pouvons former par un tirage non exhaustif (avec
remise) est 16.
Nous obtenons ainsi une nouvelle distribution des moyennes des échantillons,
Calculons sa moyenne X et son écart type σ X i
69
X = 11 (Moyenne des moyennes est la vraie moyenne de la population)
taille de l’échantillon.
Supposons maintenant que nous tirons des échantillons de taille na et nb suffisamment grande
(≥30) de chacune de ces populations et nous calculons à chaque fois la différence de la
statistique moyenne de la variable taille calculée sur ces échantillons. Nous obtenons une
70
nouvelle distribution de différences de moyennes notée di, les différentes di vont fluctuer
autour de Δ et le théorème de la limite centrale s’énonce ainsi :
σ a2 σ2
σd = + b
na nb
probabilité pour que (-1,96<Z<+1,96) = 95%. En remplaçant Z par sa valeur nous aurons
l’inéquation suivante : nous pouvons déduire
− 1, 9 6 σ < X − µ < 1, 9 6 σ ⇔ X − 1, 9 6 σ < µ < X + 1, 9 6 σ
n n n n
comme vous le constatez nous avons placé le paramètre μ dans un intervalle calculé à partir de la
statistique de l’échantillon, c’est l’intervalle de confiance à 95% autour de μ. Le seul problème
dans cette solution est que nous n’avons pas toujours la valeur σ écart type de la variable au
niveau de la population, nous utiliserons dans ce cas l’écart type de la variable calculé sur
l’échantillon. En effet l’écart type s calculé sur les données de l’échantillon est un bon estimateur
71
de σ à condition de diviser par n-1 dans la formule de la variance et non par n (n taille de
l’échantillon).
Remarque :
Important :
Ne pas confondre, lors de la présentation de résultats, l’écart type de la distribution des valeurs
observées sur l’échantillon qui sert à décrire leur dispersion autour de la moyenne de
l’échantillon et l’erreur standard qui je le rappelle est le rapport de l’écart type sur la taille de
σ
l’échantillon ( ) et que nous utilisons pour estimer la vraie moyenne dans la population d’où
n
a été tiré l’échantillon.
72
Remarques :
* L’intervalle obtenu est d’autant plus large que l’erreur est faible (on ne se trompera jamais
« risque 0 » si on dit que la vrai valeur du paramètre est comprise entre ±∞ pour une variable
quantitative, de même pour une variable qualitative on est toujours sur qu’elle est comprise entre
0 et 100% malheureusement de tels intervalles si justes sont ils n’apportent pas de réponse aux
attentes du chercheur.
Ces deux remarques imposent qu’avant d’entamer une étude il faut au préalable fixer la précision
souhaitée pour l’estimation du paramètre qui nous intéresse, le risque d’erreur consenti et calculer
la taille optimale n de l’échantillon pour que notre estimation soit valide.
Dans une étude descriptive le calcul la taille de l’échantillon utilisera les formules suivantes :
73
Nous remarquons d’abord dans ces deux formules que les quantités σ 2 et p sont souvent
inconnues, elles seront estimées à partir des données de littérature, ou à défaut par des études
préliminaires.
Exemples :
* Quelle sera la taille optimale de l’échantillon pour estimer le poids de naissances des nouveaux
nés pour une précision de 50 grammes et un risque de 5% ? Les études antérieures donnent un
écart type pour le poids de naissance de 565 grammes.
5652
En appliquant la 1ère formule n = 1, 9 6 2 soit n ≈ 490 nouveaux nés, nous prendrons d’un
502
point de vue pratique 500 nouveaux nés.
* Quelle sera la taille optimale de l’échantillon pour estimer la fréquence du tabagisme masculin
dans la région de Monastir pour une précision de 5% et un risque d’erreur de 5% ? Des études
antérieures chiffrent à 60% la fréquence du tabagisme masculin à l’échelle national.
En appliquant la 2ème formule : n = 1, 9 6 2 0 , 6 × (1 − 2 0 , 6 ) n ≈ 369 personnes.
0, 05
1) Approche
A partir d’une population on tire un échantillon aléatoire et on détermine sur cet échantillon une
statistique par exemple une moyenne X . Cette moyenne est souvent différente de la vrai
moyenne μ de cette variable dans la population mère. D’une façon générale et devant cette
différence observée nous sommes en droit de se poser trois questions :
La différence est elle due à une erreur dans mon travail ?
La différence est elle due à une fluctuation d’échantillonnage ? (voir fluctuations
d’échantillonnage)
La différence est elle réelle ?
74
Supposons que nous pouvons éliminer la première question en contrôlant convenablement notre
étude et en éliminant les sources possibles d’erreurs. Deux possibilités restent pour porter un
jugement sur une différence observée, soit que celle-ci est due au hasard c'est-à-dire à la
fluctuation d’échantillonnage soit qu’elle est réelle.
Les tests d’hypothèses sont basés sur cette approche en utilisant le raisonnement par l’absurde.
Nous allons émettre deux hypothèses une hypothèse de travail et une hypothèse alternative et
essayer de défendre l’hypothèse de travail. Si j’ai assez d’arguments (mathématiques) je la
conserve sinon je la rejette et j’accepte l’hypothèse alternative.
75
et vous acceptez obligatoirement l’hypothèse alternative, dans le cas contraire vous avez
assez d’argument pour la défendre et vous devez l’accepter.
Ce tableau fait ressortir la quantité 1-β. Elle représente le risque de rejeter l’hypothèse nulle
quand celle-ci est réellement fausse, (1-β) s’appelle puissance d’un test.
Par ailleurs pour chaque valeur de la statistique calculée une probabilité peut lui être associée
cette probabilité s’appelle le degré de signification noté « p ». C’est la probabilité d’observer une
valeur au moins égale à cette statistique.
76
Exemple :
la probabilité pour que Z ≥ 1,96 = 2,5%
77
pratique nous jugeons toujours le paramètre dans une population à partir de la statistique calculée
sur l’échantillon et la question posée intéressera la validité de valeur expérimentale calculée sur
l’échantillon est ce qu’elle représente réellement la réalité ou non.
Le test de l’écart réduit consiste à émettre l’hypothèse de travail (H0 ) que la moyenne observée
sur l’échantillon représente le mieux la réalité. En d’autre terme la différence entre la moyenne
calculée sur l’échantillon et la moyenne réelle dans la population est la conséquence de la
fluctuation d’échantillonnage c'est-à-dire due au hasard. L’hypothèse alternative sera la
différence est réelle.
Continuons le reste des étapes d’un test d’hypothèse. La loi de probabilité à utiliser dans cette
situation est la loi normale. La statistique à calculer est la quantité Z avec :
(X − µ) n
Z =
σ
Pour un seuil de 5% et si la situation à comparer est bilatérale la zone de rejet serai toute valeur
de Z > 1 , 96 et Z < − 1, 96 , pour un test unilatéral, la zone de rejet serai toute valeur de Z>1,64
ou Z <. – 1,64.
Le calcul de « Z » se fera selon la formule ci-dessus.
Conclure si la probabilité (p) associée à « Z » est supérieure à celle fixée comme seuil nous
pouvons retenir que la différence observée peut être due à la fluctuation d’échantillonnage et que
la valeur observée sur l’échantillon représente correctement la réalité. Dans le cas contraire la
probabilité pour que le hasard (fluctuation d’échantillonnage) explique la différence est faible
nous retenons que celle-ci est réelle et l’échantillon ne représente pas la population avec p
comme degré de signification.
Remarques :
* Dans le calcul de Z apparaît σ (écart type de la variable dans la population) si cette valeur est
inconnue elle sera estimée par celle calculée sur l’échantillon notée « S » avec la précaution de
diviser par n-1 la variance de l’échantillon.
* Plus Z augmente plus p diminue
78
3) Application
La taille moyenne des étudiants de la 1ère année médecine a été de 168 cm. Sur un échantillon
aléatoire de 49 étudiants de la même année la taille moyenne a été de 165 cm et un écart type de 5
cm. Cet échantillon est il représentatif de la taille de l’ensemble des étudiants?
Solution
La question posée peut être résolue par un test d’hypothèse dans une situation bilatérale.
H0 : l’échantillon provient de la population des étudiants de 1ère année médecine.
Ha : l’échantillon ne provient pas de la population des étudiants de 1ère année.
Sous H0 la différence observée entre la taille moyenne calculée sur l’échantillon et la taille
moyenne réelle est supposée être due à la fluctuation d’échantillonnage.
La loi de probabilité sera la loi normale de la distribution des écarts réduits « Z ».
Pour un seuil de signification fixé à 5% par exemple la zone de rejet sera toute valeur de Z
>1,96.
Calculons Z
z=
(165 − 168 ) 49
= − 4, 2
5
Z calculée est > 1,96, la probabilité « p » lue sur une table des écarts réduits pour la valeur de Z
79
4) Comparaison de deux moyennes observées sur des grands échantillons
La comparaison de 2 moyennes calculées sur de grands échantillons par le test de l’écart réduit
est basée sur la distribution des différences de moyennes.
Le test proprement dit suit les mêmes étapes décrites plus haut et l’hypothèse nulle H0 serai dans
ce cas que les paramètres dans les deux populations d’où ont été tirés les échantillons à comparer
sont égaux.
Reprenons les mêmes symboles utilisés dans la fluctuation de différence de moyenne
d’échantillonnage et sous H0 nous pouvons écrire µ a = µ b et dans ce cas Δ = 0. Notons X A
X A − XB
Z =
σ a2 σ b2
n + n
A B
*= effectifs
80
Calculs nécessaires pour effectuer le test : X A et SA = moyenne et écart type des notes du
X A − XB
Le calcul de Z = nA et nB taille des échantillons A et B
S A2 S B2
+
na nB
Le calcul nous donne Z ≈ 2,2 la probabilité associée à cette quantité sur une table unilatérale p≈
0,016
Conclusion : la probabilité pour que la différence des moyennes des groupes A et B soit due au
hasard est faible, nous rejetons l’hypothèse nulle et nous retenons que le fait d’assister aux TD
améliore les résultats des étudiants.
81
C) La distribution t de « Student »
Préambule
En biologie il n’est pas toujours possible d’avoir des échantillons de grande taille. Peut on
toujours porter des jugements à partir d’échantillons dont la taille « n » est < à 30 ?
1) Distribution « t » et les petits échantillons :
Revenons au théorème de la limite centrale. Ce théorème résume les caractéristiques des
distributions d’échantillonnage des moyennes calculées sur des échantillons. Nous rappelons que
cette distribution est toujours normale si la taille des échantillons est suffisamment grande (n ≥
30). Si la taille des échantillons est inférieure à 30 la distribution des moyennes
d’échantillonnage n’est normale que si la variable étudiée a une distribution normale dans la
population mère d’où a été tiré cet échantillon.
La distribution de «t» est une loi de probabilité dite de Student (pseudonyme de l’étudiant
Irlandais William Gosset qui l’a découvert) se basant sur la distribution de la statistique :
X −µ
t = ( n − 1) avec X moyenne calculée sur l’échantillon, µ moyenne de la variable
s
dans la population mère n taille de l’échantillon et s écart type calculé sur l’échantillon.
Si nous remplaçons s par ŝ estimateur de la variance de la variable dans la population mère nous
X −µ
obtenons t = et la distribution f ( t ) = c te où cte est une constante
sˆ t2 n
(1 + ) 2
n
n − 1
dépendant de n de tel sorte que l’aire sous la courbe soit égale à 1.
Posons ddl = ν = n-1 f (t ) =
cte
2 ν +1
t 2
(1 + )
ν
Maintenant quand n augmente et pratiquement pour n≥30 f(t) tend vers
1
1 − t2
f (t ) = e 2 distribution normale centrée réduite.
2π
La distribution « t » dépend de la taille de l’échantillon. Chaque courbe «t» est symétrique autour
de 0. La probabilité pour un t calculée sera lue sur la table de distribution de t en tenant compte
du nombre de degrés de libertés (ddl) des statistiques à comparer.
82
2) Notion de degré de liberté
Nous avons vu que pour le calcul de la statistique « t » nous avons introduit la notion de degré de
liberté notée ddl soit par la lettre grecque « ν ».
Le nombre de degré de liberté est égal au nombre d’observations indépendantes (taille N de
l’échantillon) moins le nombre de paramètre (k) à estimer pour le calcul d’une statistique
donnée : ν = N − k
Par exemple dans le calcul de la statistique « t » de student (voir plus haut) la seule quantité à
estimer est µ , le nombre de degré de liberté sera égal à N-1.
83
5) Comparaison de deux moyennes observées : cas des petits échantillons
La démarche de cette comparaison est identique à celle déjà décrite pour les grands échantillons.
Elle est basée sur la distribution d’échantillonnage de la différence des moyennes qui elle aussi
suit une distribution t . Cette démarche comprendra comme tout test d’hypothèse six étapes et la
statistique à calculer sera :
Xa − Xb
t=
S2 S2
( + )
n a nb
2 ( n a − 1) S a2 + ( n b − 1) S b2
S =
na + nb − 2
le nombre de degré de liberté de cette statistique « t » sera na + nb – 2 en effet nous avons utilisé
pour son calcul l’effectif des deux échantillons et comme il y a deux variances à estimer (une
pour chaque échantillon) nous retranchons 2.
Important
le calcul de t suppose :
• la distribution de la variable étudiée a une distribution normale au niveau des deux
populations
• les variances au niveau des deux populations sont homogènes
84
A 3,4 4,1 3,4 4,2 3,1 4,1 2,5 3,6 4,95 4,2 3,3 3,4 3,6 3,3 4,2
B 3 2,9 3,6 3,2 3,5 2,2 3,1 3,6 3,9 2,95 3,45 3,3 2,85 4,3 2,95
85
Remarque
Des tables statistiques donnent directement la valeur théorique de « r » en fonction des degrés de
libertés et certains risques α . Si la valeur calculée de r est supérieure à la valeur théorique nous
pouvons conclure à une pente différente de zéro.
B) Le test du chi 2:
Préambule
Jusqu’à présent nous nous sommes intéressés aux modalités quantitatives d’une variable donnée.
Mais quand est il lorsque les modalités de la variable sont qualitatives ? Dans ce cas nous allons
comparer les effectifs des différentes modalités d’une ou deux variables croisées dans les
différents groupes des sujets de l’étude. D’une façon générale le test du chi2 nous permet de
conclure sur une distribution observée par rapport une autre distribution dite théorique. Nous
distinguerons à ce titre le chi2 d’indépendance et le chi2 d’ajustement.
1) Approche mathématique
Supposons que nous avons une population dont la structure par tranche d’âge est bien connue par
exemple la population tunisienne en 2004. Cette structure est représentée dans le tableau qui suit.
On extrait de cette population un échantillon aléatoire de n =300 individus. Appelons Oi le
nombre d’individus observés dans chaque tranche d’âge au niveau de l’échantillon. C’est la
distribution d’effectifs dite observée.
Si la composition de cet échantillon était la même que celle de la population tunisienne on
s’attendrait à avoir un nombre Ci par tranche d’âge dit effectif calculé peu différent de Oi.
L’effectif de chaque tranche sera obtenu en multipliant la proportion réelle dans la population par
l’effectif « 300 » de l’échantillon.
L’ensemble de ces données sont résumées dans le tableau suivant :
Tranche d’âge [0-10[ [10-20[ [20-60[ [20-60[ Total
Proportion réelle (%)* 16,2 20,2 54,1 9,5 100
Effectif observé (Oi) 47 35 180 38 300
Effectif théorique (Ci) 48,6 60,6 162,3 28,5 300
Différence -1,6 -25,6 17,7 9,5
86
La somme des écarts entre les valeurs observées et théoriques et nulle. Cette situation nous
rappelle ce que nous avons vu dans les statistiques descriptives de la somme des écarts des
valeurs d’une distribution par rapport à la moyenne arithmétique de cette distribution et nous
avons utilisé les carrés des écarts pour étudier la dispersion.
Dans ce cas également on va s’intéresser aux carrés des différences entre les valeurs observées et
les valeurs théoriques et en pondérant cette différence par le nombre théorique nous définissons
la statistique dite du Chi2 de Pearson symbolisée par la lettre grecque χ2. D’où :
(o − c ) 2
χ2 =
c
D’autre part et comme la variable étudiée dans notre exemple comporte 4 modalités « k » , la
structure de la population peut être bien définie par 3 proportions soit k-1 qui représente le
nombre de ddl. La statistique χ2 serait :
k
( oi − ci ) 2
χ2 =
i =1 ci
87
2) Le χ2 d’ajustement
Le χ2 d’ajustement est utilisé chaque fois où l’on doit comparer une distribution observée et une
distribution théorique.
Revenons à l’exemple de la structure de la population tunisienne vu précédemment. Nous avons
pris un échantillon de 300 personnes et nous avons observé une distribution par tranches d’âge de
cette population. Peut on conclure à partir des résultats de l’échantillon que la population
tunisienne a une même structure qu’une population dont la distribution pour ces mêmes tranches
d’âges est : 25%, 30%, 45%, 5%.
Le problème posé ici est un problème d’ajustement de la structure de la population tunisienne à la
structure connue d’une autre population, ce problème peut se résoudre par le test d’hypothèse du
χ2 d’ajustement.
Réponse:
Formulation des hypothèses :
H0 : la structure de la population tunisienne est ajustée à la population de référence
Ha : la population tunisienne a une structure différente.
La loi de probabilité est la distribution du χ2 à 3 degrés de libertés.
Au seuil de 5% la zone de rejet de l’hypothèse nulle toute valeur du χ2 < à 7,81 (voir table du χ2
).
Calculons χ2
Observées 47 35 180 38
Calculées sous 300x0,25= 300x0,3= 300x0,45= 300x0,05=
HO 75 90 135 15
75 90 135 15
2
χ ≈ 94,33
Conclusion: χ2 calculé > au χ2 théorique l’hypothèse nulle est très peu vraisemblable, elle sera
rejetée. La structure de la population tunisienne est différente de la population de référence.
88
Ce même raisonnement peut être extrapolé à toutes les situations ou nous voulons ajuster une
distribution observée à une distribution théorique. Le test de normalité d’une distribution est basé
sur le χ2d’ajustement, de même tester si les résultats observés lors d’un croisement (en
génétique) obéissent aux lois de Mendel ou non etc… le nombre de ddl est le nombre de
modalités moins une.
3) Le χ2 d’indépendance
En médecine nous sommes souvent emmenés à rechercher la relation entre un problème de santé
et une exposition par exemple la survenue d’accidents vasculaires coronariens et le tabagisme.
Dans ce cas également il s’agit toujours de comparer une distribution observée à une distribution
théorique mais calculée cette fois sous l’hypothèse de l’indépendance des événements étudiés.
Remarque
Nous rappelons que si deux évènements « A » et « B » sont indépendants et si p(A) est la
probabilité d’observer A et p(B) la probabilité d’observer B, la probabilité d’observer A et B (au
même moment) est p(A). p(B).
4) Application χ2 d’indépendance
Une étude ayant intéressé 500 personnes pris au hasard dans une population sur la relation entre
accidents coronariens et tabagisme a donné les résultas suivants : Parmi les 300 personnes qui
fumaient 50 avaient présenté un accident coronarien et seulement 10 parmi les non fumeurs. Peut
on conclure à partir de ces résultats à l’indépendance des deux événements ou non.
Ces données peuvent être résumées par le tableau de contingence suivant :
89
Nous pouvons répondre à la question de l’éventuelle relation entre le tabagisme et la survenue
d’un accident coronarien par le test χ2 d’indépendance.
HO : hypothèse nulle serait, les deux évènements sont indépendants
Ha : hypothèse alternative, les deux évènements sont liés
Maintenant il faut calculer sous l’hypothèse nulle de l’indépendance des deux évènements le
nombre théorique de personnes attendues pour les différentes modalités des variables accidents
coronariens et tabagisme.
Prenons par exemple la première cellule du tableau « tabagique et coronarien »
90
Le tableau ainsi obtenu est dit tableau théorique. Ce tableau nous montre deux choses :
1. l’effectif attendu pour une cellule du tableau est toujours le rapport entre le total de la
ligne multiplié par le total de la colonne le tout divisé par le total général.
2. il n’est pas nécessaire d’effectuer toutes les opérations telles qu’elles figurent dans le
tableau théorique, pour ce cas particulier il suffit de calculer l’effectif théorique de
n’importe quelle cellule, les autres peuvent se déduire par simple soustraction entre les
totaux marginaux et la valeur calculée. C’est un tableau à un degré de liberté.
3. d’une façon générale le nombre de degré de liberté pour un tableau de contingence à
« c » colonnes et « l » lignes est: ddl = ( c − 1 )( l − 1 ) . Le tableau de notre exemple a
2 2 2 2
χ 2
=
(5 0 − 3 6 ) +
(2 50 − 2 6 4 ) +
(1 0 − 2 4 ) +
(1 9 0 − 1 7 6 ) = 1 5, 4 7
36 264 24 176
Conclusion : pour un seuil de 5% et un ddl, le χ2 calculé est > au χ2 théorique, la probabilité
d’observer un tel écart est p = 0, 8 4 × 1 0 − 4 , probabilité très faible, l’hypothèse de
l’indépendance sera rejetée et nous pouvons conclure que les deux évènements sont liés.
Remarque
Comme nous l’avons signalé les effectifs calculés doivent tous être > 5
91
5) le χ2 corrigé de Yates
quand les effectifs théoriques sont aux alentours de 5 Yates à apporter une correction du χ2 qui
ne s’applique qu’a un ddl et le χ2 serait :
2
χ2 =
( o−c − 1 )
2
c
Exemple
Soit le tableau de contingence suivant résumant la distribution d’une maladie « M » et une
exposition « E », les symboles « + » et « - » indiquent respectivement la présence ou l’absence
de l’évènement.
M+ M- Total
E+ 5 4 9
E- 3 15 18
Total 8 19 27
Le χ2 classique aurait donné une valeur de 4,35 et p = 0,036 et on aurait conclu à une différence
statistiquement significative au seuil de 5% alors que le χ2 corrigé de Yates donne la valeur 2,69
et p=0,1 différence non significative au seuil de 5%.
92
M+ M- Total
E+ na nb l1
E- nc nd l2
Total c1 c2 N
c1 ! c2 !l1 !l2 !
p=
na ! nb ! nc ! nd ! N !
l’exemple du tableau précédent donne en utilisant le test de Fisher exact dans une situation
bilatérale p=0,07 différence également non significative.
taille na et nb, na pouvant être différente de nb. Estimons les variances de la variable par sa2 et
sb2 s a2
variances calculées à partir des données des échantillons et formons le quotient F = .
s b2
On tire maintenant deux autres échantillons indépendants des premiers c'est-à-dire après remise,
et faisons les mêmes calculs de variances ainsi que le quotient comme précédemment. Si on
refait cette opération autant de fois que possible nous obtenons une distribution des quotients des
93
variances. On remarque d’emblée qu’on devrait s’attendre à avoir autant de distributions de
variances que de taille na et nb des échantillons tirés.
Supposons maintenant que par ailleurs les variances de la variable étudiée sont égales dans les
deux populations mères, les quotients des variances calculés sur les échantillons vont fluctuer
autour de la valeur « 1 ». Cette fluctuation des quotients d’échantillonnage suit également une
loi de probabilité dite de Fisher Snedecor, l’aire totale sous la courbe est égale à « 1 » et pour
chaque valeur du quotient calculé les tables « F » nous donnent en fonction des degrés de
libertés la probabilité d’observer des valeurs au moins égales sinon supérieures à celles
calculées.
Remarques :
Le résultat F est le quotient de l’estimation des variances de la variable dans les populations
d’origine
• il est toujours positif
• il varie entre 0 et +∞
• le nombre de degré de liberté est n-1 pour le numérateur et n-1 pour le dénominateur.
• Les tables F sont établies en fonction des degrés de libertés et pour quelques valeurs
seuils. Elles sont toutes unilatérales. La première ligne de la table correspond aux ddl
du numérateur, la première colonne aux ddl du dénominateur. La lecture se fera à
l’intersection des degrés de liberté du numérateur et du dénominateur.
• Toutes les distributions F ont une forme étalée vers la droite, elles sont asymétriques et
toutes unilatérales.
• Le quotient F sera toujours calculé la variance la plus grande au numérateur.
94
H0 : les variances sont homogènes : les variances des poids des nouveaux nés ne diffèrent pas
chez les primipares et chez les multipares
Ha : les variances diffèrent
Loi de probabilité : distribution F
Le seuil 5%
Le nombre de degré de liberté du numérateur 15-1=14 ainsi que celui du dénominateur
(échantillon de même taille pour cet exemple)
La zone de rejet : sachant que nous avons fixé un seuil à 5% et comme l’hypothèse alternative est
bilatérale la table à utiliser serait la table F pour un seuil de 2,5%. La borne supérieure serai toute
valeur de F supérieure à 2,98 (voir table F intersection de 14 ddl au niveau de la ligne
correspondante au numérateur et 14 également pour la colonne des ddl correspondante au
s a2
dénominateur. La borne supérieure serait celle du rapport F = 2 > 1 . La borne inférieure
sb
2
serait celle correspondante au rapport F = s b2 < 1 mais la valeur seuil serait l’inverse de la
sa
A 2,3 2,5 2,1 2,7 1,9 2,2 2,4 2,6 2,8 3 1,5
B 2,9 2,8 3,1 2,9 2,7 3 2,5 2,8 2,6 2,2 2,5 2,4
Pour répondre à la question nous pouvons comparer les moyennes des glycémies dans les deux
groupes à l’aide du test t qui suppose au préalable l’homogénéité des variances dans les deux
groupes.
95
Les calculs nécessaires pour cette comparaison avec nA=11 taille de l’échantillon A et
X A = 2, 4 g / l
moyenne et variance de la glycémie dans le groupe A et nB=12 taille de
S A2 = 0,185 g 2 / l
X B = 2, 7 g / l
l’échantillon B et moyenne et variance dans le groupe B.
S B2 = 0, 073 g 2 / l
S A2 0 ,1 8 5
La comparaison des variances sera basée sur le quotient F = 2
= ≈ 2, 37
SB 0, 078
Au seuil de 5% et pour une hypothèse bilatérale, la valeur seuil borne supérieure de la zone de
rejet de l’hypothèse nulle serai toute valeur F > 3,53 lue sur la table F point 2,5% intersection de
10 ddl (numérateur) et 11 ddl (dénominateur).
La borne inférieure de cet intervalle serait l’inverse de la valeur lue sur la même table mais à
l’intersection 11 ddl au numérateur et 10 ddl au dénominateur 1
≈ 0 , 2 7 qui est la valeur
3, 6 5
2
seuil supérieure pour le quotient de variance S B2 = 0, 0 7 8 ≈ 0, 4 2 . Quelques soit le quotient
SA 0 ,1 8 5
calculé nous sommes dans la zone d’acceptation de l’hypothèse nulle, les variances sont
homogènes nous pouvons continuer pour tester l’égalité des moyennes par le test t et le t calculé
est égal à 2,12 >2,09 valeur seuil pour 19 ddl et un risque de 5% de la table de t de Student.
La conclusion est qu’il y a une différence d’effets des antidiabétiques sur les valeurs de la
glycémie dans les deux groupes traités.
1) Position du problème
La comparaison de plusieurs moyennes s’envisage dans le cas ou la variable qualitative a plus
que deux modalités et on veut comparer les distributions d’une variable quantitative dans ces
différentes modalités.
96
Exemple
Nous voulons comparer 3 modalités d’enseignement de la biostatistique (enseignement magistral
« A », enseignement dirigé « B » et enseignement à distance par correspondance « C ») à travers
les performances des étudiants. Le tableau suivant résume les notes obtenues par 15 étudiants (5
de chaque modalité) tirés au hasard parmi les étudiants ayant suivi le cours. Pour cet exemple
nous supposerons que les notes des étudiants ont une distribution normale.
A B C
5 7 5
6 6 3
4 5 2
4 8 6
8 6 4
La première idée qui nous vient à l’esprit est de comparer deux à deux les moyennes des
différents groupes d’étudiants par le test t de Student soit 3 couples de moyennes à comparer. Si
on fixe à chaque fois un seuil de 5% pour l’erreur α nous allons cumuler les erreurs α et la
3
probabilité de rejeter une des hypothèses nulles n’est plus de 0,05 mais de 1 − ( 0,95 ) = 0,14
97
Alors si l’hypothèse d’égalité des méthodes éducatives était vraie, les différences observées au
niveau des moyennes et des variances des échantillons peuvent être dues à une fluctuation
d’échantillonnage. L’idée est d’estimer cette variance de deux façons différentes à partir des
données observées sur les échantillons. Une à partir de la distribution des moyennes
d’échantillons l’autre à partir de la distribution des notes dans la population.
Revenons au théorème de la limite centrale. Les moyennes des notes calculées au niveau des 3
échantillons peuvent être considérées comme appartenant à la distribution des moyennes
2
d’échantillonnages. Cette distribution aura comme variance σ 2 σ avec σ 2
m = m
n
2
variance de la distribution des moyennes et σ variance de la distribution des notes de
l’ensemble des étudiants.
Maintenant si H0 est vraie, calculer la variance à partir de la distribution des moyennes ou à
nσ m2
partir des variances des échantillons, le rapport F = serait égal à un.
σ2
2
σ
Puisque σ
2
m = ⇔ σ 2
= nσ 2
m σ 2
≈ n s m2 première estimation de la variance à
n
(inconnue). Elle renseigne sur les différences réelles entre les notes des étudiants des différents
groupes. On appellera cette variance la variance entre les groupes.
2
La première estimation de σ (inconnue) dépend de la taille des échantillons. Elle se calcule de
k
ni ( X i − X )
la façon suivante : 1 avec :
k −1
k = nombre d’échantillons, ni = taille de l’échantillon, X i = moyenne de l’échantillon et X
moyenne globale de l’ensemble des observations. Nous divisons par k-1 étant pour avoir un
estimateur non biaisé de σ2. Le dénominateur est également le nombre de ddl de cette
estimation.
98
La deuxième estimation peut être obtenue à partir de la variance calculée dans chaque
échantillon et comme nous avons dans ce cas trois échantillons, il serait logique de prendre la
moyenne de trois variances pondérées par la taille des échantillons.
Remarque
Nous avons fait la même chose pour calculer une variance commune dans le cas du test t de
Student.
(n i − 1 ) s k2
1
avec ni taille d’un échantillon Sk2 estimation de la variance sur un
N − k
échantillon N nombre total d’observation et k nombre d’échantillons
Or si H1 est vraie, les notes au niveau des 3 groupes auront des variances différentes, la
première estimation (variance entre les groupes) sera toujours supérieure à la deuxième
estimation (variance intra groupe). Dans cette comparaison de variances nous serons donc
toujours dans une situation de comparaison unilatérale et l’hypothèse alternative Ha serait
variance entre les groupes > variance intra groupe.
C’est d’ailleurs pour cette raison que toutes les tables de la fonction de distribution de F sont
unilatérales.
Le nombre de degrés de liberté pour la variance entre les groupes sera k-1 soit le nombre de
moyennes à comparer moins un, la variance intra groupe sera N-k nombre total des observation
moins le nombre de moyennes à comparer.
3) Application numérique
2 2 2
Variance entre les groupes s e2n tr e = 5 ( 5 , 4 − 5 , 2 6 ) + 5 ( 6 , 4 − 5 , 2 6 ) + 5 ( 4 − 5 , 2 6 ) ≈ 7 , 2 7
2
99
7, 27
F = ≈ 3 , 3 Cette quantité F est à comparer avec la valeur seuil au point 0,05 qui se lit à
2, 2
l’intersection des ddl des numérateur et dénominateur du rapport soit F=3,89. F calculé < F
théorique l’hypothèse nulle ne peut pas être rejetée et de conclure que les trois méthodes
éducatives se valent.
(x i − X )
La formule estimant la variance dans la population est S 2
= i =1 avec N nombre
N −1
total d’observation X moyenne de toutes les observations. Elle exprime la variation globale
des observations sous l’hypothèse nulle, nous
l’appellerons variance totale. Prenons le numérateur et faisons apparaître la notion de moyenne
à l’intérieur d’un groupe notée X j , le numérateur que nous appellerons somme des écarts
k j
retranché la moyenne de chaque groupe notée X j dans cette formule. Le symbole
j =1 i=1
veut dire que nous faisons la somme des carrés des écarts des xi (observation dans chaque
groupe) ainsi que la somme pour l’ensemble des groupes.
100
Posons a = (x i, j − X ) et b = (X j − X ) , SCET se présente sous forme d’un produit
remarquable et peut s’écrire :
k nj
( x − X )
2 2
SC ET = i, j − X j ) + (X j − X ) + 2 ( xi, j − X j )( X j
j =1 n =1
j =1 i =1 j =1 i =1 j =1 i =1
regardons dans le dernier terme de cette somme, (X j − X ) ne dépend pas de i, il peut s’écrire
k n j
n j
(x
i =1
i, j − X j ) qui est la somme des écarts d’une observation d’un groupe par rapport à la
moyenne de ce groupe et cette somme est toujours nulle. Toute la quantité
k nj
k nj k nj
(x ) + (X
2 2
SE C T = i, j −X j j −X ) . Le deuxième terme de cette somme est
j = 1 i =1 j =1 i = 1
une constante qui se répète nj fois pour un groupe et k fois pour l’ensemble des groupes d’où
nj k 2
(X
2 2
j − X ) = nj (X j − X ) et tout le terme s’écrit n j ( X j − X ) .
i =1 j =1
k nj k
SECT = ( xi , j − X j ) + n j ( X j − X ) 2
2
j =1 i =1 j =1
Ainsi :
• Le premier terme exprime la variabilité à l’intérieur de chaque groupe (somme des
carrés des écarts de chaque observation d’un groupe à la moyenne de chaque groupe)
nous rappelons que nous l’avons déjà qualifié de intra groupe ou résiduelle et sera notée
101
SCER . Son nombre de degré de liberté dépend du nombre total des observations et du
nombre de moyennes à comparer soit N-k
SC E A
Il faut maintenant revenir à la formule de la variance et les quantités
k −1
SCER
et sont des variances, leur rapport suit une loi F de Fisher Snedecor.
N −k
C’est cette décomposition de la variance qui nous permet de dresser le tableau de l’analyse de
variance tel que vous le verrez le plus souvent quand vous manipulez un outil informatique
d’analyse des données, ce tableau présente en fait le développement des deux termes de la
somme calculer plus haut.
5) Le tableau d’analyse de variance
Posons Ti2 carré de la somme des observations pour un groupe et n taille d’un groupe , TG2
carré de la somme totale des observations, k nombre de groupes et N nombre total des
observations les sommes suivantes se développent ainsi:
2
k k
Ti 2 TG2
• n (X
j =1
j j − X ) = 1 n
−
N
nj
k k
Ti 2
(x x i2 −
2
• i, j −X j ) =
j =1 i = 1 j =1 n j
102
Remarquez que l’addition de ces termes nous fait revenir au numérateur de la variance totale
TG 2
x − N
2
i .
T G2
Totale x i
2
−
N N-1 c
103
6) Application numérique
Reprenons l’exemple des notes des élèves selon la méthode éducative et pour dresser le tableau
de l’analyse de variance nous avons besoin d’un certains calculs préliminaires.
.
Totaux
globaux
A B C k n
x
j i =1
i, j
5 7 5
6 6 3
4 5 2
4 8 6
8 6 4
n
xi
27 32 20 79
i=1
n
( xi )2
729 1024 400 2153
i =1
n
( xi ) 2
145,8 204,8 80 430,6
i =1
n
n
i =1
x i2
157 210 90 457
104
Le tableau d’analyse de variance sera :
T G2
Totale x i2 −
N N-1 c
Le résultat F ainsi trouvé est le même que celui trouvé plus haut.
105
V) Les échantillons appariés
Préambule
L’appariement est une méthode très utilisée en épidémiologie, disons pour simplifier, qu’il tend à
rendre presque identique (ce qui est toujours approximatif) les sujets à comparer sauf pour le
facteur étudié. Elle permet d’éliminer les biais dit de confusion (voir cours épidémiologie), afin
de pouvoir rapporter le résultat obtenu à l’intervention. L’appariement idéal sera le même
individu qui constitue sa propre paire. Dans le cas de l’appariement les tests statistiques déjà
décrits doivent être adaptés à cette situation.
Important :
Dans les séries appariées ce n’est plus la taille des échantillons qui intervient mais le nombre de
paires à comparer.
Le test statistique consiste à comparer les différences des mesures pour chaque couple soit n
différences. Dans ce cas également la fluctuation des différences suit une loi normale de moyenne
106
X d et Sd comme écart type. Nous pouvons utiliser le test des écarts réduits en comparant Xd
Xd
à 0, soit Z= n : couples de mesures. La quantité Z sera comparée à la valeur seuil de la
Sd
n
table des écarts réduits pour un risque de 5% par exemple la valeur seuil est comme nous le
savons 1,96 .
2) Calcul de Z
• faire la différence de moyennes pour chaque paire « di »
( d )
2
d 2 i
i −
2 nc
• calculer la variance des différences S d =
nc − 1
Xd −0
Z =
• Calculer
S d2
nc
Xd
t= cette quantité sera comparée à la valeur seuil à n-1 ddl .
Sd
n
Le calcul de « t » est identique à celui de « Z »
4) Application numérique
L’exemple suivant résume les données collectées auprès de 30 malades soumis à un régime
hypocalorique. La comparaison des résultats est basée sur l’évolution de l’indice de masse
107
Poids
corporelle ( IMC = ) pour chaque patient, « taille exprimée en mètre », pris avant et après
taille 2
deux mois de régime. Question le régime a-t-il un effet sur l’IMC ?
Ces données sont un exemple d’une série appariée. Répondre à la question revient à tester les
hypothèses :
H0 : Le régime n’a pas d’effets sur l’IMC
Ha : le régime a un effet
Le test à appliquer est le test de l’écart réduit « Z » sur séries appariées son principe est basé sur
la comparaison de la moyenne des différences IMC avant après activités physiques.
( d )2 (15, 2 )
2
d2 −
nc
31, 2 −
S d2 = = 30 ≈ 0, 81
nc − 1 29
108
0,51 − 0
Z= ≈ 3.1
0,81
30
Le Z calculé est supérieur au Z seuil (±1,96) pour un test bilatéral, l’hypothèse nulle sera
rejetée.
Supposons que nous ayons comparu l’effet de l’exercice physique d’une façon « classique » par
la comparaison de deux moyennes sans tenir compte de l’appariement. Les deux moyennes à
comparer seraient IMCa moyen avant exercices physiques ≈28,77 et IMCb moyen après ≈ 28,26
IM C a − IM C b 2 8, 7 7 − 2 8, 2 6 le Z ainsi calculé > 1, 9 6 ne permet pas
z = = ≈ 1, 6
2 2
S
a Sb
0, 0 9 7
( + )
na nb
d’éliminer l’hypothèse nulle. Un test sur séries appariées est plus puissant qu’un test de
comparaison de deux moyennes sur des séries indépendantes.
1) Indication du test
Nous rappelons que la comparaison des distributions d’effectifs est indiquée lorsque nous
étudions un caractère qualitatif.
Dans ce cas également, chaque observation d’un échantillon est appariée à une observation d’un
autre groupe, l’appariement fait sur un ou des critères préalablement fixés.
Ainsi et pour le résultat à analyser la paire peut avoir la même caractéristique on dira dans ce cas
que la paire est concordante, sinon la paire est dite discordante (résultats différents).
Cette comparaison est basée sur un test d’hypothèse, le test χ2 de Mac Nemar.
2) Le test statistique
Remarque :
Le test du χ2 de Mac Nemar ne s’applique que lorsque les paires discordantes sont ≥ 10.
Notons (+) quand le caractère étudié est présent et (–) quand ce caractère est absent. Les paires
peuvent être (+ ; +) ou (+ ; -) ou (- ; +) ou (- ; -)
109
Lors de l’analyse statistique seules les paires discordantes seront retenues « elles sont les plus
intéressantes pour le raisonnement ».
Les résultats peuvent se présenter sous forme d’un tableau à double entrée :
Echantillon A
+ -
Echantillon + A b
B - C d
110
TD Biostatisques
111
Exercice 1
Les revenus annuels des ménages d’une population figurent dans le tableau suivant :
Revenu* [2-5[ [5-8[ [8-11[ [11-14[ [14-17[ [17-20[ [20-26[ [26-32[
% 15,5 13,3 15,2 17,5 13,3 11,6 10,4 3,2
Remarque : Les salaires < à 2000 UM et > à 32000 UM sont négligeables dans cette population.
Exercice 2
Soit x une variable quantitative continue N (0,1) calculer les probabilités suivantes
Pr (x < -1,81)
Pr (x < 0,30)
Pr (-1,96 ≤ x ≤ 1,96)
Pr (0 <x < 1,42)
Pr ( - 1,79 < x < – 0,95)
Exercice: 3
Une étude sur les malades anesthésiés pour acte chirurgical au CHU de Monastir en 2003 a
montré que le caractère urgent a été signalé pour 10,4% des patients admis au bloc opératoire.
Quelle est la probabilité d’opérer 10 patients dans cette situation si 100 patients sont à opérer
dans la semaine.
Exercice: 4
Dans la même étude le nombre de décès liés à l’anesthésie a été de 3 personnes pour 13300 actes
d’anesthésie réalisées au cours d’une année. Si le nombre d’actes d’anesthésie reste inchangé
pour l’année suivante quelle est la probabilité d’observer zéro décès, 1 décès, deux décès et trois
décès.
Exercice: 5
Les études sur le tabagisme en Tunisie estiment sa prévalence à 62% de la population masculine
de + de 15 ans. On tire au hasard 100 échantillons de 50 personnes masculines de plus de 15 ans.
Combien d’échantillons contiendraient 20 fumeurs ?
112
Exercice 6
Exercice 7
Afin de comparer les promotions entre elles les notes de statistiques sont ramenées à une
distribution normale de moyenne 500 et d’Et 10. Un étudiant ayant obtenu 88,3 pour une
moyenne de 75 et d’ET + 8 ? Quelle note aura-t-il dans la nouvelle distribution ?
Exercice 8
Un supermarché est éclairé par des fluorescents dont la vie moyenne est 3500h et un écart type de
600h. Si les tubes sont allumés 10h/j, 6 jours/s et 52/s/an :
Exercice 9
Une usine se basant sur l’expérience des années précédentes affirme qu’en moyenne ses
machines ont une durée de vie de 5,75 ans et un écart type = 2 ans.
Quelle est la durée de la garantie que doit donner cette usine si elle est disposée à ne
reprendre que 1 % des machines ?
Exercice 10
La moyenne des QI des étudiants admis au DEA est de 118 avec un écart type= de 5. 40
étudiants ont un QI compris entre 120 et 125.
Combien d’étudiants ont été admis si on suppose que le QI est distribué normalement ?
Exercice 11
500 étudiants avaient suivi un cours de statistiques. La moyenne des notes est de 77 et d’écart
type = 10. Les notes finales doivent être redistribuées ainsi : 10 % auront la lettre A, 30 % B, 50
% C et 10 % E (échec).
Retrouver les limites des notes pour cette nouvelle distribution ?
113
Exercice:12
300 étudiants ont une taille moyenne de 1,65 m et un écart type: 5cm. Les tailles sont mesurées
au cm près et ont une distribution normale.
1) combien d'étudiants ont une taille comprise 1,67 et 1,71 m ?
2) Combien ont une mesure < 1,64 m ?
3) 30 % des étudiants mesurent moins de combien ?
4) combien d'étudiants ont une taille qui diffère de la moyenne de + 1écart type.
5) Sachant que la plus petite taille est de 1,55 m et la plus grande 1,95 m faire un diagramme
en boite de la taille des étudiants.
Exercice 13
Le poids de nouveaux nés est supposé suivre une distribution normale de moyenne µ = 3.500 kg
et d’écart type = 0,5 kg
1- Combien de nouveaux nés auront un poids inférieur à 2kg ?
2- Combien de nouveaux nés auront un poids compris entre 2 kg et 3,600 kg ?
Combien auront un poids supérieur à 4 kg ?
Exercice 14
La mesure de la pression artérielle systolique de 11 sujets pris au hasard dans service de chirurgie
donne en mm de Hg les valeurs suivantes
181, 172, 157, 168, 230, 161, 149, 160, 119, 157, 132.
Etudier ce caractère quantitatif selon la méthode de Tukey.
Exercice: 15
Afin de déterminer la fréquence du groupe sanguin A dans une population on tire au hasard de
cette population un échantillon de 600 personnes. 276 personnes de cet échantillon ont un G.S.
« A ».
1- A combien peut on estimer le GSA dans la population ?
2- Cet échantillon peut il être représentatif d’une population ou la fréquence du GSA est de
40 %
3- Si la vrai fréquence du GSA est de 40 % combien aurait il fallu d’individu pour le
déterminer au risque de 5% et une précision de 2 % même question au risque de 2 % ?
Exercice: 16
Un juge a trouvé que le temps moyen écoulé entre l’arrestation et le procès d’un échantillon pris
au hasard parmi les personnes arrêtées a été de 300 jours et un écart type de 30 jours.
L’échantillon comprend 81 détenus.
Quel serait le temps moyen de la passation au procès pour l’ensemble des arrêtés ?
114
Exercice: 17
L’examen des dépenses faites par semaines de 64 étudiants pris au hasard d’une faculté pour
l’achat de livres et de CD est en moyenne de 8d,400 avec un écart type de 2d,500.
Quel est le montant moyen dépensé par semaine par l’ensemble des étudiants ?
Exercice: 18
L’examen de 46 des 250 professeurs d’un faculté donne une moyenne de 13,7 années
d’expérience avec un écart type de 2,8 ans au risque de 10 % à combien peut on estimer le temps
moyen des années d’expériences de l’ensemble des professeurs ?
Exercice 19
71-19-36-135-68-41-91-21-53-45-31-35-62-168-86-28-168-66-66-33-189-84-72-20-181-44-53-
157.
Exercice 19 (bis)
Le poids dans une population peut suivre une loi normale, sur un échantillon aléatoire de 100
enfants de même âge le poids moyen était de 7,2 kg et un écart type de 1,2 kg. A combien peut on
estimer le poids moyen des enfants de cette tranche d’âge ?
Sur un échantillon de 303 nouveaux nés, le poids moyen était de 3400g et un écart type de 495g.
a) estimer le poids moyen des nouveau-nés au risque de 0,05
b) combien de nouveau-nés ont un poids inférieur à 2450g ?
Cholestérol en cg/l* 105 125 145 165 185 205 225 245 265 285 305 325 345
effectifs 1 2 18 26 16 17 12 12 4 2 1 2 1
115
Exercice: 20(bis)
Un sondage d'opinion portant sur un échantillon de n = 1600 personnes trouve que 51 % voteront
pour Mr X.
1) A combien peut on estimer les personnes qui voleront x dans la population.
2) Quelle serait cette estimation si l'échantillon a une taille de n = 400 personnes.
Exercice : 21
La durée de la gestation humaine dans la région de Monastir (étude faite sur 10 ans) a une
moyenne « μ » = 39,5 semaines et un écart type « σ » = 1,7 semaines.
Dans un service de l’hôpital universitaire de la région on a noté l’âge gestationnel de 100
nouveau-nés. La somme des âges gestationnels est de 3800 semaines et l’écart type s1 = 5
semaines.
1) Peut-on dire que ce service est spécialisé dans la prise en charge des prématurés ?
2) Dans la maternité de cet hôpital 100 femmes ont reçu un traitement inhibant les contractions
utérines. La somme des âges gestationnels dans ce cas et de 3900 semaines et s2 = 5 semaines : le
traitement est-il actif sur les contractions utérines ? Justifier.
Exercice 22
Exercice 23
La moyenne des battements cardiaques d’une population d’adulte est de 72/mn. Chez un
échantillon de 15 étudiants on trouve les chiffres suivants :
64 / 79 / 85/ 70 / 72 / 77/ 80/ 74 / 70 / 69 / 70 / 73 / 65 / 64 / 67.
Cet échantillon provient il de cette population ?
Exercice : 24
Un laboratoire d’analyse médicale a décidé d’informatiser son service de gestion des actes. 2
concepteurs de programme existent sur le marché. Le responsable de ce laboratoire a lu dans une
revue spécialisée que dans une étude portant sur 12 utilisateurs du système « A » et 15
utilisateurs système « B » et en accordant une note à chaque système eu les résultats se présentent
ainsi :
116
Σxi Σxi2
Système A 168 2392
NB : On suppose que les variances sont homogènes et que la distribution des notes suit une loi
normale
Exercice 25
Afin d’étudier l’importance de la plombémie sur certains problème de santé une étude faite
auprès de deux échantillons d’ouvriers :
Le 1er échantillon provient d’une usine de fabrication de pile et la plombémie a été mesurée en
ng/l auprès de 7 ouvriers soit : 0,082/ 0,080/ 0,079/ 0,069/ 0,085/ 0,09/ 0,086.
Le 2ème échantillon provient d’une usine de textile : la plombémie sur un échantillon de cette suite
est comme suit : 0,040/ 0,035/ 0,036/ 0,039/ 0,040/ 0,046/ 0,040.
1) Peut on conclure que le lieu de travail a un effet sur la plombémie ?
2) nous voulons estimer la plombémie dans la population générale
a) quel échantillon choisir
b) calculer cette estimation
Exercice: 26
Une usine de tube de dentifrice stipule dans son cahier de charge que le poids des ses tubes suit
une loi normale de moyenne μ = 50g et d’écart type σ = 3g
On prélève au hasard 9 tubes leur poids total est de 428 g
1- sachant que la somme des carrés du poids des tubes de ce lot de 9 tubes est égal à 20412
peut on conclure que cette usine respecte son cahier des charges?
2- On considère un deuxième échantillon de 8 tubes dont les poids en mg se présentent ainsi
50,6 ; 51,2 ; 50,3 ; 49,5 ; 51,1 ; 48,7 ; 49,8 ; 47,5.
Ces 2 échantillons sont ils différents ?
Exercice : 27
117
Exercice: 28
Exercice : 29
Une étude sur le rapport entre l’utilisation de la pilule par la mère et l’apparition d’un ictère chez
les nourrissons a donné les résultats suivants sur deux groupes de femmes: chez 57 femmes qui
prenaient la pilule l’ictère est apparu chez 33 nourrissons, chez 59 ne prenant pas la pilule l’ictère
n’est apparu que chez 14 nourrissons.
Que peut on conclure sur la relation entre la prise de la pilule par la mère est l’apparition de
l’ictère chez les nourrissons ?
Exercice: 30
- 40 souris ayant été soumises à une faible consommation du produit, 12 ont eu des effets
modérés et 12 effets sévères.
- 30 souris ayant été soumis à une consommation modérée, 8 n’ont eu aucun effet et 7 ont
eu un effet sévère
- 30 souris soumises à une consommation importante, 6 n’ont eu aucun effet et 8 un effet
modéré.
Ce biologiste peut il conclure à une relation entre la consommation du produit et les effets
secondaires ?
Exercice: 31
Afin d’étudier l’effet du tabac (T) sur les poumons (maladie M) on dispose d’un échantillon N de
400 personnes dont :
118
Exercice: 32
Vous êtes responsable d’une région sanitaire et vous désirez évaluer l’activité de votre
programme de vaccination.
1) vous tirez au hasard un échantillon de 200 enfants suivis dans le centre de vaccination (âge
12- 23 mois), 60 d’entre eux ont complété leur vaccination. A combien vous estimez le nombre
d’enfants correctement vaccinés dans votre région ?
2) Les résultats vous paraissent peu satisfaisants et le programme est renforcé. Une année plus
tard on refait une nouvelle évaluation sur un échantillon de 100 enfants (âge 12- 23 mois), 50 ne
sont pas vaccinés.
Pouvez vous affirmez que ce renforcement a eu un effet?
Exercice: 34
Deux groupes de malades tuberculeux ont été sélectionnés pour comparer un nouveau
médicament.
Ses résultats sont les suivants groupe A nouveau médicament nA = 100,
75 guéris
Groupe B ancien médicament nB = 100, 60 guéris
Que peut-on conclure à l’efficacité du nouveau médicament
Exercice 35
Un croisement entre deux souches de tomates : grandes feuilles tomates rouges X feuilles naines
tomates roses donnent les résultats suivants :
Exercice: 35
Deux dés sont lancés 60 fois en même temps. On s’intéresse à la somme 7 apparue sur les faces
des deux dés. Celle-ci est sortie 15 fois. Peut on conclure que ces deux dés sont parfaitement
équilibrés?
Exercice 36
Certains auteurs suggèrent que les naissances d’un garçon ou d’une fille sont des évènements
équiprobables.
a) Calculez les probabilités pour une famille donnée et comportant quatre enfants d’avoir zéro
fille, une fille, deux filles, trois filles et quatre filles.
b) L’examen de 320 familles tirées au sort et ayant chacune 4 enfants s’est traduit par la
distribution suivante
119
Nombre 4 garçons 3 garçons 2 garçons 1 garçon 0 garçon total
de garçons 0 fille 1 fille 2 filles 3 filles 4 filles
et de filles
Nombre 20 58 112 90 40 320
de familles
Cette distribution est elle compatible avec l’hypothèse que la naissance d’un garçon ou d’une
fille sont des évènements équiprobables ? Justifiez votre réponse.
Exercice: 37
Groupe référence A 20 19 18 17 16 15 14 13 12 11 10 0
B 1 3 2 2 3 6 3 2 1 2 2 3
Groupe expérimental C 17 16 15 14 13 12 11 10 9 8 7 0
D 1 2 3 4 1 4 2 3 1 2 2 5
1) Estimer les tailles des indurations obtenues après la vaccination dans la population
d’enfants âgés entre 5-10 ans
2) Conclure les performances de ces deux méthodes vaccinales.
Exercice 38
Dans une population on s’intéresse aux nouveau-nés on mesure la taille à la naissance la
moyenne µ = 50cm, σ = 6cm.
Sur un échantillon aléatoire de 64 nouveau-nés la taille moyenne est m = 45 cm
Cet échantillon était il tiré de la population d’intérêt.
Exercice 41
Les fréquences de groupes sanguins dans une population déterminée sont les suivantes :
A O B AB
45 % 43 % 9% 3%
120
Exercice 39
On veut d’une part estimer les temps moyens de survie d’un lot de souris après injection d’un
poison A ou d’un poison témoin B, et d’autre part comparer ces temps moyens. On constitue 2
lots de 100 souris, les unes recevant A, les autres B et on note le temps de survie, en jours, de
chaque souris, les résultats sont les suivants :
Nombre de Souris
Temps de survie (J) Poison A Poison B
0-4 4 3
5-9 6 5
10-14 25 12
15-19 28 30
20-24 20 20
25-29 15 20
30-34 0 8
35-39 2 2
Qu’elle serait la perte de poids moyenne d’une femme soumise à un régime 1400 calories
Exercice 41
Le tableau suivant résume les notes de biostatistique et le total des notes obtenues par 10
étudiants en médecine
total 200 320 240 215 190 240 180 234 195 210
stat 14 19 18 13 11 17 11 15 10 12
121
Exercice 42
Un botaniste vérifie la productivité de 5 variétés de maïs dans 5 lopins de terre de même
dimension et de même fertilité. Les résultats de la production en quintaux se présentent dans le
tableau suivant :
V1 V2 V3 V4 V5
4 7 10 16 10
3 8 14 14 13
6 9 12 10 12
2 8 9 7 10
2 5 5 3 14
A partir de ces résultats le botaniste peut-il conclure à une différence de productivité entre les
variétés de maïs ?
Exercice 43
Une étude s’est intéressée à l’influence de la vitesse d’injection d’un produit anesthésique sur la
tension artérielle systolique (TAS). Trois groupes de patients à anesthésier ont été constitués et
la vitesse d’injection a été de 15 secondes, 30 secondes et 45 secondes respectivement selon le
groupe les valeurs de la TAS figurent dans le tableau suivant :
G1 2 25 18 9 10 16 7 23 16 9 16
G2 28 19 11 21 9 16 23 14 27 23
G3 9 14 6 9 2 6 9 7 6 9
Problème
Afin de comparer l’endurance entre hommes et femmes, une course de marathon a été organisée.
Le jugement a été porté sur la distance parcourue par chaque coureur avant qu’il n’abandonne la
course. La distance moyenne parcourue par les hommes a été de 40 Km et un écart type de 5 Km,
la moyenne des femmes a été de 30 Km et un écart type de 8 Km. 100 hommes et 100 femmes
ont participé à cette course. En supposant que les distributions des distances parcourues suivent
une loi normale calculez :
a) Le nombre de personnes (hommes et femmes) encore dans la course après avoir parcouru
une distance de 35 Km.
b) Quelle distance doit parcourir un homme pour distancer 90% des femmes ?
c) combien de femmes sont elles encore en compétition après que 75 hommes auraient
quitté la course?
122
Problème
Le tableau suivant résume les données d’une enquête menée auprès d’un échantillon aléatoire de
300 individus sur l’âge de début de l’habitude tabagique et la consommation actuelle de tabac.
Problème
Un agronome mesure l’efficacité de 03 insecticides sur 05 différentes colonies de fourmis. Il
prélève à chaque fois 100 fourmis de chaque colonie. Le jugement est porté sur le nombre de
fourmis exterminées. Les résultats figurent dans le tableau suivant
123
Problème
Un biologiste teste l’effet de 3 antimitotiques (A, B, C) sur des cellules cancéreuses de même
souche. L’effet est mesuré par le calcul du nombre de cellules détruites. Chaque antimitotique a
été testé 5 fois sur100 cellules, les résultats se présentent ainsi :
Antimitotique A B C
50 71 45
60 60 55
53 75 55
40 80 40
65 70 60
1) Donnez une estimation de la fréquence des cellules détruites par chacun des deux
médicaments ?
2) Peut on conclure à une différence d’efficacité entre ces antimitotiques ?
Problème :
Une étude portant sur la fréquence d’une maladie M a été réalisée dans deux populations A et B.
Les observations ont été réalisées sur deux échantillons de 1500 individus chacun préalablement
tirés de ces deux populations. Le nombre de malade a été noté par tranche d’âge dans chaque
échantillon. Le tableau ci après rassemble les résultats.
1) Montrer que les âges moyens des différents échantillons sont statistiquement différents.
Préciser le degré de signification.
On donne variance de l’âge pour la population A = 136 ans2 et pour la population B 169 ans2
1) A combien peut on estimer le nombre de malades dans chaque population ?
2) Peut-on conclure à une différence de ces deux proportions dans les deux populations mères ?
justifier la réponse.
Vu les résultats des questions précédentes peut on réellement conclure que la maladie M est plus
fréquente dans la population A.
124
Problème
On s’intéresse à la distribution de la concentration d’une protéine (P) produite par le gène de
l’obésité et à sa relation avec la consommation de tabac. Un échantillon représentatif de 107
personnes a été tiré d’une population multiraciale (A,B) et les résultats figurent dans le tableau
suivant :
Concentration de « P »
Race
A 21 3,12 0,48
B 86 2,71 0,68
Tabagisme
125
126
127
128