Cours de Biostatistique
Cours de Biostatistique
Cours de Biostatistique
Statistique médicale
ESP3420
2006 - 2007
TABLE DES MATIERES
TABLES ......................................................................................................................................187
CHAPITRE 1 : CONCEPTS DE BASE
L'épidémiologie est la science objective des problèmes de santé dans les populations humaines.
Elle inclut l'étude de la distribution des problèmes de santé et l'étude des facteurs qui déterminent
cette distribution.
La santé est le résultat des interactions entre l'individu et son milieu. Alors que le clinicien
s'intéresse à un individu (le malade), l'épidémiologiste va s'intéresser à la collectivité (la
maladie).
Signes de
Pas de problèmes de Soumission à un l’apparition d’un Apparition des Traitement des
santé facteur problème de symptômes symptômes
Etudes normatives d’exposition santé cliniques cliniques
temps
t1 t2 t3 t4
Etudes étiologiques
Etudes
cliniques
• Avant l'instant t1, la collectivité ne présente pas de problème de santé. Des études normatives
peuvent être réalisées pour caractériser la santé de la collectivité.
• À l'instant t1, la collectivité est soumise à un facteur d'exposition et, au temps t2, des signes
(stade pré clinique) vont indiquer qu'un problème de santé apparaît dans la collectivité.
Ultérieurement, au temps t3, apparaissent les symptômes cliniques (stade clinique) qui seront
traités au temps t4.
La détermination des populations à risque commence avant t1 (l'exposition) et se termine en t3.
Les études de dépistage et de diagnostic précoce sont réalisées entre t2 et t4.
• Après l'instant t4 (le traitement), on observe les conséquences à long terme du problème de
santé.
Les études étiologiques vont s'échelonner de t1 à après t4.
Les études cliniques ont pour but d'aider au diagnostic, d'évaluer le succès des thérapeutiques et
la qualité de la pratique clinique ; elles vont donc commencer en t3 et se terminer après t4.
Dans une première phase, l'épidémiologiste va se donner des règles précises et claires de
diagnostic individuel pour détecter les individus malades dans la collectivité.
Dans une seconde phase, il va poser un diagnostic collectif si il observe une fréquence
inhabituelle d'un problème de santé.
La situation devra être précisée clairement : qui (individus), quand (temps) et où (espace).
Une épidémie est une fréquence inhabituelle limitée dans le temps et limitée dans l'espace.
Une endémie est une fréquence inhabituelle limitée dans l'espace mais pas dans le temps.
Une pandémie est une fréquence inhabituelle limitée dans le temps mais pas dans l'espace.
Préciser "qui" requiert la mesure de signes ou de caractères distinctifs entre les individus
malades et les individus non malades ; il faudra comparer ces signes entre les deux groupes.
La statistique est l'étude mathématique des lois du hasard et le hasard est la cause fictive de ce
qui arrive sans raison apparente ou explicable.
La statistique s'applique à tous les phénomènes où les facteurs de variation sont complexes,
tellement nombreux et enchevêtrés qu'une étude exhaustive est impossible.
Les trois étapes d'une étude statistique sont la récolte des échantillons d'observations relatives au
phénomène, l'analyse de ces échantillons et la déduction sur les populations (et sur le
phénomène).
Ces trois étapes sont étroitement liées et dépendent l'une de l'autre; une mauvaise récolte
introduira des "biais de sélection", une mauvaise analyse introduira des "biais d'estimation" et la
déduction sera alors difficile, voire impossible.
Nous n'aborderons pas les problèmes de récolte dans ce cours.
Pour un étudiant en sciences fondamentales, il est parfois difficile d'apprécier la variabilité des
données biologiques.
Si on plonge 100 fois un papier tournesol bleu dans une solution acide, il va virer au rouge, non
pas la plupart du temps (disons 95 fois), mais chaque fois (100 % du temps). La pénicilline a été
l'un des rares "miracles" thérapeutiques où les résultats étaient si évidents qu'il n'était pas
nécessaire de les évaluer. Par contre, si l’on donne de l'aspirine à une série de personnes souffrant
de maux de tête, elles ne vont pas toutes être soulagées.
Les mesures sur les individus humains donnent rarement les mêmes résultats d'une fois à l'autre.
Par exemple, si on mesure la tension artérielle d'une personne avec une précision inférieure à 1
mmHg, les chances de reproduire la mesure le lendemain à 5 mmHg près sont inférieures à 50%
(Armitage, 1966).
La variabilité est aussi inhérente aux réponses du "hasard biologique". Beaucoup acceptent
aujourd'hui le fait que fumer la cigarette provoque le cancer du poumon et/ou des maladies
cardio-vasculaires mais tout le monde connaît ou peut citer l'exemple d'une personne de 80 ans
ou plus qui fume depuis plus de 60 ans et qui est en très bonne santé. Bien qu'actuellement, plus
de 20 % des décès dans nos pays soient attribués à la cigarette, on oublie que jusque dans les
années 50, la cause de l'augmentation des cancers pulmonaires était un mystère, souvent
attribuée aux fumées des moteurs. La cigarette n'a été identifiée comme cause qu'après des études
cas-témoins et de cohortes très bien planifiées et analysées statistiquement (Doll, 1952,1964).
Avec une telle variabilité, il s'en suit que des différences vont presque toujours se produire dans
les comparaisons à faire dans un contexte médical. Ces différences peuvent être dues à des effets
réels, à une variation aléatoire ou aux deux.
Le travail d'un analyste est de décider quelle est la part de variation imputable au hasard et
d’ensuite pouvoir déclarer que toute variation restante peut être supposée due à un effet réel.
C'est l'art de la statistique. Le hasard ne se prouve pas, mais la loi du hasard (qui sera appelée
l'hypothèse nulle) va fournir une borne sur la variation. Si la variation observée dépasse la borne,
on pourra supposer que ce n'est pas le hasard qui cause la variation (le résultat sera dit
significatif).
C'est donc un raisonnement logique inductif que l'on utilise en statistique : A (le hasard) implique
B (la variation est inférieure à une borne), et si B se produit (i.e. est observé) alors on ne peut pas
conclure !
Il ne faudra jamais oublier qu'une étude bien planifiée et mal analysée pourra être sauvée en ré-
analysant les données mais une étude mal planifiée outrepasse la rédemption des statistiques les
plus sophistiquées.
Assurer que les résultats sont généralisables et comparables est une tâche du statisticien médical
qui est bien plus importante que l'analyse des données. A titre d'exemple, en 1975, Burke et al
ont mené une étude sur la relation entre la mortalité par cancer et la quantité de fluorine contenue
dans l'eau de distribution. Les auteurs ont comparé 10 villes (USA) ayant une eau de distribution
chargée en fluorine à 10 autres villes dont l'eau de distribution ne contenait pas de fluorine. Dans
les 10 premières villes, le taux de mortalité par cancer avait augmenté de 20% entre 1950 et 1970
alors qu'il n'avait augmenté que de 10% dans les 10 dernières, sur la même période. Les auteurs
ont conclu à un effet causal. En 1977, Oldham et Newell ont analysé la répartition âge, sexe et
race des 20 villes et ont montré que si les taux publiés par Burke et al avaient été corrigés pour
Dans l'exemple de Burke et al, l'âge, le sexe et la race sont des variables de confusion. Toute
étude d'observation qui compare des populations différenciées par une variable particulière (la
présence de fluorine dans l'exemple, ou bien des fumeurs et des non fumeurs) et qui attribue les
différences trouvées dans une autre variable (le taux de cancer par exemple) à cette variable
particulière est à la merci des variables oubliées, dites de confusion. Ainsi, certains auteurs n'ont
pas hésité à attribuer les différences dans les taux de cancer du poumon chez les fumeurs et chez
les non fumeurs à des facteurs génétiques…
La difficulté des études d'observation réside dans le fait qu'il peut y avoir une infinité de
variables de confusion. Un investigateur peut mesurer toutes les variables qui lui paraissent
raisonnables, un critique pourra toujours penser à une autre variable, non mesurée, qui pourrait
expliquer les résultats.
Il n'y a que dans les études randomisées prospectives que cette difficulté peut être écartée. Dans
de telles études, la variable d'exposition (comme des traitements alternatifs par exemple) est
attribuée par un mécanisme purement aléatoire, ce qui permet de supposer que les variables de
confusion non mesurées sont comparables entre les (deux) groupes. Malheureusement, il n'est
pas possible de randomiser dans beaucoup de situations (c'est le cas des fumeurs : on ne peut pas
imposer à quelqu'un de fumer ou de ne pas fumer, pour étudier le cancer du poumon !) et donc,
des interprétations alternatives seront toujours possibles.
Dans une étude, si un facteur n'est pas statistiquement associé à une maladie (résultat NS, non
significatif), on n'aura pas l'explication logique ou la preuve que le facteur étudié est un facteur
de risque. Mais on n'aura pas non plus la preuve qu'il ne l'est pas puisque le raisonnement est
inductif.
Par contre, si le résultat montre une association statistique, il faut se poser un certain nombre de
questions avant de supposer un effet causal :
(1) la consistance : d'autres investigateurs ou d'autres études sur des populations différentes ont-
ils obtenu des résultats similaires ?
(2) la plausibilité : par exemple, si un facteur de risque est associé au cancer, contient-il des
carcinogènes connus ? Est-ce biologiquement plausible ?
(3) l'intensité (dose-réponse) : les sujets soumis à un risque plus intense ont-ils un risque plus
élevé de développer la maladie que les personnes soumises à un risque plus faible ?
(4) l'antériorité : les sujets ont-ils bien été soumis au risque avant de développer la maladie ?
(5) la force de la relation : une différence plus grande est plus convaincante qu'une petite. La
(6) la spécificité : le facteur cause-t-il d'autres problèmes de santé ? i.e. le facteur est-il
spécifique de la maladie ? Si non, on parlera de facteur "favorisant" (pragmatique) plutôt que
causal (explicatif). Ceux qui refusent l'effet causal de la cigarette sur le cancer du poumon
prétendent que certaines personnes ont une susceptibilité génétique pour le cancer du poumon et
que c'est ce même gène qui les prédispose à fumer.
Si l’on peut supposer l'effet causal, il faudra préciser si l'action est directe ou indirecte. Si on ne
peut pas supposer l'effet causal, alors, il faudra tenter d'expliquer la signification statistique. Si
celle-ci n'est pas un artéfact, alors le facteur est-il un facteur de confusion ? [biais]. En effet, si la
taille des échantillons est grande, la signification statistique pourrait être un artéfact.
En 1986, Rose et Barker écrivaient : "Le biais frappe au coeur des comparaisons ; il est un dirty-
dirt (crasse - crasseuse) et il ne peut pas être toléré en épidémiologie".
Sans une perspective équilibrée, la tentation est grande de se concentrer sur le moins important
qui est de quantifier le rôle du hasard au détriment d'une tâche bien plus importante qui est la
recherche de biais possibles cachés dans le design.
Toute étude requiert la formulation d’hypothèses (background, aim of a study, l’élaboration d’un
protocole d’inclusion d’individus et d’acquisition et traitement de données (material & methods),
la description et l’analyse des données récoltées (results) et l’interprétation des résultats
(discussion).
Une recherche étiologique a pour but d’étudier les causes d’une maladie, de comprendre
l’étiopathogénie et, par extension, le mécanisme de certains phénomènes physiologiques. Dans
une telle recherche, l’explication causale est souvent très difficile parce que beaucoup de
différences séparent les individus malades des non malades. Des différences peuvent être la
cause (il y a un mécanisme direct Action – Réaction), avoir un lien avec d’autres facteurs qui
sont eux-mêmes la cause (il y a un mécanisme indirect : Action – Médiateur(s) – Réaction) ou
bien résulter d’artéfacts ou d’erreurs techniques (biais systématiques). Des biais de confusion et
de modification sont potentiellement présents pour toute différence observée.
Les études expérimentales à visée explicative ont pour but d’isoler un ou deux facteurs
susceptibles d’expliquer l’origine d’une pathologie. C’est une tâche qui aboutit souvent à
l’incertitude, parfois à l’échec. Chaque fois que c’est possible, une recherche étiologique à visée
explicative devrait être accompagnée d’études fondamentales, c’est-à-dire de recherches in
vitro et d’expérimentations animales.
Aujourd’hui, plus de 90% des études de recherche étiologique ont un objectif pragmatique : elles
visent à prévenir plutôt qu’à expliquer.
Les études d’observation conduisent à déterminer des indicateurs de risque qui permettent
Les études expérimentales à visée pragmatique, aussi appelées études d’intervention sur la
maladie ou ses complications permettent d’apprécier l’efficacité d’une prévention, qu’elle soit
primaire1, secondaire2 ou tertiaire3.
En particulier, les essais cliniques sont des études d’intervention non contrôlée en Phase I
(déterminer) et en Phase II (évaluer), des études d’intervention contrôlée par randomisation en
Phase III (prouver) et sont des études d’observation en Phase IV (surveiller).
1
Prévention primaire : tout acte permettant de réduire l’incidence d’un problème de santé dans une population.
2
Prévention secondaire : tout acte permettant de réduire l’évolution et/ou la durée d’une maladie.
3
Prévention tertiaire : tout acte permettant de réduire les invalidités fonctionnelles consécutives à la maladie.
Mesurer et comparer
Facteurs Problèmes de
santé
• Tabac
• Pollution dddddd
• Âge dddddd
• Etc… ddd
Association
statistique
?
NON OUI
Preuve
Explication Cause
?
1. Consistance
2. Intensité
Biais 3. Spécificité
4. Antériorité
Paradoxe de 5. Plausibilité
Simpson
NON
OUI
(pragmatique)
Artefact ?
oui non
(explicatif) Action ?
“confusion,”
Paradoxe de Simpson
Directe Indirecte
Paradoxe de simpson ! Biais
2.1. Contexte
Toute mesure de la santé est basée sur l'évaluation d'un caractère spécifique (ex : décès, maladie,
handicap,...) dans une population. Il est très important de préciser comment est définie cette
population d'intérêt par :
Une proportion est une partie d’un tout : c’est un nombre compris entre 0 et 1.
Par exemple, dans un groupe de 100 hommes et de 50 femmes, la proportion (ou fréquence
relative) d'hommes dans le groupe est 100/150.
Si les 150 personnes constituent une population, alors le rapport 100/150 est un paramètre de
population.
Une probabilité est une mesure de l’incertitude qui peut avoir un lien avec une proportion… Si
on tire au hasard une personne parmi les 150, la probabilité (aussi appelée la chance par certains
et le risque par d’autres) que cette personne soit un homme est 100/150. La probabilité n’est
égale à la proportion que si l’on a tiré au hasard…
Si ces 150 personnes constituent un échantillon aléatoire simple (EAS)4 d’une population plus
importante, alors 100/150 (la proportion observée dans l’EAS) est une estimation du paramètre
inconnu « proportion d’hommes dans la population ».
Dans les sciences de la santé, un indice (ratio) est le quotient de deux entités ayant des caractères
distincts. Un indice peut être simplement une proportion (prévalence ou incidence), une cote5 ou
encore le rapport de deux proportions ou de deux cotes.
100
100 150 est le
Par exemple, dans un groupe de 100 hommes et de 50 femmes, le rapport =
150 50
150
« sex ratio », ou la proportion d’hommes par rapport à la proportion de femmes.
De manière générale, les indices permettent d'apprécier l'état de santé.
4
Important : Dans le terme échantillon aléatoire simple, aléatoire veut dire que chaque individu de la population avait une chance non nulle et non
certaine d’être choisi, simple veut dire que tout le monde avait la même chance d’être choisi.
5 odds en anglais = « proportion pour » / « proportion contre ».
• Le taux de mortalité brut, TMB (Crude Mortality Rate, CMR) est le nombre de décès par unité
de population pour un lieu donné et une période donnée (généralement, une année).
n o m b re d e d écès en B elg iq u e en 1 9 8 7
TM B =
taille d e la p o p u latio n b elg e m i-1 9 8 7
105968
=
9870234
= 0 .0 1 0 7 4
= 1 0 . 7 4 p o u r m ille p erso n n es-an n ée
11 922
TM B =
971 923
= 1 2 . 2 7 p o u r m i lle p e r s o n n e s -a n n é e
• Le taux de mortalité spécifique selon l'âge, TMS (age-specific mortality rate) est le nombre de
décès dans un groupe d'âge particulier par unité de population de cet âge, pour un lieu et une
période donnés.
441
TMS (25 - 44 ans ) =
283 075
= 1.56 pour 1000 personnes de 25 à 44 ans
Par exemple, pour Bruxelles, en 1987, pour les maladies cardio-vasculaires (MCV) :
• L'indice proportionnel de mortalité pour une cause (ratio PM) est le nombre de décès dus à
cette cause spécifique par rapport au nombre total de décès dans une population, pour un lieu et
une période donnée.
Par exemple, pour Bruxelles, en 1987, pour les maladies cardio-vasculaires,
• La létalité d'une maladie (ou potentiel létal d'une maladie) est le nombre de décès dus à cette
maladie par rapport au nombre de personnes ayant cette maladie dans la population, pour un lieu
et une période donnés. C'est un taux de risque lorsqu'il s'agit de maladies de propagation et de
durée stables, sinon c'est une proportion.
Par exemple, pour la Belgique, au 31 mars 1992, 596 cas de SIDA avaient déjà été
diagnostiqués. 24 ont été perdus de vue et 326 sont décédés,
326
Létalité globale du SIDA (en mars 1992) = = 57%
596 - 24
Avant 1986, 91 cas avaient été diagnostiqués et non perdus de vue dont 85 sont décédés entre
1987 et 1991 (5 ans de suivi),
85
Taux annuel moyen de létalité 1987-1991= 91 = 23.35% diagnostics - année
4
La prévalence P est le nombre de cas d'une maladie par unité de population, pour un lieu et un
moment précis (qui peut être une période). C’est une proportion.
Même s’il faut préciser le lieu et la période, le calcul n’intègre pas de notion ou référence à cette
période. Ce n'est donc pas un taux au sens strict. Pour les maladies chroniques (MCV ou cancers
par exemple) et les maladies infectieuses de longue durée (comme le SIDA), elle peut permettre
d’évaluer les taux.
L'incidence I est le nombre de nouveaux cas d'une maladie particulière qui sont diagnostiqués
pendant une période précise (souvent une année) par unité de population, pour un lieu.
C'est un taux qui permet d'estimer la vitesse de propagation d'une maladie ou d'évaluer les
mesures de contrôle d'un phénomène de masse.
Exemple sur une population de 10 individus (A à J) (Les flèches représentent les périodes de maladie)
7
Prévalence en 1991 = (A à G)
10
3
Prévalence au 15/3/91 = (C à E)
10
4
Incidence en 1991 = (A,B,D,F)
10
Remarques :
• Pour les maladies de propagation stable et/ou chroniques comme les cancers, les MCV, etc., P
est le produit de I et D :
Si P diminue, c'est soit parce que D diminue (grâce à des traitements efficaces par exemple), soit
parce que I diminue (grâce à des mesures anti-épidémiques par exemple), ou encore que D et I
diminuent tous les deux. Si D augmente, par exemple, grâce à des traitements palliatifs mais non
curatifs, alors P peut augmenter alors que I ne change pas (souvent le cas des « progrès
thérapeutiques » pour les cancers ou les MCV).
• Lorsqu'un groupe d'individus est exposé à un risque pendant une période limitée (au cours
d'un repas pour une intoxication alimentaire, au cours de l'enfance pour des maladies
pédiatriques, au cours de la vie professionnelle pour des maladies professionnelles, au cours
de la vie entière pour des maladies d'étiologie mal connue, ...), le taux d'attaque pour la
maladie est l'incidence mesurée sur la période d'exposition entière.
Certains indices permettent d'agréger mortalité et morbidité. Par exemple, l'espérance de vie sans
incapacité fonctionnelle (EVSI) qui se calcule simplement (calcul actuariel) par la méthode
suivante : (COLVEZ, 1983)
1332091
• Espérance de vie à 65 ans = = 13.3 ans
100000
1087651
• EVSI = = 10.9 ans
100000
La différence entre les deux valeurs est le gain potentiel d'années qu'on pourrait obtenir en
supprimant les incapacités fonctionnelles.
En effectuant ce calcul par cause pathologique, on obtient le gain potentiel lié aux incapacités
fonctionnelles dues à cette cause particulière.
Le taux de mortalité brut du Chili en 1981 était de 6.2‰ tandis qu'il était de 11.8‰ pour la
même période en Angleterre. Peut-on en déduire que les Chiliens étaient en meilleure santé que
les Anglais en 1981 ?
On pourrait envisager de comparer les taux de mortalité spécifiques selon l'âge dans chaque
groupe d'âge (comparaison de deux proportions) mais on aurait alors autant de comparaisons
qu'il y a de groupes d'âge, et trop de comparaisons augmentent le risque d'erreur comme nous le
verrons dans le chapitre 7.
Il existe deux méthodes pour standardiser des taux de mortalité selon l'âge de manière à ce que
l'on ait qu'une seule comparaison à faire. Dans les deux cas, il y a une population cible pour
laquelle on veut ajuster les taux et il y a une population standard qui fournit soit une distribution
standard selon l'âge (méthode directe) soit des taux spécifiques standard selon l'âge (méthode
indirecte). Le choix de cette population standard est arbitraire.
Si on veut comparer la mortalité de deux régions d'un même pays, on choisit souvent la
population nationale comme population standard.
Pour des comparaisons au niveau mondial, l'Organisation Mondiale de la Santé (OMS) a publié
des tables de population standard selon 19 classes d'âge pour les types de répartition africain,
européen et mondial.
Population V Population J
Méthode Méthode
taille décès TMS-âge taille décès TMS-âge directe indirecte
Classes d'âge Nv dv tv = dv/Nv (‰) Nj dj tj = dj/Nj (‰) ∆t = tj-tv tj/tv
0-19 ans 2500000 2500 1 5000000 40000 8 +7 8
20-49 ans 4000000 8000 2 4000000 20000 5 +3 2,5
50 ans et plus 3500000 105000 30 1000000 35000 35 +5 1,17
Total 10000000 115500 11,6 10000000 95000 9,5 - 2,1 0,82
Pour la population V, le TMB est de 11.6‰, soit supérieur au TMB de la population J qui est de
9.5‰ alors que les TMS-âge sont inférieurs dans chaque groupe d'âge. Les différences Λt sont
positives dans chaque groupe d'âge mais la différence est négative dans le groupe total. Ceci
indique déjà que la population J est plus jeune que la population V et donc, que les taux bruts ne
sont pas comparables.
On choisit une population standard en distribution d'âge, parfois appelée population-type qui va
servir de référence. On pourrait choisir NV ou bien NJ. Nous avons choisi celle de l'OMS, NS.
Classes d’âge Population standard Décès attendus si les Décès attendus si les
(OMS) taux sont tV taux sont tJ
NS d = NS * tV d = NS * tJ
Le taux global attendu pour la population standard NS est de 720/100 000 = 7.2‰ dans la
population V et il est de 1220/100 000 = 12.2‰ dans la population J, soit supérieur.
Il est donc très important de préciser quelle est la population standard choisie pour calculer les
taux standardisés.
La méthode directe est applicable tant que Λt a le même signe dans toutes les catégories d'âge.
Elle peut s'utiliser aussi lorsque NV et NJ ne sont pas connus puisque ce sont les taux tV et tJ qui
sont appliqués à la population standard.
La méthode directe n'est pas très utilisée dans la littérature parce que les populations cibles (V et
J dans notre exemple) sont souvent de tailles faibles dans les groupes d'âge, ce qui a pour
conséquence un manque d'efficacité dans l'estimation des taux tV et tJ.
On choisit des taux standard, parfois appelés taux-type, qui vont servir de référence et on va
appliquer ces taux aux deux populations NV et NJ :
L'indice comparé de mortalité (Standardised Mortality Ratio), ICM, est le rapport entre le
nombre de décès observés et le nombre de décès attendus.
L'ICM de la population J est supérieur à l'ICM de la population V, 2.32 fois supérieur pour les
taux standard choisis pour corriger l'effet de l'âge.
Si on avait choisi les taux tV comme standard, on aurait trouvé ICM (tV) = 100% pour la
population V et ICM (tV) = 220.9% pour la population J, soit 2.21 fois supérieur et si on avait
choisi les taux tJ comme standard, on aurait trouvé ICM (tJ) = 71.1% et 100% pour les
populations V et J respectivement, soit 1.41 fois plus pour la population J. ICM dépend aussi des
taux standard choisis, et est également le rapport entre le taux brut et le taux standardisé.
Le modèle statistique des hasards proportionnels (cox) est basé sur l'ICM.
La méthode indirecte est optimale tant que les rapports des taux spécifiques tJ/tV sont constants et
elle peut être appliquée si tous ces rapports sont soit >1, soit <1 dans toutes les catégories d'âge.
Dans l'exemple, ils sont tous supérieurs à 1.
On peut standardiser toutes sortes de taux (taux pour une maladie par exemple) et pour d'autres
variables que l'âge, comme la profession, la classe sociale, le sexe,... La population cible doit
toujours être bien définie en termes de temps et de lieu d'abord, mais elle peut aussi être un
groupe professionnel.
En 1978, Beral et al ont mené une étude pour répondre à la question : les grossesses protègent-
elles contre les cancers ovariens? Ils ont montré que les taux de cancer ovarien décroissaient
statistiquement quand la taille de la famille augmentait dans chaque pays étudié. En utilisant la
population britannique comme standard, ils ont calculé des indices comparatifs de cancer ovarien
par la méthode de standardisation indirecte pour l'âge. Ils ont trouvé un ICM de 49% pour le
Chili par exemple, soit inférieur statistiquement à 100% et ils ont conclu à un taux de cancer
ovarien plus faible au Chili qu'en Grande Bretagne étant donné une standardisation pour l'âge des
femmes.
UCL-MD Epidémiologie et biostatistique 15
En 1985, une étude a été menée pour comparer les taux de mortalité périnatale entre les
différents pays de la CEE. L'Italie avait un TMB périnatale de 28.6‰ alors que la Suède avait un
TMB périnatale de 14.1‰. En corrigeant ces taux pour l'âge de la mère (<20 ans, de 20 à 35 ans,
plus de 36 ans) par la méthode de standardisation indirecte avec les taux de la Suède comme
standard, cette différence s'estompait (le taux standardisé est le rapport entre le nombre total de
décès attendus si les taux étaient ceux de la Suède et le nombre total de grossesses menées à
terme dans le pays; taux standardisé = ICM / taux brut).
Standard (St) 14.8 15.0 14.6 15.5 14.3 14.6 14.1 13.9
Avant de définir le design d'une étude clinique, il faut définir les objectifs de l'étude en adressant
4 questions :
La subdivision majeure se situe entre les études longitudinales qui investiguent un processus
dans le temps (essais cliniques, études de cohorte, études cas-témoins par exemple) et les études
transversales qui décrivent un phénomène fixé dans le temps (études en laboratoire de processus
biologiques, par exemple).
Cette classification est importante non seulement pour la forme de l'analyse statistique mais aussi
pour établir la causalité. Cette classification est axée sur une notion de groupe et une notion de
temps par le processus naturel suivant :
t1 t2 t3
Temps
Exposition au Apparition de la
facteur E, maladie M
Oui (+) ou Non (-) Oui (+) ou Non (-)
t1 t2 t3
Temps
Population
cible ? n M+
M+ M-
n E+
?
E+
? nM– E-
N
? N
? n M+
n E-
? nM–
Evaluation
Remarques
• Si les N individus sont choisis aléatoirement ou bien constituent une cohorte, alors les
résultats seront plus facilement généralisables à la population cible.
Exemples :
- les essais cliniques (clinical trial) où les "individus" sont la cohorte des patients souffrant d'une
affection particulière, "l'exposition" est le traitement (nouveau ou standard, drogue ou placebo,
...) et la "maladie" est l'efficacité du traitement.
- Les enquêtes d'intervention (interventional survey) où les "individus" sont des usines prises
aléatoirement dans le secteur industriel ciblé, "l'exposition" est le changement des normes de
sécurité et la "maladie" est la réduction des accidents du travail.
Les interventions ont pour but de mesurer si une modification de l'exposition induit une
modification de la maladie.
• Si la subdivision en deux groupes est randomisée alors l'effet des facteurs de confusion sera
réduit au minimum. Comme un individu a une "probabilité" d'être exposé, tous les taux calculés
seront des probabilités par période.
Les études expérimentales satisfaisant ces deux points sont les méthodes de choix pour affirmer
un lien causal parce que les biais sont minimums mais, elles nécessitent beaucoup de temps, un
coût élevé, des effectifs importants et elles posent un problème d'éthique très important.
Exemple :
Période de
sevrage
t1 t2 t3 (washout) t4 t5
Temps
Test Contrôle
Population
E+ E-
cible
n+ -
?
N
Contrôle Test
? E+
E-
n- +
Les individus sont tous exposés (E+) et non exposés (E-) dans un ordre randomisé (n+- sont ceux
qui seront exposés et ensuite non exposés et n-+ sont ceux qui seront d’abord non exposés et
ensuite exposés). Ils sont tous évalués deux fois. Ainsi, chaque individu fournit une estimation de
la différence entre l'exposition et la non-exposition. Le design est utile pour évaluer un traitement
palliatif, non curatif dans les maladies chroniques stables comme le diabète ou l'arthrose.
L'analyse de ce design dépasse le cadre de ce cours bien que nous aborderons la comparaison de
deux échantillons appariés. Ici, il s'agit de 4 échantillons appariés : l'évaluation des testés en
première intention, des contrôlés en première intention, des testés en deuxième intention et des
contrôlés en deuxième intention. L'avantage de ce design est qu'il requiert moins d'individus
puisque chaque individu sera son propre contrôle mais les inconvénients sont nombreux : le
temps étant plus long, davantage de patients abandonnent (drop-out), la maladie peut ne pas être
tout à fait stable, la période de sevrage peut ne pas être assez longue,...
Un groupe contrôle est indispensable parce que dans les études pré- post- intervention, la
différence peut refléter l'effet de l'intervention mais aussi la variation d'autres facteurs au cours
du temps et il est quasi-impossible de distinguer ces deux variations sans groupe contrôle ! Mais
un groupe contrôle n'est pas toujours possible.
Par exemple, en 1986, Mills et al ont évalué l'effet d'une campagne d'information sur le SIDA,
menée par le gouvernement britannique. Des questionnaires ont été envoyés avant et après la
campagne à un échantillon aléatoire. Les investigateurs ont constaté par exemple que 33% de la
population connaissait le sens des initiales AIDS avant la campagne et seulement 34% après ! Un
groupe contrôle n'était pas possible puisque la campagne couvrait tout le pays.
t2 t3 Temps
? n M+
n
E+ M+ M-
? n M-
E+ nE+
? n M+ E- nE-
n
E- N
? n M+
Evaluation
Un échantillon d'individus exposés (E+) et un échantillon d'individus non exposés (E-) sont
suivis au cours du temps et l'observation de chaque individu commence au temps t2, c'est-à-dire
avant la maladie. Les individus sont évalués après l'apparition de la maladie, en t3.
Cette méthode est utilisée lorsque le facteur d'exposition est rare comme l'exposition à des
radiations nucléaires. Le design peut être parallèle mais généralement, il est apparié. Si on suit
tous les exposés et un échantillon aléatoire des non-exposés, on peut déterminer l'incidence chez
les exposés, l'incidence chez les non-exposés, mais pas l'incidence dans la population. On ne
pourra tirer des conclusions que conditionnellement à l'exposition.
Par exemple, dans le cas des travailleurs exposés à des radiations nucléaires, on peut associer à
chacun un conjoint qui serait un travailleur du même sexe, même âge, même catégorie
socioprofessionnelle... Lors de l'évaluation, ce sont les paires discordantes qui vont présenter un
intérêt.
Une cohorte désigne souvent en épidémiologie un ensemble d’individus qui ont en commun
le vécu d’une même expérience ou de mêmes conditions. Par exemple, une cohorte de
naissance partage la même année ou période de naissance (cohorte des personnes nées en
1900) ; une cohorte de végétariens partage le même régime diététique ; la cohorte des
travailleurs d’une entreprise chimique, …
Dans l’étude, il peut y avoir une, deux ou plus de deux cohortes. Les groupes diffèrent par
l’étendue ou le type d’exposition à un facteur causal potentiel. Quand il y a deux cohortes
dans l’étude, l’une est la cohorte exposée, l’autre la cohorte non exposée ou cohorte de
référence. Ces individus sont suivis au cours du temps, de t2 à t3. t2 peut aussi être une période
de recrutement. Dans une cohorte prospective, l’investigateur assigne préalablement
l’exposition et attend ensuite jusqu’à la survenue de la maladie.
t2 t3 Temps
malades
? M+
E+ M+ M-
non maladies
COHORTE
malades
? M- E+ nE+
E- nE-
non
E- ? M+
N
? M-
Evaluation
Le but est de mesurer et souvent comparer l’incidence de la maladie dans une ou plusieurs
cohortes. Généralement, ces études sont menées pour déterminer et investiguer des facteurs
étiologiques. Elles sont souvent appelées études d'observation puisqu'elles observent simplement
la progression des individus au cours du temps. Elles sont sujettes aux facteurs de confusion
(biais). Il faut donc bien veiller à mesurer toutes les variables potentiellement influentes avant de
commencer l'étude. L'analyse finale prendra en considération les différences dans les variables
initiales, entre les deux groupes.
Exemples :
Schatzkin et al (1987) ont étudié 7188 femmes âgées de 25 à 74 ans qui avaient été examinées
entre 1971 et 1975 dans le cadre d'une enquête sur la nutrition aux USA (NHANE survey)
incluant des questions sur la consommation d'alcool. Les sujets de cette étude avaient été
observés entre 1981 et 1984 et les cas de cancer du sein avaient été identifiés.
Schatzkin et al ont trouvé que le risque de cancer du sein était de 50% plus élevé chez les
alcooliques que chez les non alcooliques malgré un ajustement pour des facteurs tels que la
ménopause, l'obésité et la cigarette. Le problème statistique a été de comprendre si c'était
réellement la consommation d'alcool qui produisait cet accroissement de l'incidence du cancer du
sein ou bien si c'étaient d'autres facteurs qui sont généralement associés à la consommation
d'alcool.
Une étude cas-témoin commence en t3, par l'identification des personnes ayant la maladie (ou une
autre variable réponse) d'intérêt et un groupe de personnes n'ayant pas la maladie. La relation
entre un facteur de risque et la maladie est examinée en comparant les malades et les non
malades pour la fréquence (ou la valeur moyenne) de la présence du facteur de risque.
t2 t3 Temps
n E+ ?
M+ n
M+ cas
n E - ?
M+ M-
E+
n E+ ?
n
M+ M- témoins E-
n E - ?
N M+ nM-
non malades
Cette méthode est la plus répandue en milieu clinique. Elle permet de formuler des hypothèses
étiologiques. Elle est parfois appelée exploratoire.
Pour les maladies rares, elle reste une méthode réaliste. Le risque absolu (incidence) ne peut pas
être estimé, ni le risque relatif (incidence chez exposés / incidence chez non exposés) mais
seulement un odds ratio (rapport des cotes) et si la maladie est rare (I<10%), cet odds ratio
pourra être considéré comme étant le risque relatif.
Remarques
• Les témoins peuvent être choisis dans une population de non malades sans aucun appariement
(design parallèle ou groupes indépendants)
Exemple :
Olsen et al (1987) ont étudié 7 femmes ayant le syndrome de Raynaud (doigts blancs +
vasoconstriction), 10 femmes saines, 7 hommes ayant aussi ce syndrome et 8 hommes sains. Les
témoins étaient des étudiants en médecine. Les auteurs ont comparé la réponse vasoconstrictrice
de l'assise des doigts entre les cas et les témoins et ont obtenu un résultat statistiquement
significatif. La différence entre les cas et les témoins est-elle due à la maladie ou d'autres facteurs
peuvent-ils l'expliquer? Les étudiants sont probablement plus jeunes et en meilleure santé que les
personnes atteintes du syndrome.
• Les témoins peuvent être appariés sur deux ou trois variables connues comme influençant la
maladie (matched design, groupes dépendants). En général, on choisit l'âge, le sexe et la classe
sociale et, à chaque cas, on associe un témoin (ou plusieurs parfois). L'analyse statistique doit
tenir compte de l'appariement.
Exemple :
En 1987, Brown et al ont publié une étude sur tous les cas de cancer des testicules, dans une
région définie, du 1/1/76 au 30/06/86. Les témoins étaient des hommes du même hôpital que les
cas et appariés aux cas sur l'âge et la race. Ces témoins souffraient d'autres malignités que le
cancer des testicules. Les investigateurs ont conclu que les hommes dont les testicules n'étaient
pas descendus à la naissance avaient un risque plus élevé de développer le cancer étudié.
Les études de cohortes rétrospectives ou historiques sont beaucoup plus rares. Plusieurs études
de cohortes professionnelles sont rétrospectives dans le sens que les sujets sont sélectionnés
après que la maladie soit survenue. Elles impliquent l’identification et le suivi de sujets, mais
les sujets sont identifiés uniquement après que la période de suivi de l’étude soit finie.
C'est dans les études rétrospectives que les biais sont les plus importants. La sélection des
témoins est difficile et souvent la source de controverses. L’identification des sujets, leur
exposition, et leur devenir sont basés sur des enregistrements existants ou sur les mémoires.
Une personne malade se rappelle plus facilement (et est plus motivée à se rappeler aussi) si elle a
été exposée à un facteur de risque qu'une personne non malade. Dans les dossiers, on collecte
beaucoup d'information concernant la maladie dont souffre une personne mais très peu
concernant les maladies dont elle ne souffre pas ! Par contre, on n'est pas confronté au problème
de l'éthique dans de telles études. C'est pour ces raisons qu'elles sont plutôt considérées comme
génératrices d'hypothèses qui doivent être corroborées par une étude prospective au moins.
Simplement, l'antériorité du facteur d'exposition n'est parfois pas évidente : dans une étude sur
l'effet de l'herpès II sur le cancer du col, les cancéreuses montraient un taux d'anticorps plus élevé
que les témoins mais était-ce la cause ou la conséquence du cancer du col ?
«Vrai dans le tout mais faux dans chaque partie » : le paradoxe de Simpson est aussi un
problème des études rétrospectives.
Problème de santé
présent (M+) absent (M -)
Exposition Oui 64 66 130 64/130 = 49 %
au facteur A Non 22 48 70 22/70 = 31 %
En considérant dans ces mêmes données la relation entre le facteur A et le problème de santé,
non plus globalement, mais selon qu’un autre facteur B est présent ou absent, on constate les
résultats des deux tableaux suivants : l’exposition au facteur A semble diminuer le risque lorsque
B est présent et l’exposition au facteur A semble diminuer aussi le risque lorsque B est absent.
B est un facteur de confusion tel qu'il inverse l'effet de A sur le risque de maladie. Cette inversion
est due au fait que B n’est pas distribué de la même manière entre les niveaux de A : B est
Par exemple, plusieurs études ont rapporté que les asthmatiques avaient un risque plus bas de
cancer du poumon que les non asthmatiques. Cependant, les asthmatiques sont moins souvent
fumeurs et les non fumeurs sont moins à risque que les fumeurs ! Il aurait été plus approprié de
restreindre l'étude à des cas asthmatiques non fumeurs et des témoins non fumeurs.
Dans un lieu et à un moment précis, on effectue une mesure simultanée du (ou des) facteur(s)
d'exposition et de la présence ou l'absence de la maladie :
t3
M+ M-
n (E+ M+)
E+ n E+, M+ n E+, M-
n (E+ M-)
E- n E-, M+ n E-, M-
n (E- M+)
n (E- M-)
Ces études sont réalisées en un temps minimum, à un coût minimum, sans problème d'éthique
mais elles sont truffées de biais et ne permettent pas du tout d'estimer un risque.
Elles permettent simplement d'estimer la prévalence (utile pour la planification des lits par
exemple) et de suggérer des hypothèses étiologiques mais moins bien que dans les études
rétrospectives.
Supposons par exemple que la taille et l'âge soient négativement associés dans l'analyse des
résultats de l'enquête. Parmi les interprétations possibles, on peut considérer, soit que les
individus régressent avec l'âge, soit que les générations plus jeunes ont des tailles plus grandes,
soit que les personnes plus grandes meurent plus vite !
Les études transversales sont plus indiquées pour étudier des facteurs qui ne changent pas au
cours du temps comme le sexe, le groupe sanguin ou des facteurs qui sont des habitudes
chroniques comme le tabagisme.
Les études transversales ressemblent aux études rétrospectives cas-témoins, excepté par le fait
que le nombre de cas n'est pas connu d'avance.
Pour la plupart des tests diagnostiques, il faut établir un intervalle de normalité. Tout patient
suspect d'une pathologie peut être soumis au test et son résultat sera comparé à l'intervalle. Un
résultat hors de l'intervalle peut être considéré comme une confirmation de la pathologie.
Pour déterminer ces normes, il faut évaluer des volontaires normaux sains. Il faut éviter de les
choisir parmi les étudiants en médecine "anxieux d'apprendre" ou parmi les collègues exposés à
un même environnement de travail lorsqu'il s'agit d'une biochimie du sang par exemple. Cet
intervalle est souvent défini par 2 déviations standard de part et d'autre de la moyenne de la
mesure mais cela présuppose que la distribution de la mesure est normale. Sinon, on peut soit
transformer, soit utiliser les percentiles comme nous le verrons plus loin.
Introduction
Dans une enquête, une expérience ou un essai clinique, toute l'information dont on dispose est
contenue dans les mesures qui ont été réalisées.
- Une variable aléatoire est une quantité ou une qualité (mesure) dont la valeur observée est
sujette aux variations selon les lois du hasard.
- Par contre, une variable mathématique est une variable déterministe : ses valeurs sont
déterminées par l'investigateur.
Par exemple, dans une étude rétrospective cas-témoin, la variable "maladie" est mathématique
parce que c'est l'investigateur qui choisit de regarder des cas (maladie présente) et des témoins
(maladie absente) mais dans une étude prospective de cohorte, la variable "maladie" est aléatoire
parce que c'est le hasard qui va déterminer si un individu de l'étude sera malade ou non.
- Un échantillon de taille N est une série de N observations d'une variable aléatoire pour une
valeur fixée d'une variable mathématique. Dans une étude cas-témoin, si on "mesure" l'âge de Nc
cas et l'âge de NT témoins, on dispose de deux échantillons. Si on mesure aussi le tabagisme et la
taille de tous les cas et les témoins, on dispose de six échantillons.
- Un échantillon est aléatoire si chaque individu (unité de mesure) a une probabilité connue non
nulle ( ≠ 0) et non certaine ( ≠ 1) d'être choisi.
- Un échantillon est aléatoire simple si la probabilité d'être choisi est la même pour tous les
individus. Dans ce cours, nous ne considérons que des échantillons aléatoires simples.
- La population cible est l'ensemble des individus auxquels on veut étendre (inférer) les résultats
des observations faites sur un échantillon.
Quand l'échantillon n'est pas pris aléatoirement dans la population que l'on veut cibler, on aura
un biais (erreur systématique) qui rendra l'extension impossible. Par exemple, dans une étude
normative, si on choisit des individus parmi une population consultante, il sera très difficile de
généraliser l'intervalle obtenu à une population urbaine parce que les individus sains ne
consultent pas généralement.
N=7
X : Age (Années)
______________
A 17 D : 18 D : 18
B 19 F : 21 G : 19
C 20
D 18
E 19
F 21
G 19
________
µx 19 x = 19.5 x = 18.5
σ 2
x 1.43 s ² = 4.5 s ² = 0.5
σx 1.2 s = 2.1 s = 0.7
PARAMETRE ESTIMATION
(valeur inconnue) (valeur calculée)
FIXE ↓
ESTIMATEUR (v.a.)
♠ Au sens strict, une variable est discrète si elle ne peut prendre qu'un nombre fini de
valeurs ou de niveaux. Ainsi, une variable binaire est une variable discrète à 2 niveaux
(exclusifs et exhaustifs):
♠ Une variable nominale est une variable discrète à r niveaux (exclusifs, exhaustifs et
non ordonnés) :
statut professionnel = indépendant ou bien ouvrier ou bien employé ou bien cadre ou bien
sans (r = 5)
le groupe sanguin = AB ou bien A ou bien B ou bien O (r = 4)
♠ Une variable ordinale est une variable discrète à r niveaux ordonnés (exclusifs et
exhaustifs aussi) :
♠ Une variable est continue (quantitative) si elle peut prendre un nombre infini de
valeurs au sens mathématique : l'âge, le poids, le taux de glycémie, la quantité de
cigarettes fumées par jour,...
♠ Les variables ordinales sont à la frontière entre les variables discrètes et les variables
continues.
où ni est le nombre de fois que le niveau i est observé et fi = ni/N. Ne jamais cumuler les
fréquences si les niveaux ne sont pas ordonnés !
• Un graphique en barres (bar-chart). Ne jamais joindre les sommets si les niveaux ne sont pas
ordonnés !
Exemple
Au 31/3/92, 7814 personnes ont été confirmées comme étant séropositives pour le SIDA, par un
laboratoire belge. L'information relative à la nationalité est connue chez 3862 personnes.
Nationalité
Cumulative
Frequency Percent Valid Percent Percent
Valid Africains et caraïbes 1296 33,6 33,6 33,6
Autres 242 6,3 6,3 39,8
Belges 1962 50,8 50,8 90,6
Européens non belges 362 9,4 9,4 100,0
Total 3862 100,0 100,0
ni
N fi
50
40
30
20
Percent
10
0
Africains et caraïbe Belges
Autres Européens non belges
Nationalité
Cases weighted by fréquences absolues
Si on disposait aussi des résultats des laboratoires français par exemple, on pourrait très bien
représenter le second échantillon sur le même graphique (et c'est même mieux si on veut
comparer ces résultats) en utilisant des barres hachurées par exemple et en le précisant dans la
légende.
• Subdiviser l'échelle de mesure en classes exclusives et exhaustives c'est-à-dire que les classes
ne peuvent pas se chevaucher et qu’il existe un intervalle pour affecter toute valeur possible (de
préférence, des intervalles de longueur égale).
• Préciser pour chaque classe ci le centre xi, les fréquences absolues ni et relatives fi ou bien les
fréquences cumulées Fi :
i
Fi = f1 + f 2 + ... + f i = ∑ fi
j =1
Dans l'exemple ci-dessous, l'information relative à l'âge est connue chez 6209 personnes.
Si l’on forme des intervalles de longueur égale à 10 ans, corriger les fréquences relatives par la
longueur des intervalles (c’est-à-dire calculer les densités) ne change pas l’information
descriptive
• Pk, le pour centile k (percentile en franglais) est la valeur de la variable telle que k% des
observations sont inférieures à cette valeur et (100-k)% des observations sont supérieures à
cette valeur.
UCL-MD Epidémiologie et biostatistique 33
Pour connaître P25, par exemple, dans l’exemple ci-dessus, il faut :
0.25 − Fj −1
P25 = a j −1 + l j
Fj − Fj −1
0.25 − 0.069
P25 = 19 + 10 = 23.97 = 24 ans
0.433 − 0.069
P25 s'appelle aussi le premier quartile ou quartile inférieur. 25% des observations sont
inférieures à cette valeur et 75% sont supérieures.
Les deux interprétations de la P25 calculées sont « Trois quarts des personnes ont plus de 24
ans » ou encore « Un quart des personnes ont moins de 24 ans ».
P75 s'appelle aussi le troisième quartile ou quartile supérieur. 75% des observations sont
inférieures à cette valeur et 25% sont supérieures.
Si on dispose de toutes les valeurs, il vaut mieux estimer les percentiles à partir des valeurs
plutôt qu'à partir du regroupement tel que montré ci-dessus.
On range les observations par ordre croissant et x(i) est l'observation de rang i (x(1) est la plus
petite et x(N) est la plus grande).
Exemple :
Age 46 55 42 35 46 45 47 50 31 30
Rangs (14) (20) (9) (6) (13) (11) (16) (18) (3) (2)
Age 25 33 35 40 45 47 49 42 40 50
Rangs (1) (4) (5) (7) (12) (15) (17) (10) (8) (19)
1
P25 = ( x n + x n ).
4 4
+1 2
1 1
Dans cet exemple, P25 = ( x20 + x 20 ) ⋅ = ( x5 + x6 ) ⋅ = 35 ans puisque x5 = 35 et x6 = 35.
4 4
+1 2 2
X 1 + X 2 + ... + X N
X= ⇒ aX + b = aX + b
N
Pour l'âge des 20 femmes de l'exemple précédent, l'âge moyen est égal à
46 + 45 + 42 + ... + 50
= 41.65 ans.
20
X = ∑ xi i f i
X = 5i( 0.05 ) + 15i( 0.019 ) + 25i( 0.363) + ... + 75i( 0.006 ) = 33.0 ans
C’est le percentile 50, c'est la valeur de la variable telle que 50% des observations lui sont
inférieures et 50% lui sont supérieures. Elle est donc basée sur les rangs des observations et
non pas sur les valeurs elles-mêmes comme X .
C. Le mode
C’est la valeur de la variable la plus fréquente ou, si les données sont groupées en classes,
c'est le centre de la classe qui a la plus grande densité de fréquence (relative si les classes
sont de longueur égale).
Dans l'exemple de l’âge des séropositifs en Belgique, l’âge modal est de 25 ans puisque la
densité de fréquence maximale est 0.0363 pour la classe 20-29 ans (dont le centre est 25).
Le mode est très peu utilisé dans l'analyse statistique parce que sa valeur dépend de la
précision de la mesure de la variable.
D. Moyenne ou médiane ?
moyenne>mediane
moyenne=mediane moyenne<mediane
0.025
0.025
0.025
0.020
0.020
0.020
densite
0.015
0.015
densite
densite
0.015
0.010
0.010
0.010
0.005
0.005
0.005
0.0
10 20 30 40 50
skewness=0.48
x 0 20 40 60 80 100 10 20 30 40 50 60
mean=26 et median=19
skewness=0
x x -0.83
skewness=
mean=median=51 mean=39 et mediane=45
Si la moyenne est plus grande Si la moyenne est égale à la Si la moyenne est plus petite
que la médiane, la médiane, la distribution est que la médiane, la
distribution est asymétrique à symétrique . distribution est asymétrique à
droite. gauche.
α 3 >0 (right tail) Symétrie nulle α 3 <0 (left tail)
L'avantage majeur de la moyenne est que toutes les valeurs mesurées sont utilisées; la
moyenne est donc efficace au sens statistique. L’inconvénient, c'est qu'elle est fort influencée
par les observations singulières (outliers), c'est-à-dire les observations "anormales" ou
extrêmement différentes des autres.
Par exemple, dans l'échantillon de l'âge des 20 femmes, si on ajoutait une 21ème femme de 95
ans, la moyenne deviendrait 44 ans alors que la médiane passerait de 43.5 ans à 44.3 ans. De
telles observations doivent normalement être exclues des calculs mais doivent bien sûr
apparaître dans le rapport de l'analyse.
Si des données sont symétriques, la moyenne est une meilleure statistique et si elles sont
Xi Xi- X Xi Xi- X
46 4,35 25 -16,65
55 13,35 33 -8,65
42 0,35 35 -6,65
35 -6,65 40 -1,65
46 4,35 45 3,35
45 3,35 47 5,35
47 5,35 49 7,35
50 8,35 42 0,35
31 -10,65 40 -1,65
30 -11,65 50 8,35
Ces deux courbes nous permettent de visualiser le fait qu’un échantillon possédant une plus
grande déviation standard (DS=2) est un échantillon qui varie plus autour du centre (µ=0)
qu’un échantillon possédant une déviation standard moins élevée (DS=1). On dit du premier
échantillon (µ=0, DS=2) qu’il est plus « dispersé » que le second.
S(X ) =
i
Donc,
N −1
S² (aX + b) = a² ⋅ S(X)
S est l'écart quadratique. Le fait qu'on divise par N-1 plutôt que par N vient du fait que N
observations centrées ont une liaison : Σ (Xi - X ) = 0 ! A cause de cette liaison, on n'a plus N
mesures qui peuvent fluctuer (degré de liberté) mais N-1 quand on travaille avec des
observations centrées. On note souvent simplement S au lieu de S(X).
L'inverse de la déviation standard s'appelle parfois aussi la précision.
N
∑ ( X i − X ) i fi
2
S=
N −1
S2 =
6209
6208
( 2 2
)
( 5 − 33) 0.05 + ... + ( 75 − 33) 0.006 = 97.03 (ans)2
et S = 9.85 ans
B. L'étendue (range)
E = [ X(1) , X(N) ] qui sont les observations min et max, ou bien par la longueur de cet
intervalle.
Dans l'échantillon des mesures de l'âge de 20 femmes, E = [25 ; 55] ans ou bien E = 30 ans
Dans l'échantillon des mesures de l'âge de 20 femmes, IQR = [34.7 ; 47.3] ans
D. Le coefficient de variation CV
La moyenne et la déviation standard dépendent des unités de mesure. Ainsi par exemple, si
on avait mesuré l'âge des 20 femmes en mois, c'est comme si on transformait les données :
âge (mois) = âge (années) i 12
Le coefficient de variation est un indice de précision qui permet de comparer les variations
indépendamment des unités de mesure :
S
CV =
X
∑( X −X) ⎛
3
N ⎞
α3 =
i
i⎜⎜ ⎟⎟
N −S 3
⎝ N −1 ⎠
α3
Le quotient Z = peut être comparé à 1.96 pour conclure.
6
N
Dans notre exemple, Z = 0.77, ce quotient est inférieur à 1.96; il n'est pas évident que la
distribution ne soit pas symétrique.
Ce quotient est très sensible à des valeurs extrêmes; il faut toujours confirmer par une analyse
graphique.
C'est la deuxième mesure de forme (shape) d'une distribution. Elle est basée sur le moment
d’ordre 4.
⎧ N ( X − X )4 ⎫
⎪ ∑ i ⎪
α4 = ⎨ ⎬−3
⎪⎩ ( N − 1) i S ⎪⎭
2 4
0.010
moyenne=mediane
0.010
0.008
0.025
0.008
0.020
0.006
0.006
0.015
f
densite
f
0.004
0.004
0.010
0.002
0.002
0.005
0.0
0.0
x
0 20 40 60 80 100
skewness=0
x
mean=median=51
Pour une courbe Courbe plus haute que la Courbe moins haute que la
« normale », Gaussienne, normale normale
α4 = 0 α4 > 0 α4 < 0
α4 est une mesure de l'aplatissement par rapport à la courbe de Gauss (normale) que nous
verrons plus loin.
Dans l'exemple de l'âge des 20 femmes, α4 = -0.88 ce qui suggère une courbe un peu plus
24
plate que la courbe normale. La déviation standard de α4 peut être approximée par et le
N
α4
quotient Z = peut aussi être utilisé pour conclure en le comparant à 1.96.
24
N
Remarque : En plus de ces deux paramètres de forme, nous verrons une méthode graphique
pour déterminer si un échantillon est normal. Mais patience, il faut d'abord savoir ce qu'est la
loi normale !
Ce diagramme est utilisé pour les petits échantillons (moins de 100 données disons).
Reconsidérons l'exemple de l'âge des 20 femmes, ordonné :
25, 30, 31, 33, 35, 35, 40, 40, 42, 42, 45, 45, 46, 46, 47, 47, 49, 50, 50, 55
Le premier chiffre forme la tige et le second la feuille. Par exemple, pour le nombre 46, 4 est
la tige et 6 est la feuille. Si on avait des chiffres 0.25, 0.30, 0.31,... la première décimale serait
la tige et la seconde la feuille. Pour notre échantillon, en alignant bien les chiffres "feuilles",
l'allure montre comment sont distribuées les données. Si il y a peu de tiges, il peut être
difficile de voir la forme de la distribution. On peut alors diviser toutes les tiges en deux. La
tige 2 porte les feuilles 0 à 4 et la tige 2bis porte les feuilles 5 à 9.
Voici, un graphique réalisé sur base de ce qui vient d’être expliqué ainsi que celui fourni par
SPSS (pour l’âge des 20 femmes).
Tige Feuille
2 5 Stem-and-Leaf Plot
4 00225566779 ,00 2 .
1,00 2 . 5
3,00 3 . 013
5 005 1,00 3 . 5
4,00 4 . 0022
ou bien 7,00 4 . 5566779
2,00 5 . 00
2 1,00 5 . 5
C'est la méthode graphique la plus simple pour montrer toute l'information : tous les points
sont dessinés. Si on possède plusieurs groupes (hommes et femmes par exemple), ce
graphique montre clairement si les nuages de points se chevauchent ou non et si il y a des
observations singulières.
60
55
25
20 Femmes (Hommes)
140
Taux de filtration glomérulaire(ml/min/1.73
130
La figure montre un niveau plus
120 bas chez 6 diabétiques après le
régime à basse protéine, ce qui
110 régime normal
n'aurait pas semblé évident si
m2)
En présence des grands échantillons, l'allure (pattern) des données ne peut se voir que sur un
histogramme de fréquences par intervalle ou classe de regroupement. Il vaut mieux choisir
les fréquences relatives plutôt que les fréquences absolues pour pouvoir comparer avec
d'autres études. Le choix du nombre de classes (de longueur égale comme déjà dit!) est
important. Avoir trop peu d'intervalles mène à une perte d'information et en avoir trop ne
permet plus de voir la forme de la distribution. On choisit généralement entre 5 et 15
intervalles mais le choix correct sera plutôt basé sur une impression subjective de
l'histogramme obtenu.
Dans l'exemple des séropositifs pour lesquels l'âge était connu chez 6209, nous avions formé
8 classes d'âge; une dissymétrie à droite apparaît dans la distribution (P50 = 31 ans, X = 33
ans)
classes d'âge
3000
2000
Frequences absolues
1000
Quand le nombre de points est important, un graphique-point peut être remplacé par un
graphique boîte-extrémité; il est plus compact que l'histogramme et montre la médiane et
deux mesures de dispersion : l'IQR et l'étendue. Plusieurs groupes peuvent aussi être
présentés dans le même graphique.
60
Max = 55
50
P75=47.3 ans
P50=43.5 ans
40
P75 = 55 ans
30 P25=34.7 ans
ÂGES
Min = 25 ans
20
N= 20
femmes
FEMMES
E. L’histogramme
L’intégrale des densités de fréquence devient ainsi une base de calcul des probabilités pour les
variables continues, comme nous le verrons pour la loi normale (section 5.3).
(a) Toujours spécifier clairement les noms des axes et des symboles, et les unités de mesure
(si une transformation a été faite sur les données, des axes exprimés dans les unités initiales
sont plus faciles à lire)
(b) Ne jamais utiliser un volume pour représenter une hauteur ! Les graphiques à 3
dimensions exagèrent souvent un effet.
(c) Ne pas surcharger un graphique. Plusieurs graphiques plus petits clarifient souvent.
(d) Ne jamais interrompre un axe dans un nuage de points ou entre 2 nuages correspondant
à 2 groupes de points différents. Mieux vaut adapter une autre échelle mais unique.
(e) Ne pas oublier une mesure de dispersion avec la mesure de tendance centrale.
Introduction
Si la population est soumise à une loi du hasard qui s'exprime sous forme d'un modèle
mathématique pour la distribution de fréquence théorique, alors tout échantillon aléatoire simple
extrait dans cette population a des caractéristiques bien précises, C.
Exemple : Lorsqu'on veut comparer deux échantillons, l'hypothèse nulle consiste à dire en
quelque sorte que les deux échantillons proviennent de la même population. En analysant des
caractéristiques précises de ces deux échantillons, on inférera que l'hypothèse faite n'était pas
admissible ("statistiquement significatif") ou bien que l'hypothèse faite ne peut pas être rejetée: la
caractéristique (ou le facteur) qui distingue ces deux échantillons ne permet pas de distinguer les
populations.
Pour arriver au raisonnement statistique, il faut donc connaître ces lois qui modélisent le
hasard.
Une probabilité est une mesure théorique de la fréquence des réalisations d'un phénomène.
Cette mesure théorique peut être objective lorsqu'elle représente la fréquence asymptotique
d'un évènement
Par exemple, la Belgique compte environ 10.000.000 de Belges. Chaque année environ 100.000
Belges meurent et ces chiffres restent relativement stables. Sans information sur son âge, sa
santé, ... chaque Belge a 1% de chance (100.000 / 10.000.000) de décéder dans l'année. Par la
Dans certaines situations, l'idée d'un échantillonnage répété n'est pas appropriée.
Par exemple, si un enfant a une fibrose cystique alors qu'aucun de ses parents n'en a une, on sait
que les parents ont chacun le génotype cC où c est le gène de la fibrose cystique et C est le gène
normal. Pour tout autre enfant naissant dans la famille, il y a 4 combinaisons possibles pour le
génotype: cc, Cc, cC, CC. Seule la combinaison cc conduit à la maladie, donc cet autre enfant
aura 1/4 chance d'être atteint de fibrose cystique aussi. Cette probabilité n'est pas basée sur un
examen répétitif des familles avec des cas de fibrose cystique, mais sur la théorie mendélienne de
la génétique et l'égalité des chances pour les 4 génotypes.
⇒ La mesure théorique ou probabilité est basée alors sur un modèle où chaque évènement
"reçoit" une probabilité de se produire.
Par exemple, les chances qu'un réacteur nucléaire explose sont moins d'un million par an. Cette
estimation n'est pas basée sur des observations répétées ! Lorsqu'un clinicien estime sur base des
plaintes de son patient, qu'il a 40% de chance d'être cardiaque, il exprime sa "force de croyance"
subjective et, avec des tests diagnostiques, il peut éventuellement modifier sa croyance a priori.
Quelle que soit l'approche, le calcul des probabilités est soumis à des règles. Les 3 premières
règles (R1 à R3) sont les axiomes de Kolmogorov et toutes les autres peuvent être démontrées à
partir de ces trois-là.
Par exemple, on lance un dé non pipé une fois et X = nombre de points obtenus.
Ω = {1,2,3,4,5,6}.
R1 : P(Ω) = 1
Règle 2
R2 : ∀A ⊂ Ω : 0 ≤ P(A) ≤ 1
Règle 3
R3 : ∀A ⊂ Ω et ∀B ⊂ Ω tels que A et B
sont disjoints, alors
P(A ou B) = P(A) + P(B)
A
P(A ou B) = P (X ∈ {2,4,6} ou X ∈ {1}) = 4/6
B
2 4
1
P(A) = P (X ∈ {2,4,6}) = 3/6
6
3 P(B) = P (X ∈ {1}) = 1/6
5
Ce sont 3 axiomes ! Des vérités qui paraissent évidentes si on en comprend le sens mais qui ne se
démontrent pas ...
R4 : ∀A ⊂ Ω et B ⊂ Ω :
P(A et B) = P(A si B).P(B)
= P(B si A).P(A)
P(A si B) est la probabilité que A se réalise si on sait que B s'est déjà réalisé. C'est une
probabilité conditionnelle, notée P(A│B).
R5 : ∀ A ⊂ Ω et ∀ B ⊂ Ω : A et B B et
P(A ou B) = P(A) + P(B) - P(A et B) non et non A
P( A ∪ B) B A
B = (B et non A) ou (A et B)
↑───────↑ R3
disjoints ⇒ P(B et non A) = P(B) - P(A et B)
A ou B = (A et non B) ou (B et A) ou (B et non A)
↑────── ↑──────↑
disjoints 2 à 2 ⇒ P(A ou B) = P(A et non B) + P(A et B) + P(B et non A)
Exemple :
A = X est pair B = X ≥ 5
A ou B = X est pair (le 2, le 4, le 6) ou X ≥ 5 (le 5, le 6)
4 cas puisque le 6 est commun aux 2 évènements
⇒ P(A ou B) = 4/6 = 3/6 + 2/6 - 1/6
R6 : ∀ A ⊂ Ω, ∀ B ⊂ Ω
A et B sont DISJOINTS
si et seulement si, ,P(A et B) = 0
Règle 7 :
Ω
A
R7 : A et B sont COMPLEMENTAIRES
si et seulement si, , non A
P (A et B) = 0 exclusifs
et P (A ou B) = 1 exhaustifs
Exemple :
A = X est pair P(A) = 3/6
B=x≤5 P(B) = 5/6
A ou B = {2,4,6,1,3,5} = Ω exhaustifs
A et B = {2,4} non exclusifs !
R8 : ! A et B sont INDEPENDANTS
si et seulement si, ,
P(A et B) = P(A) . P(B)
Exemple :
Quelle est la probabilité d’avoir un garçon comme premier enfant ET un garçon comme second
enfant ?
GG
P(A et B) =
( GG ou GF ou FG ou FF )
P(A et B) = 1/4
mais B = (B et A) ou (B et non A)
disjoints
R3
P( B⏐A).P( A)
P ( A⏐B) =
P( B et A) + P( B et non A)
P( B⏐A).P( A)
P ( A⏐B) =
P( B⏐A).P( A) + P( B⏐ non A).P(non A)
P( B⏐A).P( A)
P ( A⏐B) =
P( B⏐A).P( A) + P( B⏐ non A).P(non A)
P(M) est la probabilité a priori du clinicien quelque soit sa méthode d'estimation (subjective ou
objective). Cela peut être la prévalence.
P(non M) = 1 - P(M)
Le patient réalise un test diagnostique qui ne peut être que positif ou négatif : T+ ou bien T-.
P(T- │ non M) = taux de tests négatifs chez les non malades = spécificité du test
Ces deux caractéristiques d'un test peuvent être évaluées à partir d'une étude cas témoins si on
observe tous les cas et un échantillon aléatoire de témoins !
sensibilité
P( M⏐T + ) s’appelle aussi la valeur prédictive positive; elle dépend de P(M) en relation directe.
(1 − 0.99)i0.95
P ( M⏐T −) = = 0.21 = 21%
((1 − 0.99)i0.95) + (0.70i0.05)
Un test hautement sensible et peu spécifique va donner une plus grande confiance dans un
résultat négatif. (peu de "faux" négatifs et beaucoup de "faux" positifs).
Un test hautement spécifique et peu sensible va donner une plus grande confiance dans un
résultat positif. (peu de "faux" positifs et beaucoup de "faux" négatifs).
Etude cas-
témoins M non M
T+ vrais faux
positifs positifs
faux vrais
T-
négatifs négatifs
nM nnonM
Mais cette "plus grande confiance" dépend de l’a priori de la maladie (valeurs prédictives
positive et négative) et ne peut pas être évaluée sur base d'une étude cas-témoins.
La sensibilité et la spécificité ne dépendent pas du tout de l’a priori (ou prévalence) !
Les règles énoncées doivent être respectées, quel que soit le type de mesure de la fréquence
(probabilité) qui est choisi : fréquentiste, basé sur un modèle ou subjectif. Il y a cependant deux
grands modèles théoriques (lois) qui doivent être connus : la loi binomiale (Bi) et la loi normale
N parce que beaucoup de phénomènes sont soumis à ces lois et parce que la théorie statistique
repose sur deux grands théorèmes :
5.2.1. Définition
Donc 1-p = la probabilité que le phénomène soit "absent" est aussi la même à chaque
évaluation.
Soit X la variable aléatoire qui représente le nombre de fois que le phénomène est présent
dans les N évaluations.
Si les trois points précédents sont satisfaits, alors, la distribution de probabilité de X est
binomiale de paramètres N et p
X ∼ Bi (N,p)
Dans une population, la prévalence d'une maladie M est 10%. On décide d'examiner 5 personnes
tirées au hasard dans cette population.
5! 5 ⋅ 4 ⋅ 3 ⋅ 2 ⋅1
7% parce que P ( X = 2) = (0.10) 2 (1 − 0.10)5− 2 = (0.10) 2 (0.9)3 = 0.07
(5 − 2)!2! (3i 2)(2)
Il est souvent plus simple de passer par l'évènement complémentaire quand l'expression "au
moins" ou "plus de" apparaît.
N=5
0≤X≤N
si X est discret,
alors, la moyenne attendue de X, que l'on appelle "Espérance" de X et que l'on note µ, est
définie par :
k
µ = EX = ∑ xi pi
i =1
et la variance attendue de X, que l'on note σ² est définie par l'espérance du carré de l'écart à µ :
k
σ 2 = E ( X − µ ) 2 = ∑ ( xi − µ ) 2 ⋅ pi
i =1
(µ et σ²) sont des paramètres théoriques qui ne varient pas, que la loi de probabilité soit connue
ou non.
x−µ
σ
est la variable centrée réduite : !!!
⎛ x − µ ⎞ EX − µ
E⎜ ⎟= =0
⎝ σ ⎠ σ
2
⎛ x−µ ⎞ ⎛ 1 ⎞ 2 σ2
σ ⎜
2
=
⎟ ⎜ ⎟ iσ ( X ) = =1
⎝ σ ⎠ ⎝σ ⎠ σ2
On connaît sa moyenne et sa variance (pas sa loi...) : une variable centrée réduite a toujours une
espérance nulle et une variance unitaire.
X ≈ Bi (5,0.10)
EX
EY = ⇒ EY = p
N
σ p (1 − p )
σ (Y ) = ⇒ σ (Y ) =
N N
Si X ≈ Bi (50,0.10)
alors Y, la fréquence théorique des malades
a EY = 0.10 on s'attend à trouver 10% de malades
σ(Y) = 0.04 avec une déviation de 4% (nettement moindre parce que N est plus grand).
graphique.
f(x)=P(X=x)
0.15
0.10
0.05
0.0
1 2 3 4 5 6 7 8 9 10
x
Si N.p ≥ 5
Si N.(1-p) ≥ 5
Alors on peut considérer que X est distribué selon une loi Normale de moyenne N.p et de
déviation standard N . p.(1 − p ) ou de variance N . p.(1 − p )
X − N. p
⇔ ∼ Ν ( 0,1)
N . p.(1 − p )
X p.(1 − p )
Y= ∼ Ν ( p, )
N N
Y−p
⇔ ∼ Ν ( 0,1)
p (1 − p )
N
X ∼ Bi (5, 0.10) N.p = 0.5 < 5 ⇒ on ne peut pas approximer la loi Binomiale par la loi
Normale.
X ∼ Bi (50, 0.10) N(1-p) = 45 et N.p = 5 ⇒ tout juste! On peut approximer par la loi
Normale pour calculer les probabilités d'évènements.
X : x1 x2 x3 ... xk
p3
f(x) = P(X=x): p1 p2 p3 ... pk
p2
On peut alors calculer la probabilité de tout évènement de X p1
P(X = x3) = p3
x1 x2 x3 X
P(X ≤ x3) = P(X = x1) + P(X = x2) + P(X = x3)
3
= ∑ P( X = x )
j =1
j
Autrement dit, pour calculer la probabilité d'un "intervalle", on somme les probabilités associées
à toutes les valeurs qui sont dans cet intervalle.
Lorsqu'une variable est continue cette somme va devenir une INTEGRALE (surface, une
sommation infinitésimale....) f(x)=
P(X=x)
x3
f(x1)
x1 x3 X
f(x) s'appellera alors la densité de probabilité ou densité de distribution de X et, si f(x) est
connue alors toutes les probabilités sont calculables.
f(b)
f(a)
a c d b X
P ( A ou B) = P( A) + P( B) − P( A et B )
d b d
= ∫ f ( x)dx + ∫ f ( x)dx − ∫ f ( x)dx
c c c
d
P( AetB) ∫ f ( x)dx
⇒ P( A⏐B) = = c
P( B) b
∫ f ( x)dx
c
Pour une variable continue, il faut noter que P(X = x) = 0 à cause de la continuité. En effet,
l'égalité est alors un évènement impossible, « entre deux valeurs, il y a toujours une infinité de
valeurs ».
P( X ∈ [ x, x + dx ]) = f ( x)idx
f(x)
Rectangle de surface
f(x)dx
x x+dx X
5.3.1. Définition
X, une variable aléatoire continue, définie sur Ω = ]−∞, +∞[ = , est distribuée selon une loi
normale de paramètres µ et σ si sa densité de probabilité est:
X ∼ N ( µ ,σ )
1 x−µ 2
1 − ( )
f ( x) = e 2 σ
σ 2π
Exemple :
Si l'âge d'une population est une variable aléatoire gaussienne de paramètres µ = 50 ans et σ = 10
ans, alors sa distribution est :
2
1 ⎛ 50 −50 ⎞
1 − ⎜ ⎟
f (50) = e 2⎝ 10 ⎠
= 0.04
10 2π
2
1 ⎛ 40 − 50 ⎞
1 − ⎜ ⎟
f (40) = e 2⎝ 10 ⎠
= 0.024
10 2π
2
1 ⎛ 60 −50 ⎞
1 − ⎜ ⎟
f (60) = e 2⎝ 10 ⎠
= 0.024
10 2π
2
1 ⎛ −10 −50 ⎞
1 − ⎜ ⎟
f (−10) = e 2 ⎝ 10 ⎠ = 0.0000000006
10 2π
Pas 0 !! (quasi-nul mais jamais nul)
50
1
P ( X ≤ 50) =
−∞
∫ f ( x)dx =
2
0.03
0.02
40
P (30 < X ≤ 40) = ∫ f ( x)dx
30
0.01
30 40 50 60 70
X=age
... le calcul va devenir "un jeu d'enfant" si on pense à centrer et à réduire ...
si X ~ N(µ , σ)
EX = µ C’est la moyenne !
alors,
σ (X ) = σ C’est l’écart-type
+∞
∫ xi f ( x)dx = µ
−∞
Les matheux ont montré que +∞
∫ ( x − µ ) i f ( x)dx = σ
2 2
et
−∞
X ∼ N ( µ , σ ) ⇒ ax + b ∼ N (aµ + b, a σ )
En particulier, ( X − µ ) ∼ N (0, σ )
⎛ x−µ ⎞
la réduction centrée, ⎜ ⎟ ∼ N (0,1)
⎝ σ ⎠
A cause de sa particularité, une variable aléatoire continue distribuée selon la loi normale centrée
réduite se désigne généralement par la lettre Z
Ζ ∼ N (0,1) GAUSS
1
1 − ⋅z2 -
si ∀z ∈ , f ( z ) = e 2
LAPLACE
2π
Il n'y a plus de paramètres sur cette distribution, elle est entièrement explicitée ....
0.4
0.3
f(z)
0.2
0.1
1
f (0) = 0.399
2π
0.0
1 − 12 (1)2
f (1) = e 0.242 = f (−1) -3 -2 -1 0 1 2 3
2π Z
1 − 12 ( 2)2
f (2) = e 0.054 = f (−2)
2π
1 − 12 ( 3)2
f (3) = e 0.004 = f (−3)
2π
Ζ ∼ N ( 0,1)
-2 -1 0 1 2
X ∼ N ( µ ,σ )
−2σ + µ −σ + µ µ σ +µ 2σ + µ
X −µ
On pose Ζ= ⇔ X = σΖ + µ
σ
X −µ x−µ x−µ
⇒ P( X ≤ x) = P( ≤ ) = P( Ζ ≤ )
σ σ σ
En posant Z
Si on peut calculer les probabilités pour Z, on aura toutes les probabilités pour X.
Par la symétrie,
P( Z > z ) = P( Z < − z )
P ( Z > z ) = P (− z < Z < z ) = 1 − 2 P ( Z > z )
f(z)
0.4
0.3
f(z)
0.2
0.1
0.0
-3 -2 -1 0 1 2 3
-z Z z
F ( zα ) = P( Z ≤ zα ) =
−∞
∫ f ( z )dz
f(z)
0.4
0.3
f(z)
α
0.2
0.1
0.0
-3 -2 -1 0 1 2 3
zα Z
Exemples :
OU
P ( Z > a) = 1 − P( Z < a) P( Z > a) = P( Z < −a)
⇔ 0.02 = 1 − P( Z < a ) ⇔ 0.02 = P ( Z < − a)
⇔ P ( Z < a ) = 1 − 0.02 = 0.98 ⇒ − a = −2.05
⇒ a = 2.05 ⇔ a = 2.05
Si l'âge d'une population est une variable aléatoire normale de moyenne 50 ans et de variance
100 ans.
Quelle est la probabilité qu'un individu pris au hasard ait entre 30 et 40 ans ?
L’âge, X ~ N(50,√100) ⇒
X − 50
Z= ∼ N (0,1)
10
30 − 50 X − 50 40 − 50
P (30 ≤ X ≤ 40) = P( ≤ ≤ = P(−2 ≤ Z ≤ −1) = P( Z ≤ −1) − P( Z ≤ −2)
10 10 10
0.16 − 0.02 = 0.14
f(z)
0.4
0.3
f(z)
0.2
0.1
0.0
-3 -2 -1 0 1 2 3
Supposons qu'on ait 5 mesures de l'âge. On se demande si la distribution de cet échantillon est
normale ou pas:
Xi : 45, 50, 30, 52, 38
Age (années)
Pour les ordonnées des intervalles symétriques, la densité N (0,1) est tabulée :
Pour zα = 0.00, 0.01, 0.02, ..., 2.99, 3.00, 3.01,..., 3.09 (310 valeurs), la table fournit la probabilité
P(│Z│ > zα)
0.3
f(z)
0.2
α
α 2
2
0.1
0.0
-3 -2 -1 0 1 2 3
− zα Z z α
Exemples :
Soit X ~ N (µ,σ)
L'intervalle de prédiction à (1-α).100% sur X est l'intervalle centré sur la moyenne, qui a une
probabilité de 1-α.
Il se note IP1-α (X).
(1) α = 0.05
x−µ
En posant Z = ⇔ X =σZ +µ ,
σ
0.95 = P( µ − a < X < µ + a) On cherche un intervalle centré sur la moyenne µ (inconnue a)
µ − a) − µ x − µ ( µ + a) − µ
⇔ 0.95 = P( < < On centre et on réduit
σ σ σ
−a a f(x)
⇔ 0.95 = P( <Z< )
σ σ
0.4
a
⇔ 0.05 = P( Z > )
0.3
σ
Table T2 f(z)
0.2
0.95
a
⇒ = 1.96
0.1
σ
⇔ a = 1.96iσ 2σ
0.0
-3 -2 -1 0 1 2 3
−a Z
a
σ σ
Percentile Percentile
2.5 97.5
Donc, pour tout échantillon extrait d'une population normale, de moyenne µ et de déviation σ,
quelle que soit sa taille, l'intervalle [µ-2σ ; µ+2σ] est prédictif à 95%, c’est-à-dire que cet
intervalle va contenir théoriquement 95% des observations.
On choisit généralement cet intervalle pour définir les seuils de "normalité" dans les études
normatives si la mesure est N.
(2) α = 0.01
−a a a a
Par le même raisonnement, on arrive à 0.99 = P( < Z < ) ⇔ 0.01 = P( Z > ) ⇒ = 2.58 ∼ 2.6
σ σ σ σ
µ ± 3σ est en fait un IP à 1 - 0.0027 = 99.73%
2
µ ± σ est en fait un IP à 1 - 0.3173 = 68.27% ~
3
Si X ∼ N alors
0.4
S= 0.741i IQR
IQR = S i1.349
0.3
Vérifiez ceci !
f(z)
0.2
0.1
0.0
µ−σ µ +σ
-3 -2 -1 0 1 2 3
µ − 3σ µ − 2σ µZ µ + 2σ µ + 3σ
68.3 %
95 %
99.7 %
Dans les études normatives, si on veut une norme très spécifique, on choisira IP à 99.7% mais on
sera moins sensible (si on dit "pathologique", on se trompe rarement) → en « screening ».
Par contre, si on veut une norme très sensible, on choisira un IP à 95% ou même à 90% mais on
sera moins spécifique (si on dit "pas de pathologie", on se trompe rarement) → en « clinique ».
L'âge d'une population est une variable aléatoire normale de moyenne 50 ans et de déviation
standard 5 ans. Donnez un IP à 99%, à 95% et à 90% pour l'âge.
(2) à 95 %
IP95% (âge)
= ⎡⎣50 − 2 ( 5 ) ;50 + 2 ( 5 ) ⎤⎦
= [ 40;60] ans
(3) à 90 %
pour α = 0.10, on trouve zα = 1.64 dans la table T2
IP90% (âge)
= ⎡⎣50 − 1.64 ( 5 ) ;50 + 1.64 ( 5 ) ⎤⎦
= [ 42;58] ans
5.3.7. Intervalle de prédiction sur une variable aléatoire binomiale et sur une
proportion dans un échantillon de taille N
Si X ∼ Bi ( N , p )
et si N i p ≥ 5 (
alors X ∼ N N i p; N i pi(1 − p ) )
et si N i(1 − p ) ≥ 5
X ⎛ p(1 − p) ⎞
et si Y = Y ∼ N ⎜⎜ p; ⎟⎟
N ⎝ N ⎠
⇒ IP95% ( X ) = ⎡ N i p − 2 N i p (1 − p ) ; N i p + 2 N i p (1 − p ) ⎤
⎣ ⎦
⎡ p (1 − p ) p (1 − p ) ⎤
⇒ IP95% (Y ) = ⎢ p − 2 ;p+2 ⎥
⎢⎣ N N ⎥⎦
En fait il faut aussi faire une "correction de continuité" mais nous la négligeons volontairement.
X
X = le nombre d'ouvriers ayant une pneumoconiose et Y = ~ Bi (60,0.10)
60
N.p = 6 ≥ 5
et N.(1-p) = 54 ≥ 5 ⇒ on peut utiliser l'approximation
(
X ∼ N 6; 5.4 )
Y ∼ N (0.10;0.39)
⎛ X − 6 10 − 6 ⎞
(1) P ( X ≥ 10 ) = P ⎜ ≥ ⎟ = P ( Z ≥ 1.72 )
⎝ 5.4 5.4 ⎠
= 1 − P ( Z ≤ 1.72 ) = 1 − 0.96 (valeur la plus proche = 1.75)
= 0.04 T1
Il y a environ 4% de chance de trouver plus de 10 malades si la prévalence est de 10 % et si
l’échantillonnage est aléatoire simple (hypothèses maintenues ou conditions de validité du calcul).
⎡
IP95% (Y ) = ⎢ 0.10 − 2
( 0.10 )( 0.90 ) ;0.10 + 2 ( 0.10 )( 0.90 ) ⎤
⎥
(2) ⎢⎣ 60 60 ⎥⎦
= [ 0.023;0.177 ]
La proportion de malades que l'on devrait trouver se situe entre 2.3% et 17.7% avec 95 % de
probabilité.
Il y a 99% de chance qu'on trouve entre 0 et 12 malades dans le groupe examiné si la prévalence
est de 10 %.
Taux sanguin d’hémoglobine fœtale (hbF) chez des patients mâles atteints de drépanocytose.
% patients
30
20
10
% HbF
La distribution de l’hémoglobine fœtale est fortement asymétrique. Pour de telles données, on ne
peut utiliser des méthodes qui supposent une distribution Normale (N).
y = ln ( HbF + 1)
HbF = e y − 1
% patients
15
10
Après avoir pris le logarithme, la distribution est à peu près Normale. Une variable dont la
distribution devient normale une fois que l’on en a pris le logarithme est dite une distribution
log-normale. Notez que dans ce cas-ci, nous avons utilisé les logarithmes naturels (base
« e »). C’est la touche « ln » de la calculatrice. On peut utiliser indifféremment les
logarithmes naturels ou ordinaires, puisque l’un est multiple de l’autre.
n
alors ∑Ζ
j =1
2
j ∼ χ n2
L'histogramme dépend de n
n est appelé le degré de liberté (dl ou df)
6
0.10
y
w
2
0.05
1
0
0.0
La distribution de Z 2 est soumise à une loi mathématique bien précise aussi. On l’a appelée loi
du chi-carré à 1 dl.
Par exemple,
2
⎛ x−µ ⎞
⎟ ∼ χ1
2
si X ~ N(µ,σ) alors ⎜
⎝ σ ⎠
2
N
⎛ x−µ ⎞
∑ ⎜
i =1 ⎝ σ
⎟ ∼ χn
⎠
2
f xα
F ( xα ) = P ( X ≤ xα ) = ∫ f ( x)dx = 1 − α
0.15
χ∼χ 2
0
0.10
Pour α = 1 − F ( xα )
w
1−α
0.0
0 2 4 6 8 10 12 14
xα z
X
Exemple :
= 1 - 0.05
= 0.95
Si Z ∼ N ( 0,1) Z
alors ∼ tn donc Ω = ]-∞,+∞[
et X ∼ χ n2 X
n
La distribution de ce quotient bien particulier est soumise à une loi mathématique qu'on a appelée
la loi de Student à n dl. Son histogramme dépend aussi de n.
n
0.2
f
n=5
0.1
0.0
-2 -1 0 1 2 3
La table T4 est analogue à la table T2 mais on ne donne les ordonnées que pour 8 valeurs de α
pour chaque distribution t1,...,t30 et t∞ ≡ N(0,1).
0.4
0.3
0.2
f
1−α
0.1
0.0
-2 -1 0 1 2 3
−tα tα T
p = P(│T│ ≥ 2)
table T4, ligne 10, colonne 2 colonne 3
1.812 2.228
α = 0.10 α = 0.05
1 1
p = P(T > 2.359) = P(│T│ > 2.359) = (0.04) = 0.02
2 2
X1
Si X 1 ∼ χ 2
n1 n1 donc Ω = [0,∞[
alors ∼ Fn1 ;n2
Si X 2 ∼ χ 2
n2
X2
n2
Une distribution de Fisher-Snédecor est celle d'une variable aléatoire obtenue en divisant 2 χ²
corrigées pour leur degré de liberté respectif. La F a donc deux degrés de liberté : le premier
correspond au numérateur et le second au dénominateur (et il ne faut pas les confondre). Certains
auteurs notent parfois Fn1 / n2 pour rappeler cela.
1−α
⇒ F1;∞ = χ 2
1
0.2
α
0.0
0 1 2 3 4
x F
La table T5 comprend 4 panneaux
correspondant respectivement à α = 0.10, α = 0.05, α = 0.01, α = 0.001
Pour chaque panneau, l'indice de colonne correspond au dl du numérateur et l'indice de ligne
correspond au dl du dénominateur.
Exemples :
(1) Trouver p, la probabilité qu'une variable aléatoire distribuée selon une loi F à 4 et 10 dl soit
supérieure à 3.00
? p = P(F ≥ 3.00) ⇒ 0.05 < p < 0.10
Enoncé : soit X1, X2, X3,..., XN un échantillon aléatoire simple de taille N, tiré d'une population
X de moyenne µ et de variance σ²
Quand la taille d'un échantillon devient grande (en pratique N≥30), quelle que soit la distribution
de la population (ou de l'échantillon), la moyenne arithmétique va avoir une distribution normale
σ
dont la moyenne est celle de la population et la déviation standard est . Si N augmente, la
N
distribution de X se concentre de plus en plus autour de µ et se rapproche de plus en plus de la
loi de Gauss, même si la distribution de la population est tout à fait asymétrique comme dans
l'exemple 3 ci-après (simulation).
Exemple :
Un remonte-pente est fabriqué avec une charge limite de 4500 Kg. On affirme une capacité de 50
personnes. Supposons que le poids moyen de toutes les personnes utilisant ce remonte-pente est
de 85 Kg avec une déviation standard de 10 Kg. Quelle est la probabilité qu'un groupe aléatoire
de 50 personnes dépassent la charge limite du remonte-pente ?
X : variable poids µx = 85 σX = 10
La question peut-être reformulée : Quelle est la probabilité que, dans un échantillon aléatoire de
50 personnes, le poids moyen dépasse 4500/50 = 90 Kg ?
Sans aucune autre spécification sur la distribution du poids, on peut répondre à la question par le
Théorème Central Limite :
⎛ 10 ⎞
X ∼ N ⎜ 85, ⎟
⎝ 150 ⎠
⎛ ⎞
⎜ X − 85 90 − 85 ⎟ 1
P ( X > 90) = P ⎜ > ⎟ = P ( Z > 3.54 ) = P ( Z > 3.54 )
⎜ 10 10 ⎟ 2
⎜ ⎟
⎝ 50 50 ⎠
Les chances d'une surcharge du remonte-pente sont inférieures à 5 pour 10 000 en admettant
maximum 50 personnes.
La moyenne µ et l'écart type σ sont des constantes (généralement inconnues). On les appelle des
paramètres θ . Par contraste, la moyenne d'un échantillon X et la déviation standard S sont des
variables aléatoires; elles varient d'un échantillon à l'autre. On les appelle des statistiques
d'échantillon ou des "estimateurs", θˆ .
θˆ est un estimateur de θ si e θˆ est une fonction des observations : θˆ = ϕ (X1, ..., XN)
(1) θˆ est sans biais pour θ si E( θˆ )= θ son espérance mathématique est le paramètre à estimer
(2) θˆ est de variance minimale si tout autre estimateur du paramètre a une plus grande
variance que celle de θˆ
moyenne µ 1
X=
N
∑X i
variance σ² 1
2
S2 =
N −1
∑( Xi − X )
Dans le cas d'une variable discrète :
proportion p X
N
Par la loi faible des grands nombres (Np et N(1-p) > 5!)
X ⎛ p (1 − p ) ⎞
~ N ⎜ p, ⎟
N ⎜ N ⎟
⎝ ⎠
⎛ σ ⎞
Par 6.2.(1), on sait que X ~ N ⎜ µ , ⎟
⎝ N⎠
X −µ
donc ~ N (0,1)
σ
N
S2 ⎛ χ N2 −1 ⎞ S χ N2 −1
Par 6.2.(2), on sait que ~ ⎜ ⎟ ⇔ ~
σ 2
⎝ N −1 ⎠ σ N −1
⎡ S S ⎤
IC95% ( µ ) = ⎢ X − 2 ;X +2 ⎥
NOTION STATISTIQUE
⎣ N N⎦
La moyenne réelle de la population se trouve dans cet intervalle avec 95% de confiance. Ce n’est
plus un intervalle de probabilité puisque µ n’est pas variable, c’est un intervalle
d’INFERENCE.
si N = 10 alors a = t9;table
α = 0.05 = 2.262
donc ⎡ S S ⎤
IC95% ( µ ) = ⎢ X − t Ntable
−1;0.05 ; X + t Ntable
−1;0.05 ⎥
⎣ N N⎦
On suppose que le diamètre d'une artère coronaire droite saine est une variable aléatoire
gaussienne dont on ne connaît pas les paramètres. Chez 15 personnes, on a mesuré ce diamètre
et on a trouvé X = 3.10 mm et S = 0.30 mm.
Donnez un intervalle de confiance à 95% pour le diamètre moyen d'une artère coronaire droite
saine.
⎡ 0.3 0.3 ⎤
IC95% ( µ ) = ⎢3.1 − 2.145 ;3.1 + 2.145 ⎥ = [ 2.93mm;3.27 mm ]
⎣ 15 15 ⎦
Avec 95 % de confiance, le diamètre moyen est compris entre 2.93 mm et 3.27 mm.
Si on avait effectué la mesure chez 100 personnes, on n'a plus besoin de faire l'hypothèse d'une
distribution gaussienne.
⎡ 0.3 0.3 ⎤
et IC95% = ⎢3.1 − 2 ;3.1 + 2 ⎥ = [3.04;3.16] mm
⎣ 100 100 ⎦
X
−p
z0 = N ~ N ( 0,1)
X
(1 − p )
N
N
⎡ X X ⎤
⎢X (1 − p ) X (1 − p ) ⎥
et donc, IC95% ( p ) = ⎢ − 2 N ; +2 N ⎥
⎢N N N N ⎥
⎢⎣ ⎥⎦
N.(borne supérieure) ≥ 5
Exemple :
Dans un échantillon de 100 individus, on observe 15 malades. Déterminez avec une confiance de
99% la prévalence de la population.
N = 100
Avec 99%, on peut affirmer que la prévalence de la population est comprise entre 6% et 24%.
Dans une étude, le choix d'un test statistique conditionne la validité des résultats : les résultats
d'un test n'ont de sens que si le test est adapté à la question posée et aux données recueillies
(variables).
- soit les unités de mesure sont appariées sur des variables concomitantes susceptibles
par exemple, à chaque fumeur est associé un non fumeur qui a même sexe,
même âge, même cholestérol, ...
ou bien
Si on veut savoir par exemple si le poids est un facteur de risque dans l'hypertension artérielle, on
va constituer un échantillon d'individus hypertendus chez qui on va mesurer le poids et un
échantillon d'individus non hypertendus chez qui on va aussi mesurer le poids. Si, dans le
premier groupe, on trouve un poids moyen de 70 Kg avec une déviation standard de 2 Kg et que
dans le second groupe, on trouve exactement les mêmes valeurs, il ne faut bien sûr réaliser aucun
test pour conclure qu'il n'y a pas de différence de poids entre les deux groupes d'individus.
Rappelons qu'avant de parler de causalité (le poids n'est pas un facteur de risque dans
l'hypertension artérielle) il faut se méfier des biais exposés dans les trois premiers chapitres du
cours.
Par contre, si dans le second groupe des individus non hypertendus, on trouve un poids moyen de
65 Kg avec une déviation standard de 2 Kg, il y a une différence de poids entre les deux groupes;
en moyenne 5 Kg. Est-ce par hasard? Un test d'hypothèse va tenter de répondre, non, à cette
question. Mais il ne répondra jamais par oui !
Dans l'exemple précédent, le phénomène étudié est la présence d'une hypertension et la variable
ou le facteur de risque considéré est le poids. Puisqu'on observe une différence entre les deux
échantillons, il faut accepter qu'une erreur puisse être commise en répondant à la question, donc,
en décidant. On ne connaît que les conséquences des lois du hasard. Si ces lois ne sont pas
satisfaites, la décision consiste à "rejeter" le hasard et donc conclure que la différence observée
est significative pour un seuil d'erreur toléré. Mais pour ce même seuil d'erreur toléré, si les deux
échantillons satisfont les lois du hasard alors on ne pourra pas rejeter l’hypothèse du hasard et on
conclura que la différence observée est non significative ou trop petite que pour être
statistiquement discernable.
- le poids moyen des hypertendus (µ1) est égal au poids moyen des non hypertendus (µ2)
H0 : µ1 = µ2
C'est l'hypothèse qui doit être testée avec un seuil de tolérance pour l'erreur qui doit être fixé
(arbitrairement) au départ. On l'appelle le seuil de signification, α :
α = P (rejeter H0 │ H0 vraie)
L'hypothèse alternative, H1, c'est l'hypothèse que l'on adoptera si on est amené à rejeter H0. On ne
la teste pas !
Il faut la choisir telle que H 0 ∩ H1 = ∅ ; elle est contradictoire avec H0.
Par exemple, H1 : µ1 ≠ µ2
Le seuil de décision α, c'est le taux d'erreur que l'on accepte pour décider de rejeter l'hypothèse
nulle.
En général, on choisit α = 0.05, mais ce choix est discutable et il vaudra mieux parfois utiliser α
= 0.10 ou encore utiliser α = 0.01 selon les tailles d'échantillons et le nombre de tests qui sont
réalisés.
H1 : But
L'hypothèse alternative est définie par le but recherché. Quand on veut savoir si le poids des
hypertendus (A) est supérieur au poids des non hypertendus (B), on spécifiera H1 : µA > µB. Si on
veut savoir simplement si le poids est un facteur de risque dans l'hypertension, on
spécifiera H1 : µ A ≠ µ B , c'est-à-dire H1 : µA > µB ou µA < µB.
Le choix entre une alternative unilatérale ou bilatérale ne peut jamais reposer sur
l'observation des valeurs dans les échantillons ! En général, il faut choisir un test bilatéral
sauf si par définition du problème, il est impossible d'avoir deux sens.
Par exemple, on chercherait à savoir l'impact d'une campagne publicitaire sur le tabagisme dans
un groupe d’individus.
Si on exprime le tabagisme par X, le total de cigarettes fumées au cours de la vie (et ça a un sens
dans le cancer du poumon ...), X ne peut pas diminuer au cours du temps et donc, la différence
entre la mesure de X après la campagne et la mesure de X avant la campagne ne peut être
que positive ou nulle : on peut choisir une alternative unilatérale. Si par contre, on avait
exprimé le tabagisme par Y, le nombre de cigarettes fumées par jour (et ça a un sens dans les
maladies cardio-vasculaires où l'impact de la cigarette est réversible), on doit choisir une
alternative bilatérale puisque Y peut augmenter ou diminuer au cours du temps.
H0 : contraire du but
Si H1 est unilatérale alors H0, c'est aussi l'égalité parce que, on peut montrer que la puissance est
maximale dans ce cas-là. Donc, pour réaliser le test,
H0 : µA ≤ µB on réalise H0 : µA = µB
H1 : µA > µB H1 : µA > µB
L'égalité signifie une différence nulle. C'est de là que vient le nom de H0, hypothèse nulle.
Par définition, une statistique est une fonction des observations. Donc, c'est une variable
aléatoire et elle possède une distribution de probabilité (DP) connue ou non.
Une statistique de test, c'est une statistique qui permet de réaliser un test. En choisissant une
statistique connue (littérature statistique), on connaît sa DP sous H0 et on peut alors évaluer
l'erreur de décision lorsqu'on déclare un résultat significatif. Pour chaque test vu dans ce cours, la
statistique de test sera proposée.
Exemple :
En Belgique, la surface moyenne d'un logement familial est de 90 m². On se demande si, dans la
région bruxelloise, cette estimation est valable aussi. Au hasard, on choisit 100 logements dans
cette région et on mesure la surface X : X1, X2,..., X100.
H0 : µX = 90
but → H1 : µ X ≠ 90 l'estimation n'est pas bonne.
(Attention, ce n'est pas un test sur X , la moyenne de l'échantillon mais sur µX, la moyenne de la
population bruxelloise ; on ne teste pas X , on calcule X )
X − µ H0 X − 90
Donc, la statistique t = ici, t =
S S
N N
a une DP connue (Student à 99 dl) et elle mesure l'écart entre la moyenne de l'échantillon, X, et
la moyenne dans la population bruxelloise si l'hypothèse nulle est vraie, 90. Plus cet écart est
grand, moins H0 sera acceptable et si l'écart est nul (X = 90 aussi) t=0 et il n'y a rien à tester (on
est certain de se tromper si on dit que c'est faux, i.e. si on rejette H0 mais ... ça ne voudra pas pour
autant dire que c'est vrai puisqu'on n'a pas mesuré tous les logements bruxellois ...)
Distribution de probabilité de
0.4
T sous H0
ou
vraisemblance de T sous H0
0.3
y
0.2
Test bilatéral
0.1
p − value
p − value
2
2
-2 -1 0 1 2
−Tobs T
H0 le plus
Tobs T
vraisemblable
p-value ("les petits p" de la littérature), c'est le calcul dans l'échantillon de la probabilité de
l'erreur de rejet de H0. C'est la probabilité que l'écart soit encore plus grand que celui qu'on a
observé :
N.B. Pour un test unilatéral, on calcule la p-value comme si le test était bilatéral et on la
multiplie ensuite par 2 grâce à la propriété de symétrie de Z et t.
Si p-value est très petite, ça signifie que si H0 était vraie, observer un écart aussi grand est peu
probable : l'échantillon est tel que H0 est peu vraisemblable.
Dans notre échantillon, tobs = 1.25 et la DP est Student avec 100-1 = 99 dl, donc on peut utiliser la
table de la normale, T2 :
p-value = P(│Z│ > 1.25 │ µ X = 90) = 0.2113
si p-value < α
alors décider de rejeter H0 avec un risque = p-value
« le résultat est significatif, p < ... »
H0 vraie
Probabiliste Non observable ⇒ p NS
= déduction “population” Observable
“échantillon
On peut se demander pourquoi tolérer une erreur de 5% par exemple sur la décision de rejet de
H0. Simplement parce que la décision du non rejet de H0 entraîne aussi un risque d'erreur et que
les deux risques sont liés.
Considérons le test suivant (alternative simple) :
H0 : µ = a
H1 : µ = b
Et T la statistique du test
Si on diminue α alors ß augmente et (1-ß) qui est la puissance statistique d'un test va diminuer.
Diminuer α signifie qu'il est plus difficile de conclure ; de là, l'expression "manquer de
puissance".
p-value N=100
p-value N=10
La conséquence est que dans les petits échantillons, on aura difficile de conclure à 5% et dans les
trop grands échantillons, on conclura peut-être trop vite à 5%.
α1
N=100
N=10
Avant de conclure à un résultat significatif ou non, il faut s'assurer qu'il n'y a pas de vices cachés.
(3) Les tailles d'échantillons sont trop petites pour mettre en évidence une différence
(manque de puissance)
Problème I Un statisticien décide d'adopter le seuil de signification 5%. Sur 100 études, quel
est le nombre moyen d'erreur commises ?
N0 = 0
N1 = 100
Donc le statisticien ne commettra aucune erreur.
Dans ce cas de "screening", N0 sera à peine inférieur à 100 et donc, le nombre moyen d'erreurs
commises sera à peine moins de 5 !
Ces problèmes montrent qu'il ne faut pas faire trop de tests statistiques dans une étude. La
question majeure doit être simple et clairement définie. Plus on fait des tests (tester 100
variables) « à l'aveugle », plus on risque de voir apparaître des résultats significatifs à tort.
Soulignons à nouveau l'intérêt des études randomisées face aux enquêtes d'observations; dans ces
dernières, il y a souvent trop de facteurs potentiels de confusion à tester et donc un risque de
fausses conclusions plus grand aussi. Même dans une étude randomisée, il ne faut pas faire
une « fishing expedition ».
Dans les sections suivantes, nous allons aborder les techniques à utiliser pour répondre à la
question posée dans un problème mais ces techniques ne doivent pas faire oublier les éléments
importants décrits ci-dessus.
Le facteur X
discret (r niveaux) continu
table r x r N paires
(1) On désire comparer le taux de cholestérol des hommes à celui des femmes. Comme on
pense que les revenus d'un ménage influencent le choix de l'alimentation, on décide
d'échantillonner N couples vivant sous le même toit.
(2) On veut évaluer l'effet d'un entraînement physique sur la VO2. On choisit N individus
chez qui on mesure la VO2 avant et après l'entraînement physique.
Dans chacun de ces exemples, on récolte N paires d'observations. Pour chaque paire, on calcule
la différence parce que c'est l'effet différentiel qui présente un intérêt :
1 X A,1 X B ,1 D1 = X A,1 − X B ,1
2 X A,2 X B ,2 D2 = X A,2 − X B ,2
3 X A,3 X B ,3 D3 = X A,3 − X B ,3
Moyenne XA XB D
Déviation SA SB S(D)
standard
1
Remarquons que D =
N
∑ Di = X A − X B
mais S(D) ne peut pas être déduit à partir de S A et S B
D−0
La statistique de test est : tobs =
S ( D)
N
Cette statistique a une distribution de probabilité du type Student à N-1 degrés de liberté si on
n'avait pas mis de valeur absolue.
0.0014
0.0012
0.0010
0.0008
z
0.0006
0.0004
p/2 p/2
0 200 400 600 800 1000
−t obs ( µD )H
x
0
=0 t obs t
(2) Si on avait testé une différence de a unités plutôt que une différence nulle, le test
d'hypothèse serait :
H 0 : µD = a
H1 : µ D ≠ a
D−a
et la statistique de test tobs =
S ( D)
N
a aussi une DP du type Student à (N-1) degrés de liberté.
Mais la conclusion serait « au seuil de 5%, la différence D est ou bien n'est pas
significativement différente de a ».
C'est en fait la version générale du test sur une moyenne dans un seul échantillon.
p-value
0 200 400 600 800 1000
0x t obs
ou bien la table T1 par la remarque suivante.
(4) Si N > 30 alors t est Gaussienne et on peut utiliser la table T2 pour trouver la p-value.
(5) Dans la littérature, ce test porte aussi le nom de Z test pairé ou de test de l'écart
réduit pour paires.
Dans une étude comparant l'Imipramine, une drogue antidépressive, à un placebo, 60 patients
ont été appariés pour former 30 paires. Dans chaque paire, les 2 patients étaient enrôlés le
même mois, avaient le même sexe et moins de 10 ans d'écart l'âge. Un score (X) d'échelle de
dépression a été mesuré après 5 semaines de traitement chez tous les patients :
1 6 4 2 16 6 8 -2
2 4 7 -3 17 10 10 0
3 6 12 -6 18 3 9 -6
4 7 10 -3 19 5 8 -3
5 5 2 3 20 4 5 -1
6 6 11 -5 21 6 8 -2
7 8 9 -1 22 7 7 0
8 7 5 2 23 5 6 -1
9 8 11 -3 24 6 9 -3
10 3 8 -5 25 3 3 0
11 9 7 2 26 10 5 5
12 4 6 -2 27 5 11 -6
13 8 8 0 28 4 7 -3
14 11 9 2 29 4 3 1
15 12 9 3 30 7 10 -3
moyenne 6.3000 7.5667 -1.267
déviation 2.3947 2.5955 2.9235
standard
Dans cette étude, la question posée est : l'Imipramine a-t-elle un effet antidépresseur
significatif au seuil de 5% chez des patients dépressifs traités pendant 5 semaines? L'effet est
mesuré par une variable continue, X, le score d'Hamilton.
Comme N≥25, on peut appliquer le test de Student pairé sans aucune hypothèse sur les
échantillons.
Les patients sous Imipramine sont significativement moins déprimés que ceux sous placebo
(6.3 ± 2.4 vs 7.6 ± 2.6, p < 0.03). Comme c'était une étude randomisée double aveugle, on
peut conclure à l'effet antidépresseur de l'Imipramine.
7.2.2. Cas des petits échantillons (N<30) et la différence est gaussienne : le test t-
pairé
Dans les grands échantillons, grâce au théorème central limite ou loi forte des grands
nombres, il ne faut faire aucune hypothèse sur la distribution de fréquence pour appliquer le
test de Student pairé. (Si ce n'est bien sûr l'indépendance des paires observées, comme dans
tous les échantillons de ce cours)
Rappelons que pour qu'un échantillon puisse être supposé gaussien, il faut que la symétrie α3
soit presque nulle, que l'aplatissement α4 soit aussi presque nul et il faut confirmer par une
épreuve graphique de normalité.
Il s'agit bien d'une hypothèse sur l'échantillon des différences, quelle que soit la distribution
des deux échantillons de base A et B.
Pour une petite taille d'échantillon, si on ne peut pas supposer que l'échantillon des
différences est gaussien parce que α4 n'est pas suffisamment petit mais que l'échantillon est
symétrique (α3 est proche de 0 c'est-à-dire la moyenne des différences est approximativement
égale à la médiane des différences) alors, il faut faire un test de Wilcoxon pour comparer les
deux échantillons pairés. Ce n'est plus un test sur la moyenne, mais c'est un test sur la
médiane des différences. C'est l'ordre (rangs) et le signe des différences qui sera pris en
considération. Nous omettons volontairement les corrections de continuité et d'égalités.
Exemple :
On a mesuré le VEMS (volume expiré maximum par seconde) chez 6 asthmatiques avant et
après l'utilisation d'un bronchodilatateur (litres/sec) :
Le rang est la position relative des différences absolues (sans signe) non nulles.
Sa distribution de probabilité est tabulée (table T6) et on trouve p-value dans cette table de
Wilcoxon (1945)
(2) si N0 > 15
1
W+obs − N 0 ( N 0 + 1)
la statistique de test est : Z +obs = 4
N 0 ( N 0 + 1)( 2 N 0 + 1)
24
qui a une distribution gaussienne. Donc, on trouve p-value dans la table de la Normale (T2)
avec Z +obs .
Dans l'exemple de l'essai sur l'Imipramine de Hamilton, W+obs = 88.5, N0 = 26 donc Z +obs =│-
2.21│ = 2.21 donc, p-value = 0.0271 et on trouve la même conclusion mais c’était un
exemple où il valait mieux utiliser le test t-pairé.
Si l'échantillon des différences ne peut pas être supposé symétrique, la première attitude est
d'essayer de transformer les données pour la rendre symétrique et travailler avec les données
transformées (7.2.2. et 7.2.3.).
Si on ne trouve pas de "bonne" transformation, on peut réaliser un test du Signe, basé sur le
signe des différences mais on perd beaucoup de puissance.
1
H 0 : la proportion des différences positives θ + =
2
Le test d'hypothèse s'écrit :
1
H1 : θ + ≠
2
Soient N0, le nombre de différences non nulles
S+, le nombre de différences positives ~ Bi (N0 , 1/2)
(1) si N0 < 10
La statistique de test est S +obs et on trouve p-value dans la table de la Binomiale de paramètres
N0 et 1/2 (table T7)
Dans l'exemple des 6 patients testés avant et après bronchodilatation, N0=5 et S +obs =1. Dans
la table T7, on trouve p-value=0.1875 soit un résultat non significatif.
Remarque :
On aurait pu considérer une autre proportion que 1/2. Dans le cas (2), on obtient alors la
version générale d'un test sur une proportion pc à condition bien sûr que N0*p0 ≥ 5 et N0 (1-p0)
≥5:
H 0 : p = p0 p obs − p0
le test est et la statistique Z + =
obs
peut être comparée à la table T2
H1 : p ≠ p0 p0 (1 − p0 )
N0
pour trouver la p-value.
Exercices
(1) Dans un centre médical scolaire, un groupe de 15 garçons âgés de 12 ans ont été
mesurés par deux infirmières différentes :
Ces données justifient-elles la conclusion que les deux infirmières n'ont pas la même
exactitude pour mesurer la taille des enfants au seuil de 5% ?
(1) en supposant la différence gaussienne
(2) en supposant la différence non gaussienne mais symétrique
(3) en supposant la différence non symétrique.
(2) Avant de lancer un programme de vaccination contre la rubéole dans une ville V, une
enquête révèle que 150 enfants sont immunisés contre la rubéole parmi 500 enfants
choisis au hasard dans les écoles primaires de la ville. Ces données sont- elles
compatibles avec l'hypothèse que moins de 50% des enfants en âge de scolarité
primaire sont immunisés dans la ville V? (seuil de signification α=0.05)
Donnez un IC à 95% sur la proportion dans la ville V.
1
X, le nombre d'enfants immunisés, sous H0 est Bi(500, )
2
1
L'approximation des grands nombre est valide : 500( ) = 250>5
2
1
500(1- ) = 250>5
2
1 150 1
pobs − −
donc, on peut utiliser la statistique : Z obs = 2 = 500 2 = −8.94 ⇒ p-value<10-6
1⎛ 1⎞ 1
⎜1 − ⎟ 2000
2⎝ 2⎠
500
pour rejeter H0 au seuil de 5 %. Ces données montrent 150/500=30% d’immunisation, soit un
taux significativement inférieur à 50%.(p<0.000001)
Dans cette section, il s'agit de comparer 2 groupes A et B qui sont indépendants (parallel
design) en ce sens que tous les individus sont randomisés entre le groupe A et le groupe B sur
base des critères d'entrée dans l'étude mais il n'y a aucune relation entre les individus du
groupe A et ceux de groupe B (aucun appariement). Si il n'y a pas randomisation, on utilise
les mêmes procédures mais on se méfie des biais (causalité).
Les données suivantes sont tirées d'une étude cas-témoins. Le niveau de lysozyme dans le suc
gastrique a été mesuré chez 29 patients ayant un ulcère gastrique (groupe A) et chez 30
patients n'ayant pas d'ulcère gastrique (groupe B). Les rangs figurent entre parenthèses. Le
taux de lysosyme est-il plus élevé dans les cas d'ulcère gastrique ?
H 0 : µ A = µB H 0 : µ A − µB = 0
Le test d'hypothèse s'écrit : ou bien
H1 : µ A ≠ µ B H1 : µ A − µ B ≠ 0
Par la loi forte des grands nombres, on sait que les deux moyennes sont gaussiennes. Donc, la
différence des moyennes sera aussi gaussienne, de moyenne µA-µB et de variance σ²(µA-µB) =
σ²(µA) + σ² (µB) = σ²A / NA + σ²B / NB.
Il ne faut donc faire aucune hypothèse sur la distribution des deux échantillons.
(X A − X B ) − ( µ A − µB )H
La statistique de test à utiliser est t obs = 0
2 2
S S
+
A B
N A NB
Exemple : Supposons qu'on applique la loi des grands nombres aux données de Meyer.
H 0 : µ A − µB = 0
Le test d'hypothèse est :
H1 : µ A − µ B ≠ 0
29 30
Le degré de liberté est 29+30-2 = 57. Dans la table T2, on trouve p-value = 0.0414, soit p-
value<0.05. Avec ce test, on va donc conclure que le taux de lysosyme est plus élevé
statistiquement (p<0.05) chez les patients souffrant d'un ulcère gastrique. (? cause ou
conséquence).
Le choix du test repose alors sur l'hypothèse d'égalité des variances. Avant de choisir, il
faut d'abord faire un test préliminaire sur l'égalité des variances. Nous présenterons ici le
plus simple, le test de Bartlett.
Remarquons que si S²A = S²B, il n'y a aucun test à faire.
⎪⎧ H 0 : σ A = σ B ⎪⎧ H 0 : σ A / σ B = 1
2 2 2 2
Comme les échantillons sont gaussiens par hypothèse, on sait que S A2 , l'estimateur de la
variance est du type chi-carré et S B2 aussi. Donc, on va choisir le rapport comme statistique
de test parce qu'il sera du type Fisher-Snedecor.
max ( S A2 , S B2 )
La statistique de test est : F obs
= (toujours >1 !!)
min ( S A2 , S B2 )
Comme le test est bilatéral dans notre cas, on détermine p-value en multipliant par2 la p-
value donnée par la table T5. Et on conclut au seuil α=0.05 si l'hypothèse d'égalité des
variances est admissible.
donc Fobs = 4.02. Comme S A2 est la plus grande valeur, les degrés de liberté sont 28 et 29. En
arrondissant à ν1= 30 et ν2 = 29, comme Fobs=4.02 > 3.27, on trouve p-value < 0.001 dans la
table T5. Au seuil α=0.05, on ne peut pas supposer que les variances sont égales (p<0.002)
dans les deux échantillons.
7.3.2.1. Les variances peuvent être supposées égales : le test t non pairé des variances
égales.
S2 =
( N A − 1) S A2 + ( N B − 1) S B2
N A + NB − 2
(X A − X B ) − ( µ A − µB )H
La statistique de test est : t obs = qui est une statistique de
0
1 1
S +
N A NB
distribution de probabilité t student à NA + NB - 2 degrés de liberté. On détermine alors p-
value à partir de la table T4 et on conclut.
Un groupe de 7 rats est soumis à un régime basse protéine entre le 28e jour et le 84e jour de
vie. Le gain en poids est mesuré et on obtient une valeur moyenne de 101.0g avec une
déviation standard de 20.6 g. Un second groupe de 12 rats est soumis lui à un régime haute
protéine pendant la même période et le gain moyen en poids est de 120.0 g avec une
déviation standard de 21.4 g. Les deux régimes ont-ils un effet sur le gain en poids chez les
rats ? (Suppposer les gains gaussiens) α=0.05.
Les deux groupes sont indépendants et le facteur est continu. Pour choisir la statistique de
test pour comparer les 2 moyennes, il faut d'abord réaliser un test de Bartlett.
F obs
= = 1.08
( 20.6 )
2
Les degrés de liberté sont ν1 = 11 et ν2 = 6. Comme Fobs = 1.08 < 2.94 (table T5, p = 0.10), p-
value>0.20 et on peut supposer que les variances σ²A et σ²B sont égales.
7 + 12 − 2
S = 21.12
Le degré de liberté est (7+12-2)=17. En comparant │tobs│ = 1.89 à la table T4, on trouve
p-value compris entre 0.05 et 0.10, soit p-value > 0.05. On peut donc conclure qu'au seuil de
5%, le gain en poids ne diffère pas significativement entre les deux régimes. Comme l'étude
était randomisée, on conclut que les deux régimes n'induisent pas un gain en poids entre
le 24e et le 84e jour statistiquement différent chez le rat.
7.3.2.2. Les variances ne peuvent pas être supposées égales : le test non pairé pour des
variances différentes
(problème de Behrens-Fisher sans solution exacte)
Solution de Cochran :
H 0 : µ A − µB = 0
Pour résoudre le test d'hypothèse :
H1 : µ A − µ B ≠ 0
(X A − X B ) − ( µ A − µB )H
Choisir la statistique de test des grands échantillons : t obs = 0
2 2
S S
A
+ B
N A NB
2
⎛ S A2 S B2 ⎞
⎜ + ⎟
Calculer son degré de liberté comme suit : ν = ⎝ N A NB ⎠
( S A2 / N A ) + ( S B2 / N B )
2
N A −1 NB −1
Avec ce degré de liberté, comparer │tobs│ à la table de Student (table T4) pour trouver la p-
value.
Si les échantillons sont gaussiens, on peut répondre à la question par le test (on a rejeté
l'égalité des σ²)
H 0 : µ A − µB = 0
H1 : µ A − µ B ≠ 0
28 29
soit 41, inférieur à celui des grands nombres (56). Comme il est encore supérieur à 30, on va
trouver p-value dans la table de Z (table T2) et la conclusion sera inchangée.
7.3.3. Cas des petits échantillons (NA < 30 ou NB < 30) et au moins un des deux est
non gaussien : Test de MANN-WITHNEY
(Mann-Withney-Wilcoxon rank test)
Si un échantillon n'est pas gaussien, il vaut toujours mieux essayer de le transformer pour le
rendre gaussien et choisir un test paramétrique car ils sont plus puissants. Sinon, on peut
réaliser un test non paramétrique sur les rangs.
H 0 : MeA = MeB
Le test d'hypothèse s'écrit : (à nouveau, ce sont des médianes théoriques, de
H1 : MeA ≠ MeB
population !)
La statistique de test est : Rmobs , la somme des rangs du plus petit échantillon.
Pour réaliser le test de Mann-Withney, il faut d'abord attribuer un rang aux (NA+NB=13)
observations.
L'échantillon B est le plus petit échantillon (n=7 et m=6), c'est donc la somme des rangs du
groupe B qui sera utilisée comme statistique de test : Rmobs = 29
Dans la table T8, on trouve p-value = 2(0.037)=0.073 non significative au seuil de 5%. On
peut donc conclure que le nombre de lactobacille n’est pas significativement plus élevé
(calculer P50) dans le groupe vacciné que dans le groupe non vacciné (p<0.07).
Dans l'exemple de Meyer, si on utilise un test non paramétrique pour comparer les cas et les
témoins,
m = 30
n = 29
Rmobs = 794
⎛ 60 ⎞
794 − 30 ⎜ ⎟
Comme n ≥ 10, on peut faire l'approximation normale : Z obs = ⎝ 2 ⎠ = −1.61
( 29 )( 30 )( 60 )
12
soit une p-value = 0.1074 (table T2), NS.
Une fois encore soulignons l'importance de bien choisir le test à réaliser, un mauvais choix
peut mener à des conclusions erronées. Une description détaillée des deux échantillons est
indispensable pour aider à choisir la bonne méthodologie de comparaison d'échantillons.
Une transformation logarithmique signifie que l'effet d'un traitement est multiplicatif plutôt
qu'additif. Lorsque des variances sont différentes mais que le coefficient de variation est
comparable entre les deux groupes, il faut aussi penser à une transformation logarithmique.
Dans cette section, il ne s'agit plus d'une variable continue mais d'une variable discrète à r
niveaux possibles. On s'intéresse à des proportions ou des fréquences absolues.
De plus, les 2 groupes à comparer sont appariés.
Nous considérons dans ce cours, qu'il n'y a pas d'ordre sur les niveaux.
Exemples :
- On veut évaluer l'effet d'une campagne publicitaire sur l'opinion politique d'un groupe
social. N individus sont choisis au hasard et expriment leur tendance politique en terme de
gauche, droite ou centre avant la campagne publicitaire. Après la campagne, ces N individus
sont à nouveau interrogés sur leur tendance politique.
L'effet de la campagne sera mesuré par soit le nombre qui a changé d'avis (discordances), soit
le nombre qui n'a pas changé d'avis (concordances). Les deux échantillons sont pairés
puisque chaque individu répond 2 fois.
SECONDE évaluation
Niveaux du facteur
PREMIERE
évaluation
1 2 3 … r
3 O33 L3
r Or1 Orr Lr
C1 C2 Cr
N
Oij est le nombre observé de paires qui répondent i à la première évaluation et j à la seconde
évaluation. Le premier indice est généralement la ligne et le second est la colonne.
Avant la campagne
Gauche Droite Centre
Après la Gauche 15 15 30 60
campagne Droite 10 10 20 40
Centre 5 25 20 50
30 50 70 150
Il y en a r=3
r ( r − 1) 3i2
Il y en a = =3
2 2
Pour tester l'égalité, on va tester si la différence est nulle. La statistique de test à utiliser est :
(O − O ji )
2
=∑
obs ij
MN
Oij + O ji
i< j
(15 − 10 ) ( 30 − 5 ) ( 20 − 25)
2 2 2
MN obs
= + + = 19.4 Le degré de liberté est 3.
15 + 10 30 + 5 20 + 25
Dans la table T3, on trouve p-value < 0.001 puisque MNobs= 19.4 > 16.27
On peut donc conclure que les personnes ont changé significativement d'avis après la
campagne électorale (p<0.001). Est-ce dû à la campagne électorale? (causalité) Difficile de
juger puisqu'il n'y a pas de groupe "contrôle", d'autres changements ont pu se produire...
La différence la plus importante (30-5) vient de la seconde paire; beaucoup de centristes
(30/70) avant la campagne sont devenus gauchistes après alors que peu de gauchistes avant
(5/30) sont devenus centristes après.
( 45 − 15 ) ( 30 − 20 )
2 2
Alors MN obs
= +
= 17.0 et le degré de liberté est 2.
45 + 15 30 + 20
Dans la table T3 de la χ² à 2 degrés de liberté, on trouve p<0.001.
Dans ces 2 exemples, on pouvait appliquer un test de Mc Nemar puisque toutes les sommes
dans les paires discordantes (15+10, 30+5, 20+25, 45+15 et 30+20) étaient ≥10
Le test de Kappa porte sur les paires concordantes. Il est applicable si N ≥ 2.r²
H 0 : pii = pi. ⋅ p.i ∀i
Le test d'hypothèse est :
H1 : ∃i : pii ≠ pi. ⋅ p.i
∑O ii
po = le taux de concordance observé
N
∑ L .Ci i
pe = le taux de concordance attendu (espéré) sous l'hypothèse que la concordance
N2
est due au hasard(H0)
∑ min ( L , C )i i
pm = le taux de concordance maximum possible
N
po − pe
Ko = le coefficient Kappa observé (coefficient de concordance)
1 − pe
pm − pe
Km = le coefficient maximum Kappa; c'est la valeur maximale possible pour Ko
1 − pe
Ko
est le taux de concordance Kappa
Km
(1) On peut conclure directement à partir de K0, le coefficient Kappa observé (FLEISS,
1981)
(2) On peut utiliser une approximation gaussienne si non seulement N ≥ 2.r² mais aussi si
N ≥ 25 (Fermanian, 1984)
K o N (1 − pe )
La statistique Z obs = a une distribution de probabilité du type
pe
Normale.
On peut utiliser la table T2 pour trouver la p-value et conclure.
Dans l'exemple 1 sur la campagne électorale, N=150, r=3 donc N ≥ 2.r², on peut analyser
les concordances au sens du Kappa de Cohen.
Ko
= 0.04 Il y a seulement 4% de concordance entre les avis politiques avant et ceux
Km
après la campagne électorale.
Dans une politique de détection précoce du cancer, en présence d'une induration découverte
dans un sein, il est conseillé de faire une radiographie de profil dite mammographie. Si le
résultat fait craindre la présence d'un cancer, l'image est dite douteuse. Sachant que la lecture
de la mammographie entraîne une décision où l'erreur par excès ou par défaut, a de lourdes
conséquences, des auteurs ont cherché à mesurer la concordance d'interprétation en
soumettant 1214 clichés à deux radiologues A et B très compétents. En l'absence de critère de
certitude, l'objectif était de mesurer la concordance et non pas l'exactitude des diagnostics
radiologiques. Au total, le radiologue A en a déclaré 63 douteux et le radiologue B en a
déclaré 52 douteux. Les auteurs ont conclu à une bonne concordance de jugement entre les
deux radiologues.
Explications :
données : Table 2 x 2
Radiologue A Radiologue A
Radiologue B douteuse Bénigne Radiologue B douteuse bénigne
D 39 52 D 39 13 52
B B 24 1138 1162
63 1214 63 1151 1214
MN obs
= = 3.27 et degré de liberté = 1
24 + 13
Dans la table T3 de la loi du chi-carré, on trouve 0.05 < p-value < 0.10 donc, au seuil de 5%,
on ne rejette pas l'hypothèse d'une symétrie entre les diagnostics des radiologues (p> 0.05) ; il
n'y a pas une dissymétrie significative dans les discordances entre les diagnostics.
39 + 11.38
po = = 0.97 le taux de concordance observé est de 97%
1214
52 ⋅ 63 + 1162 ⋅1151
pe = = 0.91 le taux de concordance aléatoire est de 91%
(1214) 2
Remarquons que dans toutes les opérations de dépistage d'une maladie à faible prévalence, p0
et pe sont élevés parce que l'effectif des sujets "normaux" est beaucoup plus élevé que celui
des sujets dépistés.
Cette approche est utilisée aussi pour comparer la sensibilité (ou bien la spécificité ou bien
l'exactitude (accuracy)...) de deux tests diagnostiques. Si le test de Mc Nemar est non
significatif, il y a symétrie dans les réponses (ou il n'y a pas un manque de symétrie
significatif) ⇒ les taux de réponses ⊕ donnés par les deux techniques sont comparables mais
elles peuvent être interchangeables ou bien se compléter selon qu'elles sont concordantes ou
non (test du kappa).
Cas 3 Cas 4
A A
+ - Non Symétriques + - Non Symétriques
(MN=20 p<0.001)
+ 80 0 80 Concordantes
+ 40 40 80 (MN=4 p<0.05)
⇓ ⇓
Stratégie possible : réaliser B
Si B dit + : arrêter Abandon de la plus
Si B dit - : réaliser A mauvaise technique
Dans le cas d'un facteur discret à r niveaux, nous généralisons directement la comparaison de
2 groupes à g groupes car la méthodologie est semblable. Dans cette section, les groupes sont
indépendants. La question porte sur la distribution du facteur entre les niveaux : est-elle la
même dans les g groupes?
Pour ces 3 années, la répartition entre ces cinq secteurs de recherche, des essais financés par
le NIH est-elle différente ?
La table de contingence :
Le facteur est le secteur de recherche. Il y a 5 niveaux. Les 3 groupes sont les années 1977,
1978 et 1979.
Pour un secteur donné, le pourcentage d'essais financés par le NIH n'est pas exactement le
même chaque année. Ces différences sont-elles significatives ?
C'est la question de l'homogénéité au cours des trois années de la répartition des essais entre
les secteurs de recherche.
En d'autres termes, sur chaque ligne du tableau précédent, les 3 pourcentages théoriques sont
identiques (les pourcentages observés ne le sont pas !)
La négation de cette hypothèse est (H1) qu'il existe (∃) au moins un niveau dans lequel un des
pourcentages au moins n'est pas pareil aux autres pourcentages de ce niveau. Il n'est pas
précisé lequel !
Le test d'homogénéité peut permettre de conclure à un manque significatif d'homogénéité
mais sans préciser d'où ça vient.
Pour résoudre ce test d'hypothèse, il faut (comme pour toutes les tables de contingences)
d'abord construire une seconde table, la table des effectifs espérés (ou attendus).
Table observée
1977 1978 1979
C
418 515 654 1587
AI
93 99 120 312
E
53 39 32 124
CP
24 20 20 64
Autre
158 172 160 490
s
746 845 986 2577
Dans notre exemple, cette condition est satisfaite car : min (Li) = 64 et min (Cj) = 746
64 ⋅ 746
donc, min Eij = = 18.5 > 5
2577
Si cette condition n'est pas satisfaite, il faut regrouper des lignes et/ou des colonnes pour
qu'elle devienne satisfaite.
(O − Eij )
2
χ = obs
+ +
459.4 520.4 607.2
( 93 − 90.3) ( 99 − 102.3) (120 − 119.4 )
2 2 2
+ + +
90.3 102.3 119.4
( 53 − 35.9 ) ( 39 − 40.7 ) ( 32 − 47.4 )
2 2 2
+ + +
35.9 40.7 47.4
( 24 − 18.5) ( 20 − 21.0 ) ( 20 − 24.5)
2 2 2
+ + +
18.5 21.0 24.5
(158 − 141.8) (172 − 160.7 ) (160 − 187.5 )
2 2 2
+ + +
141.8 160.7 187.5
= 29.98
Comme g=3 et r=5, le degré de liberté est 8. Dans la table T3, on trouve p-value< 0.001. Au
seuil de 5%, on va conclure que la répartition des essais entre les secteurs considérés n'est pas
la même pour les 3 années avec p < 0.001.
On désire comparer le risque bruit auquel sont soumis les travailleurs dans 4 entreprises ayant
une activité différente. Le risque bruit est exprimé par 3 niveaux : aucune exposition (1), une
exposition à un bruit < 95 dB (2) et une exposition à un bruit > 95 dB (3). Une attitude
différente des partenaires sociaux peut bien sûr s'expliquer par une différence de répartition
du risque dans les 4 entreprises. Peut-on considérer que le risque bruit est également
réparti dans les 4 entreprises sur base de la table observée suivante :
Cette section aurait pu s'appeler "relation" entre deux facteurs discrets. Il y a un seul groupe
de N individus. Chez chaque individu, on évalue un facteur discret à r niveaux et un autre
facteur discret à s niveaux. Les deux facteurs A et B sont indépendants si la connaissance
d'un niveau de l'un ne modifie pas la répartition entre les niveaux de l'autre
( P ( A B ) = P ( A ) ou bien P ( B A ) = P ( B ) ou bien P(A et B) = P(A) . P(B) ).
Ca revient à dire que l'un est homogène dans l'autre.
La seule différence, c'est que pour le test d'homogénéité, c'est l'expérimentateur qui a choisi
l'effectif total de chacun des g groupes. Le pourcentage d'individus dans chacun des g
groupes par rapport à l'effectif total N n'est donc pas une probabilité. Dans une étude cas-
témoin par exemple, le % de cas n'est pas une probabilité. Dans une étude exposé-témoin, le
% d'exposés n'est pas une probabilité.
Par contre, dans une étude d'observation, prospective de cohorte, les pourcentages de malades
observés sont des probabilités parce que le nombre de malades observés est déterminé par
l'aléa ; le statut de maladie est une variable aléatoire et on peut parler de test d'indépendance
entre deux variables aléatoires (cas des essais aussi).
χ obs
Le coefficient V = mesure la force de liaison entre les deux facteurs.
N ⋅a
Exemple
Dans une étude chez 141 patients ayant une tumeur cérébrale, des auteurs ont regardé si le
type de la tumeur dépendait du site de la tumeur. Ils ont observé la table suivante :
Type
Bénigne Maligne Autre Total
Frontal 23 9 6 38
SITE Temporal 21 4 3 28
Autre 34 24 17 75
78 37 26 141
Donc le test du χ² de Pearson peut être utilisé pour conclure à une dépendance significative
ou pas.
La statistique de test, χobs = 7.84 et le degré de liberté est (3-1) . (3-1) = 4. Dans la table du
chi-carré, T3, on trouve 0.05 < p-value < 0.10, soit p-value > 0.05. Au seuil de 5%, on ne
peut pas conclure à une relation significative entre le type et le site d'une tumeur cérébrale à
7.84
partir de ces données. Le coefficient de contingence vaut ici, V = = 0.17 , soit 17%
141* 2
de liaison entre ces 2 variables mais il ne fallait pas le calculer puisque le résultat est non
χ obs
significatif. Si le tableau est 2x2, V = se note Φ .
N
7.6.1. Cas particulier des tables 2 X 2 et min Eij ≥ 5 : estimation des risques
En épidémiologie, le risque est synonyme de probabilité. Ainsi, le risque absolu pour une
maladie dans une population, c'est l'incidence de la maladie.
Maladie Proportion
oui (+) non (+) Total de malades
Exposition oui (+) n++ n+− nE + n++
= f+
nE +
Total nM + nM − N
Exemple :
Dans un essai randomisé parallèle, 210 patients ayant des maux de tête chroniques sont
enrôlés. 110 vont être traités par aspirine et 100 par placebo en double aveugle. Après 6 mois
de traitement, on évalue si oui ou non le mal de tête est encore présent. L'aspirine diminue-t-
elle le mal de tête après 6 mois de traitement chez des patients avec un mal de tête
chronique sur base des résultats suivants :
85 ⋅100
min Eij = 40.5 > 5 On peut faire un test d'indépendance (essai) du χ² Pearson :
210
χobs = 7.89 et le degré de liberté est 1 donc, par la table T3, on trouve 0.01 > p-value > 0.001
soit p-value < 0.01 et la force de la relation, Φ = 19%
Remarque : Si on avait considéré le groupe aspirine comme le groupe exposé, on aurait trouvé:
1
RR = 0.71 soit
1.4
et la conclusion resterait la même : traiter avec aspirine les patients ayant un mal de tête
chronique diminue 1.4 fois le risque de garder des maux de tête si on ne les traite pas (c'est
aspirine versus placebo). Ca ne veut pas dire que l'aspirine est un traitement de choix; il faut voir
si d'autres traitements agissent aussi !
Dans les études cas témoin, on ne peut pas estimer le risque relatif RR puisque les proportions de
malade ne sont pas des probabilités (des risques). On estime alors un autre rapport, l'odds ratio,
OR. Il ne faut pas confondre ces deux rapports ! Une cote de maladie, c'est le taux de malades / le
taux de non malades.
f+
(1) chez les exposés, la cote de maladie est (mais on ne sait pas l'estimer dans une
1 − f+
étude cas-témoin)
f−
(2) chez les non exposés, la cote de maladie est
1 − f−
f+ ⎛ 1 − f− ⎞
L'odds ratio est le rapport entre ces deux cotes : ⎜ ⎟
f− ⎝ 1 − f+ ⎠
n++ ⎛ n−− ⎞
nE + ⎜ nE − ⎟
OR = ⎜n ⎟
n−+
nE − ⎜⎝ ⎟
+−
nE + ⎠
n++ ⋅ n−− produit de la diagonale
⇒ OR = =
n−+ ⋅ n+− produit de la diagonale inverse
Dans une étude cas-témoin non appariés sur l'utilisation des contraceptifs oraux et le cancer du
sein, des auteurs ont comparé 1176 cas de cancer du sein prouvé histologiquement à 1176
témoins qui étaient des femmes mariées, de 16 à 50 ans et hospitalisées dans le même centre. 639
parmi les cas et 622 parmi les témoins n'avaient jamais utilisé de contraceptifs oraux.
Contraceptif
oral déjà utilisé cas témoins
oui 537 554 (exposés)
non 639 622
Total 1176 1176
Les femmes ayant un cancer du sein sont légèrement moins utilisatrices de contraceptifs oraux
(vérifiez que le test d'homogénéité χ² Pearson est NS)
Un odds ratio est significatif ou non de la même manière que la statistique du χ² de Pearson.
f+ ⎛ 1 − f− ⎞
Nous avons vu que la valeur théorique de OR est : OR= ⎜ ⎟
f− ⎝ 1 − f+ ⎠
⎛ 1 − f− ⎞
⇒ OR = RR ⋅ ⎜ ⎟
⎝ 1 − f+ ⎠
⇒ OR > RR
⇒ OR < RR
(3) Si la maladie est RARE (en pratique, une prévalence < 10%)
alors OR ≅ RR puisque f − et f + sont faibles. Donc, une étude cas-témoin donnera une
bonne estimation de RR.
Dans la notation utilisée, nous n'avons pas distingué le paramètre théorique de son estimation
dans les échantillons (la stat). Bien sûr, OR et RR étant des fonctions des observations, ce sont
des statistiques et on peut donc évaluer un IC à 95% par exemple avec la statistique OR (ou RR).
La méthode de Miettinen repose sur l'hypothèse que la statistique ln OR est gaussienne pour
En prenant l'exponentielle des deux bornes, on trouve un IC95% pour l'odds ratio (ou pour RR
théorique).
L'intervalle de confiance à 95% est aussi l'ensemble de toutes les valeurs non significatives
pour l'odds ratio !
Exemple :
500 ⋅ 300
min Eij = =150>5 ⇒ χ 2 Pearson applicable
1000
χ obs = 47.6 et le degré de liberté est 1 donc p-value < 0.001
2
RR = 3
3
= 1.56 Le risque est augmenté d'une fois et demi par la présence d'une exposition
7
professionnelle (p<0.001)
Avec 95% de vraisemblance, le risque relatif est compris entre 1.36 et 1.77 dans cette étude.
Remarquons que 1 n'est pas dans l'intervalle puisque la p-value < 0.001 ie. le résultat est
significatif à 5%.
On suggère une relation. Comme la proportion de bronchite chronique (1/2) dépasse 10%, on ne
peut pas estimer RR. Même l’intervalle de confiance à 95% sur OR ne contient pas la valeur de
RR !
200 ⋅ 400
ORˆ = = 2.67
100 ⋅ 300
IC95% ( ln OR ) = [ 0.704;1.26] ⇒ IC95% ( OR ) = [ 2.02;3.53]
(Méthode de Katz-Woolf)
( )
ˆ = 1+1+1+ 1
S ln OR
a b c d
Déviation de K-W sur ln (indice)
b d
( ˆ =
S ln RR ) a + c
a+b c+d
Exemple : Dans une étude cas-témoin (VITALIANO, 1978), des auteurs ont voulu étudier l'effet
d'une exposition au soleil sur le cancer de la peau.
Comme l'âge et la sensibilité au soleil sont des facteurs de confusion potentiels, on peut estimer
un RR (ou OR) après ajustement sur ces deux facteurs par la méthode de Mantel-Haenszel
(1959) et tester sa signification statistique (méthode ROBINS, 1986).
bi + ci 2 + 11 17 + 1 5 + 30 8 + 55
Qi = = 0.520 = 0.621 = 0.315 = 0.447
ni 25 29 111 141
R+ = ∑ Ri = 13.848
ai ⋅ di 1⋅11 2⋅9 9 ⋅ 67 17 ⋅ 61
Ri = = 0.440 = 0.621 = 5.432 = 7.355
ni 25 29 111 141
S + = ∑ Si = 5.938
bi ⋅ ci 2 ⋅11 17 ⋅1 5 ⋅ 30 8 ⋅ 55
Si = = 0.880 = 0.586 = 0.315 = 3.121
ni 25 29 111 141
Pi ⋅ Ri 0.212 0.2354 3.7209 4.0673 8.2348
Pi ⋅ Si 0.4224 0.2221 0.9254 1.7259 3.2958
Qi ⋅ Ri 0.2288 0.3856 1.7111 3.2877 5.6132
Qi ⋅ Si 0.4576 0.3639 0.4256 1.3951 2.6422
En 1986, Robins & Breslow ont donné une estimation de la variance logarithmique
∑ PR ∑ ( PS
i i i i + Qi Ri ) ∑Q S i i
Var ( ln ORMH ) = + +
2 R+2 2 R+ S+ 2S +2
ln ORMH ⎧ H : OR = 1
Z obs = est la statistique de test à utiliser pour tester ⎨ 0
var ( ln ORMH ) ⎩ H1 : OR ≠ 1
1) min Eij = 1.44 (table 1) = 1.03 (table 2) = 4.91 (table 3) = 12.23 (table 4)
2) 11 cellules / 16 ont Eij ≥ 5 et 12/16 ont Eij ≥ 4.9. Donc 75% des cellules ont une fréquence
acceptable. On manque un peu de puissance.
Si l'ajustement n'avait pas été réalisé (additionner les 4 tables) on aurait trouvé OR=2.37,
χ12 =6.907, Z = χ12 =2.63, p<0.0085, soit un résultat plus significatif à cause des deux facteurs
de confusion.
La condition d'application du χ² Pearson est que l'effectif minimum espéré soit au moins égal à 5.
Dans les tables à plus de 4 cases, si au moins 80% des cases ont un effectif espéré Eij > 5 et que
tous les effectifs espérés Eij ≥ 2.
Armitage (1987, Armitage & Berry) a montré que le χ² Pearson restait une statistique puissante.
Sinon, il faut regrouper des lignes et/ou des colonnes pour augmenter les effectifs espérés,
jusqu'à ce que la condition soit satisfaite pour réaliser le test.
Donc,
⎛ 1 1 1 1 ⎞
χ obs ( Pearson ) = ∆ 2 ⎜ + + + ⎟
⎝ E11 E12 E21 E22 ⎠
2
⎛ 1⎞ ⎛ 1 1 1 1 ⎞
χ (Yates ) = ⎜ ∆ − ⎟ ⎜
obs
+ + + ⎟
⎝ 2 ⎠ ⎝ E11 E12 E21 E22 ⎠
⎛ 1⎞
⎜∆ − ⎟
2
χ obs (Yates ) = χ obs ( Pearson ) ⋅ ⎝ 2 ⎠
∆
Exemple :
Nombre de décès dans les 6 mois après une fracture du col du fémur dans un centre spécialisé en
orthopédie (A) et dans un centre général (B) :
centre Eij
A B Total
Décès 4 4
oui 2 6 8
non 18 14 32 16 16
Total 20 20 40
8 ⋅ 20
Dans cette table, min Eij = = 4.0 et ∆ = 2
40
La statistique χ Pearson
obs
= 2.50 0.05 < p-value < 0.10, ne peut pas être utilisée; il faut faire une
( 2 − 0.5 )
2
value>0.20.
Au seuil de 5%, on peut conclure que les décès ne sont pas plus fréquents dans le centre B que
dans le centre A (homogénéité).
Dans les tables 2X2, avec N<20 ou bien avec N<40 et min Eij < 5, Cochran a recommandé de
toujours utiliser un test exact de Fisher. Avec les ordinateurs aujourd'hui, c'est facile mais
manuellement...
Donc, nous considérons ici que le test exact ne doit vraiment être utilisé que lorsque min Eij<3.
Ce test s'appelle un test exact parce qu'il ne repose sur aucune hypothèse de distribution
asymptomatique (lois des grands nombres).
La p-value est calculée exactement.
La probabilité d'observer une telle table est (sans démonstration à partir du modèle binomial)
C !C !L !L !
P (T obs ) = 1 2 1 2
N!a!b!c!d!
On calcule ensuite la probabilité d'observer d'autres tables qui auraient les mêmes totaux de
lignes et de colonnes mais qui montrerait une association encore plus forte entre les deux critères.
On somme alors toutes les probabilités obtenues et c'est la p-value exacte de Fisher si
l'alternative est unilatérale (one tail). Si l'alternative est bilatérale, la p-value exacte de Fisher est
la somme des probabilités associées aux tables ayant P ≤ P(Tobs).
Exemple
T0 6* 20
4 2 6 min Eij = = 2.93
41
17 18 35 la correction de Yates n’est pas applicable
21 20 41
G
6 0
5 20 0.0121 0.0121 0.0207
Pour examiner la relation entre deux variables discrètes, nous avons vu qu'il faut utiliser des tests
du type chi-carré. Lorsque les deux variables sont continues, la relation la plus simple qu'on
puisse établir entre elles est une relation linéaire.
La corrélation répond à la question de l'existence d'une association linéaire entre deux variables
et la force de la relation est mesurée par le coefficient de corrélation.
Si on croit qu'une variable est la cause directe d'une autre, ou si la valeur d'une variable change,
alors l'autre variable change aussi comme une conséquence directe, ou bien, si le but principal de
l'analyse est de prédire une variable à partir de l'autre alors il faut investiguer la relation entre les
deux variables par la régression linéaire plutôt que par la corrélation simple. La méthode la plus
simple pour décrire une relation entre deux variables continues, c'est d'utiliser une droite; une
variable change proportionnellement à l'autre.
Par exemple, étudier la relation entre la pression artérielle et l'âge est un problème de corrélation.
Si on veut estimer l'importance de l'augmentation de pression artérielle avec l'âge, ça devient un
problème de régression. Etudier si la dose injectée d'une drogue influence la fréquence cardiaque
est un problème de corrélation mais quantifier l'augmentation de fréquence cardiaque pour une
dose injectée est un problème de régression.
Par la régression, on exprime la nature d'une relation et avec la corrélation, on exprime la force
de cette relation.
Le terme régression est dû à Galton (1900). Galton a beaucoup travaillé avec Mendel sur les lois
de l'hérédité. En étudiant la relation entre la taille du fils et celle du père, Galton avait remarqué
un phénomène qu'il a appelé "la régression dans l'hérédité" : la progéniture issue de parents petits
avait tendance à être plus grande et à se rapprocher de la taille moyenne de la population (I) et la
progéniture issue de parents grands avait tendance à être plus petite, se rapprochant ainsi aussi de
la taille moyenne de la population (II).
200
Y Taille du
fils en cm
(I)
100 200
moyenne
X Taille du père en cm UCL-MD Epidémiologie et biostatistique 142
Dans un problème de régression, il faut exprimer les variations d'une variable Y en fonction des
variations de l'autre variable X par une relation linéaire (le modèle) :
Y = α + ßX
ß>0 signifie que la relation est directe (X et Y vont dans le même sens, si X grandit
alors Y grandit).
ß<0 signifie que la relation est inverse (si X augmente alors Y diminue).
Pour résoudre le problème, on dispose d'un échantillon de N couples d'observations; chez les N
individus, on a mesuré simultanément X et Y. A partir de ces N observations, on va déterminer
une valeur a pour α et une valeur b pour ß. Comme a et b sont des estimations, a et b seront des
variables aléatoires; a et b varieront d'un échantillon à l'autre...
observation N° X Y
1 X1 Y1
2 X2 Y2
3 X3 Y3
N XN YN
Taille N
moyenne X Y
déviation- stand SX SY
Des chercheurs ont rapporté une relation entre les malformations du système nerveux central
(SNC) et la dureté de l'eau de distribution. Selon eux, le taux de malformations du SNC pourrait
être expliqué en partie par la dureté de l'eau. Pour étayer cette thèse, ils ont mesuré le taux de
malformations congénitales du SNC (en unité pour mille naissances) et la dureté de l'eau (en
unité ppm) dans 10 zones géographiques distinctes :
12
Taux de malformation du SNC(pour mille)
10
La méthode d'estimation par moindres carrés ordinaires ne repose sur aucune hypothèse
statistique sur l'échantillon !
C'est une solution obtenue par le calcul différentiel et l'algèbre. Elle peut donc s'appliquer à tous
les échantillons.
La "meilleure" droite Y = a + bX qui peut être adaptée aux N observations est celle qui va rendre
minimum les écarts entre les valeurs Yi observées et les valeurs Yˆi données par la droite, Yˆi = a
+ bXi
Y
Yi Yi observé
ei
Yˆi Yˆi = a + bX i Pour l'observation (Xi, Yi),
l'écart à la régression ou résidu
MODELE : Y=a+bX
de la régression est :
ei = Yi − Yˆi
Yˆj Yˆj = a + bX j
ej = Yi − ( a + bX i )
Yj Yj observé
Xi Xj X
Comme l'écart peut être positif (cas i) ou négatif (cas j), on ne peut pas additionner les écarts. On
pourrait additionner les écarts absolus ⏐ei⏐ mais les mathématiciens n'aiment pas les valeurs
absolues pour leurs mauvaises propriétés (elles ne se dérivent pas facilement). Le carré de l'écart
est plus facile à manipuler mathématiquement. La méthode des moindres carrés va donc
déterminer a et b tels que ∑ ei2 est minimale.
Procédé mathématique pour les matheux (dictionnaire : les amoureux des maths)
∑ e = ∑ (Y − Yˆ )
2
2
i i i
= ∑ (Y − a − bX )
2
i i
= ∑ Y + Na + b ∑ X − 2a ∑ Y − 2b∑ X Y + 2ab∑ X
i
2 2 2
i
2
i i i i
∂
(1)
∂a
∑ ei2 = 0
⇔ 2 Na − 2∑ Yi + 2b∑ X i = 0
⇔ a − Y + bX = 0
⇔ a = Y − bX
∑e 2
i =0
⇔ 2b∑ X i2 − 2∑ X iYi + 2a ∑ X i = 0
⇔ b∑ X i2 − ∑ X iYi + aNX = 0
(2) ⇔ b∑ X i2 − ∑ X iYi + NXY + bNX 2 = 0
⇔ b ( ∑ X i2 − NX 2 ) = ∑ X iYi − NXY
⇔b ( ∑ ( X − X ) ) = ∑ ( X − X )(Y − Y )
i
2
i i
⇔b=
∑ ( X − X )(Y − Y )
i i
∑( X − X )
2
i
∑( X − X )
2
i
Y = a + b( X )
Remarquons que si X = X alors = (Y − bX ) + bX
=Y
Donc, la droite passe toujours par ( X , Y )
b = -0.025
a = 10.15
* Cette droite exprime bien une relation inverse à savoir, si la dureté de l'eau augmente, le taux
de malformations congénitales diminue et cette diminution est de 0.025 pour mille par ppm.
* Si on change les unités pour exprimer X alors la valeur de pente va changer aussi (pas
l'ordonnée a) : si X est mesuré en 100 ppm alors b = 2.5 (X divisé par 100 alors b est multiplié
par 100)
et si on change les unités pour exprimer Y alors les valeurs de pente b et d'ordonnée a vont
changer aussi : si Y est mesuré en % alors a=1.015 et b=0.25.
X = 134 Y = 6.77 ⇓
−2038.8 SCR 13.522
S x = 94.8 S y = 2.69 b= = −0.025 S = N − 2 = 8
= 1.30
80840
CV 71% 40% S2
a = Y − bX = 10.15 1.69
Sb = = = 0.0046
∑( i )
2
Sx X − X 80840
r =b = −0.89
Sy
S a = Sb
∑ X i2
= 0.74
r = 0.79
2
N
Y = 10.15 − 0.025 X
10
8
totale Yi − Yˆi
Yi − Y
Déviation expliquée par la
Y = 6.77
régression
Yˆi − Y
6
2
0 100 X = 134 200 300
Yi : 11.2 8.1 7.2 9.3 9.4 5.0 5.8 4.8 3.3 3.6
r2 = 0.79 : 79% de la variation du taux de malformations du SNC est expliqué par les variations
de la dureté de l’eau
La covariance (ou variance commune) entre deux variables aléatoires X et Y est définie par
COV ( X , Y ) = E ( X − µ X ) ⋅ (Y − µY )
et, dans un échantillon aléatoire de taille N, elle est estimée par
COV ( X , Y ) =
∑ ( X i − X )(Yi − Y )
N −1
Donc Cov(X,X) = Var(X) : la covariance d'une variable avec elle- même, c'est sa variance.
Ce paramètre est intimement lié à la régression puisque, dans une régression linéaire simple, la
solution des moindres carrés ordinaires est en fait :
COV ( X , Y )
b= et a = Y − bX
Var ( X )
Ce chiffre, tout comme la variance, dépend des unités de mesure choisies pour X et Y et il est
donc difficilement interprétable. En définissant la corrélation entre deux variables, on va trouver
une expression de la relation entre X et Y qui ne dépendra plus des unités de mesure.
Le coefficient de corrélation linéaire simple entre deux variables X et Y est le paramètre défini
par :
COV ( X , Y )
ρ ( X ,Y ) =
σ XσY
Il est estimé dans un échantillon de taille N par (on note généralement r plutôt que r(X,Y)) :
1
∑ ( X i − X )(Yi − Y )
r = N −1
Sx ⋅ S y
Ce paramètre est donc de nouveau lié à la régression puisque la solution des MCO peut se
réécrire :
S
b = r⋅ Y
SX
et
a = Y − bX
94.8
Dans notre exemple, r = −0.025 ⋅ = −0.89 . Nous verrons quel est son sens dans la section
2.69
suivante.
La connaissance de X , S X , Y , SY et r détermine
entièrement la droite de régression, SANS
AUNCUNE HYPOTHESE si ce n’est toujours
l’indépendance des observations, comme dans
tout ce cours.
Yi
Non expliquée ou résiduelle
Yˆi
Totale
expliquée
Y
Y = a + bX
Xi X X
La valeur Yi observée participe pour ( Yi − Y ) à la variation de Y puisque c'est cet écart qui
apparaît dans l'expression de la variance.
En construisant une droite pour expliquer les variations de Y, on a estimé que la valeur qui devait
correspondre à Xi était Yˆi = a + bX i . Donc, étant donné la variable explicative = Xi, la variation
attendue devrait être ( Yˆ − Y ). Le reste, ( Y − Yˆ ) est la partie de la variation de Y qui n'est pas
i i i
(Y − Y ) = (Yˆ − Y ) + (Y − Yˆ )
i i i i
⇒ ∑ (Yi − Y ) = ∑ Yˆi − Y ( ) ( )
2 2
+ ∑ Yi − Yˆi
2
Les "matheux" pourront montrer sans problème, que le carré de la somme est bien ici la somme
des carrés.
∑ ( i ) = ∑ Yˆi − Y ( ) ( )
2 2
+ ∑ Yi − Yˆi
2
Y − Y
Somme des Carrés Somme des Carrés Somme des Carrés
Totale Expliquée Résiduelle
SCT SCE SCR
* Le degré de liberté (ou nombre de termes indépendants) de SCT, c'est (N-1) puisqu'il y a N
observations et qu'en calculant X , on a introduit une liaison ∑ (Yi − Y ) = 0
* Le degré de liberté de SCE, c'est 1 puisque 2 points déterminent entièrement une droite et
qu'elle passe par ( X , Y ).
* Le degré de liberté de SCR, c'est (N-2) puisqu'il y a N observations et qu'en calculant Yˆ , on a i
∑ ( a + bX − Y )
2
=
i
( N − 1) ⋅ SY2
Regardons ce rapport de plus près :
∑ ( Y − bX + bX )
2
−Y
=
i
( N − 1) ⋅ SY2
b2 ∑ ( X i − X )
2
=
( N − 1) ⋅ SY2
b 2 ( N − 1) S X2 ⎛ S X ⎞
2
= = = r2
( N − 1) ⋅ SY2 ⎜⎝ SY ⎟⎠
b
Dans notre exemple, r=-0.89 donc r²=0.79 soit 79% des variations du taux de malformations
congénitales du SNC est expliquée par la dureté de l'eau. Ca ne signifie pas un lien causal (biais
de confusion)!
Le tableau suivant donne les nuages de points qui correspondent aux différentes valeurs
possibles de r.
Si Y est une fonction quadratique de X (par exemple, Y=2X²) alors le coefficient de corrélation
linéaire r sera nul !
SX
r =b b<r b=r
SY
S X > SY S X = SY S X > SY
r=1
Relation
linéaire
directe
r proche
Pentes
positives de 1
b>0
r proche
Pas de
relation
de 0
linéaire
Relation
linéaire
inverse r proche de
Pentes -1
négatives
b<0
r = -1
UCL-MD Epidémiologie et biostatistique 153
L'analyse graphique des points est fondamentale!
Exemple I Exemple II
15 15
10 10
5 5
0 0
Y
0 10 20 0 10 20
X X
10 10
5 5
Y
0
Y
0 10 20 0 10 20
X X
Les graphiques correspondants sont très différents; seul le premier est valide. Dans le second, la
relation est quadratique. Dans le troisième, une observation singulière fausse l'estimation de la
droite et dans le dernier, c'est une observation singulière qui induit la droite.
Après avoir spécifié la relation linéaire (régression) et mesuré la force de cette relation
(corrélation), il faut se poser la question de la signification statistique de ce qui a été estimé, α, ß
et ρ . La signification clinique sera laissée à l'utilisateur.
Avant d'envisager des tests d'hypothèse sur a, b et r, il faut faire une analyse graphique des
résidus ei. L'allure de ce graphique peut être déduite directement du graphique point.
(1) des résidus ne sont pas indépendants si il y a une relation entre eux.
Exemples :
Anscombe IV Ascombe III
2,0 3
Regression Standardized Residual
Regression Standardized Residual
ei = Yi − Yˆi 0,0 1
-2,0 -1
-5,0 0,0 5,0 -2,0 0,0 2,0
0,0
0
-2,0
-2,0 0,0 2,0
(2) des résidus ne sont pas de variance constante si on observe une hétérogénéité
dans le graphique du type :
Variance Variance
grande petite
Combinaison
“entonnoir”
d’entonnoirs
SCR
Se = où SCR est la somme des carrés résiduels
N −2
(standard error of estimate)
et on peut faire des tests d'hypothèse sur les estimateurs a, b et r.
H0 : ß=0
H1 : ß≠0
b − ( β )H
on va utiliser la statistique de test t obs = qui a une distribution de probabilité du type
0
S (b )
Student avec N-2 degrés de liberté. On trouve p-value dans la table de Student T4 avec la valeur
absolue de tobs.
H0 : ß = 4
H1 : ß > 4
b−4
On va utiliser la statistique t obs = pour conclure.
S (b)
(2) L'intervalle de confiance à 95% sur la pente ou l'ensemble des valeurs de pente non
rejetables à 95% est :
IC95% ( β ) = ⎡⎣b − t Ntable
−2 ⋅ S ( b ) ; b + tN −2 ⋅ S ( b )⎦
table
⎤
Il faut maintenir les mêmes hypothèses que pour la pente (résidus indépendants, de variance
constante et gaussiens si N<30) quand on doit réaliser un test d'hypothèse sur l'ordonnée à
l'origine α.
S ( a ) = S (b) ⋅
∑X i
2
a − (α ) H
on va utiliser la statistique t obs = qui a une distribution du type Student à N-2 degrés
0
S (a)
de liberté et on trouve p-value dans la table T4 aussi.
IC95% (α ) = ⎡⎣ a − t Ntable
−2 ⋅ S ( a ) ; a + tN −2 ⋅ S ( a )⎦
table
⎤
Ce test n'est pas un test d'hypothèse au sens général sur la force de liaison (H0 : ρ = ρ0) parce
que réaliser ce test requiert des approches plus élaborées (Fisher, 1921 - Hotelling, 1953).
Nous ne donnerons dès lors pas non plus un IC à 95% pour ρ. Nous n'avons pas non plus donné
l'intervalle de confiance à 95% sur la droite de régression elle-même (ne pas le confondre avec
celui de la pente) parce qu'il est une fonction de X.
Ce test requiert aussi les hypothèses maintenues sur les résidus : les résidus sont indépendants, de
variance constante, et, si N<30, il faut aussi que les résidus soient gaussiens.
On peut résoudre ce test en utilisant la statistique r qui est le coefficient calculé et, avec sa valeur
absolue, on trouve directement p-value dans la table T9 avec N-2 degrés de liberté.
On rencontre parfois une statistique t pour réaliser ce test ou une statistique F. La statistique de
test F à 1 et N-2 degrés de liberté n'est autre que la statistique de variance ratio de l'analyse de
variance en régression :
SCE
1 carré moyen de la variance Expliquée
F obs =
SCR carré moyen de la variance Résiduelle
( N − 2)
SCE
⋅ ( N − 2) r 2 N − 2
= SCT =
( )
SCR 1− r 2
SCT
La statistique t à N-2 degrés de liberté n'est autre que la racine de Fobs. Comme la table T9 a été
construite à partir de la distribution F (ou t), ces trois statistiques r, Fobs et t vont donner
exactement les mêmes p-value.
Remarques
SX
(1) Puisque r = b ⋅
, réaliser un test de dépendance linéaire à partir de r ou bien tester si la
SY
pente est nulle revient au même (F=t2).
90
80
Cette figure montre la relation entre le
contenu en eau (%) et le temps de
relaxation du cortex.
70
Les auteurs décrivent un groupe de 19
patients et 30 points apparaissent sur le
graphique. Donc, certains patients ont été
% d'eau
60
mesurés au moins 2 fois !
200 300 400 500 600 700 800
Temps de relaxation
La linéarité et l'indépendance des résidus sont des hypothèses qui, si elles sont violées, faussent
tous les résultats.
(3) Lorsqu'il y a un manque sérieux de linéarité, il faut trouver une transformation de Y qui
linéarise.
type quadratique
ou
Transformer Y* = √X
Modèle Y =α + β X +ε
Estimation Y = a + bX
SY unité de Y
Pente b=r
SX unité de X
Ordonnée à l’origine a = Y − bX unité de Y
N −2
e Y
ou variance résiduelle
⇓
TEST SUR FORMULATIO ESTIMATION DEVIATION STATISTIQU LOI DE
N E DE TEST PROBA ⇒
STATISTIQUE P-VALUE
Corrélation H0 : ρ = 0 r r 2 ( N − 2)
H1 : ρ ≠ 0 ou
1− r2 F1 et N − 2
r2
Pente H 0 : β = b0 Se2 b − b0
S (b) =
H1 : β ≠ b0 b ( N − 1) S X2 S (b) tN −2
Intercept H 0 : α = a0 N−1 2 2 a − a0
S( a) =S( b) ⋅ SX +X
H1 : α ≠ a0 a N S (a) tN −2
Dans notre exemple, les rangs figurent entre parenthèses à côté des observations (taux de
malformations du SNC et dureté de l'eau)
RX = 5.5 et RY = 5.5
rs =
∑(R Xi − RX )( RYi − RY ) = −0.87
(∑ ( R ) ) ⋅(∑ ( R ))
2 2
Xi − RX Yi − RY
Pour tester l'hypothèse d'une dépendance linéaire, on utilise la table T10 pour trouver la p-value
correspondante à⎮rs⎮selon la taille N de l'échantillon.
Si, dans un plus grand échantillon (N>30), on a calculé rs, on peut aussi réaliser le test sur la
dépendance linéaire en utilisant la statistique Z = rs N − 1 et en cherchant p-value dans la table
de la gaussienne, T2.
L'analyse de variance (ANalysis Of VAriance) est un terme statistique qui désigne l'ensemble
des techniques -et il y en a beaucoup- qui permettent de comparer les moyennes de plusieurs
groupes. S’il n'y a que deux groupes, faire une ANOVA ou faire un test de t, c'est faire
exactement la même chose. Nous n'envisagerons pas les cas où les groupes sont dépendants
(généralisation du test t sur groupes appariés). Nous n'envisagerons pas non plus les cas où la
désignation des groupes est basée sur plusieurs critères comme par exemple 4 groupes où il
s'agirait des hommes jeunes, hommes âgés, femmes jeunes, femmes âgées : deux critères (sexe et
âge) interviennent dans la définition des groupes.
De plus, nous n'envisagerons que le cas où les variances des g groupes sont supposées égales.
Beaucoup d'études ont montré que l'hypothèse que les g échantillons sont tous gaussiens peut
être relaxée.
max ( S1 , S2 , S3 ,..., S g )
En pratique, cette hypothèse est acceptable si <2
min ( S1 , S 2 , S3 ,..., S g )
la plus grande déviation standard divisée par la plus petite déviation standard reste inférieure à 2.
Exemple
Une usine doit procéder au remplacement de ses machines. Quatre modèles (A, B, C, D) sont
disponibles sur le marché. Avant de procéder au remplacement général, on décide de tester ces
quatre modèles du point de vue du stress qu'il impose aux ouvriers. Une machine de chaque type
est introduite dans l'usine. 20 ouvriers sont pris au hasard et divisés aléatoirement en 4 groupes
de 5 ouvriers. Les ouvriers du 1er groupe vont travailler sur le modèle A, les ouvriers du 2e groupe
vont travailler sur le modèle B, les ouvriers du 3e groupe vont travailler sur le modèle C et les
ouvriers du 4e groupe vont travailler sur le modèle D. Après 6h de travail, on mesure chez les 20
ouvriers la résistance physique en kilocycles.
Rappel
n X +n X +n X +n X
X= 1 1 2 2 3 3 4 4
n1 + n2 + n3 + n4
La déviation standard commune de 2 groupes se généralise aussi :
s=
( n1 − 1) s12 + ( n2 − 1) s22 + ( n3 − 1) s32 + ( n4 − 1) s42
n1 + n2 + n3 + n4 − 4
N = n1 + n2 + n3 + n4
Pour résoudre un tel test d'hypothèse, on se base sur une décomposition de la variance totale (ou
de la somme des carrés des écarts)
Soit X ij i = 1,..., n j
la ie observation dans le je groupe.
j = 1,..., g
Sa participation à la variation totale de X est ( X ij − X ) .
Au sein de son groupe j, elle participe à la variation de X pour ( X ij − X j ) .
On a l'égalité suivante :
nj nj nj
∑ ( X ij − X ) = ∑ ∑ ( X ij − X j ) + ∑ ∑( X j − X )
g g g
∑
2 2 2
j =1 i =1 j =1 i =1 j =1 i =1
SCR = ∑ ⎜ ∑ ( X ij − X j ) ⎟ SCR = ∑ ( n j − 1) ⋅ S 2j
g
j =1 ⎜ i =1 ⎟
⎝ ⎠ j =1
g ⎛ nj ⎞
2
SCF = ∑ n j ( X j − X )
g
2
SCF = ∑ ⎜ ∑ ( X j − X ) ⎟
j =1 ⎜ i =1 ⎟ j =1
⎝ ⎠
= 6322.0
et
SCF = 5 ( 221.8 − 221.8 ) + 5 ( 235.0 − 221.8 ) + 5 ( 218.0 − 221.8 ) + 5 ( 212.4 − 221.8 )
2 2 2 2
= 1385.2
Le degré de liberté de SCT, c'est (N-1) puisqu'il y a au total N observations et, en calculant X ,
on a introduit une liaison.
Le degré de liberté de SCR, c'est (N-g) puisqu'en calculant X 1 , X 2 ,..., X g on a introduit g
liaisons.
Le degré de liberté de SCF, c'est (g-1) puisque il y a g termes (les g moyennes) mais en calculant
X qui intervient aussi, on a introduit une liaison sur ces g termes.
En divisant une somme de carrés par son degré de liberté, on trouve un carré moyen (l'écart
quadratique moyen par analogie avec la définition de la variance).
Habituellement, on rapporte toutes ces informations dans une table, la table de l'anova.
Remarquons que CMR = S² c'est l'estimation de la variance commune dans les groupes.
CMR =
SCR 6322.0
=
N − g 20 − 4
= 395.1 ( CMR = 20.14 )
461.7
VR = = 1.17
395.1
La somme des carrés factorielle, SCF, représente la partie de la variation de X qui est due au
regroupement, c'est la variation entre les groupes, inter-groupes.
La somme des carrés résiduelle, SCR, représente la partie de la variation de X sans explication
(aléa); c'est la variation dans les groupes, intra-groupes.
Pour résoudre le test d'hypothèse H0 sur l'égalité des g moyennes, on va utiliser la statistique de
test VR (appelée F dans la littérature)
CMF
VR =
CMR
Ce n'est valide que sous l'hypothèse faite sur les variances !
C'est une statistique qui, sous H0, a une distribution de probabilité du type Fisher- Snedecor
avec (g-1)-numérateur- et (N-g)-dénominateur- degrés de liberté.
On va donc trouver p-value dans la table T5 pour conclure.
UCL-MD Epidémiologie et biostatistique 167
Dans notre exemple, g=4 et N=20, VR=1.17 et max Sj/min Sj = 26.43/14.38 = 1.84 < 2.
Nous admettons l'égalité des σ j . Les degrés de liberté sont (4-1) = 3 et (20-4) = 16.
Dans la table T5, 2.46 correspond à p=0.10. Donc ici, on a p-value > 0.10. Le résultat est
non significatif au seuil de 5%. On ne peut pas rejeter l'hypothèse que les 4 machines sont
comparables : les résultats ne permettent pas de conclure qu'une machine impose un stress
différent des autres machines.
Remarquons que dans le cas où le résultat est significatif, ce test ne permet pas de dire où est la
différence. Il faut comparer les groupes 2 à 2 pour trouver la source de la différence. Mais quand
le résultat est non significatif, il ne faut bien sûr pas faire ces comparaisons multiples.
Lorsque les variances des groupes sont différentes, il faut aussi essayer de transformer la variable
X.
Quand la variable X est un taux (taux d'hémoglobine dans le sang par exemple), la
transformation X * = arcsin X stabilise souvent les variances.
10 A
200 210 220 230 240 250
Moyenne
Si on effectue une transformation lnX sur les données, on obtient la table suivante:
X = ln (résistance physique)
Machine A Machine B Machine C Machine D Total
5.33 5.30 5.31 5.30
5.34 5.38 5.38 5.31
5.37 5.47 5.43 5.35
5.44 5.55 5.49 5.37
5.52 5.57 5.29 5.46
Taille n1 = 5 n2 = 5 n3 = 5 n4 = 5 N=20
Le rapport max Sj / min Sj = 0.114/0.066 = 1.73 est (légèrement) plus faible que celui des
données initiales : on a un peu plus stabilisé les variances.
La statistique de test VR est un peu plus faible (conclusions inchangées) mais ce n'est pas
toujours le cas.
Lorsque le résultat de l'analyse de variance est significatif, il faut chercher quel est ou quels sont
le(s) groupe(s) qui diffère(nt). Lorsqu'on a g groupes à comparer 2 à 2, le nombre de
g ⋅ ( g − 1)
comparaisons possibles est .
2
Ainsi, pour 4 groupes, il y a 6 comparaisons possibles, A vs B, A vs C, A vs D, B vs C, B vs D,
C vs D. Pour chaque comparaison, il y a un risque d'erreur α * . Si on choisit de travailler au seuil
g ⋅ ( g − 1)
global de 5%=α, il faut réduire α * pour que la somme des risques reste inférieure à
2
5%.
Plusieurs méthodes ont été proposées pour réduire α * . Nous en présenterons ici deux :celle de
Bonferroni parce qu'on la rencontre souvent dans la littérature biomédicale et celle de Newman-
Keuls parce qu'elle est plus puissante que celle de Bonferroni et qu'elle est simple.
Cette méthode concerne les contrastes sur des paires de moyennes (2 à 2) : on contraste µi avec
µ j dans le test d'hypothèse :
H 0 : µi = µ j le groupe i a la meme
ˆ moyenne que le groupe j
H1 : µi ≠ µ j
qui a une distribution du type Student à ni + n j − g degrés de liberté. Dans la table T4, on trouve
la p* − value avec t Bobs . La correction de Bonferroni consiste à considérer que l'erreur globale a
g ⋅ ( g − 1) *
un risque estimé à p − value = ⋅ p − value
2
Ce qui veut dire que pour obtenir un seuil global de 5%, on ne peut déclarer significative qu'une
p* − value inférieure à 0.05/(g.(g-1)/2). Par exemple, si on a 4 groupes, g(g-1)/2 = 6 donc on
doit travailler avec un risque de 0.05/6 = 0.00833 dans les comparaisons multiples.
La réduction du seuil explique le manque de puissance de cette méthode (il est difficile d'obtenir
un résultat significatif).
Remarquons que la statistique t Bobs ressemble très fort à celle utilisée pour comparer deux
groupes indépendants lorsque les échantillons sont gaussiens et de variances égales.
La différence entre ces deux statistiques vient de l'estimation de la variance : CMR dans la
première donc (N-g) au dénominateur et S² dans la seconde, donc (n1+n2-2) = (N-2) au
dénominateur. La première sera donc plus grande.
Par contre, si on s'intéresse d'emblée à l'écart entre les deux traitements aussi, la méthode de
Newman-Keuls doit être appliquée.
où s = rang de X j − rang de X i + 1
obs
t NK a une distribution du type Student avec N-g degrés de liberté. On trouve p-value dans la
table T4 et on peut conclure.
Des auteurs ont étudié l'effet de 4 anesthésiants sur le niveau des phosphates inorganiques dans le
sérum. La table suivante est rapportée dans l'article :
Les auteurs ont réalisé une analyse de variance à un critère sur ces données. Ils ont obtenu un
résultat significatif (F=7.37 , p<0.01). En comparant les moyennes 2 à 2, ils ont conclu à un
niveau de phosphates inorganiques significativement supérieur avec l'éther ou le cyclopropane
qu'avec le thiopental ou le spinal.
Dans cette étude, l'anova réalisée n'était pas valide puisque max Sj / min Sj = 1.099 / 0.450 =
2.44 ; On ne pouvait pas supposer les variances égales.
1,2
1,0
,4
,2
nous n'effectuerons pas la transformation.
0,0
3,0 4,0 5,0
Moyenne
N = 5 + 7 + 9 + 8 = 29 et g = 4
5 ( 4.64 ) + 7 ( 4.63) + 9 ( 3.53) + 8 ( 3.08 )
X= = 3.86
29
SCF = 5 ( 4.64 − 3.86 ) + 7 ( 4.63 − 3.86 ) + 9 ( 3.53 − 3.86 ) + 8 ( 3.08 − 3.86 ) = 13.04
2 2 2 2
13.04
CMF = = 4.347
4 −1
SCR = ( 5 − 1)(1.099 ) + ( 7 − 1)( 0.86 ) + ( 9 − 1)( 0.45 ) + ( 8 − 1)( 0.74 ) = 14.72
2 2 2 2
14.72
CMR = = 0.589
25
S = CMR = 0.767
CMF 4.347
VR = = = 7.38
CMR 0.589
Table de l'anova
Si les auteurs avaient calculé la déviation standard dans le groupe total des 29 patients, ils
auraient trouvé √0,99 = 1.00 soit une valeur supérieure à la déviation standard commune aux 4
groupes, S = √CMR = 0.767.
Au centième près, on retrouve (VR = 7.38) la valeur F publiée dans l'article (F=7.37). Les degrés
de liberté sont g-1=3 et N-g=29-4=25. Dans la table T5, on trouve pour p= 0.01 la valeur 4.68 et
pour p= 0.001 la valeur 7.45. Comme VR est compris entre ces deux valeurs, on trouve p-value <
0.01 comme mentionné dans l'article.
H 0 : µ Ether = µThiopental
H1 : µ Ether ≠ µThiopental
4.64 − 3.53
t Bobs = = 2.593
⎛1 1⎞
0.589 ⎜ + ⎟
⎝5 9⎠
Le degré de liberté est 5+9-2 = 12. Dans la table T4, on trouve 0.03 > p*-value > 0.02. Comme il
y a 6 comparaisons possibles, l'ajustement de Bonferroni consiste à considérer que
Au seuil de 5%, on ne peut pas considérer, avec la méthode de Bonferroni, que le niveau des
phosphates inorganiques est significativement plus élevé avec l'anesthésiant "Ether" qu'avec
l'anesthésiant "Thiopental".
Il faut calculer s :
donc s = ⎮4-2⎮+1 = 3
Le degré de liberté est 29-4 = 25. Dans la table T4, on trouve p-value comprise entre 0.10 et 0.20
soit p-value > 0.10; dans ce cas-ci, les deux méthodes concluent à un résultat non significatif.
4.64 − 3.53
t obs =
⎛1 1⎞
S*2 ⎜ + ⎟
⎝5 9⎠
( 5 − 1)(1.099 ) + ( 9 − 1)( 0.450 )
2 2
avec S 2
* = = 0.538
5+9−2
soit tobs = 2.174 avec un degré de liberté égal à 12, on trouve p-value<0.02 dans la table
T4 et on conclut erronément à une différence significative.
Si on compare le groupe Ether au groupe Spinal, on va trouver t Bobs = 3.566, dl=11 soit
0.001<p*-value<0.01 donc 0.006<p-value<0.06 : on ne sait pas conclure au seuil de 5% avec
la correction de Bonferroni. Avec la méthode de Newman-Keuls, on va trouver s=4 donc
obs
t NK = 1.78, dl=25 soit p-value>0.10
C'est la seule différence qui est significative et qui explique le résultat de l'anova. Les
conclusions des auteurs étaient donc sérieusement à mettre en question !!
Importance de la fiabilité
La mesure d’une variable est imprécise lorsque, quand elle est à nouveau effectuée dans les
mêmes conditions, on peut obtenir une valeur différente de la première. La mesure d’un
critère de jugement strictement objectif comme le décès par exemple, n’est pas une mesure
imprécise ; c’est une mesure dite fiable (reliable).
Dans une étude bien menée, exiger des mesures fiables est aussi important que demander la
randomisation, le caractère double aveugle, le contrôle sur les variables pronostiques, etc…
Une imprécision des mesures a des conséquences désastreuses qu’aucun design ne pourra
contourner ; les tailles d’échantillons seront plus grandes, des estimations seront biaisées
voire même les échantillons le seront. Evaluer la fiabilité de la mesure du critère de jugement
en particulier mais des autres mesures aussi est donc capital. Nous verrons une mesure de
fiabilité pour une variable continue. Remarquons que pour une variable binaire codée 0-1, la
moyenne arithmétique représente bien la proportion de 1 observés ; approcher les variables
binaires codées 0-1 par les techniques développées pour les variables continues n’est pas
dénué de sens.
0,8450 0,0078
Std. Error
Mean N Std. Deviation Mean
Pair MES1 ,857920 10 1,3566991 ,4290259
1 MES2 ,832070 10 1,2987987 ,4107162
Paired Differences
95% Confidence
Interval of the
Std. Error Difference
Mean Std. Deviation Mean Lower Upper t df Sig. (2-tailed)
Pair 1 MES1 - MES2 ,025850 ,1289902 ,0407903 -,066424 ,118124 ,634 9 ,542
Oneway
ANOVA
MES1
Sum of
Squares df Mean Square F Sig.
Between Groups 31,673 9 3,519 449,942 ,000
Within Groups ,078 10 ,008
Total 31,751 19
⎧ ⎫ 10 k
⎪ 2⎪
∑ ⎨ ∑ ( ) ⎬ = ∑∑ ( X ij − X ) = 31.751
i
2
TSS = somme des carrés totale = mesures − moy totale
tous les ⎪ mesure du ⎪ i =1 j =1
patients ⎩ie patient ⎭
{ }
10
BSS = somme des carrés des écarts entre les patients = ∑ ( X i − X ) ∗ ki = 31.673
2
i=1
alors que la variabilité dans les sujets est beaucoup plus faible (colonne var(i)), indiquant une très
bonne reproductibilité.
10
WSS = somme des carrés des écarts dans les patients= ∑ ( ki − 1) ∗ Si2 = 0.078
i=1 variance
dans le sujet (i)
Si il n’y a pas de structure sur la répétition des mesures, l’analyse de reproductibilité est basée
sur une ANOVA à un critère aléatoire.
i ki Xi Si2
N kN XN S N2
Total K X S2
∑ ⎨∑ ( ij ) ⎬ ∑∑ ( ij i ) ∑∑ ( X i − X )
2 2
X − X = X − X +
i =1 ⎩ j =1 ⎭ i =1 j =1 i =1 j =1
( K − 1) S 2 = ∑ {( ki − 1) Si2 } + ∑
i i
{k ( X − X ) }
i i
2
Le nombre de termes indépendants (dl, degrés de liberté) pour la somme des carrés inter-sujets
(BSS, between sum of squares) est N-1 puisque ∑ ki X i = KX et le nombre de termes
indépendants pour la somme des carrés intra-sujets (WSS, within sum of squares) est K-N
puisqu’on a N liaisons.
intra-sujets ∑ {( k
i
i − 1) Si2 } K−N WMS
Total ( K − 1) S 2 K −1 S2
Le rapport des variations VR est distribué selon une loi F à N-1 et K-N degrés de liberté.
Dans le modèle linéaire où T est la variable à mesurer et X est la mesure de la variable avec
une erreur de mesure e chez un sujet,
X=T+e
On suppose que T a une moyenne µ et une variance σ T2 et, chez un même sujet, on suppose
que l’erreur e est indépendante de T, de moyenne nulle et de variance σ e2 . Donc σ X2 = σ T2 + σ e2 ;
la variabilité dans une série de mesures a deux composantes : l’une fixe (steady-state) et
σ T2
l’autre due à l’erreur de mesure. Le rapport va donc exprimer l’amplitude relative des
σ X2
deux composantes : le coefficient de corrélation intrasujets ou la fiabilité de X, est définie par
σ T2
R= 2 .
σ T + σ e2
Dans l’ANOVA,
K
k =
N
∑(k − k ) ⎫⎪
2
sk2
= ⎬ → k0 = k −
2 i
s
N −1 ⎪
k
K
⎭
Dans le cas d’un nombre constant de mesures pour tous les sujets, k0 est exactement ce
nombre.
WMS est un estimateur sans biais de σ T2 .
VR − 1
Donc, Rˆ = est une estimation de la fiabilité de X. Elle est asymptotiquement sans
VR + k0 − 1
biais pour R.
Se = 0.00782 = 0.08843
et la fiabilité des mesures est estimée à 0.9956, presque parfaite. L’erreur standard de mesure Se=
0.088.
2Se
Si un sujet est mesuré m fois, X ± sera l’intervalle de confiance à 95% pour T.
m
Soit F, le percentile (100 − α % ) de la distribution de Fisher à N-1 et K-N degrés de liberté. Par
VR − F
l’ANOVA, on peut montrer que R ≥
VR + ( k0 − 1) F
Représentation graphique
mes1-mes2
0.03
0 Moy (i)
!! L’approche par la régression n’est pas correcte quand il n’y a pas de structure de
répétition.
L’intérêt n’est pas de tester si R = 0 mais plutôt d’avoir une limite inférieure sur la fiabilité réelle
présente dans les données. Ici, elle est élevée mais ce n’est pas toujours le cas.
Ce qui est vrai pour la précision est aussi vrai pour la fiabilité : la moyenne de plusieurs
mesures est plus fiable qu’une seule mesure.
Supposons qu’on réplique m fois la mesure de X et R ≠ 0 est la fiabilité de X pour mesurer T
(i.e. W = T + e)
alors
EX = µ
σ e2
σ 2 ( X ) = σ T2 +
m
mσ 2
⇒ Rm = T
mσ T2 + σ e2
mR
donc Rm, la fiabilité de la moyenne de m réplications : Rm =
1 + ( m − 1) R
dRm
Rm augmente bien avec R >0
dR
Pour évaluer la fiabilité d’une mesure, on peut répliquer k fois la mesure chez N sujets (design le
plus simple). Dans une échelle de gradation par exemple, l’examinateur peut (en aveugle et
indépendamment) évaluer plusieurs fois l’échelle.
Mais dans cet exemple, pour assurer l’indépendance entre les évaluations, il vaut parfois mieux
recourir à un design plus compliqué : k examinateurs évalueraient chacun individuellement
l’échelle de chaque patient. L’examinateur constitue alors un critère supplémentaire dans
l’ANOVA qui est dit fixe si les k examinateurs seront aussi ceux qui participeront à l’étude.
Sinon, le critère examinateur est aléatoire si on peut considérer que les k examinateurs
constituent un échantillon de la population des examinateurs possibles.
La table d’ANOVA sera la même dans les deux cas mais l’évaluation de la fiabilité sera
légèrement différente.
Examinateur
Patient 1 2 3 … k Moyenne
1 X 11 … … … X 1k X 1.
2
X ij X i.
N
Moyenne X .1 … X. j … … X
(
X ij − X = ( X i. − X ) + ( X . j − X ) + X ij − ( X i. + X . j − X ) )
Total Patient Examinateur Résiduelle
SST = ∑ i ∑ j ( X ij X ) Nk − 1
2
Totale
Exemple :
Pour étudier la fiabilité de la mesure du score dentaire (nombre de défauts sur la surface des
dents d’un patient), 10 patients ont été évalués par 4 dentistes différents :
Examinateur
Patient 1 2 3 4 Moyenne
1 8 7 11 7 8.25
2 13 11 15 13 13.00
3 0 0 2 1 0.75
4 3 6 9 6 6.00
5 13 13 17 10 13.25
6 19 23 27 18 21.75
7 0 0 1 0 0.25
8 2 0 4 5 2.75
9 18 20 22 16 19.00
10 5 3 8 3 4.75
Moyenne 8.10 8.30 11.60 7.90 8.975
La table de l’ANOVA de ces données montre que les quatre dentistes n’évaluent pas les patients
de la même façon (p<0.001) :
dans le modèle linéaire ou Ti est la variable à mesurer chez le patient numéro i, Xij est la
mesure du patient i par l’examinateur j : Xij = Ti + rj + eij
Si l’effet examinateur est non significatif, ce qui signifie que les k examinateurs ne
diffèrent pas en moyenne dans leurs mesures (pas de biais) alors,
(
var X = E var X rj + var E X rj ) ( )
= E (σ T2 + σ e2 ) + var ( µ + rj )
= σ +σ 2 2
+
(∑ r ) 2
j
T e
k
σ T2
La fiabilité de X est définie par R = .
1
σ + σ + ∑ rj2
2
T
2
e
k
Dans l’ANOVA,
E ( RMS ) = σ e2
E ( PMS ) = σ e2 + kσ T2
N
E ( EMS ) = σ e2 +
k −1
∑ rj2
donc
( PMS − RMS ) est un estimateur sans biais pour σ 2 et
( EMS − RMS ) ∗ ( k − 1) est sans
k
T
( Nk )
biais pour
(∑ r ) . 2
j
N (VRP − 1)
Rˆ =
N (VRP ) + ( k − 1) VRE + ( N − 1)( k − 1)
Il n’y a pas de méthode simple, exacte ou approchée, pour calculer un intervalle de confiance
sur cette estimation. Dans l’exemple, si le critère examinateur est fixe,
10 ( 81.73 − 1)
Rˆ = = 0.92 soit une fiabilité élevée.
10 ( 81.73) + 3 (11.18 ) + ( 9 )( 3)
Représentation graphique
La corrélation peut avoir un sens dans le cas où il y une structure de répétition ; deux
représentations sont utilisées en général.