Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

STAT1001-1 (AF Donneau 2021-2022) - Cours 4-8

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 93

Biostatistique I - STAT1001-1

Cours 4 - Intervalle de confiance

Anne-Françoise DONNEAU, PhD


afdonneau@uliege.be

Professeur
Université de Liège

Année académique 2021-2022

1 / 33

Agenda - Cours théoriques

Date Heure Matière


24/09 10h45-12h45 Introduction
01/10 10h45-12h45 Paramètres de position et de dispersion
08/10 10h15-12h15 Association
15/10 10h15-12h15 Intervalle de confiance
22/10 10h15-12h15 Test d’hypothèses - corrélation - normalité
29/10 10h15-12h15 Test d’hypothèses - table 2 × 2
05/11 10h15-12h15 Test d’hypothèses - variable quantitative (I)
12/11 10h15-12h15 Test d’hypothèses - variable quantitative (II)

2 / 33
Quizz Cours 3 -
Voici la matrice corrélation entre 6 variables calculée à partir des données de
16 athlètes.
Age Poids Taille BMI Fréq. Glucose
cardiaque
Age 1.00
Poids 0.54 1.00
Taille −0.12 0.16 1.00
BMI 0.53 0.74 −0.54 1.00
Fréq. cardiaque −0.87 −0.28 0.14 −0.33 1.00
Glucose −0.44 0.0033 −0.11 0.10 0.54 1.00

Quel couple de variables présente la plus forte corrélation négative ?


a (Glucose, Poids)
b (BMI, Poids)
c (Age, Fréquence cardiaque)
d (Poids, Taille)
3 / 33

Quizz Cours 3 -

Sur base des résultats repris ci-dessous, que peut-on déduire concernant les
distributions des variables Age et tour de taille (TTAILLE) ?
Pearson = si variables suivent
une distribution normale

a Les distributions des variables Age et TTAILLE suivent une loi Normale.
b La variable Age et/ou la variable TTAILLE ne suit (suivent) pas une
distribution Normale.
c On ne sait rien déduire sur les distributions de ces variables.
d La variable TTAILLE est qualitative ordinale.

4 / 33
Quizz Cours 3 -

A partir de cette table, quelle variable explique le moins la variabilité de la


concentration en 25-hydroxyvitamin D ?
a Season
b Vitamin D supplement
c Travels to southern latitudes
d Sun preference

5 / 33

Quizz Cours 3 -
Variable fixée, pas observée simultanément.
On ne peut donc pas utiliser un coefficient de corrélation.
On doit appliquer une régression.

Un chercheur fixe la température de 10 expériences réalisées en laboratoire. Il


trouve un coefficient de corrélation égal à 0.51 entre la température et la
densité du liquide obtenu. Cela signifie que :

a 26% de la variabilité de la densité du liquide est expliqué par la


température
b Le nombre d’expériences n’est pas assez grand pour appliquer une
analyse statistique
c Le chercheur ne peut pas calculer un coefficient de corrélation sur ces
données
d 51% de la variabilité de la densité du liquide est expliqué par la
température

6 / 33
Quizz Cours 3 -

Quelle figure représente la droite de régression de Y sur X dont le coefficient


de détermination vaut r 2 = 0.15 ? A

7 / 33

Agenda

Date Matière
24/09 Introduction
01/10 Paramètres de position et de dispersion
08/10 Association
15/10 Intervalle de confiance
01/10 Paramètres de position et de dispersion
22/10 Test d’hypothèses - corrélation - normalité
29/10 Test d’hypothèses - table 2 × 2
05/11 Test d’hypothèses - variable quantitative (I)
12/11 Test d’hypothèses - variable quantitative (II)

8 / 33
Intervalle de confiance - Objectifs

A la fin de cette leçon, vous devrez être capables de :

• comprendre le principe de la statistique inférentielle

• comprendre et savoir calculer l’erreur-type d’un paramètre

• calculer et interpréter l’intervalle de confiance d’un paramètre

• interpréter un intervalle de confiance présenté dans un article scientifique

9 / 33

Statistique inférentielle

La statistique inférentielle permet de tirer des conclusions sur l’ensemble de


la population d’où les données ont été extraites.
10 / 33
Statistique inférentielle

L’objectif de la statistique inférentielle est :


• d’étendre (inférer) les observations réalisées sur un échantillon à la
population dont il est extrait
• de valider ou d’infirmer des hypothèses émises a priori sur la population
d’étude
Quels sont les outils à notre disposition ?
• Intervalle de confiance
• Tests d’hypothèses

11 / 33

Paramètres de population (1)

• Considérons une population de taille N (N ∼= ∞) et notons X la variable


qui nous intéresse. Comme chaque individu de la population a une valeur
x pour la variable X , on peut calculer la moyenne et l’écart-type de la
population
Si X est une variable quantitative
N rP
1 X (x − µ)2
µ= xi σ=
N i=1 N −1

Si X est une variable binaire


N
1 X p
π= xi σ= π(1 − π)
N i=1

Les lettres grecques font référence pour un paramètre de position ou de dispersion de la population

12 / 33
Paramètres de population (2)

• Le même raisonnement s’applique à l’ensemble des paramètres


d’échantillon vus précédemment : médiane (P50), quartiles (P25, P75),
coefficient de corrélation (ρ),...

• Les paramètres de population sont souvent désignés par des lettres


grecques

• Les paramètres de population sont inconnus mais on aimerait les estimer

13 / 33

Echantillonnage (1)

L’échantillonnage est un mécanisme qui permet d’extraire un échantillon


d’une population.

14 / 33
Echantillonnage (2)

• Comment ? Méthodes d’échantillonnage (simplement fortuit, stratifié,


systématique,. . .)

• Combien ? Calcul de taille d’échantillon (calcul de puissance)

Les méthodes d’échantillonnage probabiliste permettent de sélectionner un


certain nombre d’individus par tirage aléatoire dans la population étudiée.
Chaque individu a une probabilité connue et non nulle de faire partie de
l’échantillon.

Exemple : avec Excel !

Ce n’est pas à nous de décider qui oui ou non participe à l’étude.


C’est au hasard.

15 / 33

Echantillon et estimation (1)

A partir d’un échantillon, on peut obtenir une estimation des paramètres de


population.

x̄ estime µ

p estime π

s estime σ

r estime ρ

..
.

16 / 33
Echantillon et estimation (2)

• On considère que x̄ représente notre “meilleure” estimation de µ (c’est


la seule que l’on a !)

• Quelle est la qualité de x̄ en tant qu’estimation de µ ?

• Le nombre d’échantillons de taille n qu’il est possible d’extraire d’une


population de taille N est
N!
N(n) = CNn =
n!(N − n)!
On prend 1 échantillon sur plus de
Exemple : N = 40 and n = 10, N(n) = 847.660.528 847 millions

• Que peut-on dire sur la variabilité des N(n) x̄ par rapport à µ ?

17 / 33

Variabilité d’échantillonnage (1)

On va faire une moyenne et


un écart-type sur notre
échantillon mais on pourrait
faire de même pour chaque
possibilité

Théorie de l’échantillonnage
Résultat 1 : La moyenne des x̄i ,
P
x̄i
= µ.
N(n)

(x̄ est un estimateur non-biaisé)

18 / 33
Variabilité d’échantillonnage (2)

Résultat 2 : L’écart-type des x̄i est appelé l’erreur-type (SE) de x̄


sP
(x̄i − µ)2 σ
SE (x̄) = =√
N(n) n

Si SE (x̄) est petit, x̄ est une estimation précise de µ


Si SE (x̄) est grand, x̄ est une estimation peu précise de µ

Comment diminuer SE (x̄) ? En augmentant n


De combien doit-on augmenter n pour diminuer SE (x̄) de moitié ?
On va calculer la variabilité par rapport à la Plus l’échantillon est grand plus la variabilité sera petite
moyenne de la population.
L’erreur type permet de mesurer la
variabilité de notre échantillon par rapport Si on fait l’échantillon x4 on diminue le SE par
à tous les échantillons 2 compte tenu de la racine carrée
19 / 33

Variabilité d’échantillonnage (3)

L’erreur-type fait la transition entre la statistique descriptive et la statistique


inférentielle. Elle mesure la variabilité d’une caractéristique d’échantillon (x̄,
p,...) sur l’ensemble des échantillons possibles.

s
SE (x̄) = √
n
r
p(1 − p)
SE (p) =
n
s
SE (Médiane) = 1.25 √
n
1 − r2
SE (r ) = √
n
qX
SE (b1 ) = sy |x / (x − x̄)2

20 / 33
Variabilité d’échantillonnage - Exemples

Albumine (g/l) : n = 216 x̄ = 34.46g/l s = 5.84 g/l


SE (x̄) = 0,396g/l

Asthme (oui - non) : n = 80 p = 13/80 = 0.16


SE (p) = 0,039

21 / 33

Variabilité d’échantillonnage (4)

Résultat 3 : Théorème central limite

Si n est grand, x̄ est distribué suivant une loi Normale de moyenne µ et


σ
d’écart-type √ ,
n
σ
x̄ ∼ N(µ, √ )
n
et ce quelle que soit la distribution de la variable X !

Simulation VESTAC : http://lstat.kuleuven.be/java/

La moyenne de l’échantillon suit la moyenne de la population

22 / 33
Variabilité d’échantillonnage (5)

Sur base de ce troisième résultat et de la définition d’un intervalle de


référence, on sait que 95% des valeurs de x̄ se trouvent dans l’intervalle
 
σ σ
µ − 1.96 √ , µ + 1.96 √
n n
ou de manière équivalente,
σ σ
µ − 1.96 √ ≤ x̄ ≤ µ + 1.96 √ 95% des valeurs de xbarre sont
n n comprises dans cet interval

Mais ce qui nous intéresse c’est de définir un intervalle pour µ et non pour x̄ !

23 / 33

Intervalle de confiance (1)

Considérons d’abord l’inégalité de gauche,


σ σ
µ − 1.96 √ ≤ x̄ ≤ µ + 1.96 √
n n
| {z }
σ
µ ≤ x̄ + 1.96 √
n
Appliquons le même raisonnement à l’inégalité de droite,
σ σ
µ − 1.96 √ ≤ x̄ ≤ µ + 1.96 √
n n
| {z }
σ
µ ≥ x̄ − 1.96 √
n
Finalement,
σ σ
x̄ − 1.96 √ ≤ µ ≤ x̄ + 1.96 √
n n

24 / 33
Intervalle de confiance (2)

σ σ
x̄ − 1.96 √ ≤ µ ≤ x̄ + 1.96 √
n n
σ est inconnu ? mais il peut être estimé par s.

L’intervalle de confiance à 95% (IC95%) pour la moyenne µ est donné par

s s
x̄ − 1.96 √ ≤ µ ≤ x̄ + 1.96 √ 95% de chance que l’intervalle
n n recouvre la vraie valeur

Dans 95% des cas (c-à-d dans 95% des échantillons extraits de la
s
population), la fourchette x̄ ± 1.96 √ recouvre µ.
n
Simulation VESTAC : http://lstat.kuleuven.be/java/

25 / 33

Intervalle de confiance (3)

En toute généralité, l’intervalle de confiance à 95% (IC95%) pour le


paramètre θ est donné par

θ̂ − 1.96 × SE (θ̂) ≤ θ ≤ θ̂ + 1.96 × SE (θ̂)

Dans 95% des cas (c-à-d dans 95% des échantillons extraits de la
population), la fourchette θ̂ ± 1.96 × SE (θ̂) recouvre θ.

26 / 33
Intervalle de confiance (4)

Par exemple, l’intervalle de confiance à 95% (IC95%) pour une proportion π


est,

p − 1.96 × SE (p) ≤ π ≤ p + 1.96 × SE (p)


r r
p(1 − p) p(1 − p)
p − 1.96 ≤ π ≤ p + 1.96
n n

Dans 95% des cas (c-à-d dans 95%rdes échantillons extraits de la


p(1 − p)
population), la fourchette p ± 1.96 recouvre π.
n

27 / 33

Intervalle de confiance - Exemples (1)

Albumine (g/l) : n = 216 x̄ = 34.46g/l s = 5.84 g/l



SE (x̄) = 5.84/ 216 = 0.396g /l

Que vaut l’intervalle de confiance à 95% de la moyenne d’albumine ?

s s
x̄ − 1.96 √ ≤ µ ≤ x̄ + 1.96 √
n n
5.84 5.84
34.46 − 1.96 √ ≤ µ ≤ 34.46 + 1.96 √
216 216
34.46 − 1.96 × 0.396 ≤ µ ≤ 34.46 + 1.96 × 0.396
33.68g /l ≤ µ ≤ 35.24g /l

L’intervalle [33.68g /l − 35.24g /l] contient la vraie valeur de la moyenne


d’albumine avec une confiance de 95%. La moyenne est pile au centre de
l’intervalle, on peut donc la calculer sur
base de l’intervalle

28 / 33
Intervalle de confiance - Exemples (2)
Asthme (oui - non) : n = 80 p = 13/80 = 0.16
r
0.16(1 − 0.16)
SE (p) = = 0.039
80
Que vaut l’intervalle de confiance à 95% de la proportion d’asthmatiques ?

r r
p(1 − p) p(1 − p)
p − 1.96 ≤ π ≤ p + 1.96
n n
r r
0.16(1 − 0.16) 0.16(1 − 0.16)
0.16 − 1.96 ≤ π ≤ 0.16 + 1.96
80 80
0.16 − 1.96 × 0.039 ≤ π ≤ 0.16 + 1.96 × 0.039
0.08356 ≤ π ≤ 0.2364

L’intervalle [0.08356 − 0.2364] contient la vraie valeur de la proportion


d’asthmatiques avec une confiance de 95%. L’intervalle [8.36% − 23.64%]
contient la vraie valeur du pourcentage d’asthmatiques avec une confiance de
95%. On peut réduire l’intervalle en augmentant le n
29 / 33

Intervalle de confiance - Littérature (1)

Désordre alimentaire : est plus


souvent chez les femmes que
chez les hommes car les IC ne se
chevauchent pas. L’IC des
femmes est plus important
Pour la dépression les IC se
chevauchent (homme-femme).
Donc pas de différence

Est ce que les hommes et les


femmes souffrent de manière
équivalente à ces désordres ? Variable binaire : absence
ou présence du désordre
Désordre lié à la panique, à la limite
du chevauchement donc à explorer
plus précisément

30 / 33
Intervalle de confiance - Littérature (2)
Moyenne et écart type = distribution normale

31 / 33

Intervalle de confiance - n

Dans l’exemple précédent, combien de femmes ont été prises en compte dans
le calcul de l’IC95% de la moyenne d’âge ?

x̄ = 63.57ans s = 7.36ans IC95% : [62.61 − 64.53] n =??

7.36
62.61 = 63.57 − 1.96 √
n
n = ?

Résolution d’une équation à une inconnue !

32 / 33
Intervalle de confiance - Objectifs

A la fin de cette leçon, vous devrez être capables de :

• comprendre le principe de la statistique inférentielle

• comprendre et savoir calculer l’erreur-type d’un paramètre

• calculer et interpréter l’intervalle de confiance d’un paramètre

• interpréter un intervalle de confiance présenté dans un article scientifique

33 / 33
Biostatistique I - STAT1001-1
Cours 5 - Test d’hypothèses

Anne-Françoise DONNEAU, PhD


afdonneau@uliege.be

Professeur
Université de Liège

Année académique 2021-2022

1 / 53

Agenda - Cours théoriques

Date Heure Matière


24/09 10h45-12h45 Introduction
01/10 10h45-12h45 Paramètres de position et de dispersion
08/10 10h15-12h15 Association
15/10 10h15-12h15 Intervalle de confiance
22/10 10h15-12h15 Test d’hypothèses - corrélation - normalité
29/10 10h15-12h15 Test d’hypothèses - table 2 × 2
05/11 10h15-12h15 Test d’hypothèses - variable quantitative (I)
12/11 10h15-12h15 Test d’hypothèses - variable quantitative (II)

2 / 53
Quizz Cours 4 -

Si on sélectionne aléatoirement 1000 échantillons d’effectifs 100 d’une


population et que l’on calcule à chaque fois la proportion p ainsi que
l’intervalle de confiance à 95% pour la proportion théorique π de la
population, combien d’intervalles en moyenne contiendront π ?
a tous les intervalles contiendront π
b parmi les intervalles, 50 contiendront π
c aucun des intervalles ne contiendra π
d parmi les intervalles, 950 contiendront π

3 / 53

Quizz Cours 4 -

Dans la situation d’analyse d’une variable quantitative, par quel facteur


doit-on multiplier la taille de l’échantillon (n) pour diminuer/diviser le
précision statistique (SE) par 2 ?
a 2
b 4

c 2
d Impossible à dire sans connaı̂tre n

4 / 53
Quizz Cours 4 -

Des chercheurs ont étudié le poids d’une tumeur de petite taille prélevée lors
d’une intervention chirurgicale. Ils ont montré que l’intervalle de confiance à
95% pour le poids moyen des tumeurs était égale à [54.02g − 58.38g ]. Quel
est le poids moyen des tumeurs estimé par les chercheurs ?

a 55.36g
b 56.20g
c 48.15g
d Impossible de répondre sans plus d’informations

5 / 53

Quizz Cours 4 -

Afin d’obtenir un intervalle de confiance à 95% plus précis (étroit), il faut


a diminuer la taille de la population
b diminuer la taille de l’échantillon
c augmenter la taille de la population
d augmenter la taille de l’échantillon

6 / 53
Quizz Cours 4 -

Au cours d’une étude sur la prévalence du tabagisme chez les sportifs, on a


trouvé que 26% des sportifs interrogés fumaient. Quel est l’intervalle de
confiance à 95% associé à la proportion théorique (π) de fumeurs ?

a [21.7% − 30.3%]
b [21.7% − 50.3%]
c [35.2% − 50.3%]
d Impossible de répondre sans plus d’informations

7 / 53

Quizz Cours 4 -
Fireman et al. ont étudié la prévalence de différents troubles obsessionnels
compulsifs (TOC). A partir de ces résultats, on peut conclure que :

a Les hommes souffrent significativement plus de dépression majeure que les


femmes.
b La proportion de femmes souffrant de trouble bipolaire est significativement
plus importante que chez hommes.
c Les troubles alimentaires sont significativement plus présents chez les femmes
que chez les hommes.
d La schizophrénie n’est pas distribuée de manière comparable en fonction du
sexe. 8 / 53
Agenda

Date Matière
24/09 Introduction
01/10 Paramètres de position et de dispersion
08/10 Association
15/10 Intervalle de confiance
22/10 Test d’hypothèses - corrélation - normalité
29/10 Test d’hypothèses - table 2 × 2
05/11 Test d’hypothèses - variable quantitative (I)
12/11 Test d’hypothèses - variable quantitative (II)

9 / 53

Test d’hypothèses - Objectifs


A la fin de cette leçon, vous devrez être capables de :

• comprendre le principe de la statistique inférentielle

• connaı̂tre les six étapes d’un test d’hypothèses

• interpréter une P-valeur

• comprendre et appliquer le test d’hypothèses pour une corrélation nulle


(paramétrique et non paramétrique)

• comprendre et appliquer le test d’hypothèses pour la Normalité de la


distribution d’une variable quantitative

• interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique
10 / 53
Test d’hypothèses - Statistique inférentielle

La statistique inférentielle permet de tirer des conclusions sur l’ensemble de


la population d’où les données ont été extraites.
11 / 53

Test d’hypothèses - Statistique inférentielle

L’objectif de la statistique inférentielle est :


• d’étendre (inférer) les observations réalisées sur un échantillon à la
population dont il est extrait
• de valider ou d’infirmer des hypothèses émises a priori sur la population
d’étude

Quels sont les outils à notre disposition ?


• Intervalle de confiance
• Tests d’hypothèses

12 / 53
Test d’hypothèses - Tests d’hypothèses

Le but des tests d’hypothèses est d’aider le chercheur à prendre une


décision au sujet d’une population à partir d’un échantillon extrait de cette
population.

Exemple :
• L’ajout de la molécule A améliore l’efficacité du traitement contre
l’hypertension ?
• Les femmes fument-elles plus que les hommes ?
• Y a-t-il une association entre le cancer du poumon et l’exposition à des
substances toxiques ?
• Est-ce que le nouvel exercice de récupération mis en place pour les
cyclistes est efficace ?

13 / 53

Test d’hypothèses - Six étapes

Le logiciel va donner Etape 1 Hypothèses H0 vs H1 On va mettre 2 hypothèses en compétition


les résultats mais il
faudra les
interpréter : donc il
Etape 2 Données On nous donne ou on récolte nos données
faut connaitre les
étapes. Etape 3 Niveau d’incertitude α On a juste une partie de la population

Etape 4 Test statistique T On aura qu’un chiffre à comparer à des


valeurs standards. Fait par le logiciel.

Etape 5 P-valeur Calculée par le logiciel. A savoir interpréter


pour conclure

Etape 6 Conclusion

14 / 53
Test d’hypothèses - Etape 1
Le but de la statistique inférentielle c’est d’avoir des statistiques sur la population et pas sur l’échantillon

Les hypothèses

Il s’agit de “propositions au sujet d’une ou plusieurs populations” exprimées


en termes de paramètres de population.
On doit choisir le test que l’on veut appliquer.

Hypothèse nulle (H0 ) Hypothèse alternative (H1 )


Inverse de ce qu’on souhaite montrer Opposée et plus générale que H0
Objectif : rejeter H0

• H0 : µ1 = µ2 vs H1 : µ1 6= µ2
• H0 : π1 = π2 vs H1 : π1 6= π2
• H0 : ρ = 0 vs H1 : ρ 6= 0
Pour montrer la différence on va partir de l’hypothèse que l’on a une égalité et on essaie de la rejeter. On tente de rejeter H0.
Hypothèse H1 c’est l’opposé, de plus général. Ici : ce n’est pas une égalité.

15 / 53

Test d’hypothèses - Etape 2

Il faut identifier les données qui ont un intérêt et savoir si elles sont dans la bonne forme. (par exemple en facteur)

Les données

• nécessaires pour tester une hypothèse

• proviennent de la mesure / observation d’une variable X (ou de 2


variables X et Y ) sur les éléments d’un échantillon d’effectif n extrait de
la (des) population(s)

• seuls éléments d’information dont on dispose pour décider entre H0 et H1

16 / 53
Test d’hypothèses - Etape 3
Le niveau d’incertitude

• On dispose d’un échantillon et non de la population entière


• Toute décision statistique établie à partir d’un échantillon est affectée
d’un risque d’erreur
Erreur possible car on a juste un
échantillon et pas la population totale.
Hypothèse H0 On n’a peut-être pas le meilleur
échantillon.
Données Vraie Fausse Le niveau d’incertitude est fixé à 5%.
Il y a 5% de chance que si on montre
“Accepter” H0 1−α β une différence on n’ait en vrai pas de
“Rejeter” H0 α 1−β différence

• Risque de première espèce : α = P(RejeterH0 |H0 vraie)


= niveau d’incertitude = 0.05 (5%)

• Risque de seconde espèce : β = P(AccepterH0 |H0 fausse)


1 − β = P(RejeterH0 |H0 fausse) = puissance

17 / 53

Test d’hypothèses - Etape 4 (1)


Le test statistique

Cette étape est le “coeur” de la procédure. Les données collectées à l’étape 2


sont condensées en une grandeur numérique, T . Vu que l’on dispose d’un
processus d’échantillonnage sur la population, T peut être considérée comme
une variable aléatoire. Pour un échantillon obtenu, notons T0 , la valeur
observée du test statistique. Le T va être différent d’un échantillon à l’autre.

Le but consiste à comparer T0 à la distribution de la variable aléatoire T sous


H0
18 / 53
Test d’hypothèses - Etape 4 (2)

La distribution de T sous H0 peut en général se ramener à l’une des deux


distributions classiques

Distibution t de Student. t peut être négatif ou positif Ici que des t positifs.

19 / 53

Test d’hypothèses - Etape 5 (1)

Le seuil de décision

En fonction de la loi utilisée, une “zone de rejet” (en rouge) pour H0 peut être
définie en déterminant un seuil de décision. Les seuils de décision sont obtenus dans
les tables statistiques (fin livre d’exercices).

On ne peut pas choisir. On procède par l’absurde en se disant que c’est une égalité.
A cette étape on décide si on garde ou si on réfute H0.
Si la valeut t est dans la zone de rejet on peut rejeter H0. Si on est en dehors on ne pourra pas le rejeter
20 / 53
Test d’hypothèses - Etape 5 (2)

P-valeur = probabilité de trouver un résultat T plus défavorable à H0 que le


résultat obtenu T0

21 / 53

Test d’hypothèses - Etape 6

La conclusion

On rejette H0 si T se trouve dans la zone de rejet, sinon on ne rejette pas H0 .

On rejette H0 si P-valeur ≤ α, sinon on ne rejette pas H0 (α = 0.05)

Si on rejette H0 , le test statistique est statistiquement significatif, sinon il est


non significatif

Si P est inférieur à 0,05 (5%) on peut rejeter H0. -> statistiquement significatif
Si ce n’est pas le cas on ne peut pas rejeter H0. -> non significatif

Pour faire la conclusion il faut connaitre les hypothèses et savoir lire un résultat de P.

22 / 53
Test d’hypothèses - P-valeur

La P valeur va nous dire si T est dans


la zone blanche ou rouge (de rejet).
L’air sous la courbe est plus grand
que la zone rouge si il est dans la
zone blanche.
Si l’air sous la courbe (Pvaleur) est
plus grand ou plus petit qu’alpha on
va pouvoir affirmer ou rejeter H0.
Le but étant de rejeter H0 il faut avoir
une zone bleue plus petite qu’alpha
qui était fixé à 5%.

23 / 53

Test d’hypothèses - P-valeur

α/2 α/2

-T T

-T T 24 / 53
Test d’hypothèses - P-valeur (Exemple)

On rejette H0 si P-valeur ≤ α, sinon on ne rejette pas H0 (α = 0.05)

P-valeur = 0.18 (on ne peut pas rejeter H0 )

P-valeur = 0.0021 (on rejette H0 )

P-valeur = 0.049 (on rejette H0 )

P-valeur = 0.051 (on ne peut pas rejeter H0 )

25 / 53

Test d’hypothèses - Illustration


Les personnes
qui prennent
une
supplémentatio
n sont
significativeme
nt plus âgée
que celles qui
n’en prennent
pas.

Il n’y a pas de
différence
significative
entre les
groupe au
niveau de
l’exposition au
soleil durant
l’année

26 / 53
Test d’hypothèses - Tests à voir

Corrélation Moyennes (X quantitative)


H0 : ρ = 0 H0 : μ1 = μ2

X,Y quantitatives Indépendantes Appariées


test t Student (ν = n-2) test t Student (ν = n1+n2-2) test t Student (ν = n-1)
Spearman Mann-Whitney Rangs signés de Wilcoxon

Proportions (X binaires)
H0 : π1 = π2
Indépendantes Appariées
test χ² (ν = 1) test Mc Nemar (ν = 1)

27 / 53

Test d’hypothèses - Corrélation (Rappel)

Désignons par X et Y les deux variables (quantitatives) qui nous intéressent.


Pour rappel, le coefficient de corrélation de Pearson, corr (X , Y ) ou r , est
donné par P P
P ( x)( y )
xy − n
r = qP P 2 P P 2 .
[ x 2 − n ][ y 2 − ny ) ]
( x) (

Lorsque X et Y ne suivent pas une distribution Normale ou que X et Y sont


ordinales, il est préférable de calculer le coefficient de corrélation de
Spearman ou rs . Il se base sur les rangs des observations de X et de Y et
non sur les valeurs observées.
X et Y normales ; Pearson.
Si X et/ou Y pas normal ; Spearman.
Attention quand pas ordinal.

28 / 53
Test d’hypothèses - Corrélation (Rappel)

1. Chaque valeur xi est remplacée par son rang rang (xi )


2. Chaque valeur yi est remplacée par son rang rang (yi )
3. On calcule di = rang (xi ) − rang (yi ) pour tout i = 1, . . . , n
4. On calcule ensuite P
6 di2
rs = 1 −
n(n2 − 1)

Le coefficient de corrélation de Spearman s’interprète comme le coefficient de


corrélation de Pearson.

29 / 53

Test paramétrique corrélation nulle (1)


Désignons par X et Y les deux variables (quantitatives) qui nous intéressent.
1. Hypothèses : H0 : ρ = 0 vs H1 : ρ 6= 0
où ρ est le coefficient de corrélation de Pearson entre X et Y
Il faut connaitre l’hypothèse.

2. Données : échantillon de taille n


Calcul du coefficient de Pearson, r

3. Niveau d’incertitude : α = 0.05


r
4. Test : n−2
T =r
1 − r2
Sous H0 , T est distribué comme un t de Student à ν = n − 2 dl

5. P-valeur : P-valeur correspondante (Rcmdr)

6. Décision : on rejette H0 si P-valeur ≤ α


30 / 53
Test paramétrique corrélation nulle (2)
Age (années) et indice de masse
grasse (IMG) chez 18 adultes
(Mazess et al. 1984)
Sujet Age IMG
1 23 9.5
2 23 27.9
3 27 7.8
4 27 17.8
5 39 31.4
6 41 25.9
7 45 27.4
8 49 25.2
9 50 31.1
10 53 34.7
11 53 42.0
12 54 29.1
13 56 32.5
14 57 30.3
15 58 33.0
16 58 33.8
17 60 41.1
18 61 34.5
Existe-t-il une association entre l’âge et
l’IMG ?
31 / 53

Test paramétrique corrélation nulle (3)


Age (années) et indice de masse
grasse (IMG) chez 18 adultes
(Mazess et al. 1984)
Sujet Age IMG 1. Hypothèses : H0 : ρ = 0 vs H1 : ρ 6= 0
1 23 9.5 où ρ est le coefficient de
2 23 27.9 corrélation de Pearson entre l’âge et l’IMG
3 27 7.8
4 27 17.8 2. Données : n = 18 et r = 0.79
5 39 31.4 3. Niveau d’incertitude : α = 0.05
6 41 25.9
7 45 27.4 4. Test : r
8 49 25.2 18 − 2
9 50 31.1 T = 0.79 = 5.19
1 − 0.792
10 53 34.7
11 53 42.0 5. P-valeur : p = 0.00009 (p ≤ 0.0001)
12 54 29.1
13 56 32.5 6. Décision : Puisque p ≤ 0.05, on rejette
14 57 30.3 l’hypothèse H0 . La corrélation entre l’âge et
15 58 33.0
16 58 33.8 l’IMG est donc significativement différente de
17 60 41.1 0. Comme elle est positive, plus l’âge est
18 61 34.5 élevé, plus IMG augmente.
Existe-t-il une association entre l’âge et
l’IMG ?
32 / 53
Test paramétrique corrélation nulle (4)

Considérons X et Y les deux variables (quantitatives) qui nous intéressent.


Pour calculer le coefficient de corrélation de Pearson X etY doivent avoir
une distribution Normale

Si l’hypothèse de Normalité n’est pas respectée ?


• Essayer de normaliser en appliquant une transformation
• Utiliser un test non-paramétrique

Si X et/ou Y est ordinale


• Utiliser un test non-paramétrique Test de
Spearman

33 / 53

Test non-paramétrique corrélation nulle (1)


1. Hypothèses : H0 : ρSpearman = 0 vs H1 : ρSpearman 6= 0
où ρ est le coefficient de corrélation de Spearman entre X et Y

2. Données : échantillon de taille n


Calcul du coefficient de Spearman, rS
Vu que la distribution n’est pas normale on va calculer Spearman

3. Niveau d’incertitude : α = 0.05


s
4. Test : n−2
T = rS
1 − rS2
Sous H0 , T est distribué comme un t de Student à ν = n − 2 dl

5. P-valeur : P-valeur correspondante (Rcmdr)

6. Décision : on rejette H0 si P-valeur ≤ α


34 / 53
Test non-paramétrique corrélation nulle (2)
Score de douleur et trouble
du sommeil chez 15 patients
souffrant d’un glioblastome
Sujet Douleur Trouble
sommeil
1 2 3
2 1 1
3 2 2
4 2 3
5 2 2
6 2 4
7 3 2
8 3 3
9 4 3
10 2 4
11 2 1
12 1 2
13 3 4
14 2 2
15 1 1
1=pas du tout, 2=un peu
4=modérément, 5=beaucoup

Existe-t-il une association entre la


douleur et le trouble du sommeil ?
35 / 53

Test non-paramétrique corrélation nulle (3)


Score de douleur et trouble
du sommeil chez 15 patients
souffrant d’un glioblastome
Sujet Douleur Trouble
sommeil
1 2 3 1. Hypothèses : H0 : ρSpearman = 0 vs H1 : ρSpearman 6= 0
2 1 1 où ρSpearman est le coefficient de corrélation
3 2 2 de Spearman entre douleur et trouble du sommeil
4 2 3
5 2 2 2. Données : n = 15 et rS = 0.53
6 2 4
7 3 2 3. Niveau d’incertitude : r
α = 0.05
8 3 3 4. Test : 15 − 2
9 4 3 T = 0.53 = 2.25
1 − 0.532
10 2 4
11 2 1 5. P-valeur : p = 0.041
12 1 2
13 3 4 6. Décision : Puisque p ≤ 0.05, on rejette l’hypothèse
14 2 2 H0 . Il existe une corrélation statistiquement
15 1 1 significative entre la douleur et le trouble du sommeil.
1=pas du tout, 2=un peu
4=modérément, 5=beaucoup Il est positif donc plus la douleur est
importante plus cela impact le sommeil.
Existe-t-il une association entre la
douleur et le trouble du sommeil ?
36 / 53
Test d’hypothèses - Littérature (1) - Graphique

Pas de distribution normale avant transformation log. Mais si elle a été


faite c’est pour que ca devienne normale. Donc coefficient de Pearson.
Test de corrélation. Statistiquement significative car p est inférieur à
5%.
Pas relevant car juste à 0,32 pour le r. 37 / 53

Test d’hypothèses - Littérature (2) - Tableau


Spearman donc pas normale.

38 / 53
Test d’hypothèses - Littérature (3) - Dans le texte

Si faut connaitre l’hypothèse, savoir utiliser le


logiciel et savoir interpréter la p valeur avec une
conclusion « en français ».

39 / 53

Introduction - Pourquoi tester la Normalité ?


La Normalité est une condition d’application à de nombreux tests
statistiques pour variables quantitatives qu’il convient de vérifier afin
d’obtenir des conclusions fiables. Il est donc important de disposer d’outils
permettant de vérifier cette hypothèse de Normalité.

Est-ce que la variable étudiée (X ) suit une distribution Normale ?

SD

95%
2.5% 2.5%

x−1.96SD x x+1.96SD X

40 / 53
Rappel sur la loi Normale (1)

Outils numériques - Comparaison de la moyenne et de la médiane


Outil graphique - Histogramme, box-plot

41 / 53

Rappel sur la loi Normale (2)

Quantile-Quantile plot ou Q-Q plot


Graphique qui reporte en abscisse les quantiles théoriques de la loi Normale et
en ordonnée les valeurs observées dans l’échantillon de données.
QQ plot


35




●●



● ●●
Sample Quantiles




30

●●

●●
●●

●●●●
●●
●●



25

● ●

−2 −1 0 1 2

Theoretical Quantiles

Si la variable X suit une distribution Normale, les points du Q-Q plot doivent
être (approximativement) alignés selon une ligne droite.

42 / 53
Rappel sur la loi Normale (3)

On teste la Normalité
• des variables quantitatives
• pour vérifier les conditions d’application des tests d’hypothèses

Outils à disposition :

Statistiques Comparaison moyenne, médiane

Graphiques Histogramme, Q-Q plot, box-plot

Tests d’hypothèse Test de Shapiro-Wilk

43 / 53

Test d’hypothèses - Test de Shapiro-Wilk


1. Hypothèses :H0 : La distribution de X est Normale
vs. H1 : La distribution de X n’est pas Normale

2. Données : échantillon de taille n

3. Niveau d’incertitude : α = 0.05


 2
4. Test : P[ n2 ]
i=1 ai (x(n−i+1) − x(i) )
W = Pn 2
i=1 (xi − x̄)
 
où n2 est la partie entière du rapport n2
et les ai sont des constantes (disponibles dans une table)

5. P-valeur : P-valeur correspondante (Rcmdr)

6. Décision : on rejette H0 si P-valeur ≤ α


Si p-value ≤ 0.05 ⇒ la distribution de X n’est pas Normale
Si p-value > 0.05 ⇒ la distribution X est Normale
44 / 53
Normalité : Les transformations possibles (1)

Certaines transformations permettent de normaliser la distribution d’une


variable X .

X log(X)

Dissymétrie à droite : transformation logarithmique, racine carrée

45 / 53

Normalité : Les transformations possibles (2)

ALT log(ALT)
70

● ●



4.0

●●●
● ●●●●
60


●●
●●

●●




●●


Sample Quantiles

●●
Sample Quantiles

● ●
●●


● ●●


●●

3.5

●●● ●●
50

●●


● ●●


● ●
●●


● ●
● ●



● ●
●●

●●


● ●


● ●



40

3.0



● ●
●●





● ●
●●


●●


● ●
●●

●●


●● ●

●●




●●

● ●


●●
● ●

●●



● ●●

●●
●●

30

●●
● ●
●●
●●


● ●

●●
●●


●●
2.5

● ●●

●●


●●





●●

●● ●
●●

●●

●●










● ●●



●●



20


●●


●●
● ●
●●

●●

●●



●●




●● ●●●●



●●


2.0

●●

●●

●●
●●

● ●


●●
●●

●●

●●


●●


●●

●●

●●


10

●●

● ● ●●

●●
●●●●


● ●●
● ●

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

Theoretical Quantiles Theoretical Quantiles


Shapiro-Wilk : p-value < 0.0001 p-value = 0.16

46 / 53
Normalité : Les variables qui sont connues pour ne
pas avoir une distribution Normale

• Les durées de vie


Exemples : durée d’hospitalisation, durée de survie de patients souffrant d’un
cancer, · · ·

• Certains paramètres biologiques (enzymes, hormones, ...)

47 / 53

Normalité - Taille d’échantillon

Le résultats du test d’hypothèses est influencé par la taille de l’échantillon :


• Petit effectif : On ne rejettera “presque jamais” H0 (pas assez de puissance)

• Grand effectif : On rejettera “presque toujours” H0 (le moindre écart est detecté)

⇒ Importance des outils graphiques,...

Une p valeur c’est bien mais il faut aussi regarder les chiffres. Une corrélation
peut être statistiquement significative mais non relevante au niveau clinique.

48 / 53
Normalité : La présence de valeurs aberrantes (1)

20
15
Age (années) - n=224

percent

10
18.48

5
22.03

0
20 30 40 50 60 70
22.24 Age (années)

70

● ●

60
. ●●●●●●
●●●
●●●

Sample Quantiles
●●

●●
●●

●●


50

●●

●●
●●
●●

. ●

●●

●●

●●

●●


●●


●●

●●


●●


●●

●●


●●


●●
●●


●●


●●


●●


●●
●●

40


●●
●●●



●●


●●


●●


●●


61.22 ●
●●


●●


●●

●●


●●

●●

●●


●●

●●




●●


30


●●
●●

●●
●●

●●
●●
●●
●●

●●

●●●●

61.30

●●●
●●●
● ● ● ●●
20

68.49 −3 −2 −1 0 1 2 3

Theoretical Quantiles

Shapiro-Wilk : p-value = 0.45

49 / 53

Normalité : La présence de valeurs aberrantes (2)


50
40

Age (années) - n=224


30
percent

20

18.48
10

22.03
0

0 50 100 150
22.24 Age (années)

. ●
150

.
Sample Quantiles

100

.
61.22 ●
●●
●●
●●●●●●●●●●●●
●● ● ● ●
50

●●
●●

●●
●●

●●●

●●

●●


●●

●●


●●

●●

●●

●●

●●

●●

●●


●●


●●
●●


●●
● ●

●●


●●●




●●

●●
●●
●●

●●
●●


●●


●●


●●


●●


●●


●●





●●


●●

●●


●●

●●


●●

●●
●●

●●
●●

●●
●●

●●

●●


●●●
●●
●●
●●
●●●●
● ● ● ●●●●●●●●

61.30 ●

−3 −2 −1 0 1 2 3

168.49 Theoretical Quantiles

Shapiro-Wilk : p-value < 0.0001

⇒ Dans la pratique, toujours commencer par le contrôle de qualité de


la base de données

50 / 53
Test d’hypothèses - Objectifs
A la fin de cette leçon, vous devrez être capables de :

• comprendre le principe de la statistique inférentielle

• connaı̂tre les six étapes d’un test d’hypothèses

• interpréter une P-valeur

• comprendre et appliquer le test d’hypothèses pour une corrélation nulle


(paramétrique et non paramétrique)

• comprendre et appliquer le test d’hypothèses pour la Normalité de la


distribution d’une variable quantitative

• interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique
51 / 53

Test d’hypothèses- Rcmdr Corrélation

52 / 53
Test d’hypothèses- Rcmdr Normalité

53 / 53
Biostatistique I - STAT1001-1
Cours 6 - Test d’hypothèses - Table 2 × 2

Anne-Françoise DONNEAU, PhD


afdonneau@ulg.ac.be

Professeur
Université de Liège

Année académique 2021-2022

1/1

Agenda - Cours théoriques

Date Heure Matière


24/09 10h45-12h45 Introduction
01/10 10h45-12h45 Paramètres de position et de dispersion
08/10 10h15-12h15 Association
15/10 10h15-12h15 Intervalle de confiance
22/10 10h15-12h15 Test d’hypothèses - corrélation - normalité
29/10 10h15-12h15 Test d’hypothèses - table 2 × 2
05/11 10h15-12h15 Test d’hypothèses - variable quantitative (I)
12/11 10h15-12h15 Test d’hypothèses - variable quantitative (II)

2/1
Quizz Cours 5 -

L’application d’un test d’hypothèses sur une base de données fournit une
P-valeur égale à p = 0.19. Quelle est la conclusion de ce test d’hypothèses ?

a On rejette l’hypothèse nulle H0 Si p plus petit que 0,05


b On ne peut pas rejeter l’hypothèse nulle H0
c On ne peut pas rejeter l’hypothèse alternative H1
d On ne sait rien dire

3/1

Quizz Cours 5 -

La corrélation entre le taux de cholestérol (mg/dl) et la pression artérielle


systolique (mmHg) mesurée sur 1200 patients souffrant de problèmes
cardiaques est égale à r =0.15 (p<0.0001).

a Cette corrélation est statistiquement significative mais pas cliniquement


relevante
b Cette corrélation est statistiquement significative et cliniquement
relevante
c Cette corrélation n’est ni statistiquement significative ni cliniquement
relevante
d Cette corrélation n’est pas statistiquement significative mais est
cliniquement relevante

4/1
Quizz Cours 5 -

Sur base de ces informations graphiques, quel type de test d’hypothèses


utiliseriez-vous pour tester l’association entre les variables X et Y .
a Test de corrélation de Spearman
b Test de corrélation de Pearson
5/1

Quizz Cours 5 -

Sur base des résultats repris ci-dessous, quelles hypothèses pourraient être
testées par les auteurs pour obtenir la p-valeur associée à l’association des
variables Age et tour de taille ?

a H0 : ρ = 0 vs H1 : ρ 6= 0 Toujours sur paramètres de populations. Donc des lettres grecques


b H0 : r = 0.55 vs H1 : r 6= 0.55
c H0 : r = 0 vs H1 : r 6= 0
d Impossible de savoir

6/1
Agenda

Date Matière
24/09 Introduction
01/10 Paramètres de position et de dispersion
08/10 Association
15/10 Intervalle de confiance
22/10 Test d’hypothèses - corrélation - normalité
29/10 Test d’hypothèses - table 2 × 2
05/11 Test d’hypothèses - variable quantitative (I)
12/11 Test d’hypothèses - variable quantitative (II)

7/1

Test d’hypothèses - Tests à voir

Corrélation Moyennes (X quantitative)


H0 : ρ = 0 H0 : μ1 = μ2

X,Y quantitatives Indépendantes Appariées


test t Student (ν = n-2) test t Student (ν = n1+n2-2) test t Student (ν = n-1)
Spearman Mann-Whitney Rangs signés de Wilcoxon

Proportions (X binaires)
H0 : π1 = π2
Indépendantes Appariées
test χ² (ν = 1) test Mc Nemar (ν = 1)

8/1
Table 2 × 2 - Objectifs

A la fin de cette leçon, vous devrez être capables de :

• construire une table de contingence 2 × 2

• appliquer et interpréter le résultat du test d’homogénéité

• appliquer et interpréter le résultat du test de Mc Nemar

• distinguer un problème de comparaison de proportions appariées et


indépendantes

• interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique

9/1

Table 2 × 2 - Tests
On va utiliser des proportions et il faut des valeurs binaires

Comparaison de deux proportions

Echantillons indépendants Echantillons appariés

Test d’homogénéité Test de Mc Nemar


2 populations distinctes (P1 , P2 ) 1 population
X (variable binaire) X (variable binaire)
observée dans chaque population observée dans 2 conditions
π1 = Proportion dans P1 π1 = Proportion dans C1
π2 = Proportion dans P2 π2 = Proportion dans C2

H0 : π1 = π2 vs H1 : π1 6= π2 H0 : π1 = π2 vs H1 : π1 6= π2

10 / 1
Table 2 × 2 - Tests

Comparaison de deux proportions


Indépendants : rien à voir.
Exemple : fumeur ou pas, fille/
garçon

Echantillons indépendants Echantillons appariés

Test d’homogénéité Test de Mc Nemar


2 populations distinctes (P1 , P2 ) 1 population
X (variable binaire) X (variable binaire)
observée dans chaque population observée dans 2 conditions
π1 = Proportion dans P1 π1 = Proportion dans C1
π2 = Proportion dans P2 π2 = Proportion dans C2

H0 : π1 = π2 vs H1 : π1 6= π2 H0 : π1 = π2 vs H1 : π1 6= π2

11 / 1

Table 2 × 2 - Test d’homogénéité (Table)

Soit deux échantillons d’effectif n1 et n2 extraits des deux populations


distinctes (P1 , P2 ). La variable binaire X est observée sur les sujets de ces
deux échantillons. Les données obtenues peuvent être présentées sous la
forme d’une table de contingence de dimension 2 × 2.

X Ech 1 Ech 2 Total


Des nombres entiers car le nombre
de sujet 0 a b a+b
1 c d c +d
n1 = a + c n2 = b + d n

Les 2 proportions que l’on souhaite comparer (π1 et π2 ) peuvent être


estimées par p1 = c/(a + c) et p2 = d/(b + d).

Remarque : a, b, c, d sont des nombres entiers. Ils représentent le nombre de


sujets dans chaque cellule (ni proportions, ni pourcentages) !

12 / 1
Table 2 × 2 - Test d’homogénéité (Exemple)

Des patients schizophrènes ont été traités pendant 2 ans avec soit du Risperidone
(n1 = 137) soit de l’Olanzapine (n2 = 129). La variable X indique si le patient a dû
être hospitalisé (oui/non) durant les deux années de traitement.

Traitement
Hospitalisation Risperidone Olanzapine Total
Non 72 80 152
Oui 65 49 114
Total 137 129 266

A partir de cette table, la proportion de patients traités par Rispéridone (resp.


Olanzapine) qui ont dû être hospitalisés est égale à p1 = 0.474=(65/137)
(resp. p2 = 0.38 =(49/129)).
Un traitement est-il plus efficace que l’autre ? En d’autres termes, les
proportions d’hospitalisation sous les deux traitements sont-elles
comparables !

13 / 1

Table 2 × 2 - Test d’homogénéité (1)


1. Hypothèses : H0 : π1 = π2 vs H1 : π1 6= π2
où π1 est la proportion de sujets ayant la caractéristique d’intérêt dans P1
où π2 est la proportion de sujets ayant la caractéristique d’intérêt dans P2

2. Données : échantillon n1 extrait de P1 ⇒ p1


échantillon n2 extrait de P2 ⇒ p2 A transformer en facteur pour pouvoir analyser
Table de contingence 2 × 2

3. Niveau d’incertitude : α = 0.05

(ad − bc)2 n
4. Test : T =
(a + b)(c + d)(a + c)(b + d)
Sous H0 , T est distribué comme un Chi-carré à ν = 1 dl

5. P-Valeur : P-valeur correspondante (Rcmdr)

Conclusion : p-valeur, rejet ou pas, explication


6. Décision : on rejette H0 si P-valeur ≤ α en français
14 / 1
Table 2 × 2 - Test d’homogénéité (Exemple)

Traitement
Hospitalisation Risperidone Olanzapine Total
Non 72 80 152
Oui 65 49 114
Total 137 129 266

15 / 1

Table 2 × 2 - Test d’homogénéité (Exemple)


1. Hypothèses : H0 : π1 = π2 vs H1 : π1 6= π2
où π1 est la proportion de sujets hospitalisés
sous Risperidone
où π2 est la proportion de sujets hospitalisés
sous Olanzapine
2. Données : Voir table
3. Niveau d’incertitude : α = 0.05
Traitement
4. Test :
Hospitalisation Risperidone Olanzapine Total
(72 × 49 − 80 × 65)2 × 266
Non 72 80 152 T = = 2.43
152 × 114 × 137 × 129 Fait par le logiciel
Oui 65 49 114
5. P-Valeur : p = 0.12
Total 137 129 266
6. Décision : Puisque p > 0.05, on ne peut pas
rejeter l’hypothèse nulle d’égalité
du taux d’hospitalisation entre les deux
traitements. Il n’existe pas de différence
statistiquement significative entre les deux
traitements en ce qui concerne le taux
d’hospitalisation.
16 / 1
Table 2 × 2 - Test d’homogénéité (Littérature)

17 / 1

Table 2 × 2 - Test d’homogénéité (Littérature)

18 / 1
Table 2 × 2 - Test

Comparaison de deux proportions Il va falloir sur base de l’énoncer remarquer


que l’échantillon est apparié.
La lecture de la table est aussi différente

Echantillons indépendants Echantillons appariés

Test d’homogénéité Test de Mc Nemar


2 populations distinctes (P1 , P2 ) 1 population
X (variable binaire) X (variable binaire)
observée dans chaque population observée dans 2 conditions Exemple : avant et
π1 = Proportion dans P1 π1 = Proportion dans C1 après, bras droit et
gauche, baseline et à 6
π2 = Proportion dans P2 π2 = Proportion dans C2
mois

H0 : π1 = π2 vs H1 : π1 6= π2 H0 : π1 = π2 vs H1 : π1 6= π2 L’hypothèse est la même


mais pi 1 et pi 2 sont
différents

19 / 1

Table 2 × 2 - Test de Mc Nemar (Table)


Soit un échantillon d’effectif n extrait d’une population (P). La variable
binaire X est observée sur les sujets de cet échantillon dans deux conditions
expérimentales. Les données obtenues peuvent aussi être présentées sous la
forme d’une table de contingence de dimensions 2 × 2.

Condition 2
Condition 1 X =0 X =1
X =0 a b a+b
X =1 c d c +d
a+c b+d n

Les 2 proportions que l’on souhaite comparer (π1 et π2 ) peuvent être


estimées par p1 = (c + d)/n et p2 = (b + d)/n. Le test de Mc Nemar se base
sur le nombre de paires discordantes, à savoir b et c.

Remarque : a, b, c, d sont des nombres entiers. Ils représentent le nombre de


sujets dans chaque cellule (ni proportions, ni pourcentages) !
20 / 1
Table 2 × 2 - Test de Mc Nemar (Exemple)

156 patients souffrant de sténose spinale lombaire ont subi une intervention
chirurgicale. La capacité de ces patients à marcher plus de 500 m a été observée
avant et après l’intervention.

Après
Avant < 500 m > 500 m Total
< 500 m 56 37 93
> 500 m 20 43 63
Total 76 80 156

A partir de cette table, la proportion de patients capables de marcher plus de


500 m avant l’intervention (resp. après) est égale à pAvant = 0.404=(63/156)
(resp. pApres = 0.513=(80/156)).
L’intervention est-il efficace ? En d’autres termes, les proportions de
patients capables de marcher plus de 500 m avant et après
l’intervention sont-elles comparables !

21 / 1

Table 2 × 2 - Test de Mc Nemar


1. Hypothèses : H0 : π1 = π2 vs H1 : π1 6= π2
où π1 est la proportion de sujets ayant la caractéristique d’intérêt dans C1
où π2 est la proportion de sujets ayant la caractéristique d’intérêt dans C2

2. Données : échantillon n extrait de P sous 2 conditions ⇒ p1 , p2


Table de contingence 2 × 2
2 Variables à transformer en facteur

3. Niveau d’incertitude : α = 0.05 Inférieur à 0,05 je rejette

(|b − c| − 1)2
4. Test : T =
b+c
Sous H0 , T est distribué comme un Chi-carré à ν = 1 dl

5. P-Valeur : P-valeur correspondante (Rcmdr)

6. Décision : on rejette H0 si P-valeur ≤ α


22 / 1
Table 2 × 2 - Test de Mc Nemar (Exemple)

Ligne de commande à connaitre

Après
Avant < 500 m > 500 m Total
< 500 m 56 37 93
> 500 m 20 43 63
Total 76 80 156

pAvant = 0.404(63/156)
pApres = 0.513(80/156)

23 / 1

Table 2 × 2 - Test de Mc Nemar (Exemple)

1. Hypothèses : H0 : π1 = π2 vs H1 : π1 6= π2
où π1 est la proportion de sujets capables
de marcher > 500 m avant l’intervention
où π2 est la proportion de sujets capables
de marcher > 500 m après l’intervention

Après 2. Données : voir table


Avant < 500 m > 500 m Total 3. Niveau d’incertitude : α = 0.05
< 500 m 56 37 93 4. Test :
> 500 m 20 43 63 (|37 − 20| − 1)2
T = = 4.49
37 + 20
Total 76 80 156
5. P-valeur : p = 0.034
pAvant = 0.404(63/156)
pApres = 0.513(80/156) 6. Décision : Puisque p < 0.05, on peut
rejeter l’hypothèse nulle. La proportion de
patients capables de marcher plus de 500m
après l’intervention est significativement
plus grande qu’avant l’intervention.
L’intervention a donc été efficace.
24 / 1
Table 2 × 2 - Test de Mc Nemar (Littérature)

25 / 1

Table 2 × 2 - Objectifs

A la fin de cette leçon, vous devrez être capables de :

• construire une table de contingence 2 × 2

• appliquer et interpréter le résultat du test d’homogénéité

• appliquer et interpréter le résultat du test de Mc Nemar

• distinguer un problème de comparaison de proportions appariées et


indépendantes

• interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique

26 / 1
Table 2 × 2 - Rcmdr (1/2)
Test d’homogénéité - Base de données disponible

Test d’homogénéité - Uniquement table 2 × 2 disponible

27 / 1

Table 2 × 2 - Rcmdr (2/2)

Test de Mc Nemar - Commande manuelle (Script R)

28 / 1
Test d’hypothèses - Tests à voir

Corrélation Moyennes (X quantitative)


H0 : ρ = 0 H0 : μ1 = μ2

X,Y quantitatives Indépendantes Appariées


test t Student (ν = n-2) test t Student (ν = n1+n2-2) test t Student (ν = n-1)
Spearman Mann-Whitney Rangs signés de Wilcoxon

Proportions (X binaires)
H0 : π1 = π2
Indépendantes Appariées
test χ² (ν = 1) test Mc Nemar (ν = 1)

29 / 1
Biostatistique I - STAT1001-1
Cours 7 - Test d’hypothèses - variable
quantitative (I)

Anne-Françoise DONNEAU, PhD


afdonneau@ulg.ac.be

Professeur
Université de Liège

Année académique 2021-2022

1 / 33

Agenda - Cours théoriques

Date Heure Matière


24/09 10h45-12h45 Introduction
01/10 10h45-12h45 Paramètres de position et de dispersion
08/10 10h15-12h15 Association
15/10 10h15-12h15 Intervalle de confiance
22/10 10h15-12h15 Test d’hypothèses - corrélation - normalité
29/10 10h15-12h15 Test d’hypothèses - table 2 × 2
05/11 10h15-12h15 Test d’hypothèses - variable quantitative (I)
12/11 10h15-12h15 Test d’hypothèses - variable quantitative (II)

2 / 33
Quizz Cours 6 -

Martin et Bracker (1987) ont comparé la consommation de café chez 3029


femmes enceintes mariées et 718 femmes enceintes célibataires. Sachant que
les % de femmes enceintes mariées (resp. célibataires) consommant du café
est égale à 78.5% (resp. 69.8%) et que la P-valeur associée au test
d’homogénéité vaut p = 0.001, que peut-on conclure ?

a On rejette l’hypothèse nulle H0 : π1 = π2


b Le % de femmes enceintes mariées consommant du café est
significativement plus élevé que chez les célibataires
c La consommation de café chez les femmes enceintes différe
significativement en fonction de l’état civil
d Toutes les propositions précédentes

3 / 33

Quizz Cours 6 -

Dans cet article, quel test d’hypothèses a été appliqué par les auteurs pour
comparer l’acceptation du régime diététique par la famille du patient avant et
après l’intervention ?

a Test de corrélation nulle de Spearman association entre 2 variables quantitatives

b Test de McNemar même population mais à 2 temps différents

c Test d’homogénéité 2 populations indépendantes

d Test de corrélation nulle de Pearson association entre 2 variables quantitatives

4 / 33
Quizz Cours 6 -

Un professeur réalise un test d’évaluation auprès de 100 étudiants avant et


après son cours. Les résultats de ces deux tests d’évaluation sont :

Avant
Après Succès Echec Total
Succès 25 35 60
Echec 5 35 40
Total 30 70 100

Quel est le pourcentage de réussite observé après le cours ?

a 25%
b 30% Avant le cours 30%
c 60%
d 40%

5 / 33

Quizz Cours 6 -

A partir de cette table, quelle est la proportion de sujets supplémentés en


vitamine D parmi les hommes ?

a 63/(145+63)
b 63/(378+63)
c 63/(697+208)
d 63
6 / 33
Quizz Cours 6 -

A partir de cette table, quelle est la proportion de hommes parmi les sujets
supplémentés en vitamine D ?

a 63/(145+63)
b 63/(378+63)
c 63/(697+208)
d 63
7 / 33

Quizz Cours 6 -

Un professeur réalise un test d’évaluation auprès de 100 étudiants avant et


après son cours. Les résultats de ces deux tests d’évaluation sont :

Avant
Après Succès Echec Total
Succès 25 35 60
Echec 5 35 40
Total 30 70 100

Le professeur aimerait savoir si son cours a eu un impact sur les


connaissances des étudiants. Quelles sont les hypothèses qu’il doit tester ?

a H0 : p1 = p2 vs H1 : p1 6= p2
b H0 : π1 = π2 vs H1 : π1 6= π2
c H0 : 30% = 60% vs H1 : 30% 6= 60%
d Il n’a pas besoin d’appliquer un test d’hypothèses

8 / 33
Quizz Cours 6 -

Sur base de cette table, que peut-on conclure pour l’intervention mise en
place ?

a Les familles de patients diabétiques acceptent significativement mieux le


régime diététique avant l’intervention
b L’intervention n’a aucun impact
c Les familles de patients diabétiques acceptent significativement mieux le
régime diététique après l’intervention
d Il n’y a pas de relation entre l’acceptation du régime diététique par les
familles et l’intervention
9 / 33

Agenda

Date Matière
24/09 Introduction
01/10 Paramètres de position et de dispersion
08/10 Association
15/10 Intervalle de confiance
22/10 Test d’hypothèses - corrélation - normalité
30/10 Test d’hypothèses - table 2 × 2
05/11 Test d’hypothèses - variable quantitative (I)
12/11 Test d’hypothèses - variable quantitative (II)

10 / 33
Test d’hypothèses - Tests à voir

Corrélation Moyennes (X quantitative)


H0 : ρ = 0 H0 : μ1 = μ2

X,Y quantitatives Indépendantes Appariées


test t Student (ν = n-2) test t Student (ν = n1+n2-2) test t Student (ν = n-1)
Spearman Mann-Whitney Rangs signés de Wilcoxon

Proportions (X binaires)
H0 : π1 = π2
Indépendantes Appariées
test χ² (ν = 1) test Mc Nemar (ν = 1)

11 / 33

Variable quantitative (I) - Objectifs

A la fin de cette leçon, vous devrez être capables de :

• reconnaı̂tre un problème de comparaison d’une variable quantitative


entre deux populations indépendantes

• connaı̂tre les conditions d’application d’un test t-Student

• comprendre et appliquer le test t-Student

• comprendre et appliquer le test de Mann-Whitney

• interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique

12 / 33
Comparaison de 2 moyennes - Tests

Comparaison de deux moyennes

Echantillons indépendants Echantillons appariés


2 populations distinctes (P1 , P2 ) 1 population
X (variable quantitative) X (variable quantitative)
observée dans chaque population observée dans 2 conditions
µ1 = Moyenne de X dans P1 µ1 = Moyenne de X dans dans C1
µ2 = Moyenne de X dans P2 µ2 = Moyenne de X dans dans C2

Test t-Student / Mann-Whitney Test t-Student / Rangs signés Wilcoxon

13 / 33

Comparaison de 2 moyennes - Tests

Comparaison de deux moyennes

Echantillons indépendants Echantillons appariés


2 populations distinctes (P1 , P2 ) 1 population
X (variable quantitative) X (variable quantitative)
observée dans chaque population observée dans 2 conditions
µ1 = Moyenne de X dans P1 µ1 = Moyenne de X dans dans C1
µ2 = Moyenne de X dans P2 µ2 = Moyenne de X dans dans C2

Test t-Student / Mann-Whitney Test t-Student / Rangs signés Wilcoxon

14 / 33
Comparaison de 2 moyennes indépendantes - test t - Student

Considérons deux populations (P1 et P2) et X une variable quantitative qui


présente une distribution Normale dans chaque groupe. Désignons par µ1 , µ2
et σ12 , σ22 les moyennes et variances de X dans les deux populations. De plus,
supposons que σ12 = σ22 = σ 2 (homoscédasticité)

2 conditions d’applications :
1) La variable x doit avoir une distribution normale dans les 2 groupes.
2) Homoscédasticité. La variable x a la même variabilité dans chaque groupe. (La courbe/cloche doit avoir la même forme)

15 / 33

Comparaison de 2 moyennes indépendantes - test t - Student (exemple)

Age (années)
Patients avec traumatisme crânien
Bonne récupération Incapacité sévère

38 29 A partir des données, on peut calculer la


19 9
17 14 moyenne (x̄) et l’écart-type (s) de l’âge dans
16 3 les deux groupes de patients. On se pose alors
28 24 la question de savoir si l’âge différe entre ces
12 19 deux groupes de patients.
11 23
19 23
18 En d’autres termes, on pose l’hypothèse
17 nulle H0 que l’âge moyen est le même dans
8
11 les deux groupes de patients !
7
n1 = 13 n2 = 8 Nombre de sujet. Pas besoin d’avoir le même nombre.
x̄1 = 17 x̄2 = 18
s1 = 8.42 s2 = 8.70

16 / 33
Comparaison de 2 moyennes indépendantes - test t - Student
1. Hypothèses : H0 : µ1 = µ2 vs H1 : µ1 6= µ2
où µ1 est la moyenne de X dans P1
où µ2 est la moyenne de X dans P2

2. Données : échantillon de n1 sujets extrait de P1 ⇒ (x̄1 , s1 )


échantillon de n2 sujets extrait de P2 ⇒ (x̄2 , s2 )

3. Niveau d’incertitude : α = 0.05

4. Test : s
x̄ − x̄2 (n1 − 1)s12 + (n2 − 1)s22
T = q1 sp =
sp n11 + n12 n1 + n2 − 2

Sous H0 , T est distribué comme un t de Student à ν = n1 + n2 − 2 dl

5. P-valeur : P-valeur correspondante (Rcmdr)

6. Décision : on rejette H0 si P-valeur ≤ α


17 / 33

Comparaison de 2 moyennes indépendantes - test t - Student (exemple)

Age (années)
Patients avec traumatisme crânien
Bonne récupération Incapacité sévère

38 29
19 9
17 14
16 3
28 24
12 19
11 23
19 23
18
17
8
11
7

n1 = 13 n2 = 8
x̄1 = 17 x̄2 = 18
s1 = 8.42 s2 = 8.70

18 / 33
Comparaison de 2 moyennes indépendantes - test t - Student (exemple)

1. Hypothèses : H0 : µ1 = µ2 vs H1 : µ1 6= µ2
Age (années)
où µ1 est l’âge moyen des patients en bonne
Patients avec traumatisme crânien récupération
Bonne récupération Incapacité sévère où µ2 est l’âge moyen des patients en incapacité
sévère
Variable binaire : bonne
38 29 2. Données : Voir bas table récupération ou pas. Il
19 9 faut donc en faire des
17 14 3. Niveau d’incertitude : α = 0.05 facteurs.
16 3 4. Test :
28 24 q
12 19 sp = (12 × 8.422 + 7 × 8.702 )/19 = 8.52
11 23
19 23 17 − 18
18 T = q = −0.26
1 1
17 8.52 13 + 8
8 ν = 13 + 8 − 2 = 19
11
7
5. P-Valeur : p = 0.80
n1 = 13 n2 = 8 6. Décision : Puisque p > 0.05, on ne peut
x̄1 = 17 x̄2 = 18 pas rejetter H0 . Il n’y a donc pas de différence
s1 = 8.42 s2 = 8.70 significative au niveau de l’âge entre les deux
groupes de patients.

19 / 33

Comparaison de 2 moyennes indépendantes - test t - Student (Littérature)

On sait qu’on a utilisé un test t


student car c’est présenté par
la moyenne +-EC

La glycémie est significativement plus élevée dans le groupe où la maladie est active. 20 / 33
Comparaison de 2 moyennes indépendantes - test t - Student (condition)

Comment vérifier les conditions d’application ?

• Normalité de X dans 2 groupes


Paramètres de position : moyenne vs médiane
Graphique : Histogramme, QQ-plot, Boxplot

• Homoscédasticité de X entre les 2 groupes Si p valeur significative : ce


H0 : σ12 = σ22 vs H1 : σ12 6= σ22 n’est pas bon car on n’a pas
la même chose dans les 2
où σ12 (resp. σ22 ) variance de X dans P1 (resp. P2 ) groupes.
L’objectif est d’avoir une
valeur non significative.

Rcmdr :

21 / 33

Comparaison de 2 moyennes indépendantes - Mann-Whitney

Considérons deux populations (P1 et P2) et X une variable quantitative qui


présente une distribution Normale dans chaque groupe. Désignons par µ1 , µ2
et σ12 , σ22 les moyennes et variances de X dans les deux populations. De plus,
supposons que σ12 = σ22 = σ 2 (homoscédasticité)

Si l’hypothèse de Normalité n’est pas respectée ?


• Essayer de normaliser en appliquant une transformation (chaque groupe)
• Utiliser un test non-paramétrique ⇒ Mann-Whitney
Si l’hypothèse d’homoscédasticité n’est pas respectée ?
• Utiliser un test paramétrique corrigé ⇒ test-t de Welch (Rcmdr)
• Utiliser un test non-paramétrique ⇒ Mann-Whitney

Si X est ordinale
• Utiliser un test non-paramétrique ⇒ Mann-Whitney

22 / 33
Comparaison de 2 moyennes indépendantes - Mann-Whitney (Exemple)

Cancer N Durée de vie (jours)


Estomac 13 124, 42, 25, 45, 412, 51, 1112, 46, 103,
876, 146, 340, 396

Sein 11 1235, 24, 1581, 1166, 40, 727, 3808,


791, 1804, 3460, 719

La durée de vie est-elle comparable entre les patients atteints d’un cancer de
l’estomac et les patients atteints d’un cancer du sein ?

23 / 33

Comparaison de 2 moyennes indépendantes - Mann-Whitney (Exemple)

Investigation de l’hypothèse de Normalité pour la distribution de la durée de


survie dans les deux groupes de patients :

Les conditions d’application sont-elles respectées ?


On ne respecte pas les conditions -> Test non-paramétrique

24 / 33
Comparaison de 2 moyennes indépendantes - Mann-Whitney
1. Hypothèses : H0 : Médiane1 = Médiane2 vs H1 : Médiane1 6= Médiane2
où Médiane1 est la médiane de X dans P1
où Médiane2 est la médiane de X dans P2

2. Données : échantillon de n1 sujets extrait de P1


échantillon de n2 sujets extrait de P2

3. Niveau d’incertitude :α = 0.05

4. Test :
• Supposons que n1 ≤ n2
• Trier les n1 + n2 observations par ordre croissant et attribuer des rangs
• T = Somme des rangs des n1 observations de l’échantillon 1
• Calculer U = T − n1 (n1 + 1)/2
• On obtient une statistique U (U = test de Mann-Whitney)

5. P-valeur : P-valeur correspondante (Rcmdr)

6. Décision : on rejette H0 si P-valeur ≤ α


25 / 33

Comparaison de 2 moyennes indépendantes - Mann-Whitney (Exemple)

Cancer Durée de vie (jours)


Estomac 124 42 25 45 412 51 1112 46 103 876 146 340 396
Sein 1235 24 1581 1166 40 727 3808 791 1804 3460 719

26 / 33
Comparaison de 2 moyennes indépendantes - Mann-Whitney (Exemple)

Cancer Durée de vie (jours)


Estomac 124 42 25 45 412 51 1112 46 103 876 146 340 396
n1 = 13 (9) (4) (2) (5) (13) (7) (18) (6) (8) (17) (10) (11) (12)
Sein 1235 24 1581 1166 40 727 3808 791 1804 3460 719
n2 = 11 (20) (1) (21) (19) (3) (15) (24) (16) (22) (23) (14)

1. Hypothèses : H0 : Médiane1 = Médiane2 vs H1 : Médiane1 6= Médiane2


où Médiane1 est la durée de vie médiane des patients atteints d’un cancer de estomac
où Médiane2 est la durée de vie médiane des patients atteints d’un cancer du sein
2. Données : voir table (attribution des rangs)
3. Niveau d’incertitude : α = 0.05
4. Test :
T = 178 U = 178 − 11(11 + 1)/2 = 112
5. P-valeur : p = 0.018
6. Décision : Puisque p < 0.05, on rejette H0 . Il y a une différence significative de
la durée de vie entre les deux types de cancer. La durée de vie est
significativement plus grande chez les patients atteints d’un cancer du sein.

27 / 33

Comparaison de 2 moyennes indépendantes - Mann-Whitney (Littérature)

28 / 33
Comparaison de 2 moyennes indépendantes - Mann-Whitney (Littérature)

Médiane (IQR) = pas une distribution normale 29 / 33

Comparaison de 2 moyennes indépendantes - Mann-Whitney (Littérature)

Non-paramétrique = box-plot

30 / 33
Variable quantitative (I) - Objectifs

A la fin de cette leçon, vous devrez être capables de :

• reconnaı̂tre un problème de comparaison d’une variable quantitative


entre deux populations indépendantes

• connaı̂tre les conditions d’application d’un test t-Student

• comprendre et appliquer le test t-Student

• comprendre et appliquer le test de Mann-Whitney

• interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique

31 / 33

Variable quantitative (I) - Rcmdr


Test t-Student

Test de Mann-Whitney

32 / 33
Test d’hypothèses - Tests à voir

Corrélation Moyennes (X quantitative)


H0 : ρ = 0 H0 : μ1 = μ2

X,Y quantitatives Indépendantes Appariées


test t Student (ν = n-2) test t Student (ν = n1+n2-2) test t Student (ν = n-1)
Spearman Mann-Whitney Rangs signés de Wilcoxon

Proportions (X binaires)
H0 : π1 = π2
Indépendantes Appariées
test χ² (ν = 1) test Mc Nemar (ν = 1)

33 / 33
Biostatistique I - STAT1001-1
Cours 8 - Test d’hypothèses - variable
quantitative (II)

Anne-Françoise DONNEAU, PhD


afdonneau@ulg.ac.be

Professeur
Université de Liège

Année académique 2021-2022

1 / 34

Agenda - Cours théoriques

Date Heure Matière


24/09 10h45-12h45 Introduction
01/10 10h45-12h45 Paramètres de position et de dispersion
08/10 10h15-12h15 Association
15/10 10h15-12h15 Intervalle de confiance
22/10 10h15-12h15 Test d’hypothèses - corrélation - normalité
29/10 10h15-12h15 Test d’hypothèses - table 2 × 2
05/11 10h15-12h15 Test d’hypothèses - variable quantitative (I)
12/11 10h15-12h15 Test d’hypothèses - variable quantitative (II)

2 / 34
Quizz Cours 7 -

Quel test est le plus approprié pour comparer X entre les deux groupes ?
a Test de Mann-Whitney
b Test t-Student
c Corrélation nulle de Spearman
d Corrélation nulle de Pearson

3 / 34

Quizz Cours 7 -

Dans cet article, quelle est l’hypothèse nulle testée par les auteurs pour
comparer l’âge entre les deux groupes de sujets ?
a H0 : ρ = 0
b H0 : µ1 = µ2
c H0 : Médiane1 = Médiane2
d H 0 : π1 = π2

4 / 34
Quizz Cours 7 -

Sur base des informations disponibles dans cette table, quelle était la décision
des auteurs vis-à-vis de l’hypothèse nulle (H0 : Médiane1 = Médiane2 ) ?
a Rejet de H0 , les sujets supplémentés sont significativement plus âgés que
les non-supplémentés
b Rejet de H0 , les sujets non-supplémentés sont significativement plus âgés
que les supplémentés
c On ne peut pas rejeter H0
d Impossible à dire sans avoir les données complétes

5 / 34

Quizz Cours 7 -

Sur base des informations disponibles dans cette table, que peut-on conclure ?
a Le nombre moyen de médicaments prescrits (Mdrugs) est significativement
plus élevé chez les hommes.
b Le nombre moyen de médicaments prescrits (Mdrugs) est significativement
plus élevé chez les femmes.
c Le nombre moyen de médicaments prescrits (Mdrugs) est indépendant du sexe.
d Impossible à dire.

6 / 34
Agenda

Date Matière
24/09 Introduction
01/10 Paramètres de position et de dispersion
08/10 Association
15/10 Intervalle de confiance
22/10 Test d’hypothèses - corrélation - normalité
30/10 Test d’hypothèses - table 2 × 2
05/11 Test d’hypothèses - variable quantitative (I)
12/11 Test d’hypothèses - variable quantitative (II)

7 / 34

Test d’hypothèses - Tests à voir

Corrélation Moyennes (X quantitative)


H0 : ρ = 0 H0 : μ1 = μ2

X,Y quantitatives Indépendantes Appariées


test t Student (ν = n-2) test t Student (ν = n1+n2-2) test t Student (ν = n-1)
Spearman Mann-Whitney Rangs signés de Wilcoxon

Proportions (X binaires)
H0 : π1 = π2
Indépendantes Appariées
test χ² (ν = 1) test Mc Nemar (ν = 1)

8 / 34
Variable quantitative (II) - Objectifs

A la fin de cette leçon, vous devrez être capables de :

• connaı̂tre les conditions d’application d’un test t-Student

• comprendre et appliquer le test t-Student

• comprendre et appliquer le test des rangs signés de Wilcoxon

• reconnaı̂tre un problème de comparaison d’une variable quantitative pour


populations appariées

• interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique

9 / 34

Comparaison de 2 moyennes - Tests

Comparaison de deux moyennes

Echantillons indépendants Echantillons appariés


2 populations distinctes (P1 , P2 ) 1 population
X (variable quantitative) X (variable quantitative)
observée dans chaque population observée dans 2 conditions
µ1 = Moyenne de X dans P1 µ1 = Moyenne de X dans dans C1
µ2 = Moyenne de X dans P2 µ2 = Moyenne de X dans dans C2

Test t-Student / Mann-Whitney Test t-Student / Rangs signés Wilcoxon

10 / 34
Comparaison de 2 moyennes - Tests

Comparaison de deux moyennes

Echantillons indépendants Echantillons appariés


2 populations distinctes (P1 , P2 ) 1 population
X (variable quantitative) X (variable quantitative)
observée dans chaque population observée dans 2 conditions
µ1 = Moyenne de X dans P1 µ1 = Moyenne de X dans dans C1
µ2 = Moyenne de X dans P2 µ2 = Moyenne de X dans dans C2

Test t-Student / Mann-Whitney Test t-Student / Rangs signés Wilcoxon

11 / 34

Comparaison de 2 moyennes appariées - test t Student

• Une variable quantitative X est mesurée à deux reprises sur les individus
d’une même population.
• Mesures répétées / X est mesurée dans différentes “conditions
expérimentales”
• Existe-t-il une différence entre les “conditions expérimentales” ?
⇒ Comparaison des moyennes dans les différentes “conditions
expérimentales”

Exemples :
1. Mesure de la pression artérielle systolique d’un groupe de patients en position
assise et debout
2. Recensement du nombre de patients hospitalisés dans plusieurs hôpitaux au
printemps-été et en automne-hiver.

Chaque unité statistique (patient, hôpital) est son propre contrôle !

12 / 34
Comparaison de 2 moyennes appariées - test t Student

Considérons une population et X une variable quantitative mesurée à deux


occasions. Désignons par µ1 et µ2 les moyennes de X à ces deux occasions et
∆ = µ1 − µ2 . De plus, supposons que ∆ présente une distribution Normale.
C1
Sujet C2 C2 Différence
1 x11 x12 d1
2 x21 x22 d2
3 x31 x32 d3
... ... ... ...
... ... ... ...
n xn1 xn2 dn
x̄1 ± s1 x̄2 ± s2 d¯ ± sd
Attention : il faut vérifier que la différence (nouvelle variable) suit une distribution normale

Si la moyenne est respectée on peut résumer la variable par moyenne et écart-type

13 / 34

Comparaison de 2 moyennes appariées - test t Student (exemple)

Régime - Cholestérol (g/L)


Sujet Avant Après Différence
1 2.01 2.00 −0.01
A partir des données, on peut calculer la moyenne
2 2.31 2.36 +0.05
(x̄) et l’écart-type (s) du cholestérol dans les deux
3 2.21 2.16 −0.05 conditions (Avant, Après). Pour chaque sujet, on
4 2.66 2.33 −0.33 peut calculer la différence du cholestérol entre
5 2.28 2.24 −0.04 avant et après le régime. Cette nouvelle variable
6 2.37 2.16 −0.21 peut aussi être résumée en calculant la moyenne
(x̄) et l’écart-type (s). On se pose alors la question
7 3.26 2.96 −0.30
de savoir si le régime a un impact sur le cholestérol.
8 2.35 1.95 −0.40
9 2.40 2.07 −0.33
En d’autres termes, on pose l’hypothèse nulle H0
10 2.67 2.47 −0.20
que le taux moyen de cholestérol est le même
11 2.84 2.10 −0.74 avant et après le régime !
12 2.01 2.09 +0.08
x̄ 2.44 2.24 −0.20
s 0.36 0.27 0.23

14 / 34
Comparaison de 2 moyennes appariées - test t Student

1. Hypothèses : H0 : µ1 = µ2 (∆ = 0) vs H1 : µ1 6= µ2 (∆ 6= 0)
où µ1 est la moyenne de X dans C1
où µ2 est la moyenne de X dans C2

2. Données : échantillon de n sujets mesurés à deux occasions


(xi1 , xi2 ) → di = xi1 − xi2 → d¯ ± sd

3. Niveau d’incertitude : α = 0.05

4. Test : d¯ √
T = n
sd
Sous H0 , T est distribué comme un Student t-test avec ν = n − 1 df

On rejette H0 si la p valeur est égale ou


5. P-Valeur : P-valeur correspondante (Rcmdr) inférieure à 0,05

6. Décision : on rejette H0 si P-valeur ≤ α


15 / 34

Comparaison de 2 moyennes appariées - test t Student (exemple)

Régime - Cholestérol (g/L)


Sujet Avant Après Différence
1 2.01 2.00 −0.01
2 2.31 2.36 +0.05
3 2.21 2.16 −0.05
4 2.66 2.33 −0.33
5 2.28 2.24 −0.04
6 2.37 2.16 −0.21
7 3.26 2.96 −0.30
8 2.35 1.95 −0.40
9 2.40 2.07 −0.33
10 2.67 2.47 −0.20
11 2.84 2.10 −0.74
12 2.01 2.09 +0.08
x̄ 2.44 2.24 −0.20
s 0.36 0.27 0.23

16 / 34
Comparaison de 2 moyennes appariées - test t Student (exemple)

Régime - Cholestérol (g/L)


Sujet Avant Après Différence
1. Hypothèses : H0 : µ1 = µ2 vs H1 : µ1 6= µ2
1 2.01 2.00 −0.01 où µ1 est le taux de cholestérol moyen avant régime
2 2.31 2.36 +0.05 où µ2 est le taux de cholestérol moyen après régime
3 2.21 2.16 −0.05 2. Données : voir bas table
4 2.66 2.33 −0.33 3. Niveau d’incertitude : α = 0.05
5 2.28 2.24 −0.04
4. Test :
6 2.37 2.16 −0.21 √
7 3.26 2.96 −0.30 −0.202 × 12
T = = −3.06
8 2.35 1.95 −0.40 0.2313
ν = 12 − 1 = 11
9 2.40 2.07 −0.33
10 2.67 2.47 −0.20
5. P-Valeur : p = 0.011
11 2.84 2.10 −0.74
6. Décision : Puisque p < 0.05, on rejette H0 .
12 2.01 2.09 +0.08
Il y a un effet statistiquement significatif du
x̄ 2.44 2.24 −0.20 régime sur le taux de cholestérol.
s 0.36 0.27 0.23 Le taux est plus bas de manière statistiquement significative.

17 / 34

Comparaison de 2 moyennes appariées - test t Student (Littérature)

18 / 34
Comparaison de 2 moyennes appariées - test t Student (Littérature)

19 / 34

Comparaison de 2 moyennes appariées - test t Student (condition)

Comment vérifier la condition d’application ?

• Normalité de la différence X entre les 2 conditions


Paramètres de position : moyenne vs médiane
Graphique : Histogramme, QQ-plot, Boxplot

20 / 34
Comparaison 2 populations appariées - Rangs signés Wilcoxon

Considérons une population et X une variable quantitative mesurée à deux


occasions. Désignons par µ1 et µ2 les moyennes de X à ces deux occasions.
Soit ∆ = µ1 − µ2 qui présente une distribution Normale

Si l’hypothèse de Normalité n’est pas respectée ?


• Essayer de normaliser en appliquant une transformation
• Utiliser un test non-paramétrique ⇒ Rangs signés Wilcoxon

La normalité doit être vérifier sur la différence. Pas besoin de vérifier pour les 3 colonnes.

21 / 34

Comparaison 2 populations appariées - Rangs signés Wilcoxon (exemple)

Temps de coagulation du plasma (min)


Sujet Traitement 1 Traitment 2 Différence
1 8.4 9.4 −1.0
2 12.8 15.2 −2.4
3 9.6 9.1 +0.5
4 9.8 8.8 +1.0
5 8.4 8.2 +0.2
6 8.6 9.9 −1.3
7 8.9 9 −0.1
8 7.9 8.1 −0.2

Le temps de coagulation du plasma est-il comparable entre les deux types de


traitements ?

22 / 34
Comparaison 2 populations appariées - Rangs signés Wilcoxon (exemple)

Investigation de l’hypothèse de normalité pour la distribution de la différence


du temps de coagulation entre les deux traitements (administrés à chaque
sujet ! !) :


4

2.0
Sample Quantiles
3
Frequency

1.5

2

1.0
● ●
1

0.5

● ●

0

0.0 0.5 1.0 1.5 2.0 2.5 −1.5 −1.0 −0.5 0.0 0.5 1.0 1.5

Différence du temps de coagulation du plasma (min) Theoretical Quantiles

La condition d’application est-elle respectée ?

23 / 34

Comparaison 2 populations appariées - Rangs signés Wilcoxon

1. Hypothèses : H0 : Médiane1 = Médiane2 vs H1 : Médiane1 6= Médiane2


où Médiane1 est la médiane de X dans C1
où Médiane2 est la médiane de X dans C2

2. Données : échantillon de n sujets mesurés à deux occasions

3. Niveau d’incertitude :α = 0.05

4. Test :
• Calculer les différences di = xi1 − xi2 (i = 1, . . . , n)
• Eliminer les différences nulles éventuelles, corriger n
• Trier les valeurs absolues |di | par ordre croissant
• Attribuer un rang à chaque |di |
• Calculer, V+ , la somme des rangs des différences positives (di > 0)
• Calculer, V− , la somme des rangs des différences négatives (di < 0)
• Calculer V = min(V+ , V− )

5. P-valeur : P-valeur correspondante (Rcmdr)

6. Décision : on rejette H0 si P-valeur ≤ α


24 / 34
Comparaison de 2 population appariées - Rangs signés Wilcoxon (exemple)

Temps de coagulation du
plasma (min)
Sujet Trt1 Trt2 Diff.
1 8.4 9.4 −1.0
2 12.8 15.2 −2.4
3 9.6 9.1 +0.5
4 9.8 8.8 +1.0
5 8.4 8.2 +0.2
6 8.6 9.9 −1.3
7 8.9 9 −0.1
8 7.9 8.1 −0.2

25 / 34

Comparaison de 2 population appariées - Rangs signés Wilcoxon (exemple)

1. Hypothèses : H0 : Médiane1 = Médiane2 vs


Temps de coagulation du H1 : Médiane1 6= Médiane2
plasma (min) où Médiane1 est la médiane du tps de coagulation sous Trt1
où Médiane2 est la médiane du tps de coagulation sous Trt1
Sujet Trt1 Trt2 Diff.
2. Données : voir table (attribution des rangs)
1 8.4 9.4 −1.0(5.5)
2 12.8 15.2 −2.4(8) 3. Niveau d’incertitude : α = 0.05
3 9.6 9.1 +0.5(4) 4. Test :
4 9.8 8.8 +1.0(5.5) V+ = 12 V− = 24
5 8.4 8.2 +0.2(2.5) V = min(V+ , V− ) = 12
6 8.6 9.9 −1.3(7)
7 8.9 9 −0.1(1) 5. P-valeur : p = 0.48
8 7.9 8.1 −0.2(2.5) 6. Décision : Puisque p > 0.05, on ne peut pas rejeter H0 .
Il n’y a pas d’effet du traitement sur le temps de
coagulation du plasma.

26 / 34
Comparaison 2 populations appariées - Rangs signés Wilcoxon (Littérature)

27 / 34

Variable quantitative (II) - Objectifs

A la fin de cette leçon, vous devrez être capables de :

• connaı̂tre les conditions d’application d’un test t-Student

• comprendre et appliquer le test t-Student

• comprendre et appliquer le test des rangs signés de Wilcoxon

• reconnaı̂tre un problème de comparaison d’une variable quantitative pour


populations appariées

• interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique

28 / 34
Variable quantitative (II) - Rcmdr
Test t-Student apparié

Test des rangs signés Wilcoxon

29 / 34

Test d’hypothèses - Tests à voir

Corrélation Moyennes (X quantitative)


H0 : ρ = 0 H0 : μ1 = μ2

X,Y quantitatives Indépendantes Appariées


test t Student (ν = n-2) test t Student (ν = n1+n2-2) test t Student (ν = n-1)
Spearman Mann-Whitney Rangs signés de Wilcoxon

Proportions (X binaires)
H0 : π1 = π2
Indépendantes Appariées
test χ² (ν = 1) test Mc Nemar (ν = 1)

30 / 34
Objectifs du cours
A la fin de ce cours, vous devrez être capables de :

• Comprendre les termes statistiques de base (population, échantillon,. . .)

• Analyser graphiquement et numériquement des données

• Reformuler une question de recherche en termes d’hypothèses


statistiques

• Choisir la méthode statistique adaptée et savoir l’appliquer (Rcmdr)

• Interpréter les résultats

• Interpréter le résultat d’un test d’hypothèses présenté dans un article


scientifique

31 / 34

Evaluation

Evaluation en janvier

• Durée - 2h

• Questions de réflexion (QCM) - 30min - 1/3 des points

• Résolutions d’exercices (Rcmdr) - 1h30 - 2/3 des points

32 / 34
Formulaire (1/2)

Paramètres de position Paramètres de dispersion Association


 Moyenne  Ecart-type  Corrélation Pearson
1 𝑛
(∑ 𝑥)2
𝑥̅ = ∑ 𝑥𝑖
√∑ 𝑥 − 𝑛
2
𝑛 (∑ 𝑥)(∑ 𝑦)
𝑖=1
𝑠= ∑ 𝑥𝑦 −
𝑛−1 𝑟= 𝑛
(∑ 𝑥)² (∑ 𝑦)²
1 𝑘
(∑ 𝑎𝑖 𝑟𝑖 )2 √[∑ 𝑥 2 − ] [∑ 𝑦 2 − ]
𝑥̅ = ∑ 𝑎𝑖 × 𝑟𝑖 2 𝑛 𝑛
𝑛 𝑖=1 √∑ 𝑎𝑖 𝑟𝑖 − 𝑛
𝑠=
𝑛−1
 Corrélation Spearman
1 𝐽
(∑ 𝐶𝑖 𝑟𝑖 )2
𝑥̅𝑎𝑝𝑝 = ∑ 𝐶𝑖 × 𝑟𝑖 2
𝑛 √∑ 𝐶𝑖 𝑟𝑖 −
𝑛 6 ∑ 𝑑2
𝑖=1 𝑠𝑎𝑝𝑝 = 𝑟𝑠 = 1 −
𝑛−1 𝑛(𝑛2 − 1)
 Médiane avec 𝑑𝑖 = 𝑟𝑎𝑛𝑔(𝑥𝑖 ) − 𝑟𝑎𝑛𝑔(𝑦𝑖 )
Si 𝑛 est impair, 𝑥(𝑛+1) 𝑠
2 𝑆𝐸(𝑥̅ ) =  Régression linéaire
√𝑛
𝑥 𝑛 +𝑥 𝑛 𝑌̂ = 𝑎 + 𝑏𝑥
( ) ( +1)
2 2
Si 𝑛 est pair, 𝑝(1 − 𝑝) (∑ 𝑥)(∑ 𝑦)
2 ∑ 𝑥𝑦 −
𝑆𝐸(𝑝) = √ 𝑏= 𝑛 𝑎 = 𝑦̅ − 𝑏 𝑥̅
𝑛 (∑ 𝑥)²
 Quartiles [∑ 𝑥 2 − ]
𝑛
𝑥(𝑟3) +𝑥(𝑟4) 𝑥(𝑟5) +𝑥(𝑟6) 𝑠
𝑃25 = 2
et 𝑃75 = 2
𝑆𝐸(𝑃50 ) = 1.25 ×
√𝑛 (∑ 𝑥)(∑ 𝑦) 2
[∑ 𝑥𝑦 − ]
𝑛
𝑛+1 𝑟1 𝑟² =
𝑟1 ≤ , 𝑟2 ≤ 2 (∑ 𝑥)² 2
(∑ 𝑦)²
2 2 [∑ 𝑥 − ] [∑ 𝑦 − ]
𝑛 𝑛
𝑟3 = 𝑟2 + 1, 𝑟4 = 𝑟1 − 𝑟2
𝑟5 = 𝑛 + 1 − 𝑟1 + 𝑟2, 𝑟6 = 𝑛 − 𝑟2
𝑟1 et 𝑟2 les plus grands entiers

33 / 34

Formulaire (2/2)

Test Hypothèses Test Seuil de décision


Corrélation nulle H0:   0 n2 𝑄𝑡 (0.975, 𝑛 − 2)
T r
H1:   0 1 r2
Comparaison de proportions non-appariées H0:  1   2
T
ad  bc  n 2
𝑄𝜒2 (0.95, 1) = 3.841
H1:  1   2 a  ba  c c  d b  d 
Comparaison de proportions appariées H0:  1   2  b  c  1² 𝑄𝜒2 (0.95, 1) = 3.841
H1:  1   2 T
b  c 
Comparaison de moyennes non-appariées H0: 1   2 x1  x 2 𝑄𝑡 (0.975, 𝑛1 + 𝑛2 − 2)
- paramétrique H1: 1   2 T
1 1
sp 
n1 n 2
n1  1s12  n2  1s22
avec sp 
n1  n2  2
Comparaison de 2 groupes non-appariés H0: M 1  M 2 𝑈 = 𝑇 − 𝑛1 (𝑛1 + 1)/2 𝑈0.975
- non-paramétrique H1: M 1  M 2 avec 𝑇 = somme de rangs des 𝑛1 observations 𝑈0.025 = 𝑛1 𝑛2− 𝑈0.975
(𝑛1 ≤ 𝑛2 )

Comparaison de moyennes appariées H0:   0 d n 𝑄𝑡 (0.975, 𝑛 − 1)


- paramétrique H1:   0 T
sd
Comparaison de 2 groupes appariés H0: M 1  M 2 𝑉 = min(𝑉+, 𝑉− ) 𝑉0.025
- non-paramétrique H1: M 1  M 2 avec 𝑉+ = somme de rangs des différences > 0
𝑉− = somme de rangs des différences < 0

34 / 34

Vous aimerez peut-être aussi