Test Stat R
Test Stat R
Test Stat R
Christophe Chesneau
https://chesneau.users.lmno.cnrs.fr/
1 Notions de base 5
7 Exercices 39
8 Solutions 45
∼ Note ∼
L’objectif de ce document est de présenter les principaux tests statistiques et commandes R
utilisés dans la pratique. Ce document complète certains points du livre :
http://www.editions-ellipses.fr/product_info.php?products_id=10674
C. Chesneau 3
1 Notions de base
1 Notions de base
Population et individus
Une population est un ensemble d’objets sur lesquels une étude se porte. Ces objets sont appelés
individus.
Caractère/variable
Toute propriété étudiée chez les individus d’une population est appelée caractère.
Nature d’un caractère
Un caractère est dit :
◦ quantitatif s’il mesure une quantité ou un nombre (le nombre de personnes dans une salle, le
salaire en euros d’un employé d’une entreprise, le nombre d’articles dans une liste de courses, le
temps de réalisation d’une travail en heures. . . ),
◦ qualitatif/catégoriel s’il mesure une catégorie (la couleur des yeux d’une femme, la marque du
téléphone portable d’un étudiant, la présence ou l’absence d’un défaut de fabrication dans l’em-
ballage d’un produit. . . ). Les valeurs sont appelées modalités.
Échantillon
Un échantillon est un ensemble d’individus issus d’une population.
Données
Les données sont les observations de caractères sur les individus d’un échantillon.
Estimation paramétrique
L’enjeu de l’estimation paramétrique est d’évaluer/estimer avec précision un ou plusieurs para-
mètres inconnus émanant de caractères à partir des données.
Moyenne et écart-type corrigé
La moyenne et l’écart-type corrigé des données sont les principales mesures statistiques intervenant
en estimation paramétrique.
C. Chesneau 5
1 Notions de base
En notant X un caractère numérique (il peut être quantitatif, ou qualitatif avec un codage numé-
rique), n le nombre d’individus d’un échantillon et x1 , . . . , xn les données associées, on définit :
◦ La moyenne de x1 , . . . , xn :
n
1X
x= xi .
n
i=1
Individu Pomme
x1 x2 x3 x4 x5 x6 x7
Données
162 155 148 171 151 165 154
C. Chesneau 6
1 Notions de base
Modélisation
Loi normale. Si le caractère X représente une grandeur sujette à une somme d’erreurs mineures indé-
pendantes, on le modélise comme une var X ∼ N (µ, σ 2 ).
Par exemple, X peut être : poids, taille, temps, distance, masse, vitesse, température, indice, score,
salaire, note, quantité ou teneur. En outre, la taille en centimètres d’un homme est une var X suivant
la loi normale N (175, 62 ) (le "est" est un abus de langage ; la var X est l’application qui, à chaque
homme choisi au hasard dans la population, associe sa taille exprimée en centimètres. Il est plus précis
de dire : la taille en centimètres d’un homme peut être modélisée par une var X suivant la loi normale
N (175, 62 )). Dans ce cas, µ est la moyenne de X et σ 2 mesure la variabilité de X autour de µ.
Loi de Bernoulli. Si X prend deux valeurs : 0 ou 1, correspondant souvent à un codage binaire, on le
modélise comme une var X ∼ B(p).
Par exemple, X = 1 peut caractériser :
◦ le succès à une épreuve,
◦ la présence d’un élément caractéristique.
Le paramètre p est la probabilité que X = 1 se réalise, laquelle peut aussi s’interpréter en terme de
proportion d’individus dans la population vérifiant X = 1.
Exemple.
Individu Fromage
Modélisation X ∼ N (µ, σ 2 )
de conditionnement et Y = 0 sinon
Modélisation Y ∼ B(p)
C. Chesneau 7
2 Bases des tests statistiques
Hypothèses
On oppose deux hypothèses complémentaires : H0 et H1 ,
◦ l’hypothèse H0 formule ce que l’on souhaite rejeter/réfuter,
◦ l’hypothèse H1 formule ce que l’on souhaite montrer.
Par exemple, si on veut montrer l’hypothèse "lot non conforme", H0 et H1 s’opposent sous la forme :
Notion de risque
Le risque (de première espèce) est le pourcentage de chances de rejeter H0 , donc d’accepter H1 ,
alors que H0 est vraie. On veut que ce risque soit aussi faible que possible.
Il s’écrit sous la forme : 100α%, avec α ∈]0, 1[ (par exemple, 5%, soit α = 0.05).
Le réel α est alors la probabilité de rejeter H0 alors que H0 est vraie.
Le rejet de H0 est dit "significatif" si elle est rejetée au risque 5%.
Test statistique
Un test statistique est une procédure qui vise à apporter une réponse à la question :
Est-ce que les données nous permettent de rejeter H0 , donc d’accepter H1 , avec un faible risque de
se tromper ?
Types de test statistique sur un paramètre :
Lorsque le test statistique porte sur un paramètre inconnu θ, on dit que le test est
◦ bilatéral si H1 est de la forme H1 : θ 6= . . .
◦ unilatéral à gauche (sens de <) si H1 est de la forme H1 : θ < . . .
◦ unilatéral à droite (sens de >) si H1 est de la forme H1 : θ > . . .
p-valeur
La p-valeur est le plus petit réel α ∈]0, 1[ calculé à partir des données tel que l’on puisse se
permettre de rejeter H0 au risque 100α%. Autrement écrit, la p-valeur est une estimation ponctuelle
de la probabilité critique de se tromper en rejetant H0 alors que H0 est vraie.
C. Chesneau 9
2 Bases des tests statistiques
C. Chesneau 10
3 Tests de conformité à une valeur de référence
Enjeu
L’enjeu d’un test de conformité est d’affirmer, avec un faible risque de se tromper, qu’une norme
associée à un caractère X (sa moyenne, une proportion. . . ) n’est plus conforme à la réalité.
Ainsi, en posant H1 : "la norme n’est plus conforme", on se pose la question : Est-ce que les données
x1 , . . . , xn , observations de X, nous permettent de rejeter H0 , donc d’accepter H1 , avec un faible risque
de se tromper ?
Formules : p-valeurs
Pn q Pn
Lois : Z ∼ N (0, 1), T ∼ T (ν) et K ∼ χ2 (ν), ν = n − 1. Outils : x = 1
n i=1 xi , s = 1
n−1 i=1 (xi − x)2 .
µ 6= µ0 P(|Z| ≥ |zobs |)
σ connu : √
x − µ0
µ > µ0 zobs = n P(Z ≥ zobs )
Z-Test σ
µ < µ0 P(Z ≤ zobs )
µ 6= µ0 P(|T | ≥ |tobs |)
σ inconnu : √
x − µ0
µ > µ0 tobs = n P(T ≥ tobs )
T-Test s
µ < µ0 P(T ≤ tobs )
C. Chesneau 11
C. Chesneau
Commandes
Pour les commandes ci-dessous et à venir, on considère les libraries stats et OneTwoSamples :
library(stats)
library(OneTwoSamples)
X ∼ B(p) H1 Commandes
Remarque : En omettant les commandes $p.value (ou $p_value ou $P_value), les commandes renvoient plus d’éléments associés
au test statistique considéré, dont la p-valeur (statistique de test observée, degré de liberté, intervalle de confiance. . . ).
3 Tests de conformité à une valeur de référence
Exemples
Exemple 1. Une entreprise utilise une matière isolante pour fabriquer des appareils de contrôle indus-
triel. Elle achète des composants isolants à un certain fournisseur qui certifie que l’épaisseur moyenne de
ses composants est de 7.3 millimètres. Pour voir si le fournisseur respecte ses engagements, l’entreprise
mesure l’épaisseur de 24 composants pris au hasard dans la livraison. Les résultats, en millimètres,
sont :
6.47 7.02 7.15 7.22 7.44 6.99 7.47 7.61 7.32 7.22 7.52 6.92
7.28 6.69 7.24 7.19 6.97 7.52 6.22 7.13 7.32 7.67 7.24 6.21
On suppose que l’épaisseur en millimètres d’un de ces composants peut être modélisée par une var
X ∼ N (µ, (0.38)2 ), avec µ inconnu.
Peut-on affirmer, avec un faible risque de se tromper, que le fournisseur ne respecte pas ses enga-
gements ?
Solution 1. Par l’énoncé, on observe la valeur de X ∼ N (µ, σ 2 ) pour chacun des n individus (compo-
sants) d’un échantillon avec n = 24, µ inconnu et σ = 0.38. On veut affirmer, avec un faible risque de
se tromper, que le fournisseur ne respecte pas ses engagements. Cela est le cas si l’épaisseur moyenne
de ses composants est différente de 7.3 millimètres, soit µ 6= 7.3. Par conséquent, l’hypothèse H1 est :
H1 : µ 6= 7.3. On considère alors les hypothèses :
C. Chesneau 13
3 Tests de conformité à une valeur de référence
Exemple 2. Une usine fabrique un certain type de récipient en plastique. On cherche à montrer, avec un
faible risque de se tromper, que le contenu moyen d’un récipient est strictement supérieur à 10 litres.
Le contenu de 12 récipients choisis au hasard dans la production est mesuré. Les résultats, en litres,
sont :
10.1 9.8 10.2 10.3 10.4 9.8 9.9 10.4 10.2 9.5 10.4 9.6
On suppose que le contenu en litres d’un récipient de cet usine peut être modélisé par une var X
suivant une loi normale.
Proposer un test statistique adapté et conclure.
Solution 2. Par l’énoncé, on observe la valeur de X ∼ N (µ, σ 2 ) pour chacun des n individus (récipients)
d’un échantillon avec n = 12, et µ et σ inconnus. On veut montrer, avec un faible risque de se tromper,
que le contenu moyen d’un récipient est strictement supérieur à 10 litres, soit µ > 10. Par conséquent,
l’hypothèse H1 est : H1 : µ > 10.
On considère alors les hypothèses :
Exemple 3. Dans une production, pour que le poids annoncé du contenu d’une boîte de conserve de
tomates soit conforme, il faut régler la moyenne du conditionnement à 276 grammes.
C. Chesneau 14
3 Tests de conformité à une valeur de référence
Une panne est survenue dans la conditionneuse et le producteur craint que le réglage ne soit plus
fiable. Il se pose la question : le réglage est-il encore à 276 grammes ? Il prélève 8 boîtes au hasard dans
la production et les pèse une à une. Les résultats, en grammes, sont :
On suppose que le poids en grammes du contenu d’une boîte de conserve de tomates de cette production
peut être modélisé par une var X suivant une loi normale.
Faire un test statistique pour répondre à la question du producteur.
Solution 3. Par l’énoncé, on observe la valeur de X ∼ N (µ, σ 2 ) pour chacun des n individus (boîtes de
conserve de tomates) d’un échantillon avec n = 8, et µ et σ inconnus.
On considère les hypothèses :
Exemple 4. Un producteur affirme qu’exactement 25% des haricots verts de sa récolte sont extra-fins.
Sur 400 haricots verts choisis au hasard dans la récolte, on en compte 118 extra-fins.
Est-ce que l’on peut affirmer, au risque 5%, que le producteur a tort ?
Solution 4. Soient p la proportion inconnue des haricots verts extra-fins dans la récolte et X la var qui
vaut 1 si le haricot vert est extra-fin et 0 sinon ; X ∼ B(p). Par l’énoncé, on observe la valeur de X
pour chacun des n individus (haricots verts) d’un échantillon avec n = 400.
C. Chesneau 15
3 Tests de conformité à une valeur de référence
prop.test(3, 5, 0.18)$p.value
binom.test(3, 5, 0.18)$p.value
Dans le premier, apparaît un "Warning message" signifiant que l’approximation normale n’est sans
doute pas valide.
C. Chesneau 16
4 Tests d’homogénéité : échantillons indépendants
Contexte
On étudie un caractère dans deux populations P1 et P2 . On cherche à comparer P1 et P2 quant à
ce caractère, et donc à analyser leur éventuelle homogénéité.
Pour ce faire, on considère
◦ un échantillon E1 de n1 individus de P1 ,
◦ un échantillon E2 de n2 individus de P2 .
Échantillons indépendants
Si tous les individus sont différents, les échantillons E1 et E2 sont indépendants.
Données
On étudie un caractère représenté par une var X.
◦ La var X considérée dans P1 est une var X1 .
◦ La var X considérée dans P2 est une var X2 .
Les données sont constituées de
◦ la valeur de X1 pour chacun des n1 individus de E1 : x1,1 , . . . , x1,n1 ,
◦ la valeur de X2 pour chacun des n2 individus de E2 : x2,1 , . . . , x2,n2 .
On suppose que les individus sont tous différents ; E1 et E2 sont indépendants.
On peut mettre les données sous la forme :
◦ pour E1 :
C. Chesneau 17
C. Chesneau
Formules : p-valeurs 2
s2
1 s2
2
(n1 − 1, n2 − 1) +
si s1 > s2 , n1 n2
Lois : Z ∼ N (0, 1), F ∼ F (ν1 , ν2 ), (ν1 , ν2 ) = , Tν ∼ T (ν), ν = n1 + n2 − 2, Tγ ∼ T (γ), γ = 2 2 .
s2 s2
(n − 1, n − 1)
si s2 > s1 1 1 1 2
2 1
n1 −1 n1
+ n2 −1 n2
r
(n1 −1)s2 2
1 +(n2 −1)s2 .
Pn1 Pn2 q Pn1 q Pn2
1 1 n1 x1 +n2 x2 1 1
Outils : x1 = n1 i=1 x1,i , x1 = n2 i=1 x2,i , xp = n1 +n2
, s1 = n1 −1 i=1 (x1,i − x1 )2 , s2 = n2 −1 i=1 (x2,i − x2 )2 , sp = n1 +n2 −2
µ1 6= µ2 P(|Z| ≥ |zobs |)
σ1 , σ2 connus : x1 − x2
µ1 > µ2 zobs = r P(Z ≥ zobs )
2 2
2-Comp-Z-Test σ1
+
σ2
µ1 < µ2 n1 n2 P(Z ≤ zobs )
2
σ1 , σ2 inconnus :
max (s1 , s2 )
σ12 6= σ22 fobs = 2P(F ≥ fobs )
2-Comp-F-Test min (s1 , s2 )
µ1 6= µ2 P(|Tν | ≥ |tobs |)
σ1 , σ2 inconnus, σ12 = σ22 : x1 − x2
µ1 > µ2 tobs = P(Tν ≥ tobs )
18
q
2-Comp-T-Test pooled yes sp n1 + n1
1 2
µ1 < µ2 P(Tν ≤ tobs )
µ1 6= µ2 P(|Tγ | ≥ |tobs |)
σ1 , σ2 inconnus, σ12 6= σ22 : x1 − x2
µ1 > µ2 tobs = r P(Tγ ≥ tobs )
2-Comp-T-Test pooled no s2
1 s2
2
+
µ1 < µ2 n1 n2 P(Tγ ≤ tobs )
n1 ≥ 31, n2 ≥ 31,
p1 6= p2 P(|Z| ≥ |zobs |)
n1 x1 ≥ 5, n1 (1 − x1 ) ≥ 5, x1 − x2
p1 > p2 zobs = p q P(Z ≥ zobs )
n2 x2 ≥ 5, n2 (1 − x2 ) ≥ 5 : xp (1 − xp ) n1 + 1
n2
1
p1 < p2 P(Z ≤ zobs )
2-Prop-Z-Test
n1 ≥ 31, n2 ≥ 31,
p1 6= p2 P(|Z| ≥ |zobs |)
n1 x1 ≥ 5, n1 (1 − x1 ) ≥ 5,
p1 > p2 zobs ="le précédent avec correction de Yates" P(Z ≥ zobs )
n2 x2 ≥ 5, n2 (1 − x2 ) ≥ 5 :
p1 < p2 P(Z ≤ zobs )
2-Prop-Z-Test cor
C. Chesneau
Commandes
On considère les libraries stats et OneTwoSamples :
library(stats)
library(OneTwoSamples)
n1 ≥ 31, n2 ≥ 31,
p1 6= p2 prop.test(x = c(x1, x2), n = c(n1, n2), correct = F)$p.value
n1 x1 ≥ 5, n1 (1 − x1 ) ≥ 5,
p1 > p 2 prop.test(x = c(x1, x2), n = c(n1, n2), alternative = "greater", correct = F)$p.value
n2 x2 ≥ 5, n2 (1 − x2 ) ≥ 5 :
p1 < p 2 prop.test(x = c(x1, x2), n = c(n1, n2), alternative = "less", correct = F)$p.value
2-Prop-Z-Test
n1 ≥ 31, n2 ≥ 31,
p1 6= p2 prop.test(x = c(x1, x2), n = c(n1, n2))$p.value
n1 x1 ≥ 5, n1 (1 − x1 ) ≥ 5,
p1 > p 2 prop.test(x = c(x1, x2), n = c(n1, n2), alternative = "greater")$p.value
n2 x2 ≥ 5, n2 (1 − x2 ) ≥ 5 :
p1 < p 2 prop.test(x = c(x1, x2), n = c(n1, n2), alternative = "less")$p.value
2-Prop-Z-Test cor
4 Tests d’homogénéité : échantillons indépendants
Exemples
Exemple 1. La société de Monsieur Labrador utilise deux machines, machine 1 et machine 2, pour
remplir automatiquement des paquets de cacao en poudre.
◦ On prélève un échantillon de 10 paquets remplis par la machine 1 et on les pèse. Les résultats,
en grammes, sont :
106.70 107.02 107.15 107.22 107.41 106.39 107.47 107.61 107.38 107.22
◦ On prélève un échantillon de 9 paquets remplis par la machine 2 et on les pèse. Les résultats, en
grammes, sont :
On suppose que le poids en grammes d’un paquet rempli par la machine 1 peut être modélisé par une
X1 ∼ N (µ1 , 1.32 ) et celui avec la machine 2 peut être modélisé par une var X2 ∼ N (µ2 , 0.92 ).
Peut-on affirmer, au risque 5%, que les machines sont réglées de manière différente ?
Solution 1. Par l’énoncé, on observe
◦ la valeur de X1 ∼ N (µ1 , σ12 ) pour chacun des n1 individus (paquets) d’un échantillon avec
n1 = 10, µ1 inconnu et σ1 = 1.3,
◦ la valeur de X2 ∼ N (µ2 , σ22 ) pour chacun des n2 individus (paquets) d’un échantillon avec n2 = 9,
µ2 inconnu et σ2 = 0.9.
Les échantillons sont indépendants car les individus considérés sont tous différents.
On veut affirmer, avec un faible risque de se tromper, que les machines sont réglées de manière
différente. Cela est le cas si le poids moyen d’un paquet rempli par la machine 1 diffère de celui rempli
par la machine 2, soit µ1 6= µ2 . Par conséquent, l’hypothèse H1 est : H1 : µ1 6= µ2 .
On considère alors les hypothèses :
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 .
C. Chesneau 20
4 Tests d’homogénéité : échantillons indépendants
Exemple 2. On considère deux lots de tasses et on souhaite comparer la solidité de ceux-ci. Pour chacun
des deux lots, on dispose d’un échantillon de 10 tasses et on mesure la résistance de chacune d’entre
eux. Les résultats sont :
31.70 31.98 32.24 32.35 31.18 32.19 32.63 31.19 31.54 31.89
31.61 31.10 31.20 31.11 32.66 31.15 31.71 31.22 31.16 31.21
La solidité d’une tasse du premier lot peut être modélisée par une var X1 , et celle du tasse du second
lot peut être modélisée par une var X2 . On suppose que X1 et X2 suivent des lois normales de variances
égales.
Peut-on affirmer que ces deux échantillons ne proviennent pas de la même production ?
Solution 2. Par l’énoncé, on observe
◦ la valeur de X1 ∼ N (µ1 , σ12 ) pour chacun des n1 individus (tasses) d’un échantillon avec n1 = 10,
et µ1 et σ1 inconnus,
◦ la valeur de X2 ∼ N (µ2 , σ22 ) pour chacun des n2 individus (tasses) d’un échantillon avec n2 = 10,
et µ2 et σ2 inconnus.
C. Chesneau 21
4 Tests d’homogénéité : échantillons indépendants
On a σ12 = σ22 . Les individus étant tous différents, les échantillons sont indépendants.
On considère les hypothèses :
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 .
On utilise un 2-Comp-T-Test avec pooled yes car on a l’égalité σ12 = σ22 . Il est bilatéral.
On considère les commandes :
x1 = c(31.70, 31.98, 32.24, 32.35, 31.18, 32.19, 32.63, 31.19, 31.54, 31.89)
x2 = c(31.61, 31.10, 31.20, 31.11, 32.66, 31.15, 31.71, 31.22, 31.16, 31.21)
t.test(x1, x2, var.equal = T)$p.value
Exercice 3. On dispose de deux lots de boîtes de sauce italienne conditionnées de la même manière mais
provenant de producteurs différents. On s’intéresse à la teneur en grammes de viande dans celles-ci.
◦ On extrait 7 boîtes provenant du premier producteur et on mesure leur teneur de viande. Les
résultats, en grammes, sont :
◦ On extrait 6 boîtes provenant du deuxième producteur et on mesure leur teneur de viande. Les
résultats, en grammes, sont :
La teneur en grammes de viande dans une boîte provenant du premier producteur peut être modélisée
par une var X1 , et celle dans une boîte provenant du deuxième producteur peut être modélisée par
une var X2 . On suppose que X1 et X2 suivent des lois normales.
Peut-on affirmer qu’il y a une différence entre les producteurs quant à la teneur moyenne en viande
dans les boîtes ?
C. Chesneau 22
4 Tests d’homogénéité : échantillons indépendants
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 .
Exercice 4. Un producteur de desserts lactés au caramel se trouve en concurrence avec d’autres marques.
Au début de l’année 2010, il décide d’investir dans une nouvelle présentation de ses desserts. Avant
d’avoir le bilan de l’année, il fait une rapide enquête auprès d’un certain nombre de magasins.
◦ Avant la nouvelle présentation, sur 230 desserts vendus, 54 étaient ceux du producteur.
◦ Après la nouvelle présentation, sur 340 desserts vendus, 110 étaient ceux du producteur.
Est-ce que le producteur peut affirmer que la nouvelle présentation a augmenté sa part de marché sur
les desserts lactés au caramel ?
C. Chesneau 23
4 Tests d’homogénéité : échantillons indépendants
Solution 4. Soient
◦ p1 la proportion inconnue de desserts vendus avec l’ancienne présentation et X1 la var qui vaut
1 si le dessert avec l’ancienne présentation est vendu et 0 sinon ; X1 ∼ B(p1 ),
◦ p2 la proportion inconnue de dessert vendus avec la nouvelle présentation et X2 la var qui vaut
1 si le dessert avec la nouvelle présentation est vendu et 0 sinon ; X2 ∼ B(p2 ).
Par l’énoncé, on observe
◦ la valeur de X1 pour chacun des n1 individus (desserts) d’un échantillon avec n1 = 230,
◦ la valeur de X2 pour chacun des n2 individus (desserts) d’un échantillon avec n2 = 340.
Les individus étant tous différents, les échantillons sont indépendants.
On considère les hypothèses :
H0 : p1 ≥ p2 contre H1 : p1 < p2 .
Remarque : Le 2-Prop-Z-Test avec la correction de Yates est plus fiable que sans la correction. Toutefois,
un test statistique plus puissant existe : le test exact de Fisher. On considère les commandes :
C. Chesneau 24
5 Tests d’homogénéité : échantillons appariés
Contexte
On étudie un caractère dans deux populations P1 et P2 . On cherche à comparer P1 et P2 quant à
ce caractère, et donc à analyser leur éventuelle homogénéité.
Pour ce faire, on considère
◦ un échantillon E1 de n1 individus de P1 ,
◦ un échantillon E2 de n2 individus de P2 .
Échantillons appariés
Si les individus de P1 sont soumis à un certain traitement (ou aucun), et ceux de P2 sont les
individus de P1 soumis à un autre traitement, les échantillons E1 et E2 sont appariés : ce sont les
mêmes individus qui sont considérés dans les deux échantillons. On compare alors les effets des deux
traitements en considérant un même échantillon de n = n1 = n2 individus.
Données
On étudie un caractère représenté par une var X.
◦ La var X considérée dans P1 est une var X1 ,
◦ La var X considérée dans P2 est une var X2 .
Les données sont constituées de
◦ la valeur de X1 pour chacun des n1 = n individus de E1 : x1,1 , . . . , x1,n ,
◦ la valeur de X2 pour chacun des n2 = n individus de E2 : x2,1 , . . . , x2,n .
Pour tout i ∈ {1, . . . , n}, sur le i-ème individu, on observe donc une paire de valeurs : (x1,i , x2,i ). Si on
prend le schéma "Traitement 1" et "Traitement 2", on peut mettre les données sous la forme :
ω1 x1,1 x2,1
ω2 x1,2 x2,2
.. .. ..
. . .
ωn x1,n x2,n
C. Chesneau 25
5 Tests d’homogénéité : échantillons appariés
Formules : p-valeurs
Lois : T ∼ T (ν), ν = n − 1, K ∼ χ2 (1).
q
1 Pn 1 Pn 2 2
Outils : d = n i=1 di , di = x1,i − x2,i , s = n−1 i=1 (di − d) , pour tout (i, j) ∈ {0, 1} , on pose
X1 − X2 ∼ N ,
H1 Stat. test obs. p-valeurs
E(X1 ) = µ1 , E(X2 ) = µ2
µ1 6= µ2 P(|T | ≥ |tobs |)
√
d − d0
Paired T-Test µ1 > µ2 tobs = n P(T ≥ tobs )
s
µ1 < µ2 P(T ≤ tobs )
C. Chesneau 26
C. Chesneau
Commandes
On considère la librairie stats :
library(stats)
X1 − X2 ∼ N ,
H1 Commandes
E(X1 ) = µ1 , E(X2 ) = µ2
27
Exemples
Exemple 1. Un médecin ne veut se tromper que 5 fois sur 100 en décidant que l’administration d’un
traitement particulier à un malade provoque en moyenne un accroissement de poids au bout de 3 mois
de traitement. Le médecin examine le poids avant traitement et le poids après traitement de 5 malades
choisis au hasard. Les résultats, en kilogrammes, sont :
1 80.82 83.76
2 60.12 64.13
3 102.52 101.81
4 51.65 56.63
5 65.96 68.21
Le poids en kilogrammes d’un malade avant traitement peut être modélisé par une var X1 , et le poids
en kilogrammes d’un malade après 3 mois de traitement peut être modélisé par une var X2 . On suppose
que X1 − X2 suit une loi normale.
Proposer une modélisation du problème via un test statistique adapté et énoncer clairement votre
conclusion.
Solution 1. Par l’énoncé, on observe
◦ la valeur de X1 , var d’espérance µ1 , pour chacun des n1 individus (malades) d’un échantillon
avec n1 = 5,
◦ la valeur de X2 , var d’espérance µ2 , pour chacun des n2 individus (malades) d’un échantillon
avec n2 = 5.
On suppose que X1 − X2 suit une loi normale.
Les échantillons sont appariés car ce sont les mêmes individus qui reçoivent les deux traitements.
On pose n = n1 = n2 = 5.
On considère les hypothèses :
H0 : µ1 ≥ µ2 contre H1 : µ1 < µ2 .
C. Chesneau 28
5 Tests d’homogénéité : échantillons appariés
Exemple 2. La prise d’un médicament M1 anti-inflammatoire provoque quelquefois des douleurs gas-
triques. Le médecin propose la prise d’un médicament supplémentaire M2 pour tenter d’éviter cet
inconvénient. Ainsi, 87 malades présentant une affection inflammatoire et prenant le remède M1 sont
testés. On leur demande d’observer l’apparition ou non de douleurs gastriques avant et après l’admi-
nistration du médicament supplémentaire M2 . Les résultats sont :
Peut-on affirmer que l’administration de M2 a modifié la probabilité d’avoir des douleurs gastriques ?
Solution 2. Soient
◦ p1 la probabilité inconnue d’avoir des douleurs gastriques avant M2 et X1 la var qui vaut 1 si
l’individu a des douleurs gastrique avant M2 et 0 sinon ; X1 ∼ B(p1 ),
◦ p2 la probabilité inconnue d’avoir des douleurs gastriques après M2 et X2 la var qui vaut 1 si
l’individu a des douleurs gastrique après M2 et 0 sinon ; X2 ∼ B(p2 ).
Par l’énoncé, on observe
◦ la valeur de X1 pour chacun des n1 individus d’un échantillon avec n1 = 87,
◦ la valeur de X2 pour chacun des n2 individus d’un échantillon avec n2 = 87.
Les échantillons sont appariés car ce sont les mêmes individus qui sont considérés.
C. Chesneau 29
5 Tests d’homogénéité : échantillons appariés
H0 : p1 = p2 contre H1 : p1 6= p2 .
n0,0 n0,1 61 2
A= = .
n1,1 n1,0 11 13
C. Chesneau 30
6 Tests d’indépendance entre deux caractères
Contexte
Soient X et Y deux caractères qualitatifs. On suppose que
◦ le caractère X a k modalités notées a1 , . . . , ak ,
◦ le caractère Y a h modalités notées b1 , . . . , bh .
Remarque : On peut aussi considérés des caractères quantitatifs avec des valeurs réparties dans quelques
intervalles disjoints appelés classes. Dans ce cas, on les traite comme des caractères qualitatifs et leurs
classes joueront le rôle de modalités.
Données
On observe les valeurs de (X, Y ) sur un échantillon de n individus.
Ainsi, les données sont n couples de modalités : (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ) où (xi , yi ) ∈ {a1 , . . . , ak }×
{b1 , . . . , bh }. Pour tout (i, j) ∈ {1, . . . , k} × {1, . . . , h}, on pose ni,j le nombre d’individus dans l’échan-
tillon vérifiant X = ai et Y = bj . On dispose du tableau :
@ Y
@
b1 ... bj ... bh
@
X @
@
a1 n1,1 ... n1,j ... n1,h
.. .. .. .. .. ..
. . . . . .
Enjeu
À partir de ces données, on souhaite affirmer avec un faible risque de se tromper, que X et Y ne
sont pas indépendants. Il y aurait alors une liaison entre elles.
C. Chesneau 31
6 Tests d’indépendance entre deux caractères
Hypothèses
Étant donné la problématique, on considère les hypothèses :
h
X k
X
pi,j = P({X = ai } ∩ {Y = bj }), pi,. = P(X = ai ) = pi,j , p.,j = P(Y = bj ) = pi,j .
j=1 i=1
Par la définition d’indépendance de deux var, on peut alors reformuler les hypothèses comme :
H0 : "pi,j = pi,. p.,j pour tout (i, j) ∈ {1, . . . , k} × {1, . . . , h}" contre
H1 : "il existe (i0 , j0 ) ∈ {1, . . . , k} × {1, . . . , h} tel que pi0 ,j0 6= pi0 ,. p.,j0 ".
h k
X X ni,. n.,j
ni,. = ni,j , n.,j = ni,j , n∗i,j = .
n
j=1 i=1
@ Y
@
b1 ... bj ... bh Total
@
X @
@
a1 n1,1 (n∗1,1 ) ... n1,j (n∗1,j ) ... n1,h (n∗1,h ) n1,.
.. .. .. .. .. .. ..
. . . . . . .
On suppose que, pour tout (i, j) ∈ {1, . . . , k}×{1, . . . , h}, n∗i,j ≥ 5, condition minimale pour valider
test du Chi-deux d’indépendance.
C. Chesneau 32
6 Tests d’indépendance entre deux caractères
On calcule
k X
h k X
h
X (ni,j − n∗i,j )2 X n2i,j
χ2obs = = − n.
n∗i,j n∗i,j
i=1 j=1 i=1 j=1
Soit K ∼ χ2 (ν), ν = (k − 1)(h − 1). Alors la p-valeur associée au test du Chi-deux d’indépendance est
Commandes
Les commandes associées sont données par (avec k = 2 et h = 3 par exemple) :
brillants 50 47 56
médiocres 5 14 8
Peut-on affirmer, au risque 5%, que le résultat d’un individu dépend de l’examinateur ?
Solution
Soient X le caractère qualitatif "résultat" et Y le caractère qualitatif "examinateur". Les modalités
de X sont "brillant" et "médiocre", et les modalités de Y sont "A", "B" et "C" (on a k = 2 et h = 3).
Par l’énoncé, on observe la valeur de (X, Y ) pour chacun des n individus (étudiants) d’un échantillon
avec n = 180. On considère les hypothèses :
C. Chesneau 33
6 Tests d’indépendance entre deux caractères
50 47 56
A= .
5 14 8
fisher.test(A)$p.value
Contexte
Soient X et Y deux caractères quantitatifs. On observe les valeurs de (X, Y ) sur un échantillon
de n individus. Ainsi, les données sont n couples de valeurs : (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). On dispose
donc du tableau :
X x1 x2 ... xn
Y y1 y2 ... yn
Enjeu
À partir de ces données, on souhaite affirmer avec un faible risque de se tromper, que X et Y ne
sont pas indépendants. Il y aurait alors une liaison entre elles.
Hypothèses
Étant donné la problématique, on considère les hypothèses :
C. Chesneau 34
6 Tests d’indépendance entre deux caractères
On suppose que, si dépendence entre Y et X il y a, elle est linéaire : on peut admettre l’existence de
deux réels a et b tels que ”Y = a + bX”. En représentant les caractères X et Y par des var, on définit
le coefficient de corrélation ρ par
C(X, Y )
ρ= .
σ(X)σ(Y )
On suppose que (X, Y ) est un vecteur de var suivant une loi normale bidimensionnelle. Dès lors, on a
l’équivalence : X et Y indépendantes ⇔ ρ = 0. On peut alors reformuler les hypothèses comme :
H0 : ρ = 0 contre H1 : ρ 6= 0.
Remarque : En pratique, on peut représenter les données sur le repère orthonormé (O, I, J) par les
points de coordonnées : (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ). L’ensemble de ces points est appelé nuage de
points. Si la silhouette de ce nuage de points est de forme ellipsoïdale, on peut admettre l’hypothèse
de normalité sur (X, Y ).
Test de nullité du coefficient de corrélation (de Pearson)
Pour mettre en œuvre le test de nullité du coefficient de corrélation, on considère les quantités :
n
X
n n
(xi − x)(yi − y)
1X 1X
x= xi , y= yi , r = v i=1 .
n n u n
uX n
i=1 i=1 X
t (xi − x)2 (yi − y)2
i=1 i=1
On calcule
√ r
tobs = n − 2√ .
1 − r2
Soit T ∼ T (ν), ν = n − 2. Alors la p-valeur associée au test de nullité du coefficient de corrélation est
Commandes
Les commandes associées sont données par :
cor.test(x,y)$p.value
C. Chesneau 35
6 Tests d’indépendance entre deux caractères
Exemple
Sur 14 familles composées d’un père et d’un fils, on examine le QI du père et le QI du fils. Les
résultats sont :
Père 121 142 108 111 97 139 131 90 115 107 124 103 115 151
Fils 102 138 126 133 95 146 115 100 142 105 130 120 109 123
On peut utiliser le test de nullité du coefficient de corrélation. Dans un premier temps, on considère
les commandes :
x = c(121, 142, 108, 111, 97, 139, 131, 90, 115, 107, 124, 103, 115, 151)
y = c(102, 138, 126, 133, 95, 146, 115, 100, 142, 105, 130, 120, 109, 123)
plot(x, y)
Cela renvoie :
C. Chesneau 36
6 Tests d’indépendance entre deux caractères
On constate que ce nuage de points est de forme ellipsoïdale ; en représentant les caractères comme
des var, on peut admettre l’hypothèse de normalité sur la loi de (X, Y ).
On fait :
cor.test(x, y)$p.value
C. Chesneau 37
7 Exercices
7 Exercices
Exercice 1. Sur un paquet de céréale "Croqus", une étiquette assure que le taux moyen de magnésium
dans un paquet est de 94 milligrammes. On extrait au hasard 8 paquets "Croqus" dans la production
et on mesure leur quantité de magnésium. Les résultats, en milligrammes, sont :
Exercice 2. Un charcutier normand produit des pâtés de campagne. Il affirme que ses pâtés pèsent
en moyenne 223 grammes. On extrait de la production un échantillon de 25 pâtés et on les pèse. Les
résultats, en grammes, sont :
225 224 225 221 230 229 219 224 226 222 220 221 229
226 221 231 219 222 223 224 220 223 223 224 222
On suppose que le poids en grammes d’un pâté de porc du charcutier peut être modélisé par une var
X suivant une loi normale.
Peut-on affirmer, au risque 5%, que le charcutier a tort ?
Exercice 3. On effectue un sondage auprès de 620 personnes : 232 disent être en faveur d’une réforme
fiscale. Peut-on affirmer que la proportion de personnes favorables à cette réforme est strictement
supérieure à 22% ? Si oui, préciser le degré de significativité.
C. Chesneau 39
7 Exercices
Exercice 4. On souhaite étudier l’homogénéité de deux champs de fraises, notés champ A et champ
B, quant aux poids des fraises.
◦ Les pesées en grammes de 15 fraises choisies au hasard dans le champ A sont :
Le poids d’une fraise dans le champ A peut être modélisé par une var X1 et le poids d’une fraise
dans le champ B peut être modélisé par une var X2 . On suppose que X1 et X2 suivent des lois normales
de variances égales.
Peut-on affirmer, au risque 2%, que le poids moyen d’une fraise diffère selon les champs ?
Exercice 5. Deux hypermarchés H1 et H2 appartenant à un même groupe mais situés dans des villes
différentes proposent au rayon "pâtes alimentaires", à la fois des produits de la marque du groupe,
notée MG, et des produits d’autres marques. Soient p1 la proportion de produits MG vendus par H1
et p2 la proportion de produits MG vendus par H2. Avant le bilan de l’année, le groupe veut savoir s’il
y a une différence entre ces proportions. Pour cela, il fait faire une enquête rapide :
◦ Sur 532 produits vendus par H1, 231 étaient de la marque MG.
◦ Sur 758 produits vendus par H2, 272 étaient de la marque MG.
À la suite de l’enquête, le groupe conclut qu’il a moins d’une chance sur 100 de se tromper en affirmant
qu’il y a une différence entre les deux hypermarchés quant à la proportion réelle de produits vendus
de la marque MG.
A-t-il raison ? Justifier votre réponse.
C. Chesneau 40
7 Exercices
Matin Soir
13.12 13.92
13.54 13.89
15.12 14.51
14.51 14.78
12.12 10.97
13.10 13.58
13.98 14.52
11.21 11.54
14.44 13.54
La tension en centimètres de mercure d’un patient le matin peut être modélisée par une var X1 , et
celle du soir peut être modélisée par une var X2 . On suppose que X1 − X2 suit une loi normale.
Peut-on affirmer, au risque 5%, qu’en moyenne la tension du soir est différente de celle du matin ?
Exercice 7. Un commercial fournissant les stations-service souhaite savoir s’il y a un lien entre l’achat
de bières bouteilles et l’achat de paquets de chips. Pour le tester, il tire au hasard parmi les tickets de
caisse d’une année,
◦ 92 clients ont acheté à la fois des bières et des chips,
◦ 32 clients ont acheté des bières mais pas de chips,
◦ 10 clients ont acheté des chips mais pas de bières,
◦ 12 clients n’ont acheté ni bières ni chips.
Il ne veut se tromper qu’une fois sur 100 en disant qu’il y a un lien entre ces deux types d’achat.
Proposer un test statistique adapté au problème.
C. Chesneau 41
7 Exercices
Exercice 8. On a interrogé 200 élèves d’un lycée sur le type d’études supérieures qu’ils désiraient
entreprendre. Les résultats de l’enquête figurent dans le tableau ci-dessous :
PP
PP
P Sexe
PP
PP garçon fille
Type d’étude P PPP
littéraire 60 60
scientifique 42 18
technique 18 2
Exercice 9. Dans une grande entreprise, on a évalué le niveau de stress au travail et mesuré le temps
en minutes mis pour se rendre au travail de 550 salariés. Les résultats sont :
XXX
XXX
XXX Temps
XXX <15 [15, 45] >45
Niveau de stress XXX
XXX
faible 91 136 48
modéré 39 37 38
élevé 38 69 54
Est-ce que le temps mis pour se rendre au travail a une influence sur le niveau de stress ?
Exercice 10. On s’intéresse à la dépendance possible entre l’âge d’un client d’une banque et le fait
qu’il soit interdit de chéquier ou pas. Pour 810 clients, on dispose :
◦ de leur classe d’âge (caractère Y ),
◦ du fait qu’il soit interdit de chéquier ou pas (caractère X, avec X = 1 si interdiction, et X = 0
sinon).
Le jeu de données "chequiers" est disponible ici :
https://chesneau.users.lmno.cnrs.fr/chequiers.txt
1. Mettre le jeu de données sous la forme d’une data frame w, puis attacher les noms des colonnes.
C. Chesneau 42
7 Exercices
1
4. Peut-on affirmer, au risque 5%, qu’il ya une laison entre X et Y ?
Exercice 11. Le pouls est la traduction des battements du cœur au niveau des artères. Sa fréquence
est une indication précieuse dans nombre de situations aigües. Celle-ci se mesure comme suit : une fois
le pouls bien repéré, on compte les battements pendant 15 secondes et on multiplie par 4 ce nombre.
Soient Y la fréquence maximale du pouls d’une personne et X son âge. Sur n = 15 personnes, on
observe les valeurs de (X, Y ) suivantes :
X 18 23 25 35 65 54 34 56 72 19 23 42 18 39 37
Y 202 186 187 180 156 169 174 172 153 199 193 174 198 183 178
x = c(16.2, 24.8, 4.2, 10, 20, 15, 11.8, 1, 21, 14, 3, 13, 6.2, 12.2, 15.4)
y = c(6.1, 23.7, 3.4, 21.1, 18.2, 9.3, 8, 1.1, 14.7, 15.8, 11.1, 13.4, 22.5,
12.2, 22.8)
plot(x, y)
cor.test(x, y, method = "spearman")$p.value
C. Chesneau 43
8 Solutions
8 Solutions
Solution 1. Par l’énoncé, on observe la valeur de X ∼ N (µ, σ 2 ) pour chacun des n individus (paquets)
d’un échantillon avec n = 8, et µ et σ inconnus.
On considère les hypothèses :
H0 : µ = 94 contre H1 : µ 6= 94.
Solution 2. Par l’énoncé, on observe la valeur de X ∼ N (µ, σ 2 ) pour chacun des n individus (pâtés)
d’un échantillon avec n = 25, et µ et σ inconnus.
On considère les hypothèses :
C. Chesneau 45
8 Solutions
Comme p-valeur > 0.05, on ne rejette pas H0 . Les données ne nous permettent pas d’affirmer que
le charcutier à tort.
Solution 3. Soient p la proportion inconnue des personnes favorables à la réforme fiscale et X la var
qui vaut 1 si l’individu y est favorable et 0 sinon ; X ∼ B(p). Par l’énoncé, on observe la valeur de X
pour chacun des n individus (personnes) d’un échantillon avec n = 620.
On considère les hypothèses :
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 .
On utilise un 2-Comp-T-Test avec pooled yes car on a l’égalité σ12 = σ22 . Il est bilatéral.
C. Chesneau 46
8 Solutions
Solution 5. Soient
◦ X1 la var qui vaut 1 si le produit de H1 est vendu et 0 sinon ; X1 ∼ B(p1 ),
◦ X2 la var qui vaut 1 si le produit de H2 est vendu et 0 sinon ; X2 ∼ B(p2 ).
Par l’énoncé, on observe
◦ la valeur de X1 pour chacun des n1 individus (produits vendus) d’un échantillon avec n1 = 532,
◦ la valeur de X2 pour chacun des n2 individus (produits vendus) d’un échantillon avec n2 = 758.
Les individus étant tous différents, les échantillons sont indépendants.
On considère les hypothèses :
H0 : p1 = p2 contre H1 : p1 6= p2 .
C. Chesneau 47
8 Solutions
H0 : µ1 = µ2 contre H1 : µ1 6= µ2 .
C. Chesneau 48
8 Solutions
92 32
A= .
10 12
Solution 8. Soient X le caractère qualitatif "sexe" et Y le caractère qualitatif "type d’étude". Les mo-
dalités de X sont "garçon" et "fille, et les modalités de Y sont "littéraire", "scientifique" et "technique".
Par l’énoncé, on observe la valeur de (X, Y ) pour chacun des n individus (élèves) d’un échantillon avec
n = 200. On considère les hypothèses :
60 60
42 18 .
A=
18 2
C. Chesneau 49
8 Solutions
91 136 48
A=
39 37 38 .
38 69 54
Solution 10.
1. On fait :
w = read.table("https\string://chesneau.users.lmno.cnrs.fr/chequiers.txt", header = T)
attach(w)
C. Chesneau 50
8 Solutions
2. On fait :
str(w)
Cela renvoie :
3. On fait :
table(X, Y)
Cela renvoie :
Y
X ai25 ai35 ai45 ai55 ai75
0 84 136 196 165 171
1 6 20 16 9 7
D’où le tableau :
XXX
XXX
XXX Âge
XXX ai25 ai35 ai45 ai55 ai75
Interdit de chéquier XXX
XX
X
0 84 136 196 165 171
1 6 20 16 9 7
On peut utiliser le test du Chi-deux d’indépendance. Comme on dispose des données brutes, on
considère les commandes :
chisq.test(X, Y)$p.value
C. Chesneau 51
8 Solutions
Notons qu’aucun "Warning message" n’apparaît ; les conditions d’applications du test sont véri-
fiées.
Ainsi, on peut affirmer que l’âge du clien a une influence "significative" sur le fait qu’il soit
interdit de chéquier.
Solution 11. Soient X le caractère quantitatif "âge" et Y le caractère quantitatif "fréquence maximale
du pouls". Par l’énoncé, on observe la valeur de (X, Y ) pour chacun des n individus (personnes) d’un
échantillon avec n = 15. On considère les hypothèses :
On peut utiliser le test de nullité du coefficient de corrélation. Dans un premier temps, on considère
les commandes :
x = c(18, 23, 25, 35, 65, 54, 34, 56, 72, 19, 23, 42, 18, 39, 37)
y = c(202, 186, 187, 180, 156, 169, 174, 172, 153, 199, 193, 174, 198, 183,
178)
plot(x, y)
Cela renvoie :
C. Chesneau 52
8 Solutions
On constate que ce nuage de points est de forme ellipsoïdale ; en représentant les caractères comme
des var, on peut admettre l’hypothèse de normalité sur la loi de (X, Y ).
On fait :
cor.test(x,y)$p.value
On constate que la forme ellipsoïdale de celui-ci est discutable. Ainsi, pour étudier l’indépendance
des caractères X et Y d’où émanent les données, on utilise le test de nullité du coefficient de corrélation
de Spearman. La p-valeur de celui-ci est donnée par :
[1] 0.0783316
Comme p-valeur > 0.05, les données ne nous permettent pas de conclure ; on ne rejette pas l’hypo-
thèse d’indépendance entre X et Y .
C. Chesneau 53