Support de Cours Seance 11
Support de Cours Seance 11
Support de Cours Seance 11
1. Tests d’ajustement
Les tests d’ajustement permettent de juger l’adéquation entre une situation réelle et un modèle
théorique. Deux problèmes différents peuvent se rencontrer en statistique :
soit ajuster une loi de probabilité à un échantillon, la loi est inconnue, sa forme et les valeurs
des paramètres sont obtenues à partir des caractéristiques de l’échantillon,
soit ajuster un échantillon à une loi de probabilité donnée, la loi est connue (fonction de
répartition ou densité entièrement spécifiée), on doit vérifier l’adéquation entre la loi
théorique et l’échantillon.
Le choix d’une loi est lié :
à la nature du phénomène étudié afin de choisir entre loi discrète et loi continue,
à la forme de la distribution (histogramme),
à la connaissance et à l’interprétation des principales caractéristiques de l’ensemble des
données, espérance, médiane, variance ou écart-type, coefficients d’asymétrie et
d’aplatissement ...
au nombre de paramètres des lois, une loi dépendant de plusieurs paramètres peut s’adapter
plus facilement à une distribution donnée.
Une loi étant proposée, différents tests peuvent être utilisés pour juger de la concordance entre une
distribution théorique et une distribution réelle (observée). Le test le plus utilisé est le test de
Pearson, plus connu sous le nom de test du chi-deux. Il peut aussi être utilisé pour tester l’égalité
de proportions, l’indépendance de deux variables aléatoires étudiées suivant différentes modalités
(tableau de contingence).
Illustration
On considère le nombre d’individus selon les catégories de boissons non alcoolisées achetés. Les
catégories sont dénommées A, B, et C.
Catégories A B C Total
Nombres d'individus 75 110 115 300
Plus généralement, on considère un échantillon aléatoire de observations qui sont classées suivant
catégories. Si le nombre d’observation dans chaque catégorie est donné par : .
Catégories 1 2 Total
Nombre d’observations
Les données de l’échantillon vont être utilisées pour tester l’hypothèse nulle spécifiant les
probabilités pour qu’une observation tombe dans chaque catégorie. Dans l’exemple des 300
individus pour l’achat des boissons non alcoolisées, l’hypothèse nulle devrait être qu’un
individu aléatoirement choisit devrait avoir une possibilité de choix égale entre les 3 catégories.
L’hypothèse nulle dans ce cas, spécifie la probabilité de pour qu’une observation tombe dans
chacune des 3 catégories. Pour tester cette hypothèse, on compare les nombres observés dans
l’échantillon avec ce qui est espéré si l’hypothèse nulle est vraie. Étant donné un total de 300
observations, le nombre d’individu espéré pour chaque catégorie sous l’hypothèse nulle est donné
par
Catégories A B C Total
Nombres d'individus observés 75 110 115 300
Probabilités sous 1/3 1/3 1/3 1
Nombre d’individus espéré sous 100 100 100 300
Dans le cas général de catégories, on suppose que l’hypothèse nulle spécifie les probabilités
pour qu’une observation tombe dans les catégories. On suppose que ces possibilités
sont mutuellement exclusives et collectivement exhaustives – ce qui suppose, que chaque
observation de l’échantillon devra être dans une catégorie et ne peut pas être de deux catégories à
la fois. Dans ce cas, la somme des probabilités hypothétiques est égale à 1.
Alors, s’il y a observations dans l’échantillon, on le nombre espéré dans chaque catégorie sous
l’hypothèse nulle, se présente comme suit :
Catégories 1 2 Total
Nombre d’observations
Probabilités sous
Nombre d’individus espéré sous
L’hypothèse nulle par rapport à la population spécifie des probabilités pour qu’une observation de
l’échantillon tombe dans chaque catégorie possible. Les observations à partir de l’échantillon
permettront de tester cette hypothèse. Si l’hypothèse nulle est vraie, on pense que les valeurs
observées dans chaque catégorie devrait être très proche des valeurs espérées dans chaque
catégorie.
Si l’hypothèse nulle est vraie, et la taille de l’échantillon suffisamment grande, c'est-à-dire que la
valeur espérée est au moins égale à 5, alors la variable aléatoire associée à
−
=
Est connue comme variable aléatoire Chi-deux, et est une bonne approximation de la distribution
de Chi-deux avec degré de liberté.
Le test d’ajustement (qualité d’ajustement)
Décision, on rejette si :
−
> ,
2. Tableau de contingence
On suppose qu’un échantillon est tiré d’une population et qu’on puisse faire un classement croisé
selon deux caractéristiques A et B. L’hypothèse à tester est qu’il n’y a pas de dépendance dans la
population entre la possession de la caractéristique A et B.
Par exemple, une agence de voyage souhaiterait savoir s’il y a une relation entre le genre du client
et la méthode utilisée pour faire la réservation. Une entreprise de comptabilité, souhaiterait
examiner la relation entre l’âge des individus et le type de déclaration de revenu de ces individus.
Ou peut être, dans une étude médicale, une compagnie pharmaceutique aimerait savoir si le succès
d’un médicament utilisé pour contrôler le cholestérol dépend du poids de cette personne. Pour les
besoins de marketing, on peut chercher à savoir si le choix de voiture par les individus dépend de
la couleur de la voiture.
On suppose qu’il y a 2 catégories de A et 3 catégories de B, ce qui donne un total de 23
classifications croisées possibles. Le nombre d’observations de la 4 è catégorie de A et la 6è78
catégorie de B est noté 9 , avec 4 = 1, ⋯ , 2 et 6 = 1, ⋯ , 3
Tableau de contingence
Caractéristique B
Caractéristique A 1 2 ⋯ 3 Total
1 ⋯ ; <
2 ⋯ ; <
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
> ? ? ⋯ ?; <?
Total @ @ ⋯ @; +
Solution
L’hypothèse nulle à tester ici suppose que dans la population, les trois types de voitures sont perçus
comme similaires, ce qui veut dire qu’il y a indépendance entre le type de voiture et la perception
des consommateurs sur la sportivité et la sécurité. Pour tester cette hypothèse nulle
d’indépendance, il faut déterminer le nombre d’observation espéré dans chaque cellule pour que
l’hypothèse nulle soit vraie.
On a par exemple :
330 363
= = 233.5
513
Pour le reste, on a :
Automobile Sportivité sécurité Total
BMW 256(233,5) 74(96,5) 330
Mercedes 41(58,7) 42(24,3) 83
Lexus 66(70,8) 34(29,2) 100
,"."" = 13.816
À ce niveau l’hypothèse nulle d’indépendance est rejetée à 0.1%.
Le test non paramétrique le plus simple à réaliser est le test de signe. Il est le plus utilisé dans les
tests d’hypothèses relatifs à l’analyse des données issues des échantillons appariés. Le test de signe
est utilisé dans les études de marché pour déterminer si la préférence des consommateurs pour un
de 2 produits. Étant donné que la réponse du consommateur est nominale, le test non paramétrique
est plus indiqué.
Supposons que des échantillons appariés sont issus d’une population et les différences égales à 0
sont débarrassées, et restant + observations. Le test de signe peut être utilisé pour tester l’hypothèse
nulle selon laquelle la médiane de la population des différences est 0. Soit + une différence positive
et – une différence négative. Si l’hypothèse nulle est vraie, notre série de différence + 8C − peut
être considéré comme un échantillon aléatoire issu d’une population dans laquelle les probabilités
+ 8C − sont chacune 0.5. dans ce cas, les observations devraient constituer un échantillon aléatoire
issu d’une population binomiale dans laquelle la probabilité de + est égale à 0.5. ainsi, si désigne
la vraie proportion de + dans la population, l’hypothèse nulle est simplement :
#" : = 0.5
Le test de signe est basé sur le fait que le nombre d’observations positives, dans l’échantillon a une
distribution binomiale (de paramètre % = 0.5 sous l’hypothèse nulle).
Test de signe
On suppose que des échantillons appariés sont issus d’une population et les différences égales à 0
sont débarrassées, et restant + observations. On calcule la différence de chaque pair d’observation
et on note le signe de cette différence. Le test de signe est utilisé pour tester :
#" : = 0.5
Où désigne la proportion des observations non nulles dans la population qui sont positives. La
statistique F du test pour les échantillons appariés est simplement :
La P − QRSTU pour le test de signe est trouvé en utilisant la distribution binomiale avec + le
nombre de différence non nulle, K est le nombre de différence positive et % = 0.5.
Un restaurant italien proche du campus universitaire contemple une nouvelle recette de sauce pour
son pizza. Un échantillon de huit étudiants a été choisi, et chacun a été demandé de noter les goûts
de la sauce originale et la nouvelle sauce proposée sur une échelle de 1 à 10. Les résultats sont
contenus dans le tableau suivant :
note
Étudiant sauce nouvelle sauce Différence (original- Signe de la différence
originale nouvelle)
A 6 8 -2 -
B 4 9 -5 -
C 5 4 1 +
D 8 7 1 +
E 3 9 -6 -
F 6 9 -3 -
G 7 7 0 0
H 5 9 -4 -
Dans ce cas particulier, 2personnes ont jugés préférable la sauce originale, 5 ont préférés la nouvelle
sauce et une personne les a noté égales. L’hypothèse nulle d’intérêt dans cette population aussi
grande est la tendance à préférer un produit que l’autre. En analysant cette hypothèse, on compare
les nombres exprimant leur préférence pour chaque produit, éliminant les cas où les produits sont
égaux.
On a donc + = 7, et F = 2
#" : = 0.5 \G ] J B+8 C8+IJ+M8 ^é+é2JG8 %AB2 %2éNé282 B+8 KJBM8 à B+8 JBC28
Un test unilatéral est utilisé pour déterminer qu’il y ait une tendance générale de préférence de la
nouvelle sauce de pizza. L’hypothèse alternative d’intérêt est que dans la population, la majorité de
préférence est pour le nouveau produit. Cette hypothèse alternative est simplement comme suit :
% − LJGB8 = V ≤ 2 = 0.227
Avec cette valeur, on ne peut pas rejeter l’hypothèse nulle, et on conclut que les données ne sont
pas suffisantes pour dire que es étudiants préfèrent la nouvelle sauce.
Le test vise à comparer les positions centrales de deux distributions de probabilités lorsque des
échantillons aléatoires sont tirés de deux populations.
La distribution de la statistique c de Mann-Whitney approche rapidement la distribution normale
lorsque le nombre d’observations de l’échantillon augmente. L’approximation est adéquate lorsque
chaque échantillon contient au moins 10 observations. Donc ici on considère seulement les
échantillons avec + ≥ 10 8C + ≥ 10. Pour tester l’hypothèse nulle selon laquelle la position
centrale des deux distributions de population sont les mêmes, on suppose que en dehors de la
différence de position centrale, les deux distributions de populations sont identiques.
La statistique b de Mann-Whitney
On suppose qu’en dehors de la différence possible de position centrale, les deux distributions de
population sont identiques. On suppose que + observations sont disponibles à partir de la
première population et + les observations du second. Les deux échantillons sont mis ensemble
(regroupés), et les observations sont rangées de manière ascendante « on assigne la moyenne au
rang suivant disponible ». soit < la somme des rangs des observations issues de la première
population. Le test c de Mann-Whitney est basé sur la statistique c définit comme suit :
+ + +1
c=+ + + −<
2
Approximation normale du test de b de Mann-Whitney
En supposant que l’hypothèse nulle selon laquelle les positions centrales des deux populations sont
les mêmes, c a la moyenne et la variance suivantes :
+ + + + + ++ +1
c = 8C d c =
2 12
Pour un échantillon de grande taille, (au moins 10 pour chaque échantillon), la distribution de la
variable aléatoire
c− c
e=
fg
Exemple
Le tableau suivant montre le nombre d’heures que les étudiants ont déclarés étudier les cours de
Finance et de Comptabilité par semaine. Les données sont issues des échantillons aléatoires de 10
étudiants en finance et 12 étudiants en comptabilité.
Finance 10 6 8 10 12 13 11 9 5 11
Comptabilité 13 17 14 12 10 9 15 16 11 8 9 7
Est-ce que les données indiquent une différence entre le nombre médian d’heures hebdomadaire
que les étudiants passent pour étudier les cours de finance et de comptabilité ?
Solution :
Notre hypothèse nulle est que les positions centrales (médianes) des deux populations sont
identiques.
#0 : 78I4J+8 1 = 78I4J+8 2 ,
G8K éCBI4J+CK %JKK8+C G8 7878 +A7H28 I8 C87%K 7éI4J+ %AB2 éCBI482 GJ N4+J+M8 8C GJ MA7%CJH4G4Cé
Les deux échantillons sont mélangés et les observations sont rangées dans l’ordre croissant et en
cas d’égalité, on les traite de la même manière. On obtient le tableau suivant après le classement :
Finance Rang Comptabilité Rang
10 10 13 17,5
6 2 17 22
8 4,5 14 19
10 10 12 15,5
12 15,5 10 10
13 17,5 9 7
11 13 15 20
9 7 16 21
5 1 11 13
11 13 8 4,5
9 7
7 3
Somme de rang = 93,5 Somme de rang = 159,5
Il n’est pas nécessaire de calculer la somme des rangs pour les deux, parce que, si on connait pour
l’un, on peut en déduire pour l’autre. Dans cet exemple, la somme de rang est la somme des entiers
naturels de 1 à 22 et ce qui fait 253.
+ = 10, + = 12, < = 93.5
+ + +1 10 11
c=+ + + − < = 10 12 + − 93.5 = 81.5
2 2
En utilisant l’hypothèse nulle selon laquelle les positions centrales des deux populations sont les
mêmes, la distribution de la statistique c a pour moyenne et variance suivantes :
+ + 10 12
c = = = 60
2 2
Et
+ + + ++ +1 10 12 23
d c = = = 230
12 12
Il s’en suit que
c− c 81.5 − 60
e= = = 1.42 8C GJ % − LJGB8 8KC I8 0.1556
fg √230
Avec un seuil de significativité de 0.05, le résultat du test n’est pas suffisant pour conclure que les
étudiants ont passés beaucoup plus de temps à étudier une des matières que l’autre.