Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Support de Cours Seance 11

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 10

Chapitre 4 : Les Tests statistiques (Non Paramétriques)

1. Tests d’ajustement

Les tests d’ajustement permettent de juger l’adéquation entre une situation réelle et un modèle
théorique. Deux problèmes différents peuvent se rencontrer en statistique :
 soit ajuster une loi de probabilité à un échantillon, la loi est inconnue, sa forme et les valeurs
des paramètres sont obtenues à partir des caractéristiques de l’échantillon,
 soit ajuster un échantillon à une loi de probabilité donnée, la loi est connue (fonction de
répartition ou densité entièrement spécifiée), on doit vérifier l’adéquation entre la loi
théorique et l’échantillon.
Le choix d’une loi est lié :
 à la nature du phénomène étudié afin de choisir entre loi discrète et loi continue,
 à la forme de la distribution (histogramme),
 à la connaissance et à l’interprétation des principales caractéristiques de l’ensemble des
données, espérance, médiane, variance ou écart-type, coefficients d’asymétrie et
d’aplatissement ...
 au nombre de paramètres des lois, une loi dépendant de plusieurs paramètres peut s’adapter
plus facilement à une distribution donnée.
Une loi étant proposée, différents tests peuvent être utilisés pour juger de la concordance entre une
distribution théorique et une distribution réelle (observée). Le test le plus utilisé est le test de
Pearson, plus connu sous le nom de test du chi-deux. Il peut aussi être utilisé pour tester l’égalité
de proportions, l’indépendance de deux variables aléatoires étudiées suivant différentes modalités
(tableau de contingence).

1.1. tests d’ajustement avec probabilités spécifiées

Illustration
On considère le nombre d’individus selon les catégories de boissons non alcoolisées achetés. Les
catégories sont dénommées A, B, et C.
Catégories A B C Total
Nombres d'individus 75 110 115 300

Plus généralement, on considère un échantillon aléatoire de observations qui sont classées suivant
catégories. Si le nombre d’observation dans chaque catégorie est donné par : .
Catégories 1 2 Total
Nombre d’observations

Les données de l’échantillon vont être utilisées pour tester l’hypothèse nulle spécifiant les
probabilités pour qu’une observation tombe dans chaque catégorie. Dans l’exemple des 300
individus pour l’achat des boissons non alcoolisées, l’hypothèse nulle devrait être qu’un
individu aléatoirement choisit devrait avoir une possibilité de choix égale entre les 3 catégories.
L’hypothèse nulle dans ce cas, spécifie la probabilité de pour qu’une observation tombe dans
chacune des 3 catégories. Pour tester cette hypothèse, on compare les nombres observés dans
l’échantillon avec ce qui est espéré si l’hypothèse nulle est vraie. Étant donné un total de 300
observations, le nombre d’individu espéré pour chaque catégorie sous l’hypothèse nulle est donné
par
Catégories A B C Total
Nombres d'individus observés 75 110 115 300
Probabilités sous 1/3 1/3 1/3 1
Nombre d’individus espéré sous 100 100 100 300

Dans le cas général de catégories, on suppose que l’hypothèse nulle spécifie les probabilités
pour qu’une observation tombe dans les catégories. On suppose que ces possibilités
sont mutuellement exclusives et collectivement exhaustives – ce qui suppose, que chaque
observation de l’échantillon devra être dans une catégorie et ne peut pas être de deux catégories à
la fois. Dans ce cas, la somme des probabilités hypothétiques est égale à 1.

Alors, s’il y a observations dans l’échantillon, on le nombre espéré dans chaque catégorie sous
l’hypothèse nulle, se présente comme suit :

Catégories 1 2 Total
Nombre d’observations
Probabilités sous
Nombre d’individus espéré sous

L’hypothèse nulle par rapport à la population spécifie des probabilités pour qu’une observation de
l’échantillon tombe dans chaque catégorie possible. Les observations à partir de l’échantillon
permettront de tester cette hypothèse. Si l’hypothèse nulle est vraie, on pense que les valeurs
observées dans chaque catégorie devrait être très proche des valeurs espérées dans chaque
catégorie.

Variable aléatoire Chi-deux


Soit un échantillon aléatoire de observations, chacune de ces observations classée dans l’une des
catégories. On suppose que le nombre observé dans chaque catégorie est : . Si
l’hypothèse nulle spécifie les probabilités pour qu’une observation de tomber
dans chacune de ces catégories, le nombre espéré dans la catégorie, sera comme suit :

Si l’hypothèse nulle est vraie, et la taille de l’échantillon suffisamment grande, c'est-à-dire que la
valeur espérée est au moins égale à 5, alors la variable aléatoire associée à

=

Est connue comme variable aléatoire Chi-deux, et est une bonne approximation de la distribution
de Chi-deux avec degré de liberté.
Le test d’ajustement (qualité d’ajustement)

Décision, on rejette si :

> ,

Où, , est le nombre pour lequel :


> , =
Pour illustrer ce test, on considère l’exemple illustratif (avec les préférences pour les boissons non
alcoolisées). Donc l’hypothèse nulle est que les probabilités sont les mêmes pour les 3 catégories.
On a donc :
− 75 − 100 110 − 100 115 − 100
= = + + = 9.50
100 100 100
Il y a 3 catégories ( = 3 , donc − 1 = 2 degré de liberté associé à la distribution de Chi-
deux. Si on considère = 0.01, on a :
,"." = 9.210
Ainsi, compte tenu de notre règle de décision, l’hypothèse nulle est rejetée à 1%. Les données
contiennent de solides évidences contre l’hypothèse selon laquelle un individu aléatoirement
sélectionné a une la même préférence de choisir l’une des 3 boissons non alcoolisées.

Exemple : Y a – t – il modification de préférence des consommateurs ?


D’après les données historiques, la société Hersley sait que 30% de ses consommateurs préfèrent
Mr. Goodbar, 50% préfère Hersley’s Milk Chocolate, 15% préfère Hershey’s Special Dark Mildly
Sweet Chocolate, et le reste préfère Krackel. Supposons que l’analyste marketing choisit un
échantillon de 200 individus et trouve que 50 préfèrent Mr. Goodbar, 93 préfèrent Hersley’s Milk
Chocolate, 45 préfère Hershey’s Special Dark Mildly Sweet Chocolate, et le reste préfère Krackel.
Est-ce que les préférences actuelles changent par rapport aux préférences connues (par les données
historiques) ?
Solution :
L’hypothèse nulle est que les préférences actuelles suivent la même trajectoire que celle connue.
C'est-à-dire que cela ne diffère pas de celles connues par la société Hersley.
#" : %& = 0.30; %( = 0.50; %) = 0.15, %* = 0.05
Le nombre espéré pour préférer Mr. Goodbar est comme suit :
& = +%& = 200 0.30 = 60
− − − ⁄
A 50 60 -10 100 100/60 = 1.67
B 93 100 -7 49 49/100 = 0.49
C 45 30 15 225 225/30 = 7.50
D 12 10 2 4 4/10 = 0.40
= 10.06
Avec = 4, − 1 = 3, on trouve /,"." = 9.348 et /,"." 1 = 11.345
On rejette donc l’hypothèse nulle et on conclut que les préférences ont changés.

2. Tableau de contingence
On suppose qu’un échantillon est tiré d’une population et qu’on puisse faire un classement croisé
selon deux caractéristiques A et B. L’hypothèse à tester est qu’il n’y a pas de dépendance dans la
population entre la possession de la caractéristique A et B.
Par exemple, une agence de voyage souhaiterait savoir s’il y a une relation entre le genre du client
et la méthode utilisée pour faire la réservation. Une entreprise de comptabilité, souhaiterait
examiner la relation entre l’âge des individus et le type de déclaration de revenu de ces individus.
Ou peut être, dans une étude médicale, une compagnie pharmaceutique aimerait savoir si le succès
d’un médicament utilisé pour contrôler le cholestérol dépend du poids de cette personne. Pour les
besoins de marketing, on peut chercher à savoir si le choix de voiture par les individus dépend de
la couleur de la voiture.
On suppose qu’il y a 2 catégories de A et 3 catégories de B, ce qui donne un total de 23
classifications croisées possibles. Le nombre d’observations de la 4 è catégorie de A et la 6è78
catégorie de B est noté 9 , avec 4 = 1, ⋯ , 2 et 6 = 1, ⋯ , 3
Tableau de contingence
Caractéristique B
Caractéristique A 1 2 ⋯ 3 Total
1 ⋯ ; <
2 ⋯ ; <
⋮ ⋮ ⋮ ⋯ ⋮ ⋮
> ? ? ⋯ ?; <?
Total @ @ ⋯ @; +

Pour tester l’hypothèse nulle d’indépendance entre la caractéristique A et B, on se demande


combien d’observations on devrait espérer trouver dans chaque classification croisée si l’hypothèse
nulle est vraie ? Dans ces types de tableaux, pour réaliser le test, on suppose que 9 qui désigne le
nombre espéré d’observation dans la classification de la ligne 4 et la colonne 6 est donné par :
< @9
9 = %AB2 4 = 1,2, ⋯ , 2; 6 = 1,2, ⋯ , 3
+
Où < 8C @9 désignent respectivement le total ligne et le total colonne.

La variable aléatoire de Chi-deux pour la table de contingence


On peut montrer que sous l’hypothèse nulle, la variable aléatoire associée à
? ;
9 − 9
=
9
9
Qui a une bonne approximation par la distribution de Chi-deux à 2 − 1 3 − 1 degré de liberté.
Cette approximation est valide lorsque si pas plus que 20% de nombres espérés estimés 9 n’est
inférieur à 5. Des fois, certaines classes sont combinées pour vérifier cette hypothèse.
Test d’indépendance sur un tableau de contingence
Soit un échantillon de + observations en classification croisée selon deux caractéristiques dans un
tableau de contingence 2 × 3. Soit 9 le nombre d’observations dans la cellule se trouvant à
l’intersection de la ligne 4 et la colonne 6. Si l’hypothèse nulle est :
#" : il y a indépendance entre les deux caractéristiques dans la population, alors le nombre espéré
d’observation estimé dans chaque cellule sous #" est :
< @9
9 =
+
Où < 8C @9 désignent respectivement le total ligne et le total colonne. Le test d’indépendance au
seuil de significativité est basé sur la règle de décision suivante :
On rejette #" si
? ;
9 − 9
= > ? ; ,
9
9

Exemple : test d’indépendance de différentiation du marché


Pour analyser la perception des consommateurs par rapport à certains produits différenciés, les
indépendances spontanées sont utilisées. Ce qui signifie qu’on expose différents produits aux
consommateurs et on leurs demande ce qui leur vient à l’esprit lorsqu’ils voient ou entendent parler
de ces produits.
Par exemple, supposons une étude qui tente de déterminer entre « la sportivité » et la « sécurité »
laquelle vient à l’idée des gens lorsqu’on évoque le nom de certaines voitures : BMW, Mercedes ou
Lexus. Les informations sont contenues dans le tableau de contingence suivant :
Automobile Sportivité Sécurité Total
BMW 256 74 330
Mercedes 41 42 83
Lexus 66 34 100
Total 363 150 513

Solution
L’hypothèse nulle à tester ici suppose que dans la population, les trois types de voitures sont perçus
comme similaires, ce qui veut dire qu’il y a indépendance entre le type de voiture et la perception
des consommateurs sur la sportivité et la sécurité. Pour tester cette hypothèse nulle
d’indépendance, il faut déterminer le nombre d’observation espéré dans chaque cellule pour que
l’hypothèse nulle soit vraie.
On a par exemple :
330 363
= = 233.5
513
Pour le reste, on a :
Automobile Sportivité sécurité Total
BMW 256(233,5) 74(96,5) 330
Mercedes 41(58,7) 42(24,3) 83
Lexus 66(70,8) 34(29,2) 100

256 − 233.5 74 − 96.5 41 − 58.7 42 − 24.3 66 − 70.8


= + + + +
233.5 96.5 58.7 24.3 70.8
34 − 29.2
+ = 26.8
29.2
Le degré de liberté 2 − 1 3 − 1 est égal à 2. La lecture de la table donne :

,"."" = 13.816
À ce niveau l’hypothèse nulle d’indépendance est rejetée à 0.1%.

3. Tests non paramétriques pour des échantillons appariés (test de signe)

Le test non paramétrique le plus simple à réaliser est le test de signe. Il est le plus utilisé dans les
tests d’hypothèses relatifs à l’analyse des données issues des échantillons appariés. Le test de signe
est utilisé dans les études de marché pour déterminer si la préférence des consommateurs pour un
de 2 produits. Étant donné que la réponse du consommateur est nominale, le test non paramétrique
est plus indiqué.

Supposons que des échantillons appariés sont issus d’une population et les différences égales à 0
sont débarrassées, et restant + observations. Le test de signe peut être utilisé pour tester l’hypothèse
nulle selon laquelle la médiane de la population des différences est 0. Soit + une différence positive
et – une différence négative. Si l’hypothèse nulle est vraie, notre série de différence + 8C − peut
être considéré comme un échantillon aléatoire issu d’une population dans laquelle les probabilités
+ 8C − sont chacune 0.5. dans ce cas, les observations devraient constituer un échantillon aléatoire
issu d’une population binomiale dans laquelle la probabilité de + est égale à 0.5. ainsi, si désigne
la vraie proportion de + dans la population, l’hypothèse nulle est simplement :

#" : = 0.5

Le test de signe est basé sur le fait que le nombre d’observations positives, dans l’échantillon a une
distribution binomiale (de paramètre % = 0.5 sous l’hypothèse nulle).

Test de signe

On suppose que des échantillons appariés sont issus d’une population et les différences égales à 0
sont débarrassées, et restant + observations. On calcule la différence de chaque pair d’observation
et on note le signe de cette différence. Le test de signe est utilisé pour tester :

#" : = 0.5
Où désigne la proportion des observations non nulles dans la population qui sont positives. La
statistique F du test pour les échantillons appariés est simplement :

F = G8 +A7H28 I8 %J42K JL8M B+8 I4NNé28+M8 %AK4C4L8

Où K a une distribution nominale avec = 0.5 et + le nombre de différence non nulle.

Détermination de la P − QRSTU (valeur critique) pour le test de signe

La P − QRSTU pour le test de signe est trouvé en utilisant la distribution binomiale avec + le
nombre de différence non nulle, K est le nombre de différence positive et % = 0.5.

a. Pour un test unilatéral à droite,


# : > 0.5 % − LJGB8 = V ≥ F
b. Pour un test unilatéral à gauche,
# : < 0.5 % − LJGB8 = V ≤ F
c. Pour un test bilatéral, soit F = 7JV FZ , F avec FZ est le nombre de différence positives
et F est le nombre de différence négative.
# : ≠ 0.5 % − LJGB8 = 2 V ≥ F

Exemple : test de signe pour la préférence de produit

Un restaurant italien proche du campus universitaire contemple une nouvelle recette de sauce pour
son pizza. Un échantillon de huit étudiants a été choisi, et chacun a été demandé de noter les goûts
de la sauce originale et la nouvelle sauce proposée sur une échelle de 1 à 10. Les résultats sont
contenus dans le tableau suivant :
note
Étudiant sauce nouvelle sauce Différence (original- Signe de la différence
originale nouvelle)
A 6 8 -2 -
B 4 9 -5 -
C 5 4 1 +
D 8 7 1 +
E 3 9 -6 -
F 6 9 -3 -
G 7 7 0 0
H 5 9 -4 -

Dans ce cas particulier, 2personnes ont jugés préférable la sauce originale, 5 ont préférés la nouvelle
sauce et une personne les a noté égales. L’hypothèse nulle d’intérêt dans cette population aussi
grande est la tendance à préférer un produit que l’autre. En analysant cette hypothèse, on compare
les nombres exprimant leur préférence pour chaque produit, éliminant les cas où les produits sont
égaux.
On a donc + = 7, et F = 2

#" : = 0.5 \G ] J B+8 C8+IJ+M8 ^é+é2JG8 %AB2 %2éNé282 B+8 KJBM8 à B+8 JBC28

Un test unilatéral est utilisé pour déterminer qu’il y ait une tendance générale de préférence de la
nouvelle sauce de pizza. L’hypothèse alternative d’intérêt est que dans la population, la majorité de
préférence est pour le nouveau produit. Cette hypothèse alternative est simplement comme suit :

#: < 0.5 7A4+K I8 50% %2éNè28 G a J+M48++8 KJBM8

La valeur critique % − LJGB8)

% − LJGB8 = V ≤ 2 = 0.227

Avec cette valeur, on ne peut pas rejeter l’hypothèse nulle, et on conclut que les données ne sont
pas suffisantes pour dire que es étudiants préfèrent la nouvelle sauce.

4. Test non paramétriques pour les échantillons aléatoires indépendants : le test


b de Mann-Whitney

Le test vise à comparer les positions centrales de deux distributions de probabilités lorsque des
échantillons aléatoires sont tirés de deux populations.
La distribution de la statistique c de Mann-Whitney approche rapidement la distribution normale
lorsque le nombre d’observations de l’échantillon augmente. L’approximation est adéquate lorsque
chaque échantillon contient au moins 10 observations. Donc ici on considère seulement les
échantillons avec + ≥ 10 8C + ≥ 10. Pour tester l’hypothèse nulle selon laquelle la position
centrale des deux distributions de population sont les mêmes, on suppose que en dehors de la
différence de position centrale, les deux distributions de populations sont identiques.
La statistique b de Mann-Whitney

On suppose qu’en dehors de la différence possible de position centrale, les deux distributions de
population sont identiques. On suppose que + observations sont disponibles à partir de la
première population et + les observations du second. Les deux échantillons sont mis ensemble
(regroupés), et les observations sont rangées de manière ascendante « on assigne la moyenne au
rang suivant disponible ». soit < la somme des rangs des observations issues de la première
population. Le test c de Mann-Whitney est basé sur la statistique c définit comme suit :
+ + +1
c=+ + + −<
2
Approximation normale du test de b de Mann-Whitney

En supposant que l’hypothèse nulle selon laquelle les positions centrales des deux populations sont
les mêmes, c a la moyenne et la variance suivantes :
+ + + + + ++ +1
c = 8C d c =
2 12
Pour un échantillon de grande taille, (au moins 10 pour chaque échantillon), la distribution de la
variable aléatoire
c− c
e=
fg
Exemple
Le tableau suivant montre le nombre d’heures que les étudiants ont déclarés étudier les cours de
Finance et de Comptabilité par semaine. Les données sont issues des échantillons aléatoires de 10
étudiants en finance et 12 étudiants en comptabilité.
Finance 10 6 8 10 12 13 11 9 5 11
Comptabilité 13 17 14 12 10 9 15 16 11 8 9 7

Est-ce que les données indiquent une différence entre le nombre médian d’heures hebdomadaire
que les étudiants passent pour étudier les cours de finance et de comptabilité ?
Solution :
Notre hypothèse nulle est que les positions centrales (médianes) des deux populations sont
identiques.

#0 : 78I4J+8 1 = 78I4J+8 2 ,
G8K éCBI4J+CK %JKK8+C G8 7878 +A7H28 I8 C87%K 7éI4J+ %AB2 éCBI482 GJ N4+J+M8 8C GJ MA7%CJH4G4Cé

Les deux échantillons sont mélangés et les observations sont rangées dans l’ordre croissant et en
cas d’égalité, on les traite de la même manière. On obtient le tableau suivant après le classement :
Finance Rang Comptabilité Rang
10 10 13 17,5
6 2 17 22
8 4,5 14 19
10 10 12 15,5
12 15,5 10 10
13 17,5 9 7
11 13 15 20
9 7 16 21
5 1 11 13
11 13 8 4,5
9 7
7 3
Somme de rang = 93,5 Somme de rang = 159,5

Il n’est pas nécessaire de calculer la somme des rangs pour les deux, parce que, si on connait pour
l’un, on peut en déduire pour l’autre. Dans cet exemple, la somme de rang est la somme des entiers
naturels de 1 à 22 et ce qui fait 253.
+ = 10, + = 12, < = 93.5
+ + +1 10 11
c=+ + + − < = 10 12 + − 93.5 = 81.5
2 2
En utilisant l’hypothèse nulle selon laquelle les positions centrales des deux populations sont les
mêmes, la distribution de la statistique c a pour moyenne et variance suivantes :
+ + 10 12
c = = = 60
2 2
Et
+ + + ++ +1 10 12 23
d c = = = 230
12 12
Il s’en suit que
c− c 81.5 − 60
e= = = 1.42 8C GJ % − LJGB8 8KC I8 0.1556
fg √230
Avec un seuil de significativité de 0.05, le résultat du test n’est pas suffisant pour conclure que les
étudiants ont passés beaucoup plus de temps à étudier une des matières que l’autre.

Vous aimerez peut-être aussi