Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Stat

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 14

2

Echantillonnage

Un échantillonnage est une sélection d’individus ciblés, triés parmi la po-


lutation de référence, pour réaliser un sondage. La selection repose sur
le principe de la randomisation (la sélection au hasard ou aléatoire) ou
la chance. Une extrapolation permet ensuite d’appliquer les résultats à la
population prise pour cible.
Il existe plusieurs méthodes di¤érentes permettant de sélectionner un
échantillon aléatoire. La méthode qu’on choisira dépendra d’un certain
nombre de facteurs, comme la base de sondage dont on disposera, la façon
dont la population sera distribuée, ce que sonder les membres de la pop-
ulation coûtera et la façon également dont les utilisateurs analyseront les
données. Lorsqu’on choisit un plan d’échantillonnage probabiliste, le but de-
vrait consister à réduire le plus possible l’erreur d’échantillonnage des esti-
mations pour les variables d’enquête les plus importantes, tout en réduisant
le plus possible également le délai et le coût de réalisation de l’enquête.
En d’autres termes:
~ L’échantillon doit être choisi de telle façon qu’ils soit représentatif de
la population. Pour que les conclusions de la théorie de l’échantillonnage
soient valides.
~ Une façon d’obtenir un échantillon représentatif d’une population
est de procéder à un échantillonnage aléatoire, qui garantit que chaque
élément de la population a la même probabilité d’appartenir à l’échantillon.
En d’autres termes, des tirages équiprobables et indépendants les uns aux
autres, dans ces conditions deviennent des variables aléatoires ainsi que les
résumés numériques usuels ( moyenne, variance,...).

7
viii 2. Echantillonnage

~ L’échantillonnage peut-être:
a) Exhaustif ou sans remise: prélèvement de n individus en une seule
fois, ou successivement sans remise, dans ce cas, la composition de l’urne
est modi…ée à chaque tirage ( les tirages ne sont pas indépendants ).
b) Non exhaustif ou avec remise: lorsque chaque individu prélevé est
remis dans la population ( urne ) avant le tirage de l’individu suivant ( les
tirages sont indépendants).
Re marque :
B En pratique, c’est le tirage sans remise qu’il est le plus fréquent. Pour
une même taille d’échantillon, le tirage sans remise donne des estimations
plus précises, la variance de la statistique qui est observée étant toujours
inférieure à celle relative à un tirage avec remise.
B Lorsque la taille de l’échantillon est su¢ samment petite par rapport
à celle de la population, on peut assimiler l’échantillonnage (tirage) sans
remise à l’échantillonnage (tirage) avec remise, les résultats obtenus par
l’un ou l’autre des modes de tirage tendent à se confondre.

2.0.1 Techniques d’échantillonnage


~ Le modèle de l’urne:
On numérote chaque élément de la population. On note ce numéro sur
un papier et on le met dans l’urne. On prélève, au hasard, un nombre de
papiers égal à la taille de l’échantillon désirée.
Si le tirage est fait avec remise, cette méthode devient impraticable pour
une grande taille de la population.
~ Table des nombres aléatoires:
Cette table est formée de nombres entiers compris entre 0 et 9 choisis au
hasard, avec remise, selon le modèle de l’urne.
! Numéroter tous les individus de la population de 1 à N ;
! choisir au hasard un nombre, dans la table, qui servira de point de
départ;
! choisir un sens de déplacement ( vers la gauche, droite, haut, bas);
! à partir du point de départ choisi, en considérant des blocs de
1,2,...chi¤res, noter les nombres entre 1 et N; en éliminant ceux qui se
répètent si le tirage se fait sans remise.
Exemple:
Un club sportif compte 76 membres. On veut faire un sondage parmi
les membres de ce club en choisissant un échantillon aléatoire simple sans
remise de taille 15 (n = 15) :
Solution
1- On numérote tous les membres du club de 1 à 76.
2- On choisit dans la table un point de départ, par exemple à
l’intersection de la ligne 9 (i = 9) et la colonne 5 (j = 5) :
3- On lit, en éliminant les nombres qui sont >76: 11; 12; 60; 75; 29; 09; 74; 48; 41; 17; 49; 08; 45; 56; 04:
(si i = 6; j = 10; vers le bas: 57; 53; 52; 25; 38; 45; 28; 33; 51; 37; 48; 24; 09; 43; 13).

8
2. Echantillonnage ix

L’échantillon choisi est formé des membres du club portant les numéros
précédents.
Remarquons, qu’en population humaine, les listes électorales ou l’annuaire
téléphonique peuvent être utilisés comme bases de sondages.
~ Echantillon périodique ou systématique:
On choisit un premier élément au hasard et une période …xe.
Exemple:
Dans une chaîne de production de pièces on prélève une pièce puis la
20ème, 40ème.....jusqu’à obtention de la taille désirée de l’échantillon.
~ Echantillonnage par degrès ou par grappes:
C’est un tirage où l’échantillonnage n’a pas lieu directement parmi les
éléments de la population mais en plusieurs temps (tirage en cascade).
Exemple:
On s’intéresse à une population d’écoliers, on tire au hasard en premier
lieu les villes, puis dans les villes tirées, les écoles, puis en …n des écoliers.
~ Echantillon strati…é:
On subdivise la population en sous groupes ou strates dans lesquels
la variable d’intérêt ne varie pas beaucoup. On prélève de chaque strate
un échantillon aléatoire et on regroupe tous ces échantillons pour former
l’échantillon désiré. Ceci permet de réduire la taille de l’échantillon mais
elle suppose une connaissance préalable de la population et de ses sous
groupes.
Exemple:
Pour étudier le salaire moyen d’un fonctionnaire, on peut subdiviser la
population en strates formées des ouvriers, agents, cadres moyens, cadres
supérieurs etc...

2.0.2 Echantillon aléatoire


Position du problème
Supposons qu’on dispose d’un lot de pièces éléctroniques pour vente. Il est
naturel de supposer que dans ce lot il y a des pièces défectueuses. On veut
connaître le poucentage de ces pièces défectueuses. La seule manière est
de tester toutes les pièces et de compter le nombre de pièces défectueuses.
Naturellement, cette procédure n’est pas réalisable (problème de temps et
de coût). On se propose de répondre à cette question, en se basant sur les
résultats que donnera un échantillon aléatoire. Donc, on va tester n pièces
au hasard.
Soit Xi; i = 1; 2; :::; n une suite de v.a de Bernoulli telle que

1 si la pièce est défectueuse


Xi =
0 sinon
Dé…nition
On appelle échantillon aléatoire ou n-échantillon toute suite de v.a (X1 ; X2 ; :::; Xn )
indépendantes et de même loi de probabilité:

9
x 2. Echantillonnage

Remarque
En statistique descriptive, un échantillon est dé…ni comme un sous en-
semble de la population.
Exemples
1) On lance un dé n fois. On pose Xi le chi¤re obtenu au ieme lancé;
i = 1; 2; :::; n.
les Xi constituent une suite de v.a indépendantes et de même loi de
probabilité.
1
P (Xi = k) = 8k = 1; 2; :::; 6; 8i = 1; 2; :::; n
6
donc (X1 ; X2 ; :::; Xn ) est bien un échantillon.
2) On tire n jetons avec remise d’une boite contenant 5 jetons numérotés
de 1 à 5.
On note Xi la v.a représentant le numéro du ieme jeton tiré (i = 1; 2; :::; n) :
Les tirages se font avec remise, donc ils sont indépendants et
1
P (Xi = k) = 8k = 1; 2; :::; 5; 8i = 1; 2; :::; n
5
donc les Xi ont la même loi de probabilité, alors (X1 ; X2 ; :::; Xn ) est bien
un échantillon.
Remarque
Si tous les tirages se font sans remise, les Xi ne sont pas indépendants
et dans ce cas (X1 ; X2 ; :::; Xn ) n’est pas un échantillon.

2.0.3 Dé…nition de la statistique


Toute fonction mesurable T = (X1 ; X2 ; :::; Xn ) de l’échantillon (X1 ; X2 ; :::; Xn )
ne dépendant d’aucun paramètre inconnu est appelée statistique.
Exemple
n n
1X 1X 2
X= Xi ; S2 = Xi X
n i=1 n i=1

X est appelé moyenne empirique de l’échantillon, S 2 est appelé variance


empirique de l’échantillon.

2.1 Distribution d’échantillonnage


Prenons tous les échantillons de taille n d’une population. Pour chaque
échantillon, on peut calculer une statistique: moyenne, écart-type,...etc
ce qu’on appelle distribution d’échantillonnage. Si on utilise la moyenne
comme statistique; on dit que c’est une distribution d’échantillonnage de
la moyenne.

10
2.1 Distribution d’échantillonnage xi

2.1.1 Distribution d’échantillonnage de la moyenne


Soit une population de taille su¢ samment grande ( de sorte que l’échantillonnage
peut être considéré comme avec remise).
(1) (1) (1)
On prélève un 1er échantillon de taille n : x1 ; x2 ; :::; xn sa moyenne
n
X (1)
est x(1) = n1 xi
i=1
(2) (2) (2)
si on prélève un 2eme échantillon de taille n : x1 ; x2 ; :::; xn sa moyenne
n
X (2)
est x(2) = n1 xi
i=1
On peut répéter les prélèvements et obtenir x(1) ; x(2) ; ::: qui sont en
général des valeurs di¤érentes, dépendants de l’échantillon et peuvent être
considérées comme des réalisations de la v.a: X = X1 +X2n+:::+Xn
la v.a.r X possède une loi de probabilité appellée distribution d’échantillonnage
de la moyenne et tel que:
2
E X = m; V ar X =
n
en e¤et
n
1X
X= Xi
n i=1

n
! n
1 X 1X
E X = E Xi = E (Xi )
n i=1
n i=1
1
= (nm) = m
n
E X = m

n
! n
!
1X 1 X
V ar X = V ar Xi = 2 V ar Xi
n i=1 n i=1
n
1 X
= V ar (Xi ) (Xi sont indépendantes)
n2 i=1
2
1 2
= n =
n2 n
2
V ar X =
n
Remarques
> Quand n ! +1; V ar X !0

11
xii 2. Echantillonnage

donc
h 2
i h 2
i
V ar X = E X E X =E X m ! 0; quand n ! +1

et on dit dans ce cas que X converge en moyenne quadratique vers m:


> Si la distribution de la population est normale, alors la distribution
d’échantillonnage de la moyenne est aussi normale, car X est une combi-
naison linéaire de v.a indépendantes de loi N m; 2 ; i.e

2
2
Xi N m; 8i = 1; :::; n =) X N m;
n

> Si la distribution de la population est quelquonque et n assez grand


(n 30), le théorème central limite ( T.C.L ) permet d’¢ rmer que Xp m v
n
N (0; 1) :
( Rappel du T.C.L:Soit X1; X2 ; :::; Xn une suite de v.a indépendantes et
Xn
de même loi (i.i.d), alors la v.a Yn = Xi véri…e:
i=1

Yn E (Yn )
! N (0; 1) quand n ! +1
(Yn )

2.1.2 Distribution d’échantillonnage de la variance


On procède de la même manière que pour les moyennes et ainsi, on consid-
ère les variances des échantillons prélevés:

n n
1 X (1) 2 1 X (2) 2
S12 = x x(1) ; S22 = x x(2)
n i=1 i n i=1 i

et ainsi de suite, ces valeurs peuvent être considérées comme des réalisa-
tions de la v.a.r S 2 ( S 2 : variance empirique de l’échantillon )

n
1X 2
S2 = Xi X
n i=1

La loi de probabilité de cette v.a est appelée distribution d’échantillonnage


de la variance avec

n 1
E S2 = 2
n
en e¤et:

12
2.1 Distribution d’échantillonnage xiii

( n
) ( n
)
2 1X 2 1X 2
E S = E Xi X =E ( Xi m) X m
n i=1 n i=1
( )
1 Xh i
n
2 2
= E (Xi m) 2 (Xi m) X m + X m
n i=1
( n n n
)
1X 2 2 X 1X 2
= E (Xi m) X m (Xi m) + X m
n i=1 n i=1
n i=1
( n
)
1X 2 2 2
= E (Xi m) 2 X m + X m
n i=1
n
1X 2 2 1 2 2
2
= E (Xi m) E X m = n V ar X =
n i=1 n n
n 1
E S2 = 2
n
Remarque
On remarque que E S 2 6= 2 ; mais il su¢ t de modi…er la variance S 2
pour avoir l’égalité d’où l’introduction de la quasi-variance de l’échantillon
^2 2
ou S
n
X
^2 2 1 2
=S = Xi X
n 1 i=1
on a
2 2
E S =

en e¤et:

( n
)
1 X 2
2
E S = E Xi X
n 1 i=1
( n n n
)
1 X 2 2 X 1 X 2
= E (Xi m) X m (Xi m) + X m
n 1 i=1
n 1 i=1
n 1 i=1
( n
)
1 X 2 2n 2 n 2
= E (Xi m) X m + X m
n 1 i=1
n 1 n 1
2
n 2 n n 2 n
= V ar X =
n 1 n 1 n 1 n 1 n
2 2
E S =

13
xiv 2. Echantillonnage
p p
donc E S 2 = 2 mais E S 2 6= E (S 2 )
Si la distribution de la population est normale, alors:
2 2 4
V ar S =
n 1

2
Rappel : la loi du Khi-deux
Dé…nition
Une variable aléatoire X suit la loi du 2 (n) ( khi-deux de degrè de
liberté n ) X v 2 (n) si sa densité de probabilité est dé…nie par:
8 1 x n 9
1
>
< n2 ( n2 ) e 2 x 2 si x > 0 >
=
2
f (x) =
>
: >
;
0 sinon
avec
Z
+1

( )= e t t 1 dt ( 0)
0

Z
+1 Z
+1
1 1 t 1
u2
p
si = ; = e t 2 dt = 2 e du =
2 2
0 0
en e¤et:
on pose t = u2 ; dt = 2udu
Z
+1 Z
+1
1
Z
+1
2
t 1
u2
e t 2 dt = e u u2 2
2u du = 2 e du
0 0 0

et comme on a:
Z
+1
1 x2
2 p e 2 dx = 1 ( d.d.p de la loi N (0; 1)
2
0

alors
Z
+1
2 p
1 x
p 1 x
p e 2 dx = en posant u = p ; dx = 2du
2 2 2
0
Z
+1 Z
+1
x
p
2
1p u2
p 1p
= e 2 dx = 2 =) e 2du = 2
2 2
0 0
Z
+1
u2 1p
=) e du =
2
0

14
2.1 Distribution d’échantillonnage xv

Autres propriétés de la fonction

( + 1) = ( ) ( 0)
Z
+1

en e¤et : ( + 1) = e t t dt;
0
1
en intégrant par parties : U = t ; dU = t ; dV = e t ; V = e t

Z
+1
t +1
( + 1) = t e 0
+ e tt 1
dt = ( )
0

1 p
8n 2 N: (n + 1) = n!; (1) = 1; =
2
82 39
Z
+1
< Z
+1
=
t +1
(n + 1) = n e t tn 1 dt = n 4 tn 1
e + (n 1) e t tn 2 5
dt
: 0 ;
0 0
en faisant des intégrations par parties succéssives, on obtient
Z
+1

(n + 1) = n (n 1) (n 2) 1 e t tdt = n (n 1) (n 2) 1 (1)
0
or (1) = 1; donc (n + 1) = n!

Dé…nition
Si X1 ; X2 ; :::; Xn des v.a.r indépendantes suivant toutes la loi N (0; 1),
alors la somme des carrés de ces v.a.r
n
X
X12 + X22 + ::: + Xn2 = Xi2 v 2
n
i=1

On en déduit immédiatement que si X et Y 2 v.a indépendantes telles


que

Xv 2
p
=) X + Y v 2
Y v 2
q
p+q

Dé…nition
On dit qu’une v.a X suit la loi Gamma de paramètre r (X v (r)) si sa
densité de probabilité est donnée par

1 x r 1
f (x) = e x 1]0;+1[
(r)

15
xvi 2. Echantillonnage

avec
Z
+1
1 (r + 1)
E (X) = xr e x
dx = =r
(r) (r)
0
et
Z
+1
2 2 1
V ar (X) = E X E (X) = xr+1 e x
dx r2
(r)
0
(r + 2) (r + 1) (r + 1)
2
= r = r2 = (r + 1) r r2 = r
(r) (r)
Propriété
Si X v (r) =) 2X v 22r
2
On en déduit donc par transformation les propriétés de la loi du
2 2
E n = n; V ar n = 2n
Théorème
Si la distribution de la population est normale, alors la variable aléatoire
nS 2
2
v 2
n 1

en e¤et:

n
" n
#
nS 2 1 X 2 1 X 2
2
= 2
Xi X = 2
Xi m) (X m
i=1 i=1
" n #
1 Xn 2 2
o
= 2
(Xi m) + X m 2 X m (Xi m)
i=1
" n #
1 X 2 2
= 2
(Xi m) + n X m 2 X m n X m
i=1
" n
# n
!2
1 X 2 2 X Xi m
2
X m
= 2
(Xi m) n X m =
p
i=1 i=1 n

donc, on a:
8 n 9
> X >
> Xi m 2 >
< v 2
n = nS 2
i=1 =) v 2
n 1
>
> 2 >
>
2
: X m
v 2 ;
p 1
n

car
Xi v N (0; 1) =) Xi2 v 2
1
nXi v N (0; 1) =) nXi2 v 2
n i = 1; :::n

16
2.1 Distribution d’échantillonnage xvii

2.1.3 Distribution d’échantillonnage de la fréquence


Considérons une population de taille N dont les éléments possèdent un
certain caractère avec une fréquence p. On prélève avec remise dans cette
population des échantillons de taille n et on mesure pour chacun d’eux la
fréquence F avec laquelle les éléments possèdent cette même propriété.
Soit Sn : v.a représentant le nombre d’éléments de l’échantillon possédant
la propriété considérée.

Sn v (n; p)
Sn
F = n est la proportion d’individus ayant ce caractère dans l’échantillon,
alors
p (1 p)
E (F ) = p; V ar (F ) =
n
en e¤et:
Sn 1 1
E (F ) = E = E (Sn ) = np = p
n n n

Sn 1
V ar (F ) = V ar = np (1 p)
n n2
p (1 p) pq
= = ; q=1 p
n n
Remarques
1) Si le tirage se fait sans remise, alors:
p (1 p) N n
E (F ) = p; V ar (F ) =
n N 1
en e¤et:
Dans ce cas:

Sn v H (N; n; p)
N n
E (Sn ) = np; V ar (Sn ) = npq
N 1
et donc
E (F ) = p

Sn 1
V ar (F ) = V ar = 2 V ar (Sn )
n n
p (1 p) N n
=
n N 1
N n
est appelé coe¢ cient d’exhaustivité
N 1

17
xviii 2. Echantillonnage

2) Pour une taille n de l’échantillon assez grande ( en pratique pour


n 30 ), on a
F E (F ) F p
= p pq v N (0; 1)
(F ) n

2.1.4 Distribution d’échantillonnage de la di¤érence de deux


moyennes
Soient deux populations P1 et P2 de moyennes m1 et m2 et de variances
2 2 0
1 ; 2 ( respectivement ). On s intérresse dans de nombreux problèmes à
la di¤érence m1 m2 :
On extrait de P1 un échantillon de taille n1 (x11 ; x12 ; :::; x1n1 ) et de P2
un échantillon de taille n2 (x21 ; x22 ; :::; x2n2 )
en notant par
n1 n2
1 X 1 X
X1 = X1i ; X2 = X2i
n1 i=1 n2 i=1

on a:
1) E X1 X 2 = m1 m2
en e¤et:

E X1 X2 = E X1 E X 2 = m1 m2

1 2 1 2
2) V ar X 1 X2 = 1 + 2
n1 n2
en e¤et:

V ar X 1 X2 = V ar X 1 + V ar X 2 car X 1 ; X 2 son indépendantes


1 2 1 2
= +
n 1 1 n2 2
Ceci pour un tirage avec remise (non exhaustif), dans le cas d’un tirage
sans remise (exhaustif), on aura:
2 2
1 N 1 n1 N 2 n2
V ar X 1 X2 = + 2
n1 N 1 1 n2 N 2 1
où N1 est la taille de P1 et N2 est la taille de P2 :
3) Si n1 ; n2 sont assez grands, on peut dire que
8 2
9
< X 1 v N m1 ; 1 = 2 2
n1
2 =) X 1 X 2 v N m1 m2 ; 1
+ 2
: X 2 v N m2 ; 2 ; n1 n2
n2

18
2.1 Distribution d’échantillonnage xix

et on conclut donc que

X1 X2 (m1 m2 )
q 2 2
v N (0; 1) ( T.C.L )
1
n1 + 2
n2

Exemple
On choisit au hasard 6 nombres parmi les nombres entiers de 1 à 9,
chacun de ces nombres a la même probabilité d’être choisi.
Calculer la moyenne et l’écart-type de la distribution d’échantillonnage
des moyennes dans les 2 cas:
a) tirage sans remise.
b) tirage avec remise.
Solution
a) la moyenne de la population est

1 + 2 + ::: + 9
m= =5
9
la variance est

2 1h 2 2 2
i
= (1 5) + (2 5) + ::: + (9 5) = 6:67 =) = 2:58
9
il y a C96 = 84 façons de choisir 6 nombres parmi 9 nombres. Chacun de
X6
ces 84 échantillons possibles a une moyenne x = 16 xi où i = 1; 2; :::; 6
i=1
représente un des 9 nombres.
par exemple l’échantillon (3; 8; 7; 2; 5; 1) a pour moyenne x = 4:33: On
obtient ainsi 84 moyennes et la moyenne de la distribution d’échantillonnage
des moyennes est

E X =m=5
la variance de la distribution d’échantillonnage des moyennes est

2
N n 6:67 9 6
V ar X = = = 0:417 =) X = 0:645
n N 1 6 9 1

b) Il y a 96 = 531441 façons de choisir 6 nombres parmi les 9 nombres.


X6
chacun de ces échantillons a une moyenne x = 16 xi où i = 1; 2; :::; 6
i=1
représente un des 9 nombres.
par exemple l’échantillon (4; 3; 4; 5; 7; 8) a pour moyenne x = 5:17: On
obtient de cette manière 531441 moyennes et la moyenne de la distribution
d’échantillonnage des moyennes est

19
xx 2. Echantillonnage

E X =m=5
la variance de la distribution d’échantillonnage des moyennes est
2
6:67
V ar X = = = 1:11 =) X = 1:05
n 6

20

Vous aimerez peut-être aussi