Statistiques Approfondies 20-21 Etudiants PDF
Statistiques Approfondies 20-21 Etudiants PDF
Statistiques Approfondies 20-21 Etudiants PDF
20
Chapitre 2:
I: Méthodes d’échantillonnage
Notations:
Remarque:
La théorie de l’échantillonnage nous propose une distinction
fondamentale entre échantillons basés sur la probabilité :
Echantillons probabilistes et échantillons non basés sur la
probabilité : Echantillons non probabilistes ou empiriques.
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Exemple1:
Par échantillonnage aléatoire simple, sans remise, on veut
choisir 7 salariés parmi un groupe de 70 autres. La sélection
de l’échantillon sera faite à l’aide de la table de nombres
aléatoires.
1ère étape: Attribuer un numéro à chaque salarié de 01 à 70.
2ème étape: choisir un point d’entrée.
3ème étape: Déterminer le sens de déplacement dans la table.
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Exemple 2:
Sélectionner par échantillonnage aléatoire simple, sans
remise, 12 entreprises, parmi un groupe de 120. L’échantillon
sera faite à l’aide de la table de nombres aléatoires.
- Le point d’entrée: 11ème ligne, 1ère colonne.
Réponse:
69 -- 55 -- 44 --14 -- 108 -- 33 -- 18 -- 66 -- 49 -- 103 --
10 -- 99.
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
2- Echantillons Systématiques:
• L’échantillonnage systématique suppose l’existence d’une liste
de la population où chaque élément est numéroté de 1 jusqu’à
N.
• Notons n le nombre d’individus que doit comporter l’échantillon
N
• L’entier sera noté r et appelé la raison de sondage (Le pas de
n
sondage)
N
• Raison de sondage r= n
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Exemple:
On décide de choisir par échantillonnage systématique 8 entreprises
parmi un groupe de 80.
- Numéroter les entreprises de 1 à 80.
N
- Calculer la raison du sondage r = = 80/8 =10
n
- On tire le numéro d au hasard de 1 à 80.Supposons que d=3
alors l’entreprise qui porte le numéro 3 est sélectionnée.
- Pour avoir les 7 autres entreprises on ajoute à chaque fois la
raison de sondage.
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
3- Echantillons stratifiés:
Cette méthode consiste à subdiviser la population en
différentes strates selon certaines caractéristiques puis à
sélectionner aléatoirement des individus de chaque strate
pour former un échantillon qui devra contenir la même
proportion d’individus de chacune de strates que la population.
Cette méthode permet d’obtenir un échantillon représentatif.
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Exemple:
Soit une population de 10.000 entreprises, réparties en 5000 PE,3000
ME et 2000 GE, on souhaite avoir un échantillon de 500 entreprises.
Exemple:
On veut bien choisir 12 salariés dans un groupe de 60.
1- On demande de se regrouper par 6. On aura alors 10
grappes de 6 salariés.
2- La taille de l’échantillon est n = 12.
3- Nombre de grappe à choisir = 12/6 = 2.
4- On choisit au hasard deux regroupements, par exemple les
grappes numéro 4 et 7 en retenant tous les individus de ces
deux grappes, on constitue un échantillon donc de 12 salariés.
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Exemple:
Dans une population de salariés, il y a 52% d’hommes et 48%
de femmes. Pour n = 200 on retiendra alors 104 hommes et
96 femmes.
Cette méthode consiste à choisir arbitrairement des individus
de chaque strate de la population en respectant la proportion
des strates dans la population
Les avantages:
- Des coûts et des délais de réalisation plus faible que ceux
d’une enquête aléatoire
- Des résultats que l’on peut qualifier de fidèles
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Exemple:
Enquêtes réalisés dans la rue, les lieux publics, en sortie des
grandes surfaces……..
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Echantillons de volontaires:
Dans le cas d’expériences psychologiques ou médicales,
d’enquêtes sur les habitudes de consommation, il ne serait
pas pratique de choisir au hasard des individus dans toute la
population.
Comme l’enquête sera longue, exigeante, quelques fois même
désagréable, on préfère réunir des volontaires, d’où le nom
d’échantillonnage de volontaires. Néanmoins , il faut toujours
craindre un écart entre les caractéristiques des volontaires et
celle de la population.
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
II Distributions d’échantillonnage
𝜎 𝑵−𝒏
𝜎(Xn) =
√𝒏 𝑵−𝟏
Loi de probabilité de Xn :
Quelle que soit la taille de l’échantillon, si la variable X suit une loi
normale, la variable aléatoire Xn suit une loi normale.
De même ,d’après le théorème de la limite centrale, quelle que soit la
loi suivie par la variable aléatoire X, si n ≥ 30, la variable aléatoire Xn suit
une normale.
Si n ≥ 30 ou si X suit une loi 𝑁(𝑚,𝜎)
𝜎
Xn suit une loi 𝑁(𝑚, )
√𝒏
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Intervalles d’acceptation :
Des intervalles d’acceptation centrés sur la moyenne d’un échantillon
de taille n peuvent être calculés au seuil de confiance α
( compris entre 0 et 1):
𝑋−𝑚
P(m-k < Xn < m+k) = α on pose T = 𝜎 qui suit N(0,1)
√𝒏
(m−k) − m (m+k) − m 𝑘 𝜎
P( 𝜎 < 𝑇< 𝜎 ) =α t= 𝜎 t =𝑘
√𝒏
√𝒏 √𝒏 √𝒏
P(−𝑡 < 𝑇 < t) = α
α+1
2𝜋(t) – 1 = α 𝜋(t) = 2
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Correction:
1- E(X100) = E(X) = 15 litres
𝜎(X) 0,1
𝜎 (X100) = = = 0,01
𝒏 𝟏𝟎𝟎
2- La taille des échantillons étant supérieur à 30, le théorème de la limite
centrale s’applique, et la loi de probabilité X100 , distribution
d’échantillonnage des moyennes, est la loi normale s’applique N(15;0,01)
14,98 −15
3- a) P(X100 < 14,98) = P(T < ) = P(T < −𝟐) = 1- 𝜋(2)
𝟎,𝟎𝟏
= 1- 0,9772= 0,0228
15−15 15,02−15
b) P(15 < X100 < 15,02) = P( < T100 < ) = P(0 < T100 < 2)
𝟎,𝟎𝟏 𝟎,𝟎𝟏
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
𝒑𝒒 𝑵−𝒏
𝜎(Fn) = 𝒏 𝑵−𝟏
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Remarques:
Si les conditions sont vérifiés, une approximation de Fn par une loi de
Poisson est envisageable.
P
P étant une variable aléatoire discrète, Fn = est également une
n
variable aléatoire discrète.
Il est donc souhaitable d’effectuer une correction de continuité pour
obtenir une meilleure approximation des résultats.
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Eléments de réponse:
1- E ( F500) = 0,75 𝜎(F500) = 𝟎,𝟕𝟓 𝐱 𝟎,𝟐𝟓
𝟓𝟎𝟎
≈ 0,019365
2- les conditions d’approximation de F500 par une loi normale
N = ( 0,75 , 0,01936) sont réunis .Des corrections de continuité seront
effectuées.
𝟎,𝟕𝟔−𝟎,𝟕𝟓
a) P(F500 > 0,76) = 1- P(T ≤ ) = 0,3015
𝟎,𝟎𝟏𝟗𝟑𝟔𝟓
𝟎,𝟕𝟒−𝟎,𝟕𝟓 𝟎,𝟕𝟕−𝟎,𝟕𝟓
b) P( 0,74 ≤ F500 ≤ 0,77) = P( 𝟎,𝟎𝟏𝟗𝟑𝟔𝟓
≤ T≤ 𝟎,𝟎𝟏𝟗𝟑𝟔𝟓
) = 0,547
3- Dans 99% des cas la proportion d’un échantillon de taille 500
appartiendra à l’intervalle:
𝟎, 𝟕𝟓 − 2,575x 0,019365; 𝟎, 𝟕𝟓 + 2,575x0,019365
𝟎, 𝟕𝟎𝟎𝟏 ; 𝟎, 𝟕𝟗𝟗𝟗
II: EstimationsPr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Taille N Taille: n
Moyenne m (inconnu) Espérance : X (connue)
Plus l’échantillon est grand , plus on arrive à une meilleure estimation. Par
ailleurs, pour diminuer le risque de se tromper, plutôt que donner un nombre
appelé estimation ponctuel , il est possible de donner une fourchette appelée
intervalle de confiance, dans laquelle se trouve le paramètre à estimer.
A- Estimations ponctuelles:
• Estimation ponctuelle d’une moyenne : Soit m la moyenne inconnue de la
variable X définie sur la population mère, et X la moyenne calculée sur un
échantillon de taille n. La moyenne X variant d’un échantillon à l’autre est
une estimation ponctuelle de m.
Le nombre X est une estimation ponctuelle de m
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
𝒏
Le nombre S= 𝜎′ est une estimation ponctuelle de 𝜎
𝒏−𝟏
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Correction:
1- Prendre les centres des classes; x = 26,33 minutes
𝜎′ = 12,31 minutes
2- Une estimation ponctuelle de la moyenne de la population est :
m = 26,33 minutes
Une estimation ponctuelle de l’écart type
𝒏 𝟑𝟎
S= 𝜎′ = 𝟏𝟐, 𝟑𝟏 = 12,52 minutes
𝒏−𝟏 𝟑𝟎−𝟏
3- Une estimation ponctuelle de la proportion p des demandes de la
population totale dont la durée de traitement est de plus de 40 minutes est
4
: = 0,1333
30
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
𝜎 𝜎
La partie de l’égalité 𝑚 − 𝑡α < 𝑋n peut s’écrire 𝑚 < 𝑋𝑛 +𝑡α
𝒏 𝒏
𝜎 𝜎
La partie de l’égalité 𝑋𝑛 < 𝑚 + 𝑡α peut s’écrire 𝑚 > 𝑋𝑛 − 𝑡α
𝒏 𝒏
L’égalité équivaut donc à:
𝜎 𝜎
P(𝑋𝑛 − 𝑡α < 𝑚 < 𝑋𝑛 + 𝑡α )=α
𝒏 𝒏
Après avoir prélevé un échantillon de taille n, la valeur x est connue, et
une des réalisations de l’intervalle de confiance I est:
𝜎 𝜎
I = 𝑋 − 𝑡α ; 𝑋 + 𝑡α
𝒏 𝒏
Pr M. MERZAQ,ENCG 20-21 Settat 21.12.20
Remarques :
Avec 𝑡α = 1,96 pour α = 0,95 et 𝑡α = 2,575 pour α = 0,99.
La moyenne m de la population appartient à l’intervalle calculé dans
α% des cas, ce qui signifie également qu’elle ne peut pas appartenir
à l’intervalle de confiance dans 100 - α% des cas.
Si elle appartient à l’intervalle, la moyenne m peut être située
n’importe où dans l’intervalle et n’a plus de raison d’être près du
centre.
Plus le coefficient de confiance α augmente, plus l’amplitude de
l’intervalle augmente: ce qui est gagné en certitude est perdu en
précision.