Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

TD Echantillonage 18 Janvier 2020 1 Fevrier 2020

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 5

Sup’Info Master1 Analyse de données : TD1 sur l’échantillonnage

Exemple 1:
L'échantillonnage systématique est une méthode qui consiste à dresser la liste de tous les
éléments de la population visée et de déterminer le rapport suivant: (nombre d'éléments de la
population)/(Taille de l'échantillon. Une base de données d’utilisateur du réseau téléphonique
mobile d’une région contient 40000 clients. Faire l’échantillonnage systématique de cette base
de données avec un échantillon de 2000 individus.
Reponse1 : On va faire 40000/2000 = 20.Alors, à partir du début du de la base, on choisit le
20 ième, le 40ième, le 60 ième, élément de la base, toujours en faisant des bonds de 20

Exemple 2 :
J'ai ville avec une population de 20000 habitants ainsi répartis par sexe :
Hommes 8400
Femmes 11600
Je veux un échantillon de 5000 individus et je veux qu'il représente fidèlement ma population.
Proposer une méthode d’échantillonnage et faire le calcul nécessaire.
Réponse 2 :
Hommes: 8400 ==> 42% de la population

Femmes: 11600 ==> 58% de la population

8400 + 11600 = 20000 individus de ma population

Je veux un échantillon de 5000 individus et je veux qu'il représente fidèlement ma population.


Je vais donc utiliser les proportions pour obtenir quelque chose de représentatif.

Hommes: 5000 * 42% = 2100

Femmes: 5000* 58% = 2900


2100 + 2900 = 5000 individus de mon échantillon

Exemple 3 :
Un vendeur souhaite sélectionner trois modèles de ses articles pour les présenter à un concours
d’exposition de mode. Pour cela, il met tous les modèles de ses articles dans un grand chapeau
et, sans regarder, en tire 11. Quel type d'échantillon est constitué ?
Réponse 3 : Aléatoire simple

Exemple 4 :
Une responsable qualité d'un atelier de maintenance cartes réseau d’ordinateur veut vérifier la
conformité des cartes d’ordinateurs avant leur expédition auprès d'un client. Pour cela, elle
choisit au hasard 20 cartons parmi les 10 constituant la commande et vérifie la conformité d
dans les 20 cartons. Quel type d'échantillon est constitué ?
Réponse 4 : Grappes
Exemple 5 :
Une enquête sur la vie étudiante a été menée auprès de 140 étudiants. L'échantillon a été obtenu
en choisissant aléatoirement 35 étudiants de première année, 35 étudiants de deuxième
année, 35 étudiants de licence et 35 étudiants en Master I. Quel type d'échantillon est
constitué ?
Réponse 5 : Stratifié

Exemple 6 :
Pour sélectionner 15 de ses employés, un directeur associe chacun d'eux à un nombre écrit sur
un bout de papier. Il met tous les bouts de papiers dans un pot et, sans regarder, tire au
hasard 15 bouts de papiers. Les employés associés à ce nombre constituent l'échantillon. Quel
type d'échantillon est constitué ?
Réponse 6 : Aléatoire simple
Choix d’un Echantillon (TP)

1. Critere de choix de l’echantillon et cartographie des PME et Start-ups

Un échantillon est caractérisé par deux principaux éléments : taille et variabilité


 la taille de la population mère
Plus la population est importante, plus on a besoin d’un échantillon de plus grande
taille. Cependant, lorsqu’il s’agit de très grandes populations, la taille de la population
n’a plus d’influence sur la taille de l’échantillon.
 la variabilité des caractéristiques de la population mère
Plus la population mère qui vous intéresse est diverse et présente des caractéristiques variées,
plus il faudra interroger de personnes. A l’inverse, plus cette population est homogène et moins
il faudra interroger de personnes.
La taille réelle de l’échantillon est un compromis entre le degré de précision à atteindre, votre
budget pour l’enquête et l’ensemble des contraintes opérationnelles (informations disponibles,
délais, etc.).
Dans une population peu dispersée, toutes les valeurs de l'échantillon seront forcément proches
de la moyenne.
Dans une population plus dispersée, les valeurs de l'échantillon seront généralement plus
éloignées de la moyenne. La moyenne de l'échantillon pourra donc s'écarter plus fortement de
celle de la population.
Soient:
 n le nombre d'individus dans l'échantillon
 l'écart type de la population
Alors, la précision de la moyenne peut être mesurée par un écart type sur la moyenne:

La précision sur la valeur moyenne sera donc d'autant meilleure que:


 la population sera peu dispersée ( petit)
 l'échantillon sera grand (n grand)

La présence d'une racine carrée au dénominateur implique que:


• pour une précision 2 fois meilleure, il faut un échantillon 4 fois plus grand.
• pour une précision 10 fois meilleure, il faut un échantillon 100 fois plus grand.
Comme pour la moyenne, nous réserverons les lettres grecques pour les grandeurs relatives à
la population et les caractères romains pour les grandeurs correspondant à l'échantillon.

moyenne écart type

population:

échantillon: s

Ecart type de la moyenne est noté :


Si l'écart type de la grandeur analysée dans la population n'est pas connu, on peut le remplacer
par l'écart type calculé dans l'échantillon, pour autant que cet échantillon soit suffisamment
grand.

Notons p la proportion d'individus d'une classe dans l'échantillon. Si n1 est le nombre


d'individus dans la classe 1 et n le nombre total d'individus dans l'échantillon, on a:

et de même

Si l'échantillon est représentatif, la proportion p dans l'échantillon est une approximation de la


proportion dans la population. Pour des échantillons suffisamment grands, les proportions
suivent une loi normale, avec un écart type d'échantillon de:

En général, la proportion dans la population n'est pas connue. On la remplace alors par la
proportion p dans l'échantillon
Les proportions obéissent à des lois comparables à celles des moyennes.
Une différence importante est que l'écart type peut être calculé à partir des proportions (pour
les moyennes, il devait être connu par ailleurs).
Si on n’a aucune piste sur la valeur de p, on prend la valeur qui donne plus de dispersion
maximale, à savoir 0,5 par défaut (loi des grands nombres).
Formule de calcul de la taille de l’échantillon

La taille de l’échantillon est obtenue à partir de la formule suivante :


tα ∗ (1 − ) ∗
=
tα ∗ (1 − ) + ( − 1) ∗ m

n = taille de l’échantillon ;
tα = intervalle de confiance selon la loi normale centrée réduite (pour un niveau de confiance
de 95%, tα = 1.96, pour un niveau de confiance de 99%, tα = 2.575, pour 80 % tα =1,28
pour 85 % tα =1,44, pour 90 % tα = 1,65) ;
p = proportion estimée de la population qui présente la caractéristique (lorsque inconnue, on
utilise p = 0.5 ce qui correspond au cas le plus défavorable c’est-à-dire la dispersion la plus
grande).
m = marge d’erreur tolérée (par exemple on veut connaître la proportion réelle à 5% près)
Cette formule détermine le nombre de personnes n à interroger en fonction de la marge
d’erreur m que l’on peut tolérer sur une proportion de réponses p.
N est la population à étudier ou base de sondage utilisée.

La taille peut être calculer approximativement via le lien de Monkey(site de sondage reconnue
au plan mondial) :https://fr.surveymonkey.com/mp/sample-size-calculator/

Exercice :
L’ensemble des PME en télécommunication et transport enregistrées dans un pays est de 650
unités économiques.
La famille du secteur transport et télécommunication, d’après le recensement généal. de la
population et de l’habitat de 2017, estime l’ensemble de ces entreprises égale à 0,4% de
l’effectif total de l’ensemble des entreprises de ce pays. Le nombre d’entreprise total
d’entreprises de ce pays était de 507 882.
Etape 0 : compléter le tableau de répartition des 650 entreprises (base de sondage)
suivant :
Stratification de la population entreprise du numérique
Zone Géographique Nombre Entreprise Proportion
Autres régions 5%
Da 84%
Dl 3%
SL 2%
T 5%
Z 1%
Total 100%
Etape 1 : donner la méthode d’échantillonnage et calculer de la proportion p
:
/ é ( )
=
éé
AN :
Etape 2 : déterminer la taille de l’échantillon :
La taille de notre échantillon est choisie avec les spécifications suivantes :
- La marge d’erreur, notée m = 7%
- Le risque maximum, noté tα : sa valeur est issue d’une loi de probabilité (loi de Student ;
pour une population de taille notée N < à 30, loi normale : pour une population de taille
N > à 30 le cas de cette étude). Soit tα = 1,65 pour un intervalle de confiance de 90%.
- La connaissance statistique de la proportion attendue d’une réponse de la population ou
proportion réelle.
∗ ( )∗
- =
∗ ( ) ( )∗

AN :
On peut dire implicitement que nous avons fixé un taux de réponse ( out taux de sondage)
Qui est donné par : taille n de l’échantillon / base de sondage,
Ce taux de réponse doit être supérieur ou égale à 20 %,
- Etape 3 : Tirage de l’échantillon
On peut subdivise la population en strates selon la zone et l’échantillon est choisi en tirant au
sort dans chacune des strates (on réalise un sondage sur chacune des strates).
Selon les cas, on peut choisir d’autres types de tirage de l’échantillon : échantillonnage
aléatoire simple, échantillonnage par quota, échantillonnage systématique.
Echantillonnage par grappe.
Compléter le tableau suivant pour la répartition des éléments de l’échantillon
Stratification de la population entreprise de l’échantillon
Zone Géographique Nombre Entreprise Proportion
Autres régions 5%
Da 84%
Dl 3%
SL 2%
T 5%
Z 1%
Total 100%
Etape 4 : élaboration, validation du questionnaire (enquête)

- Bien choisir sa ou ses questions


- Mode d’administration du questionnaire (sur site ou en ligne)
- En ligne (webquest, monkey, sli.do, etc)

Etape 5 : recueil et traitement des données : -tri à plat, -Tri croisé, -Modélisation et approximation

Vous aimerez peut-être aussi