Sondage
Sondage
Sondage
Ministère de la santé
Délégation du Ministère de وزارة الـصـحــــــــــــــــــــــــــــة
la Santé à la Wilaya de نيابة وزارة الصحة والية الرباط
Rabat معهد تأهيل األطر في الميدان
Institut de Formation aux
Carrières de Santé Rabat الصحي بالرباط
Volume Horaire : 60 h
Encadré par :
Mr. EL MARNISSI
Elaboré par :
Abdelillah
Mr. NAQUIS Rabie Ingénieur d’Etat statisticien
Mr. DARFOUF Hicham
Promotion 2005/2008
Année universitaire 2007/2008
Remerciements
A,
Membres de jury,
Vous nous avez fait un grand honneur d’avoir accepter de juger ce modeste
travail.
Nous vous exprimons nos vifs remerciements
____________________________________________________________________________
Cours de Sondage 2
Introduction
Ce module est destiné aux étudiants de la 3ème année section statistique sanitaire
ayant suivi des cours dans des disciplines leur permettant de comprendre les concepts
abordés dans ce module. Parmi ces disciplines on cite :
Statistique descriptive.
Statistique mathématique.
Objectif général
____________________________________________________________________________
Cours de Sondage 3
Objectifs d’apprentissage:
Définir les concepts suivants:
Sondage,
Recensement,
Enquête par sondage,
Paramètre,
Estimateur,
Inférence,
Base de sondage.
Maitriser les instruments des mesures d’erreurs d’échantillonnage :
Biais.
Variance.
Ecart-type
l’erreur quadratique moyenne.
Maîtriser le principe des différentes techniques de sondage probabiliste.
Connaître les différentes expressions des estimateurs sans biais pour la
moyenne, le total et la proportion.
Calculer la précision pour chaque estimateur.
Déterminer la taille de l’échantillon dans le cas du sondage probabiliste
Identifier les avantages/inconvénients pour chaque technique de sondage.
différencier entre les différents types de sondage empirique.
identifier les différents types d’erreurs rencontrées lors des enquêtes par
sondage.
Méthodologie de travail
La méthodologie utilisée pour la réalisation de ce module se résulte comme suit :
Exploitation des documents en relation avec le sujet.
Consultation des sites web traitant le même sujet.
Entretiens avec les personnes ressources.
____________________________________________________________________________
Cours de Sondage 4
Les activités d’enseignement/d’apprentissage:
Activité d’enseignement :
Le cours privilégiera des apprentissages actifs basés sur les pré-requis théoriques des
étudiants, il comportera :
Des exposés interactifs présentés par l’enseignant.
Des travaux de groupe.
Des exercices de réflexion. (analyse et synthèse)
Activité d’apprentissage:
Lecture du document de base
participation aux travaux de groupes
Modalités de l’évaluation :
L’évaluation a pour objectif d’évaluer le degré d’assimilation des étudiants des
connaissances théoriques relatives aux techniques de sondage ainsi leur application.
L’évaluation peut prendre la forme de contrôles continus effectués le long de
l’avancement du cours et un examen final à l’issue du module.
Contenu du module
Intitulés pages
____________________________________________________________________________
Cours de Sondage 5
* Introduction
* Pré-requis 3
* Objectif général
* Objectifs d’apprentissage
4
* Méthodologie de travail
* Les activités : d’enseignement/d’apprentissage
5
* Modalités de l’évaluation
* Unité І : Introduction générale à la notion du
9
Sondage
* Unité ІІ : Les Sondages probabilistes 13
* Unité ІІІ : Les Sondages non probabilistes
(empiriques) 29
Plan du cours
____________________________________________________________________________
Cours de Sondage 7
ІV/ Le Sondage à plusieurs degrés
1/ Principe et justification
2/ Estimation et calcul de précision
2-1) Estimation
2-2) Calcule de précision
V/ Le Sondage en grappe
1/ Principe et justification
2/ Estimation et calcul de précision
Unité І
*********
Introduction générale à La notion du
sondage
Volume horaire : 8 heures
Objectifs d’apprentissage:
Définir les concepts suivants:
____________________________________________________________________________
Cours de Sondage 8
Sondage,
Recensement,
Enquête par sondage,
Paramètre,
Estimateur,
Inférence,
Base de sondage.
Maitriser les instruments des mesures d’erreurs d’échantillonnage :
Biais.
Variance.
Ecart-type
l’erreur quadratique moyenne.
- Les sondages font partie de ces disciplines qui sont mal connues par le grands
public ; ce sont les sondages d’opinion et les sondages sur les modes de vie qui, bien
adaptés a la médiatisation, constituent la forme extérieure la plus envahissante des
sondages.
Or le sondage n’est pas la seule source de données, il y’en a deux autres très
intéressantes qui sont :
- les données existantes auparavant : comme les registres les revues,
publication ou le registre d’état civil constitue la source la plus importante de
cette catégorie, car il donne les informations nécessaires (naissances,
décès… .) pour tout type d’études sur la population. Or ce registre connaît
plusieurs inconvénients empêchant son utilisation comme la source principale
de collecte de données ;
- le recensement : qui est défini comme étant une collecte exhaustive, auprès
de tous les individus de la population pour connaître toutes les valeurs Yi de
ces individus i et être ainsi en mesure de calculer exactement toutes les
fonctions imaginables des Y.
Recensement et sondage
La solution au problème d’agrégation est très simple si nous décidons de ne pas
regarder à la dépense : dans ce cas extrêmement favorable, il suffit d’effectuer une
enquête par recensement de la population, Or, la plupart des budgets supportent
assez mal les recensements, sauf s’il s’agit de population de petite taille. Il est alors
nécessaire de limiter ses ambitions et de collecter l’information Y sur une partie de
la population, on construit un échantillon d’individus que l’on interrogera, réalisant
ainsi par définition une enquête par sondage.
____________________________________________________________________________
Cours de Sondage 9
Problèmes fondamentaux du sondage :
Un sondeur à trois grandes préoccupations :
Méthode de tirage
Coût
Le paramètre :
Chaque unité d’échantillonnage renvoyant à une liste déterminée d’unités
d’observation, on peut établir des correspondances propres entre échantillon d’unité
d’échantillonnage et échantillon déduit d’unités d’observation à partir duquel on
construit notre estimateur.
La fonction des Yi qui nous intéresse est un paramètre, c'est-à-dire une grandeur
fixée mais inconnue. Notée :
=
L’inférence :
L’inférence est la procédure qui permet de passer des données recueillies sur
l’échantillon à la vraie valeur inconnue, on peut aussi la nommer extrapolation.
____________________________________________________________________________
Cours de Sondage 10
Les mesures des erreurs d’échantillonnage servent à l’évaluation de la pertinence
des données obtenues, Il y’a de divers moyens pour le faire ; le biais, la variance,
l’erreur quadratique moyenne sont les moyens les plus utilisés dans la mesure des
erreurs d’échantillonnage.
a) le biais :
Le biais de l’estimateur est la différence entre l’espérance de cet estimateur et la
vraie valeur qu’on cherche à estimer notée par
B( )=E( - )=E( )-
b) la variance :
La variance d’un estimateur est par définition la moyenne des carrées des
écarts à la moyenne :
V ( ) = E ( - E ( )) ² = ( - E ( )) ²
Pour se ramener à l’échelle courante, on décide de prendre la racine carrée de ,
que l’on appelle écart-type de l’estimateur , noté cette grandeur a deux atouts
que la variance n’a pas : être directement comptable à d’une part, et servir de base
au calcules des intervalles de confiance d’autre part.
On a : =
Le type d’erreur dû au fait que l’on enquête qu’un échantillon s et non pas toute la
population, s’appelle donc l’erreur d’échantillonnage, le sondeur a pour
préoccupation de réduire cette erreur.
Base de sondage :
Liste des individus dont on dispose et dans laquelle on échantillonne lorsqu’on
veut faire un sondage probabiliste dans la population qui nous intéresse, on demande
à cette liste d’avoir trois propriétés principales :
Elle doit permettre de repérer l’unité sans aucune ambiguïté. Ce qui permet le
repérage de l’individu est appelé identifiant bonne base de sondage doit
____________________________________________________________________________
Cours de Sondage 11
d’abord être une liste d’identifiants de bonne qualité. Dans le cas contraire, on
risque de prendre un individu pour un autre et on introduira sans le savoir un
biais de l’estimateur.
Elle doit être exhaustive ; cela signifie que chaque unité faisant partie du
champ de l’enquête doit être nécessairement présente dans la liste des
identifiants. Autrement dit ; il ne faut oublier personne.
Elle doit être sans double compte, c'est-à-dire qu’aucun individu ne doit être
présent deux fois dans la même base sous deux identifiants différents.
____________________________________________________________________________
Cours de Sondage 12
Unité ІІ
*********
Les Sondages probabilistes
Volume horaire : 32 heures
Objectifs d’apprentissage:
Maîtriser le principe des différentes techniques de sondage probabiliste.
Connaître les différentes expressions des estimateurs sans biais pour la
moyenne, le total et la proportion.
Calculer la précision pour chaque estimateur.
Déterminer la taille de l’échantillon dans le cas du sondage probabiliste
Identifier les avantages/inconvénients pour chaque technique de sondage
probabiliste.
Introduction
Les sondages probabilistes sont ceux pour lesquels chaque individu de la
population a une probabilité donnée connue d’avance d’appartenir à l’échantillon
(dite probabilité d’inclusion, ou de sélection)
Les sondages probabilistes ont l’avantage sur les sondages empiriques de permettre
des études de précision des estimateurs utilisant essentiellement la théorie et le calcul
des probabilités.
Nous commencerons par les sondages probabilistes ; où nous allons aborder au
premier lieu le sondage aléatoire simple dont l’intérêt est de ne pas utiliser
d’informations auxiliaires, puis on va voir d’autres aspects du sondage probabiliste,
puis complexes.
____________________________________________________________________________
Cours de Sondage 13
І – Le Sondage aléatoire simple
1/ Principe :
Le sondage aléatoire simple consiste à tirer dans une population de taille fixée n
individus sans remise à partir des seuls identifiants de façon à ce que chaque
individu ait la même probabilité d’inclusion.
Cette formule fondamentale de base prouve que, pour réaliser un sondage aléatoire
simple qui fournisse des résultats précis, on peut agir dans trois directions :
1) une taille d’échantillon n grande ;
2) Un taux de sondage f grand, voisin de 1
3) Une dispersion S² faible.
____________________________________________________________________________
Cours de Sondage 14
La taille de la population a une importance majeure dans la valeur numérique de la
variance.
4/ Expression des estimateurs des variances :
Application numérique :
Nous voulons estimer la dépense mensuelle moyenne (Y) des étudiants de la section
technicien de statistique sanitaire qui sont au nombre de 35. Pour ce faire, on a tiré
un échantillon aléatoire de taille 10. Les résultats obtenus sont consignés dans le
tableau suivant :
____________________________________________________________________________
Cours de Sondage 15
Etudiant 1 2 3 4 5 6 7 8 9 10
Dépense mensuelle 1050 1700 800 3200 2400 1300 1250 1400 2700 1350
moyenne
2- donc
3- ou s²=587339 et
V( )=
S² = [N/ (N - 1)].P. (1 – P)
On suppose que N est grand, soit S² ≈ P. (1 – P), d’ou:
Comme :
____________________________________________________________________________
Cours de Sondage 16
s² = [n/ (n - 1)].p. (1 - p)
L’estimateur sans biais de V (p) vaut :
V( ) = N²
Et
( ) = N²
Application numérique :
Question : sur 1000 élèves d’un lycée, on veut connaître la proportion P d’entre eux
qui souhaitent poursuivre des études supérieurs. Parmi 200 élèves tirés on constate
que 80 élèves déclarent qu’ils souhaitent poursuivre des études supérieures. Quel est
l’estimateur de P. et quelle est sa précision ?
Réponse :
____________________________________________________________________________
Cours de Sondage 17
(p) = (1 - f). [P.(1 -P)/(n – 1)] =
Donc : (p)
Avec 95 % de chance :
P [0,4 - 2.0, 031 ; 0,4 + 2.0, 031]
Soit P [33,8 %; 46,2%]
L’estimateur du nombre total d’élèves souhaitant poursuivre des études
supérieurs (domaine D) est :
= N p =400
( ) = N. (p) = 31
Avec 95 % de chance :
[338 %; 462%]
____________________________________________________________________________
Cours de Sondage 18
On suppose que suit la loi normale
on peut montrer que :
Avec et
Dans ce cas :
Avec et
Et
marge absolue :
marge relative :
Remarque:
Si la base de sondage est ordonnée aléatoirement, alors le sondage aléatoire
systématique est équivalent au sondage aléatoire simple.
Application numérique :
____________________________________________________________________________
Cours de Sondage 20
- Quand la base de sondage n’est pas ordonnée, le tirage systématique est associé au
tirage aléatoire simple, alors on peut utiliser les formules classiques de ce dernier.
- quand la base de sondage est triée selon une variable auxiliaire fortement
corrélée avec la variable d’étude. Plusieurs estimateurs de la variance ont été
proposés :
Où
Ou encore :
Où
5/ Avantages / inconvénients :
Vopti ( ) =
____________________________________________________________________________
Cours de Sondage 22
Il s’agit de réaliser une stratification dans une population. Ce travail s’effectue
avant le choix de l’allocation. La constitution des strates se heurte à des problèmes
qui sont, dans l’ordre chronologique :
- quel variable de stratification ?
- combien de strates réaliser ?
- quelles doivent être les limites de strates ?
5/ Variable de stratification
La meilleure variable est la plus discriminante, c'est-à-dire celle qui permet de
réaliser au mieux des groupes homogènes en « intra » du point de vue Y. en pratique,
on cherche une variable X la plus corrélée possible à Y, la plus explicative possible,
de façon à ce que la constitution des groupes d’individus prenant des valeurs
voisines de X.
6/ Nombre de strates :
En théorie, le nombre de strates doit être le plus grand possible. Cette affirmation
est assez naturelle : plus on s’autorise de strates, plus il est facile de considérer des
groupes homogènes en « intra », plus il est facile de découper « aux bons endroits »
une population.
En pratique, on est assez vite limité, car l’augmentation du nombre de strates accroît
le coût de gestion de l’enquête pour un gain statistique qui devient parallèlement de
plus en plus faible.
7/ Limites de strates
Lorsqu’on utilise des allocations de Neyman, on peut adopter la règle de
Dalenius, par exemple, qui propose de faire en sorte que les produits soient
constants d’une strate h à l’autre. Dans ces conditions, l’allocation optimale conduit
à des tailles égales dans toutes les strates.
Application numérique
On dispose d’une population de 1060 entreprises, et on s’intéresse au nombre
moyen d’employés par entreprise. La population est constituée de cinq strates
définies par des tranches de taille en nombre d’employés. Cette information est
obtenue par des documents fiscaux ne donnant pas le nombre exact d’employés,
mais seulement la tranche de taille. Réalisant un sondage aléatoire simple dans
chaque strate h selon un budget permettant d’enquêter globalement 300 entreprises,
on mesure la moyenne et la dispersion s²h de la variable « nombre d’employés »
dans l’échantillon des entreprises tirées. Les allocations par strate sont données
dans la dernière colonne du tableau suivant :
____________________________________________________________________________
Cours de Sondage 23
Tranches de taille Nh s²h nh
X
0-9 500 5 1,5 130
10-19 300 12 4 80
20-49 150 30 8 60
50-499 100 150 100 25
500 et plus 10 600 2500 5
TOTAL 1060 300
D’où :
0-9 142 71
____________________________________________________________________________
Cours de Sondage 24
10-19 85 70
20-49 42 49
50-499 28 100
500 et plus 3 10
Dans la strate des « 500 et plus » l’allocation optimale théorique est 48, nombre
supérieur à Nh = 10 .On enquêtera donc touts les éléments de cette strate et on
recommence le processus d’allocation optimale avec n=290 individus. Le problème
se pose en terme similaire dans la strate des « 50-499 ». On recommence l’allocation
entre les trois premières strates avec n= 190. On calcule :
prop( )= 0,086
opti( ) = 0,010
Avec :
____________________________________________________________________________
Cours de Sondage 26
&
V- Le Sondage en grappe :
1/ Principe
Le sondage en grappe est un cas particulier du sondage à plusieurs degrés. Ayant
tiré un certain nombre d’unités à l’avant dernier degré du tirage, on réalise l’enquête
au dernier degré du tirage auprès de tous les individus inclus dans l’unité.
2/ Estimation et précision
L’estimateur sans biais du total est :
Où :
Remarque
Pour obtenir un bon sondage en grappe, l’expression de la variance nous montre
qu’il faut :
* des grappes hétérogènes, c'est-à-dire regroupement des individus aussi différents
que possible les uns des autres du point de vue de la variable d’intérêt.
* des grappes de faible taille,
* des grappes de tailles voisines.
* tirer un maximum de grappes.
____________________________________________________________________________
Cours de Sondage 27
Unité ІІІ
**********
Les Sondages non probabilistes (Empiriques)
Volume horaire : 12 heures
Objectifs d’apprentissage:
différencier entre les différents types de sondage empirique.
Maîtriser le principe des différentes techniques de sondage non probabiliste.
Identifier les avantages/inconvénients pour chaque technique de sondage
empirique
Introduction
Les sondages empiriques s’opposent aux sondages probabilistes ils ne permettent pas
de calculer la probabilité d’inclusion. On les utilise lorsqu’il y a absence de base de
sondage. Enquêteur sélection les individus selon un choix résonné cette méthode a
l’avantage d’être plus rapide et moins coûteuse.
____________________________________________________________________________
Cours de Sondage 28
= =
Ou :
= moyenne des Y dans la catégorie q, définie sur les individus de la
Population.
= moyenne des Y dans la catégorie q, définie sur les individus de l’échantillon
= taille vraie (connue) de la population dans la catégorie q.
= taille de l’échantillon dans la catégorie q.
4/ Echantillonnage de volontaires
Il s’agit de choisir des individus volontaires pour répondre aux questions. Cette
technique, très économique, n’est pas défendable statistiquement.
Unité ІV
*********
Les différents types d’erreurs rencontrées dans
____________________________________________________________________________
Cours de Sondage 29
les enquêtes
Volume horaire : 8 heures
Objectifs d’apprentissage:
identifier les différents types d’erreurs rencontrées dans les enquêtes.
Les différents types d’erreurs rencontrées dans les enquêtes par sondages peuvent
être regroupés en trois types :
1/ Erreurs d’échantillonnage
L’erreur d’échantillonnage est mesurable par le biais, la variance (ou l’écart
type), et (ou) l’erreur quadratique moyenne, et qui se traduit par l’existence d’une loi
de l’estimateur au travers d’une densité de probabilité. On peut assimiler à des
erreurs d’échantillonnage certaines erreurs résultant des imperfections de la base de
sondage que sont présence des doubles comptes et le vieillissement de l’information
auxiliaire.
L’erreur d’échantillonnage existe dans toutes dans les enquêtes par sondage, mais
elle est nulle dans les enquêtes par recensement.
____________________________________________________________________________
Cours de Sondage 30
- Erreurs d’écritures sur un questionnaire (on se trompe de case en
cochant), ou erreur de saisie de la part de l’opérateur chargé de saisir
les résultats.
- Erreurs de codification surtout dans les questions ouvertes ou
l’enquêté formule sa réponse en clair, le chiffreur trouve des
difficultés de transformer ce genre de questions en code.
- Erreurs informatiques (le programme est faux : il ne fait pas
correspondre l’individu avec sa réponse, ou il y a, tout simplement,
une erreur de calcul)
- Mauvaise compréhension de la question par l’enquête (personne âgée,
étranger, etc.…)
- L’individu échantillonné a été remplacé, volontairement ou par
erreur.
Bilan
Conclusion
Ce travail consiste à l'élaboration d'un module d'enseignement/apprentissage
"techniques de sondage" dont l'objectif est
De maitriser les différentes techniques de sondage ainsi que leur application
Dans la première unité du cours on a présenté les concepts généraux de base, et les
éléments clés du module.
Pour la deuxième unité on a traité les différentes techniques de sondage probabiliste
tel que:
____________________________________________________________________________
Cours de Sondage 31
le sondage aléatoire simple,
le sondage aléatoire systématique,
le sondage stratifié,
le sondage à plusieurs degrés
le sondage en grappe
En ce qui concerne la troisième unité on a traité les sondages non
probabilistes/empiriques tels que:
la méthode des quotas,
la méthode des itinéraires,
la méthode des unités-types
l’échantillonnage de volontaires,
Pour la quatrième unité on a abordé les erreurs rencontrées dans les enquêtes par
sondage qui se résument en se qui suit:
les erreurs d’échantillonnage,
l’erreur d’observation
le défaut de couverture et non réponse.
Nous tenons a signalé que au cours de l'élaboration de ce module on a rencontré
quelques contraintes parmi les quelles on cite
le manque de documentation traitant le sujet "sondage",et en ce qui concerne les
sondages probabilistes,
Nous n’avons pas pu détailler chaque technique car la démonstration des formules
mathématiques sont très complexes.
Donc, dans ce document on a abordé que les domaines relatifs à l’échantillonnage, à
l’estimation, et à la mesure des erreurs.
Enfin nous suggérons que L’approfondissement des connaissances en techniques de
sondage pourrait êtres réalisé à partir des ouvrages cités en bibliographie.
Exercices de recherche
L’exercice propose de retrouver sur un exemple les résultats de la théorie pour un sondage aléatoire
simple sans remise de taille fixe. On considère pour cela tous les échantillons possibles de taille 2
pris dans une population de taille N = 5. On connaît par ailleurs les valeurs de la variable d’intérêt
Y pour chaque unité de la population, à savoir respectivement : 8, 3, 11, 4 et 7.
1. Calculer la moyenne et la dispersion du caractère d’intérêt sur la population.
2. Lister tous les échantillons possibles de taille 2.
3. Pour chacun de ces échantillons, calculer l’estimateur de la moyenne de la variable
D’intérêt ainsi que l’estimateur de sa variance .
____________________________________________________________________________
Cours de Sondage 32
4. Calculer la variance .
5. Vérifier que estime sans biais la vraie moyenne.
Sur un disque dur de micro-ordinateur, on compte 400 fichiers, chacun comprenant exactement 50
enregistrements. Pour estimer le nombre moyen de caractères par enregistrement, on décide de tirer
Par sondage aléatoire simple 80 fichiers, puis 5 enregistrements dans chaque fichier. On note m =
80 et n = 5.
On mesure après tirage :
- la dispersion des estimateurs du nombre total de caractères par fichier, soit = 905000
- la moyenne des m dispersions est égale à 805 où représente la dispersion du nombre de
caractères par enregistrement dans le fichier i.
1. Comment estimez-vous le nombre moyen de caractères par enregistrement ?
2. Comment estimez-vous sans biais la précision de l’estimateur précédent ?
3. Donnez un intervalle de confiance à 95% pour .
Un technicien de statistique sanitaire souhaite réaliser une enquête sur la qualité des soins assurés
dans les services de cardiologie des hôpitaux. Pour cela, il tire par sondage aléatoire simple 100
hôpitaux parmi les 1 000 hôpitaux répertoriés, puis, dans chacun des hôpitaux tirés, il recueille
l’avis de tous les malades du service de cardiologie.
1. Comment se nomme ce plan de sondage et quelle est sa raison d’être ?
Pour faire un test de niveau sur les élèves des collèges de 6ieme du district, on
va mettre en place une enquête par sondage. Au premier degré on tire 5 collèges
parmi les 50 selon un SAS. Puis au deuxième degré on effectue les tests sur
un échantillon de 10 élèves par collège.
____________________________________________________________________________
Cours de Sondage 33
A l’issue du sondage, on a calcule pour chaque collège la note moyenne des 10 élèves
Testes ainsi que leur variance corrigée.
Bibliographie
Deroo, M. et Dussaix, A. M. (1980) pratique et analyse des enquêtes par sondage, Presses
universitaires de France, paris.
Ouvrage de niveau mathématique facilement accessible, comportant une partie rédigée
importante ? Et débordant le cadre de l’échantillonnage et de l’estimation
____________________________________________________________________________
Cours de Sondage 34
Il s’agit d’un recueil de contributions de différents auteurs. La plupart des contributions
sont extrêmement mathématiques.
Gourieroux, C. (1981) Théorie des sondages. Economica, Paris.
Ouvrage très fortement mathématisé et comportant très peu de rédaction.
Grosbras, J-M. (1987) Méthodes statistiques des sondages. Economica, Paris.
Ouvrage très fortement mathématisé et comportant très peu de rédaction.
Morin, H. (1993) Théorie de l’échantillonnage. Presses de l’université Laval, Québec
Ouvrage très fortement mathématisé et essentiellement composé de démonstration
d’expressions importantes en sondage.
III. Internet
____________________________________________________________________________
Cours de Sondage 35