Atelier 3
Atelier 3
Atelier 3
Exemple : créer la variable Class_age à partir de age après avoir identifié les extrémités pour obtenir
10 intervalles d’environ le même nombre d’observations.
Résultat :
On peut donc créer Class_age en utilisant Transformer > Recoder > Recodage des variables avec les
nouvelles valeurs (de 1 à 10) qui correspondent aux intervalles : < 24, 25-29, 30-36, …, >76.
On peut maintenant vérifier (en étudiant les fréquences de Class_age) que les intervalles créés sont
équilibrés :
La transformation d’une variable quantitative en qualitative est parfois utile pour pouvoir utiliser, sur
celle-ci, des procédures réservées aux variables qualitatives.
- Sélectionner des observations selon une condition logique : Données>Sélectionner des
observations
Exemple : on souhaite étudier le nombre de personnes au foyer chez les moins de 50 ans.
Dans ce cas, on doit sélectionner uniquement les individus de cette tranche d’âge et
étudier les fréquences de la variable foyer.
Comparé au graphe qui incluait tous les individus, on remarque que ce sont les foyers à 4
personnes qui ont la plus grande fréquence chez les moins de 50 ans (alors que ce sont les
foyers à 2 personnes qui étaient les plus fréquents quand on avait considéré toute la base).
A faire :
2. Quel est le niveau d’étude moyen des hommes ? (on considère la variable niv_educ
comme quantitative et on exclut les niveaux d’étude non déclarés)
Remarque : il y a deux façons d’exclure les niveaux d’étude non déclarés (valeur 9). La
première est de le préciser dans la sélection des observations. La seconde est de
déclarer le 9 comme valeur manquante.
- Un petit diagnostic de la base des données à travers l’utilisation des Tableaux croisés :
Analyse>Statistiques descriptives>Tableaux croisés
Les tableaux croisés sont généralement utilisés pour étudier la relation entre 2 (ou plusieurs)
variables qualitatives. Le tableau croisé se présente sous forme de rangées et de colonnes à la
croisée desquelles on retrouve des cellules représentant le nombre de cas prenant
simultanément une valeur donnée pour la première variable et une valeur donnée pour la
seconde variable.
Prenons le cas des variables age et prof. J’ai choisi ces deux variables car j’ai remarqué que,
dans notre base, la profession indiquée pour certains jeunes était « Retraité ». Sans doute une
anomalie due à la saisie ou à une confusion dans le codage.
Voici une partie des résultats :
Problème : on retrouve de nombreux retraités très jeunes (impossible) alors que chez les
« vieux » la cellule « Retraités » est souvent nulle. La base a donc été mal saisie ou le codage a
été mal fait. Pour pouvoir utiliser cette base (pour nos besoins d’initiation aux procédures
SPSS) nous allons procéder à sa modification en fusionnant les valeurs de « Inactifs » et
« Retraités » pour obtenir une base plus logique, même si elle ne correspondra pas à la réalité
à partir de laquelle elle a été conçue.
NB : Contrairement à la procédure Transformer>Création de variables déjà vue,
Transformer>Recoder des variables modifie définitivement la variable. Il convient donc
d’enregistrer la base sous un nouveau nom pour ne pas écraser la version originale. On peut par
exemple choisir « extraitsatisfaction1 ». Ne pas oublier de modifier les éttiquettes des valeurs
de la variable : supprimer « Retraités » et modifier « Inactifs » par « Inactifs ou Retraités ».
Après cette modification, on peut appliquer à nouveau la procédure Tableaux croisés et les
résultats sont plus acceptables dans la mesure où on considérera que, pour les plus jeunes, la
valeur « Inactifs ou Retraités » pourra être interprétée plutôt comme « Inactifs ».
Remarque : La procédure Tableaux croisés est aussi utilisée (en choisant certaines options) pour
étudier la relation entre deux variables (on verra ça plus loin).
II- Quelques techniques d’analyses statistiques
Il existe de nombreuses techniques d’analyses statistiques. Elles ont été développées pour
répondre à des questions de recherche différentes. Le choix d’une technique d’analyse repose
principalement sur :
1- Ce qui est recherché est :
a. Etude des différences entre groupes, ou
b. Etude de relations entre variables
2- Les types des variables en jeu (qualitatives/quantitatives)
Voici une catégorisation des techniques que nous verrons :
1- Exploration des différences entre des groupes : ici, les techniques visent à comparer
les moyennes de deux ou plusieurs groupes. Autrement dit, on cherche à mesurer
l'effet d'une variable indépendante qualitative (ex : sexe) sur une variable
dépendante quantitative (ex : niv_educ). En voici quelques-unes parmi les plus
connues :
2- Exploration des associations entre des variables : ici, les techniques visent à
déterminer le degré d’association existant entre deux ou plusieurs variables.
Pour évaluer la relation entre deux variables qualitatives, on peut opter pour
le test de Chi-2. SPSS le permet avec l’utilisation des Tableaux croisés, que nous
avons vus, avec l’option Statistiques :
Pour évaluer la relation entre deux variables quantitatives, on peut opter pour
le test de corrélation. SPSS le permet avec l’utilisation de la procédure
Analyse>Corrélation>Bivariée.
Tests de comparaison de moyennes
On utilise ce test quand on veut savoir si la différence de moyennes entre deux groupes, pour
une variable quantitative donnée, est significative ou pas (càd simplement due au hasard).
Concrètement, ce test peut s’appliquer lorsqu’on a deux variables V1 et V2 avec :
- V1 quantitative dépendante. C’est la moyenne de cette variable qu’on veut comparer entre deux
groupes.
- V2 qualitative indépendante, nominale à deux modalités (deux valeurs). C’est la variable qui
détermine le groupe auquel appartient chaque observation.
Exemple :
En utilisant la base « extraitsatisfaction », on souhaite comparer l’âge des femmes et celui des
hommes. V1 : age (quantitative) et V2 : sexe (qualitative à deux modalités). On veut savoir si la variable
age dépend de la variable sexe.
Dans cette procédure, il faut « cocher » l’option « Tableau Anova et eta » en s’assurant que les
statistiques « Moyenne », « Nombre d’observations » et « Ecart type » ont été sélectionnés.
On obtient les résultats suivants :
Règle de décision : comment déterminer si la différence des moyennes observée est statistiquement
significative ?
En acceptant un pourcentage d'erreur de 5% (donc on veut être sûr à 95% de ne pas se tromper
en disant qu’il existe une différence significative entre les moyennes observées et que, par conséquent,
cette différence n’est pas simplement due au hasard):
- Si Sig est inférieur à 0.05, alors la différence est jugée statistiquement significative.
- Si Sig est supérieur à 0.05, alors la différence n'est pas statistiquement significative.
Dans notre exemple, Sig = 0, Eta carré = 0,031. On peut donc considérer qu’il y a bien une
différence entre les âges des femmes et des hommes car Sig < 0,05. La mesure d’association « Eta
carré » nous permet d’affirmer que 3,1% de la variation des âges peut être expliquée par le sexe des
individus.
Autre exemple :
On souhaite maintenant savoir si dans notre base « extraitsatisfaction » le niveau d’étude
(niv_educ) diffère entre femmes et hommes. On va considérer provisoirement que la variable niv_educ
est quantitative pour pouvoir utiliser la même procédure que dans l’exemple précédent. On obtient alors
les résultats suivants :
Ici, le Sig (0,86) est largement supérieur à 0,05. Il n’y a donc pas de différence significative entre
les niveaux d’éducation des femmes et des hommes. La variable sexe n’influence donc pas la variable
niv_educ.