Rapport: Office National Des Aéroports
Rapport: Office National Des Aéroports
Rapport: Office National Des Aéroports
Rapport
Projet analyse de données avec SPSS
Customer_dbase
Mohammed EL KORCHI
Halima BOUMIDOUM
Amina AMRANI
Khalil ALAMI
Ilias CHOUMA
Bouhcine AIT ABBOU
8 novembre 2021
Table des matières
2.2.1 Statiquement / : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.2 Graphiquement / : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1
3.1.2 Les résultats de l’Analyse en Composantes Principales . . . . . . . . . . . . . . . . 27
3.2.3 Récapitulatif : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2
Table des figures
1.5 Histogramme des effectifs représentant les catégorie d’emploi des clients . . . . . 11
1.9 Histogramme des effectifs représentant les années d’éducation des clients . . . . . 13
3
3.3 Matrice de corrélation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.8 Figure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.15 Répartition des individus de la population par catégorie d’emploi et niveau d’éducation 38
4
Chapitre 1
L’analyse univariée est une analyse utilisée sur une variable dans le but de découvrir et
d’identifier les caractéristiques de la variable. Cette analyse est la technique d’analyse la plus
élémentaire qui est souvent utilisée dans divers types de recherche.
Étant donné qu’une seule variable est analysée, les résultats de l’analyse univariée ne peuvent
et ne doivent pas être conclus avec d’autres variables. Cette analyse est souvent assimilée à une
analyse descriptive car elle ne donne qu’une description d’une variable sans l’intervention d’autres
variables.
Nous allons, à partir de la base de données customer_dbase.sav, étudier les divers aspects liés
aux clients. Nous allons traiter un tableau de 5000 individus représentant les clients d’une entreprise
et de 32 variables que nous allons décrire ci-après :
— custid : Identifiant Client.
— region : Indicateur géographique
— townsize : Taille de la ville
— gender : sexe
— age : Age en années
— ed : années d’éducation
— jobcat : Catégorie d’emploi
— empcat : Nombre d’années chez l’employeur actuel (catégorie)
— ...
5
1.2 Analyse univarié
Dans cette partie, nous allons faire une analyse univariés sur 6 variables, qui sont :
et voici l’ensemle des variables de notre base de données sous le logiciel SPSS :
6
Pour Effectuer une analyse univariée, on doit suivre les étapes suivantes Sous SPSS :
1. Choisissez Analyser > Statistiques descriptives > Fréquences
7
3. Cliquez sur statistiques pour choisissez ce que vous voulez analyser, puis cliquez sur
continuer :
— Si la variable est quantitative, le tableau comporte moyenne, écart-type, médiane,
25ème et 75ème percentile, minimum et maximum ; et le graphique représente alors la
distribution de la variable sous la forme d’un histogramme.
8
4. Cliquez sur le graphique, Choisissez le graphique convenable, puis cliquez sur continuer :
9
1.3 Cas pratique de l’analyse univarié
Remarque 1. On remarque que l’effectif des femmes et des hommes sont presque égaux.
10
1.3.2 Pour la variable : Jobcat
Figure 1.5 – Histogramme des effectifs représentant les catégorie d’emploi des clients
11
1.3.3 Pour la variable : Age
12
1.3.4 Pour la variable : Années d’éducation
Figure 1.9 – Histogramme des effectifs représentant les années d’éducation des clients
13
1.3.5 Pour la variable : marital
Remarque 5. On remarque que 51.98% des clients sont non marrie(e), et 48.02% sont marrie(e).
14
Chapitre 2
L’objectif de cette partie est d’étudier sur une même population de n individus, deux caractères
différents X et Y et de rechercher s’il existe un lien entre ces deux variables. Chacune des deux
variables peut être, soit quantitative, soit qualitative.
Dans un premier temps, nous nous intéresserons au croisement entre la variable " sexe" qui
peut prendre 2 valeurs possibles {Homme, Femme} et la variable " membre d’un parti politique",
qui peut prendre 2 modalités {Oui : si la personne fait partie d’un parti politique, Non : si non}
Dans l’encadré [num Encadré], nous présentons les résultats obtenus avec le logiciel SPSS à
partir de la commande Tableaux croisés.
15
Dans le premier rectangle de droite (Ligne), nous devons faire glisser la variable indépendante,
ici, c’est la variable «sexe». Dans le deuxième rectangle de droite (Colonne), il faut introduire la
variable dépendante : «membre d’un parti politique». Le troisième rectangle servira, dans les
tableaux à triples entrées, à insérer une variable de contrôle.
Pour afficher les pourcentages : – en ligne, – en colonne, – total ligne et total colonne. On
utilise la commande Cellules puis en les activant comme suite :
16
Voici le tableau croisé Sexe * Membre d’un parti politique :
Nous avons cinq informations dans la première cellule du tableau. Voyons ces informations :
1. Le premier nombre comprend l’effectif réel de la population, soit 1541 personnes de sexe
masculin qui ont répondu « Non » à la question, « Êtes-vous membre d’un parti politique ?
»
2. Le premier pourcentage, 62,1%, est le résultat de la lecture en ligne : 1541/2482 = 0,62
c’est-à-dire ; 62,1% des hommes ne font pas partie d’un parti politique.
3. Le deuxième pourcentage, 49,8%, est le résultat de la lecture en colonne : 1541/3093 =
0,498 c’est-à-dire ; 49,8% de ceux qui ont répondu « non » sont de sexe masculin.
4. Le troisième pourcentage renvoie au total de la population ; ainsi, 1541/5000 = 0,308 c’est-
à-dire, 30,8% des répondantes ne sont pas membres d’un parti politique.
5. Le troisième nombre, est le résidu, c’est-à-dire,l’écart entre l’effectif réel (observé) et
l’effectif théorique : 1541 – 1535,4 = 5,6
17
Nous calculons par la suite le coefficient de contingence, à partir de la commande Statistiques
Voici le résultat :
Le premier résultat - 0.005 - mesure le degré de co-occurrence entre les variables (sexe) et
(membre d’un parti politique) dons notre échantillon N = 5000.
Remarque 6. 0 équivaut à une absence de lien, alors que si Valeur = 1, lien est parfait.
18
Remarque 7. Par convention, on dira que la relation entre deux variables quelconques est :
— parfaite si la valeur de C = 1
— très forte si C > 0,8.
— forte si C se situe entre 0,5 et 0,8.
— faible si C se situe entre 0 et 0.2.
— pas de relation si C = 0
Le second résultat - 0.743 - est un seuil de signification (ou valeur de probabilité) obtenu au
moyen d’un test d’hypothèse. Ce test permet de décider si ce lien - 0,005 - est significatif ou non.
(si la valeur de test est inférieure à 0,05 (5%) donc résultat significatif. Ici ce n’est pas le cas.)
Commentaire 1. L’analyse des données de la présente recherche montre qu’il n’existe aucune
relation entre le sexe des sujets et l’engagement dans un parti politique (C = 0,005, p = 0,743)
Pour conclure sur la relation entre ces deux variables, nous allons utiliser le test khi2 .
Sous SPSS : Analyse > Statistiques descriptives > Tableaux croisés > Statistiques > khi-carrés.
19
Et voici donc le tableau de khi-carrés :
Conclusion. La différence entre les deux groupes {Hommes, Femmes} n’est donc pas significative
[khi-deux = 0,108 ; ddl = 1 ; p = 0,743]. On peut donc conclure que le sexe n’influence pas
l’engagement dans un parti politique.
20
2.2 Deux variables quantitatives
Hypothèse du Travail : Certains étudiants affirmaient que d’appartenir à une famille nom-
breuse était un critère défavorable pour réaliser des études longues (supérieures). Pour vérifier cette
affirmation, nous allons examiner la dépendance entre les deux variables quantitatives : X = nombre
d’années d’étude et Y = nombre de personnes dans le foyer.
21
Voici donc le résultat de notre test de corrélation :
Commentaire 2. Le premier résultat - 0,023 - mesure le degré de liaison linéaire entre les variables
(X) et (Y) de votre échantillon. (dans ce cas ; la liaison est faible, 0,023 < 0,2)
Commentaire 3. Le second résultat - 0,101 - est obtenu au moyen d’un test d’hypothèse (probabilité
de commettre l’erreur). Ce test permet de décider si ce lien - ici 0,023 - est significatif, autrement
dit si la corrélation observée entre X et Y existe ou non. (10% supérieure à 0,05 : non significative)
22
2.2.2 Etude Graphique :
Dans le cadre d’une corrélation linéaire, on résume graphiquement la dispersion d’un nuage
de points par une droite.
Sous SPSS : Boite dialogue ancienne version > Dispersion/Points > Dispersion simple
Commentaire 4. Pente de la droite croissante, donc la tendance est positive : plus le nombre des
années d’éducation augmente, plus le nombre de personnes dans le foyer augmente.[Pente très
faible (résultat non significative)]
Conclusion. Les probabilités sont supérieures à 5%, notamment pour notre population de N=5000.
Dans ce cas on peut conclure que si l’on est un enfant, que l’on soit issu d’une famille « nombreuse
» ou non la répartition selon la durée des études n’est pas significativement différente. L’effet est
donc particulièrement inexistant.
23
Chapitre 3
L’analyse en composante principales (ACP) est une analyse statistique descriptive multi variée
qu’on applique a un ensemble de variables initiales qu’on veut réduire en quelques facteurs ou
composantes (nouvelles variables). Elle consiste à synthétiser les donnes issues d’un croisement
entre plusieurs variables numériques.
ACP vise a identifier le grand nombre de variables initiales ou les items présentant un coefficient
de corrélation relativement important qui peuvent être regroupes entre eux en vue de faciliter leur
interprétation et leur donner un sens.
On sélectionne, par la suite, les variables numériques choisies pour l’ACP (minimum : 2
variables) parmi celles figurant dans notre base de données Customer_dbase en les transférant
24
dans la liste des Variables à l’aide du bouton.
Il suffit alors de cliquer sur le bouton OK pour effectuer une analyse factorielle avec les
paramètres prévus par défaut. On obtient alors le listage de la structure initiale, la matrice des
corrélations variables-facteurs et les statistiques concernant la structure finale.
Remarque 8. Puisque l’ACP ne se fait qu’avec des variables quantitatives, on ne va choisir que
des variables ‘’scale”.
Afin de choisir les statistiques optionnelles de la procédure FACTOR, on clique sur les boutons
Rotation, Scores ... pour ouvrir les boîtes de dialogue secondaires permettant d’effectuer ces choix.
25
(a) Rotation des facteurs (b) Coordonnées factorielles
On veut faire l’analyse en deux dimensions, c’est pourquoi on choisit deux vecteurs :
26
3.1.2 Les résultats de l’Analyse en Composantes Principales
On voit beaucoup de valeurs significatives dans ce tableau, d’où une ACP est éligible. On peut
aussi voir ceci dans la plupart des valeurs d’extraction.
27
Malheureusement, vue les grands nombres de variables on n’est arrivé qu’a une variance totale
de 66.302% avec deux facteurs :
On va classer les variables selon leurs relations avec les deux composantes de l’ACP :
28
+ -
Nnmas 1
Ldhf
+ -
Namvldm
Mldm
Nvhf
Sfldm
Sfhf
Aaldhf (b) Axe factoriel du CP2
Camd
(a) Axe factoriel du CP1
Remarque 9. Pour la variable "équipement hors forfait", elle a presque la même valeur pour les
deux composantes, on va donc l’ignorer.
29
Variable Libellé
tenure nombre de mois avec service
longten longue distance hors forfait
tollmon nombre d’appel numéro vert dernier mois
tollten numéro vert hors forfait
equipten équipement hors forfait
cardten carte d’appel hors forfait
wireten sans fil hors forfait
longmon appel longue distance dernier mois.
equipmon matériel lors du dernier mois
wiremon sans fil lors du dernier mois
cardmon carte d’appel mois dernier
Intérpretation
On voit par exemple que plus le "nombre de mois avec service" est grand plus les appels "longue
distance hors forfait" sont grands. Et dans toutes les variables de la première composante, sont toutes
corrélées positivement entre eux. Ces variables indiquent donc la probabilité d’un consommateur
d’être hors forfait selon les types d’appels qu’il fait.
30
Dans l’exemple suivant, on représente les données qu’on a selon les deux facteurs résultant de
l’ACP. On représente en couleur si les gens sont des retraites ou non :
On voit que pour les gens non retraite, il ’y a une distribution ou c’est impossible de déterminer
une tendance, alors que pour les gens retraites, la plupart eux tendent vers la partie négative de la
première composante.
31
3.2 Analyse Factorielle des Correspondances (AFC)
L’analyse factorielle des correspondances (AFC)est une méthode de description statistique sur
un tableau de contingence AFC qui s’applique à 2 variables qualitatives. Elle sert à décrire et à
hiérarchiser les relations statistiques qui peuvent exister entre les individus et des variables dans un
tableau rectangulaire de données.
Dans cette partie on cherche à réaliser une AFC sur un tableau croisé entre la variable "Catégorie
d’emploi" et "Niveau d’éducation" (qui sont bien sur deux variables qualitatives) pour vérifier s’il
existe des correspondances entre leurs modalités. On recherchera, en outre, des ressemblances, des
différences, des proximités entre individus et entre les modalités de nos deux variables qualitatives.
32
On génère ainsi :
L’AFC s’applique essentiellement à des tableaux de contingence (qui est un moyen particulier
de représenter simultanément deux caractères observés sur une même population) représenté de
la manière suivante :
Intérpretation
De ce tableau on peut dire que le total des personnes exerçant la profession d’un commercial et
ayant un niveau bac +3/4 est de 383 personnes.de même par exemple pour les artisans ayant un
niveau bac qui sont au total 147 personnes.
33
3.2.2 Profils lignes et profils colonnes :
Le tableau de contingence ci-dessus n’est pas très gros. Par conséquent, il est facile d’inspecter
et d’interpréter visuellement les profils des lignes et des colonnes :
Intérpretation
Du tableau de profils lignes on peut déduire par exemple que 17,9% des personnes ayant un niveau
bac+3/4 appartiennent à la catégorie d’emploi de service.
34
h Remarque 3.2.1:
— Pour aboutir aux résultats du profil ligne i :
On divise chaque terme de la ligne i par l’effectif de la ligne li.
ni1 nij
... ... (3.1)
ni ni
35
3.2.3 Récapitulatif :
Intérpretation
La dépendance des deux variables en question se traduit à l’aide du tableau récapitulatif ci-dessus
en exploitant la valeur du test khi-deux (qui va nous servir à pour évaluer s’il existe une dépendance
significative entre les catégories des lignes et des colonnes.)
Pour déterminer si les variables sont indépendantes, on analyse la signification du test. En général,
un seuil de signification (noté alpha ou α)de 0,05 fonctionne bien. Un seuil de signification de 0,05
indique 5% de risque de conclure à tort qu’il existe une association.
De ce fait à partir de la valeur issue du tableau récapitulatif 0, 167a (avec a désigne le degré de
liberté) pour la signification du test de khi-deux on confirme la dépendance entre les deux
variables en question et on rejette l’hypothèse nulle.
Aussi bien qu’on peut déduire l’inertie (la quantité d’information en valeur) contenue dans chaque
axe, le pourcentage d’inertie expliqué ainsi que la proportion cumulée. Dans ce cas ; l’inertie
expliquée est de 100%.
36
3.2.4 Caractéristiques des points lignes et caractéristiques de points colonnes :
Ce tableau qui permet de donner pour chaque attribut le score dans la dimension (les coordon-
nées de chaque modalité sur les deux axes), l’inertie (la quantité d’information en valeur contenue
dans chaque axe ) et la contribution.
Intérpretation
Par exemple pour la modalité commercial on peut savoir son positionnement par rapport aux deux
axes à partir du tableau ci-dessus ainsi ses coordonnées sont 0,283 par rapport au premier axe et
−0, 138 par rapport au premier axe.
37
3.2.5 Représentation graphique :
On effectue la décomposition factorielle des nuages de points associés aux profils lignes et aux
profils colonnes du tableau de contingence pour obtenir la représentation graphique correspondante
à notre cas d’étude.
Figure 3.15 – Répartition des individus de la population par catégorie d’emploi et niveau d’éduca-
tion
Remarque 10. On interprète les (groupes) de points-profils d’une variable en tenant compte de
leur positon par rapport aux axes.
38
3.3 Analyse Factorielle des Correspondances Multiple (AFCM)
39