1 Cours de Méthodes Quantitatives en Marketing
1 Cours de Méthodes Quantitatives en Marketing
1 Cours de Méthodes Quantitatives en Marketing
Extrêmeme
opinion
Assez
Assez
Sans
très
très
nt
nt
3.3. Echelle à icône : imaginez le cercle de gauche vous représente le cercle de droite
représente des personnes qui pratiquent le tri des déchets. Entourez le cas qui vous décrit le
mieux en fonction de votre lien avec ces personnes.
La variance : elle mesure la dispersion des observations autour de la moyenne. Autrement dit,
c’est la moyenne des distances entre chaque observation et la moyenne.
n
1
Ơ2= ∑ ( Xi− X ¿)¿2.
n−1 1
La somme des écarts de chaque observation par rapport à la moyenne serait nulle si la
distance n’est pas mise au carré.
Etant donné que la variance est exprimée au carré, comme l’indique la formule précédente,
son interprétation devient difficile et ambiguë. La même formule est alors mise à la racine
carrée pour, justement éliminer l’effet carré de la variance. L’expression ơ obtenue exprime
un autre paramètre appelé l’écart-type.
2
√
n
1
Ơ= ❑
∑ (Xi−X ¿) 2 ¿
n−1 1
Une variable catégorielle ou qualitative mesure un état ( oui ou non, féminin masculin,
numéro de vol…), contrairement à une variable quantitative qui mesure l’ampleur d’une unité
de mesure donnée, telle que la longueur, le poids, la vitesse…..ect
Une distinction entre la variable discrète et la variable continue doit être faite. En effet, une
variable quantitative peut être discrète ou continue. Elle est discrète, les valeurs qu’elle peut
prendre sont déjà prédéfinies, comme le nombre de personnes ayant loué une chambre ( 0, 1,
2, …….20), on ne peut pas attribuer la valeur 10, 5 personnes ou encore 15,33 personnes. Une
variable continue, peut avoir un nombre infini de valeurs comme le poids, la taille, la vitesse,
la distance…
La régression logistique
3
L’hypothèse nulle : l’hypothèse nulle et le rejet ce celle-ci constituent le point de départ de
tout modèle de régression. Dans le cas d’une régression logistique, l’hypothèse nulle stipule
que l’ensemble des variables indépendantes ne parviennent pas à prédire la variable
dépendante. Et comme dans tout modèles de régression, cela marque la fin du modèle. Par
contre si l’hypothèse nulle est rejetée, cela signifie, qu’au moins, une variable indépendante
parvient à prédire la variable dépendante. Pour connaitre le poids associé à chacune des
variables indépendantes dans le modèle, chaque coefficient de régression doit être interprété
individuellement.
-L’élaboration d’un modèle de régression logistique doit respecter les principes suivant :
Le type de variable mobilisée doit être parfaitement maitrisée. Les variables indépendantes
(prédicteurs) peuvent être catégorielles, continues ou dichotomiques. La variable dépendante
doit être une vraie variable dichotomique et non une variable continue classée en deux
catégories.
-Pour aboutir à des résultats concluants, il faut s’assurer d’inclure l’ensemble des variables
susceptibles de prédire la variable dépendante. Ceci dit, aucune variable pertinente ne doit être
négligée. On ne peut pas écarter la variable revenue quand on étudie la probabilité de voyager
pour faire du tourisme.
-Absence de multi colinéarité forte entre les variables indépendantes. Pour cela il faut
s’assurer qu’il n’existe pas de relation linéaire entre les variables dépendantes et que la
corrélation entre ceux-ci est faible.
-Pour une meilleure qualité d’ajustement, il faut s’assurer que les valeurs résiduelles
standardisées soient comprises entre plus au moins 2,58.
-La taille de l’échantillon doit être suffisante pour aboutir à des résultats pertinents. Hosmer et
Lemeshow, 1989, recommande au moins dix observation par variable indépendantes. Si l’on
cherche à prédire la réussite ou l’échec à l’examen en fonction du nombre d’heures d’étude, le
genre, l’âge, le niveau de richesse et la disponibilité des moyens, alors le nombre minimale
d’observations est de 50.
L’équation de la régression multiple s’écrit comme suit :
Y=b0 +b1X1+b2X2+b3X3+…….+bnXn).
Les variables X1 jusqu’à Xn représentent des variables explicatives ( indépendantes) de la
variable dépendante Y. Le coefficient b1 à bn constituent le poids de chacune des variables
explicatives dans le modèle.
Dans la régression logistique on reprend la même expression mais en introduisant la fonction
logarithmique.
4
1
P(Y)= −(b 0+b 1 X 1+ b 2 X 2 …..)
1−e
P est la probabilité que Y arrive.
X1, X2 sont des prédicteurs de Y.
Cette transformation logarithmique permettra d’avoir une allure linéaire. Les résultats de la
régression logistiques seront compris entre 0 et 1. Comme déjà mentionné, si la valeur est
proche de 0 alors la probabilité que l’évènement se produise est faible et si elle est proche de
1 alors la probabilité que l’événement se produise est forte.
La qualité d’ajustement
L’objectif d’une régression logistique est de mieux cerner les prédicteurs de la variable
dépendante. La probabilité log ( log likelihood), qui correspond à la somme des carrés
résiduels, permet de comparer la valeur observée et prédite pour juger pour évaluer le degré
de précision du modèle. La probabilité donne la part de la variance qui n’est pas expliquée par
le modèle après avoir rajouter les variables explicatives. Si la probabilité est élevée alors il
reste une part importante de la variance à expliquer. Cela signifie que le modèle n’est pas
ajusté.
La méthode de régression logistique sur SPSS
Les méthodes de régression sont les mêmes que celles de la régression linéaire ou multiple.
Dans le cas de la régression logistique, le chercheur a le choix entre insérer les prédicteurs au
même temps ou opter pour une méthode progressive. Les méthodes progressives les plus
courantes sont la méthode ascendante et descendante.
Dans la première méthode, à savoir la méthode ascendante, le logiciel introduit des variables
une par une en commençant par celles qui représentent un score élevé. Dans la seconde
méthode, le logiciel démarre d’un modèle contenant toute les variables, puis retire
progressivement les variables qui ne contribuent pas à améliorer la prédiction. L’élimination
des variables se base sur les statistiques suivantes :
-Le rapport de vraisemblance (Likehood-ratio LR) : SPSS conserve une variable si le
retrait de la variable induit un changement significatif de LR. Ce qui signifie que la variable
contribue à l’ajustement du modèle.
-La statistique Wald : SPSS retire toutes les variables pour lesquelles la statistique de Wald
est inférieur à 0,1. Cette statistique est plus pertinente quand il s’agit d’un petit échantillon.
-(-2LL : Log Linkhood Value) : dans la régression logistique, le but est de prédire si un
évènement a une probabilité élevée de se produire. On ne peut pas compter sur les moyennes,
5
comme c’est le cas de la régression linéaire. En effet, la moyenne nous donnerait une valeur
proche du 50, ce qui ne répond pas aux préoccupations du chercheur.
Dans une régression logistique, le modèle de base auquel les autres modèles seront comparés,
est constaté à partir du plus grand nombre de cas. Le cas le plus fréquent constitue le modèle
de base ( 0 ou 1).
L’amélioration du modèle est calculée à partir de la statistique X 2 qui provient de la différence
au carré entre la constante qui représente le modèle de base et le modèle contenant plusieurs
prédicteurs ( variables indépendantes) :
X2= 2 [LL(modèle)-LL(base)]
R2 de Cox et Snell et R2 de NagelKerke : l’analyse par SPSS donne un tableau récapitulatif
des deux R2. Les deux paramétres nous permettent de savoir si les données s’ajustent au
modèle. Plus la valeur de R est élevée (proche de 1), mieux le modèle est ajusté aux données.
La valeur de R est sensée s’améliorer à chaque étape ( à chaque rajout d’une autre variable).
Le graphique des probabilités :
En régle générale, il faut savoir que les sujets obtenant un score proche ou égale à 1
( probabilité élevée de se produire) seront classés à droite, alors que ceux obtenant un score
proche ou égale à zéro seront classés à droite du graphique. Dans un modèle parfait ou du
moins bon, on obtient le moins possible de sujet situés aux alentours de 0,5. Dans le cas où
une grande parties des sujets est proche de (0,5 ) , la probabilité est alors de 50/50 et le
modèle serait dépourvu de sens.
I.Les étapes d’une régression logistique sur SPSS :
Sur SPSS, une fois le chercheur a collecté ses données et codifié celles-ci sur un fichier Excel,
le fichier sera choisi en cliquant sur Fichier (icône se trouvant sur l’extrême gauche), les
étapes suivantes sont :
-Cliquer sur analyse, régression, logistique binaire.
-Dans la boite de dialogue faire insérer la variable dichotomique (Dépendante) dans la partie
supérieure et les variables indépendantes ( prédicteurs ) dans la partie inférieure ( ou c’est
mentionné covariables).
6
-Choisir ensuite la méthode de régression : ascendante ou descendante.
Le bouton enregistrer permet d’enregistrer certaines informations d’intérêts tels que les
résiduels standardisés, les résidus logit, les prévisions probabilité et les prévisions groupes
d’affectations. Ces résultats permettront d’évaluer la qualité d’ajustement du modèle.
7
Le bouton option permet d’avoir les résultats suivants :
-probabilité étape par étape : cette étape permettra au chercheur de trancher par rapport aux
variables à rejeter et celles à maintenir. Le maintien des critères se fait à 0,05 pour le rajout
0,1pour le retrait.
-La maximum des itérations : le nombre de tirages effectué par le logiciel pour aboutir au
meilleur modèle. Il s’agit d’un tirage avec remise des observations. Le logiciel privilégie les
résultats qui sont proches des valeurs observées. Le nombre d’itérations ne peut pas dépasser
les 20 itérations, quelque soit sa complexité.
-Qualité d’ajustement d’Hosmer et Lemeshow : ce test permet d’avoir la différence entre
les valeurs prédites et les valeurs observées. Le résultat ne doit pas être significatif.
-Liste des résidus par observation :
On vérifie qu’il ait moins de 1% de l’échantillon qui représente des valeurs à plus de 2 écarts-
types ou à moins de (-2) écarts-types.
-historique les itérations : indique la probabilité Log à chaque essai d’ajustement par
itération.
-Le bouton Afficher permet d’avoir les statistiques à chaque étape pour pouvoir comparer.
8
a. Stress généré par les étudiants
b. Stress généré par les parents
c. Tresse généré par la direction
d. Sentiment d’auto-contrôle
e. Stratégie d’adaptation
f. Présence d’un trouble anxieux chez l’enseignant
Ce premier tableau est facultatif puisqu’il rappelle les valeurs utilisées par SPSS pour codifier
les réponses ( 1 pour oui et 0 pour non).
Ce tableau donne un historique des itérations. Nous remarquons que ça s’est arrêté à la
quatrième itération. La donnée qui nous intéresse aussi dans ce tableau, c’est l’indicateur (-
2LL) qui est la probabilité que nous cherchons à améliorer en ajoutons d’autres prédicteurs.
9
Le tableau des variables de l’équation indique la valeur de la constante B 0 qui est égale à (-
1,073).
Le tableau suivant donne la valeur des corrélations partielles dans la régression multiple et
une indication par rapport à leur significativité. Cela prouve que chaque variable participe à
améliorer le modèle.
Le tableau récapitulatif des modèles nous indique si le modèle permet de prédire la probabilité
de vivre un épuisement professionnel chez les enseignants en se basant sur l’évolution de la
valeur de (-2LL) à chaque étape. Nous remarquons que (-2LL) diminue à chaque étape ( à
chaque fois qu’on rajoute une autre variable prédicatrice). Alors que le modèle de base
affichait une valeur de 530,11, le rajout d’une autre variable à l’étape 1 donne un (-2LL)
d’une valeur de 399,033 soit une différence 131,74.
10
Les deux lignes étapes et modèle ne donnent pas les mêmes valeurs. En effet, la case étapes
nous donne la différence de la valeur (-2LL) entre l’étape précédente et l’étape suivante.
Nous remarquons que sa valeur diminue de manière significative à chaque rajout d’une
autre variable.
L’analyse des deux coefficients B et Exp(B) nous permettent d’étudier l’effet et le sens de
l’effet des variables prédictrices sur la variable dépendante qui est la probabilité de vivre un
épuisement professionnel chez les enseignants. Nous remarquons qu’après avoir rajouter
toutes les variables, le sens de la relation est positif pour les variables prédictrices à part la
variable stratégie d’adaptation. L’effet des stratégies d’adaptation. Nous constatons à ce
stade que le meilleur remède face à l’épuisement professionnel c’est l’adoption de stratégie
d’adaptation.
11
La présence d’un changement significatif dans la valeur de (-2LL) après suppression d’une
variable montre le pouvoir prédicteur de celle-ci comme l’indique le tableau précédent.
A ce stade nous avons confirmé que chacune des variables contribue à prédire la variable
indépendante. On s’intéresse désormais au degrés d’ajustement des données par rapport au
modèle. SPSS nous donne les statistiques 2 de Cox et Snell et de Nalgelkerke montrées
dans le tableau suivant. Plus leur valeur est importante, plus les données s’ajustent
au modèle. On remarque qu’à chaque étape ( rajout d’une variable), la valeur de
R2augmente ce qui signifie que les données s’ajuste au modèle.
12
13