Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

1 Cours de Méthodes Quantitatives en Marketing

Télécharger au format docx, pdf ou txt
Télécharger au format docx, pdf ou txt
Vous êtes sur la page 1sur 13

Cours de méthodes quantitatives en marketing

La notion de variable/ échelle


La recherche en marketing implique le traitement de données. Qu’il s’agisse de données
recueillies dans le cadre d’un questionnaire ou des données secondaires déjà prêtes, le
chercheur doit connaitre la nature de celles-ci et les opérations statistiques qui peuvent en
découler.
1. Echelle nominale : une variable nominale permet de caractériser, classifier ou encore nommer
les individus ou les sujets. C’est la variable qui donne le moins d’informations et permet les
traitements statistiques les moins poussés. Ces types de variables est généralement employé
pour classer les individus dans des catégories en fonction de l’âge, le genre, la catégorie
socioprofessionnelle, la région d’habitation, le pouvoir d’achat, le nombre d’enfants…….
Dans des études plus poussées, l’étude du degré de modération la variable nominale permet de
comprendre en profondeur le comportement des sujets étudiés selon les différentes classes.
Exemple : d’ordinaire, passez-vous les fêtes entre : amis-famille-proches-seul….
2. Echelle ordinale : ce type de variable propose des éventualités de réponses plus précises que
celles données par l’échelle nominale et permet de les classer selon un critère donné, d’où la
mention « ordinale ». Le critère de classement peut-être la perception de la taille, de la
distance, le degré de référence…….
Je fais des voyages à l’étranger : régulièrement, occasionnellement, jamais. On remarque
l’existence d’une progression dans les réponses, ce qui leur confère de l’ordre. Ce qui
caractérise les variables ordinales c’est l’absence de distances égales entre les différentes
classes. En effet, entre régulièrement et occasionnellement et entre occasionnellement et
jamais la distance n’est pas connue.
3. Les échelles d’intervalles /métrique : c’est la catégorie de variable la plus riche en
information. La mesure se fait sur une échelle graduée (1 à 3/1 à 5/ 1 à 7). Les distances entre
deux niveaux successifs sont les mêmes, elles se caractérisent par l’existence d’un zéro
arbitraire non naturel. Cependant, il existe une continuité entre les différentes modalités ce qui
les distinguent des échelles ordinales et leurs confère le caractère métrique.
3.1.Echelle de Likert : c’est l’échelle la plus utilisée dans la recherche en marketing. Elle est
souvent employée pour noter le degré de satisfaction, de fidélité, d’intention ou encore de
perception.
Exemple : je suis satisfait de la prestation fournie par la compagnie de téléphonie mobile :
Pas du tout Pas d’accord Ni d’accord ni Plutôt Tout à fait
1
d’accord en désaccord d’accord d’accord
1 2 3 4 5

3.2.Echelle d’Osgood : la considération de celle-ci est sémantique ( par rapport au sens


qu’évoque la question posée. La réponse consiste à cocher plus près ou plus loins de l’une des
extrémités.
Connaissez-vous le tourisme durable ?
Connu inconnu
Extrêmeme

Extrêmeme
opinion
Assez

Assez
Sans
très

très
nt

nt
3.3. Echelle à icône : imaginez le cercle de gauche vous représente le cercle de droite
représente des personnes qui pratiquent le tri des déchets. Entourez le cas qui vous décrit le
mieux en fonction de votre lien avec ces personnes.

Les opération statistiques sur les échelles d’intervalle métriques


En plus de la fréquence, mode et médiane, il est possible de calculer :
n
1
La moyenne : X= ∑ Xi,
n 1
Xi : la valeur de l’individu i et n :le nombre de sujets.

La variance : elle mesure la dispersion des observations autour de la moyenne. Autrement dit,
c’est la moyenne des distances entre chaque observation et la moyenne.
n
1
Ơ2= ∑ ( Xi− X ¿)¿2.
n−1 1
La somme des écarts de chaque observation par rapport à la moyenne serait nulle si la
distance n’est pas mise au carré.
Etant donné que la variance est exprimée au carré, comme l’indique la formule précédente,
son interprétation devient difficile et ambiguë. La même formule est alors mise à la racine
carrée pour, justement éliminer l’effet carré de la variance. L’expression ơ obtenue exprime
un autre paramètre appelé l’écart-type.

2

n
1
Ơ= ❑
∑ (Xi−X ¿) 2 ¿
n−1 1
Une variable catégorielle ou qualitative mesure un état ( oui ou non, féminin masculin,
numéro de vol…), contrairement à une variable quantitative qui mesure l’ampleur d’une unité
de mesure donnée, telle que la longueur, le poids, la vitesse…..ect
Une distinction entre la variable discrète et la variable continue doit être faite. En effet, une
variable quantitative peut être discrète ou continue. Elle est discrète, les valeurs qu’elle peut
prendre sont déjà prédéfinies, comme le nombre de personnes ayant loué une chambre ( 0, 1,
2, …….20), on ne peut pas attribuer la valeur 10, 5 personnes ou encore 15,33 personnes. Une
variable continue, peut avoir un nombre infini de valeurs comme le poids, la taille, la vitesse,
la distance…

La régression logistique

Régression logistique : un cas particulier de régression qui propose de tester et de confirmer


un modèle dont la variable dépendante est dichotomique, alors que les variables
indépendantes peuvent être catégorielles (qualitative) ou Continues (Quantitatives). Le poids
de chaque variable indépendante dans le modèle s’exprime en terme d’un coefficient de
régression. A la différence du la régression linéaire, la régression logistique ne repose pas sur
l’existence d’une relation linéaire entre les variables. En marketing, la régression logistique
est fréquente, notamment dans l’étude de la probabilité qu’un évènement se produise (1 pour
oui et 0 pour non). En effet, l’interprétation des coefficients de régression permettent de
prédire la probabilité qu’un évènement arrive. Lorsque le coefficient de régression obtenu est
supérieur à 0,5 alors la probabilité que l’évènement se produise est élevée. Si par contre, le
coefficient de régression est inférieur à 0,5 la probabilité que puisse se produire l’évènement
est réduite.
La régression logistique est adaptée dans le cas où la variable dépendante supporte deux
réponses seulement (oui ou non). La mobilisation de cette méthode d’analyse est mieux
appréhendée à partir de l’exemple suivant :
-Un organisme de soins corporel cherchant à savoir si le nombre d’heure de travail, le revenu,
le genre, la fonction et l’état matrimonial permettent de prédire l’intention d’achat du
consommer pour ce type de service.
Formulation des hypothèses :

3
L’hypothèse nulle : l’hypothèse nulle et le rejet ce celle-ci constituent le point de départ de
tout modèle de régression. Dans le cas d’une régression logistique, l’hypothèse nulle stipule
que l’ensemble des variables indépendantes ne parviennent pas à prédire la variable
dépendante. Et comme dans tout modèles de régression, cela marque la fin du modèle. Par
contre si l’hypothèse nulle est rejetée, cela signifie, qu’au moins, une variable indépendante
parvient à prédire la variable dépendante. Pour connaitre le poids associé à chacune des
variables indépendantes dans le modèle, chaque coefficient de régression doit être interprété
individuellement.
-L’élaboration d’un modèle de régression logistique doit respecter les principes suivant :
Le type de variable mobilisée doit être parfaitement maitrisée. Les variables indépendantes
(prédicteurs) peuvent être catégorielles, continues ou dichotomiques. La variable dépendante
doit être une vraie variable dichotomique et non une variable continue classée en deux
catégories.
-Pour aboutir à des résultats concluants, il faut s’assurer d’inclure l’ensemble des variables
susceptibles de prédire la variable dépendante. Ceci dit, aucune variable pertinente ne doit être
négligée. On ne peut pas écarter la variable revenue quand on étudie la probabilité de voyager
pour faire du tourisme.
-Absence de multi colinéarité forte entre les variables indépendantes. Pour cela il faut
s’assurer qu’il n’existe pas de relation linéaire entre les variables dépendantes et que la
corrélation entre ceux-ci est faible.
-Pour une meilleure qualité d’ajustement, il faut s’assurer que les valeurs résiduelles
standardisées soient comprises entre plus au moins 2,58.
-La taille de l’échantillon doit être suffisante pour aboutir à des résultats pertinents. Hosmer et
Lemeshow, 1989, recommande au moins dix observation par variable indépendantes. Si l’on
cherche à prédire la réussite ou l’échec à l’examen en fonction du nombre d’heures d’étude, le
genre, l’âge, le niveau de richesse et la disponibilité des moyens, alors le nombre minimale
d’observations est de 50.
L’équation de la régression multiple s’écrit comme suit :
Y=b0 +b1X1+b2X2+b3X3+…….+bnXn).
Les variables X1 jusqu’à Xn représentent des variables explicatives ( indépendantes) de la
variable dépendante Y. Le coefficient b1 à bn constituent le poids de chacune des variables
explicatives dans le modèle.
Dans la régression logistique on reprend la même expression mais en introduisant la fonction
logarithmique.
4
1
P(Y)= −(b 0+b 1 X 1+ b 2 X 2 …..)
1−e
P est la probabilité que Y arrive.
X1, X2 sont des prédicteurs de Y.
Cette transformation logarithmique permettra d’avoir une allure linéaire. Les résultats de la
régression logistiques seront compris entre 0 et 1. Comme déjà mentionné, si la valeur est
proche de 0 alors la probabilité que l’évènement se produise est faible et si elle est proche de
1 alors la probabilité que l’événement se produise est forte.
La qualité d’ajustement
L’objectif d’une régression logistique est de mieux cerner les prédicteurs de la variable
dépendante. La probabilité log ( log likelihood), qui correspond à la somme des carrés
résiduels, permet de comparer la valeur observée et prédite pour juger pour évaluer le degré
de précision du modèle. La probabilité donne la part de la variance qui n’est pas expliquée par
le modèle après avoir rajouter les variables explicatives. Si la probabilité est élevée alors il
reste une part importante de la variance à expliquer. Cela signifie que le modèle n’est pas
ajusté.
La méthode de régression logistique sur SPSS
Les méthodes de régression sont les mêmes que celles de la régression linéaire ou multiple.
Dans le cas de la régression logistique, le chercheur a le choix entre insérer les prédicteurs au
même temps ou opter pour une méthode progressive. Les méthodes progressives les plus
courantes sont la méthode ascendante et descendante.
Dans la première méthode, à savoir la méthode ascendante, le logiciel introduit des variables
une par une en commençant par celles qui représentent un score élevé. Dans la seconde
méthode, le logiciel démarre d’un modèle contenant toute les variables, puis retire
progressivement les variables qui ne contribuent pas à améliorer la prédiction. L’élimination
des variables se base sur les statistiques suivantes :
-Le rapport de vraisemblance (Likehood-ratio LR) : SPSS conserve une variable si le
retrait de la variable induit un changement significatif de LR. Ce qui signifie que la variable
contribue à l’ajustement du modèle.
-La statistique Wald : SPSS retire toutes les variables pour lesquelles la statistique de Wald
est inférieur à 0,1. Cette statistique est plus pertinente quand il s’agit d’un petit échantillon.
-(-2LL : Log Linkhood Value) : dans la régression logistique, le but est de prédire si un
évènement a une probabilité élevée de se produire. On ne peut pas compter sur les moyennes,

5
comme c’est le cas de la régression linéaire. En effet, la moyenne nous donnerait une valeur
proche du 50, ce qui ne répond pas aux préoccupations du chercheur.
Dans une régression logistique, le modèle de base auquel les autres modèles seront comparés,
est constaté à partir du plus grand nombre de cas. Le cas le plus fréquent constitue le modèle
de base ( 0 ou 1).
L’amélioration du modèle est calculée à partir de la statistique X 2 qui provient de la différence
au carré entre la constante qui représente le modèle de base et le modèle contenant plusieurs
prédicteurs ( variables indépendantes) :
X2= 2 [LL(modèle)-LL(base)]
R2 de Cox et Snell et R2 de NagelKerke : l’analyse par SPSS donne un tableau récapitulatif
des deux R2. Les deux paramétres nous permettent de savoir si les données s’ajustent au
modèle. Plus la valeur de R est élevée (proche de 1), mieux le modèle est ajusté aux données.
La valeur de R est sensée s’améliorer à chaque étape ( à chaque rajout d’une autre variable).
Le graphique des probabilités :
En régle générale, il faut savoir que les sujets obtenant un score proche ou égale à 1
( probabilité élevée de se produire) seront classés à droite, alors que ceux obtenant un score
proche ou égale à zéro seront classés à droite du graphique. Dans un modèle parfait ou du
moins bon, on obtient le moins possible de sujet situés aux alentours de 0,5. Dans le cas où
une grande parties des sujets est proche de (0,5 ) , la probabilité est alors de 50/50 et le
modèle serait dépourvu de sens.
I.Les étapes d’une régression logistique sur SPSS :
Sur SPSS, une fois le chercheur a collecté ses données et codifié celles-ci sur un fichier Excel,
le fichier sera choisi en cliquant sur Fichier (icône se trouvant sur l’extrême gauche), les
étapes suivantes sont :
-Cliquer sur analyse, régression, logistique binaire.

-Dans la boite de dialogue faire insérer la variable dichotomique (Dépendante) dans la partie
supérieure et les variables indépendantes ( prédicteurs ) dans la partie inférieure ( ou c’est
mentionné covariables).
6
-Choisir ensuite la méthode de régression : ascendante ou descendante.

-Cliquer sur « OK » pour lancer l’analyse.


Le bouton Nominale permet d’indiquer quelles variables sont catégorielles dichotomiques en
l’insérant dans la partie Co variable catégorielle. Le bouton Indicateur permet de catégoriser
une variable à plusieurs groupes en plusieurs variables ayant que les valeurs 0 et 1.

Le bouton enregistrer permet d’enregistrer certaines informations d’intérêts tels que les
résiduels standardisés, les résidus logit, les prévisions probabilité et les prévisions groupes
d’affectations. Ces résultats permettront d’évaluer la qualité d’ajustement du modèle.

7
Le bouton option permet d’avoir les résultats suivants :
-probabilité étape par étape : cette étape permettra au chercheur de trancher par rapport aux
variables à rejeter et celles à maintenir. Le maintien des critères se fait à 0,05 pour le rajout
0,1pour le retrait.
-La maximum des itérations : le nombre de tirages effectué par le logiciel pour aboutir au
meilleur modèle. Il s’agit d’un tirage avec remise des observations. Le logiciel privilégie les
résultats qui sont proches des valeurs observées. Le nombre d’itérations ne peut pas dépasser
les 20 itérations, quelque soit sa complexité.
-Qualité d’ajustement d’Hosmer et Lemeshow : ce test permet d’avoir la différence entre
les valeurs prédites et les valeurs observées. Le résultat ne doit pas être significatif.
-Liste des résidus par observation :
On vérifie qu’il ait moins de 1% de l’échantillon qui représente des valeurs à plus de 2 écarts-
types ou à moins de (-2) écarts-types.
-historique les itérations : indique la probabilité Log à chaque essai d’ajustement par
itération.
-Le bouton Afficher permet d’avoir les statistiques à chaque étape pour pouvoir comparer.

II. Interprétation des résultats


L’exemple cherche à prédire la probabilité de vivre un épuisement chez les enseignants
en fonction de 6 variables :

8
a. Stress généré par les étudiants
b. Stress généré par les parents
c. Tresse généré par la direction
d. Sentiment d’auto-contrôle
e. Stratégie d’adaptation
f. Présence d’un trouble anxieux chez l’enseignant
Ce premier tableau est facultatif puisqu’il rappelle les valeurs utilisées par SPSS pour codifier
les réponses ( 1 pour oui et 0 pour non).

Ce tableau donne un historique des itérations. Nous remarquons que ça s’est arrêté à la
quatrième itération. La donnée qui nous intéresse aussi dans ce tableau, c’est l’indicateur (-
2LL) qui est la probabilité que nous cherchons à améliorer en ajoutons d’autres prédicteurs.

Ce tableau montre que la prédiction permet de classer 74.5% des participants.

9
Le tableau des variables de l’équation indique la valeur de la constante B 0 qui est égale à (-
1,073).

Le tableau suivant donne la valeur des corrélations partielles dans la régression multiple et
une indication par rapport à leur significativité. Cela prouve que chaque variable participe à
améliorer le modèle.

Le tableau récapitulatif des modèles nous indique si le modèle permet de prédire la probabilité
de vivre un épuisement professionnel chez les enseignants en se basant sur l’évolution de la
valeur de (-2LL) à chaque étape. Nous remarquons que (-2LL) diminue à chaque étape ( à
chaque fois qu’on rajoute une autre variable prédicatrice). Alors que le modèle de base
affichait une valeur de 530,11, le rajout d’une autre variable à l’étape 1 donne un (-2LL)
d’une valeur de 399,033 soit une différence 131,74.

10
Les deux lignes étapes et modèle ne donnent pas les mêmes valeurs. En effet, la case étapes
nous donne la différence de la valeur (-2LL) entre l’étape précédente et l’étape suivante.
Nous remarquons que sa valeur diminue de manière significative à chaque rajout d’une
autre variable.

L’analyse des deux coefficients B et Exp(B) nous permettent d’étudier l’effet et le sens de
l’effet des variables prédictrices sur la variable dépendante qui est la probabilité de vivre un
épuisement professionnel chez les enseignants. Nous remarquons qu’après avoir rajouter
toutes les variables, le sens de la relation est positif pour les variables prédictrices à part la
variable stratégie d’adaptation. L’effet des stratégies d’adaptation. Nous constatons à ce
stade que le meilleur remède face à l’épuisement professionnel c’est l’adoption de stratégie
d’adaptation.

11
La présence d’un changement significatif dans la valeur de (-2LL) après suppression d’une
variable montre le pouvoir prédicteur de celle-ci comme l’indique le tableau précédent.
A ce stade nous avons confirmé que chacune des variables contribue à prédire la variable
indépendante. On s’intéresse désormais au degrés d’ajustement des données par rapport au
modèle. SPSS nous donne les statistiques 2 de Cox et Snell et de Nalgelkerke montrées
dans le tableau suivant. Plus leur valeur est importante, plus les données s’ajustent
au modèle. On remarque qu’à chaque étape ( rajout d’une variable), la valeur de
R2augmente ce qui signifie que les données s’ajuste au modèle.

La variabilité expliquée est obtenue par : (-2LL de base) - (-2LL modèle)


(-2LL de base)
La variabilité est alors égale à 530,107- 324, 710/530, 107= 39%.
Le hasard permettait de classer seulement 74 des participants. Ce pourcentage monte à la
quatrième étape à 82% des participants classés correctement, avec 92,2 % non épuisés classés
correctement et seulement 55,5% épuisés classés correctement.

12
13

Vous aimerez peut-être aussi