Analyse de Donnee Savec Spss
Analyse de Donnee Savec Spss
Analyse de Donnee Savec Spss
Synthse
de cours
exercices
corrigs
&
Analyse de donnes
avec SPSS
collection
Synthex
Manu CARRICANO
Fanny POUJOL
Sciences de gestion
Synthse
de cours
&
exercices
corrigs
Analyse
de donnes
avec SPSS
Manu Carricano
INSEEC Paris
Fanny Poujol
IAE Valenciennes
collection
Synthex
ISBN : 978-2-7440-4075-7
ISSN : 1768-7616
Copyright 2009 Pearson Education France
Aucune reprsentation ou reproduction, mme partielle, autre que celles prvues larticle L. 122-5 2
et 3 a) du code de la proprit intellectuelle ne peut tre faite sans lautorisation expresse de Pearson
Education France ou, le cas chant, sans le respect des modalits prvues larticle L. 122-10 dudit code.
Sommaire
Prface .........................................................................
VII
Introduction ..................................................................
IX
XI
Chapitre 1
Chapitre 2
29
Chapitre 3
51
Chapitre 4
Segmenter ...................................................................
79
Chapitre 5
107
Chapitre 6
133
Chapitre 7
155
Chapitre 8
177
195
Index ............................................................................
197
Sommaire V
Prface
Il existe aujourdhui de nombreux livres consacrs aux tudes de march et lanalyse
marketing, ce que les Anglo-Saxons nomment marketing research. Louvrage de Fanny
Poujol et Manu Carricano, Analyse de donnes avec SPSS, se distingue clairement de ceux
existant sur le march par son parti pris rsolument oprationnel. Linstrumentation de
gestion est souvent nglige dans la littrature francophone consacre au management.
Tendance bien cartsienne la conceptualisation ? Bien des manuels, peut-tre en contradiction avec la dfinition mme de ce genre dcrit, consacrent la portion congrue aux
outils et leur application pratique.
Analyse de donnes avec SPSS prend le contre-pied dune telle tendance. Peut-tre est-ce en
raison de la jeunesse et de la singularit des auteurs : une docteur en gestion, aujourdhui
matre de confrences luniversit de Valenciennes, et un professeur assistant dans une
grande cole, tous deux chercheurs lInseec et encore trs proches des difficults
dapprentissage de la recherche quantitative en marketing ?
En tout tat de cause, les huit chapitres de leur ouvrage prsentent avec rigueur les problmes oprationnels de la recherche quantitative en marketing et leur rsolution pratique,
en prenant patiemment le lecteur par la main grce des exemples et des exercices et en le
guidant dans lutilisation du logiciel SPSS. Le titre des chapitres rsume ce parcours initiatique dans la recherche quantitative en marketing : analyser pour dcider, dcrire les donnes, simplifier les donnes, segmenter, lanalyse de variance, la rgression linaire,
lanalyse conjointe, communiquer les rsultats. Dans ce parcours en huit tapes, cest rsolument lapplication et la mise en uvre pratique qui sont privilgies aux dpens des
considrations thoriques rsumes clairement en tte de chapitre.
Outre laspect oprationnel, les auteurs ont galement eu comme objectif de privilgier la
dimension synthtique de leurs dmonstrations. Il ntait pas question pour eux de faire
une somme de plus sur le sujet, les bibliothques tant dj fournies en livres de ce
type. Certes, dautres mthodes mriteraient de figurer dans louvrage, mais on ne peut
reprocher aux auteurs davoir privilgi les techniques les plus couramment utilises.
Nul doute que ce livre original connatra le succs quil mrite auprs des nombreux chercheurs en marketing, professionnels et universitaires. Il sera alors temps pour les auteurs
doffrir un second tome dans la mme veine. Cest tout ce que nous leur souhaitons, pour
eux-mmes et pour leurs futurs lecteurs.
Pierre-Louis Dubois, Professeur
Universit Panthon-Assas (Paris II)
ESCP-EAP
Prsident du Comit scientifique de lInseec
VII
Introduction
Approche adopte
La plupart des dcisions de lentreprise reposent sur des donnes collectes sur le march,
les clients, les concurrents. Mais le plus souvent, ces analyses sont simplistes, limites,
voire biaises : dune part, parce quelles se limitent des analyses descriptives (tableaux
croiss, analyses factorielles) et non pas explicatives des phnomnes observs ; dautre
part, parce quelles ne sassurent pas toujours des conditions de validit et de fiabilit des
rsultats. Dans le mme temps, lexercice du marketing sest considrablement transform
ces dernires annes : le volume de donnes disponible est plus important, et les outils
danalyse plus sophistiqus. Ces solutions analytiques, telles les suites de logiciels dveloppes par SPSS, visent tirer parti de cette profusion de donnes afin daider les dirigeants
prendre des dcisions fondes, optimales. Comme le signale Sunil Garga, prsident dIRI
Analytic Insight Group : Les approches analytiques en marketing ont amen plus de
changement durant les 24 derniers mois que lors de ces 24 dernires annes.
La diffusion de ces nouvelles approches dans lentreprise passe par la mise sur le march
de jeunes diplms clairs et sensibiliss une dmarche analytique dpassant lintuition
et fonde sur des modles afin de prendre des dcisions optimales. Lide force qui nous a
guids tout au long de la rdaction de cet ouvrage est de dmontrer la valeur ajoute de
lanalyse de donnes dans loptimisation de dcisions courantes au sein de lentreprise. Le
marketing, notre domaine de spcialisation, nous a sembl tout indiqu pour mettre en
uvre une telle approche fonctionnelle. Loin dun inventaire de techniques statistiques,
nous avons souhait dfinir une srie de questions simples faisant le lien entre les outils
danalyse de donnes et les dcisions marketing, parmi lesquelles :
IX
Structure du livre
Le domaine de lanalyse de donnes tant vaste et complexe, nous avons souhait organiser ce livre en deux grandes parties distinctes. Une premire partie (chapitres 1 4) prsente les mthodes descriptives en analyse de donnes (analyses univaries et bivaries, tris
croiss, analyses factorielles), la plupart des enqutes en marketing se limitant aux tests
prsents dans cette partie. La seconde partie de louvrage (chapitres 5 7) prsente un
panorama de techniques plus avances (analyse de variance, rgressions, analyse conjointe) afin de guider lanalyste dans ces procdures plus sophistiques. Enfin, le dernier
chapitre traite de la rdaction du rapport, la valeur ajoute dune dmarche analytique
passant aussi par la capacit communiquer les rsultats de manire prcise et intelligible.
Remerciements
Nous voudrions remercier vivement ceux qui nous ont aids raliser cet ouvrage, en particulier, Roland Gillet, professeur l'universit Paris 1 Panthon-Sorbonne et directeur de
la collection, pour ses remarques et sa confiance, et Pierre-Louis Dubois, professeur
l'universit Paris 2 Panthon-Assas et l'ESCP-EAP, pour ses encouragements constants et
son aide prcieuse. Nos remerciements sadressent aussi Laurent Bertrandias (matre de
confrences lIAE universit Toulouse 1), Ren Darmon (professeur mrite
lESSEC), Laurent Flors (CEO crmmetrix et professeur associ lINSEEC), Jean-Franois Trinquecoste (professeur lIAE Bordeaux), Herv Fenneteau (professeur luniversit Montpellier I), Jean-Philippe Grouthier (administrateur lInsee).
Merci aussi Christophe Lenne et toute lquipe de Pearson Education France pour leur
travail ditorial constructif et enrichissant.
Enfin, nos plus vifs remerciements vont nos proches, pour les longs instants vols, le
temps tant le plus prcieux des cadeaux. Comme le dit Paul Claudel : Le temps, tout le
consume, et lamour seul lemploie.
Les auteurs
Manu Carricano est enseignant-chercheur lInseec Paris o il est responsable du dpartement marketing. Il y enseigne le marketing et les tudes de marchs en licence et master.
Il intervient galement lIAE de Bordeaux dans le master marketing en formation continue. Ses recherches portent sur la convergence des mthodes quantitatives et qualitatives
sur Internet ainsi que sur loptimisation des stratgies de prix. Ses travaux ont fait lobjet
de publications et ont t prsents dans des confrences acadmiques internationales.
Fanny Poujol est titulaire dun MBA de luniversit de Birmingham ainsi que dun doctorat de luniversit Montpellier II. Elle est matre de confrences lIAE de Valenciennes, et
chercheur associ au laboratoire de recherche Inseec. lIAE, elle enseigne la mthodologie, le marketing des services, le commerce international et le management des forces de
ventes en licence et master. Elle intervient aussi en master marketing et vente lUPMC
(Universit Pierre-et-Marie-Curie). Ses recherches portent sur la gestion des forces de
vente. Ses travaux ont t prsents dans des congrs internationaux (IAE, AFM, EMAC,
ANZMAC) et publis dans des revues acadmiques (Dcisions Marketing, Journal of Business and Industrial Marketing).
XI
Chapitre
Analyser
pour dcider
1. tudes et recherche
en marketing...............................2
2. Des donnes aux variables...........7
3. Mesurer laide
dun questionnaire.....................16
Exercices
1. Quand Pampers collecte
des donnes..............................23
2. Laudience de la super star.........24
3. Lenqute point de vente .......25
(1)
1.1 LA
DMARCHE DTUDE
partir de la dfinition prcdente, nous pouvons rsumer la dmarche dtude cinq
tapes principales, reprises la figure 1.1 ci-aprs.
Figure 1.1
Les cinq tapes
dune dmarche
dtude.
Anticipation
du problme
Dfinition du
problme
Analyse de
la situation
Collecte
des donnes
Analyse et
interprtation
Rsolution
du problme
Objectifs dtude
Techniques dtude
Test de concept
Analyse de la concurrence
Panels
Test de formule
March-test simul
March-tmoin
Chapitre
Objectifs dtude
Techniques dtude
La formulation correcte dun problme permet de faire le lien entre un besoin de dcision
et la mise en uvre dune dmarche de recherche, de collecte, danalyse et dinterprtation
dinformations. La fonction tude doit donc tre envisage autour de ce paradigme
informationnel. Son rle consiste transformer des informations brutes en donnes utiles
dans la recherche de nouvelles opportunits, mettre en place des systmes dcoute du
march et de veille concurrentielle, et prescrire les comportements adopter sur les marchs. Au confluent des flux dinformations de lentreprise, elle acquiert aujourdhui une
dimension stratgique croissante.
Si la collecte et lanalyse de donnes sont au cur du mtier danalyste en marketing, ces
derniers font de plus en plus appel des donnes secondaires et des donnes stockes
dans des entrepts de donnes (data warehouses). Cette tendance est accentue par le
recours Internet qui, en combinant habilement sites de marque et techniques de marketing direct, savre tre une source inpuisable dinformations sur les marchs, les
consommateurs, les concurrents.
Lexistence de cette profusion de donnes fait voluer les besoins dtude dans lentreprise et
modifie par suite le recours aux diffrentes techniques. Auparavant, la conduite dune tude
de march tait principalement entendue comme la ncessit de procder une collecte de
donnes terrain, souvent par le biais du questionnaire, de lentretien ou de runions de
consommateurs. Dornavant, laccs ais des donnes secondaires, la dissmination interfonctionnelle dune intelligence marketing dans lorganisation modifie quelque peu la donne.
Cette vaste quantit dinformations disponibles rend ncessaire, pour le charg dtude
comme pour le chef de produit, une comptence accrue en analyse de donnes. Elle permettra dviter les erreurs dinterprtation et de matriser la qualit dtudes souvent ralises par des instituts. Un besoin croissant doprationnalit se fait sentir en la matire.
Cette oprationnalit passe tout dabord par le dveloppement de mesures pertinentes et
valides supportant des construits psychologiques (dcisions dachat, notorit, intrt
pour la marque, le produit, etc.), afin de bien mesurer ce qui se rapporte au problme
managrial. Elle passe ensuite par la mise en uvre danalyses qui permettent dexpliquer
et de prdire des comportements, afin de bien comprendre le problme managrial pour
le rsoudre et agir.
1.2 LES
TECHNIQUES DTUDES
Les techniques dtudes sont regroupes en deux catgories principales, selon leurs objectifs et leurs limites. Les tudes quantitatives dominent largement le march des tudes,
mme si, dernirement, les dpartements marketing ont manifest un intrt croissant
pour les tudes qualitatives. Le tableau 1.2 montre la rpartition des diffrentes techniques
en fonction des mthodes de collecte les plus frquemment utilises en marketing.
Tableau 1.2 : Rpartition des diffrentes techniques dtude
2005
2006
13 %
20 %
29 %
30 %
Tests en salle
11 %
10 %
tudes en face--face
42 %
37 %
tudes postales
5%
4%
Runions de groupe
57 %
55 %
Entretiens individuels
22 %
22 %
5%
17 %
16 %
5%
Techniques
Quantitatives
Qualitatives
Chapitre
le march-test : tude quantitative visant prvoir les ventes et parts de march dun
nouveau produit ; on parle galement de march-test pour des observations de type
exprimental en magasin ;
lentretien individuel : tude qualitative dont lobjectif est de recueillir le discours individuel. On distingue lentretien non directif (libre propos), semi-directif (intervention
et thmes), directif (guide dentretien strict, questions ouvertes), associatif ou projectif
(analogie, associations de mots, complments de phrases, jeux de rle, etc.) ;
la runion de groupe : tude qualitative libre et non structure dun groupe de 8 12
participants, conduite par un animateur. La discussion libre repose sur les phnomnes
de psychologie collective des groupes restreints, fonde notamment sur les travaux de
Kurt Lewin.
Le tableau 1.3 reprsente les objectifs et les limites des approches qualitatives et quantitatives.
Tableau 1.3 : Objectifs et limites des approches qualitative et quantitative
Objectifs
Approche
Limites
Gnralisation des rsultats
Qualitative
Rpertorier
Explorer
Gnrer
Comprendre
Quantitative
Dnombrer
Hirarchiser
Pondrer
Rsumer
Biais dclaratifs
Mmorisation des rpondants
Les tudes qualitatives sont utilises dans une dimension principalement exploratoire,
afin de comprendre en profondeur des comportements de consommateurs par exemple.
Si elles ne permettent pas de gnraliser les rsultats quelles produisent, elles nen sont pas
moins utiles pour dpasser les mesures dattitudes des questionnaires. Elles permettent
daccder une tude approfondie des processus lis aux comportements de consommation, grce notamment aux entretiens et aux runions de consommateurs, et daccder
plus profondment lexplication de ces comportements, en levant le voile sur des facteurs inconscients (le non-verbal, le non-dit ), en dautres termes le monde interne des
consommateurs et notamment leur rapport aux marques.
Les tudes qualitatives se distinguent galement par la place quelles occupent dans la
dmarche de recherche. Souvent considres comme un prlude ltude quantitative ou
limites la confirmation des rsultats dune enqute par questionnaire, elles se substituent de plus en plus aux approches traditionnelles, grce notamment lutilisation
dInternet et de ses potentialits multimdias, et la ncessit croissante pour le marketing
dtre connect au terrain. Garnier, par exemple, a lanc, il y a peu, une vaste opration de
type ethnographique baptise Consumer Connect, dont lobjectif tait avant tout dimmerger les chefs de produit parmi les consommateurs et dobserver leur utilisation du produit
in situ. Lavnement dInternet a contribu repopulariser cette technique auprs des instituts dtude : on peut citer lmergence de la netnographie (voir ci-aprs) ou encore le
Home Use Blog (HUB), dvelopp conjointement par Danone et la socit Repres.
EXEMPLE
La netnographie
On constate, depuis quelques annes, un intrt grandissant pour linformation collecte
partir de lobservation de communauts virtuelles, nouvelles formes de communauts dont
Internet a permis lmergence. Ainsi, de nombreuses firmes ont ralis des tudes sur la
base dinformations issues de forums de discussion et nont pas tard saisir les opportunits offertes par ces nouveaux types dinteractions sociales. Kozinets a dvelopp rcemment
une approche nouvelle lethnographie sur Internet ou netnographie quil dfinit comme
une nouvelle mthode de recherche qualitative qui adapte la mthode de lethnographie
ltude des cultures et des communauts qui mergent grce aux communications
informatises (Kozinets, 2002, p. 62). En tant que technique de recherche en marketing,
la netnographie utilise linformation publique disponible sur les forums en ligne afin didentifier et de comprendre les besoins et les influences qui psent sur les dcisions dachat de
groupes de consommateurs prsents sur Internet. Pour Laurent Flors, CEO de la socit
dtude crmmetrix, spcialiste de lcoute client, le canal Internet permet aux marques de
participer de vritables conversations et de sappuyer sur un puissant levier du
marketing : le bouche oreille. Il est dsormais possible de quantifier le volume de ces
conversations, danalyser leur contenu et le profil des intervenants, avec un avantage important sur les techniques traditionnelles, puisque cette approche naltre pas le contexte tudi
par lintervention dun analyste mais collecte plutt une information en langage naturel.
Les techniques quantitatives, auxquelles cet ouvrage est essentiellement consacr, constituent la part dominante des tudes marketing. Leur objectif est avant tout de mesurer, de
quantifier et de permettre de gnraliser les rsultats partir de lchantillon de la population concerne. Ce type dtude repose gnralement sur un grand nombre dobservations
et sur des informations structures (valeurs numriques, chelles ou valeurs nominales)
par opposition aux informations non structures (discours, texte libre/questions
ouvertes, etc.). Plus prcisment, trois types dtudes quantitatives peuvent tre distingus, en fonction du contexte de dcouverte de linformation : dcrire, expliquer, prdire.
Les tudes descriptives sont fondes sur des mesures dont le but est de collecter des donnes brutes afin de crer des structures dcrivant les caractristiques dune population
cible ou dun march. Elles peuvent tre utiles, entre autres, pour faire la photographie
dun march, de la satisfaction des consommateurs, de la notorit dune marque. La
dimension descriptive est lobjectif premier traditionnellement assign aux tudes marketing. Cette tape importante a pour objet de mesurer la force dassociation entre deux
variables, par exemple, et permet de poser un cadre danalyse ncessaire aux tudes explicatives et prdictives.
Les tudes explicatives ont pour objet de transformer des donnes brutes en structures
expliquant des relations de causalit entre deux ou plusieurs variables. Lapproche explicative est utile lorsque ltude a pour objectif de comprendre les causes directes dun phnomne. Ce type dtude peut permettre, par exemple, de modliser limpact de la publicit
sur les ventes. Lapproche explicative est particulirement utile dans un contexte daide la
dcision, o le but assign ltude nest plus simplement de dcrire mais aussi de comprendre, de la manire la plus fiable et la plus valide, les dterminants affectant la performance des dcisions marketing.
Les tudes prdictives, quant elles, ont pour objet de transformer les donnes brutes
collectes sur les caractristiques comportementales des consommateurs ou des entreprises/marchs pour crer des modles prdictifs des fins doptimisation. Ces approches,
Chapitre
surtout utilises dans des contextes de gestion de la relation client, ncessitent des observations en trs grand nombre et des outils sophistiqus (voir focus 1.1). Pour notre part,
dans les chapitres suivants, nous nous concentrerons principalement sur les deux premiers types dtude.
* Focus 1.1
Le data mining
Le data mining, ou fouille de donnes, est lensemble des mthodes et techniques destines
lexploration et lanalyse de bases de donnes informatiques (souvent de grande taille), de
faon automatique ou semi-automatique, en vue de dtecter des rgles, des associations, des
tendances inconnues ou caches, des structures particulires restituant lessentiel de linformation utile tout en rduisant la quantit de donnes. En bref, le data mining est lart dextraire
des informations, voire des connaissances partir de donnes. Le data mining est soit descriptif, soit prdictif : les techniques descriptives en data mining visent mettre en vidence des
informations prsentes mais caches par le volume des donnes (cest le cas des classifications
automatiques dindividus et des recherches dassociations de produits) ; les techniques prdictives visent extrapoler de nouvelles informations partir des informations prsentes, ces nouvelles informations pouvant prendre la forme de classements ou scorings (slection de clients
selon certains critres), ou de prdictions comme lapptence pour un produit (probabilit
dachat futur) ou le risque dattrition (probabilit de dpart la concurrence).
Source : adapt de Tuffry, 2005.
(2)
2.1 TYPES
DE DONNES
Les types de donnes en marketing sont en gnral identifis en fonction de leur source.
Ainsi, on distingue les donnes secondaires et les donnes primaires (voir figure 1.2).
Les donnes secondaires sont des donnes qui ont t collectes pralablement ltude,
pour rpondre dautres problmes, ce qui peut fortement en limiter la pertinence et la
prcision (Malhotra et al., 2007). Elles sont cependant dun accs facile et leur cot est
relativement faible. Souvent perues comme des donnes faible valeur ajoute en marketing (limites une dfinition de problme, voire quelques tests pour mettre en valeur
les rsultats principaux), elles occupent dsormais une place de plus en plus importante
dans les tudes. Les sources dinformation de cette nature sont aujourdhui abondantes et
doivent systmatiquement tre prises en considration avant toute collecte de donnes
primaires. On distingue les donnes secondaires internes, issues de lentreprise (reportings, intranet, donnes comptables, informations manant des salaris) et les donnes
secondaires externes, issues de lenvironnement de lentreprise :
Figure 1.2
Les sources de
donnes.
Entreprise
Donnes
secondaires
Internet, gouvernement, panels, tudes
Hors-entreprise commerciales, publications, interactions
consommateurs, etc.
Observer
Exprimentation, ethnographie,
approches personnelles, etc.
Interroger
Donnes
primaires
en premier lieu Internet qui donne accs des donnes structures (fichiers logs,
cookies, etc.) et surtout des donnes non structures (blogs, forums, interactions
sociales, etc.) que lon commence aujourdhui analyser, traiter (netnographie, analyse lexicomtrique, text mining, etc.) ;
les donnes gouvernementales : donnes de recensement, donnes macroconomiques, etc. ;
les donnes de panels (consommateurs, distributeurs, audience) ;
les tudes de marchs publies de nature commerciale ;
les interactions avec les consommateurs ou points de contacts : lettres de rclamations,
call-centers, e-mails reus, etc.
* Focus 1.2
Les panels
Les panels ont considrablement volu ces dernires annes : gains de restitution de linformation, amlioration de la couverture des circuits de distribution (donnes de panels et donnes issues du scanning en sortie de caisse), offre enrichie (information accessible en ligne,
analyses spcifiques des variables du mix et de leur performance). On distingue, en France,
plusieurs types de panels largement plbiscits (42 % du march des tudes) : les panels de
consommation, les access panels (ou panels de consommateurs), les access panels on-line, les
panels de distributeurs (ou panels de dtaillants) et les panels daudience.
Panels de consommation : recueil dinformations sur leurs achats auprs dun chantillon de mnages. Ce type de panel permet de rpondre aux questions : Qui consomme
quoi ? et En quelle quantit ? (taux de pntration, quantits achetes, etc.) et de mesurer lvolution de la consommation dans le temps.
Access panels : recueil dinformations auprs dindividus ou de foyers reprsentatifs de
la population nationale, qui ont accept de participer des enqutes ponctuelles. Ils sont
interrogs sur leurs pratiques, leurs opinions, leurs gots et leurs prfrences, pour des tudes ad hoc (tests de produits, de concepts, tudes dusages et dattitudes, tracking, etc.).
Access panels on-line : recueil dinformations auprs dinternautes panliss qui ont
accept de participer des enqutes ponctuelles. Le recrutement se fait le plus souvent via
un site de recrutement sur Internet. Ils sont interrogs sur leurs pratiques, leurs opinions,
leurs gots, leurs prfrences.
Chapitre
Panels de distributeurs : recueil dinformations auprs dun chantillon de points de
vente afin de connatre les volumes, les prix de vente, les parts de march de diffrentes
marques dun segment, dvaluer la prsence de la marque dans les diffrents canaux de
distribution (distribution numrique, distribution valeur), de suivre les volutions de la distribution, loffre disponible dans les points de vente (linaires accords aux diffrentes marques, ruptures, promotions), de mesurer limpact sur les ventes dune modification de loffre
(promotion, lancement, etc.). Infoscan Census (panel dInformation Resources Inc., IRI) est le
premier du genre abandonner la mthode de lchantillon au profit dune remonte
exhaustive des magasins.
Panels daudience : chantillon reprsentatif de foyers dont on mesure lcoute des diffrentes chanes de tlvision. Il nexiste quun seul panel depuis larrt du panel SofresNielsen : Mediamat, de Mdiamtrie, panel de 3 100 foyers, soit 8 000 individus de 4 ans
et plus quips dun audimtre.
Les donnes primaires sont des donnes qui ont t collectes dans le but de rsoudre le
problme managrial propre ltude. Il sagit de donnes brutes, qui doivent tre prpares, analyses puis interprtes (Hair et al., 2006). Dans ce cas, les cinq tapes de la
dmarche dtude doivent tre respectes. Ce chapitre tant consacr ltape de la collecte des donnes, les chapitres suivants aborderont lanalyse et linterprtation des rsultats pour une srie de tests pouvant tre mis en uvre dans une dmarche dtude ou de
recherche marketing.
2.2 LCHANTILLON
Afin de bien illustrer les tapes dun plan de sondage, un petit dtour historique peut savrer
intressant. Tout commence aux tats-Unis, lorsque Franklin D. Roosevelt se reprsente
contre Alf Landon aux lections de 1936. Derrire les candidats, deux hommes saffrontent
pour pronostiquer le rsultat de ces lections. Dune part Codely, rdacteur en chef du Literary Digest, utilise la technique du vote de paille (straw vote) : quelques jours avant les lections, il fait paratre des bulletins de vote dans son journal et demande ses lecteurs de
mentionner leur choix. Il reoit 2,4 millions de rponses et donne Landon gagnant. Dautre
part, Gallup, crateur de linstitut ponyme, ninterroge que 4 000 personnes et joue Roosevelt gagnant. La victoire de ce dernier marque la naissance des instituts de sondage. Gallup
est le pre de lchantillon reprsentatif, le premier avoir eu lide de reconstituer une
population en miniature. Deux ans aprs, les sondages sont imports en France par Jean
Stoetzel, philosophe et sociologue, crateur en 1938 de lInstitut franais dopinion publique
(IFOP). Cette jeune pratique est construite autour de deux tapes principales : la dfinition
de la population tudier et la slection de lchantillon.
La population tudier doit tre dfinie avec le plus grand soin (par exemple les clients
dune enseigne de distribution). Cette dfinition inclut celle des units de sondage (lindividu dtenant linformation) qui sont lobjet de lobservation. Dans de nombreux cas, en
marketing, on ne se proccupe pas de lensemble de la population mais plutt des
consommateurs de tel ou tel produit, ou catgorie de produits, qui constituent la cible des
actions envisages.
Vient ensuite ltape du choix de lchantillon et de sa taille. Deux mthodes principales
sont utilises, dont lobjectif est de slectionner un chantillon assurant la meilleure prcision possible des rsultats au moindre cot (pour une description dtaille, voir Evrard
et al., 2003). La mthode probabiliste, dans laquelle chaque individu de la population
Tirage au hasard
chantillons
probabilistes
chantillonnage
stratifi
chantillons
non probabilistes
10
Chapitre
4 fois ladresse/au numro qui lui a t indiqu. Cette mthode prsente lavantage de la
simplicit : on choisit quelques caractristiques dont on connat la distribution statistique
dans la population tudie (par exemple, sexe, ge, catgorie socioprofessionnelle [CSP]
du chef de famille), puis on donne chaque enquteur un plan de travail qui lui impose le
respect de certaines proportions au sein des interviews. Cette mthode, par opposition
aux deux mthodes prcdentes, donne des estimations biaises car les diffrentes catgories de population prsentent des probabilitis diffrentes et inconnues dtre touches
par un enquteur. Dautre part, la mthode des quotas ne permet thoriquement pas de
calculer les marges derreur associes aux rsultats trouvs, comme une mthode alatoire
permet de le faire.
Mthode des itinraires (ou random route) : dans une commune, par exemple, on
impose lenquteur un point de dpart et un itinraire suivre, avec tirage systmatique des logements dans lesquels il doit effectuer des interviews (par exemple, interroger les foyers toutes les trois portes dans un immeuble).
chantillonnage de convenance : il est conu par lenquteur pour des raisons de praticit. Il fait gnralement appel des personnes interceptes dans la rue, la sortie des
caisses en magasin, etc. Cest la moins coteuse et la plus rapide de toutes les techniques
dchantillonnage mais elle prsente de fortes limites : biais de slection, non-reprsentativit. Il nest donc thoriquement;pas significatif de gnraliser les rsultats.
chantillonnage boule de neige : on choisit un premier groupe de rpondants, au
hasard gnralement, puis on leur demande dindiquer dautres rpondants potentiels
appartenant la population cible. Cette mthode peut tre utile pour des enqutes sur
les leaders dopinion par exemple.
La dtermination de la taille de lchantillon est une tape cruciale en analyse de donnes.
Un chantillon trop petit peut induire une perte dinformations importante ou empcher
la ralisation de nombreux tests soumis des contraintes en termes de nombre dobservations. linverse, un chantillon trop important constitue une perte de temps et de budget
dommageable pour la russite de ltude. Il est important de noter que la prcision de
linformation recueillie dpend principalement de la taille de lchantillon et non du taux
de sondage (dfini par le rapport n/N, o n est la taille de lchantillon et N celle de la
population).
Dans la pratique, les chargs dtudes utilisent des abaques (feuilles de calcul) donnant la
taille de lchantillon en fonction du degr de prcision des rsultats que lon veut obtenir.
Certains professionnels des tudes considrent quil ny a pas de raison valable de travailler
avec des chantillons de plus de 1 000 1 500 rpondants. En effet, sil est admis que la
prcision des rsultats est influence par la taille de lchantillon, cette influence savre
ngligeable au-dessus de 1 500 observations. Pour trouver la taille adquate de
lchantillon N, une rgle empirique facile appliquer mme si elle est contestable dun
point de vue purement statistique consiste partir de lerreur, exprime en pourcentage,
que lon est prt tolrer :
N = 1/erreur2.
Par exemple, si lon accepte une erreur de +/5 % au niveau de la prcision des rsultats,
on obtient une taille dchantillon de 1/0,052, soit 400 rpondants.
Les lments lis la prcision de la mesure sont centraux en analyse de donnes. Nous
dtaillons la mthode de calcul de lintervalle de confiance dans le focus 1.3. Les lments
de discussion dpendant du principe de test statistique seront abords dans le chapitre 2.
* Focus 1.3
Lintervalle de confiance
La prcision statistique dun test (proportion ou moyenne) sexprime en calculant lintervalle de
confiance, qui indique la marge derreur lorsquon gnralise une estimation obtenue sur un
chantillon lensemble de la population reprsente. La longueur de lintervalle diminue lorsque la taille de lchantillon augmente.
On retient la formule suivante pour calculer lintervalle de confiance dune proportion :
pz
pq
pq
p +z
n
n
o :
p = pourcentage observ dans lchantillon ;
q = 1 p;
z = valeur drive de la loi normale centre rduite, gale 1,96 si = 0,05 (degr de
confiance) ;
= pourcentage rel dans la population mre ;
n = taille de lchantillon.
Lintervalle de confiance dune moyenne m sur n individus avec un cart type
la manire suivante :
mz
se calcule de
m+z
n
n
Prenons lexemple suivant : un sondeur ralise une tude daudience par tlphone pour
connatre les caractristiques sociodmographiques et les comportements notamment en termes de dpenses en SMS des tlspectateurs de la Super Star, mission de tl-ralit diffuse en prime time sur le cble et le satellite. Il slectionne 1 000 numros de tlphone par
tirage alatoire simple dans la base de donnes des abonns de la chane (qui en compte
120 000 sur le cble et 2 100 000 sur le satellite). On pose lhypothse que les 1 000 personnes rpondent effectivement aux enquteurs. On constate que lmission absorbe 36,8 % de
laudience des personnes interroges de moins de 35 ans, et que le montant moyen dpens
par cette cible en SMS et appels tlphoniques est de 6,2 , avec un cart type de 2,2 .
Le montant moyen dpens par ces abonns est de :
6, 2 1, 96
2, 2
2, 2
6, 2 + 1, 96
1000
1000
12
Chapitre
SPSS
SPSS permet galement destimer lintervalle de confiance dune mesure. Lexemple retenu
ici servira de fil rouge tout au long de cet ouvrage. Une enseigne de grands magasins souhaite ouvrir un nouveau point de vente, mais elle ne le fera que si le potentiel de march est
suffisant. Une enqute a donc t ralise sur 400 rpondants, en face--face. Parmi les
questions poses, les enquteurs ont relev lintrt des rpondants pour louverture du nouveau point de vente, ainsi que le montant quils seraient prts dpenser.
Il est possible didentifier lintervalle de confiance dune moyenne avec SPSS en utilisant la
procdure du test t pour chantillon unique.
Ouvrez le fichier exemple pointdevente.sav disponible comme tous les fichiers dexercices sur le site de louvrage 1. Allez dans le menu Analyse > Comparer les
moyennes > Test T pour chantillon unique Une bote de dialogue saffiche (voir
figure 1.4).
Figure 1.4
Test t pour
chantillon unique
sous SPSS.
Faites glisser dans la bote de dialogue la variable tester montant qui correspond la
question suivante : Quel montant moyen dpensez-vous par mois dans ce type de point de
vente ?
Lanalyse donne les rsultats prsents la figure 1.5.
Figure 1.5
Statistique sur
chantillon unique.
Le premier rsultat donne le nombre de rpondants, la moyenne, lcart type et lerreur standard.
Le second rsultat donne lintervalle de confiance pour un degr de confiance de 95 % qui
se situe entre 144,55 et 162,46 (voir figure 1.6). Les lments dinterprtation lis la
thorie des tests statistiques seront approfondis au chapitre 2.
Figure 1.6
Test sur chantillon
unique.
Notons galement quun des modules de SPSS (SamplePower) permet doptimiser la combinaison entre la puissance du test, lintervalle de confiance et la taille de lchantillon.
Lapproche est fonde sur des tests de moyenne et de diffrences de moyennes, des tests de
proportions et de diffrences de proportions, des analyses de variance, entre autres.
2.3 LA
NOTION DE VARIABLE
Le principe de modlisation, sous-jacent lanalyse des donnes, impose de dfinir la
notion de variable. La modlisation est entendue ici comme la ralisation dune reprsentation simplifie dun phnomne, la variable tant lexpression du caractre observ dans
la population. La formulation la plus simple dun modle vise dfinir une relation de
cause effet entre deux natures de variables : les variables indpendantes (ou variables
explicatives) et les variables dpendantes (ou expliques). Dans ce modle simple, la variable indpendante reprsente la cause, dont leffet se mesure sur la variable dpendante
(voir figure 1.7). Ce modle permet, par exemple, de reprsenter le lien entre la frquence
dachat et la fidlit au point de vente.
Figure 1.7
Relation causale
simple.
Dautres variables peuvent intervenir dans cette relation directe entre la (ou les) variable(s) indpendante(s) et la (ou les) variable(s) dpendante(s) [Thitart et al. 1999,
p. 339]. Dans le premier cas, leffet de la variable indpendante X sur la variable
dpendante Y se mesure par lintermdiaire dune troisime variable dite mdiatrice .
Lassociation ou la causalit observe entre X et Y rsulte du fait que X influence Z qui
son tour influence Y. Cette variable Z le montant dpens par exemple peut intervenir
dans la relation entre la frquence dachat et la fidlit au magasin. Dans le second cas, la
prsence de la variable modratrice modifie lintensit (cest--dire lamplifie ou la diminue) et/ou le signe de la relation entre la variable indpendante et la variable dpendante.
On pourra mesurer leffet de cette variable modratrice par exemple en dcomposant la
population en sous-populations (classes dge, segments de clients, etc.) et en testant la
relation dans les sous-groupes pour y vrifier le type deffet (voir figure 1.8).
Figure 1.8
Effets mdiateur et
modrateur.
Les tests statistiques mis en uvre pour mesurer ces relations seront slectionns en fonction de lobjectif de lenqute (voir section 3 : Mesurer laide dun questionnaire) et en
fonction des variables collectes. Les variables sont de deux types :
qualitatives : leurs modalits, cest--dire la manire dont les observations sont regroupes, ne peuvent tre calcules ;
14
Chapitre
quantitatives : leurs modalits sont mesurables et les tests envisageables sont nombreux.
Le marketing et plus largement les sciences sociales sintressent galement la mesure de
phnomnes mentaux, telles les opinions, les attitudes ou encore les prfrences, au travers dindicateurs : les chelles de mesure. Ces dernires ont pour objet de fournir au
rpondant un support dexpression de ces phnomnes complexes observer, le plus souvent sous la forme dchelles de notation :
Lchelle nominale a pour principe dutiliser les nombres comme des tiquettes afin de
classer chacune des modalits. Les chelles nominales peuvent tre utilises pour identifier des classes dindividus. Par exemple, on peut utiliser la nomenclature des catgories socioprofessionnelles (CSP) ou encore identifier des marques lors dune tude de
notorit assiste, identifier des attributs de produits. Dans lchelle nominale, chacune
des modalits de la variable est quivalente aux autres.
Exemple :
tes-vous ? 1. Un homme 2. Une femme
Lchelle ordinale est une chelle de classement comme lchelle nominale, dans
laquelle les nombres attribus chaque modalit ont une relation dordre avec un
continuum sous-jacent. On peut, par exemple, utiliser une chelle ordinale pour classer
des prfrences de marques. Lchelle ordinale permet en effet de dterminer les relations dordre en calculant les fractiles, les dciles et les mdianes partir de ces donnes
(voir chapitre 2).
Exemple :
Notez de 1 5 la qualit gustative du produit X
(1 tant la note la plus faible, 5 la note la plus leve) :
1
Lchelle mtrique possde les proprits des chelles nominale et ordinale, mais elle
permet galement de comparer les distances entre les objets, les modalits tant spares par des espaces quidistants. Lexemple le plus courant est celui du thermomtre, la
diffrence entre 0 C et 1 C tant la mme quentre 1 C et 2 C, etc. Lchelle mtrique
est la plus couramment utilise en marketing, mme si pour ces mesures dattitudes les
intervalles ne sont pas toujours quidistants. Appartiennent cette catgorie, lchelle
de diffrentiel smantique dOsgood ou lchelle de Stapel, qui ont pour but de
conduire llaboration de profils de rpondants, lchelle dintensit de Likert ou
chelle daccord, les chelles dintention.
Exemples :
chelle dOsgood
Avez-vous trouv que le got du produit X tait ?
Mauvais
Bon
chelle de Stapel
Choisissez un nombre positif si vous pensez que le mot dcrit bien le produit X,
un nombre ngatif si vous pensez que le mot ne dcrit pas bien le produit X,
en notant de +5 5 :
Bon
Utile
Pratique
etc.
chelle de Likert
(Pas du tout daccord)
chelle dintention
Si la marque M lanait ce type de produit :
Je nachterai certainement
pas ce produit
SPSS
(3)
Jachterai certainement
ce produit
Dans SPSS, ces trois types de variables (nominale, ordinale et mtrique) doivent tre dfinis
dans la partie Affichage des variables de lditeur de donnes (lorsque le fichier a t
ouvert), dans la colonne Mesure.
16
Chapitre
Ainsi, il est gnralement recommand dutiliser plusieurs items pour mesurer un concept
et donc de commencer par chercher sil existe un outil de mesure du concept que lon souhaite valuer. Sil nexiste pas dchelle (parce que le concept est nouveau ou quil sapplique un domaine particulier), il faut en crer une.
3.1 LE
Figure 1.9
Les tapes du
dveloppement du
questionnaire.
La forme du questionnaire et son mode dadministration ne sont pas neutres. Lintroduction du questionnaire doit prsenter les objectifs de ltude et prciser le caractre confidentiel de lenqute. Une phrase daccroche peut rassurer le rpondant et linciter
rpondre de manire authentique.
Le choix du contenu des questions est une tape fondamentale. Il est recommand de dfinir
le cadre conceptuel dans lequel se situent ltude et les concepts de base, laide dune revue
de la littrature. Ltude des articles acadmiques et des ouvrages dj parus sur le sujet permet dapprofondir la dfinition du concept tudi. Cette tape permet aussi de trouver des
instruments de mesure prexistants qui peuvent tre rutiliss, traduits ou encore adapts.
On utilise la plupart du temps des chelles de mesure prexistantes. Afin de valider dans
un contexte franais ces instruments de mesure (souvent anglo-saxons), un certain
nombre dtapes doivent tre respectes (voir focus 1.4).
* Focus 1.4
Lorsque le charg dtude ne trouve pas dchelle et souhaite dvelopper son propre outil
de mesure, il est prconis de raliser une tude exploratoire (entretiens, mthode des
incidents critiques). Par exemple, une recherche sur la satisfaction au travail des commerciaux fait ressortir plusieurs composantes : les relations avec les pairs, avec la hirarchie, avec les clients, etc. Une tude qualitative a ainsi t ralise auprs dun chantillon
de 30 vendeurs, auxquels on demandait ce qui les satisfaisait dans leur travail.
partir de la dfinition retenue, on dresse ensuite une liste ditems partir de la littrature
(items prexistants emprunts dautres chelles ou adapts) ou partir dune tude de
terrain exploratoire (extraction de verbatims 1). Le pool ditems est ensuite soumis un
ou deux panels dexperts (chercheurs ou praticiens du domaine) qui liminent les noncs
ne leur paraissant pas adquats la mesure du concept. Il sagit ici dvaluer ce que lon
appelle la validit faciale du concept (voir chapitre 3).
Nous avons prsent au point 2.3 les diffrentes formes possibles dchelles. Dans un souci
de neutralit et de symtrie, il faut veiller ce que lquilibre des rponses positives
vs ngatives autour du point mdian plac au centre soit respect. Le choix du nombre
dalternatives de rponse se fait par arbitrage : lattention des rpondants faiblit aussi avec
le nombre de questions et de modalits de rponses.
En ce qui concerne la formulation et la squence des questions, il est gnralement recommand dalterner lordre des questions et le sens des interrogations, afin de limiter les
effets de lassitude, de halo ou de contamination. Leffet de halo se manifeste lorsquune
suite de questions est pose dans le mme sens : la personne interroge peut alors avoir
tendance rpondre toujours de la mme manire alors que leffet de contamination
concerne linfluence directe dune question sur les questions suivantes.
Enfin, il est trs important de tester le questionnaire avant de ladministrer, dune part,
pour vrifier que toutes les questions sont bien comprises et quelles nengendrent pas
de blocage et, dautre part, afin de tester le temps ncessaire pour y rpondre. Une vingtaine de rpondants peuvent savrer ncessaires pour effectuer ce type de prtest de
comprhension.
3.2 LE
CONCEPT DE MESURE
Lacte de mesurer est lopration par laquelle on fait correspondre une donne collecte
une grandeur considre comme capable de reprsenter le phnomne dcrit par la donne. Cette opration est affecte par un certain nombre dlments qui loignent la mesure
idale de la mesure obtenue. Le modle de la vraie valeur (Evrard et al., 1997, p. 287)
consiste dcomposer le rsultat dune mesure en ses diffrents lments : la vraie valeur
(cense reprsenter la mesure parfaite) et les termes derreur (erreur alatoire et erreur
systmatique), comme le montre lquation suivante :
1. Lextraction de verbatims fait partie des stratgies danalyse dun corpus textuel (type retranscriptions dentretiens). Les verbatims
permettent de nourrir lanalyse de citations des personnes interroges.
18
Chapitre
Dune manire gnrale, il est possible de reprsenter lensemble de ces techniques danalyse en trois phases successives (voir figure 1.10).
Figure 1.10
Les stratgies
danalyse.
Univarie
Bivarie
Multivarie
Lanalyse univarie consiste examiner la distribution des modalits de rponse pour une
variable : dans le cas dune variable nominale, par exemple, il sagit dun tri plat, cest-dire le dnombrement des observations correspondant chaque modalit de la variable.
Lanalyse bivarie consiste tudier les relations entre deux variables. Dans le cas de
variables nominales, il sagira dun tableau crois dnombrant les nombres dobservations
correspondant chaque combinaison possible des deux variables, ou plus gnralement
de mesures dassociation quantifiant la relation (par exemple coefficient de corrlation
pour des variables mtriques). Lanalyse multivarie permet de dpasser les techniques
prcdentes en ce sens quelle laisse de ct la parcellisation de linformation induite par
ces techniques. En effet, si le nombre de variables est lev, il est difficile de prendre en
compte lensemble des combinaisons possibles. Lanalyse multivarie permet donc le traitement simultan de plusieurs variables.
Lambition du charg dtude quant au traitement statistique peut se situer deux
niveaux :
dcrire les donnes : il sagira par exemple de dcrire une variable (moyenne, tris), de
rechercher des diffrences entre les modalits dune ou de plusieurs variables (test statistique) ou encore de synthtiser et de visualiser un ensemble dinformations (analyse
factorielle, typologie par exemple) ;
expliquer les donnes : chaque mthode a ses exigences spcifiques en matire de proprit des variables (voir tableau 1.4).
Tableau 1.4 : Panorama des mthodes envisageables
Mthodes descriptives
Variables
Nominale
20
Ordinale
Variable
Individu
Typologie
Mtrique
Analyse factorielle
Chapitre
Mthodes explicatives
Variables indpendantes
Une variable dpendante
Nominale
Nominale
Logit
Ordinale
Analyse conjointe
Mtrique
Analyse de
variance
Plusieurs variables
dpendantes
Nominale
Mtrique
Nominale
Ordinale
Mtrique
Rgression logistique
Analyse discriminante
Logit ordonn
Ordinale
Mtrique
Modles
log-linaires
quations structurelles
Dune manire gnrale, on peut classer les mthodes selon trois dimensions :
descriptif/explicatif : cest la dimension principale en ce qui nous concerne, et celle qui
structure les chapitres suivants. Les mthodes descriptives ont pour but de reprsenter
les donnes ou les observations (frquences et tris croiss : chapitre 2 ; analyses
factorielles : chapitre 3 ; typologie : chapitre 4), tandis que les mthodes explicatives ont
pour objet la modlisation, autrement dit la liaison entre deux phnomnes (analyse de
variance : chapitre 5 ; rgressions : chapitre 6 ; analyse conjointe : chapitre 7). Plus
prcisment et cest la raison pour laquelle nous faisons le lien ici avec ce qui a t
voqu lorsque nous avons prcis la notion de variable , les mthodes explicatives
traitent des relations entre deux sous-ensembles de variables : les variables expliquer,
dont on cherche dterminer les variations ; les variables explicatives, qui contribuent
cette explication.
types de variables traites : cette dimension doit tre prise en compte trs en amont,
lors de la cration de linstrument de mesure. En effet, le recueil de donnes impose
automatiquement une contrainte quant aux traitements envisageables, lesquels doivent
donc tre anticips. Le tableau 1.4 reprend bien les mthodes envisageables suivant les
types de variables traites. Il est important de garder lesprit que ces mthodes danalyse de donnes ont t essentiellement dveloppes dans des disciplines o les donnes
sont majoritairement mtriques. Le marketing reposant sur des variables principalement non mtriques, il a t ncessaire dadapter les mthodes danalyse en introduisant des variables nominales dans des mthodes utilisant habituellement des variables
mtriques (rgression avec variables binaires) ou en crant des mthodes utilisant ces
variables qualitatives comme, par exemple, lanalyse des correspondances trs populaire en marketing ;
nombre de variables traites : les mthodes descriptives ne sont limites en termes de
variables traiter que par les capacits des logiciels utiliss. Les outils rcents comme
SPSS ou SAS permettent de traiter de trs larges volumes de donnes, et un nombre trs
lev de variables. La plupart des mthodes explicatives ne peuvent traiter quune seule
variable dpendante (ou expliquer). Seules lanalyse canonique, lanalyse discriminante multiple et les analyses multivaries de la variance (MANOVA) et de la covariance (MANCOVA) permettent de traiter plusieurs variables dpendantes. Ces
dernires seront abordes dans le chapitre 5.
Nous pouvons complter notre tour dhorizon de la mise en uvre des principales
mthodes danalyse de donnes envisageables en marketing par quelques critres
complmentaires :
laccent sur les individus ou les variables (la typologie est plus frquemment utilise
pour classer des individus alors que lanalyse factorielle est associe aux variables) ;
la linarit (la rgression par exemple implique des hypothses de linarit des relations entre les variables tudies, alors que la segmentation ou la typologie peuvent
saffranchir de ces hypothses) ;
laspect paramtrique ou non paramtrique (on suppose dans de nombreux tests que
les variables suivent des lois de distribution thoriques dpendant dun nombre fini de
paramtres loi normale ou multinormale par exemple ; le charg dtude devra donc
sassurer que ces hypothses implicites ont t satisfaites avant de raliser les tests).
Rsum
Lanalyse de donnes en marketing doit tre au service de la prise de dcision. Ce qui
implique de respecter une dmarche rigoureuse faisant le lien entre le problme qui se
pose au dcideur et la mthode mettre en uvre. Cette dmarche de recherche, de collecte, danalyse et dinterprtation de linformation dfinit un marketing plus analytique,
orient vers une logique doptimisation (Lilien et al., 2007). Aujourdhui, le charg dtudes dispose dun vaste ventail de mthodes, Internet ayant fait voluer la place traditionnellement dvolue aux approches quantitative et qualitative approches qui semblent
dsormais converger grce, notamment, limportance nouvelle accorde aux donnes
secondaires. Une fois les donnes collectes, lanalyste doit prendre en compte les lments
lis la prcision de la mesure quil souhaite dvelopper, afin de construire un instrument
fiable et valide. Il mettra ensuite en place une stratgie danalyse reposant sur la mise en
lumire progressive des rsultats et la complmentarit des techniques utilises, dues la
nature des donnes et aux proprits des tests envisags.
22
Chapitre
Exercices
EXERCICE 1
QUAND PAMPERS
nonc
1. Quel est le principal intrt de la dmarche de Pampers ? Quelle est la mthode utilise, et quels en sont les principaux avantages ?
2. Comment, votre avis, les quipes de Pampers valorisent-elles les donnes collectes ?
Selon vous, quels outils danalyse ont-elles recours ?
3. Quel type de mthode, complmentaire, pourraient-elles mettre en place ? Argumentez.
* Solution
1. Le principal intrt de la dmarche de Pampers est de mettre le consommateur au centre du processus de collecte de donnes. La mthode utilise est lvidence qualitative.
Elle permet dtudier en profondeur les processus de consommation en interrogeant les
parents, plus particulirement les mres, et en observant les interactions mre-enfant. De
plus, en simulant les attitudes et les comportements des bbs, elle permet surtout
dimmerger les salaris du groupe dans la peau de jeunes enfants diffrents stades de leur
volution. Nous sommes ici dans une dmarche oriente march, o la dissmination de
linformation sur les consommateurs vers lensemble de lorganisation tient une place
importante. Deux mthodes sont donc principalement utilises : une exprimentation
Scwallbach, o les chercheurs peuvent observer et tester les comportements des bbs ;
lethnographie en France, o les marketeurs font des sjours dimmersion dans des
familles. Des outils quantitatifs denqute classiques prennent ensuite le relais partir des
donnes collectes dans les maternits.
2. Deux dimensions doivent tre prises en considration. Les donnes issues des approches qualitatives font lobjet danalyses de plusieurs ordres : des analyses de contenu par
exemple, afin de faire merger des thmes, des discours, mais galement un traitement des
EXERCICE 2
LAUDIENCE
nonc
DE LA SUPER STAR
1. Quel aurait t lintervalle de confiance si ltude daudience avait port sur 5 000
abonns de la chane ?
2. Un annonceur souhaite investir en devenant sponsor de lmission condition quelle
ralise 40 % daudience sur les moins de 35 ans. Lui recommanderiez-vous linvestissement publicitaire ?
* Solution
Soit : 35,4 %
38,1 %
Le sondage ralis permet donc destimer cette proportion avec une prcision absolue de
2,99 % (au degr de confiance 0,95). En augmentant la taille de lchantillon, on diminue
lamplitude de lintervalle de confiance.
24
Chapitre
39,3 %
EXERCICE 3
LENQUTE
nonc
Reprenons lexemple sur les points de vente que nous avons utilis dans la section 2.2
(pointdevente.sav). Si lon rsume lensemble des questions de lenqute dans le tableau
suivant, on obtient :
POINT DE VENTE
Exercices
Soit : 34,3 %
1.
2.
* Solution
Numrique
chelle mtrique
26
Nominale
Nominale (chelle)
Nominale
Nominale (chelle)
Nominale
Nominale (chelle)
Nominale
chelle mtrique
chelle mtrique
chelle mtrique
chelle mtrique
chelle mtrique
chelle mtrique
chelle mtrique
Chapitre
chelle mtrique
chelle mtrique
chelle mtrique
Numrique
Nominale (chelle)
Nominale (chelle)
Numrique
Nominale (chelle)
Nominale
Nominale
Exercices
a. un tri crois entre le montant moyen dpens dans le point de vente et le niveau
dtudes par exemple, afin de mettre en vidence un impact de la CSP sur les achats ;
b. une analyse typologique afin de classer les individus de lenqute en fonction de leur
profil de rponse ;
c. une analyse de variance multiple (MANOVA) dont lobjet serait dexpliquer le montant moyen dpens par une srie de variables explicatives comme, par exemple, le
niveau dtudes, le statut marital, etc.
Chapitre
Dcrire
les donnes
1. Description dune variable..........30
2. Analyses bivaries.....................36
3. Thorie des tests statistiques........39
Exercices
1. Les tests ....................................45
2. Applications SPSS :
lenqute point de vente .......46
29
(1)
1.1 DCRIRE
SPSS
Il existe plusieurs possibilits dans SPSS pour dcrire les donnes collectes. On peut par
exemple, dans un premier temps, gnrer un rapport sur les observations pour sassurer
quelles ne comportent pas derreurs de saisie, de valeurs aberrantes
(Analyse > Rapport > Rcapitulatif des observations) ou plus simplement pour prendre
connaissance des variables dans un tableau synthtique, ce qui savre souvent utile en
dbut danalyse (Outils > variables).
La procdure Frquence permet dobtenir les affichages statistiques et graphiques qui servent dcrire des variables quantitatives et qualitatives. Pour obtenir un tableau deffectifs
et de frquences pour une ou plusieurs variables dans SPSS, ouvrez le fichier de donnes
pointdevente.sav , slectionnez dans le menu Analyse > Statistiques descriptives > Effectifs, puis procdez la description de la variable de type nominal marital correspondant
la question : Quel est votre statut marital ? . La bote de dialogue de la figure 2.1
apparat.
Figure 2.1
Bote de dialogue
de la procdure
Frquence.
Figure 2.2
Description de la
variable marital.
30
Chapitre
La figure 2.2 correspond un tri plat de la variable qualitative marital ; en dautres termes, il reprend les effectifs et les frquences (prsents ici en pourcentage) pour une variable. Lintrt du tri plat est de fournir une description rapide de la variable tudie. Le
tableau montre immdiatement que 65,8 % des individus de lchantillon interrog sont en
couple et que 23,3 % sont clibataires.
Ces rsultats peuvent galement tre visualiss sous forme de graphiques (diagrammes en
btons, en secteurs), dans lesquels les surfaces associes aux diffrentes modalits sont proportionnelles leur frquence, exprime en valeur ou en pourcentage, comme le montre la
figure 2.3.
Figure 2.3
Diagramme en
secteurs des
effectifs de la
variable marital.
Mo = Me = X
1.2 DCRIRE
* Focus 2.1
Les fractiles
Les fractiles sont les valeurs dune variable quantitative qui divisent les donnes tries en classes
par centime. Les quartiles (25e, 50e et 75e centiles) divisent les observations en quatre classes
de taille gale. On les dfinit dans SPSS partir de la bote de dialogue Effectifs > Statistiques
(voir figure 1.1), en slectionnant Partition en n classes gales (n dfinissant le niveau de partition souhait). Vous pouvez galement spcifier des centiles particuliers (par exemple le
95e centile), autrement dit les valeurs au-dessus de 95 % des observations.
Mesures de la dispersion
Les mesures de la dispersion reposent sur les indicateurs suivants : ltendue, la variance,
lcart type et le coefficient de variation. Ltendue (ou intervalle) est la diffrence entre la
plus grande et la plus petite des valeurs observes. La variance est la mesure de la dispersion autour de la moyenne, gale la somme des carrs des carts par rapport la
moyenne, divise par le nombre dobservations moins un. Lorsque les donnes se concentrent autour de la moyenne, la variance est faible. Si les donnes sont disperses autour de
la moyenne, la variance est leve. Il sagit dune mesure plus fine de la dispersion, au sens
o toutes les donnes sont prises en compte. En revanche, elle est sensible aux valeurs
extrmes. Lcart type est la mesure de la dispersion autour de la moyenne, exprime dans
la mme unit que la variable. Lcart type est la racine carre de la variance. On lcrit de
la manire suivante :
n
s=
(Xi X )
i =1
n 1
), exprim
en pourcentage. Son objet est de mesurer le degr de variation de la moyenne dun chantillon lautre, lorsque ceux-ci sont issus de la mme distribution.
Mesures de la distribution
On mesure la symtrie et la forme de la distribution par lasymtrie et laplatissement.
Ces statistiques sont prsentes avec leur erreur standard.
Le coefficient de symtrie (skewness) mesure lasymtrie dune distribution. Une distribution normale est symtrique (voir figure 2.4), cest--dire que les valeurs sont les
mmes de part et dautre du centre de la distribution, et possde une valeur de skewness
de 0. Une distribution avec un skewness positif significatif est une distribution asymtrique droite (la distribution prend la forme dune longue queue droite) et une distribution avec un skewness ngatif significatif est une distribution asymtrique gauche (la
distribution prend la forme dune longue queue gauche). Cette asymtrie sexplique par
le fait que les carts sont plus importants dans une direction que dans lautre.
Le coefficient daplatissement (kurtosis) permet de mesurer le relief ou la platitude dune
courbe issue dune distribution de frquences. En dautres termes, le coefficient daplatissement permet de mesurer le degr de concentration des observations dans les queues de
la courbe. Le coefficient de kurtosis est de 0 pour une distribution normale (gaussienne).
32
Chapitre
Un kurtosis ngatif indique donc que les queues comptent un plus grand nombre dobservations que dans une distribution gaussienne. Les coefficients de kurtosis et de skewness
peuvent tre utiliss pour sassurer que les variables suivent une distribution normale,
condition ncessaire pour de nombreux tests statistiques. On estime que le coefficient de
symtrie ou skewness doit tre infrieur 1 et le coefficient daplatissement ou kurtosis
doit tre infrieur 1,5 pour considrer que la variable suit bien une loi normale.
Figure 2.4
Reprsentation
dune distribution
normale.
Mo = Me = X
SPSS
Figure 2.5
Description de la
variable montant.
Figure 2.6
Reprsentation dun
graphique de la
variable montant.
Figure 2.7
Cration dune
bote moustaches.
Le montant moyen dpens dans le point de vente est de 153,51 , avec un cart type de
91,15 . Pour 59 rpondants, le montant est nul, cest--dire quil sagit de non-clients du
magasin. En termes de dispersion, la variance est leve (8 307,9) en raison de valeurs
extrmes importantes, ce qui est confirm par lcart type. On constate que lasymtrie pour
la variable montant est lgrement ngative (0,67).
Reprsentations graphiques
En ce qui concerne les reprsentations graphiques, les frquences peuvent tre reprsentes
par des histogrammes et des graphiques en secteurs, comme nous lavons vu prcdemment. Pour visualiser la rpartition des frquences, les diagrammes en btons sont souvent
pertinents.
La ralisation des graphiques dans SPSS seffectue soit partir des botes de dialogue des
diffrents tests (dans notre cas, le menu Effectifs), soit directement dans le menu Graphes.
Parmi les options qui vous sont proposes, slectionnez Botes de dialogues hrites dans le
menu Graphes, puis de nouveau la variables montant. Slectionnez le graphique Bote
moustaches, puis, dans Donnes du diagramme, loption Analyse par variable (voir
figure 2.7).
34
Chapitre
La bote moustaches est une reprsentation graphique intressante car elle permet de
rcapituler une variable numrique en reprsentant la mdiane, les quartiles et les valeurs
extrmes. Cliquez sur Dfinir : on vous propose dtiqueter les observations en utilisant une
variable de type numrique ou une variable textuelle afin didentifier les valeurs extrmes.
Si vous ne choisissez rien, les numros dobservation serviront tiqueter ces valeurs. Nous
obtenons le graphique reprsent la figure 2.8.
Figure 2.8
Reprsentation de
la variable montant
sous forme de bote
moustaches.
Lintrt de cette reprsentation est quelle permet de visualiser de manire compacte la dispersion des donnes. La figure 2.8 montre des valeurs extrmes qui apparaissent isoles du
graphique. On peut donc observer que le montant dpens varie entre 444 (observation
n 43) et 0 (moustache infrieure), avec une mdiane qui partage la bote centrale et qui
est de 172 .
Il est possible daller plus loin dans la description des variables en slectionnant les observations sur lesquelles on souhaite faire porter lanalyse. On peut notamment chercher
savoir si les hommes dpensent en moyenne plus ou moins que lensemble de la population.
Pour ce faire, il faudra filtrer les observations en fonction du sexe des rpondants. Dans le
menu Donnes, appelez la bote de dialogue Slectionner les observations puis, dans la
partie Slectionner, cliquez sur Selon une condition logique. Pour ne slectionner que les
hommes, vous devez faire glisser la variable sexe en prcisant la condition : sexe = 1
(1 tant ltiquette retenue pour les hommes). Vous obtenez la bote de dialogue de la
figure 2.9.
Figure 2.9
Bote de dialogue
Slectionner des
observations.
Dans la fentre de rsultats, on obtient un montant moyen dpens par les hommes de
155,89 , avec un cart type de 95,31 , montants lgrement suprieurs la dpense
moyenne de lchantillon. On remarque galement que les hommes reprsentent un peu
plus de la moiti des rpondants (204 observations).
(2)
Analyses bivaries
Lexamen de variables uniques permet une premire lecture intressante des rsultats mais
elle ne prsente pas de vritable intrt en termes danalyse. Les descriptions faites sur les
variables soulvent toute une srie de questions sur leurs relations, qui devront tre mises en
lumire en les rapprochant deux deux dans des analyses bivaries. Les tris croiss, par
exemple, permettent dexaminer les relations entre deux ou plusieurs variables. Ces relations
peuvent tre symtriques lanalyse cherche mesurer la liaison entre les deux variables et
en tester la signification , ou dissymtriques lanalyse cherche expliquer les variations
dune variable dpendante par les variations dune variable indpendante (Evrard et al.,
2003). Ce dernier cas constituant le plus souvent une occurrence particulire des mthodes
multivaries explicatives (corrlations, ANOVA, etc.), il sera trait dans les chapitres suivants.
2.1 TRIS
CROISS
Les tableaux croiss deux ou plusieurs modalits sont en gnral complts par des
mesures dassociation qui permettent de dmontrer la signification statistique dune association observe entre les variables. Ces tests seront dvelopps dans la section suivante.
Les tris croiss ont pour objet de rassembler dans un tableau unique les distributions de frquences de deux ou plusieurs variables. Ce premier outil danalyse des relations entre deux
variables, ou relations bivaries, permet de rpondre des questions qui se posent ds lorigine de ltude (par exemple : Les hommes dpensent-ils plus que les femmes sur le point
de vente ? ; Le sexe et les revenus ont-ils une influence sur le montant moyen dpens ? )
ou de mettre en lumire des relations dont on souponne lexistence lissue des traitements
raliss variable par variable. Le principe du tableau crois est de proposer une ventilation
des frquences de rponse par variable et par modalit (voir figure 2.10).
SPSS
Il existe deux approches pour gnrer un tableau crois dans SPSS. Vous pouvez crer un
tableau crois depuis le menu Analyse > Statistiques descriptives > Tableaux croiss ou
bien depuis le menu Analyse > Tableaux > Tableaux personnaliss Nous utiliserons ici la
seconde possibilit. Pour ventiler les montants moyens dpenss en fonction du sexe nous
avons dj obtenu les donnes variable par variable , faites glisser la variable montant de
la liste des variables vers la zone Lignes du tableau. Lunit danalyse propose par dfaut
est la moyenne, la variable tant mtrique. Puis faites glisser la variable sexe de la liste vers
la zone Colonnes du tableau.
Figure 2.10
Tri crois du
montant moyen
dpens en fonction
du sexe.
36
Chapitre
Poursuivons lexploration en introduisant une troisime variable : les revenus. Lintroduction
dune troisime variable est pertinente si elle permet daffiner lassociation entre les deux
variables. Rappelez la bote de dialogue Tableaux personnaliss et faites glisser la variable
revenus de la liste vers la zone Colonnes du tableau. Le tableau obtenu est relativement difficile lire, car trop large. Double-cliquez sur le tableau obtenu dans votre feuille de rsultats SPSS pour ouvrir un tableau pivotant. Le tableau pivotant vous permet dinverser lignes
et colonnes. On obtient la figure 2.11 ci-aprs.
Figure 2.11
Tri crois du
montant moyen
dpens en fonction
du sexe et des
revenus.
On constate que les montants moyens dpenss augmentent a priori en fonction des revenus, relation qui apparat relativement moins vidente en fonction du sexe. Les tris croiss
ne nous permettent pas de dduire quoi que ce soit quant au type de relation existant
entre les variables. Avant de conclure une ventuelle relation entre le montant moyen
dpens et les revenus ou le sexe, le charg dtude doit donc mesurer la force dassociation entre ces variables. Sil souhaite tudier linfluence dune variable sur une autre, il
devra mettre en uvre le test appropri (voir la section 3 du chapitre).
DE DEUX VARIABLES
Les tris croiss prsentent la distribution des frquences de rponse pour deux ou plusieurs variables mises en relation mais ils ne permettent pas de dmontrer lexistence de
cette association du point de vue statistique. Pour mesurer vritablement la relation entre
les variables, il est ncessaire de mettre en place des tests de signification statistique de
lassociation. Nous aborderons de manire plus prcise la thorie des tests statistiques
dans la section 3 de ce chapitre.
Test du khi-deux
2), car il consiste tester la
Le test le plus couramment utilis est celui du khi-deux (
signification statistique dune association de deux variables qualitatives (nominales ou
ordinales). Plus prcisment, il a pour objet de tester lindpendance des variables dans un
tableau crois en comparant la distribution observe (Oij) sur lchantillon une distribution thorique (Tij) qui correspond lhypothse que lon veut tester. Le 2 observ sur
lchantillon se calcule de la manire suivante :
2 =
La loi du khi-deux suit une distribution asymtrique dont la forme dpend du nombre de
degrs de libert (DDL). Le nombre de degrs de libert varie en fonction du nombre de
modalits des variables compares et se calcule de la manire suivante : n 1 p 1 (avec
n : modalits de la 1re variable et p : modalits de la 2e variable). On rejettera lhypothse
nulle (pas dassociation entre les variables) si le 2 calcul est suprieur la valeur de rfrence du 2 se trouvant dans la table de khi-deux pour n degrs de libert (lignes) et pour
un (niveau de prcision donn en colonnes). Pour interprter la valeur du 2, il est prfrable de se rfrer au seuil de signification statistique (> 0,05 par exemple) plutt qu la
valeur du 2 qui varie selon le nombre de degrs de libert.
Le test du khi-deux sobtient par la procdure des tableaux croiss vue plus haut
(Analyse > Statistiques descriptives > Tableaux croiss) et peut tre slectionn dans
le menu Statistiques, comme lindique la figure 2.12.
Figure 2.12
Bote de dialogue
du tableau crois et
test du khi-deux.
Si lon cherche tablir le profil des clients les plus fidles en croisant le statut marital et la
possession dune carte de fidlit, par exemple, le test du khi-deux permettra de dfinir si
ces deux variables sont indpendantes. Il est important de noter que ce test est assez sensible la taille de lchantillon et que chaque case du tableau doit comporter au moins cinq
observations (voir figures 2.12 et 2.13).
Figure 2.13
Tableau crois des
variables marital/
carte.
Nous avons cr un tableau crois dans SPSS selon la procdure prsente plus haut et
slectionn le test du khi-deux dans le menu Statistiques de la bote de dialogue Tableaux
croiss. Conformment ce que nous pouvions penser a priori, la valeur du 2 est la fois
leve et suprieure la valeur critique correspondant au seuil de signification statistique
de 0,05 (nous obtenons 0,035). Ce rsultat nous permet de rejeter Ho ( il nexiste pas de
lien entre les variables ) et de conclure quil existe bien une relation entre le statut marital
et la possession dune carte de fidlit dans la population observe.
38
Chapitre
Figure 2.14
Test du khi-deux
des variables
marital/carte.
Autres tests
Dans le cas particulier des tableaux carrs ou 2 2 (2 lignes et 2 colonnes), qui comparent
deux variables deux modalits, il est recommand dappliquer une correction au 2, ou
dutiliser le coefficient phi (). Celui-ci correspond la racine carre du 2 divis par la
taille de lchantillon, soit :
= (2/n)
Le coefficient de contingence (C) peut tre appliqu pour des mesures dassociation sans
contrainte de taille de tableau. Lindicateur oscille entre une borne infrieure de 0 lorsquil
ny a aucune association (lorsque 2 = 0) et une borne suprieure infrieure 1. Cette
valeur maximale du coefficient dpend de la taille du tableau (nombre de lignes nombre
de colonnes), raison pour laquelle il ne doit tre employ que pour comparer des tableaux
de mme taille. On le calcule de la manire suivante :
C = (2/2+n)
Le V de Cramer est un coefficient norm, cest--dire quil peut atteindre 1, quelle que soit
la taille du tableau. Il sagit dune version modifie du coefficient phi (). Il est not :
V=
Le coefficient dassociation prdictive (lambda) permet de mesurer le pourcentage
damlioration de la valeur dune variable nominale dpendante en fonction de la valeur
de la variable nominale indpendante, celle-ci tant utilise comme pivot. Le lambda est
un coefficient dissymtrique, cest--dire que le rsultat varie selon la variable qui sert de
pivot (ainsi dans la rgression, par exemple).
(3)
3.1 LHYPOTHSE
STATISTIQUE
Une hypothse statistique est un nonc quantitatif concernant les caractristiques dune
population ou, plus prcisment, une affirmation portant sur une ou plusieurs variables.
Elle se prsente traditionnellement sous la double forme dune premire hypothse, appele hypothse nulle, et dune seconde hypothse, appele hypothse alternative. Son
objectif est de rfuter lhypothse nulle, laquelle concerne le plus souvent un statu quo ou
une absence de diffrence, au profit de lhypothse alternative.
Exemple : on peut poser lhypothse nulle Ho quil nexiste pas de diffrence de ventes entre les
points de vente situs en centre-ville et ceux de la priphrie urbaine, et lhypothse
alternative H1 quelles sont diffrentes en centre-ville et en priphrie urbaine.
Les tests statistiques tant conus pour la rfutation dhypothses et non pour leur confirmation, lhypothse alternative est celle qui sera accepte si lhypothse nulle est rejete.
Accepter une hypothse revient donc dire que lhypothse est non rejete plutt
quaccepte, cest--dire que les donnes recueillies au cours dune exprience particulire
sont compatibles avec lhypothse alternative propose.
Lobjectif de lanalyse de donnes est donc de prendre une dcision : en loccurrence, rejeter ou non lhypothse nulle Ho. Les tests tant fonds sur des informations incompltes
issues dobservations portant sur un chantillon de la population, il est ncessaire de dfinir le seuil de signification du test, seuil formul en pourcentage de chances de rejeter
lhypothse nulle alors quen ralit celle-ci tait vraie. Le seuil de signification est habituellement not et exprim en pourcentage. Le choix du seuil est li au niveau de risque
accept (1 % ou 5 % tant les valeurs usuelles). Son complment (1 ), appel seuil de
confiance, correspond au pourcentage de cas o on acceptera lhypothse nulle juste
titre. On appelle erreur de type I le fait de rejeter, la suite des rsultats dun test statistique, une hypothse qui serait en ralit vraie (condamner un innocent) et erreur de
type II lerreur lie au fait daccepter une hypothse qui serait en ralit fausse (innocenter
un coupable). La probabilit de commettre ce type derreur est note ; on appelle puissance du test son complment (1 ), lequel correspond la probabilit de rejeter une
hypothse qui serait rellement fausse (voir tableau 2.1).
Tableau 2.1 : Types derreurs dans un test statistique
Situation dans la population
Ho vraie
Ho fausse
Ho accepte
Dcision correcte
(seuil de confiance = 1 )
Erreur de type II
)
(
Ho rejete
Erreur de type I
(seuil de signification = )
Dcision correcte
(puissance du test = 1 )
Dcision
Bien que l tablisse le niveau de signification du test, cest la puissance du test (1 ) qui
donne une estimation de la probabilit de trouver des diffrences significatives si elles
existent dans les donnes. Pourquoi, ds lors, ne pas prendre en compte l et le en
tant que niveaux de confiance ? La raison voque est que lerreur de type I et lerreur de
40
Chapitre
type II sont inverses : plus lerreur de type I devient restrictive (proche de 0) et plus la probabilit dune erreur de type II augmente ; de mme, rduire lerreur de type I rduit la
puissance du test. Lanalyste doit donc trouver le juste quilibre entre le degr de
confiance () et la puissance du test qui en rsulte. La seule manire de faire baisser
simultanment et est daugmenter la taille de lchantillon tudi.
3.2 LES
TESTS DHYPOTHSES
Les tests dhypothses, ou tests dinfrence, ont pour objectif de mesurer leffet dune
variable indpendante sur une variable dpendante, en fonction du nombre dchantillons et en fonction de la nature des variables tudies. On nomme tests paramtriques
les approches reposant sur des donnes mtriques (et par suite sur des paramtres connus
tels que la moyenne ou lcart type, par exemple), et tests non paramtriques les approches reposant sur des donnes non mtriques (et qui, par suite, peuvent saffranchir de
conditions de distribution particulires). Les tests non paramtriques tant peu sensibles
la taille de lchantillon et aux donnes aberrantes, ils sont utiliss en marketing o les
chantillons peuvent parfois tre de petite taille (moins de 30 individus). Le nombre
dchantillons joue galement un rle important dans le choix du test appropri. En effet,
deux situations doivent tre distingues : lorsque lon tudie deux populations distinctes
sur une mme variable, on parle de mesures indpendantes (comparer les clients et les
non-clients) ; et lorsque les mmes individus sont mesurs sur une mme variable dans
deux situations distinctes, on parle de mesures apparies (comparer les niveaux de prix
deux priodes distinctes). Ces lments affectent de manire importante les statistiques de
tests (voir figure 2.15).
Figure 2.15
Tests dhypothses
Tests paramtriques
et tests non
paramtriques
(Malhotra et al.,
2007).
Tests
non paramtriques
Tests paramtriques
chantillon
unique
Deux
chantillons
ou plus
- Test t
- Test z
chantillons
indpendants
- Test t deux
classes
- Test z
chantillons
apparis
- Extension
du test t
chantillon
unique
Deux
chantillons
ou plus
- Khi-deux
- Kolmogorov
- Smirnov
- Squenes
- Binomial
chantillons
indpendants
- Khi-deux
- Mann
- Whitney
- Mdiane
- Kolmogorov
- Smirnov
chantillons
apparis
- Signe
- Wilcoxon
- McNemar
- Khi-deux
3.3 TESTS
PARAMTRIQUES
Les deux principaux tests paramtriques sont le test t et le test Z, qui ont pour objet de tester des diffrences de moyenne. Ces tests sont souvent mis en uvre en marketing, car ils
permettent, par exemple, de comparer la moyenne dune variable dpendante mtrique
en fonction des modalits dune variable nominale. On formule alors une hypothse nulle
qui sera vrifie par le test t ou le test Z. Pour plus de simplicit, ces deux tests sont prsents ici pour des chantillons uniques.
Test t
Le test t est directement li la statistique t de Student, qui suppose que la variable adopte
une distribution normale, que la moyenne soit connue et que la variance, lorsquelle est
inconnue, soit estime sur lchantillon. On le calcule de la manire suivante :
t = ( X ) /s
X
O :
: moyenne de lchantillon
: moyenne de la variable
: variance de lchantillon
Dans SPSS, ce test paramtrique peut tre estim avec la procdure suivante : menu
Analyse > Comparer les moyennes > Test T pour chantillon unique, procdure que
nous avons utilise au chapitre 1 pour estimer lintervalle de confiance. Pour comparer les
moyennes de deux chantillons indpendants (comparaison des clients et des non-clients
par exemple), on utilisera une analyse de variance (ANOVA) 1 facteur (voir chapitre 4).
Pour comparer les moyennes de deux chantillons apparis (comparaison de relevs de
prix deux priodes distinctes par exemple), on suivra une extension du test t pour
chantillons apparis qui est disponible dans la mme bote de dialogue.
Test Z
Le test Z peut tre mis en place lorsque la variance de lchantillon est connue. La valeur
de Z sobtient par la formule suivante :
Z=
o :
3.4 TESTS
NON PARAMTRIQUES
Les tests non paramtriques sont souvent mis en uvre dans la pratique en marketing : ils
sappliquent aux variables qualitatives et savrent relativement performants sur de petits
chantillons, mme sils sont moins puissants que les tests paramtriques. Voici les principaux tests paramtriques prsents ici : un test dajustement (le test de KolmogorovSmirov), des tests de comparaison dchantillons indpendants (le test U de MannWhitney et le test de la mdiane), ainsi que des tests de comparaison dchantillons
apparis (le test de Wilcoxon, le test du signe et le test de McNemar).
Test de Kolmogorov-Smirov (K-S)
42
Chapitre
Le test de Kolmogorov-Smirov est un test dit dajustement, car il permet dtablir si une
population donne suit une distribution particulire (normale, uniforme ou poisson
par exemple), condition exige par de nombreux tests. Le K-S est calcul partir de la
plus grande diffrence (en valeur absolue) entre les fonctions de distribution thorique
et observe cumules :
K = Max |Ai-Oi|
Le K-S pour un chantillon sobtient dans SPSS partir du menu Analyse > Tests non
paramtriques > K-S 1 chantillon
Test U de Mann-Whitney
Le test de Mann-Whitney permet de vrifier que deux chantillons (ou groupes) proviennent bien de la mme population. On peut lutiliser, par exemple, pour comparer
les rponses dans un dpartement par rapport aux rponses nationales. La statistique
du test U runit les deux chantillons et ordonne les observations par ordre croissant
de taille. Le test calcule le nombre de fois o un rsultat du groupe 1 prcde un rsultat du groupe 2, ainsi que le nombre de fois o un rsultat du groupe 2 prcde un
rsultat du groupe 1. U est dautant plus petit que les groupes sont diffrents.
Pour calculer le U de Mann-Whitney dans SPSS, il faut dabord dfinir la variable qui
servira scinder les donnes en deux chantillons : Analyse > Test non
paramtrique > 2 chantillons indpendants, puis slectionner une variable de
regroupement (Facteur) et cliquer sur Dfinir les niveaux. Pour dfinir les groupes,
vous devez indiquer les valeurs pour le groupe 1 et celles pour le groupe 2. Slectionnez
ensuite le test U de Mann-Whitney dans la bote de dialogue.
Test de la mdiane
Ce test, moins puissant que le U de Mann-Whitney, permet de dterminer si deux
groupes sont issus de populations ayant la mme mdiane, en estimant la position de
chaque observation par rapport la mdiane globale des deux chantillons.
Pour calculer le test de la mdiane dans SPSS, vous devez suivre la procdure suivante :
Analyse > Test non paramtrique > K chantillons indpendants, puis slectionner le test de la mdiane dans le menu du type de test envisag.
Test de Wilcoxon
Le test de Wilcoxon est utilis dans le cas de la comparaison de deux chantillons apparis, cest--dire lorsque lon souhaite, par exemple, comparer deux types de rponses :
avant/aprs lexposition un message publicitaire, attitude par rapport une marque A
et une marque B, etc. La statistique z du test de Wilcoxon sobtient en calculant la diffrence entre les scores des deux observations par paires dobservations, puis en calculant
le rang de toutes les diffrences, et enfin la somme des rangs positifs et des rangs ngatifs. On rejette lhypothse nulle (absence de diffrence entre les deux groupes) sil y a
une diffrence entre la somme des rangs positifs et la somme des rangs ngatifs. Le sens
de la statistique indique le sens de la diffrence de la paire examine.
Dans SPSS, ouvrez le menu Analyse > Test non paramtrique > 2 chantillons lis,
puis slectionnez le test que vous souhaitez mettre en uvre (Wilcoxon, Signe, McNemar), comme le montre la figure 2.16.
Test du signe
Le test du signe est relativement proche du test de Wicoxon, mais il est plus limit et par
suite moins puissant. Il ne sattache en effet qu une comparaison des signes des diffrences, sans procder un classement comme le fait le test de Wilcoxon.
Figure 2.16
Bote de dialogue
des tests de
comparaison de
deux chantillons
apparis.
Test de McNemar
Le test de McNemar peut galement tre mis en uvre dans le cas dchantillons apparis, pour comparer les valeurs de deux variables dichotomiques ( deux dimensions).
Rsum
Premire tape de lanalyse proprement parler, la description des donnes permet de
reprsenter les valeurs observes sur les diffrents individus de lchantillon. Lanalyse
univarie, qui examine une seule variable la fois, repose sur la description (frquences,
tendance centrale, dispersion, distribution) et la visualisation graphique des variables,
ainsi que sur linfrence, cest--dire la comparaison des valeurs dtermines. Lanalyse
bivarie permet daller plus loin par ltude des relations entre deux variables, grce aux
tris croiss et aux principaux tests danalyse bivarie : tests dassociation (khi-deux) et
tests de comparaison (test t, test K-S, test U de Mann-Whitney, etc.). Pour aller encore
plus loin dans lanalyse, le charg dtude devra mettre en place des analyses multivaries,
lesquelles seront abordes dans les chapitres suivants.
44
Chapitre
Exercices
EXERCICE 1
LES
nonc
TESTS
Anciens clients
Signification
ge moyen
47,6 ans
22,1 ans
,000
Dure de labonnement
7,1 ans
1,3 ans
,000
87 %
85 %
,372
72 %
79 %
,540
13 %
23 %
,025
5,5
4,9
,459
couverture du rseau
6,1
5,8
,248
5,5
2,3
,031
6,3
5,9
,462
options de labonnement
5,7
3,2
,001
5,8
5,2
,659
prix de labonnement
6,1
4,0
,001
5,2
4,8
,001
Exercices
Item
* Solution
1. Dans ce cas de figure, le charg dtude doit comparer la moyenne des rponses de deux
chantillons deux priodes distinctes, en dautres termes avant et aprs lexposition du
produit dans un message publicitaire. Il sagit donc dune mesure sur chantillons apparis. Il pourra, par exemple, mettre en uvre une extension du test t.
2. Les rsultats de lenqute comportent 7 rsultats significatifs un degr de confiance de
95 %. On peut donc conclure que les abonns ayant prfr la concurrence sont en gnral
plus jeunes et que leur abonnement tait plus rcent que celui des abonns interrogs. En
outre, ils sont plus nombreux possder un second tlphone portable et sont relativement moins satisfaits de la qualit des communications, des options de leur abonnement
ainsi que du prix et du cot global mensuel de labonnement que les abonns interrogs.
3. On peut raliser un tri crois des deux variables qualitatives et procder un test de khideux pour savoir si les deux variables sont lies. Comme nous navons aucune information
sur le nombre dobservations, nous ne sommes pas certains de pouvoir respecter la condition de 5 observations par case du tableau. En outre, il est possible de procder un test
sur chantillons apparis pour comparer les rponses aux deux questions : un test de
Wicoxon serait alors appropri.
EXERCICE 2
nonc
Reprenons lenqute sur le point de vente aborde dans la partie thorique de ce chapitre. Notre charg dtude cherche en savoir davantage sur les donnes dont il dispose.
Afin de progresser dans la matrise de loutil SPSS, ouvrez le fichier pointdevente.sav
disponible sur le site de louvrage, et accompagnez le charg dtude dans sa rflexion en
rpondant aux questions suivantes.
POINT DE VENTE
1. Nous souhaitons en savoir un peu plus sur les rpondants lenqute. Vous devez par
consquent poursuivre la description des variables de lenqute que nous avons amorce. Que pouvez-vous dire propos des variables suivantes :
a. progradio ?
b. dition TV ?
c. rubrikpress ?
2. Quel est le profil type du client de ce point de vente ? Que pouvez-vous en conclure sur
le type de magasin dont il sagit ?
3. Lenseigne mise sur ses clients les plus fidles. Lquipe du magasin considre en effet
que les clients ayant la plus forte intention deffectuer leurs achats dans le magasin
sont galement ceux qui sont susceptibles de dpenser le plus. Lquipe a-t-elle raison
de penser de la sorte ? Combien ces clients sont-ils susceptibles de dpenser pour un
tee-shirt ? Les prix moyens affichs dans le magasin tant de 9 , quen concluez-vous ?
4. Lenqute sintresse galement aux gots des clients potentiels. Nous avons lanc des
pistes en ce qui concerne les prix, mais pouvez-vous aider lquipe marketing du
magasin choisir la bonne musique dambiance : plutt rock ou plutt classique ?
46
Chapitre
* Solution
1. Ces trois variables sont des variables qualitatives (nominales) et nous souhaitons les
dcrire. Il faut donc appeler la bote de dialogue Effectifs dans le menu Analyse, puis le
sous-menu Statistiques descriptives Nous ne reprsenterons ici que la variable progradio, qui correspond la question : Quel type de programme radio coutez-vous le plus
souvent ? et qui peut tre dcrite de la manire suivante (voir figure 2.17).
Figure 2.17
Effectifs de la
variable progradio.
Nous avons choisi de reprsenter la variable progradio dune faon relativement simple, en
ne demandant que les effectifs, les pourcentages ainsi que le mode. Le mode reprsentant la
valeur la plus frquemment obtenue pour chaque modalit, le rsultat est confirm dans le
tableau ci-dessus o la radio rock est la plus frquemment coute (39,8 % des rponses).
On peut galement reprsenter la variable par un diagramme btons (voir figure 2.18).
Figure 2.18
2. Pour tablir le profil type du client de ce point de vente, il est ncessaire de dcrire un
certain nombre de variables de catgorisation, tels lge, le sexe (nous avons dj dcrit
cette variable dans la partie thorique du chapitre), les revenus, le niveau dtudes, etc.
Dans le jeu de donnes, seule lanne de naissance est disponible. Il faut donc transformer
cette variable afin de dfinir lge des rpondants. Dans le menu Transformer, ouvrez la
bote de dialogue Calculer la variable. Pour calculer lge des rpondants, il suffit de retirer lge de chaque rpondant lanne actuelle (2008) comme le montre la figure 2.19.
Exercices
Diagramme btons
de la variable
progradio.
Figure 2.19
Bote de dialogue
Calculer une
variable.
Nous appelons AGE la nouvelle variable cre. On peut maintenant calculer lge moyen
des rpondants (voir figure 2.20).
Figure 2.20
ge des
rpondants.
Dcrivons maintenant les revenus ainsi que le niveau dtudes des rpondants (voir
figures 2.21 et 2.22).
Figure 2.21
Revenus des
rpondants.
Pour conclure rapidement, on peut dire que lge moyen du rpondant est de 39,33 ans, quil
sagit de mnages aiss (seuls 29 % des foyers gagnent moins de 50 000 annuels), ayant fait
des tudes suprieures (plus de 80 % ont au moins une licence). Si lon complte en incorporant les lments vus dans la partie cours, on peut galement dire quil sagit aussi bien
dhommes que de femmes, et que le montant moyen mensuel dpens dans le magasin est
relativement lev (pour en savoir plus, il faudrait mettre en place une analyse typologique).
Il pourrait sagir dune enseigne de prt--porter moyen de gamme, mme si les donnes
dont nous disposons sont relativement limites pour ce genre de conclusion.
3. Pour apporter une rponse lquipe marketing du magasin, il faut dabord slectionner les rpondants qui nous intressent. Allez dans le menu Donnes > Slectionner des
observations Slectionnez les observations de la variable intention ( Seriez-vous prt
faire vos achats dans ce point de vente ? ) selon la condition logique : intention = 5
48
Chapitre
Figure 2.22
Desription du
niveau dtudes des
rpondants.
(5 tant le score de la plus haute intention dachat). Une fois que vous avez cliqu sur OK,
les autres observations sont barres dans lditeur de donnes. Nous cherchons donc calculer la moyenne des dpenses du groupe des rpondants ayant la plus forte intention
dachat, en essayant dtablir sils sont prts payer plus que la moyenne des clients du
magasin (on suppose ici que le prix moyen est le prix affich). Il sagit dun test t sur
chantillon unique o la valeur compare sera le prix affich (p = 9). Les rsultats apparaissent dans les tableaux de la figure 2.23.
Figure 2.23
Comparaison de
moyenne de la
variable prix.
4. On peut comparer les rponses deux questions mesures de la mme manire par le
biais dun test t pour chantillons apparis, ou bien en mettant en place un test de Wilcoxon si lon prfre un test non paramtrique. Attention ! Vous devez slectionner de
nouveau lensemble des rpondants. Les tableaux de la figure 2.24 prsentent les statistiques et les rsultats du test t.
Exercices
Les clients ayant la plus forte intention dachat dpensent en moyenne plus de 18 pour
un tee-shirt, soit plus du double du prix affich. Ces rsultats sont significatifs (p < 0.05),
ce qui signifie que la diffrence moyenne constate (+9,13 ) est statistiquement diffrente du prix moyen affich. Une piste pour largir la fourchette des prix pratiqus ?
Chapitre
Figure 2.24
Statistiques et test t
sur chantillons
apparis.
Le premier tableau reprend les moyennes de rponses ainsi que les statistiques associes.
On constate que la prfrence va la musique rock. Le second tableau permet de rejeter
lhypothse nulle relative lgalit des deux mesures. Il existe donc une prfrence significative pour une musique dambiance de type rock.
On peut galement obtenir ces rsultats en utilisant le test de Wilcoxon comme lindiquent
les rsultats reports sur la figure 2.25.
Figure 2.25
Le test de Wilcoxon confirme le rsultat prcdent. Le sens de la statistique confirme galement le sens de la diffrence examine, en faveur du second lment de la paire : la musique rock.
Exercices
Rangs et test de
Wilcoxon sur
chantillons
apparis.
Chapitre
Simplifier
les donnes
1. Principes de validation
dune chelle de mesure.............52
2. Lanalyse factorielle ...................54
Exercices
1. Analyse dune AFC....................68
2. Analyse de la validit
et de la fiabilit .........................70
3. Gnrer une carte perceptuelle
par lAFC..................................72
La simplification ou lagrgation des donnes est fondamentale, elle sert identifier les diffrentes dimensions dun concept. Lanalyse factorielle est utilise pour dcrire les donnes
en un nombre agrg de facteurs. Elle traduit une matrice de
nombres difficile lire par une srie de tableaux plus simples,
reprsents sous forme de graphiques.
Les principes de validation dune chelle de mesure : les notions
de validit et de fiabilit sont tout dabord exposs. Ensuite,
nous prsentons lanalyse factorielle et ses applications.
51
(1)
Principes de validation
dune chelle de mesure
Nous avons vu dans le chapitre 1 que les concepts taient mesurs avec plusieurs questions
ou items. Par exemple, pour estimer lattitude du client lgard dun produit, le charg
dtude pose des questions qui permettent de bien saisir les diffrentes facettes de ce
concept (part affective, cognitive, etc..). Ensuite, il faut vrifier que ces diffrentes questions ou items mesurent bien ce que lon cherche mesurer, afin dobtenir au final des
rsultats plus proches de la ralit.
Dans larticle intitul Un paradigme pour dvelopper de meilleures mesures des construits marketing , Churchill (1979) propose une procdure pour renforcer la validit et la
fiabilit des mesures. Aprs avoir slectionn des chelles (jeu ditems pour mesurer un
concept), il sagit, dans un premier temps, de les soumettre lanalyse factorielle exploratoire puis au test de la fiabilit 1.
1.1 LA
1. Puis, dans une phase de validation, les chelles modifies aprs suppressions dnoncs subissent une deuxime fois ces procdures, on parle
danalyse confirmatoire. Cette seconde tape vise connatre les qualits psychomtriques des instruments de mesure.
52
Chapitre
1.2 LA
* Focus 3.1
Le seuil dacceptabilit de lalpha varie selon lobjectif de la recherche. Pour une tude
exploratoire, un coefficient plus faible est acceptable (0,7) alors que dans le cadre dune
recherche fondamentale, il doit tre plus lev (> 0,8) (Nunnally et Bernstein, 1994).
Lorsquune chelle est utilise pour comparer des groupes, un alpha de 0,8 est satisfaisant,
et il est inutile dessayer dobtenir un niveau suprieur. De Vellis (2003) propose une typologie (voir tableau 3.1).
Tableau 3.1 : Les valeurs de lalpha de Cronbach
< 0,6
Insuffisant
Faible
Minimum acceptable
Bon
Trs bon
> 0,9
Il existe une relation entre le nombre ditems et la valeur de lalpha : un nombre restreint
ditems (de deux trois) donne un alpha gnralement plus faible (0,6) quune mesure de
quatre noncs (0,7). Au-del de 0,9, lalpha risque, en revanche, de traduire davantage
une redondance inter-items, appauvrissant ainsi le domaine conceptuel tudi (Peterson,
1995). Il est, par consquent, recommand de ne pas dpasser le seuil de 0,9.
Le logiciel SPSS fournit les niveaux du coefficient dalpha de lchelle lorsque chaque item
est supprim. Les items dont la suppression amliore sensiblement le coefficient ne sont
gnralement pas retenus si la validit de contenu ne sen trouve pas amoindrie.
* Focus 3.2
(2)
Lanalyse factorielle
Lanalyse factorielle est une mthode exploratoire danalyse des tableaux de contingence
dveloppe essentiellement par J.-P. Benzecri durant la priode 1970-1990. Elle dsigne un
ensemble de mthodes statistiques multivaries dont le principal objectif est de dfinir la
structure des corrlations entre un grand nombre de variables (par exemple, les rponses
un questionnaire) en dterminant un ensemble de dimensions communes appels facteurs.
2.1 LES
54
Chapitre
Muscles
Esthtisme
Dfoulement
Sant
Dynamisme
Prise en charge
Confort
conomie
Lieu agrable
EXEMPLE
6
titre dexemple, le confort, les aspects dfoulement, dynamisme et sant reprsentent peuttre en fait la mme chose : tre en forme.
Facteur 2
Contact
Facteur 3
1
2
3
4
5
6
La solution de lanalyse factorielle est trouve par essai/erreur et le jugement stablit en
fonction des concepts (voir figure 3.1). Sur laxe horizontal de la figure, gauche les atten-
tes des clients portent sur la forme physique ; droite, sur le confort de la salle. Sur laxe
vertical sopposent le ct sociable du club de sport et le besoin de sy dfouler.
Au total, la variance restitue par ces deux axes (les deux premiers facteurs) est de 50,43.
Figure 3.1
Reprsentation
graphique de
lanalyse
factorielle.
Lanalyse factorielle exploratoire permet didentifier des groupes ditems qui covarient les
uns avec les autres et semblent reprsenter des variables latentes pertinentes. Autrement
dit, lAFE consiste explorer la relation entre des variables mesures, afin de dterminer si
ces relations peuvent tre rsumes par un nombre moins important de construits latents.
LAFE permet de vrifier le nombre de dimensions ou, plus souvent, lunidimensionalit
dun concept. En effet, un concept peut comporter une ou plusieurs facettes. Par exemple,
limplication comporte une composante affective, une composante calcule et une composante normative. Lorsque lon fait appel des chelles de mesure dj utilises, lAFE
permet de vrifier si lon retrouve, pour lchantillon tudi, la mme structure factorielle.
Elle fera alors ressortir autant de facteurs que le construit a de dimensions (un seul facteur
si le construit est unidimensionnel). Dans le cadre du dveloppement de nouveaux instruments, lAFE permet de constater si les items correspondent effectivement aux concepts
prsents aux rpondants.
2.2 LES
56
Chapitre
donn que chaque facteur est extrait dune matrice qui est le rsidu de lextraction prcdente, la quantit dinformations contenue dans les facteurs successifs dcrot. Lorsque, entre deux facteurs, la dcroissance en termes dinformations devient faible ou
nulle, on peut estimer que le dernier facteur ne contient pas suffisamment dinformations pour tre retenu.
le critre du pourcentage de variance : il sagit dune approche par laquelle on observe
les pourcentages cumuls de la variance extraite par les facteurs successifs. Lobjectif est
de sassurer quun facteur explique une quantit significative de variance. Il est souvent
conseill darrter lextraction lorsque 60 % de la variance explique est extraite (Hair
et al., 2006).
* Focus 3.3
58
Chapitre
2.3 LPURATION
DES DONNES
0,30
350
0,35
250
0,40
200
0,45
150
0,50
120
0,55
100
0,60
85
0,65
70
0,70
60
0,75
50
Dans cet exemple, nous testons lchelle destine mesurer lambition professionnelle.
Cette chelle unidimensionnelle de 10 items est issue de la littrature. Les rponses aux
questions sont collectes grce une chelle de Likert cinq chelons allant de Pas du
tout daccord Tout fait daccord (voir tableau 3.5).
Tableau 3.5 : Exemple de lchelle destine mesurer lambition
Item 1 - Jaimerais avoir un poste plus important et que les autres menvient.
Item 2 - Jaime bien discuter avec des gens importants.
Item 3 - Je veux tre une personne importante dans la communaut.
Item 4 - Jadmire beaucoup les gens qui ont gravi les chelons et sont au sommet.
Item 5r1 - Si javais suffisamment dargent, je ne travaillerais plus*.
Item 6 - Mme si je gagnais beaucoup dargent au jeu, je continuerais exercer mon mtier.
Item 7r - Si je pouvais toucher le chmage, je prfrerais ne pas travailler*.
Item 8 - Jaime tre admir(e) pour ma russite.
Item 9r - Je naime pas tre remarqu(e)*.
Item 10 - Jaime que des employs me demandent conseil.
Les 10 items sont, dans un premier temps, soumis une analyse factorielle exploratoire
(mthode de lACP), afin de vrifier la structure du construit mesur. Cette chelle est teste
avec un chantillon de 106 individus.
Ouvrez le fichier challenge 1. Allez dans le menu Analyse > Positionnement > Analyse
factorielle. Une bote de dialogue apparat (voir figure 3.2).
60
Chapitre
Transfrez les items destins mesurer lambition en les slectionnant chacun leur tour et
en cliquant sur la flche.
Figure 3.2
Demande danalyse
factorielle.
Avant de lancer lAFE, plusieurs commandes sont effectuer. Afin de vrifier ladquation
des donnes, on peut demander lindice KMO et le test de Bartlett par le bouton Descriptives dans la bote de dialogue prcdente. La structure initiale (prcoche) donne les communalits, les valeurs propres et la part de variance explique initiale (voir figure 3.3).
Figure 3.3
Demande de
lindice KMO et du
test de Bartlett.
Figure 3.4
Choix de la
mthode
dextraction, de la
matrice de dpart
et demande de
graphique.
Figure 3.5
Choix de la
mthode de
rotation.
Cliquez ensuite sur Poursuivre pour revenir la bote de dialogue puis sur OK pour lancer
lAFE.
Les rsultats de lanalyse apparaissent dans longlet rsultats (voir figure 3.6).
Figure 3.6
Interprtation des
rsultats de lAFE :
KMO, test de
Bartlett et
communalits.
Lindice KMO (0,816) ainsi que le test de Bartlett permettent daccepter les rsultats de cette
analyse factorielle.
62
Chapitre
Les rsultats montrent que les deux facteurs qui nexpliquent pas plus de 50 % (48,21) de la
variance (voir figure 3.7). Nous liminons les items dont les communalits sont trop faibles
(soit 8r et 9 qui ont des communalits respectives de 0,24 et 0,19).
Figure 3.7
Interprtation des
rsultats de lAFE :
pourcentage de
variance explique,
nombre de facteurs.
En outre, la matrice des composantes atteste que deux items (5r et 6) ne se trouvent pas sur
le mme facteur (voir figure 3.8). Or, ce second facteur nexplique, son tour, quune faible
part de la variance. Nous liminons donc ces deux items.
Figure 3.8
Interprtation des
rsultats de lAFE :
matrice des
composantes
(coefficients
structurels).
ce stade, il faut refaire une AFE en rappelant la bote de dialogue ou en allant dans le
menu Analyse > Factorisation > Analyse factorielle. La bote de dialogue de la figure 3.9
apparat.
Il faut alors faire passer les items limins (5r, 6, 8r et 9) dans la liste des variables, en les
slectionnant, toujours avec la flche, mais dans le sens inverse.
Les options choisies restent coches (extraction, demande du KMO, etc.) et il nest donc pas
ncessaire de recommencer cette procdure. Cliquez sur OK.
Les rsultats de cette deuxime AFE apparaissent, toujours dans longlet rsultats, la
figure 3.10.
La solution est maintenant, comme dans la thorie, unidimensionnelle, mais elle ne parvient
toujours pas expliquer plus de 50 % de la variance. Ds lors, litem 3r dont la communalit est insuffisante (0,38) est supprim.
Nous rappelons donc la bote de dialogue (voir figure 3.11) et nous faisons passer litem
ambition3r dans la liste des variables. Puis nous cliquons sur OK.
Figure 3.9
Demande danalyse
factorielle (bis).
Figure 3.10
Interprtation des
rsultats de lAFE :
KMO, test de
Bartlett et
communalits (bis).
Figure 3.11
Demande dAFE
n 3.
Les rsultats de cette troisime AFE apparaissent la suite des autres, dans longlet rsultats,
la figure 3.12.
64
Chapitre
Figure 3.12
Interprtation des
rsultats de lAFE :
KMO, test de
Bartlett et
communalits n 3.
Figure 3.13
Interprtation des
rsultats de lAFE :
matrice des
composantes
(coefficients
structurels) n 3.
Figure 3.14
Test de la fiabilit
de cohrence
interne avec le
coefficient alpha de
Cronbach.
Figure 3.15
Choix des
statistiques pour le
calcul du coefficient
alpha de Cronbach.
Figure 3.16
Rsultats du calcul
du coefficient alpha
de Cronbach.
66
Chapitre
Le premier tableau prsente la moyenne et la variance de lchelle en cas de suppression de
calcul des items (colonnes 1 et 2), la corrlation de chaque item aux autres (colonne 3) et
lalpha de Cronbach en cas de supression dun item.
Figure 3.17
Rsultat du calcul
du coefficient alpha
de Cronbach.
Cette chelle prsente une fiabilit de cohrence interne acceptable (alpha = 0,78). Il nest
pas possible damliorer lalpha en liminant un ou plusieurs items (cf. colonne droite du
tableau alpha en cas de suppression de llment). Nous gardons donc les cinq items (1, 2,
4, 7 et 10) pour mesurer lambition.
Exercices
EXERCICE 1
nonc
Il existe diffrentes sources de satisfaction au travail, ces valences sont values en posant
la question : Quelle importance accordez-vous ces aspects de votre travail ? (collecte
des rponses laide dune chelle de Likert en cinq points allant de Pas du tout
Trs important ).
VAL1 - Une augmentation de votre sentiment russite
VAL2 - Le sentiment que vous utilisez bien vos comptences
VAL3 - Votre satisfaction personnelle
VAL4 - Loccasion de dvelopper des relations avec les autres employs de lentreprise
VAL5 - De meilleures relations de travail avec votre manager
VAL6 - De meilleures relations avec les autres commerciaux
VAL7 - Limplication dans la formation des autres employs
VAL8 - Plus dautonomie de la part de votre manager
VAL9 - Davantage de respect de la part de vos collgues
VAL10 - Une baisse des rclamations de la part de vos clients
VAL11 - La reconnaissance de vos clients sur le fait que vous les avez bien conseills
VAL12 - Plus dopportunits de dvelopper des contacts clients
VAL13 - De meilleures relations avec vos clients
VAL14 - Une augmentation de vos revenus
VAL15 - Plus dinfluence sur les dcisions de votre manager
VAL16 - Recevoir la reconnaissance de votre hirarchie
VAL17 - Une augmentation de votre prestige personnel
VAL18 - La chance dtre mut dans une agence ayant plus de potentiel
VAL19 - Lvolution vers un poste de management
Nous collectons aussi la valence par rapport la victoire au challenge :
VALVI1 - La victoire ce challenge
VALVI2 - tre parmi les gagnants du challenge en question
Suite une premire AFE, seuls les items apparaissant en gras ont t conservs.
Question : dcrivez les rsultats de lAFC (voir figures 3.18, 3.19, 3.20 et 3.21).
68
Chapitre
Figure 3.18
Rsultats de lAFC (1).
Figure 3.19
Rsultats de lAFC (2).
Figure 3.20
Exercices
Figure 3.21
Rsultats de lAFC (4).
* Solution
Les rsultats de lAFC sont comparables ceux qui peuvent tre obtenus laide dune ACP.
Le premier facteur reprsente 32,97 % de la variance, le second compte pour 23,67 %.
Sur laxe horizontal, nous trouvons les relations que le vendeur entretient avec ses clients,
ses pairs. Sur laxe vertical (deuxime composante), nous trouvons la valence pour la victoire au challenge. Nous observons que les items 18 et 9, qui portent sur les promotions,
sont proches de cet axe. Le challenge serait donc associ aux opportunits de carrire, au
respect des pairs. Sur cet axe, nous retrouvons les aspects relationnels du travail, en interne
(avec les collgues) ou en externe (avec les clients).
EXERCICE 2
ANALYSE
nonc
Il nexiste pas dchelle dans la littrature pour mesurer lattitude gnrale lgard des
challenges de vente. Lchelle de mesure de cette attitude a t cre grce une tude
qualitative : 7 items ont t crs puis utiliss dans un questionnaire. Les rponses sont
recueillies auprs de 747 commerciaux sur une chelle de Likert cinq grades.
DE LA VALIDIT ET DE LA FIABILIT
Une analyse factorielle exploratoire (ACP), puis un test de la fiabilit de cette chelle sont
raliss (voir figures 3.22, 3.23 et 3.24).
partir de ces analyses, rpondez aux questions suivantes :
1. Cette chelle est-elle multidimensionnelle ?
2. Faut-il conserver tous les items de cette chelle ?
Sinon quel(s) item(s) limineriez-vous ? Comment prenez-vous cette dcision ?
3. Cette chelle de mesure est-elle fiable ?
70
Chapitre
Figure 3.22
Figure 3.23
Figure 3.24
Exercices
* Solution
1. Lanalyse en composantes principales atteste de la nature unidimensionnelle de ce concept. Cette solution factorielle parvient expliquer plus de 53 % de la variance totale. Le
test KMO, tout fait satisfaisant (0,88) valide cette solution factorielle.
2. Non, il ne faut pas conserver tous les items.
Lexamen des communalits des noncs indique que litem atig5, dont lindice de communalit (0,23) et le poids factoriel (0,48) sont faibles, affaiblit la validit de cette chelle.
Cet item doit par consquent, tre limin pour la suite des analyses.
3. Cette chelle est fiable puisque le coefficient alpha de Cronbach dpasse 0,8 (0,84).
Toutefois la fiabilit peut tre meilleure si litem atig5 est limin (lalpha monte 0,85).
Une enqute portant sur les perceptions de diffrentes marques de voitures a t ralise
auprs de consommateurs. Les individus ont valu 10 marques daprs 15 critres,
nots sur des chelles de Likert de 1 9. Les variables perceptuelles sont les suivantes :
Notorit
Ergonomie
Finition
Prestige
Qualit
Familial
Confort
conomique
Nouveaut
Image
Qualit-prix
Innovation
Robustesse
Sportif
Spacieux
Les rsultats de lenqute, cest--dire la moyenne des scores obtenus chaque variable,
sont reprsents dans le fichier Facto.sav . Sur ces donnes, une analyse factorielle
exploratoire peut permettre didentifier les perceptions de consommateurs, mais aussi de
reprsenter les marques en fonction de ces perceptions dans ce que lon nomme une
carte perceptuelle, ou mapping perceptuel.
1. Gnrez lanalyse factorielle sur les donnes de ltude.
2. Interprtez lanalyse factorielle. Quelles conclusions tirez-vous de cette analyse ?
* Solution 3
1. Pour commander lanalyse factorielle, slectionnez le menu Analyse > Factorisation >
Analyse factorielle et faites passer les variables factoriser dans la partie Variables avec la
flche (voir figure 3.25).
Ensuite, dans longlet Descriptives (voir figure 3.26), la case Structure initiale est dj
coche (elle donne les communauts, valeurs propres et pourcentage de variance expliqus par chaque dimension). Dans la partie Matrice des corrlations, cochez les cases
Coefficients et Reconstitue.
72
Chapitre
Figure 3.25
Commande de
lanalyse
factorielle.
Figure 3.26
Options dAnalyse
factorielle.
Dans longlet Extraction (voir figure 3.27), la case Matrice de corrlation est coche et la
mthode en Composantes principales slectionne. Cochez Graphique des valeurs propres et Structure factorielle sans rotation. Slectionnez un nombre de facteurs gal 2,
afin de gnrer une carte deux dimensions.
Figure 3.27
Mthode
dextraction de
lanalyse
factorielle.
Une fois tous les paramtres dfinis, cliquez sur OK pour lancer lanalyse factorielle.
2. Linterprtation de lanalyse factorielle stablit laide des tableaux qui apparaissent
dans la partie Rsultats :
Exercices
Dans longlet Rotation, choisissez Varimax et cliquez sur Carte factorielle comme lindique la figure 3.28.
Figure 3.28
Choix de la
mthode de
rotation de
lanalyse
factorielle.
Le tableau de la variance totale explique (voir figure 3.29) prsente les deux dimensions
qui rsument linformation. La premire dimension permet dexpliquer 46,32 % de la
variance du phnomne, cest--dire que les variables qui composent cette premire
dimension synthtisent 51,63 % du phnomne. La seconde dimension explique 23,95 %
de la variance. Les deux dimensions expliquent plus de 70 % de la variance totale. On conseille en gnral darrter lextraction de facteurs lorsque 60 % de variance cumule a t
extraite (Hair et al., 1998). Cette variance cumule indique que la rduction des variables
deux composantes permet de conserver lessentiel du phnomne mesur par les quinze
variables perceptuelles initiales. Notre reprsentation du phnomne est donc de qualit.
Figure 3.29
Les rsultats de
lanalyse
factorielle : la
variance totale
explique.
La qualit de la reprsentation (voir figure 3.30) permet de vrifier si les variables initiales
sont bien prises en compte par les variables extraites. Ici, la qualit de reprsentation ou
communalit de la variable notorit est de 0,989. Ce qui signifie que 98,9 % de la
variance de la variable est prise en compte par lune des deux dimensions extraites. Dans
cet exemple, les variables nouveaut et innovation ne sont pas bien reprsentes.
La matrice des composantes (voir figure 3.31) montre les dimensions extraites (deux dimensions) avec les composantes. Chaque colonne correspond une dimension extraite contenant
les coefficients ou composantes qui peuvent sinterprter comme des coefficients de corrlation.
La qualit et le confort sont ainsi relis la dimension 1, alors que le rapport qualit-prix
ou la dimension conomique du modle sont relis la dimension 2. On passe donc en
revue les coefficients afin didentifier les variables relies chacune des dimensions. De
cette manire, la matrice des composantes permet de nommer les dimensions extraites par
ltude des composantes. La premire composante relve de limage perue (prestige
gauche de laxe, et familial droite de laxe ; voir figure 3.32) ; la seconde composante
relve du rapport qualit-prix peru.
74
Chapitre
Figure 3.30
Les rsultats de
lanalyse
factorielle : la
qualit de
reprsentation.
Figure 3.31
Les rsultats de
lanalyse
factorielle : la
matrice des
composantes.
Exercices
Les rsultats de
lanalyse
factorielle : le
diagramme des
composantes.
La matrice des composantes permet galement de calculer les coordonnes pour reprsenter graphiquement les individus par rapport aux dimensions extraites. On peut ainsi comparer la position de chacune des observations, en dautres termes, positionner les marques
dans lespace factoriel cr.
Afin de retrouver les marques sur chacun de ces axes, vous devez relancer lanalyse
factorielle : Analyse > Analyse factorielle puis, dans longlet Facteurs, cocher Enregistrer
dans des variables et la mthode Rgression (voir figure 3.33).
Figure 3.33
La commande
Analyse factorielle :
reprsentation
graphique
dindividus.
Deux nouvelles variables sont alors cres dans lditeur de donnes (voir figure 3.34).
Elles donnent les scores factoriels, cest--dire pour chaque individu (chaque marque) sa
moyenne sur chacune des deux dimensions. On peut constater par exemple que la
Citron C4 est relie la dimension Image. Cest ce que nous allons maintenant voir
laide dun graphique.
Figure 3.34
La reprsentation
graphique
dindividus dans
lanalyse
factorielle.
Ensuite faites passer les facteurs crs dans les axes Y et X et, afin dafficher chaque marque, faites glisser la variable modle vers Etiqueter les observations par (voir
figure 3.36).
76
Chapitre
Figure 3.36
Commande dune
reprsentation
graphique
dindividus dans
lanalyse factorielle
(suite).
Vous devez galement cliquer sur longlet Options et cocher Afficher le diagramme avec
les tiquettes dobservations pour les faire apparatre (voir figure 3.37).
Figure 3.37
Ensuite, cliquez sur OK : le graphique nest cependant pas trs lisible car les axes napparaissent pas. Pour y remdier, double-cliquez sur le graphique pour ouvrir lditeur de
diagramme (voir chapitre 8), activez le diagramme en cliquant une nouvelle fois dessus et
slectionnez dans le menu dition la ligne de rfrence de laxe X ; la position de laxe 0 est
prslectionne. Dans le menu Proprits, slectionnez Afficher la ligne lorigine, dans
longlet Echelle (voir figure 3.38). Recommencez cette opration pour laxe Y.
Exercices
Commande dune
reprsentation
graphique
dindividus dans
lanalyse factorielle
(suite).
Chapitre
Figure 3.38
Commande dune
reprsentation
graphique
dindividus dans
lanalyse
factorielle (suite).
Le graphique suivant (voir figure 3.39) apparat alors, reprsentant les modles de vhicules en fonction des perceptions dclares des consommateurs interrogs. Ce type de reprsentation peut servir positionner les offres concurrentes sur le march.
Figure 3.39
Exercices
Reprsentation
graphique
dindividus dans
lanalyse
factorielle.
Chapitre
Segmenter
1. Fondements...............................80
2. Concepts associs......................83
3. Mise en uvre ..........................90
Exercices
1. Habitudes alimentaires...............94
2. Achats On-line ..........................97
3. Segmenter le march
automobile..............................102
De nombreuses enqutes en marketing ont pour objet de classer des individus en groupes homognes, afin, par exemple,
de procder une segmentation du march. Comme lanalyse
factorielle (voir chapitre 3), lanalyse typologique permet de
rduire le nombre des observations en les regroupant en des
classes (ou types) homognes et diffrencies. (Evrard et al.,
2003). Cependant, contrairement lanalyse factorielle, les
rsultats peuvent fortement diverger en fonction des choix
effectus. Nous verrons, dans ce chapitre, les concepts cls
lis cette mthode, les mesures statistiques associes, ainsi
que les principaux lments de sa mise en uvre.
79
(1)
Fondements
La ralisation dune typologie, ou encore dune taxinomie, a t pendant longtemps le
principe fondateur de la science moderne. Il sagissait alors de dcrire le monde afin de le
comprendre. En franais, les termes pour dcrire ce principe de classification des
individus typologie, taxinomie, segmentation, classification, catgorisation , sont relativement ambigus. En anglais, en revanche, le terme clustering rend compte la fois du fait
de classer, cest--dire de faire merger des groupes dindividus, mais galement du principe de classification, cest--dire de laffectation des individus aux diffrents groupes.
Lanalyse typologique, terme gnrique que nous retiendrons dans ce chapitre, est au
cur de la dmarche marketing. Elle peut tre utilise pour simplifier la lecture des donnes en regroupant des observations ayant des caractristiques communes, ou encore
pour faire merger des groupes dindividus homognes des donnes collectes. Cette
approche est frquemment retenue en marketing, o lune des premires dcisions stratgiques consiste agrger des segments de march en fonction des attentes des consommateurs afin de dfinir les choix de marchs possibles. Le marketing considre, en effet, que
les marchs sur lesquels il opre peuvent tre constitus dattentes plus ou moins homognes, quil sagira de rendre intelligibles. On parle de marketing de masse lorsque les attentes sont homognes, de marketing individualis lorsque les attentes sont fortement
htrognes, et de marketing segment lorsque les attentes sont groupes (voir
figure 4.1).
Figure 4.1
Les attentes en
marketing.
Attentes
homognes
Attentes
groupes
Attentes
htrognes
Marketing
de masse
Marketing
segment
Marketing
individualis
Le rle du charg dtude dans cette perspective est de crer ex nihilo des groupes de
consommateurs similaires entre eux mais diffrents des autres segments. Le principe de la
segmentation, cest--dire le fait de former des groupes de clients homognes , est directement fond sur des caractristiques propres des individus (les consommateurs en loccurrence) qui nous indiquent pourquoi les segments diffrent. Ces critres vont permettre au
charg dtude didentifier et de rapprocher les membres dun segment. Pour quils soient
utiles, ces critres de segmentation doivent permettre de gnrer des segments distincts,
en dautres termes qui ne se recoupent pas. Il nexiste pas de segmentation optimale : la
segmentation est un moyen par lequel on pourra, par exemple, identifier les cibles dune
campagne de mailing, orienter une extension de gamme de produits, dfinir le message
publicitaire adapt un profil de consommateurs, etc. Il existe donc plusieurs rsultats
possibles lors dune segmentation, et le charg dtude devra raliser des choix, afin de
concilier exigence statistique et besoin doprationalit de la dcision.
80
Chapitre
Pour faire face louverture du march de lnergie mise en place en France le 1er juillet
2007, GDF mne depuis quelques annes une rflexion approfondie sur ses mthodes de
segmentation, afin de mieux connatre ses clients et leurs comportements, et surtout limiter
leur dpart vers la concurrence. Cette segmentation repose sur une base de donnes recoupant les informations issues de donnes commerciales, marketing (CRM) et dadministration
des ventes (niveau de consommation, facturation et paiement). En dfragmentant les donnes clients, GDF a affin sa vision de la valeur conomique de son portefeuille clients. La
consquence est une nouvelle approche de la segmentation clients : quinze segments de
clientle ont t constitus et agrgs en cinq macrosegments : les clients convaincre,
conforter, consolider, observer et tolrer. Une stratgie diffrencie a ensuite t mise
en place pour chacun des quinze segments (fidlisation, promotions, etc.).
Nous nous intresserons ici aux principales approches, les plus diffuses dans la pratique
et les plus aises mettre en uvre en termes danalyse de donnes, que nous regrouperons sous le terme d analyse typologique . Lanalyse typologique peut tre dfinie de la
faon suivante : tant donn un ensemble dobjets (ou dindividus) dcrits par un certain nombre de caractristiques (ou variables), constituer des groupes (ou types) dobjets
tels que les objets soient les plus similaires possibles au sein dun groupe et que les groupes
soient aussi dissemblables que possible ; la ressemblance ou la dissemblance tant mesure
sur lensemble des variables dcrivant les objets (Evrard et al., 2003). Ces regroupements
sont effectus en fonction de variables, dont on peut distinguer deux types : des variables
comportementales pour classer les individus dans les segments, et des variables didentification afin de pouvoir interprter les groupes ainsi gnrs. Le choix des variables
employes est hautement important. En effet, lorsque lon procdera lanalyse typologique, les rsultats devront montrer une forte homognit intragroupe (proximit des
mesures au sein dun groupe), et une forte htrognit intergroupe (distance entre les
groupes) comme le montre la figure 4.2.
La figure 4.2. reprsente un nuage de points issu du croisement de deux variables, soit par
exemple lge (V1) et la frquence dachat (V2) dun produit X. Le centre de gravit du
nuage de points est reprsent par le point au centre des trois segments. Comme on peut
le constater, trois grands groupes mergent lorsque lon croise ces deux variables. Chaque
point reprsentant la combinaison des deux variables pour une observation, on remarque
1. Adapt de GDF : Fidliser et conqurir de nouveau marchs grce au data mining , Decisio, 43, juin 2007.
Segmenter 81
Figure 4.2
Barycentre
La segmentation.
V2
V1
que les individus regroups sont relativement homognes, proches, et diffrents cest-dire distants des autres membres des deux autres segments en termes dge et de frquence dachat. Le charg dtude pourra aisment recommander des stratgies pour
servir ces trois segments en termes de promotion ou de message publicitaire, par exemple.
On peut voir, en effet, que les consommateurs les plus gs, puis les plus jeunes, achtent
le plus frquemment, alors que les consommateurs des classes dge intermdiaires achtent le moins frquemment. Malheureusement, il est extrmement rare, pour ne pas dire
impossible, que de tels segments mergent dans la pratique ; lobjectif de la segmentation
sera donc de crer des groupes distincts les uns des autres, mais dont les caractristiques
seront proches au sein mme des groupes. En dautres termes, il sagira de diminuer le
plus possible les traits pleins sur le schma, lintrieur des groupes, et daugmenter au
maximum les traits en pointills afin de bien distinguer les segments les uns des autres.
Le charg dtude, afin dviter les erreurs lies ce type dexercice, devra, au-del dune
matrise des principales mesures associes la typologie, tre en mesure de dcider du
nombre de segments satisfaisant les objectifs de lenqute, et interprter correctement le
contenu de chacun des segments gnrs. Le problme que pose lanalyse typologique, que
nous avons dfinie comme une technique danalyse de donnes multivarie utilise pour
segmenter des populations, est prcisment quelle repose sur un classement des individus
et non une mesure des variables comme cest le cas pour les autres tests statistiques. En
dautres termes, il nexiste pas une mais des analyses typologiques. De nombreuses possibilits sont donc offertes au charg dtude. Cet outil prsente une grande flexibilit dutilisation, mais galement une importante complexit car le risque dobtenir des rsultats
pertinents mais influencs par les procdures de calcul retenues et non par les donnes est
important. Cest ce que lon nomme le risque dartefact.
82
Chapitre
(2)
Concepts associs
Il existe un certain nombre de concepts associs lanalyse typologique. Deux dimensions
principales doivent tre abordes : les mesures statistiques de distance entre les individus
et le processus de constitution des groupes qui sera slectionn par lanalyste.
2.1 MESURES
DE DISTANCE
Illustration de la
distance
euclidienne 1.
Observation 2
(X2,Y2)
Y2-Y1
Observation
1 (X1,Y1)
Distance =
X2-X1
(X2-X1)2+(Y2-Y1)2
Segmenter 83
On peut voir sur la figure 4.3 que la distance euclidienne mesure la distance (ou la proximit) entre deux observations dont les coordonnes dans lespace sont donnes par les
valeurs des variables X et Y. Pour lobservation 1, ces coordonnes sont (X1, Y1) et (X2,
Y2) pour lobservation 2. La distance euclidienne entre ces deux points est la longueur de
lhypothnuse du triangle rectangle. Il est galement possible de prendre le carr de la distance euclidienne en enlevant la racine carre de la formule ci-dessus. Cest une approche
qui facilite le calcul et qui peut tre utilise, par exemple, dans la mthode de Ward (voir
ci-aprs).
Dautres mesures de distance peuvent savrer appropries dans le cadre de donnes
mtriques :
le coefficient de corrlation de Pearson : cest une mesure dassociation qui permet
dtablir si deux variales mesures sur le mme ensemble dobservations varient de
faon analogue ou non ;
la distance de Tchebycheff : il sagit de la diffrence maximale absolue entre les valeurs
relatives aux lments de la classification ;
la distance de Minkowski : cest la racine nime de la somme des diffrences absolues
entre les valeurs relatives aux lments la puissance n.
Dans le cadre dune classification avec des donnes binaires, on privilgiera :
lindice de Sokal et Michener : il reprsente le rapport entre les appariements (rapprochements deux deux) et le nombre total de valeurs ;
lindice de Rogers et Tanimoto : cet indice attribue un poids deux fois plus important
aux non-appariements (non-concidences) ;
lindice de Sokal et Sneath : un poids plus important est accord aux appariements qui
comptent le double.
De nombreuses autres mesures de distance existent ; il est fortement conseill de tester
empiriquement ces techniques afin de dfinir la mesure qui reprsentera de la manire la
plus efficace la structure des donnes collectes.
Un certain nombre de limites doivent cependant tre prises en compte. Lors danalyses
typologiques reposant sur des mesures diffrentes par exemple des chelles de Likert,
des pourcentages, des montants en euros, etc. , il est ncessaire de standardiser les mesures et dlimer les observations aberrantes. En ce qui concerne la standardisation, lapproche la plus courante est la mthode de lcart type, mais dautres approches peuvent tre
testes. Lutilisation de mesures de distance diffrentes peut conduire des rsultats de
classification diffrents. Lanalyse typologique est en ce sens une mthode empirique, o,
comme nous lavons signal, de nombreuses combinaisons doivent tre testes avant de
dterminer la configuration optimale.
2.2 CONSTITUTION
DES GROUPES
84
Chapitre
spcifi en dbut danalyse) partir des n individus de dpart. Nous prsentons dans cette
section les mthodes les plus couramment mises en uvre.
Figure 4.4
Choisir une
mthode de
classification.
Classifications
Hirarchique
Ascendante
Descendante
Non hirarchique
Centres
mobiles
Nues
dynamiques
Segmenter 85
la mthode de Ward : on calcule les moyennes pour toutes les variables de chaque
groupe, puis, pour chaque individu, le carr de la distance euclidienne au centre de la
classe.
Figure 4.5
Interprtation des
deux grandes
mthodes de
classification.
Ascendante
1
2
3
4
5
6
7
8
Descendante
La figure 4.5 reprsente ce que lon nomme un dendogramme, autrement dit la reprsentation graphique des rsultats de la classification des individus en groupes. On lit le dendogramme de gauche droite pour une classification hirarchique ascendante, et de
droite gauche pour une classification hirarchique descendante. Les traits horizontaux
de la partie gauche du dendogramme reprsentent les 8 segments finaux raliss lors de la
classification hirarchique. La longueur de ces traits horizontaux est galement caractristique de la distance qui spare les groupes. Les lignes verticales reprsentent lagrgation,
le rapprochement de deux groupes. Sur le graphique prsent, les segments 1 et 2 peuvent
tre agrgs (ils sont proches une distance de 1 peu prs) 1, ce qui est galement le cas
des segments 5 et 6 ( une distance de 1,5 environ). Lagrgation suivante se fait une distance de 2 et concerne le nouveau segment (compos des segments initiaux 5 et 6) et du
segment 7. Nous dveloppons linterprtation dun dendogramme plus en dtail dans la
partie suivante.
1. Les distances ici sont fictives, elles ont pour but dillustrer lcart relatif entre les groupes.
86
Chapitre
SPSS
La procdure suivre dans SPSS est la suivante : Menu Analyse > Classement > Classification hirarchique La bote de dialogue de la figure 4.6 saffiche.
Figure 4.6
Bote de dialogue
du menu
Classification
Hirarchique.
Si vous classez des observations, vous devez slectionner au moins une variable numrique. Si vous classez des variables, slectionnez au moins trois variables numriques. Il est
galement possible de slectionner une variable dinformation pour tiqueter les observations (par exemple classer les observations par pays). Le menu graphique vous permet de
gnrer un arbre hirarchique ou dendogramme (voir ci-aprs) souvent utile pour linterprtation. En ce qui concerne la mthode (voir figure 4.7), plusieurs possibilits existent : le
saut minimum, la distance du diamtre, la distance moyenne, la mthode des barycentres et
la mthode de Ward (la plus couramment utilise).
Figure 4.7
Bote de dialogue
du sous-menu
Mthode.
Une fois la mthode retenue, la mesure doit tre slectionne : lanalyste peut choisir entre
la distance euclidienne ou le carr de la distance euclidienne par exemple, mais encore la
corrlation de Pearson, la distance de Tchebycheff, la distance de Minkowski, lindice de
Sokal et Michener, lindice de Rogers et Tanimoto, lindice de Sokal et Sneath que nous
avons abords dans la section prcdente. Il est prfrable de tester plusieurs mthodes et
plusieurs mesures avant de retenir une solution dfinitive. En effet, ces approches peuvent
produire des rsultats diffrents, plus ou moins lisibles ou utiles pour la dcision. Larbre de
dcision ou dendogramme peut faciliter la lecture des rsultats.
Segmenter 87
2.3 CLASSIFICATION
NON HIRARCHIQUE
88
Chapitre
* Focus 4.1
SPSS
La procdure suivre dans SPSS est la suivante : Analyse > Classification > Nues dynamiques La bote de dialogue de la figure 4.8 apparat.
Figure 4.8
Bote de dialogue
du menu Nues
dynamiques.
La premire tape consiste slectionner les variables qui paraissent les plus pertinentes.
On spcifie ensuite le nombre de classes que lon souhaite obtenir (entre 5 et 10). Une indication du nombre de classes souhaitable peut tre fournie par une premire analyse de type
ACP (analyse en composantes principales), par exemple pour simplifier des donnes collectes (voir le chapitre 3 sur la simplification des donnes). Le menu Options permet de spcifier un certain nombre dlments qui seront utiles linterprtation : prciser les centres de
classe initiaux ou crer un tableau ANOVA afin de dterminer les variables les plus discriminantes dans la constitution des groupes et liminer ainsi les centres de classe initiaux
(pour linterprtation de lANOVA, voir le chapitre 5). Il est possible galement dexclure les
valeurs manquantes. On clique ensuite sur Itrer pour lancer la procdure.
Segmenter 89
(3)
Mise en uvre
Lanalyse typologique est une mthode qui suppose de tester empiriquement un grand
nombre de combinaisons diffrentes. La nature des donnes segmenter mais galement
les choix oprs au niveau de la mesure de distance et des mthodes de constitution des
groupes rendent extrmement complexe le choix dune combinaison optimale. titre
dexemple, le nombre de regroupements possibles de 1 000 personnes en 6 classes est de
lordre de 1015 ! (Evrard et al., 1997) Ds lors, un certain nombre de problmes pratiques
se posent lanalyste. Les deux premiers sont lis la mise en uvre de la dmarche : le
choix du nombre des groupes et linterprtation du profil des groupes constitus. Le troisime problme est li la validit de la classification ; dimportantes prcautions doivent
tre prises au cours de cette tape, comme nous le montre lexemple suivant.
EXEMPLE
3.1 CHOISIR
Pour illustrer la mise en uvre dune dmarche de classification, prenons un exemple concret. Une entreprise du secteur informatique, fabriquant et commercialisant des ordinateurs
et des baladeurs numriques, souhaite se diversifier en lanant un tlphone portable nouvelle gnration. Elle ralise une tude de march afin de lancer une gamme de produits
dclinables en fonction de segments de consommateurs ayant des besoins suffisamment diffrencis les uns des autres pour viter toute cannibalisation. Lenqute a t administre
160 consommateurs regroups en 7 segments diffrents et qui ont t interrogs sur leurs
prfrences, notes sur une chelle de 1 7, sur un total de 15 attributs :
Intrt nouveaut
mission donnes
Fonction Internet
Utilisation SMS
Bluetooth
Appareil photo
Utilisation voix
Wi-Fi
Design
Utilisation agenda
Taille cran
Prix abonnement
Rception donnes
Fonction E-mail
LE NOMBRE DE GROUPES
tant donn le nombre dobservations, le charg dtude dcide de mettre en place une
classification hirarchique afin de constituer les groupes. Les rsultats sont reprsents
dans larbre de dcision de la figure 4.9.
Figure 4.9
Reprsentation
graphique des
rsultats de la
premire
classification.
90
Chapitre
3.2 INTERPRTER
LES GROUPES
Une lecture de la classification 4 groupes donnerait les rsultats prsents la figure 4.10.
Figure 4.10
Reprsentation
graphique la
classification en
4 groupes.
Segmenter 91
Total
S1
S2
S3
S4
Intrt
3,47
3,71
2,43
2,19
5,11
Ut_SMS
4,21
3,68
5,63
3,19
3,49
Ut_Tel
5,56
5,84
5,43
4,31
5,84
Ut_Agenda
4,01
5,89
2,33
3,06
3,86
Rception
4,45
5,02
3,88
6,12
3,65
mission
4,50
5,20
3,90
6,25
3,51
Bluetooth
3,99
3,86
5,04
5,31
2,16
Wi-Fi
3,71
3,39
3,73
6,12
3,14
cran
4,79
4,29
5,55
5,00
4,43
4,72
5,96
3,31
2,88
5,59
Internet
4,47
5,66
3,04
1,44
5,97
Ap_Photo
4,01
5,20
5,45
1,94
5,27
Design
4,63
3,95
4,16
5,50
5,95
Px_Abon
28,8
24,6
25,3
45,3
32,6
Px_Achat
332
290
273
488
411
92
Chapitre
Rsum
Lanalyse typologique est une mthode frquemment mobilise en analyse de donnes.
Elle permet non seulement de classer des individus ou des variables, mais galement de
rduire les donnes en les regroupant au sein de classes homognes. Il nexiste pas une
mais des mthodes de segmentation. Que lon opte pour une procdure de classification
hirarchique ou non hirarchique, lanalyse typologique confre une grande libert
lanalyste, mais rend galement plus complexe le choix de la bonne approche. Elle suppose
de tester empiriquement un grand nombre de combinaisons avant de trouver la dmarche
qui aboutisse des rsultats exploitables (nombre de groupes et interprtation) et valides.
Segmenter 93
Exercices
EXERCICE 1
HABITUDES
nonc
Une enseigne de grande distribution cherche raliser une enqute sur les habitudes alimentaires en Europe afin dadapter sa politique dachat et de rfrencement. Les donnes
concernant 25 pays ont t recueillies. Elles portent sur les indices globaux de consommation de 9 catgories de produits alimentaires : viande rouge, viande blanche, uf, lait,
poisson, crales, fculents, olagineux, fruits et lgumes. Les donnes issues de lenqute
sont disponibles dans le fichier alimentaire.sav .
ALIMENTAIRES
1.
2.
3.
4.
* Solution
94
Chapitre
Figure 4.11
Reprsentation
graphique des
rsultats de la
premire
classification.
On peut observer sur larbre de dcision que deux grands blocs de pays se dtachent assez
nettement. La premire classe est constitue des pays allant du Danemark au Liechtenstein, la seconde de la Bulgarie lAlbanie. Ces deux blocs sont repris dans le tableau 4.2.
Tableau 4.2 : Les deux premiers groupes de pays
Danemark
Sude
Norvge
Islande
France
Belgique
Royaume-Uni
Suisse
Irlande
Pays-Bas
Allemagne
Liechtenstein
Groupe 2
Bulgarie
Yougoslavie
Roumanie
Espagne
Portugal
Ukraine
Pologne
Rpublique tchque
Hongrie
Grce
Italie
Russie
Albanie
La classification semble assez cohrente. Le premier groupe correspond a priori des pays
plus dvelopps, ou faisant partie du premier cercle de lUnion europenne dun point de
vue historique. Le second groupe, lexception de lItalie, fait partie de pays ayant adhr
plus tardivement lUE ou hors UE. On peut supposer que, mme si les carts de dveloppement ont t rattraps pour certains dentre eux (Espagne, Grce, etc.), les difficults
Exercices
Groupe 1
Segmenter 95
passes se notent dans les comportements alimentaires. Les donnes dont nous disposons
ne nous permettent pas encore de vritable interprtation.
4. En ce qui concerne la chane dagrgation, on obtient les rsultats de la figure 4.12.
Figure 4.12
Chane
dagrgation de la
typologie pays.
Nous recherchons des sauts de distance dans la chane dagrgation. Le premier saut
apparat nettement et confirme la description en deux classes principales : la distance double entre les tapes 23 et 24 (de 2 632,676 et 5 243,414). Le deuxime saut (22-23) est
caractris par un cart de 900 environ, le troisime saut (21-22) par un cart de 500 environ, et enfin le quatrime saut (20-21) par un cart de 200 seulement. Les troisime et
quatrime sauts tant caractriss par des carts trop faibles si on les compare aux deux
prcdents, une solution trois classes semble se profiler. Cette solution nous amnera
distinguer deux sous-groupes au sein du deuxime groupe de pays : un groupe constitu
de la Bulgarie, de la Yougoslavie et de la Roumanie, dun ct (ce qui a du sens dun point
de vue purement gographique) et le reste des pays, de lautre.
5. Au vu des rsultats prcdents, et des objectifs que pourrait potentiellement mettre en
uvre lenseigne de distribution, il semble quune solution deux groupes soit prfrable.
En effet, le troisime groupe que nous avons fait apparatre ntant constitu que de trois
pays, la porte managriale de cette distinction est faible (mettre en place une cellule ou
adapter la stratgie pour ces trois pays). Il faudrait croiser lanalyse avec dautres variables,
de type risque pays par exemple, qui sont fournies par les grands organismes internationaux (FMI, Banque mondiale, OMC, Eurostat, etc.) pour savoir sil sagit de pays exclure
des dcisions stratgiques dans cette rgion.
6. Ces commentaires sont effectus sur les rsultats dune seule analyse. Ils ne donnent pas
entire satisfaction et il est souhaitable de tester dautres approches avant de donner un
rsultat dfinitif. vous de tester dautres procdures pour mieux dterminer les groupes.
96
Chapitre
EXERCICE 2
ACHATS ON-LINE
nonc
Une enqute portant sur un nombre lev de rpondants (1 400 questionnaires exploitables) vient dtre ralise. Lobjet de cette enqute, commandite par une chane de
magasins spcialise dans llectromnager est de mieux comprendre le comportement
multicanal du consommateur, cest--dire si son comportement on-line diffre de son
comportement off-line (en magasin traditionnel). Une premire approche en termes
danalyse des rsultats est de faire merger des types de rpondants. Une extraction des
rsultats de cette enqute est disponible dans le fichier on-line.sav disponible sur le
site : http://www.pearsoneducation.fr.
1. Quelle dmarche peut-on mettre en uvre ? Argumentez.
2. Dcrivez puis interprtez les segments obtenus.
* Solution
1. Le nombre lev dobservations nous oriente assez naturellement vers une mthode de
classification non hirarchique. Ces mthodes, rappelons-le, visent constituer k groupes
(nombre spcifi ds le dpart) partir des n individus (1 400 dans cet exemple). Le choix
dune mthode non hirarchique sexplique par le recours un nombre moins lev ditrations que dans le cas dune classification hirarchique, ce qui allge lalgorithme en
termes de capacit de calcul (si vous lancez SPSS avec une classification hirarchique sur
ces donnes vous risquez dattendre trs longtemps vos rsultats !). Enfin, les mthodes
non hirarchiques que nous avons abordes (centre mobiles et nues dynamiques) sont
intressantes en termes dinterprtation car elles supposent quil existe un centre de classe,
cest--dire un individu plus reprsentatif de son groupe dappartenance. Il semble donc
judicieux de mettre en uvre une analyse par la mthode des nues dynamiques (Kmeans).
2. Pour lancer la mthode des nues dynamiques reprenez la dmarche vue dans la partie
cours : Analyse > Classement > Nues dynamiques La procdure affiche la bote de
dialogue de la figure 4.13.
Figure 4.13
Exercices
Bote de dialogue
de la mthode des
nues dynamiques.
Segmenter 97
La premire tape consiste choisir les variables les plus adaptes lanalyse. Vous pouvez
vous aider des tiquettes des variables (dans lditeur de donnes cliquez sur longlet
affichage des variables ). Nous navons pas vraiment dindication, en dehors des questions
poses (pas danalyse factorielle par exemple sur la structure des donnes). Nous pouvons
inclure, dans un premier temps, lensemble des variables ( lexception du numro de questionnaire, sans objet). Faites glisser les variables dans la cellule variable(s) . Choisissez
ensuite le nombre de classes que vous souhaitez obtenir : une AFC peut tre utile ici pour
vous orienter. Vous pouvez la raliser en vous reportant au chapitre 3.
Nous allons procder de manire plus empirique. Tout dabord, nous choisissons un
nombre lgrement plus lev de classes que celui attendu a priori (ou suggr par lAFC/
ACP). Les donnes que nous utilisons sont pour la plupart des chelles en 5 points, sauf la
variable dichotomique sur la rcence de la visite dun site de-commerce qui pourrait tre
une variable relativement discriminante (de mme que le sexe). Proposons dans un premier temps une classification en 4 classes et observons les rsultats. tant donn que nous
allons classer un nombre lev de variables, il faut augmenter le menu Itrer
30 itrations maximum (nous pourrons augmenter/diminuer le nombre ditrations si les
rsultats nous indiquent que ce nombre savre insuffisant/trop lev). Il est possible, dans
ce menu, de sauvegarder les classes en tant que nouvelles variables ; cette opration est
utile en fin danalyse pour vrifier la validit des rsultats. Dans les Options, choisissez
dajouter un tableau ANOVA (analyse de variance) qui sert dterminer quelles sont les
variables les plus discriminantes dans la constitution des groupes. Lancez la procdure.
Nous obtenons les rsultats prsents la figure 4.14.
Figure 4.14
Historique des
itrations.
Dans la plupart des cas on peut laisser le menu itrer par dfaut ( 10 itrations maximum). Les classes convergent dans notre cas avant la 23e itration, cest--dire que la
valeur ,000 est atteinte dans chacune des quatre classes.
On observe ensuite le nombre dobservations dans chaque classe. Il faut veiller ce que
celles-ci ne soient pas trop dsquilibres. Une bonne pratique consiste ne garder que les
classes qui reprsentent 10 % ou plus des observations. Dans notre cas, on obtient la
rpartition de la figure 4.15.
98
Chapitre
Figure 4.15
Nombre
dobservations
dans chaque classe.
On interprte les 4 classes en fonction des centres de classe finaux. On saperoit assez
rapidement quil sagit dhommes principalement et que les segments sont diviss en deux
catgories principales : les pour et les contre (pour linterprtation, on reprend la signification des valeurs en fonction des tiquettes de variables : 1 = absolument pas
daccord, etc.). On peut lancer une segmentation deux classes pour faire apparatre plus
clairement cette dichotomie. Les figures 4.20, 4.21, 4.22 et 4.23 prsentent les rsultats.
Exercices
Segmenter 99
Figure 4.17
Rsultats deuxime
analyse par les
nues
dynamiques (1).
Figure 4.18
Rsultats deuxime
analyse par les
nues dynamiques
(2).
Figure 4.19
Rsultats deuxime
analyse par les
nues
dynamiques (3).
100
Chapitre
Figure 4.20
Rsultats finaux (1).
Figure 4.21
Rsultats finaux (2).
Figure 4.22
Rsultats finaux (3).
Figure 4.23
Exercices
Segmenter 101
On note tout dabord que le calcul a t plus rapide (6 itrations seulement) et que les
deux classes sont relativement homognes (644 et 756 individus respectivement). Le premier groupe correspond des habitus de lachat en ligne, qui ont visit rcemment un
site de-commerce, qui achtent rgulirement sur Internet, et qui ont visit de nombreuses fois le site avant de faire leur achat, que ce soit sur le site ou en point de vente traditionnel. Le second segment correspond des consommateurs qui sont plus rfractaires au
commerce en ligne et qui ont visit peu de fois le site avant de faire leur achat. Dans les
deux classes il sagit principalement dhommes. Nous navons pas dinformation sur le
canal utilis pour raliser lachat : site ou magasin traditionnel. Une piste intressante
suggrer votre responsable : mettre en uvre une analyse plus avance pour expliquer
lachat on- ou off-line par lensemble des variables que nous venons dtudier.
LE MARCH AUTOMOBILE1
EXERCICE 3
SEGMENTER
nonc
Lexemple 1 que nous allons tudier reprend des informations sur les caractristiques de
diffrents modles concurrents sur le march US, ainsi que leur performance en termes
de prix et de vente. Lobjet de lapplication est de raliser une typologie des principales
marques en prsence sur ce march. Ouvrez le fichier ventes_voitures.sav disponible
sur le site : http://www.pearsoneducation.fr.
1. Peut-on, sur ces donnes, mettre en uvre une classification hirarchique
ascendante ? Dcrivez les tapes ncessaires sa mise en uvre.
2. Dcrivez et interprtez les segments obtenus.
* Solution
1. Nous allons procder une classification hirarchique ascendante. Comme nous lavons
signal, cette mthode est peu performante sur de gros volumes de donnes. Le tableau de
donnes contenant 157 modles concurrents, il est souhaitable de slectionner les observations pour en retenir un nombre moins lev. Nous pouvons centrer notre analyse sur
les modles les plus performants sur le march par le biais de la procdure slectionner
les observations (que nous avons aborde au chapitre 2).
Dans le menu Donnes choisissez le sous-menu Slectionner les observations Nous
nous intressons aux modles ayant vendu plus de 100 000 units sur le march amricain. Slectionnez les observations selon une condition logique : Si (type = 0) &
(ventes > 100) comme indiqu sur la figure 4.24.
Pour lancer la classification hirarchique ascendante, suivez les procdures que nous avons
vues plus haut : Analyse > Classement > Classification hirarchique
Nous allons fonder notre analyse sur un certain nombre de variables de classification pertinentes dans le cas dune segmentation de produits. Slectionnez les variables allant de
Prix en millier ($) jusqu Consommation en les faisant glisser dans la cellule
Variable(s) . Nous allons utiliser une variable afin dordonner les rsultats : faites glisser
la variable Modle dans la cellule Etiqueter les observations par . Dans le menu graphi-
1. Il sagit ici dune version lgrement modifie dun fichier disponible dans les fichiers exemples de SPSS (car_sales.sav). De nombreux
fichiers de ce type peuvent tre utiliss pour manipuler et exprimenter les diffrents tests disponibles sur SPSS.
102
Chapitre
Figure 4.24
Bote de dialogue
Slectionner les
donnes selon une
condition logique.
que, cochez la case Arbre hirarchique et slectionnez la case Aucun dans le sousmenu Stalactites afin de produire le dendogramme que nous analyserons dans la section
suivante. Poursuivez et cliquez sur Mthode afin dafficher la bote de dialogue des
mesures de distance de la classification. Nous allons procder par une agrgation suivant
le saut minimum, cest--dire en dterminant la plus petite distance mesure entre un lment de chaque groupe, puis la plus petite distance suivante, et ainsi de suite. Les donnes
tant mesures sur des chelles diffrentes (dollars, litres, etc.) nous allons les standardiser
par lemploi de lcart type, comme indiqu sur la figure 4.25.
Figure 4.25
Bote de dialogue
Choix de la
mthode
dagrgation et de
la mesure de
distance.
Exercices
Dendogramme des
rsultats de la
classification
hirarchique.
Segmenter 103
2. Lorsquon cherche dfinir le nombre de groupes idal sur la base dun dendogramme,
on souhaite identifier de manire empirique des sauts de distance entre les diffrents
regroupements effectus. En lisant le dendogramme de la droite vers la gauche, on constate quil y a un saut important entre 25 et 20 qui spare le march automobile en deux
segments principaux, comme le montrent les traits en pointills sur la figure 4.27.
Figure 4.27
Lecture du premier
segment sur le
dendogramme.
Rappelons la rgle de lecture du dendogramme nonce plus haut : les axes verticaux
reprsentent les regroupements de segments, les axes horizontaux les distances entre les
segments. Il sagira donc de ne conserver que les segments les plus distants et dagrger les
segments les plus proches (ayant la plus petite distance). On peut constater, si lon poursuit la lecture des rsultats graphiques, quil existe un autre saut, entre 10 et 15, qui suggre 6 segments diffrents si lon compte le nombre de lignes horizontales entre ces deux
mesures. On peut encore lire les rsultats diffremment : on constate quil existe un cart
visuel entre les 5 premiers axes verticaux (les 5 premiers regroupements suggrant donc
6 segments) et les axes verticaux suivants situs sur la partie gauche du graphique. En
effet, le 5e axe se situe une distance de 14 peu prs, tandis que le suivant se situe une
distance de 8.
Une telle solution 6 segments napporte pas suffisamment de clart notre lecture du
march automobile. Il peut tre intressant alors dessayer une autre mthode dagrgation qui pourrait savrer plus pertinente. Rappelez la bote de dialogue et choisissez la
mthode dagrgation suivant la distance du diamtre, calcule partir de la distance
entre les deux points les plus loigns des groupes compars deux deux. On obtient
larbre de classification prsent la figure 4.28.
Figure 4.28
Lecture du second
dendogramme.
104
Chapitre
On voit apparatre les rsultats plus clairement. Deux segments diffrents peuvent tre
identifis : les modles du haut (de Accord Corolla) reprsentent les vhicules les plus
petits, les modles du bas (de Malibu Mustang) reprsentent les modles les plus grands.
On peut remarquer galement que deux sous-segments se distinguent au sein des plus
petits vhicules : la Focus, la Civic et la Corolla sont des vhicules moins chers que les trois
modles du haut.
En ce qui concerne la chane des agrgations de notre second cas, on obtient le tableau de
la figure 4.29.
Figure 4.29
Chane des
agrgations.
Exercices
Segmenter 105
Chapitre
Lanalyse
de variance
1. Les diffrentes analyses
de variance.............................108
2. La mthode du plan
dexprience ...........................120
Exercices
1. Questions de recherche
et type danalyse de variance ...127
2. tude du point de vente............128
3. Quel rgime est
le plus efficace ?......................130
Lanalyse de variance dsigne une famille de mthodes destines examiner et interprter les diffrences de moyennes
observes entre plusieurs groupes pour une mme variable
(ANOVA pour ANalysis Of VAriance) ou pour plusieurs
variables (MANOVA pour Multivariate ANalysis Of
VAriance). Ces mthodes sont souvent utilises pour analyser
des donnes issues dune exprimentation o des caractristiques dun objet sont manipules afin doptimiser lobjet au
moindre cot.
Nous verrons dans un premier temps les techniques danalyse
de variance et de covariance avant de dcouvrir un terrain
dapplication privilgi de lANOVA : la mthode du plan
dexprience.
107
(1)
Figure 5.1
Plusieurs variables
dpendantes quantitatives
Type danalyse de
variance selon la
nature des
variables.
test t
plusieurs variables
indpendantes
plusieurs variables
indpendantes
qualitative(s)
mixtes
qualitatives
mixtes
ANOVA
ANCOVA
MANOVA
MANCOVA
1.1 LES
1.2 LANALYSE
UNIVARIE DE LA VARIANCE
: ANOVA
UN FACTEUR
Lanalyse de variance sert tester lhypothse dgalit des moyennes. Cette technique est
une extension du test t pour deux chantillons indpendants. Elle permet de traiter les diffrences de moyennes dune variable dpendante quantitative Y lorsque la variable indpendante a plus de deux modalits. Ce type dANOVA permet de savoir si au moins une
des moyennes diffre des autres. Ainsi, le salaire (variable quantitative) peut-il tre expliqu par le diplme (variable qualitative).
108
Chapitre
Lhypothse nulle est vrifie par le test F sous SPSS. Afin didentifier les moyennes qui diffrent, on peut comparer les moyennes avec les contrastes ou avec les tests post hoc.
Deux conditions sont ncessaires pour que les conclusions dune ANOVA soient valides :
lhomognit de la variance intragroupe et la normalit des donnes. Le test de Levene
(> 0,05) est utilis pour accepter lhypothse dhomognit de la variance intragroupe. Il
faut, par ailleurs, vrifier la prsence ventuelle de mesures aberrantes par le contrle de la
distribution des rsidus laide dun graphique, les erreurs de saisie pouvant gnrer des
htrognits.
Si les donnes ne sont pas appropries une ANOVA (htrognit des variances ou donnes fortement asymtriques), on doit alors utiliser des tests non paramtriques qui ne
supposent ni homognit de la variance, ni une distribution normale, par exemple le test
de Kruskall-Wallis.
* Focus 5.1
SPSS
Figure 5.2
Commande dune
ANOVA 1 facteur.
Figure 5.3
Test dhomognit
pour ANOVA
1 facteur.
Le test de Levene (voir figure 5.4) est significatif (0,52 > 0,05), lhypothse dhomognit
des chantillons est donc accepte. Nous pouvons procder lanalyse des rsultats de
lANOVA.
Figure 5.4
Interprtation du
test dhomognit.
Plus la valeur de p est petite, plus la preuve est forte contre lhypothse nulle. Ici, les
moyennes sont trs diffrentes (F = 5,25 ; p = 0,005). Lhypothse nulle est rejete, le format a bien un effet sur lattitude des commerciaux lgard du challenge mais, ce stade,
nous ne savons pas quel est leur type de format prfr. Pour cela, il faut raliser un test de
comparaisons multiples, aussi appel test post hoc.
110
Chapitre
Cliquez sur Post Hoc. Dans la bote de dialogue qui apparat (voir figure 5.5), cliquez sur
le test de votre choix. Nous slectionnons ici le test de Duncan, souvent employ pour des
tests de comparaisons de plusieurs moyennes. Dans notre cas, il sagira des formats mixte,
individuel ou en quipe.
Figure 5.5
Demande de test de
comparaisons
multiples a
posteriori pour
ANOVA 1 facteur.
Cliquez sur Poursuivre pour revenir la bote de dialogue ANOVA un facteur (voir
figure 5.5) puis sur OK.
Le test de Duncan montre (voir figure 1.6) que le format de comptition en quipe est
suprieur aux autres. Lattitude moyenne son gard est de 2,97, significativement plus
leve que celle des formats individuel (2,69) ou mixte (2,64).
En dautres termes, les vendeurs prfrent un format de comptition en quipe plutt
quindividuel ou mixte (avec des objectifs la fois individuels et collectifs).
Figure 5.6
Rsultats ANOVA
1 facteur.
1.3 LANALYSE
DE VARIANCE X FACTEURS
LANOVA plusieurs facteurs consiste tester lhypothse dgalit des moyennes dune
variable quantitative selon plusieurs variables qualitatives. Par exemple, on pourra tester
les variations de salaire selon le diplme et le sexe de lemploy. Le test de significativit est
un test F. Il sappuie sur la dcomposition de la variance qui comprend : les effets principaux, les effets dinteraction et un terme rsiduel. La notion dinteraction correspond au
fait que leffet dune variable explicative sur la variable expliquer nest pas identique
selon le niveau de lautre variable explicative (Evrard et al., 2003). Linteraction peut tre
ordinale, lordre des effets lis au premier facteur respecte alors celui des niveaux du
second facteur. Dans le cas dune interaction non ordinale, nous avons en revanche une
modification dans lordre des effets. Une interaction non ordinale peut tre non croise ou
croise. Cette dernire interaction est la plus forte de toutes.
Lexistence dune interaction se dtecte par lobservation des courbes : leur paralllisme
indique une absence dinteraction (leffet conjoint des facteurs combins est gal la
somme de leurs effets principaux individuels) alors que leur croisement montre que leffet
relatif des niveaux du premier facteur varie en fonction des niveaux de lautre.
SPSS
112
Chapitre
Figure 5.7
Commande dune
ANOVA 3
facteurs.
Options. Pour obtenir diverses statistiques, par exemple, le test dhomognit des variances. Il permet aussi de spcifier le seuil de significativit (fix par dfaut 0,05) pour ltude
des comparaisons de moyennes et le calcul dintervalles de confiance.
Avant de lancer lANOVA, nous devons vrifier lhomognit des moyennes.
Cliquez sur Option. Dans la bote de dialogue qui apparat (voir figure 5.8), cliquez sur
Tests dhomognit.
Figure 5.8
Tests
dhomognit
pour ANOVA.
Cliquez sur Poursuivre pour revenir la bote de dialogue MLG Univari puis sur OK.
Le test de Levene (voir figure 5.9) est significatif (0,18 > 0,05), lhypothse dhomognit
des chantillons est donc accepte. Nous pouvons procder lanalyse des rsultats de
lANOVA (voir figure 5.10).
Le modle explique 5 % de lorientation client du vendeur pendant un challenge. Le nombre
de gagnants (F = 6,70 ; p = 0,01) et linteraction de frquence/format (F = 4,34 ; p = 0 03)
ont un impact significatif sur lorientation client.
Figure 5.9
Interprtation du
test dhomognit.
Figure 5.10
Rsultats de
lANOVA
3 facteurs.
Cependant, ce stade, nous ne savons pas lequel des deux niveaux affecte le moins lorientation client du vendeur. Les facteurs manipuls ayant chacun deux niveaux, il est possible
de visualiser directement leurs effets laide de graphiques.
Allez dans le menu Analyse > Modle Linaire Gnral > Univari. Dans la bote de dialogue qui apparat, cliquez sur le bouton Diagrammes. Faites passer les facteurs significatifs
dans Axe horizontal et Courbes distinctes (effets dinteraction) puis cliquez sur Ajouter (voir
figure 5.11).
Figure 5.11
Obtention de
graphique afin de
visualiser les effets
des facteurs
significatifs.
Cliquez sur Poursuivre pour revenir la bote de dialogue MLG Univari puis sur OK.
Le graphique (voir figure 5.12) atteste que lorsque le nombre de gagnants au challenge est
faible, lorientation client des commerciaux baisse moins que lorsque le challenge fait un
nombre moyen de gagnants. Le challenge qui prserve mieux lorientation client fait donc
peu de vainqueurs.
114
Chapitre
Figure 5.12
Graphique dun
facteur ayant un
effet principal
significatif.
Nous constatons (voir figure 5.13) que le challenge en quipe avec une frquence faible
(un seul challenge organise la fois) maximise lorientation client du vendeur.
Figure 5.13
Graphique de
facteurs dont leffet
dinteraction est
significatif.
1.4 LANALYSE
MULTIVARIE DE LA VARIANCE
: MANOVA
Lanalyse multivarie de la variance est une extension de lANOVA pour mesurer les diffrences de moyenne de deux variables dpendantes quantitatives (ou plus) en fonction de
plusieurs variables qualitatives. Ce que la MANOVA apporte en plus de lanalyse de
variance simple concerne la corrlation des variables expliquer, dcompose en intra et
intergroupe. Ces interactions apparaissent lorsque les effets dun facteur donn sur les
variables expliques dpendent des modalits des autres facteurs.
1.5 LANALYSE
DE COVARIANCE
: ANCOVA
ET
MANCOVA
116
Chapitre
variable(s) indpendante(s). Une autre fonction de lANCOVA rside aussi dans la prise
en compte des diffrences de rponses dues aux caractristiques des rpondants.
Linterprtation dune ANCOVA et dune MANCOVA se fait en deux tapes. En premier
lieu, il faut considrer leffet de la (ou des) covariable(s). Ce rsultat se lit comme celui
dune rgression. Ensuite, il faut interprter les rsultats des facteurs explicatifs (variables
qualitatives).
SPSS
Nous cherchons expliquer lattitude du vendeur lgard du challenge. Pour cela, nous
avons ralis une ANOVA ayant pour facteurs la frquence, le format et le nombre de
gagnants. Pour amliorer la prcision de ces rsultats, nous ajoutons des variables qui pourraient expliquer les variations dattitude des commerciaux. ce titre, deux nouveaux lments sont pris en compte : lentreprise, cest--dire ltablissement bancaire o travaille
chaque vendeur, dont nous pouvons supposer quil influe sur les rsultats et, la fonction du
vendeur. En effet, lchantillon tant compos de vendeurs issus dentreprises et de fonctions
diffrentes, il est possible que ces variables entreprise et fonction soit lorigine de variations dans les rponses. Lintgration de ces covariables amliore la prcision de lanalyse
et permet de redresser les biais dus au fait que les rpondants ont diffrentes responsabilits. En consquence, lentreprise et la fonction du commercial sont ajoutes aux variables
explicatives pour toutes les variables expliques afin de les contrler.
Par ailleurs, deux caractristiques individuelles des vendeurs sont des variables explicatives
importantes du processus de motivation : lesprit de comptition et lambition du vendeur.
Nous testerons donc les effets de ces covariables sur lattitude du vendeur lgard du challenge.
Ouvrez le fichier exemple challenge , disponible sur le site de louvrage 1.
Allez dans le menu Analyse > Modle Linaire Gnral > Univari. Dans la bote de dialogue qui apparat (voir figure 5.14), transfrez les variables en les slectionnant une une
puis en cliquant sur les flches. La variable dpendante est lattitude lgard du challenge
(ATTITUDECHALLENGE). Les variables indpendantes sont places dans les champs Facteur(s) fixe(s) et Covariable(s). Les facteurs fixes sont : les modalits des challenges (FREQUENCE, FORMAT, NBGAGNANTS) ; les covariables sont : lentreprise, la fonction du
vendeur (entreprise, fonction), lesprit de comptition et lambition.
Figure 5.14
Commande dune
ANCOVA.
Le test de Levene (voir figure 5.15) est significatif (0,22), lhypothse dhomognit des
chantillons est donc accepte. Nous pouvons procder lanalyse des rsultats de
lANCOVA (voir figure 5.16).
Les caractristiques des challenges ainsi que les covariables expliquent 55 % de lattitude
du vendeur lgard du challenge (voir figure 5.16).
Figure 5.15
Interprtation du
test dhomognit.
Figure 5.16
Rsultats de
lANCOVA cinq
variables
explicatives.
Les rsultats de lANCOVA montrent que les covariables entreprise et esprit de comptition
ont un effet significatif sur lattitude du vendeur lgard du challenge. Comme nous lavions postul, lesprit de comptition du vendeur a un effet significatif, cependant, ce stade,
nous ne savons pas sil est positif.
Pour le dcouvrir, retournez dans la bote de dialogue : Analyse > Modle Linaire
Gnral > Univari et cliquez sur Options puis sur Estimations des paramtres (voir
figure 5.17). Les rsultats apparaissent alors pour lensemble des variables et des covariables.
Les rsultats de cette commande se lisent la figure 5.18.
Le tableau destimations des paramtres montre que, conformment ce qui apparat la
figure 5.18, lentreprise et lesprit de comptition ont un effet significatif sur lattitude du vendeur lgard du challenge. Lesprit de comptition a un effet positif sur cette attitude
( = 0,77 ; t = 14,19).
Comme pour une ANOVA, la lecture des effets des variables qualitatives se fait laide
dun graphique. La figure 5.19 atteste que le format a un impact significatif sur lattitude du
vendeur. Pour commander un diagramme pour ce facteur, allez dans le menu Analyse >
Modle Linaire Gnral > Univari puis cliquez sur le bouton Diagrammes.
118
Chapitre
Figure 5.17
Commande des
rsultats des
covariables.
Figure 5.18
Interprtation des
covariables.
Dans la bote de dialogue Diagrammes de profils, faites passer le format dans Axe horizontal puis cliquez sur Ajouter. Le graphique visible figure 5.19 apparat.
Figure 5.19
Interprtation des
variables
explicatives de
lANCOVA.
Le graphique montre que le format qui maximise lattitude du vendeur lgard du challenge est le format de comptition en quipe.
Cet exemple dvoile comment une ANCOVA prend en compte des variables explicatives
la fois qualitatives et quantitatives dans un mme traitement. La MANCOVA va plus loin
puisquelle traite en mme temps plusieurs variables explicatives de diffrentes natures
ainsi que plusieurs variables dpendantes quantitatives. Par exemple, elle permet dtudier
les effets des caractristiques de challenges et de lesprit de comptition des vendeurs sur
leur attitude lgard des challenges ainsi que sur leurs comportements lgard de la
clientle (orientation client). De fait, il est possible dtudier le challenge optimal en termes de satisfaction vendeur et de satisfaction client.
Concernant les covariables, les rsultats de la MANCOVA et ceux de lANCOVA se lisent
de faon similaire. Dautres statistiques, telles que la trace de Hotelling, la plus grande
racine de Roy, le lambda de Wilks et le critre de Pillai-Bartlett, servent interprter, pour
chaque variable explicative, leurs effets sur les variables dpendantes.
La mthode du plan dexprience, que nous allons explorer, est un terrain dapplication
privilgi de lanalyse de variance.
(2)
2.1 LA
120
Chapitre
* Focus 5.2
distingue le bloc alatoire et le plan factoriel. Le bloc alatoire regroupe les individus en
fonction dune seule variable externe majeure (par exemple, le type de client) susceptible
dinfluer sur la variable dpendante. Les rpondants de chaque bloc sont affects alatoirement aux groupes de traitement. Le plan factoriel autorise ltude de deux variables
externes non interactives ou plus et dune ou plusieurs variables indpendantes.
Nous allons aborder maintenant le plan factoriel et ses diffrentes versions.
2.2 LE
PLAN FACTORIEL
Le plan factoriel sert mesurer les effets de plusieurs variables indpendantes ayant plusieurs niveaux diffrents. Il permet ltude la fois des effets principaux et des effets
dinteraction de ces niveaux. Par exemple, on pourra examiner leffet du type de carburant
et du type de conduite sur la consommation de carburant.
La notion dinteraction correspond au fait que leffet dune variable explicative sur une
variable expliquer est changeant selon le niveau de lautre variable explicative. Il y a interaction quand leffet simultan de plusieurs variables diffre de leurs effets spars cumuls. Par exemple, un individu peut prfrer sortir au cinma (plutt que daller au thtre,
au concert ou encore chez des amis) et lt peut tre sa saison favorite pour sortir (plutt
que les trois autres saisons), mais il peut ne pas prfrer aller au cinma lt.
Dun point de vue statistique, un plan factoriel est lagrgation de variables
indpendantes : ensemble de niveaux de chaque variable indpendante et combinaisons
de ces niveaux slectionns pour lexprimentation. Le dispositif exprimental doit permettre de rpondre aux trois questions suivantes :
1. Quels sont les facteurs fondamentaux slectionns ?
2. Comment les niveaux de ces facteurs varient-ils ?
3. Comment ces niveaux doivent-ils tre combins ?
Par exemple, pour une tude de packaging de crales pour petit djeuner, on se
demandera :
1. Quels facteurs slectionne-t-on ? La forme du paquet, les codes couleur, le style, le
matriau utilis ?
Ensuite, si lon choisit dtudier la taille du paquet et le style :
2. Combien de niveaux choisit-on dexaminer ? Pour la taille du paquet : grand, moyen,
petit ? Pour le style : sport, sant, rgime ?
3. Croise-t-on tous ces niveaux ou seulement les combinaisons les plus pertinentes ?
La slection des facteurs et des niveaux tudis revient au charg dtude qui estime les
variables les mieux mme dexpliquer la variable dpendante. Le choix des combinaisons tester dtermine ensuite celui du plan factoriel utilis (complet ou fractionn).
Souvent, ltude dun grand nombre de facteurs et de niveaux conduit employer un
plan fractionn.
122
Chapitre
2.3 PLAN
* Focus 5.3
Figure 5.20
Challenge de vente
Le plan test.
- Format
Attitude du vendeur
lgard du
challenge de vente
- Frquence
- Nombre de gagnants
Ltude de toutes les modalits des challenges et de leurs niveaux requiert lutilisation dun
plan complet. Le protocole de lexprimentation est par consquent constitu de 2 2 2,
soit 8 combinaisons de caractristiques de challenges. Il faudra donc prsenter aux individus huit challenges de vente diffrents.
Le plan factoriel complet orthogonal permet lestimation de la moyenne des effets des facteurs sans craindre que les rsultats subissent une distorsion par leffet des autres facteurs.
Toutes les interactions sont testes. Lorthogonalit est vrifie en mettant en place ce
protocole : (1) on remplace les valeurs 1, 2 dans la matrice plan par les valeurs 1, 1
respectivement ; (2) on additionne ensuite les valeurs correspondantes de chacune des
colonnes ; (3), si la somme est gale zro, les colonnes sont orthogonales et les effets
reprsents par ces colonnes sont alors dits orthogonaux.
Tableau 5.1 : Plan factoriel complet
Scnarios
Format
Frquence
Nb gagnants
Orthogonalit
no 1
no 2
no 3
no 4
no 5
no 6
no 7
no 8
=0
Par exemple, le scnario no 2 correspond ici un challenge individuel, peu frquent et faisant un nombre moyen de gagnants.
124
Chapitre
EXEMPLE
Frquence
lev
Moyen
Faible
leve
A no 1
B no 4
C no 7
ABC
Moyenne
C no 2
A no 5
B no 8
CAB
Faible
B no 3
C no 6
A no 9
BCA
ACB
BAC
CBA
Le format de comptition qui est la troisime variable manipule est soit individuel (A), soit
en quipe (B), soit mixte (C). Chacun de ses niveaux doit apparatre dans chaque ligne et
chaque colonne.
Pour comprendre llaboration de ce plan, nous prenons lexemple du format de comptition. Le format individuel (A) apparat en colonne 1, ligne 1, en colonne 2, ligne 2 et en
colonne 3, ligne 3 ; le format en quipe (B) figure en colonne 1, ligne 3, en colonne 2,
ligne 1 et en colonne 3, ligne 2 ; le format mixte (C) figure en colonne 1, ligne 2, en
colonne 2, ligne 3 et en colonne 3, ligne 1.
Chacun des niveaux de la frquence et du nombre de gagnants est test une fois avec tous
les autres niveaux des deux autres facteurs. Il en est de mme pour tous les niveaux du facteur nombre de gagnants.
Par exemple, le scnario no 7 correspond ici un challenge mixte, peu frquent et faisant
un faible nombre de gagnants.
Rsum
Lanalyse de variance et de covariance sert valuer les carts des valeurs moyennes dune
variable dpendante sous leffet de variables indpendantes contrles et, cela, en tenant
compte de linfluence de variables indpendantes non contrles. LANOVA permet
deffectuer un test sur les moyennes de deux populations ou plus. Le test F permet de vrifier lhypothse nulle qui suppose lgalit des moyennes.
Lanalyse multivarie de la variance implique lexamen simultan de plusieurs variables
indpendantes qualitatives. Elle permet lvaluation de linteraction de ces variables. Le
test F sert vrifier la signification de leffet global, des effets principaux et des interactions. Il y a interaction lorsque leffet dune variable indpendante sur une variable dpendante diffre en fonction des modalits ou niveaux dune autre variable indpendante.
Lanalyse de covariable fait rfrence, en plus de variable(s) indpendante(s) qualitative(s), au test de variable(s) indpendante(s) quantitative(s). Cette dernire, appele
covariable, est souvent utilise pour liminer la variation externe de la variable dpendante.
126
Chapitre
Exercices
EXERCICE 1
QUESTIONS
nonc
Pour chacune des questions de recherche suivantes, trouvez le type danalyse de variance
appropri en spcifiant le nombre de facteurs avec leurs niveaux.
1. Lintention dachat des consommateurs varie-t-elle en fonction de la couleur du packaging (rouge, vert ou bleu) ?
2. La CSP (5 catgories) a-t-elle un effet sur la qualit du service peru ?
3. Lattitude vis--vis de la marque dun produit de luxe varie-t-elle en fonction du pays
dorigine de la marque (France, Espagne, Italie, tats-Unis) et de son rseau de distribution (trs slectif ou non slectif) ?
4. Linteraction entre le prix (lev, moyen ou faible), la notorit de la marque (forte ou
faible) et la frquence des contacts (forte ou faible) affecte-t-elle lattitude vis--vis de
la marque et lintention dachat de cette marque ?
5. Le niveau de prix (lev ou faible), le conditionnement (familial, standard, mini) et lattitude vis--vis des marques de lessive affectent-ils lachat de lessive par les personnes ges ?
6. Le style de la publicit (informative, humoristique, sexy) et lattitude vis--vis de la marque ont-ils un impact sur lintention dachat dun produit solaire de cette mme marque ?
7. Lge des clients (5 catgories) et la qualit du service perue affectent-ils la satisfaction et la fidlisation des clients dans le secteur bancaire ?
1. ANOVA un facteur, la couleur du packaging ayant trois niveaux (rouge, vert, bleu).
2. ANOVA un facteur, la CSP ayant cinq niveaux.
3. ANOVA deux facteurs, le pays dorigine de la marque et le rseau de distribution, lesquels ayant respectivement quatre niveaux (France, Espagne, Italie, tats-Unis) et deux
niveaux (trs slectif, non slectif).
4. MANOVA trois facteurs et deux variables expliques. Les trois facteurs sont le prix, la
notorit de la marque et la frquence des contacts, qui ont respectivement trois niveaux
(lev, moyen et faible), deux (forte ou faible) et deux (forte ou faible). Les deux variables
expliques sont lattitude vis--vis de la marque et lintention dachat de la marque par les
consommateurs.
5. ANCOVA trois variables explicatives : deux variables qualitatives (prix et conditionnement) et une variable quantitative, covariable (attitude vis--vis des marques de lessive).
Le prix et le conditionnement ont respectivement deux niveaux (lev, faible) et trois
(familial, standard, mini).
6. ANCOVA deux variables explicatives : le style de la publicit (qui a trois niveaux,
informative, humoristique, sexy) et la covariable attitude vis--vis de la marque.
7. MANCOVA deux variables explicatives (lge [qui a 5 niveaux] et la qualit du service
perue [covariable]) et deux variables expliques (la satisfaction et la fidlisation des clients).
Exercices
* Solution
DU POINT DE VENTE1
EXERCICE 2
TUDE
nonc
Vous travaillez sur une enqute destine mieux comprendre les comportements dachat
des clients dun magasin de chaussures. Vous cherchez identifier ces clients et connatre leur attitude lgard du point de vente. Vous avez collect 400 rponses et vous voulez exploiter ces donnes (fichier pointdevente 1).
Le grant du magasin souhaite savoir :
1. Si la dcoration du magasin est plus importante pour les femmes que pour les hommes.
2. Si le montant dpens par client est influenc par lcoute rgulire de mdias (radio
et TV).
* Solution
Figure 5.21
Commande de
lANOVA
1 facteur.
Pour effectuer un test dhomognit (voir figure 5.22), cliquez sur Options, Test
dhomognit puis sur OK.
Figure 5.22
Interprtation de
lANOVA
1 facteur.
128
Chapitre
Le test de Levene est significatif (0,78 > 0,05), lhypothse dhomognit des chantillons
est donc accepte. Les rsultats de lANOVA attestent que le sexe na pas dinfluence sur
limportance de la dcoration (0,78).
2. Afin de savoir si le fait que les clients coutent rgulirement des mdias (radio et TV) a
un impact sur le montant quils dpensent, il faut faire une ANOVA. Allez dans le menu
Analyse > Modle Linaire Gnral > Univari. Choisissez comme variable dpendante
le montant moyen dpens par mois, et comme variable indpendante : la frquence
dcoute radio et TV qui correspond aux questions : Vous dcririez-vous comme un
auditeur rgulier de radio ? et Regardez-vous rgulirement le journal tlvis ?
Figure 5.23
Commande dune
ANOVA.
Faites ensuite un test dhomognit des variances (voir figure 5.24) : cliquez sur Options,
Test dhomognit puis sur OK.
Figure 5.24
Interprtation dune
ANOVA.
Exercices
Ici le test de Levene (0,00) ne permet pas daccepter lhypothse dhomognit des
variances intragroupes. Les rsultats de lANOVA ne sont donc pas valables et on ne peut
pas dire que le fait de regarder rgulirement la TV ou la radio a un effet sur la consommation des clients dans le mois.
EXERCICE 3
QUEL
nonc
Un nutritionniste veut tester leffet de diffrents rgimes sur la perte de poids. Il souhaite
valuer leffet de trois rgimes sur des groupes dindividus. Le tableau suivant donne les
rsultats de ces rgimes en nombre de kilogrammes perdus aprs un mois pour trois
groupes dindividus ayant suivi les rgimes.
Les groupes sont composs comme suit :
Groupe A : individus ayant suivi un rgime hyperprotin ;
Groupe B : individus ayant suivi un rgime dassociation daliments ;
Groupe C : individus ayant suivi un rgime hypocalorique.
Tableau 5.3 : Exprience sur les rgimes
Groupe A
Groupe B
Groupe C
11
10
10
10
Aprs avoir saisi ces donnes, faites une analyse de variance pour vrifier si les moyennes
des trois groupes sont diffrentes.
* Solution
Pour saisir les donnes, allez dans Fichier > Nouveau > Donnes (voir figure 5.25).
Ensuite, dans Affichage des variables, rentrez le Nom des variables et leur tiquette. Nous
avons des donnes qualitatives (rgime) et des donnes quantitatives (kilos perdus) : la
colonne Mesure affiche Nominales et chelle.
Il faut ensuite entrer les donnes dans la partie Affichage des donnes (voir figure 5.26).
Il faut ensuite commander une ANOVA un facteur (voir figure 5.27). Allez dans le menu
Analyse > Comparer les moyennes > ANOVA un facteur. Choisissez comme variable
dpendante le nombre de kilos perdus et comme variable indpendante le type de rgime.
Demandez ensuite un test dhomognit des variances (voir figure 5.28). Cliquez sur
Options, Test dhomognit puis sur OK.
130
Chapitre
Figure 5.25
Exprience sur les
rgimes :
lenregistrement
des donnes.
Figure 5.26
Exprience sur les
rgimes :
lenregistrement
des donnes (suite).
Figure 5.27
Exprience sur les
rgimes :
commande de
lANOVA.
Figure 5.28
Exercices
Le test de Levene est significatif (0,52), lhypothse dhomognit des chantillons est
donc accepte. Nous pouvons procder lanalyse des rsultats de lANOVA.
Le type de rgime a un effet significatif sur la perte de poids. Cependant, ce stade, nous
ne connaissons pas le type de rgime le plus efficace. Il faut demander un test de diffrence
de moyenne (test post hoc) [voir figure 5.29].
Allez dans le menu Analyse > Comparer les moyennes > ANOVA un facteur, cliquez sur
le bouton Post Hoc puis choisissez un test (ici, le test de Duncan).
Figure 5.29
Exprience sur les
rgimes :
interprtation des
rsultats de
lANOVA (suite).
Les rsultats de lANOVA montrent que le rgime hypocalorique est le plus efficace. En
effet, la moyenne des kilos perdus par les personnes qui ont suivi ce rgime est significativement plus importante que les autres.
132
Chapitre
La rgression
linaire
1. La corrlation linaire ..............134
2. La rgression linaire...............136
Exercices
1. tude du point de vente............146
2. Les dterminants de la moyenne
des tudiants...........................147
3. tude du point de vente............152
133
(1)
La corrlation linaire
La corrlation linaire est une statistique largement utilise car elle synthtise limportance
de la relation entre deux variables mtriques. Le tableau 6.1 montre bien que le coefficient de
corrlation est le test statistique pour mesurer le lien entre deux variables quantitatives.
Tableau 6.1 : Rappel sur la nature des variables et le type danalyse
Nature des variables
Type danalyse
Test statistique
Qualitatives
Tri crois
Khi-deux
Qualitatives et quantitatives
ANOVA
Test F
Quantitatives
Rgression
Coefficient de corrlation
Aprs avoir prsent les principes de la corrlation, nous procdons une dmonstration
avec la ralisation dune corrlation multiple avec le logiciel SPSS.
1.1 LES
1.2 LA
134
Chapitre
SPSS
Nous cherchons savoir sil existe une relation entre des caractristiques du vendeur telles que
lge, lanciennet dans lentreprise et dans le poste, lambition et lattitude lgard des challenges de vente. Nous ralisons donc une corrlation linaire sur toutes ces variables quantitatives.
Ouvrez le fichier challenge 1. Allez dans le menu Analyse > Corrlation > Bivarie. La
bote de dialogue de la figure 6.1 apparat.
Figure 6.1
Commande dune
corrlation.
Gardez le coefficient de Pearson coch. Transfrez les variables en les slectionnant chacune
leur tour et en cliquant sur les flches. Faites OK. Les rsultats apparaissent (voir figure 6.2).
Figure 6.2
Interprtation dune
corrlation.
Les rsultats indiquent le coefficient de corrlation et la signification (Sig.). Si Sig. < 0,05,
on peut dire quil existe une corrlation entre les deux variables au seuil de 0,05. Le
signe ** indique que la corrlation est significative au seuil de 0,01.
Dans cet exemple, nous observons que lesprit de comptition et lattitude lgard des
challenges de vente sont fortement lis (0,71 ; p < 0,01).
ce stade, nous ne pouvons cependant pas dire si cest lesprit de comptition qui a un
impact sur lattitude lgard du challenge ou bien linverse. Cest grce la rgression
linaire que nous pouvons expliquer le sens de la relation entre ces deux variables.
(2)
La rgression linaire
La rgression linaire vise expliquer une variable dpendante par une ou un ensemble
de variables indpendantes quantitatives. Lorsque le problme implique une seule variable
indpendante, la technique statistique est appele rgression simple. Lorsque le problme
implique plusieurs variables indpendantes, il sagit dune rgression multiple. La rgression est utilise pour lexplication et la prdiction.
Les principes et conditions dapplication de la rgression simple sont exposs avant
daborder ceux de la rgression multiple. Ces deux techniques sont chacune illustres par
des exemples dapplications.
2.1 LA
136
Chapitre
* Focus 6.1
variable dpendante. Plus la corrlation est leve, plus la relation linaire entre les
variables indpendantes et la variable dpendante est leve.
R2 : la corrlation multiple au carr, appele coefficient de dtermination, est un
indice de la part de variance de la variable dpendante explique par les variables indpendantes qui sont dans lquation. Il donne ainsi la part de variance de la variable
explique par la variable indpendante.
Le Bta : ce coefficient standardis permet de comparer la contribution de chaque
variable puisquil sagit du coefficient de rgression ramen sur une chelle standard
(entre 1 et +1).
Le test F : sa valeur indique si la variance ou lajout de variance explique est significative, cest--dire si, quelle que soit la force de la relation entre les variables indpendantes et la variable dpendante, cette relation est susceptible dexister dans la population
et nest pas due simplement au hasard de lchantillonnage.
Le test t : sa valeur doit tre plus grande que 2 (1,96) pour tre significative (note**
p < 0,05). Elle indique si chacun des coefficients des variables prsentes dans lquation
est significatif.
Concomitance et corrlation
Concomitance et corrlation ne veulent pas dire obligatoirement relation de cause effet. Il
faut dabord comprendre le lien de causalit entre la variable explicative et la ou les variables
expliques, vrifier exprimentalement la solidit du lien (via les mthodes de rgression), et
seulement alors sen servir en explicatif ou en prvisionnel. Le risque sinon est de mettre en vidence une relation forte entre deux grandeurs nayant aucune relation de cause effet, mais
simplement relies toutes les deux pour des raisons trs diffrentes une mme troisime.
Par exemple, on cite frquemment lexemple de la bonne corrlation entre le nombre de meurtres par an en Grande-Bretagne et la consommation de chocolat ; de l en conclure que la
consommation de chocolat rend agressif ! (alors que les deux varient en fonction de la population, et si on neutralise cet effet, il ny a aucune corrlation, population fixe, entre la criminalit et la consommation de chocolat !). Ce risque est particulirement prsent lorsque lon
adopte des mthodes de type pas pas, en introduisant les variables explicatives uniquement en fonction de critres de performance et non pas en analysant sur un plan conceptuel la
relation de cause effet.
SPSS
Figure 6.3
Commande dune
rgression simple.
Figure 6.4
Interprtation dune
rgression simple.
Figure 6.5
Interprtation dune
rgression simple
(suite).
138
Chapitre
* Focus 6.2
2.2 LEXAMEN
DES RSIDUS
Figure 6.6
Demande dun
tableau des rsidus.
Cliquez ensuite sur Poursuivre et, pour avoir un graphique des rsidus, cliquez sur le bouton
Diagrammes. La bote de dialogue de la figure 6.7 apparat.
Figure 6.7
Demande dun
diagramme des
rsidus (suite).
Pour commander un diagramme de rsidus standardiss (*ZRESID) contre les valeurs prdites standardises (ZPRED), il faut transfrer avec les flches *ZRESID dans la case face Y
et *ZPRED dans la case face X. Cochez Diagramme P-P gaussien afin davoir la droite de
rgression. Cliquez ensuite sur Poursuivre pour revenir la bote de dialogue prcdente et
enfin sur OK.
Figure 6.8
Diagnostic des
observations.
Le tableau Diagnostic des observations montre que les observations 61, 202 et 337 sortent
de lintervalle [3 ; +3] avec un score moyen de 4,33 pour lattitude lgard du challenge.
Le rsidu standardis est suprieur 4 pour lobservation 61 et 3 pour les deux dernires.
Afin dliminer ces observations loignes de la droite de rgression, il faut aller dans le
menu Donnes > Slectionnez des observations. Cliquez sur le bouton Selon une condition
logique (voir figure 6.9).
Figure 6.9
Diagnostic des
rsidus.
140
Chapitre
Le graphique de rpartition des rsidus par rapport une rpartition normale montre que la
majorit des rsidus est aligne.
Figure 6.10
Nuage de points
des rsidus
standardiss.
Le nuage de points dit des rsidus standardiss en rapport avec les valeurs prdites standardises ne fait apparatre aucun modle particulier, ce qui confirme lhypothse de valeur
constante de la variance du terme derreur (homoscdasticit) et dindpendance des termes
derreur.
Dautres diagrammes, comme lhistogramme des rsidus standardiss, sont aussi examiner. Idalement, la distribution doit tre normale.
2.3 LA
142
Chapitre
Transfrez les variables en les slectionnant chacune leur tour et en cliquant sur les flches. La variable expliquer dans Variable dpendante, les variables explicatives dans
Variables explicatives.
La mthode de slection des variables pas pas est choisie eu gard notre choix de
recherche.
Figure 6.11
Commande dune
rgression multiple.
Figure 6.12
Commande de tests
de colinarit.
Les rsultats de la rgression multiple apparaissent dans longlet Rsultats (voir figures 6.13
et 6.14).
Ce premier tableau prsente les variables introduites : lesprit de comptition et la relation
avec le manager. Nous remarquons ici que lambition nest pas prise en compte car cette
variable ne contribue pas significativement la rgression.
Les deux variables prises en compte expliquent 51 % de lattitude lgard du challenge
(R2 ajust). Le tableau ANOVA atteste que les deux modles sont significatifs
(Signification = 0,00).
Nous lisons ensuite les rsultats du test de colinarit (voir figure 6.15).
Figure 6.13
Interprtation des
rsultats dune
rgression multiple.
Figure 6.14
Interprtation des
rsultats dune
rgression multiple
(suite).
Figure 6.15
Interprtation des
rsultats dune
rgression
multiple : tests de
colinarit.
Tolrances et facteurs dinflation de la variance (VIF) sont proches de 1, largement dans les
limites recommandes (tolrance > 0,3 et VIF < 3,3). Les variables explicatives sont donc
peu corrles entre elles, ce qui est un indice de qualit du modle.
Comme nous pouvons le voir (voir figure 6.16), la variable ambition a t exclue car elle a
de mauvaises statistiques de colinarit.
144
Chapitre
Figure 6.16
Interprtation des
rsultats dune
rgression
multiple : variables
exclues.
Nous pouvons conclure que le modle 2 est satisfaisant, car il explique 51 % de lattitude
lgard du challenge (R2 ajust). Il est significatif (voir tableau ANOVA, figure 6.14), les
coefficients de la pente de rgression sont significatifs et il ny a pas de problme de colinarit (voir tableau coefficients, figure 6.15).
Lesprit de comptition et la relation du vendeur avec son manager sont deux dterminants
de lattitude du vendeur lgard des challenges de vente.
Rsum
La corrlation sert mesurer la force de lassociation de deux variables quantitatives. Le coefficient de corrlation linaire mesure la relation linaire entre les deux variables quantitatives.
La rgression utilise la prsence de cette relation pour prdire les valeurs de la variable
dpendante partir dune variable indpendante. Lobjectif est donc destimer ou de prdire une variable partir dune autre grce une quation de rgression.
La rgression simple sert tester leffet dune seule variable indpendante sur une variable
dpendante. La force de la relation est mesure par le coefficient de dtermination R2. La
rgression multiple implique au moins deux variables indpendantes et une variable
dpendante. La signification de lquation de rgression globale est teste grce au test t.
Les graphiques des rsidus servent vrifier la pertinence des hypothses sous-jacentes et
lajustement du modle de rgression
Exercices
EXERCICE 1
TUDE
nonc
Une tude sur la clientle dun magasin vise mieux comprendre les clients et notamment les variables lies lintention dachat. Voici les rsultats de la corrlation multiple
entre le montant moyen dpens par mois, lintention dachat, le niveau dtudes, la
taille du foyer et le niveau de revenus du foyer (voir figure 6.17).
DU POINT DE VENTE
1. Quelles variables sont le plus relies au montant moyen dpens par mois ?
2. Ces variables sont-elles diffrentes de celles qui sont relies lintention dachat dans
le point de vente ?
Figure 6.17
Interprtation
des rsultats
dune corrlation
multiple.
* Solution
1. Les variables les plus relies au montant moyen dpens par mois sont le niveau dtudes (0,66) et le revenu du foyer (0,83). Lintention dachat est plus faiblement corrle au
montant moyen dpens par mois. Le signe ** indique que la corrlation est significative
au seuil de 0,01.
La taille du foyer nest pas relie au montant moyen dpens par mois. En effet, la corrlation de 0,03 nest pas significative, il ny a pas de signe ** lintersection de Taille du
foyer et de Montant moyen dpens par mois .
2. Comme pour le montant moyen dpens par mois, lintention dachat est aussi lie au
niveau dtudes et nest pas lie la taille du foyer. Toutefois, la diffrence du montant
moyen dpens par mois, lintention dachat et le niveau de revenus du foyer ne sont pas
fortement corrls (0,28).
146
Chapitre
EXERCICE 2
LES
nonc
On a demand des tudiants dune classe dvaluer la qualit de lenseignement en utilisant une chelle de notation en 5 points (1 = mdiocre, 5 = excellent). Nous avons aussi
relev la moyenne et le jour dabsence du trimestre des tudiants de la classe.
1. Enregistrez les donnes rcoltes dans le tableau sous SPSS au tableau 6.2.
2. Ces variables sont-elles corrles ?
3. Effectuez une analyse par rgression multiple de la qualit perue de lenseignement et
de labsentisme durant le trimestre sur la moyenne du trimestre. Interprtez les coefficients de rgression. La rgression est-elle significative ? Que concluez-vous ?
Tableau 6.2 : Donnes rcoltes
Moyenne du
trimestre
Qualit perue
de
lenseignement
Absentisme en
jours par
trimestre
10
15
11
16
12
11
14
10
10
14
11
11
12
13
14
11
15
10
16
17
14
18
15
19
11
20
14
Exercices
tudiant
* Solution
tudiant
Moyenne du
trimestre
Qualit perue
de
lenseignement
Absentisme en
jours par
trimestre
21
12
22
11
23
24
25
11
26
10
27
14
28
12
1. Pour rentrer ces donnes sous SPSS, allez dans Fichier > Nouveau > Donnes. Ensuite,
dans Affichage des variables entrez le Nom des variables et leur Etiquette. Nous avons ici
des donnes quantitatives et donc la Mesure slectionne est Echelle (voir figure 6.18).
Figure 6.18
Rappel de la
procdure pour
rentrer les donnes
sous SPSS.
Il faut ensuite entrer les donnes dans la partie Affichage des donnes. Chaque ligne correspond la rponse dun tudiant. Nous avons ainsi un tableau de trois colonnes et 28
lignes pour les 28 tudiants de la classe (voir figure 6.19).
2. Afin de savoir si les variables sont corrles, il faut demander une corrlation entre les
trois variables : qualit de lenseignement perue, absentisme des lves et moyenne du
trimestre.
Allez dans Analyse > Corrlation > Bivarie. La bote de dialogue de la figure 6.20 apparat. Faites passer les variables de gauche droite laide de la flche, puis cliquez sur OK.
Les rsultats de la corrlation apparaissent dans le tableau de rsultats la figure 6.21.
Le tableau des corrlations obtenu entre la note du trimestre, labsentisme en nombre de
jours par trimestre et la qualit perue de lenseignement montre quil existe un lien significatif entre labsentisme et la note moyenne. Le signe atteste que ces deux variables
voluent de manire inversement proportionnelle. Autrement dit, plus un tudiant est
absent moins sa note du trimestre est bonne. Il ny a pas de corrlation entre la note
moyenne du trimestre et la qualit perue de lenseignement, comme il ny a pas de lien
entre le taux dabsentisme des tudiants et la qualit perue de lenseignement.
148
Chapitre
Figure 6.19
Rappel de la
procdure pour
rentrer les donnes
sous SPSS (suite).
Figure 6.20
Demande de
corrlation entre la
qualit de
lenseignement,
labsentisme et la
moyenne.
Figure 6.21
Exercices
Rsultats de la
corrlation entre la
moyenne,
labsentisme et la
qualit de
lenseignement.
3. Pour raliser la rgression multiple (pas pas), allez dans le menu Analyse >
Rgression > Linaire.
Transfrez la variable note moyenne vers Variable dpendante, puis les variables qualit
de lenseignement et absentisme, chacune leur tour, vers Variables explicatives en cliquant sur les flches.
La mthode de slection des variables par dfaut est choisie. Cliquez ensuite sur OK (voir
figure 6.22).
Figure 6.22
Demande dune
rgression multiple
(Pas pas) sur la
moyenne du
trimestre.
Avant de lancer la commande de rgression, la non-colinarit entre les variables indpendantes doit tre vrifie. Pour ceci, il faut faire des tests de colinarit. Retournez dans la
bote de dialogue puis cliquez sur Statistiques, Tests de colinarit. Cliquez ensuite sur
Poursuivre et OK (voir figure 6.23).
Figure 6.23
Demande de tests
de colinarit.
Les rsultats de la rgression multiple figurent dans la bote de rsultats la figure 6.24.
150
Chapitre
Figure 6.24
Interprtation des
rsultats de la
rgression multiple
sur la moyenne du
trimestre.
Toutes les variables sont conserves pour la rgression puisque nous navons pas spcifi
de mthode de rgression particulire ; la mthode par dfaut prend toutes les variables
explicatives (voir figure 6.25).
Figure 6.25
Interprtation des
rsultats de la
rgression multiple
sur la moyenne du
trimestre (suite).
Exercices
DU POINT DE VENTE1
EXERCICE 3
TUDE
nonc
Vous travaillez sur une enqute destine mieux comprendre les comportements dachat
de clients dun magasin de chaussures. Vous cherchez identifier ces clients et connatre
leur attitude lgard du point de vente. Vous avez collect 400 rponses et cherchez
exploiter ces donnes (fichier pointdevente 1).
Le grant du magasin souhaite savoir :
1. sil existe une relation entre la taille du foyer et le montant dpens dans le magasin ;
2. si le niveau dtudes influence lintention dachat dans le point de vente.
* Solution
Figure 6.26
Demande de
corrlation entre la
taille du foyert et le
montant dpens.
152
Chapitre
2. Pour savoir si le niveau dtudes influence lintention dachat au point de vente, il faut
faire une rgression du niveau dtudes sur lintention dachat.
Voici la commande effectuer : Analyse > Rgression > Linaire. Faites passer lintention
dachat vers Variable dpendante et le niveau dtudes (Question : Quel est votre niveau
dtudes ?) vers Variables explicatives, puis faites OK (voir figure 6.28).
Figure 6.28
Demande de
rgression du
niveau dtudes sur
lintention dachat.
Exercices
Interprtation des
rsultats de la
rgression du
niveau dtudes sur
lintention dachat.
Le tableau ANOVA atteste que le modle est significatif. Le test t de la rgression du niveau
dtudes sur lintention dachat est suprieur 2. Nous pouvons donc conclure que le
niveau dtudes a un effet significatif et positif sur lintention dachat dans le magasin
(t = 11,58 ; p < 0,01). Le niveau dtudes explique 25 % de lintention dachat (R2 ajust).
Autrement dit, plus les individus ont des diplmes, plus ils sont prts effectuer des achats
dans le magasin.
154
Chapitre
Lanalyse
conjointe
1. Les principes
de lanalyse conjointe ..............156
2. La prparation
de lanalyse conjointe ..............158
3. Linterprtation de lanalyse......164
Exercices
1. tude sur la consommation
de th cration de plan
dexprience et de scnario......172
2. tude sur la consommation
de th Calcul des prfrences
des consommateurs .................174
155
(1)
* Focus 7.1
Le modle compensatoire
Le modle dattitude implicite de lanalyse conjointe est un modle compensatoire, o lvaluation se fonde sur le principe du compromis, cest--dire quun peu moins dun attribut peut tre
compens par un peu plus dun autre.
Par exemple, un individu qui cherche un appartement peut avoir plusieurs critres : le montant
du loyer, la superficie, le nombre de pices, la luminosit, la proximit des transports
publics, etc. Si lun de ces critres nest pas satisfait (superficie insuffisante), il peut tre compens par un montant du loyer plus faible dans un modle compensatoire (ce nest pas le cas
dans le modle non compensatoire).
156
Chapitre
1.1 LES
1.2 LES
Nouveaux produits
72 %
Prix
61 %
Segmentation
48 %
Publicit
39 %
Distribution
7%
1.3 LES
(2)
Figure 7.1
Les tapes de
lanalyse conjointe.
158
Chapitre
2.1 LA
* Focus 7.2
dterminants du processus dachat de crmes glaces. Ils ont d valuer chacun de ces critres
selon le degr dimportance (de pas du tout trs important ) :
le prix ;
le parfum ;
la marque ;
le conditionnement.
Une question ouverte (Autre) a permis didentifier dautres critres cls, par exemple :
la composition du produit.
La slection du nombre de facteurs a une incidence directe sur le plan dexprience utilis.
En effet, lorsquon cherche tester un nombre important dattributs et de niveaux, il est
souvent difficile de considrer toutes les configurations possibles (voir focus 7.3, Plan
complet et plan fractionn) car cest trop coteux en termes dexprience.
* Focus 7.3
2.2 LA
160
Chapitre
La mise en situation possde lavantage de rendre lexprience plus raliste et, par l, de
mieux impliquer les rpondants dans la cration de sens. Le but est aussi de sloigner de
la rationalisation et deffectuer son choix comme dans une situation relle dachat.
Une description verbale, un texte descriptif crit, une photo, un dessin ou un prototype
peuvent servir prsenter les stimuli. Il faut ici veiller ce que les scnarios soient crdibles et quaucun ne soit manifestement trop attractif ou, au contraire, rpulsif. Les stimuli
doivent, de fait, avoir une apparence similaire afin que les prfrences des individus soient
bien le fruit des attributs tests.
Le tableau 7.2 expose les mthodes de prsentation des scnarios les plus usites.
Tableau 7.2 : Les mthodes de prsentation des stimuli les plus utilises
de lanalyse conjointe
Description verbale
50 %
Texte descriptif
20 %
Descriptif visuel
19 %
Prototype
7%
Autres
4%
Exemple de vignettes
Voici un exemple de vignettes utilises pour dcrire diffrentes offres de chambres dhtel.
Les facteurs manipuls sont :
la localisation de lhtel (centre-ville, proche dune autoroute, excentr) ;
le type de chambre (luxe, standard, simple) ;
le prix de la chambre (lev, conomique) ;
la marque (chane dhtel connue ou pas).
Le tableau 7.3 liste les vignettes qui permettent de dcrire les diverses combinaisons prsentes aux individus.
Tableau 7.3 : Vignettes dcrivant les offres de chambres dhtel
valuation
Classement ou Note
valuation
Classement ou Note
2.3 LA
162
Chapitre
Lavantage des mthodes du trade off et de comparaison par paires est que les individus
peroivent clairement les offres et rpondent facilement. Leur principal inconvnient est
le nombre important dvaluations ncessaires. La mthode du profil complet en exige
moins. Elle est donc intressante lorsquon cherche tester un nombre important dattributs et de niveaux dattributs.
Pour les deux mthodes, il nest pas toujours utile de faire valuer toutes les combinaisons possibles mme si lemploi de plans fractionns (voir focus 7.3) peut parfois pallier ce problme.
30 %
Entretiens de groupe
26 %
18 %
Autres
26 %
(3)
Linterprtation de lanalyse
Cest partir dune application que nous verrons comment raliser et interprter une analyse conjointe. Dans un premier temps, nous voyons la slection des attributs, lenregistrement des rponses, la cration des scnarios et du plan via le logiciel SPSS. Ensuite, nous
prsentons les rsultats de lanalyse conjointe ainsi que les procdures de vrification de sa
fiabilit et de validit.
3.1 EXEMPLE
Le nombre dattributs et de niveaux tant faible, nous pouvons utiliser la mthode du plan
complet. Nous devrions avoir : 2 2 2 = 8 profils.
Nous allons voir maintenant la procdure suivre sur SPSS pour gnrer le plan qui servira de base au dveloppement des scnarios de lanalyse conjointe.
164
Chapitre
Cliquez ensuite sur le bouton Ajouter pour insrer les autres facteurs, toujours dans les
champs Nom facteur et Etiquette facteur. Nous saisissons format et format du challenge
puis, aprs avoir cliqu sur Ajouter : budget et budget du challenge.
Figure 7.3
Enregistrement des
attributs.
Ensuite, il faut dfinir les niveaux de chacun des facteurs. Pour cela, slectionnez chaque
facteur et cliquez sur le bouton Dfinir valeurs (voir figure 7.3). Nous choisissons dattribuer la valeur 1 au format individuel et la valeur 2 au format en quipe. Cliquez ensuite
sur Poursuivre pour revenir la bote de dialogue et refaites cette action pour chacun des
attributs (la valeur 1 pour les objectifs quantitatifs et la valeur 2 pour les objectifs
qualitatifs ; idem pour le budget du challenge, la valeur 1 pour le budget ferm et la
valeur 2 pour le budget ouvert) [voir figure 7.4].
Lanalyse conjointe 165
Figure 7.4
Enregistrement des
niveaux des
attributs.
Ensuite, vous devez indiquer o placer ce plan orthogonal. Pour cela, cliquez sur le bouton
Fichier de la bote de dialogue visible la figure 7.5 (choisissez un emplacement o il peut
tre facilement rcupr et souvenez-vous de son intitul).
Attention ! Le nom du fichier doit tre en majuscules sinon SPSS ne gnre pas le plan
orthogonal.
Nous appelons le fichier ORTHO7.
Figure 7.5
Sauvegarde du
fichier et demande
de copie de la
syntaxe.
La procdure de lanalyse des mesures conjointes sous le logiciel SPSS requiert un miniprogramme ou une macrocommande qui indique au logiciel les facteurs tudis ainsi que
leurs niveaux. SPSS cre ainsi le plan factoriel qui donne les combinaisons tester
(ORTHO).
Ensuite, le logiciel croise le plan factoriel avec les rponses enregistres dans le fichier
(DATA) comme nous allons le dcouvrir. Trs important pour la suite de lanalyse : cliquez sur le bouton Coller de la mme bote de dialogue afin davoir la syntaxe de la
macrocommande (voir figure 7.6).
Cest seulement aprs cette action que vous cliquez sur OK (pour cela, revenez au menu
Donnes > Plan orthogonal > Gnrer). Le message suivant (voir figure 7.7) doit alors
apparatre dans Rsultats.
166
Chapitre
Figure 7.6
Copie de la
syntaxe.
Figure 7.7
Annonce de la cration
du plan orthogonal.
Figure 7.8
Affichage du plan
orthogonal.
ce stade, le plan gnr, qui se trouve lemplacement choisi, permet de crer les scnarios. Le scnario no 2 prsentera aux individus un challenge individuel (format = 1), un
objectif quantitatif (format = 2) et un budget ferm (budget = 2).
Ladministration de la simulation
Compte tenu du nombre limit de variables, les donnes sont collectes selon la mthode
des profils complets. Concernant le recueil des donnes, nous avons choisi un classement
des profils par ordre dcroissant de prfrence.
Lensemble des huit stimuli a t class (par ordre dcroissant de prfrence) par un chantillon de 86 commerciaux lors dune runion de formation. Ces donnes ont t rcupres sur un questionnaire.
Figure 7.9
Exemple de
scnario.
Scnario 8
Vous gagnez le challenge
cette semaine
si vous tes le meilleur vendeur
du produit X
168
Chapitre
Vous devez sauvegarder cette base de donnes dans le rpertoire du document contenant
les donnes du plan orthogonal : Fichier > Enregistrer sous > C :
ce stade, nous avons le plan orthogonal gnr par SPSS et les donnes recueillies et
transcrites dans le fichier prcdent. Nous utilisons une macrocommande pour raliser
lanalyse conjointe.
Slectionnez ensuite lensemble des syntaxes et cliquez sur la flche noire dans la barre
doutils (voir figure 7.12).
Figure 7.12
Excution de la
macrocommande.
Lanalyse conjointe est ralise. Un message apparat qui indique que la procdure a bien fonctionn. Dans le cas contraire, vrifiez lcriture correcte de la macrocommande de syntaxe.
Les rsultats de lanalyse conjointe apparaissent dans la bote Rsultats du logiciel SPSS.
Nous allons voir comment les interprter.
Les modalits qui ont les utilits moyennes les plus fortes sont respectivement : lobjectif
quantitatif, le format en quipe et le budget ferm. La figure 7.14, qui expose les utilits
moyennes et limportance de chaque attribut, met en vidence le poids de lobjectif dans
les choix du challenge, devant le format et le budget. Si aucun des trois attributs nest
ngligeable, le type dobjectif est deux fois plus important que les deux autres.
Le choix des commerciaux se porte en premier lieu sur le type dobjectif du challenge, facteur trs important pour eux, qui prfrent les objectifs quantitatifs. Ensuite, apparat le
format de comptition, quils apprcient en quipe. Enfin, le budget du challenge compte
moins, les commerciaux inclinant pour un budget ferm avec un classement plutt que
pour un quota atteindre.
170
Chapitre
Figure 7.14
Rsultats de
lanalyse des
mesures conjointes
(bis).
Cette analyse des mesures conjointes permet donc de souligner le type de concours idal
pour les commerciaux interviews dans cette exprimentation : un challenge quantitatif,
organis en quipe et avec un budget ferm.
Rsum
Le comportement des individus, et en particulier des consommateurs, vis--vis des produits rsulte doprations complexes qui mettent en jeu perceptions et prfrences. Pour
russir la conception dun objet, il est donc utile dvaluer ces prfrences et de modliser
les jugements des individus. Lanalyse conjointe rsout ce type de problme.
Cette mthode repose sur lide que limportance relative accorde un attribut par les
consommateurs et les utilits quils attachent aux niveaux des attributs peuvent tre dtermines lorsquils valuent des profils dobjets, construits partir de ces attributs et de
leurs niveaux. Il faut donc commencer par identifier les attributs et les niveaux cls pour
construire les stimuli. Les plans fractionns, gnrs par SPSS, permettent de rduire le
nombre de profils tester. La variable dpendante est gnralement une prfrence estime par un score ou un classement.
Les rsultats mettent en exergue les attributs les plus importants dans lvaluation dun
objet et les niveaux prfrs laide des utilits partielles. Ils permettent ainsi de dgager le
produit optimal aux yeux des individus.
Exercices
EXERCICE 1
nonc
Vous tes chef de produit chez Lipton, on vous confie le lancement dun nouveau th.
Dans ce cadre, vous cherchez connatre les prfrences des consommateurs. Aprs avoir
anim une runion de groupe, vous cherchez valuer quatre lments importants :
1.
2.
* Solution
SCNARIO
Figure 7.15
La cration du plan
orthogonal.
Pour dfinir les niveaux de chacun des facteurs, slectionnez chaque facteur et cliquez sur
le bouton Dfinir valeurs.
172
Chapitre
Figure 7.16
Enregistrement des
niveaux dattributs.
Attribuez des valeurs tous les niveaux de chacun des attributs. Pour la temprature du
th, 1 pour chaud, 2 pour tide, 3 pour froid (voir figure 7.16).
Cliquez ensuite sur le bouton Poursuivre pour revenir la bote de dialogue et refaites
cette action pour chacun des attributs.
Pour le sucre, la valeur 1 pour pas de sucre , 2 pour un sucre , 3 pour 2 sucres . Pour
la force du th, la valeur 1 pour fort , 2 pour moyen , 3 pour lger . Enfin pour le
citron, la valeur 1 pour avec citron , 2 pour sans citron . Cliquez enfin sur Poursuivre.
Lorsque tous les attributs et leurs niveaux sont saisis, indiquez o vous allez placer le plan
orthogonal (voir figure 7.17). Cliquez sur Fichier et choisissez un emplacement o le
plan peut tre rcupr.
Ensuite, cliquez sur le bouton Coller de la mme bote de dialogue (voir figure 7.18) afin
davoir la syntaxe de la macrocommande.
Figure 7.17
Copie de la
syntaxe.
Cliquez enfin sur OK (pour cela, revenez au menu Donnes > Plan orthogonal > Gnrer). Le message Un plan est gnr correctement avec 9 cartes doit apparatre dans
longlet Rsultats.
2. La cration des stimuli pour le test de produit
Le plan orthogonal cr est un plan fractionn. En effet, nous aurions d tester
3 3 3 2 = 54 profils. Or, notre plan nous permet une importante conomie dvaluations de 54 9 = 45 expriences.
Le profil 1 correspond un th froid, comptant un sucre, lger avec du citron.
Le profil 2 correspond un th froid, comptant deux sucres, fort et sans citron. Etc.
Exercices
Figure 7.18
Sauvegarde du
fichier et demande
de copie de la
syntaxe.
Figure 7.19
Affichage du plan
orthogonal.
EXERCICE 2
nonc
174
Ths
Individus
Chapitre
* Solution
Ths
Individus
Figure 7.20
Enregistrement des
donnes.
Les rsultats de lanalyse conjointe apparaissent dans la partie Rsultats (voir figures 7.22
et 7.23).
Le test dhomognit des prfrences (tau de Kendall) est de 0,97, ce qui permet daccepter les rsultats globaux.
Il ressort de lanalyse conjointe que la force, la temprature et le sucre sont les trois attributs les plus importants dans les prfrences des consommateurs de th. Les modalits
Exercices
Slectionnez ensuite lensemble des syntaxes et cliquez sur la flche noire dans la barre
doutils.
Figure 7.21
criture de la
macrocommande.
Figure 7.22
Interprtation des
rsultats de
lanalyse conjointe.
Figure 7.23
Interprtation des
rsultats de
lanalyse conjointe
(bis).
ayant les utilits moyennes les plus fortes sont la temprature (les consommateurs prfrent le th froid), le sucre (un sucre), la force (moyen) et le citron (sans).
176
Chapitre
Communiquer
les rsultats
1. Rdiger le rapport ...................178
2. Mettre en valeur les rsultats.....181
Exerices
1. tude de limpact
dune campagne de publicit ...190
2. tude dun lectorat...................191
177
(1)
Rdiger le rapport
La rdaction dun rapport dtude nest pas directement lie lanalyse des donnes.
Cependant, mme si le projet a t bien men, un rapport ingal peut compromettre le
succs et la valorisation dune tude. Cette communication des rsultats de lenqute peut
faire lobjet dune ou de plusieurs mises en forme, et se trouve le plus souvent complte
dune prsentation orale que nous naborderons pas ici.
1.1 LA
* Focus 1
Le brief de ltude
Le brief de ltude (ou projet dtude) peut servir de base la rdaction du rapport. Il sagit du
document qui cadre linteraction entre le client et la socit dtude, et dont la Fdration Syntec tudes Marketing et Opinions a dfini les grandes lignes :
partir des informations fournies par le client ou dfaut dinformations compltes, en prcisant ses hypothses de travail, la socit pourra remettre une proposition :
rappelant les objectifs de ltude et les types de rsultats qui seront fournis ;
prcisant les modalits techniques :
mode dchantillonnage ;
modalit de recueil des donnes ;
nombre et dispersion des points de sondage ;
plan du questionnaire ;
analyse et rapport ;
indiquant les dlais ;
faisant mention du prix et des paramtres permettant de le calculer ;
faisant tat dautres dispositions ventuelles.
Objectifs de lanalyse : cette partie est essentielle car elle rsume les lments cls de
lanalyse et reprend les lments lis la dfinition du problme (tels que nous les avions abords dans le chapitre 1). Le rappel des objectifs permet de communiquer plus
prcisment sur des aspects qui sont gnralement matriss par le charg dtude tels
que lapproche mthodologique ou les interprtations statistiques. En les faisant apparatre clairement au destinataire, le rdacteur du rapport peut mettre en avant la rsolution progressive de ces objectifs de dpart. Dans le cadre de notre enqute fil rouge sur
le point de vente, on pourrait formuler notre analyse en la rsumant ainsi : Qui sont
les clients du futur point de vente ? .
178
Chapitre
Figure 8.1
Structure dun
rapport dtude.
Objectifs de lanalyse
Questions rsoudre
Mthodes danalyse
Rsultats principaux
Interprtations dtailles
Conclusions
Recommandations et limites
Questions rsoudre : il sagit ici dtablir les questions principales qui permettent
davancer dans la satisfaction aux objectifs de lanalyse. Dans notre exemple, il sagissait, dans un premier temps, de dcrire les clients en fonction des variables didentification (ge, sexe, revenus, etc.), de les classer en grands segments homognes, puis enfin
de comprendre leurs comportements (intention dachat par exemple).
Procdures de collecte des donnes : cette rubrique reprend les donnes utilises pour
les besoins de ltude. Il faut en prciser la source sil sagit de donnes secondaires, ainsi
que les caractristiques principales (nombre dobservations, de variables, etc.). Dans le
cas de donnes primaires, le rdacteur du rapport devra apporter un soin particulier
la description des procdures de collecte. Quelle mthode dchantillonnage ? Quel instrument de mesure ? Comment les donnes brutes ont-elles t prpares ? Dans notre
exemple sur le point de vente, les donnes sont issues dun questionnaire administr en
face--face 400 rpondants, clients de lenseigne.
Mthodes danalyse : les mthodes employes et les stratgies danalyse sont prsentes
ce stade. Dans un premier temps, les tests de nature descriptive (tris croiss, comparaisons de moyenne, etc.), puis les tests lis la reprsentation des donnes (analyse factorielle, typologie), et enfin les tests de nature explicative (rgressions, analyses de
variance, etc.). Dans notre tude, nous avons tout dabord dcrit les clients par le biais
des principales variables didentification, puis mis en place deux analyses des corrlations multiples pour tablir les variables lies au montant moyen dpens et lintention dachat des futurs clients du point de vente.
Rsultats principaux : cette partie, la plus importante du rapport, peut tre constitue
de plusieurs sous-parties. Pour plus de clart, il est recommand dorganiser ces sousparties en fonction de thmes noncs ds le dpart. Dans le cadre dune tude dimage
de marque par exemple, le premier niveau de rsultats consiste valuer les scores de
notorit obtenus, puis les rapprocher des rsultats par groupes dattributs pour identifier les attentes des consommateurs. Les rsultats principaux doivent rpondre point
par point aux objectifs de lanalyse et apporter une solution la demande du client de
ltude. la question de dpart Qui sont les clients du futur point de vente ? , nous
avons rpondu en plusieurs squences : la description des variables cls, la dfinition
des segments de clients, lidentification de dterminants de lintention dachat, etc.
Interprtations dtailles : les interprtations dtailles ont pour objet dapporter un
clairage technique aux rsultats et dclairer le lecteur du rapport sur la dmarche
mthodologique. On trouve, dans cette rubrique, lexplication des tests mis en uvre,
les hypothses respecter, linterprtation des indicateurs de significativit des tests,
entre autres. Ces lments techniques doivent tre prsents de manire intelligible en
fonction du profil du lecteur. En effet, ceux-ci nont pas tous la mme expertise en termes dchantillonnage ou de tests statistiques, et le charg dtude doit veiller formuler ces lments de manire tre compris de tous les destinataires du rapport.
Conclusions : cette partie est essentielle au client de ltude et a pour objet de lui fournir tous les lments de synthse utiles pour la valorisation et lutilisation de ltude.
Une tude rcente sur la situation de la grande distribution en Europe prsentait ses
conclusions autour de quatre grands dfis relever : les dfis de la grande consommation, les dfis de la gestion des ressources humaines, les dfis de la relation client et les
nouveaux chantiers informatiques.
Recommandations et limites : les recommandations accompagnent la prsentation des
rsultats et reprsentent lengagement de lanalyste dans la rponse au problme pos
par lentreprise commanditaire. La recommandation nest pas systmatique et suppose
une expertise de la part de lanalyste, ou tout le moins que le problme pos ait t
analys suffisamment en profondeur. En principe, le fait de raliser ltude suppose que
lon se soit inform au pralable sur le secteur, que lon ait t brief par le client et, en
consquence, que lon est en mesure de dpasser la simple description et de simpliquer
dans la rsolution du problme managrial. Enfin, les limites ayant pes sur ltude doivent tre mentionnes (temps, budget, moyens, etc.). Ce retour sur les conditions de
ralisation de lanalyse et sur les prcautions que le commanditaire devra prendre lors
de lutilisation des rsultats est un lment important qui doit prvenir toute extrapolation hasardeuse, sans toutefois minimiser les rsultats de ltude.
1.2 LES
180
Chapitre
des tests statistiques. Autrement dit, aucune erreur nest tolrable dans un rapport danalyse. Erreurs de calcul ou de syntaxe, fautes dorthographe, maladresses conceptuelles et
terminologiques ne sont que quelques exemples de ce manque de prcision qui pnalise la
crdibilit dun rapport.
La clart de lexpression, la logique du raisonnement, la rigueur de lexpression et de lanalyse sont les fondements naturels du second critre de qualit dun rapport : lintelligibilit. Le lecteur du rapport peut prouver des difficults de comprhension et par suite
des doutes quant la qualit du travail effectu lorsque le raisonnement napparat pas
clairement (des hypothses de travail insuffisamment mises en avant par exemple), ou
lorsque la prsentation manque de prcision (une mthode dchantillonnage qui reste
confuse). Les croyances des commanditaires jouent galement un rle dans la bonne
comprhension des rsultats de lenqute. Dans notre enqute sur le point de vente, si les
responsables de lenseigne estiment (via des tudes internes, des reportings de vente, etc.)
que 50 % des clients ont lintention dacheter dans le nouveau magasin, et que les rsultats
de lenqute sont loigns de cette prvision, le rdacteur devra justifier cet cart. Lintelligibilit ce niveau participe de la pdagogie : cet cart peut tre d une mauvaise comprhension de la question ou de lchelle de mesure, un biais dchantillonnage ou une
erreur dans la prise en compte des non-rponses. Le rdacteur devra rpondre aux interrogations du client sur ces carts et expliquer ses rsultats.
(2)
2.1 MATRISER
LES TABLEAUX
Les tableaux doivent systmatiquement tre numrots, comporter un titre clair mentionn dans le texte (par exemple : le tableau 8.2 illustre les effectifs de la variable
marital ), et ne doit retenir que la partie la plus significative des donnes. La matrise des
tableaux est un exercice dlicat, qui suppose de bien matriser la manire dont on souhaite
communiquer les rsultats, et qui repose sur la distinction vue plus haut entre rsultats
principaux et interprtations dtailles. Il existe, en effet, des niveaux de rsultats simples
facilement comprhensibles par le lecteur, et dautres, plus complexes, qui exigent des
complments et des clairages. La figure 8.2 illustre un rsultat simple (description du statut marital des rpondants de lenqute sur le point de vente), alors que la figure 8.3 montre le tableau dun rsultat plus complexe (analyse de corrlation sur une srie de variables
de la mme enqute).
Dans le cas dune prsentation de rsultats complexes, la lecture du tableau suppose un
certain nombre dlments facilitant linterprtation. Les astrisques (**) et la mention en
Figure 8.2
Prsentation dun
rsultat simple.
Figure 8.3
Prsentation dun
rsultat complexe.
bas du tableau apportent un complment important permettant de ne retenir que linformation pertinente, savoir les variables les plus fortement corrles entre elles (niveau
dtudes et intention dachat par exemple). Il est prfrable de prsenter ces tableaux complexes en annexe du rapport et de communiquer directement les rsultats dans une section du rapport : le niveau dtudes, le montant moyen dpens et les revenus sont
corrls lintention dachat .
SPSS
182
Chapitre
Figure 8.4
Fonction tableaux
personnaliss.
Figure 8.5
Fonction tableau
pivotant.
Figure 8.6
Prsentation de la
fonction Empiler.
mesur par une srie de variables dont on peut ainsi empiler les rsultats pour en obtenir
une vision exhaustive.
Plusieurs possibilits sont galement disponibles partir des tableaux croiss que nous
avons abords au chapitre 2. Pour rappel, les tableaux croiss sobtiennent par la procdure suivante : Analyse > Statistiques descriptives > Tableaux croiss La procdure de
lEmbotement consiste insrer une variable dans la mme dimension dun tableau crois
afin dapporter un niveau de rsultat supplmentaire. La figure 8.7 montre lembotement de
la variable Sexe dans la variable Catgorie dge.
Figure 8.7
Prsentation de la
fonction
Embotement.
partir du menu tableaux personnaliss, vous pouvez demander des strates afin dajouter
une dimension de profondeur vos tableaux et crer ainsi des cubes tridimensionnels
comme le montre la figure 8.8.
Figure 8.8
Prsentation de la
fonction Strates.
La fonction Tableau permet de contrler les totaux et sous-totaux, les pourcentages les frquences, afin de choisir la prsentation optimale de vos rsultats. Il est possible de modifier
volont laspect dun tableau en crant, par exemple, un modle qui reprend lensemble
des proprits dfinissant laspect du tableau. On accde aux modles de tableaux en double-cliquant sur le tableau dans lditeur de rsultats et en slectionnant dans le menu
Format > Modles de tableaux
184
Chapitre
2.2 AMLIORER
LES GRAPHIQUES
Les graphiques jouent eux aussi un rle crucial dans la prsentation des rsultats. Ils enrichissent le contenu du rapport, condition dtre prsents bon escient. Cela implique
le bon choix du modle de graphique en fonction du test mis en uvre et un emploi
pertinent : complment dun tableau ou dun rsultat prsent dans le texte, amlioration
de la lisibilit et de la fluidit du rapport, etc. Les graphiques peuvent tre considrablement enrichis grce SPSS. Ils sont gnrs de diverses manires : par le biais des principaux tests statistiques ou par lutilitaire de diagramme que nous prsentons dans cette
section. Nous aborderons trois types de graphiques : les diagrammes en btons, les diagrammes en secteurs et les diagrammes de dispersion qui sont les plus utiliss.
SPSS
Figure 8.9
Bote de dialogue
Gnrateur de
diagramme.
Le gnrateur de diagramme affiche simultanment une seconde fentre (Proprits de llment) qui vous permet notamment dafficher dans un menu droulant des statistiques que
vous pouvez insrer dans le diagramme (des effectifs par exemple). Vous ntes donc pas
oblig de passer par un tableau pour crer un graphique de statistiques descriptives pour
une ou plusieurs variables. On dmarre lutilitaire en faisant glisser licne reprsentant le
diagramme envisag dans le canevas, cest--dire la large zone qui saffiche au-dessus de
la galerie (longlet activ sur la figure 8.9). On fait ensuite glisser les variables vers les
zones de dplacement de laxe : il existe une variable de type chelle en colonne (Quel
montant moyen dpensez-vous par mois dans ce type de point de vente ?), une variable de
type nominal en ligne (Quel est votre statut marital ?) et une seconde variable de type nominal (Possdez-vous une carte de fidlit de lenseigne ?), afin de grouper les rpondants
dans ce diagramme en bton group. Nous obtenons le diagramme de la figure 8.10, qui
fait apparatre limportance de la possession dune carte de fidlit.
Figure 8.10
Diagramme en
btons juxtaposs.
Vous pouvez modifier tout moment le diagramme ou choisir un autre type de diagramme
pour reprsenter les mmes donnes. Pour modifier un lment du diagramme, activez lditeur de diagramme en double-cliquant dessus et utilisez le menu Affichage > Proprits
Ce menu vous permettra de modifier le texte du diagramme, la couleur et le motif de remplissage des btons, dajouter du texte (par exemple un titre ou une annotation), etc.
Il existe de nombreuses autres possibilits de modification. Nous en verrons quelques-unes
en prsentant deux autres types de diagrammes : les graphiques en secteur et les graphiques de dispersion. On peut, par exemple, masquer certaines modalits dun graphique en
secteur. Pour crer un graphique en secteur, faites glisser un graphique dans le gnrateur
de diagramme (dans SPSS, il se nomme diagramme circulaire/polaire). Nous allons reprsenter de cette manire les gots musicaux des rpondants en reprsentant la variable progradio. Aprs avoir fait glisser le graphique en secteur dans le gnrateur de diagramme,
cliquez sur le menu Options qui vous permet dinclure ou dexclure des observations. On
peut ainsi exclure du graphique les non-rponses au questionnaire. Pour exclure des modalits sous-reprsentes, ou que lon ne souhaite pas faire apparatre, comme ne se prononce pas ou ne sais pas , qui sont frquentes dans des enqutes en marketing, on
utilise longlet Modalits. Lorsque le graphique est cr (en secteur par exemple), double-cliquez dessus pour activer lditeur de diagramme. Slectionnez le diagramme en secteur
puis dans le menu dition ouvrez le sous-menu Proprits comme nous lavons vu plus haut :
la bote de dialogue de la figure 8.11 saffiche. Activez ensuite longlet Modalits et supprimez la modalit indiffrents qui se trouve dans la fentre Exclus.
Pour amliorer la lecture du graphique, il est intressant dinsrer les valeurs des donnes.
Une fois que vous avez affich lditeur de diagrammes, slectionnez le diagramme en secteur, puis dans le menu lments slectionnez Afficher les tiquettes de donnes Le diagramme en secteur, prsent la figure 8.12, montre une nette prfrence pour les
programmes musicaux de type rock.
Il est possible de transformer les valeurs (en pourcentage par exemple) et de modifier la
position de ltiquette.
Nous allons illustrer dautres possibilits par le biais des diagrammes de dispersion. Pour ce
faire, nous changeons de jeu de donnes. Ouvrez le fichier ventes_voitures.sav que
nous avons utilis au chapitre 4. Slectionnez le gnrateur de diagramme en suivant le
chemin : Graphe > Gnrateur de diagramme, puis cliquez sur longlet Galerie et choisissez le diagramme de dispersion regroupe (corrlation/points) (voir figure 8.13).
186
Chapitre
Figure 8.11
Exclusion dune
modalit de
variable.
Figure 8.12
Diagramme en
secteur avec
valeurs.
: 98
: 63
: 159
: 65
Figure 8.13
Gnration dun
diagramme de
dispersion.
Figure 8.14
Diagramme de
dispersion du
rendement
nergtique par
type de vhicule.
188
Chapitre
Figure 8.15
Diagramme de
dispersion avec
courbe
dajustement.
Rsum
La prparation du rapport fait cho au brief de ltude et reprend les grandes tapes de
lanalyse des donnes. Son principal objectif consiste mettre en lumire les rponses possibles au problme managrial pos. Un rapport de qualit doit tre la fois prcis et intelligible, au sens o il doit prsenter de faon claire pour toutes les parties prenantes de
ltude des rsultats justes. La mise en valeur des rsultats dans le rapport passe par la matrise des tableaux et des graphiques. Nous avons pass en revue dans ce chapitre les utilitaires de SPSS pour gnrer des tableaux pivotants et des diagrammes de qualit, mais
lutilisateur doit sexercer, exprimenter pour pouvoir en dcouvrir toutes les facettes.
En guise de conclusion, et pour paraphraser Stefan Sweig : il ne sert rien dprouver les
plus beaux sentiments si lon ne parvient pas les communiquer .
Exercices
EXERCICE 1
TUDE
nonc
* Solution
190
Chapitre
EXERCICE 2
TUDE DUN
nonc
Cet exercice a pour objet de vous familiariser avec les tableaux et les diagrammes. Ouvrez
le fichier pointdevente.sav . La matrise des tableaux et des diagrammes peut vous
faire gagner un temps prcieux lors de la rdaction du rapport.
LECTORAT
Exercices
1. Reprsentez les rponses la variable intention qui estime lintention dachat dans le
nouveau point de vente au moyen dun tableau. Effectuez les choix ncessaires pour
prsenter le tableau le plus clair possible.
2. Pour faire cho lexercice 1 qui traite de lunivers de la presse, reprsentez sous forme
de diagramme la variable rubrikpress qui fait ressortir les rubriques de presse quotidienne le plus souvent lues par les rpondants. Vous devez produire un graphique
attractif et prcis.
* Solution
1. Pour crer le tableau, suivre la procdure : Analyse > Statistiques descriptives > Effectifs On obtient le tableau de la figure 8.16.
Figure 8.16
Effectifs de la
variable intention.
Laspect du tableau nest pas satisfaisant en ltat. Nous allons le modifier en passant par
un modle de tableau prexistant. Suivons la procdure indique dans la partie thorique
du chapitre : double-cliquez sur le tableau dans lditeur de rsultats, puis le menu
Format > Modles de tableaux Nous slectionnons le modle Avant-garde afin de
distinguer certaines rubriques du tableau qui apparatront en gris. Certaines rubriques
du tableau cr (pourcentage valide et pourcentage cumul) ne sont pas directement utiles
pour lire les rsultats. Nous allons donc les liminer en slectionnant les colonnes liminer et en les coupant par un click droit. Enfin, lorsque votre tableau est conforme au format souhait, vous pouvez le copier-coller dans votre rapport. Nous constatons le
rsultat la figure 8.17.
Figure 8.17
Tableau modifi.
2. Pour obtenir directement le diagramme, allez dans le menu Graphes > Botes de dialogues hrites puis slectionnez le diagramme de votre choix. La variable rubrikpress tant
une variable nominale 5 modalits, un graphique en secteurs est appropri. Slectionnez
Analyse par catgories dans la bote de dialogue qui saffiche (nous allons reprsenter les
effectifs par modalit de la variable), puis Dfinir. Dans la deuxime bote de dialogue (Diagramme en secteurs : Groupes dobservations), faites glisser la variable dans la rubrique
Dfinir les secteurs par puis validez. Vous avez cr le graphique prsent la figure 8.18.
Pour en amliorer laspect, double-cliquez sur le graphique pour ouvrir lditeur de diagramme, puis slectionnez le diagramme en secteur pour lactiver. Dans le menu
dition > Proprits vous pouvez retravailler, par exemple, la taille du diagramme, sa
profondeur et son angle, et le reprsenter en 3-D pour le rendre plus attractif. Dautres
changements peuvent tre oprs, comme nous lavons vu, par menu lments pour afficher les tiquettes de donnes ou encore clater un secteur (le plus frquemment cit par
exemple) afin de mettre en valeur les rsultats. Le diagramme modifi prend laspect de la
figure 8.19, qui est lillustration dune combinaison parmi dautres. Nous vous encourageons prolonger lexercice sur plusieurs types de graphiques, pour bien matriser les
tableaux et diagrammes dans SPSS : vous de jouer maintenant !
192
Chapitre
Figure 8.18
Graphique en
secteur simple.
Edito
Economie
Info locale
Annonces
Loisirs/sant
Figure 8.19
Graphique en
secteur modifi.
52
96
56
57
Edito
118
Economie
Info locale
Loisirs/sant
Exercices
Annonces
Bibliographie
gnrale
Churchill G. A. Jr, Marketing Research, 3e dition, The Dryden Press, Harcourt Brace
College Publishers, 1998.
Churchill G. A., A paradigm for developing better measures of marketing constructs ,
Journal of Marketing, 16, p. 64-73, 1979.
De Vellis R. F., Scale developement: theory and application, vol. 26, Sage, Thousand Oaks,
2003.
Dussaix et al., Lanalyse conjointe, la statistique et le produit idal, Ceresta,1992.
Evrard Y., Pras B., Roux E., Market. tudes et recherches en marketing, Nathan, Paris, 2003.
Gerbing D. W., Anderson J. C., An updated paradigm for scale development incorporating unidimensionality and its assessment , Journal of Marketing Research, 25, p. 186192, 1988.
Giannelloni J. C., Vernette E., Les tudes de march, Broch, Paris, 2001.
Goupy J., Introduction aux plans dexprience, Dunod, Paris, 2006.
Green P. E., Srinivasan V., Conjoint analysis in marketing: new developments with
implications for research and practice , Journal of Marketing, 54, 4, p. 3-19, 1990.
Hair J. F. Jr., Bush R., Ortinau D., Marketing Research, 3e dition, d. McGraw-Hill-Irwin,
New York, 2006.
Hair J. F. Jr., Black W. C., Babin B. J., Anderson R. E., Tatham R. L., Multivariate Data
Analysis, 5e dition, d. Pearson Prentice Hall, New Jersey, 2006.
Kozinets R.V., The field behind the screen: Using netnography for marketing research in
online communities, Journal of Marketing, Research, 39, 1, p. 61-72, 2002.
Lilien G. L., Rangaswamy A., De Bruyn A., Principles of Marketing Engineering, ISBM,
State College, PA, 2007.
Liquet J. C., Cas danalyse conjointe, Broch, Lavoisier, 2001.
Liquet J. C., Benavent C., LAnalyse conjointe et ses applications en marketing, IAE Lille,
2000.
Louviere J. J., Analyzing Decision Making: Metric Conjoint Analysis, Sage, New York,1988.
Malhotra N., Decaudin J. M., Bouguerra A., tudes marketing avec SPSS, Pearson Education,
Paris, 2007.
195
196
Index
A
Abaques 11
Access panels 8
on-line 8
Accord, chelle de mesure 15
Ad hoc, tendue 4
Agrgation
chane 91
des donnes 51
mthode 85
Ajustement
courge 187
test 42
Alpha
de Cronbach 53
seuil dacceptabilit 53
Analyse
bivarie 20, 36
bivarie, variable dpendante 36
bivarie, variable indpendante 36
conjointe, tapes 158
de fiabilit 65
de variance 108
factorielle 54, 56
factorielle, mthode 61
multivarie 20
multivarie de la variance 115
rapport d 178
typologique 81, 90
univarie 20
ANCOVA 116
ANOVA un facteur 108
Aplatissement 32
coefficient d (Kurtosis) 32
Arbre
de dcision 90
hirarchique 87
B
Baromtre 4
Barycentres 85
Biais de lexprimentation 17, 121
effet de linstrument 121
effet de test 121
histoire 121
maturation 121
mortalit 121
Botes moustaches 31
Bonferroni, test de 109
Boule de neige, chantillonnage 11
Brief de ltude 178
C
Carr latin 123
Catgorisation 80
Centiles 32
Centres
de groupes 91
mobiles 88
Chane des agrgations 91
Classification 80, 85
ascendante 84
descendante 84
hirarchique 84
hirarchique ascendante 85
hirarchique descendante 86
non hirarchique 84, 88
Clustering 80
Coefficient
daplatissement (Kurtosis) 32
dassociation prdictive 39
Index 197
de contingence 39
de corrlation multiple 136
de dtermination 137
de Pearson 134
de symtrie (Skewness) 32
de variation 32
phi 39
standardis 137
structurels 60
Collecte de donnes 3
Communalits 60
Comparaisons multiples 109
Composantes 60
principales 61
Comprhension, prtest 18
Concomitance 137
Conditions dapplication de la rgression 136
Confiance
intervalle 12
seuil 40
Construits 16
multidimensionnels 59
Contamination, effet 18
Contingence, coefficient 39
Corrlation 137
de Pearson, mesure 84
linaire 134
matrice 57
multiple, coefficient 136
Corrlations anti-image, matrice 57
Courbe dajustement 187
Covariable 116
Covariance, matrice 57
Cramer, V de 39
Cronbach, Alpha de 53
D
Data mining 7
Data warehouses 3
DDL (degrs de libert) 38
Dcrire les donnes 20
Degrs de libert (DDL) 38
Dmarche dtude 2
Dendogramme 86, 87, 91
Descriptive, mthode 20
Dtermination, coefficient 137
Diagramme
de dispersion 187
en btons 31
en secteurs 31
gnrateur de 185
Diffrentiel smantique, chelle de mesure 15
198
Dispersion 31, 32
diagramme 187
Distance 83
de Minkowski, mesure 84
de Tchebycheff, mesure 84
du diamtre, mthode 85
euclidienne 83
mesure 83
moyenne, mthode 85
Distribution 31
normale 33
Donnes
collecter 3
crire 20
expliquer 20
non structures 8
normalit 109
primaires 8, 9
saisir 130
secondaires 3, 7, 8
secondaires externes 7
secondaires internes 7
structures 8
textuelles 89
Duncan, test de 109
E
cart type 32
chantillonnage
boule de neige 11
de convenance 11
mthode 10
stratifi 10
chantillons 9
alatoires 10
apparis 35, 41
indpendants 35, 41
non probablilistes 10
probabilistes 10
taille 11
uniques 41
chelle 17
dintention 16
dOsgood 15
de Likert 16
de Stapel 16
neutralit 18
chelle de mesure 16, 17
accord 15
diffrentiel smantique 15
intensit 15
intention 15
Likert 15
mtrique 15
nominale 15
ordinale 15
Stapel 15
traduction 17
diteur de diagramme 186
Effectifs 30
Effets
dinteraction 112
de contamination 18
de halo 18
de lassitude 18
principaux 112
galit des moyennes, hypothse 108
Eigenvalue 57
Embotement 184
Empiler 182
Entretien 3
individuel 5
puration des donnes 59
Equamax 58
Erreur 11
alatoire 18, 19
de type 1 40
de type 2 40
indpendance des termes 136
marge d 12
systmatique 18, 19
termes d 18
types 40
tapes de lanalyse conjointe 158
tendue 32
tude
ad hoc 4
brief de l 178
daudience 12
de cas unique 121
dmarche 2
descriptive 6
explicative 6
exploratoire 18
omnibus 4
prdictive 6
projet 178
qualitative 5
quantitative 5, 6
Euclidienne, mesure de distance 83
Exprimentation 120
Explicative, mthode 21
Expliquer les donnes 20
F
Facettes 16
Facteurs 54
dinflation de la variance 142
Factorielle, analyse 54, 56
Factorisation 63
Fiabilit 19, 53
analyse 65
Formes alternatives, technique 53
Fractiles 32
Frquences 30
G
Gnrateur de diagramme 185
Graphiques 31, 181
Grco-latin 123
Groupe statique 121
H
Halo, effet 18
Hasard, tirage au 10
Hirarchique, mthode 84
Histogrammes 31
Homognit 109
Homoscdasticit 136
Hypothse
alternative 40
dgalit des moyennes 108
nulle 40
statistique 40
I
Indpendance des termes derreur 136
Indice
de Rogers et Tanimoto, mesure de 84
de Sokal et Michener, mesure de 84
de Sokal et Sneath, mesure de 84
Infrence, principe 39
Inflation de la variance, facteur 142
Intensit, chelle de mesure 15
Intention
chelle 16
chelle de mesure 15
Interaction 112, 122
effet 112
Intervalle 32
de confiance 12
Items 16
Itinraires, mthode 11
Index 199
K
Kaiser-Guttman, rgle de 57
Kaiser-Meyer-Olkin (KMO) 57
Kolmogorov-Smirov, test de 42
Kurtosis (coefficient dapplatissement) 32
L
Lambda 39
Lassitude, effet 18
Libert, degrs de (DDL) 38
Likert, chelle de mesure 15, 16
Linarit 22, 136
Loi normale 33
M
MANCOVA 116
MANOVA 115
March-test 5
Marge derreur 12
Marketing
de masse 80
individualis 80
segment 80
Matrice
de corrlation 57
de covariance 57
des corrlations anti-image 57
McNemar 43
Measure of Sampling Adequacy (MSA) 57
Mdiane 31
Mesures
apparies 41
de la dispersion 32
de proximit 83
indpendantes 41
outils 17
Mesures de distance 83
corrlation de Pearson 84
distance de Minkowski 84
distance de Tchebycheff 84
distance euclidienne 83
indice de Rogers et Tanimoto 84
indice de Sokal et Michener 84
indice de Sokal et Sneath 84
Mthode
dagrgation 85
dchantillonnage 10
de lanalyse factorielle 61
de slection des variables de rgression 142
de Ward 86
des barycentres 85
200
N
Netnographie 5, 6
Neutralit dune chelle 18
Nominale, chelle de mesure 15
Non hirarchique, mthode 84
Non probabiliste, mthode 10
Normalit 136
des donnes 109
Nuage de points 81
Nues dynamiques 88
mthode 88
O
Oblimin direct 58
Observation 9
Ordinale, chelle de mesure 15
Orthogonalit 124
Osgood, chelles de mesure 15
Outils de mesure 17
Outliers 31
P
Panels 4, 8
daudience 9
de distributeurs 9
Pearson, coefficient 134
phi, coefficient 39
Plan
complet 160
factoriel 122
factoriel complet 123
factoriel fractionn 123
fractionn 160
Plan dexprience, mthode 120
Points cls du rapport 180
Population 9
Prcision
des rsultats 11
statistique dun test 12
Prtest de comprhension 18
Prtest/post-test et groupe de contrle 121
Principaux, effets 112
Principe dinfrence 39
Probabiliste, mthode 9
Projet dtude 178
Proximit, mesure de 83
Puissance du test 40
Q
Quartiles 32
Quartimax 58
Questionnaire 3, 16
Quotas, mthode 10
R
R2 137
Rapport
danalyse 178
dtude, structure 179
points cls 180
Rgle
de Kaiser-Guttman 57
des valeurs propres 57
Rgression
conditions dapplication 136
linaire 136
linaire multiple 141
linaire simple 136
multiple 141
Rsultats, prcision 11
Rtro-traduction 18
Runions de consommateurs 3
Risque dartefact 82
Rotation 62
des facteurs 58
oblique 58
orthogonale 58
S
Saisir les donnes 130
Saut minimum, mthode 85
Scnarios, mthode 121, 160
Scree Test 57
Segmentation 80
Slection des variables de rgression, mthode 142
Seuil
dacceptabilit de lalpha 53
de confiance 40
de signification 40
Signe 43
Signification, seuil 40
Skewness, coefficient de symtrie 32
Sondage, taux 11
units de 9
Split half 53
Standardisation 84
coefficient 137
Stapel, chelle 15, 16
Statistique dun test, prcision 12
Structure dun rapport dtude 179
Structurel, coefficient 60
Symtrie 32
coefficient (Skewness) 32
dune chelle 18
T
t de Student 42
Tableaux 181
croiss 36
personnaliss 182
pivotants 182
Taille de lchantillon 11
Taux de sondage 11
Taxinomie 80
Tchebycheff, mesure de distance 84
Techniques
des formes alternatives 53
qualitatives 4
quantitatives 4, 6
Tendance centrale 31
Termes derreur 18
Test
/retest 53
dajustement 42
Index 201
dhypothses 35, 41
dinfrence 41
de Bonferroni 109
de comparaison dchantillons apparis 42
de comparaison dchantillons indpendants 42
de Duncan 109
de Kolmogorov-Smirov 42
de lboulis 57
de la mdiane 43
de Levene 109
de McNemar 44
de Scheff 109
de Sphricit de Bartlett 57
de Tukey 109
de Wilcoxon 43
du coude 57
du khi-deux 37
du signe 43
non paramtrique 35, 41, 42, 109
paramtriques 35, 41
post hoc 109
prcision statistique 12
puissance 40
statistiques 39
t 42
t pour chantillon unique 13
U de Mann-Whitney 43
Z 42
Tirage au hasard 10
Traduction dchelles de mesure 17
Tri
plat 31
croiss 36, 37
Type
danalyse de variance 108
derreurs 40
Typologie 80
analyse 81, 90
202
U
U de Mann-Whitney, test de 43
Units de sondage 9
Univarie, analyse 20
V-W
V de Cramer 39
Valeurs
extrmes 31
propres, rgle des 57
Validit 19, 90
convergente 52
de contenu 52
discriminante 52
faciale 18, 52
nomologique 52
prdictive 52
Variable 30
de segmentation 81
dpendante 14
dpendante, analyse bivarie 36
explicative 14
explique 14
indpendante 14
indpendante, analyse bivarie 36
mdiatrice 14
modratrice 14
qualitative 14, 30
quantitative 15, 31
Variance 32
analyse de 108
coefficient 32
facteur dinflation 142
intragroupe 109
Varimax 58
Vignettes 121
mthode 160
Vraie valeur 19
Ward, mthode 86
Sciences de gestion
Synthse
de cours
exercices
corrigs
&
Direction de collection :
Roland Gillet, professeur
luniversit Paris 1
Panthon-Sorbonne
Dans la mme collection :
Analyse financire et valuation
dentreprise, S. Parient
Performance de portefeuille,
P. Grandin et al.
Cration de valeur et capitalinvestissement, M. Cherif et
S. Dubreuille
Contrle de gestion, Y. de Rong et
K. Cerrada
conomtrie, . Dor
Finance, A. Farber et al.
Marketing, une approche
quantitative, A. Steyer et al.
Mathmatiques appliques la
gestion, A. Szafarz et al.
Probabilits, statistique et processus
stochastiques, P. Roger
Stratgie, A. Desreumaux et al.
Les enqutes par questionnaire avec
Sphinx, S. Ganassali
Analyse de donnes
avec SPSS
Ce livre a pour objectif damener dcouvrir tout le potentiel de
lanalyse des donnes travers de nombreux exemples et exercices
dapplication, situs principalement dans le champ du marketing.
Progressif et pdagogique, il sarticule autour des tapes cls dune
analyse de donnes : la dfinition de la problmatique, la description des donnes, la validation des instruments de mesure. La suite
du livre met laccent sur le choix dune mthode danalyse, quelle
soit descriptive (tris croiss, analyse factorielle) ou plus technique
(ANOVA, rgression, analyse conjointe). Le dernier chapitre traite
de la rdaction du rapport, lment essentiel de la communication
des rsultats.
Le livre inclut de nombreux exemples illustratifs et applications. La
plupart de ces dernires font appel SPSS afin que le lecteur se familiarise avec ce logiciel. Il pourra ainsi appliquer ses connaissances
thoriques et mettre en pratique une dmarche danalyse.
Ce livre sadresse aux tudiants de premier et de second cycle (IUT,
BTS, universits et coles de commerce). Rappel mthodologique sur
la ralisation dune analyse de donnes et outil concret dutilisation
de SPSS, il sera galement utile aux chargs dtudes en activit.
ISBN : 978-2-7440-4075-7