Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

QM_Leçon 4

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 17

QUANTITATIVE METHODS

BBA 1 BUSINESS MANAGEMENT – FRENCH TRACK

Campus de Lille : Campus de Nice :


Eric-André BILINSKI Nicolas BERNARD
Agnès CARPENTIER Annabelle CAUMEL
Grégoire CAUCHIE Sabine SCHMID
Christophe CHEVAL
2024-2025
Grégory DE LOOZE
Coordinateur du cours : Grégoire CAUCHIE
LEÇON 4
LIAISON ENTRE DEUX VARIABLES QUANTITATIVES
INTRODUCTION

 Objectifs de cette leçon :


 mesurer l’intensité de la liaison entre 2 variables quantitatives
 aborder les biais statistiques menant à des corrélations fallacieuses : corrélation n’est pas causalité

Liaison statistique
entre X et Y

X et Y sont QUALITATIVES : X est QUALITATIVE X et Y sont QUANTITATIVES :


Y est QUANTITATIVE :
𝒄𝟐 𝒄𝒐𝒗(𝑿; 𝒀)
𝑽 de Cramer 𝜼𝟐𝒀/𝑿 𝒓(𝑿; 𝒀)
(Leçon 3) (Leçon 3) (cette leçon 4)

Modélisation :
Régression simple et régression multiple
(Leçons 5 et 6)

3
INTRODUCTION

 Une vaste variété de liaisons, a priori d‘intensité variable...

 Physiques : distance parcourue et temps de trajet, température et cuisson, trafic routier et pollution...

 Macroéconomiques : PIB et taux de chômage, croissance et pauvreté, consommation et épargne...

 Microéconomiques : salaire et niveau de diplôme, prix et quantités vendues, R&D et innovation...

 “Dangereuses” : corrélations fallacieuses et biais de variables omises, paradoxe de Simpson

4
INTRODUCTION
Exemple
 Le directeur des ventes de brandonesofià (célèbre fabricant de canapés et fauteuils)
dispose d’une large force de vente et souhaite déterminer s’il existe un lien entre le nombre
de rendez-vous et le nombre de produits vendus. Il sélectionne un échantillon aléatoire de
15 vendeurs (tableau 1) en observant les données sur le dernier semestre d’activité.

1ère étape : inspection graphique

Tendance globale :
relation linéaire croissante
entre X et Y

La relation statistique semble


donc exister mais n’est pas
parfaite : quelle est l’intensité de
cette relation ?

Calcul du coefficient de
corrélation linéaire 𝒓(𝑿; 𝒀)

Relation linéaire croissante 5


LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire

 Le coefficient de corrélation linéaire, noté r (échantillon) et 𝝆 (population), permet de mettre en évidence


l’intensité du lien statistique entre 2 variables quantitatives car 𝑟 ∈ −1 ; +1
 Méthode de calcul :
𝑐𝑜𝑣(𝑋; 𝑌)
𝑟 𝑋; 𝑌 = Ecart type toujours positif !
𝑠 ×𝑠

 Avec 𝑠 désignant l’écart-type de la variable X et 𝑠 désignant l’écart-type de la variable Y


 𝑐𝑜𝑣(𝑋; 𝑌) désigne la covariance, un indicateur statistique mesurant le sens de la liaison statistique entre 2 variables
quantitatives X et Y. La covariance mesure la moyenne du produit des écarts à la moyenne, soit :
1
𝟏. 𝑐𝑜𝑣 𝑋, 𝑌 = 𝑥 − 𝑥̅ 𝑦 − 𝑦
𝑁
ou d’après le théorème de König-Huyghens :
1
𝟐. 𝑐𝑜𝑣 𝑋, 𝑌 = 𝑥 𝑦 − 𝑥̅ 𝑦
𝑁
Note : ces deux écritures mathématiques s’appliquent sur des données présentées sous forme de tableau élémentaire.

6
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire
 Explication graphique de la covariance entre X et Y

𝑥̅ Pour la majorité des points du nuage


région 1 région 2 (régions 2 et 3) :
𝒙𝒊 − 𝒙 𝒚𝒊 − 𝒚 > 𝟎

Covariance positive : en moyenne…


𝑦
• …à des valeurs élevées de Y sont associées des
valeurs élevées de X et…

• …à des valeurs faibles de Y sont associées des


valeurs faibles de X

région 3 région 4 Les variables X et Y évoluent dans le même sens :

Relation linéaire croissante entre X et Y

7
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire
 Autres types de relation :
 Covariance négative  Covariance nulle

pas de relation –indépendance– pas de relation linéaire…


relation linéaire décroissante
(ni linéaire, ni non-linéaire) …mais il existe une relation
entre X et Y non-linéaire !

 Principale limite : la covariance n’informe que sur le sens de la relation entre X et Y, et non sur l’ampleur
de l’intensité de la relation, car 𝑐𝑜𝑣(𝑋; 𝑌) ∈ −∞; +∞ .
8
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire
𝑐𝑜𝑣(𝑋; 𝑌) Etapes de calcul :
 Calcul du coefficient de corrélation linéaire : 𝑟 𝑋; 𝑌 = • Moyennes
𝑠 ×𝑠 • Variances et écarts-types
• Covariance
• 𝑥̅ = 96 et 𝑦 = 45
• 𝑉 𝑋 ≈ 1706,67 ; 𝑉 𝑌 ≈ 155,07 ; 𝑠 ≈ 41,31 ; 𝑠 ≈ 12,45

1 96 − 96 41 − 45 + ⋯ + 84 − 96 30 − 45
𝟏. 𝑐𝑜𝑣 𝑋, 𝑌 = 𝑥 − 𝑥̅ 𝑦 − 𝑦 =
𝑁 15

D’où 𝟏. 𝑐𝑜𝑣 𝑋, 𝑌 = 𝟒𝟒𝟒, 𝟖𝟎


1 96 × 41 + 40 × 41 + ⋯ + 44 × 31 + 84 × 30
𝟐. 𝑐𝑜𝑣 𝑋, 𝑌 = 𝑥 𝑦 − 𝑥̅ 𝑦 = − 96 × 45
𝑁 15

D’où 𝟐. 𝑐𝑜𝑣 𝑋, 𝑌 = 𝟒𝟒𝟒, 𝟖𝟎


Relation linéaire croissante
𝑐𝑜𝑣(𝑋; 𝑌) 444,80 et forte entre X et Y car r est
𝑟 𝑋; 𝑌 = = ≈ 𝟎, 𝟖𝟔
𝑠 ×𝑠 41,31 × 12,45 très proche de +1

9
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire

 Interprétation :
 r est une grandeur sans dimension car le résultat ne dépend plus des unités de X et Y ;
 Plus | r | est proche de 1, plus la relation linéaire est forte :
Y

10
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire

r=0 r = -0,23 r = +0,87

corrélation corrélation
aucune
négative positive
corrélation
parfaite parfaite

forte corrélation faible faible corrélation forte


corrélation négative corrélation corrélation positive corrélation
négative modérée négative positive modérée positive

-1 -0,50 0 +0,50 +1
corrélation négative corrélation positive

11
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire Les données d’Anscombe
 Limites :

 Si r > 0, alors les 2 variables évoluent dans le même


sens. Si r < 0, alors les 2 variables évoluent en sens
inverse…
 …mais cela ne signifie pas qu’une des deux variables cause
les variations de l’autre variable : corrélation n’est pas
causalité (cf. section 2 suivante) !

 r ne donne pas d’information quant à l’impact de


l’évolution d’une variable sur l’évolution d’une autre
variable (cf. leçons 5 et 6 – analyse de régression) ;
s
 Comme la covariance, r ne capte que les relations
linéaires (cf. exemple ci-contre des données
d’Anscombe1)

1Anscombe, F.J. (1973). « Graphs in Statistical Analysis », The American Statistician, 27(1), 17-21. 12
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
2. Corrélation n’est pas causalité
 Idée générale :
 « Lorsque le coq chante, le soleil se lève peu après, mais nous savons que le coq n'est pas à l'origine du
lever du soleil. Si le coq avait été mangé par le chat du fermier, le soleil se serait quand même levé. »1
 La corrélation entre X et Y n’indique pas une relation de cause à effet entre X et Y.

 Critères à satisfaire pour établir la causalité entre X et Y :


 1. les deux variables doivent varier ensemble (corrélation établie)
 2. la relation doit être plausible
 3. la cause doit précéder l’effet dans le temps
 4. la relation ne doit pas être causée par une 3ème variable (appelée « variable confondante » ou « facteur de
confusion »)

 Deux problèmes classiques :


 Biais de variable omise (corrélation fallacieuse), paradoxe de Simpson (cf. critère 4)
 Causalité inverse (cf. critère 3)

1Cunningham, S. (2021). Causal Inference – The Mixtape, New Haven & London, Yale University Press, 13
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
2. Corrélation n’est pas causalité
 Biais de variable omise :
 Corrélation fallacieuse entre X et Y due à l’omission d’une 3ème variable, la variable confondante causant
X et Y
rf = 0,02
r = -0,73
X : taille rh = -0,38 (ns)

Z : sexe

Y : cheveux

X : ventes de glaces Y : coups de soleil

14
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
2. Corrélation n’est pas causalité Le paradoxe de simpson est un paradoxe statistique dans lequel
un phénomène observé dans plusieurs groupes s’inverse lorsque
les groupes sont combinés
 Paradoxe de Simpson :
 La corrélation observée entre X et Y est inverse à ce qu’elle devrait être en tenant compte de la variable
confondante
Calculs rénaux et efficacité d’un traitement

Pour quelles raisons le paradoxe se produit-il ?

1. Il existe une variable confondante


2. L’échantillon n’est pas distribué de manière homogène

15
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
2. Corrélation n’est pas causalité
 Causalité inverse :
 Corrélation entre X et Y mais quelle variable cause l’autre ?
Investissement dans la police et criminalité
• Est-ce que l’allocation budgétaire aux
services de police augmente car la
criminalité augmente…
• …ou est-ce qu’il y a plus de crimes
enregistrés car les forces de l’ordre
sont plus nombreuses pour les
constater ?

Survie d’une entreprise et création d’emplois


𝑡 𝑡 𝑡

• Y pourrait causer X : on éviterait les Survie N1 emplois Survie


repas familiaux…

• Variable confondante : l’âge ou le degré • Le nombre d’emplois peut augmenter les chances de survivre jusqu’en 𝒕𝟐 mais survivre
de maturité pourrait expliquer X et Y jusqu’en 𝒕𝟏 est nécessaire pour observer le nombre d’emploi 𝑵𝟏 en 𝒕𝟏

16

Vous aimerez peut-être aussi