QM_Leçon 4
QM_Leçon 4
QM_Leçon 4
Liaison statistique
entre X et Y
Modélisation :
Régression simple et régression multiple
(Leçons 5 et 6)
3
INTRODUCTION
Physiques : distance parcourue et temps de trajet, température et cuisson, trafic routier et pollution...
4
INTRODUCTION
Exemple
Le directeur des ventes de brandonesofià (célèbre fabricant de canapés et fauteuils)
dispose d’une large force de vente et souhaite déterminer s’il existe un lien entre le nombre
de rendez-vous et le nombre de produits vendus. Il sélectionne un échantillon aléatoire de
15 vendeurs (tableau 1) en observant les données sur le dernier semestre d’activité.
Tendance globale :
relation linéaire croissante
entre X et Y
Calcul du coefficient de
corrélation linéaire 𝒓(𝑿; 𝒀)
6
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire
Explication graphique de la covariance entre X et Y
7
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire
Autres types de relation :
Covariance négative Covariance nulle
Principale limite : la covariance n’informe que sur le sens de la relation entre X et Y, et non sur l’ampleur
de l’intensité de la relation, car 𝑐𝑜𝑣(𝑋; 𝑌) ∈ −∞; +∞ .
8
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire
𝑐𝑜𝑣(𝑋; 𝑌) Etapes de calcul :
Calcul du coefficient de corrélation linéaire : 𝑟 𝑋; 𝑌 = • Moyennes
𝑠 ×𝑠 • Variances et écarts-types
• Covariance
• 𝑥̅ = 96 et 𝑦 = 45
• 𝑉 𝑋 ≈ 1706,67 ; 𝑉 𝑌 ≈ 155,07 ; 𝑠 ≈ 41,31 ; 𝑠 ≈ 12,45
1 96 − 96 41 − 45 + ⋯ + 84 − 96 30 − 45
𝟏. 𝑐𝑜𝑣 𝑋, 𝑌 = 𝑥 − 𝑥̅ 𝑦 − 𝑦 =
𝑁 15
9
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire
Interprétation :
r est une grandeur sans dimension car le résultat ne dépend plus des unités de X et Y ;
Plus | r | est proche de 1, plus la relation linéaire est forte :
Y
10
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire
corrélation corrélation
aucune
négative positive
corrélation
parfaite parfaite
-1 -0,50 0 +0,50 +1
corrélation négative corrélation positive
11
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
1. Le coefficient de corrélation linéaire Les données d’Anscombe
Limites :
1Anscombe, F.J. (1973). « Graphs in Statistical Analysis », The American Statistician, 27(1), 17-21. 12
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
2. Corrélation n’est pas causalité
Idée générale :
« Lorsque le coq chante, le soleil se lève peu après, mais nous savons que le coq n'est pas à l'origine du
lever du soleil. Si le coq avait été mangé par le chat du fermier, le soleil se serait quand même levé. »1
La corrélation entre X et Y n’indique pas une relation de cause à effet entre X et Y.
1Cunningham, S. (2021). Causal Inference – The Mixtape, New Haven & London, Yale University Press, 13
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
2. Corrélation n’est pas causalité
Biais de variable omise :
Corrélation fallacieuse entre X et Y due à l’omission d’une 3ème variable, la variable confondante causant
X et Y
rf = 0,02
r = -0,73
X : taille rh = -0,38 (ns)
Z : sexe
Y : cheveux
14
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
2. Corrélation n’est pas causalité Le paradoxe de simpson est un paradoxe statistique dans lequel
un phénomène observé dans plusieurs groupes s’inverse lorsque
les groupes sont combinés
Paradoxe de Simpson :
La corrélation observée entre X et Y est inverse à ce qu’elle devrait être en tenant compte de la variable
confondante
Calculs rénaux et efficacité d’un traitement
15
LIAISON STATISTIQUE ENTRE 2 VARIABLES QUANTITATIVES
2. Corrélation n’est pas causalité
Causalité inverse :
Corrélation entre X et Y mais quelle variable cause l’autre ?
Investissement dans la police et criminalité
• Est-ce que l’allocation budgétaire aux
services de police augmente car la
criminalité augmente…
• …ou est-ce qu’il y a plus de crimes
enregistrés car les forces de l’ordre
sont plus nombreuses pour les
constater ?
• Variable confondante : l’âge ou le degré • Le nombre d’emplois peut augmenter les chances de survivre jusqu’en 𝒕𝟐 mais survivre
de maturité pourrait expliquer X et Y jusqu’en 𝒕𝟏 est nécessaire pour observer le nombre d’emploi 𝑵𝟏 en 𝒕𝟏
16