Régression Linéaire Multiple
Régression Linéaire Multiple
Régression Linéaire Multiple
Étiquettes Chap 2
Fichiers et médias
URL
1. Validation du modèle :
Anova :
Le but est de vérifier variable par variable, repérer celles qui expliquent y et retirer
celles qui ne l’expliquent pas
Lorsque la signification de l’Anova est <α , cela veut dire qu’au moins une des
variables x explique y, on rejette H0
Lorsque la signification de l’Anova est >α , cela veut dire que aucune xi n’explique y,
on accepte H0
Cas possibles :
Parfois, on a une signification de l’Anova <α mais les significations des variables
sont supérieurs à α ce qui est contradictoire
Lorsque deux variables explicatives sont fortement corrélées, on doit éliminer une
des deux ou les remplacer par leur moyenne, puis choisir le modèle qui arriverait à
expliquer la plus grande part de la variance de la variable à expliquer
SigAnova<α et SigVars<α sauf deux, nous devons vérifier si elles sont corrélées
(présence de colinéarité). Si elles ne sont pas corrélées, on les retire du modèle.
Si elles sont corrélées (R>0,7) éliminer l'une des deux et les remplacer par leur
moyenne sinon on refait l'analyse. On retient le modèle où le R² est élevé à
condition que toutes les variables aient des significations inférieures à α
yi x1 x2 (x1+x2)/2
20 2 12 7
30 4 10 7
40 6 8 7
50 8 6 7
60 10 4 7
70 12 2 7
Dans le cas où les deux variables ne sont pas corrélées (inexistence de lien entre
les deux), donc on peut les supprimer
Dans le cas où les deux variables sont corrélées, on va vérifier le VIF et tolérance
VIF et tolérance :
VIF : Facteur d’inflation de la variance, permet de vérifier la prémisse de multi-
colinéarité
VIF = 1 / tolérance
Multi-colinéarité :
Pour voir si plusieurs variables indépendantes sont corrélées, nous faisons appel à
l’AFE (vérification de l’existence de corrélation entre plusieurs variables à la fois ),
cette dernière va permettre de vérifier toutes les variables les unes par rapport aux
autres
S’assurer que les données sont factorisables :
Indicateurs :
1. KMO : teste si les corrélations partielles entre les variables ne sont pas trop
faibles
0,3 < KMO < 0,7 ➞ solution factorielle qui sont juste acceptable
Les composantes doivent avoir une valeur propre > 1 (homogènes), sinon les
composantes sont hétérogènes
Le plus utilisée est la rotation varimax, c’est une rotation orthogonale qui minimise le
nombre de variables ayant une forte corrélation sur chaque facteur
Regrouper les variables qui sont fortement corrélées dans une nouvelle variable
Exemple :
2. Evaluation du modèle :
Linéarité
Indépendance
Multi-colinéarité
Homoscédasticité