Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Régression Linéaire Multiple

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 5

Régression linéaire multiple

Étiquettes Chap 2

Fichiers et médias

URL

La régression linéaire multiple RLM


On parle de RLM lorsqu’une variable quantitative Y dite dépendante ou à expliquer,
est mise en relation avec plusieurs variables quantitatives X, dites explicatives ou
indépendantes
y = β0 + β1x + β2x + β3x+…+ βnx

1. Validation du modèle :

La validation se fait à travers plusieurs indicateurs

Anova :
Le but est de vérifier variable par variable, repérer celles qui expliquent y et retirer
celles qui ne l’expliquent pas
Lorsque la signification de l’Anova est <α , cela veut dire qu’au moins une des
variables x explique y, on rejette H0
Lorsque la signification de l’Anova est >α , cela veut dire que aucune xi n’explique y,
on accepte H0

💡 Dans le cas de RLM, la signification de l’ANOVA est considérée comme


une moyenne des significations de chaque variable. Donc même si la
signification de l’ANOVA <α , cela ne veut pas dire que toutes les
variables dans le modèle sont explicatives. Alors, il faut vérifier la
signification de chaque variable

Cas possibles :

Parfois, on a une signification de l’Anova <α mais les significations des variables
sont supérieurs à α ce qui est contradictoire

Régression linéaire multiple 1


Là il faut vérifier le problème de colinéarité ou la multi-colinéarité , pour s’assurer de
l’indépendance des variables explicatives .

Lorsque deux variables explicatives sont fortement corrélées, on doit éliminer une
des deux ou les remplacer par leur moyenne, puis choisir le modèle qui arriverait à
expliquer la plus grande part de la variance de la variable à expliquer

SigAnova>α on rejette complètement le modèle, aucune xi n’explique y

SigAnova<α et SigVars<α on accepte le modèle

SigAnova<α et SigVars<α sauf une, on la supprime et on refait l'analyse ,pour


avoir les bons coefficients pour la droite de la régression linéaire .

SigAnova<α et SigVars<α sauf deux, nous devons vérifier si elles sont corrélées
(présence de colinéarité). Si elles ne sont pas corrélées, on les retire du modèle.
Si elles sont corrélées (R>0,7) éliminer l'une des deux et les remplacer par leur
moyenne sinon on refait l'analyse. On retient le modèle où le R² est élevé à
condition que toutes les variables aient des significations inférieures à α

SigAnova<α et presque toutes les variables ont des significations inférieures au


seuil choisi sauf quelques unes (plus de 3>α ) nous les remplacerons par leur
moyenne si elles sont corrélées sinon nous les supprimerons

Lorsque plusieurs variables explicatives sont corrélées, on fait appel à l’ACP

💡 Remplacer par la moyenne n’est pas toujours la bonne solution

yi x1 x2 (x1+x2)/2

20 2 12 7

30 4 10 7

40 6 8 7

50 8 6 7

60 10 4 7

70 12 2 7

Je vais choisir le modèle où le R² est le plus élevé

Régression linéaire multiple 2


💡 Avant de supprimer deux variables il faut vérifier la colinéarité

Colinéarité : elle signifie la présence d’une dépendance entre les variables


explicatives

Dans le cas où les deux variables ne sont pas corrélées (inexistence de lien entre
les deux), donc on peut les supprimer

Dans le cas où les deux variables sont corrélées, on va vérifier le VIF et tolérance

VIF et tolérance :
VIF : Facteur d’inflation de la variance, permet de vérifier la prémisse de multi-
colinéarité
VIF = 1 / tolérance

Multi-colinéarité :
Pour voir si plusieurs variables indépendantes sont corrélées, nous faisons appel à
l’AFE (vérification de l’existence de corrélation entre plusieurs variables à la fois ),
cette dernière va permettre de vérifier toutes les variables les unes par rapport aux
autres
S’assurer que les données sont factorisables :

Indicateurs :

1. KMO : teste si les corrélations partielles entre les variables ne sont pas trop
faibles

0,3 < KMO < 0,7 ➞ solution factorielle qui sont juste acceptable

KMO > 0,7 ➞ il est préférable

2. Valeur propre : la quantité d’infos capturées par un facteur

Les composantes doivent avoir une valeur propre > 1 (homogènes), sinon les
composantes sont hétérogènes

Régression linéaire multiple 3


3. Les communalités : la part de variance des composantes expliquées par items
(ils doivent dépasser 0,5 ➞ 50% de la variance de l’item est prise en compte ou
expliquée par les facteurs )

Eliminer les items de communalité < 0,5

4. Coefficient de structure : comme de coefficient de corrélation

Le plus utilisée est la rotation varimax, c’est une rotation orthogonale qui minimise le
nombre de variables ayant une forte corrélation sur chaque facteur

Regrouper les variables qui sont fortement corrélées dans une nouvelle variable

Matrice des composantes : Il y a des variables qui sont corrélées à la 1ère


composante et il y a d’autres variables qui sont corrélées à la 2ème composante
R² - R-deux : c’est le maximum qu’on peut atteindre en essayant tous les
combinaisons possibles

Exemple :

On R² = 88% , donc les deux variables expliquent 88% la variable y et la signification


Anova >α
ce qui est contradictoire

💡 Lorsque R² est élevé , le seuil de signification doit être faible

2. Evaluation du modèle :

Prémisses de la régression linéaire multiple

Régression linéaire multiple 4


Normalité

Linéarité

Indépendance

Multi-colinéarité

Homoscédasticité

Régression linéaire multiple 5

Vous aimerez peut-être aussi