Régression Linéaire Multiple

Régression linéaire multiple
Étiquettes Chap 2
Fichiers et médias
URL
La régression linéaire multiple RLM

On parle de RLM lorsqu’une variable quantitative Y dite dépendante ou à expliquer,
est mise en relation avec plusieurs variables quantitatives X, dites explicatives ou
indépendantes
y = β0 + β1x + β2x + β3x+…+ βnx
1. Validation du modèle :
La validation se fait à travers plusieurs indicateurs
Anova :
Le but est de vérifier variable par variable, repérer celles qui expliquent y et retirer
celles qui ne l’expliquent pas
Lorsque la signification de l’Anova est <α , cela veut dire qu’au moins une des
variables x explique y, on rejette H0
Lorsque la signification de l’Anova est >α , cela veut dire que aucune xi n’explique y,
on accepte H0
💡 Dans le cas de RLM, la signification de l’ANOVA est considérée comme

une moyenne des significations de chaque variable. Donc même si la
signification de l’ANOVA <α , cela ne veut pas dire que toutes les
variables dans le modèle sont explicatives. Alors, il faut vérifier la
signification de chaque variable
Cas possibles :
Parfois, on a une signification de l’Anova <α mais les significations des variables
sont supérieurs à α ce qui est contradictoire
Régression linéaire multiple 1

Là il faut vérifier le problème de colinéarité ou la multi-colinéarité , pour s’assurer de
l’indépendance des variables explicatives .
Lorsque deux variables explicatives sont fortement corrélées, on doit éliminer une
des deux ou les remplacer par leur moyenne, puis choisir le modèle qui arriverait à
expliquer la plus grande part de la variance de la variable à expliquer
SigAnova>α on rejette complètement le modèle, aucune xi n’explique y
SigAnova<α et SigVars<α on accepte le modèle
SigAnova<α et SigVars<α sauf une, on la supprime et on refait l'analyse ,pour

avoir les bons coefficients pour la droite de la régression linéaire .
SigAnova<α et SigVars<α sauf deux, nous devons vérifier si elles sont corrélées
(présence de colinéarité). Si elles ne sont pas corrélées, on les retire du modèle.
Si elles sont corrélées (R>0,7) éliminer l'une des deux et les remplacer par leur
moyenne sinon on refait l'analyse. On retient le modèle où le R² est élevé à
condition que toutes les variables aient des significations inférieures à α
SigAnova<α et presque toutes les variables ont des significations inférieures au

seuil choisi sauf quelques unes (plus de 3>α ) nous les remplacerons par leur
moyenne si elles sont corrélées sinon nous les supprimerons
Lorsque plusieurs variables explicatives sont corrélées, on fait appel à l’ACP
💡 Remplacer par la moyenne n’est pas toujours la bonne solution
yi x1 x2 (x1+x2)/2
20 2 12 7
30 4 10 7
40 6 8 7
50 8 6 7
60 10 4 7
70 12 2 7
Je vais choisir le modèle où le R² est le plus élevé

💡 Avant de supprimer deux variables il faut vérifier la colinéarité
Colinéarité : elle signifie la présence d’une dépendance entre les variables

explicatives
Dans le cas où les deux variables ne sont pas corrélées (inexistence de lien entre
les deux), donc on peut les supprimer
Dans le cas où les deux variables sont corrélées, on va vérifier le VIF et tolérance
VIF et tolérance :
VIF : Facteur d’inflation de la variance, permet de vérifier la prémisse de multi-
colinéarité
VIF = 1 / tolérance
Multi-colinéarité :
Pour voir si plusieurs variables indépendantes sont corrélées, nous faisons appel à
l’AFE (vérification de l’existence de corrélation entre plusieurs variables à la fois ),
cette dernière va permettre de vérifier toutes les variables les unes par rapport aux
autres
S’assurer que les données sont factorisables :
Indicateurs :
1. KMO : teste si les corrélations partielles entre les variables ne sont pas trop
faibles
0,3 < KMO < 0,7 ➞ solution factorielle qui sont juste acceptable
KMO > 0,7 ➞ il est préférable
2. Valeur propre : la quantité d’infos capturées par un facteur
Les composantes doivent avoir une valeur propre > 1 (homogènes), sinon les
composantes sont hétérogènes

3. Les communalités : la part de variance des composantes expliquées par items
(ils doivent dépasser 0,5 ➞ 50% de la variance de l’item est prise en compte ou
expliquée par les facteurs )
Eliminer les items de communalité < 0,5
4. Coefficient de structure : comme de coefficient de corrélation
Le plus utilisée est la rotation varimax, c’est une rotation orthogonale qui minimise le
nombre de variables ayant une forte corrélation sur chaque facteur
Regrouper les variables qui sont fortement corrélées dans une nouvelle variable
Matrice des composantes : Il y a des variables qui sont corrélées à la 1ère

composante et il y a d’autres variables qui sont corrélées à la 2ème composante
R² - R-deux : c’est le maximum qu’on peut atteindre en essayant tous les
combinaisons possibles
Exemple :
On R² = 88% , donc les deux variables expliquent 88% la variable y et la signification

Anova >α
ce qui est contradictoire
💡 Lorsque R² est élevé , le seuil de signification doit être faible
2. Evaluation du modèle :
Prémisses de la régression linéaire multiple

Normalité
Linéarité
Indépendance
Multi-colinéarité
Homoscédasticité

Régression Linéaire Multiple

Transféré par

Droits d'auteur :

Formats disponibles

Régression Linéaire Multiple

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Régression Linéaire Multiple

Transféré par

Droits d'auteur :

Formats disponibles

Régression linéaire multiple

La régression linéaire multiple RLM

La validation se fait à travers plusieurs indicateurs

💡 Dans le cas de RLM, la signification de l’ANOVA est considérée comme

Régression linéaire multiple 1

SigAnova>α on rejette complètement le modèle, aucune xi n’explique y

SigAnova<α et SigVars<α on accepte le modèle

SigAnova<α et SigVars<α sauf une, on la supprime et on refait l'analyse ,pour

SigAnova<α et presque toutes les variables ont des significations inférieures au

Lorsque plusieurs variables explicatives sont corrélées, on fait appel à l’ACP

💡 Remplacer par la moyenne n’est pas toujours la bonne solution

Je vais choisir le modèle où le R² est le plus élevé

Régression linéaire multiple 2

Colinéarité : elle signifie la présence d’une dépendance entre les variables

KMO > 0,7 ➞ il est préférable

2. Valeur propre : la quantité d’infos capturées par un facteur

Régression linéaire multiple 3

Eliminer les items de communalité < 0,5

4. Coefficient de structure : comme de coefficient de corrélation

Matrice des composantes : Il y a des variables qui sont corrélées à la 1ère

On R² = 88% , donc les deux variables expliquent 88% la variable y et la signification

💡 Lorsque R² est élevé , le seuil de signification doit être faible

Prémisses de la régression linéaire multiple

Régression linéaire multiple 4

Régression linéaire multiple 5

Vous aimerez peut-être aussi