Chap2-Le Modèle de Régression Linéairemuliple
Chap2-Le Modèle de Régression Linéairemuliple
Chap2-Le Modèle de Régression Linéairemuliple
On cherche donc à généraliser le modèle précédent, en considérant non pas une mais plu-
sieurs variables explicatives.
On ne considère pas dans ce chapitre le caractère éventuellement aléatoire des variables
explicatives, quitte à conditionner sachant les valeurs de ces variables.
2.2 Modélisation
On introduit le modèle statistique suivant :
où
— p ≤ n,
— Yi est une variable aléatoire observée, appelée variable à expliquer,
27
Chapitre 2. Le modèle de régression linéaire multiple
— xi,0 , xi,1 , . . . , xi,p−1 sont des valeurs réelles déterministes appelées par extension directe
du cas aléatoire variables explicatives. Souvent xi,0 = 1 pour tout i = 1 . . . n, mais PAS
TOUJOURS.
— β0 , β1 , . . . , βp−1 sont des paramètres réels inconnus appelés paramètres de régression ou
cœfficients de régression,
— les εi sont des variables aléatoires, non observées, appelées erreurs ou bruits, aux-
quelles on impose certaines conditions complémentaires.
Les conditions standards imposées aux εi sont les conditions (C1 ) à (C3 ) vues dans le chapitre
précédent i.e.
— (C1 ) : E[εi ] = 0 pour tout i = 1 . . . n (centrage),
— (C2 ) : cov(εi , ε j ) = 0 pour tout i , j (non corrélation),
— (C3 ) : var(εi ) = σ2 (inconnue) pour tout i = 1 . . . n (homoscédasticité).
Y = Xβ + ε, (2.1)
avec
Y1 x1,0 . . . x1,p−1 β0 ε1
.. X = ... .. β = ... ..
Y = , , ε = .
. .
et .
Yn xn,0 . . . xn,p−1 βp−1 εn
Exemple des données de l’OMS sur l’espérance de vie : Yi = l’espérance de vie dans le ième
pays, xi,0 = le PIB, xi,1 = le revenu moyen par habitant, xi,2 = le budget consacré à la santé.
28
2.4. Estimateur des moindres carrés ordinaires
Exemple des données Insee : xi,3 = 1 si une loi anti-tabac a été votée au cours de l’année i, 0
sinon.
Exemple des données de l’OMS : , xi,3 = 1 si le pays est dans une zone géographique parti-
culière, 0 sinon, xi,4 = 1 si le pays est en guerre, 0 sinon...
Exemple des données Air Breizh : xi6 = 1 si le vent a pour direction l’est, 0 sinon, xi7 = 1 si
le vent a pour direction l’ouest, 0 sinon, xi8 = 1 si le vent a pour direction le nord, 0 sinon,
xi9 = 1 si le vent a pour direction le sud, 0 sinon, etc.
Exemple des données Cirad : xi,3 = 1 si l’eucalyptus i est situé dans le bloc A de la plantation,
0 sinon, xi,4 = 1 si l’eucalyptus i est situé dans le bloc B de la plantation, 0 sinon, etc.
2.3.4 Interactions
On peut envisager le cas où les variables explicatives interagissent entre elles. Ce phéno-
mène est modélisé par des produits des différentes variables. Ces interactions peuvent être
d’ordres variés.
Remarque : les modèles de régression linéaire multiple avec des variables explicatives qua-
litatives seront traités en cours d’ANOVA.
29
Chapitre 2. Le modèle de régression linéaire multiple
Définition 5. L’estimateur des moindres carrés ordinaires de β dans le modèle de régression linéaire
multiple (2.1) est défini par
p−1
2
n
X X
β̂ ∈ argmin β = argmin kY − Xβk2 ,
Yi − j xi, j
β∈Rp β∈R p
i=1 j=0
Le vecteur β̂ = (X0 X)−1 X0 Y est bien un point critique de L puisque ∇L(β̂) = 2X0 Xβ̂−2X0 Y = 0.
Ce point critique correspond à un minimum. En effet, la matrice hessienne de L en β̂ vaut
2X0 X qui est définie positive.
On introduit maintenant, comme pour la régression linéaire simple, le sous-espace vectoriel
E(X) de Rn engendré par les vecteurs colonnes de X. Par définition, Xβ̂ est un vecteur de
E(X) dont la distance euclidienne avec Y est la distance minimum entre Y et tout vecteur de
E(X). Par conséquent, si l’on note ΠX la matrice de projection orthogonale sur E(X), alors
Xβ̂ = ΠX Y. Là encore, on peut montrer que la matrice ΠX s’écrit aussi X(X0 X)−1 X0 , d’où
Xβ̂ = X(X0 X)−1 X0 Y, puis β̂ = (X0 X)−1 X0 Y.
Proposition 1. L’estimateur des MCO β̂ est un estimateur linéaire sans biais de β, dont la matrice
de variance covariance est donnée par
Preuve.
Puisque β̂ = (X0 X)−1 X0 Y, il s’agit bien d’un estimateur linéaire (en Y). De
plus, E[β̂] =
E[(X X) X Y] = (X X) X Xβ = β, donc β̂ est sans biais. Enfin, Var(β̂) = Var (X0 X)−1 X0 Y =
0 −1 0 0 −1 0
(X0 X)−1 X0 Var(Y)X(X0 X)−1 = (X0 X)−1 X0 σ2 In X(X0 X)−1 = σ2 (X0 X)−1 .
Thèorème 8 (Gauss Markov). L’estimateur β̂ des moindres carrés ordinaires est l’unique estimateur
linéaire sans biais de variance minimale parmi les estimateurs linéaires sans biais de β.
Preuve (sans l’unicité).
Soit β̃ un estimateur linéaire sans biais de β. β̃ s’écrit donc β̃ = AY, avec AXβ = β pour tout β
c’est-à-dire AX = Ip .
30
2.5. Valeurs ajustées, résidus
Puisque la matrice A(In − ΠX )A0 est symétrique réelle positive (rappel sur la relation d’ordre
partielle entre matrices symétriques réelles), on en conclut que β̂ est de variance minimale
parmi les estimateurs linéaires sans biais.
20
15
30 40 50 60 70
Circonférence à 1m30
Définition 6. Le vecteur aléatoire Ŷ = ΠX Y = X(X0 X)−1 X0 Y est appelé le vecteur des valeurs
ajustées.
Le vecteur ε̂ = Y − Ŷ = (In − ΠX )Y est appelé le vecteur des résidus.
La matrice ΠX est parfois appelée la matrice "chapeau" (hat matrix en anglais), et souvent notée dans
ce cas H. Ses cœfficients sont notés hi,j .
31
Chapitre 2. Le modèle de régression linéaire multiple
Proposition 3. Un estimateur sans biais de la variance σ2 est donné par σb2 =SCR/(n − p) =
kε̂k2 /(n − p).
SCE SCR
R2 = =1− .
SCT SCT
Le cœfficient de détermination sans constante R2sc est défini par :
SCEsc SCR
R2sc = =1− .
SCTsc SCTsc
Interprétations géométriques dans les deux cas. Interprétations des cas limites.
Conséquence : on ne peut pas utiliser ce critère comme critère de comparaison entre deux
modèles dont les nombres de variables explicatives diffèrent... Idée du R2 ajusté comme
critère de comparaison dans ce cas.
2.8 Prédiction
A partir d’une nouvelle valeur explicative xn+1 = (xn+1,0 , . . . , xn+1,p−1 ), on souhaite prédire une
nouvelle observation d’une variable Yn+1 = β0 xn+1,0 + . . . + βp−1 xn+1,p−1 + εn+1 = xn+1 β + εn+1 ,
32
2.9. Estimation par intervalles de confiance et tests d’hypothèses asymptotiques
avec E[εn+1 ] = 0, var(εn+1 ) = σ2 et cov(εn+1 , εi ) = 0 pour tout i = 1 . . . n i.e. Yn+1 non corrélée
avec les Yi , i = 1 . . . n, utilisées pour construire β̂.
p
Pour cela, on introduit Ŷn+1 = xn+1 β̂.
p p
L’erreur de prédiction est définie par ε̂n+1 = Yn+1 − Ŷn+1 (inconnue).
p
Elle est centrée, de variance égale à var(ε̂n+1 ) = var(xn+1 β + εn+1 − xn+1 β̂) = var(εn+1 ) +
xn+1 Var(β̂)x0n+1 = σ2 (1 + xn+1 (X0 X)−1 x0n+1 ).
2
p p
On remarque par ailleurs que : var(ε̂n+1 ) = E Yn+1 − Ŷn+1 appelée aussi erreur quadratique
moyenne de prédiction (EQMP), qu’on utilisera plus tard pour faire de la sélection de variables
ou de modèle.
33
Chapitre 2. Le modèle de régression linéaire multiple
1. Calcul de l’estimateur des MCO de β, β̂(n) à partir de Y(n) , puis du vecteur des résidus
ε̂(n) .
2. Tirage de n éléments notés (ε̂∗1 , . . . , ε̂∗n ), appelés résidus bootstrapés pris au hasard
avec remise dans {ε̂1 , . . . , ε̂n }.
3. A partir de ε̂∗ = (ε̂∗1 , . . . , ε̂∗n )0 , calcul de Y∗ = X(n) β̂(n) + ε̂∗ .
0
−1 0
4. Calcul de l’estimateur bootstrapé : β̂(n)∗ = X(n) X(n) X(n) Y∗ .
Si d désigne une distance sur les lois de probabilité, alors :
√ √ (P)
d L n β̂(n)∗ − β̂(n) |Y(n) , L n β̂(n) − β →n→+∞ 0.
√
Puisque les variables n β̂(n)∗ − β̂(n) se calculent à partir de Y(n) , on peut simuler empiri-
√ √
quement la loi L n β̂(n)∗ − β̂(n) |Y(n) qui "approche" la loi L n β̂(n) − β . On peut ainsi
déterminer des quantiles empiriques, etc.
34