ECONOMETRIE

Econométrie
Olivier Donni
1 Introduction
1.1 Qu’est-ce que l’économétrie?
C’est de la statistique appliqué à l’économie, qui permet de tester des théories
économiques, prédire des comportement économiques et évaluer des politiques
économiques. Les caractéristiques de l’économétrie sont:
(1) Les données utilisées ne sont pas expérimentales;

(2) Les modèles à estimer sont structurels (et non descriptifs).
1.2 Les étapes d’une analyses empirique
(1) D’abord, un modèle économique est construit. Exemples:

(a) le modèle de demande du consommateur;
(b) le modèle de capital humain et salaire (Mincer);
(c) le modèle de criminalité (Becker);
(d) le modèle de rationalité des gardiens de but (Chiappori & Levitt);
(e) le modèle des relations extra-conjugales (Fair).
(2) Ensuite, un modèle économétrique est construit en dé…nissant les variables,
en choissant une forme fonctionnelle et en introduisant un terme aléatoire.
Ce modèle est estimé.
1.3 Structure des données

Il existe plusieurs types de données. Entre autres,
(1) Des données transversales (cross-section data): en général, un échantillon

3
4 Introduction
aléatoire issu d’une population; souvent des données microéconomiques.
De…nition 1 Un échantillon aléatoire est un ensemble de variables aléatoires

indépendantes et de même distribution.
(2) Des séries temporelles: journalières, hebdomadaires, mensuelles, trimes-

trielles, ... Ces données sont souvent macroéconomiques et ne constituent
pas, en général, un échantillon aléatoire.
(3) Des séries temporelle de données transversales.
(4) Des données de panel.
1.4 Principal objectif d’une étude économétrique

Le principal objectif d’une étude empirique est généralement de mesurer une
relation ‘causale’d’une variable sur une autre. Dans ce cas, la notion de ceteris
paribus joue un rôle important. Et les techniques économétriques simulent un
e¤et cétéris paribus.
Exemples:
(1) E¤ets d’un engrais;

(2) Taux de rendement de l’éducation.
2 Modèle de régression linéaire simple
2.1 Dé…nition du modèle de régression simple
Le modèle de régression simple s’écrit:
y= 0 + 1x +u
où 0 est la constante, 1 est la pente et u le terme aléatoire. On parle de la

régression de y sur x, où les variables y et x sont appelées:
8 8
>
> variable dépendante >
> variable indépendante
>
> >
>
< variable expliquée < variable explicative
y= variable de réponse , x= variable de contrôle
>
> variable prédite >
> variable prédictrice
>
> >
>
: régressant : régresseur
Ce modèle est linéaire car l’e¤et ‘ceteris paribus’de x sur y est linéaire:
y= 1 x si u=0
où 1 est souvent le paramètre d’intérêt.

Exemple 1. La relation entre le rendement de parcelles de terre et la
quantité d’engrais utilisée s’écrit:
REND = 0 + 1 ENG + u
Exemple 2: La relation entre le salaire et le niveau d’éducation (mesuré

en années) s’écrit:
SAL = 0 + 1 EDUC + u
2.2 Dérivation des estimateurs des MCO
5
2.2.1 Calcul des estimateurs
Soit un échantillon f(xi ; yi ) : i = 1; :::; N g. Les estimateurs des MCO, ^ 0 et

^ , sont obtenus par la minimisation du carré des résidus:
1
X
N
min (yi ^0 ^ 1 xi )2 ;
^ ;^
0 1 i=1
où le résidu des MCO pour l’observation i est dé…ni par
uî = yi ^0 ^ xi :
1
Donc, les estimateurs des MCO sont ceux qui minimisent le carré des résidus.
Les conditions de premier ordre sont:
X
N
(yi ^ ^ xi ) = 0
0 1
i=1
X
N
xi (yi ^ ^ xi ) = 0
0 1
i=1
La première équation devient:
y = ^ 0 + ^ 1x
1 X 1 X
N N
avec y = yi et x = xi
N i=1 N i=1
et donne ^ 0 :
^ =y ^ x
0 1
La deuxième équation devient:
X
N
xi (yi ^ ^ xi ) = 0
0 1
i=1
X
N
xi (yi (y ^ x) ^ xi ) = 0
1 1
i=1
Dérivation des estimateurs des MCO 7
Elle devient ensuite:

X
N X
N
xi (yi y) = xi ( ^ 1 xi ^ 1 x)
i=1 i=1
X
N X
N
xi (yi y) = ^ 1 xi (xi x)
i=1 i=1
Donc, si
X
N
(xi x)2 6= 0;
i=1
alors
PN \y)
^1 = i=1 (xi x)(yi y) cov(x;
PN =
i=1 (xi x)2 \
var(x)
^ = y ^ x
0 1
2.2.2 Quelques dé…nitions
La valeur prédite des MCO de yi conditionnellement à xi est:
yî = ^ 0 + ^ 1 xi
Le résidu des MCO est:
uî = yi yî = ( 0 + 1 xi + ui ) ( ^ 0 + ^ 1 xi )
La droite de régression des MCO est:
y^ = ^ 0 + ^ 1 x
Celle-ci est une estimation de la fonction de régression de la population:
E(yjx) = 0 + 1 x:
L’estimateur de la pente est:

y^ ^
= 1:
x
Ce dernier est généralement le paramètre le plus intéressant.
Exemple 4 (Wooldridge, 2003): La droite de régression du salaire des
P.-D.G. sur le rendement de l’action de leur entreprise est égale à:
d = 963:191 + 18:501 REND
SAL
Exemple 5 (Wooldridge, 2003): La droite de régression du salaire sur

le niveau d’éducation est égale à:
d =
SAL 0:90 + 0:54 EDUC
Exemple 6 (Wooldridge, 2003): La droite de régression du pourcentage

de voix obtenues d’un candidat et de la part des dépenses (dans les dépenses
totales) de ce candidat est égale à:
\ = 40:90 + 0:306 PART_A

VOTE_A
2.3 Propriétés algébriques des MCO

Les résidus satisfont un certain nombre de propriétés algébriques. Celles-ci
découlent directement de la manière dont les estimateurs des MCO sont con-
struits, et ne nécessitent généralement pas de démonstration.
Propriété 1: La moyenne des résidus est nulle:
XN
uî = 0
i=1
Propriété 2: La covariance entre les résidus et les valeurs de la variable

explicative est nulle:
XN
xi uî = 0
i=1
Propriétés algébriques des MCO 9
Propriété 3: La régression passe par le point moyen de l’échantillon:
y = ^ 0 + ^ 1x
Propriété 4: La covariance entre les résidus et les valeurs prédites est

nulle:
XN XN XN XN
yî uî = ui = ^ 0
( 0 + 1 xî )^ uî + ^ 1 xi uî = 0:
i=1 i=1 i=1 i=1
La dérivation de la propriété 5 nécessite de dé…nir les concepts suivants:

X
N
SST = (yi y)2
i=1
X
N
SSE = (^
yi y)2
i=1
XN
SSR = u^2i
i=1
Propriété 5: La somme des carrés totaux est égale à la somme des carrés
expliqués et la somme des carrés résiduels:
SST = SSE + SSR
Cette propriété permet de calculer le coe¢ cient de détermination (R2 ):

SSE SSR
R2 = =1
SST SST
2
\y)
cov(x;
=
\ var(y)
var(x) \
Ce coe¢ cient est égal au carré du coe¢ cient de corrélation.

Démonstration de la Proposition 5:
X
N
SST = (yi y)2
i=1
XN
= ((yi yî ) + (^
yi y))2
i=1
XN
= (^
ui + (^
yi y))2
i=1
X
N
= u2i + 2^
(^ ui (^
yi y) + (^
yi y)2 )
i=1
XN X
N X
N
= u^2i + 2 uî (^
yi y) + (^
yi y)2
i=1 i=1 i=1
X
N
= SSR + 2 uî (^
yi y) + SSE
i=1
Or
X
N X
N X
N
ui (^
yi y) = uî yî y uî = 0 en vertu de la Propriété 4
i=1 i=1 i=1
Exemple 7 (Wooldridge, 2003): Le R2 de la régression du salaire des

P.-D.G. sur le rendement des actions:
\ = 963:191 + 18:501 roe

salary
R2 = 0:0132
Exemple 8 (Wooldridge, 2003): Le R2 de la régression du pourcentage

de voix obtenues sur la part des dépenses:
\
VOTE_A = 40:90 + 0:306 PART_A
R2 = 0:505
Unités de mesure et non linéarité 11
2.4 Unités de mesure et non linéarité
2.4.1 Changement d’unités de mesure:
La variable expliquée est exprimée en miliers d’euros, et la variable explicative

en pourcentages:
d = 963:191 + 18:501 REND.
SAL
La variable expliquée est exprimée en euros, et la variable explicative en pour-
centages:
\
SAL_DOLL = 963; 191 + 18; 501 REND.
La variable expliquée en expliquée en milliers d’euros, et la variable explicative
en décimales:
d = 963:191 + 1850:1 REND_DEC.
SAL
Dans tous les cas, le R2 ne se modi…e pas.
2.4.2 Forme fonctionnelle non linéaire:
Le modèle de régression simple est linéaire dans les paramètres. Cependant,

certaines relations non linéaires entre les variables peuvent être modélisées.
Exemple 9 (Wooldridge, 2003): La droite de régression du logarithme
du salaire sur le nibeau d’éducation est égale à:
\
log(SAL) = 0:584 + 0:083 EDUC
R2 = 0:186
Exemple 10 (Wooldridge, 2003): La droite de régression du salaire

des P.-D.G. sur le logarithme du chi¤re d’a¤aire de leur entreprise est égale à:
\
log(SAL) = 4:822 + 0:257 log(VENTES)
R2 = 0:211
2.5 Propriétés statistiques des MCO

Les bonnes propriétés statistiques des estimateurs des MCO nécessitent qu’un
ensemble d’hypothèses soient satisfaites.
Hypothèse 10 (linéarité dans les paramètres): Le modèle dans
la population peut se décrire par une relation linéaire à une seule variable
explicative telle que:
y = 0 + 1x + u
où 0 ; 1 sont des paramètres, et u est un terme aléatoire.
Hypothèse 20 (échantillonnage aléatoire): Un échantillon aléatoire de
N observations, f(yi ; xi ) : i = 1; : : : ; N g issu du modèle de population décrit
en H1.
Hypothèse 30 (moyenne conditionnelle nulle): Le terme u a une
espérance de zéro pour toute valeur des variables indépendantes. En d’autres
termes,
E(ujx) = 0
Hypothèse 40 (variation dans le régresseur): Dans l’échantillon (et
donc dans la population), le régresseur n’est pas une constante:
X
N
(xi x)2 6= 0
i=1
Propriétés statistiques des MCO 13
Les démonstrations qui suivent sont basées sur la transformation suivante:

PN
^ = i=1 (xi x)(yi y)
1 PN
i=1 (xi x)2
PN PN
i=1 (xi x)yi i=1 (xi x)y
= PN
i=1 (xi x)2
PN
(xi xi )yi
= Pi=1 N
i=1 (xi x)2
PN
i=1 (xi xi )( 0 + 1 xi + ui )
= PN
i=1 (xi x)2
PN PN PN
i=1 (xi xi ) i=1 (xi xi )xi (xi xi )ui
= 0 PN + 1 PN + Pi=1
N
i=1 (xi x)2 i=1 (xi x)2 i=1 (xi x)2
PN PN
(xi xi )xi (xi xi )ui
= 1 Pi=1 N
+ Pi=1 N
i=1 (xi x)2 i=1 (xi x)2
PN
(xi xi )ui
= 1 + Pi=1 N
i=1 (xi x)2
L’estimateur ^ 1 est donc égal à la somme de la vraie valeur de 1 dans la

population et une combinaison de termes aléatoires. L’estimateur ^ 1 est donc
une variable aléatoire.
Théorème 1 (absence de biais des MCO): Sous les hypothèses 10 à 40 ,
les estimateurs des MCO sont non biaisés:
E( ^ 0 ) = 0 et E( ^ 1 ) = 1
Démonstration: (les espérances sont conditionnelles aux valeurs de

l’échantillon; donc, s2x et (xi x) sont non-aléatoires)
Partie 1: De ce qui précède, on a:
PN
^ 1 = 1 + Pi=1 (xi xi )ui :
N
i=1 (xi x)2
Si l’on prend les espérances, on a:

PN !
(xi x)ui
E( ^ 1 ) = 1 +E Pi=1
N
i=1 (xi x)2
PN
i=1 E((xi x)ui )
= 1 + PN
i=1 (xi x)2
PN
i=1 (xi x)E(ui )
= 1 + P N
i=1 (xi x)2
PN
i=1 (xi x) 0
= 1 + P N
i=1 (xi x)2
Partie 2: La dé…nition de ^ 0 est:

^ = y ^ x
0 1
= 0 + 1x + u ^ 1x
= +( ^ )x + u
0 1 1
Si l’on prend les espérances, on a:
E( ^ 0 ) = 0 + E(( 1
^ 1 )x) + E(u)
= 0 + xE( 1
^ 1)
Exemple 11 (score et subvention des repas): Considérons la ré-

gression du pourcentage de réussite au MEAP test (Michigan Educational As-
sessment Program) sur la proportion d’élèves qui béné…cient d’une subvention
pour les repas:
\ = 32:14
MEAP 0:319 PROP_SUBV,
R2 = 0:171:
Les estimateurs sont certainement biaisés car l’hypothèse d’espérance condi-

tionnelle n’est pas satisfaite.
Pour calculer la variance des estimateurs, l’hypothèse suivante, qui assure

que les termes aléatoires ont une variance constante, est nécessaire.
Hypothèse 50 (homoscédasticité): La variance des termes aléatoires
(conditionellement à x) est constante. En d’autres termes,
2
var(ujx) = :
Remarque: Les hypothèses 3 et 5 peuvent être mises sous la forme de
moyenne et de variance conditionnelle:
E(yjx) = 0 + 1x
2
var(yjx) =
On a alors le théorème suivant.

Théorème 2 (variance des MCO): Sous les hypothèses 10 à 50 ,
2
PN
x2i 2
var( ^ 0 ) = PN i=1
, var( ^ 1 ) = PN
N i=1 (xi x)2 i=1 (xi x)2
Démonstration:
Partie 1: On a: PN
^1 = (xi x)ui
1 + Pi=1
N
:
i=1 (xi x)2
En prenant la variance des membres de droite et de gauche, on obtient:

PN ! PN
(xi x)ui var i=1 (xi x)ui
var( ^ 1 ) = var Pi=1
N
= PN 2
i=1 (xi x)2 x)2
i=1 (xi
PN
i=1i (xi x)2 var (ui )
= PN 2 puisque les ui sont indépendants
i=1 (xi x)2
PN
i=1 (xi x)2 2
= PN 2
i=1 (xi x)2
PN
2 i=1 (xi x)2
= PN 2
i=1 (xi x)2
2
= PN
i=1 (xi x)2
Partie 2:
^0 = 0 + ( 1
^ 1 )x + u
var( ^ 0 ) = var ( 1
^ )x + u
1
= x2 var ^ 1 + var (u) + 2xcov ^ 1 ; u

Or
cov ^ 1 ; u = E( ^ 1 1 u)
! !!
1 X
N
1 X
N
= E PN (xi x)ui ui
i=1 (xi x)2 i=1
N i=1
!
1 1 XN X
N
= PN E uj (xi x)ui
i=1 (xi x)2 N j=1 i=1
!
1 1 X
N X
N
= PN E (xi x)ui uj
i=1 (xi x)2 N j=1 i=1
= 0
Donc:
var( ^ 0 ) = x2 var ^ 1 + var (u)

2 2
var( ^ 0 ) = x2 PN +
i=1 (xi x)2 N
Or
X
N X
N
(xi x)2 = x2i N x2
i=1 i=1
Donc:
PN PN !
2
i=1 xi i=1 (xi x)2 2 2
var( ^ 0 ) = PN +
N i=1 (xi x)2 N
2 X
N
= PN x2i
N i=1 (xi x)2 i=1
Puisque les formules de la variance des estimateurs dépendent de 2 , on

a besoin d’un estimateur de la variance des termes aléatoires. Remarquons,
préalablement, que les résidus sont des ‘approximations’des termes aléatoires.
En e¤et,
yi = 0 + 1 xi + ui (erreur)
yi = ^ 0 + ^ 1 xi + uî (résidu)
et donc,
uî = yi ^ ^ xi
0 1
= ( + ^ ^ xi
0 1 xi + ui ) 0 1
= ui (^0 0) (^1 1 )xi :
On a deux estimateurs possibles, mais seul le second est non biaisé.

Estimateur 1: Un estimateur naturel est le suivant:
X
N
~2 = N 1
u^2i = SSR=N
i=1
mais cet estimateur sera biaisé car les résidus doivent satisfaire des contraintes:
X
N X
N
uî = 0; xi uî = 0
i=1 i=1
Estimateur 2: Un second estimateur est le suivant:
1 X
N
SSR
^2 = u^2i = :
N 2 i=1
N 2
Celui-ci est non biaisé comme le montre le théorème suivant.

Théorème 3 (absence de biais de ^ 2 ): Sous les hypothèses 10 à 50 ,
E(^ 2 ) = 2
Démonstration. Les résidus sont dé…nis par
uî = ui (^0 0) (^1 1 )xi :

Or:
X
n
uî = 0 = u (^0 0) (^1 1 )x
i=1
en vertu des propriétés algébriques des MCO (la somme des résidus est nulle),
P P
où u = ni=1 ui et x = ni=1 xi . Donc, en soustrayant la seconde expression à
la première, on obtient:
uî = (ui u) (^1 1 ) (xi x) :
En prenant le carré des membres de droite et gauche, on obtient:
u^2i = (ui u)2 + ( ^ 1 1)

2
(xi x) 2( ^ 1 1 ) (ui u) (xi x) :
En sommant sur i, cette expression devient:

X
n X
n X
n
u^2i = (ui 2
u) + (^1 1)
2
(xi x)2
i=1 i=1 i=1
X
n
2 (^1 1 ) (ui u) (xi x) :
i=1
Et en prenant l’espérance,
!
X
n
E u^2i = A + B + C:
i=1
avec
!
X
n
A = E (ui u)2 ;
i=1
!
X
n
B = E (^1 1)
2
(xi x)2 ;
i=1
!
X
n
C = 2E (^1 1 ) (ui u) (xi x)
i=1
En…n, par un résultat bien connu de statistique, on a:
A = (n 1) 2 :
De plus:
X
n
B = (xi x)2 E ( ^ 1 1)
2
i=1
0 !2 1
X
n Pn
(xi x) ui A
= (xi x)2 E @ Pi=1 n
i=1 i=1 (xi x)2
0 !2 1
Pn 2 Xn
(xi x)
= Pni=1 2 2
E@ (xi x) ui A
i=1 (x i x) i=1
1 X
n
= Pn 2 (xi x)2 E u2i
i=1 (xi x) i=1
2
=
où l’avant dernière ligne utilise le fait que E ((xi x) (xj x) ui uj ) = 0:

Finalement,
Pn ! !
X n
(x i x) (u i u)
i=1
C = 2E Pn 2 (ui u) (xi x)
i=1 i=1 (x i x)
!
2 X n X n
= Pn 2E (xi x) (ui u) (uj u) (xj x)
i=1 (x i x) i=1 j=1
!
2 X n X n
= Pn E (xi x) (ui u) (uj u) (xj x)
i=1 (xi x)2 i=1 j=1
2
= 2
Et en …n de compte,
!
X
n
E u^2i = (n 1) 2
+ 2
2 2
= (n 2) 2 :
i=1
3 Modèle de régression linéaire multi-
ple 1: Dé…nition et calcul
3.1 Motivation
Exemples de modèles de régression multiple:
Exemple 1.
SAL = 0 + 1 EDUC + 2 EXPER + u
Exemple 2.
SCORE_MOY = 0 + 1 DEP + 2 REV_MOY + u
Exemple 3.
CONS = 0 + 1 REV + 2 REV2 + u
Dans ce cas,
CONS
= 1 +2 2 REV
REV
Exemple 4.
ln (SAL) = 0 + 1 ln (VENTE) + 2 ceoten + 2 ceoten2 + u
(linéaire dans les paramètres)
3.2 Mécanique et interprétation des MCO

Les estimateurs des moindres carrés ordinaires sont obtenus par la minimisation
du carré des résidus, c’est-à-dire:
X
N
min (yi ^0 ^ 1 x1i : : : ^ K xKi )2
^ ; ^ ;:::; ^
0 1 K i=1
23
24 Modèle de régression linéaire multiple 1: Dé…nition et calcul
Comme précédemment la valeur prédite est donnée par
yî = ^ 0 + ^ 1 x1i + : : : + ^ K xKi
et le résidu par
uî = yi yî :
Dans le cas de deux variables explicatives, la droite de régression est donnée
par:
y^ = ^ 0 + ^ 1 x1 + ^ 2 x2
où ^ 0 est l’estimation de y quand x1 = 0 et x2 = 0, y^ = ^ 1 x1 pour
x2 …xé, y^ = ^ 2 x2 pour x1 …xé. L’intérêt des MCO est de fournir des
interprétations ceteris paribus même si les données n’ont pas été collectées de
manière adéquates.
Exemple: Considérons la droite de régression suivante:
\ = 0:284 + 0:092 EDUC + 0:0041 EXPER + 0:022 ANC
log(SAL)
Une année d’éducation supplémentaire, toutes autres choses étant égales, représen-
tera un accroissement de salaire de 9%. Si plusieurs variables indépendantes
se modi…ent simultanément, les e¤ets se cummulent. Par exemple, une année
d’expérience et d’ancienneté impliquera un accroissement de salaire de 26%:
\
log(SAL) = 0:0041 EXPER + 0:022 ANC = 0:261
3.3 Propriétés des résidus et mesures de l’ajustement

Les estimateurs des MCO et les résidus possèdent les propriétés algébriques
suivantes:
P
(1) uî = 0;
P
(2) uî xki = 0 pour k = 1; : : : ; K;
(3) y = ^ + ^ x1 + : : : + ^ xK ;
0 1 K
Calcul des estimateurs des MCO: une formule utile 25
P
(4) uî yî = 0;
(5) Si l’on dé…nit
X
N
SST = (yi y)2 ;
i=1
XN
SSE = (^
yi y)2 ;
i=1
XN
SSR = ui )2 ;
(^
i=1
alors
SST = SSE + SSR.
Le coe¢ cient de détermination est alors dé…ni par
SSE SSR
R2 = =1
SST SST
2
cov\
(yi ; yî )
=
\
var \
(yi )var (^
yi )
c’est-à-dire le carré du coe¢ cient de corrélation entre yi et y:
Remarque Le R2 ne décroit jamais lorsque une ou plusieurs variables sont

ajoutées.
3.4 Calcul des estimateurs des MCO: une formule utile

Pour simpli…er, supposons qu’il n’y a que deux variables explicatives (les résul-
tats qui suivent sont valables dans le cas plus général de K variables explica-
tives):
y^ = ^ 0 + ^ 1 x1 + ^ 2 x2 :
26 Modèle de régression linéaire multiple 1: Dé…nition et calcul
Dans ce cas, l’estimateur de 1 est égal à:

PN
^ 1 = Pi=1 r^1i yi
N 2
i=1 r
^1i
où r^1i est le résidu de la régression de x1 sur x2 , c’est-à-dire:
r^1i = x1i x^1i = x1i ^0 ^1 x2i :
Donc: l’estimateur de 1 est obtenu par la régression de y sur r^1 . Cette

formulation a une interprétation particulière. En e¤et, le résidu r^1i est la part
de la variable x1i qui n’est pas corrélée avec x2i ou, en d’autres termes, le résidu
r^1i correspond à la variable x1i dont on aurait enlevé l’e¤et de x2i .
Ce résultat est obtenu de la manière suivante. Soit la régression y = 0 +
1 x1 + 2 x2 + u. Les conditions de premier ordre donnent:
X
n
x1i (yi ^0 ^ x1i ^ x2i ) = 0:
1 2
i=1
Si l’on remplace x1i par ^0 + ^1 x2i + r^1i , l’on obtient:

X
n
(^0 + ^1 x2i + r^1i )(yi ^
0
^ x1i
1
^ x2i ) = 0:
2
i=1
Puisque yi ^ 0 ^ 1 x1i ^ 2 x2i = uî est un résidu, l’expression ci-dessus se

simpli…e de la manière suivante:
X
n
r^1i (yi ^0 ^ 1 x1i ^ 2 x2i ) = 0:
i=1
Pn Pn
En utilisant les propriétés des résidus ^1i = 0 et
i=1 r ^1i = 0, on
i=1 x2i r
obtient:
Xn
r^1i (yi ^ 1 x1i ) = 0:
i=1
En remplaçant à nouveau x1i par x^1i + r^1i , et en utilisant la propriété des
Calcul des estimateurs des MCO: une formule utile 27
Pn
résidus i=1 r
^1i x^1i = 0, cela devient:
X
n
r^1i (yi ^ 1 (^
x1i + r^1i )) = 0;
i=1
ou encore, Pn
^ = Pni=1 r^1i yi :
1
i=1 r
^1i r^1i
ple 2: Espérance et variance des
estimateurs
4.1 L’espérance des estimateurs des MCO
Hypothèse 1 (linéarité dans les paramètres): Le modèle dans la

population peut se décrire par une relation linéaire à K variables explicatives
telle que:
y = 0 + 1 x1 + : : : + K xK + u
où 0 ; 1 ; : : : ; K sont des paramètres, et u est un terme aléatoire.
Hypothèse 2 (échantillonnage aléatoire): Un échantillon aléatoire de
N observations, f(yi ; x1i ; : : : ; xKi ) : i = 1; : : : ; N g issu du modèle de population
décrit en H1.
Hypothèse 3 (espérance conditionnelle égale à zero): Le terme
u a une espérance de zéro pour toute valeur des variables indépendantes. En
d’autres termes,
E(ujx1 ; : : : ; xK ) = 0:
Hypothèse 4 (absence de collinéarité parfaite): Dans l’échantillon (et
donc dans la population), aucune des variables indépendantes n’est constante,
et il n’y a pas de relations linéaires exactes entre les variables indépendantes.
Remarque:
(1) Selon une autre interprétation de cette hypothèse, si l’on régresse une vari-
able explicative quelconque sur l’ensemble des autres variables explicatives,
le R2 doit être inférieur à 1.
(2) Les variables explicatives peuvent être corrélées mais elles ne peuvent pas
29
30 Modèle de régression linéaire multiple 2: Espérance et variance des estimateurs
être ‘parfaitement’corrélées. Par exemple:
SCORE_MOY = 0 + 1 DEP + 2 REV_MOY + u;
ou
CONS = 0 + 1 REV + 2 REV2 + u:
(3) Cas particuliers où il y a une corrélation parfaite:
– Une variables est le multiple d’une autre (les unités de mesure sont
di¤érentes) ou bien:
log(CONS) = 0 + 1 log(REV) + 2 log(REV2 ) + u
– Une variable est la somme de deux autres:
VOTE_A = 0 + 1 DEP_A + 2 DEP_B + 3 DEP_TOT + u
– La taille de l’échantillon est trop petite:.N < K + 1:
Les démonstrations qui vont suivre reposent sur le résultat suivant:

PN
^ = Pi=1 r^ji yi
j N 2
i=1 r
^ji
PN
i=1 r
^ji 0 + j xji + ui
= PN 2
i=1 r ^ji
PN PN PN
i=1 r^ji i=1 r
^ji (^
xji + r^ji ) r^ji ui
= 0 PN 2 + j PN 2 + Pi=1 N 2
i=1 r^ji i=1 r ^ji i=1 r
^ji
PN PN 2 ! PN
i=1 r
^ ji x
^ ji i=1 r^ji r^ji ui
= j P N 2
+ P N 2
+ Pi=1N 2
i=1 r ^ji i=1 r^ji i=1 r
^ji
PN
r^ji ui
= j + Pi=1 N 2
i=1 r^ji
Cette formule exprime le lien entre les estimateurs d’une part et les paramètres
et les résidus d’autre part.
Theoreme 1 (absence de biais des estimateurs): Sous les hypothèses
L’espérance des estimateurs des MCO 31
1 à 4, les estimateurs des MCO sont non biaisés:
E( ^ j ) = j
Démonstration. Les estimateurs et les paramètres dans la population

sont liés par la formule suivante:
PN
^ j = j + Pi=1 r^ji ui
N 2
i=1 r
^ji
Si l’on prend l’espérance et que l’on simpli…e, l’on obtient:
PN !
r
^ u
ji i
E( ^ j ) = j + E Pi=1N 2
i=1 r ^ji
PN
r^ji E(ui )
= j + i=1 PN 2
i=1 r ^ji
= j
Remarques:
(1) (Inclusion de variables non-pertinentes) Si l’on estime:
y^ = ^ 0 + ^ 1 x1 + ^ 2 x2 + ^ 3 x3
alors que le vrai modèle est:
y= 0 + 1 x1 + 2 x2 + u:
Cela n’a aucun e¤et en termes de biais mais cela peut avoir des e¤ets en
termes de variance.
(2) (Exclusion de variables pertinentes: le cas simple) Si l’on estime:
y = ~ 0 + ~ 1 x1
alors que le ‘vrai’modèle est
y= 0 + 1 x1 + 2 x2 + u
les estimateurs seront, en général, biaisés (mauvaise spéci…cation).

Example:
SAL = 0 + 1 EDUC + 2 HABIL + u
Puisque abil n’est pas observable, on estime:
SAL = 0 + 1 EDUC + v
où v = ( 2 abil + u) 2 E(abil). Le problème est que la condition sur

les espérance conditionnelle risque de ne pas être satisfaite.
L’estimateur de 1 est donné par:
PN
~ = Pi=1 (x1i x)yi :
1 N
i=1 (x1i x)2
Or:
yi = 0 + 1 x1i + 2 x2i + ui
L’introduction de cette équation dans la précédente donne:
PN
~ i=1 (x1i x1 ) ( 0 + 1 x1i + 2 x2i + ui )
1 = PN
i=1 (x1i x)2
PN PN
i=1 (x1i x1 ) i=1 (x1 i x1 ) x1i
= 0 PN + 1 P N
2 x1 )2
i=1 (x1i x1 ) i=1 (x1i
PN PN
i=1 (x1 i x1 ) x2i (x1 i x1 )ui
+ 2 PN + Pi=1N
i=1 (x1i x1 )2 i=1 (x1i x1 )2
PN PN
i=1 (xi x) x2i (x1 i x1 )ui
= 1 + 2 PN + Pi=1 N
i=1 (xi x)2 i=1 (x1i x1 )2
Si on prend les espérances:
PN
i=1 (x1i x1 ) x2i
E ~1 = 1 + 2 P N
i=1 (x1i x1 )2
La variance des estimateurs 33
où le dernier terme est la pente de la régression de x2i sur x1i :
x2 = ^0 + ^1 x1
Donc:
E ~ 1 = 1 + 2 ^1
Les cas où il y a absence de biais sont lorsque x2 et x1 sont non corrélés
dans l’échantillon et lorsque 2 est égal à zéro.
Le biais est positif (E ~ 1 ~
1 > 0) si signe( 2 ) = signe( 1 ):
Le biais est négatif (E ~ 1 ~

1 < 0) si signe( 2 ) 6= signe( 1 ):
Exemple:
\ = 0:584 + 0:083 EDUC
log(SAL)
où la variable abil a été omise.
(3) (Exclusion de variables pertinentes: le cas général)
y= 0 + 1 x1 + 2 x2 + 3 x3 +u
On estime:
y= 0 + 1 x1 + 2 x2 +u
Supposons que:
x1 et x2 sont non corrélés

x2 et x3 sont non corrélés
Alors: PN
i=1 (x1i x1 ) x3i
E ~1 = 1 + 3 P N
i=1 (x1i x1 )2
4.2 La variance des estimateurs
Hypothèse 5 (homoscédasticité): La variance du terme aléatoire condi-

tionnelle à x1 ; :::; xK est constante. En d’autres termes,
2
var(ujx1 ; :::; xK ) =
Remarque: Les hypothèses 1 à 5 sont amppelées ‘hypothèses de Gauss-

Markov’.
Theoreme 2 (variance des pentes des MCO): Sous les hypothèses 1 à
5,
2
var( ^ j ) = PN
1 Rj2 i=1 (xji xj )2
2
où Rj est le coe¢ cient de détermination de la régression de xj sur toutes les
autres variables.
Démonstration. Les estimateurs et les paramètres dans la population
sont liés par la formule suivante:
PN
^ j = j + Pi=1 r^ji ui
N 2
i=1 r
^ji
Si l’on prend la variance de cette expression et que l’on simpli…e, l’on obtient:
PN ! PN
2 2
r
^ ji u i i=1 r
^ji var(ui )
^
var( j ) = var PN 2i=1
= = P :
PN 2 2 N 2
i=1 r^ji r^ i=1 r
^ji
i=1 ji
En utilisant la dé…nition du Rj2 =SSE=SST, on obtient l’expression du théorème.

Remarque:
(1) Les composantes de la variance des estimateurs des moindres carrés ordi-
naires sont les suivantes:
– La variance du terme aléatoire 2 ;
– La variance des variables explicatives et le nombre d’observations (le
P
problème de micronumérosité): N i=1 (xji xj )2 ;
– La collinéarité entre les variables explicatives (problème de multicollinéar-
ité): 1 Rj2 .
La variance des estimateurs 35
(2) La variance de ^ j peut également s’écrire:

2
var( ^ j ) = PN 2
i=1 r
^ji
où r^ji est le résidu de la régression de la variable xi sur l’ensemble des autres
variables explicatives. Cette formulation sera également utilisée dans les
résultats qui suivent.
(3) Comme dans le cas du modèle de régression simple, la variance du terme
aléatoire doit être estimé.
Theoreme 3 (absence de biais de l’estimateurs de 2 ): Sous les

hypothèses 1 à 5, P 2
2 uî
E(^ ) = E = 2
N K 1
Ce théorème n’est pas démontré. Il implique que l’estimateur de l’écart-type
de la régression est: s P
u^2i
^=
N K 1
où N K 1 est le nombre de degrés de liberté (nombre d’observations moins
nombre de paramètres à estimer) et que l’écart-type de ^ j est:
^
q PN :
4.2.1 E¢ ciacité des estimateurs des MCO
Il existe une in…nité d’estimateurs sans biais, mais l’estimateur des MCO a une
propriété très attractive.
Theoreme 4 (Théorème de Gauss-Markov): Sous les hypothèses 1-5,
les estimateurs des MCO sont les meilleurs estimateurs linéaires non biaisés de
0; 1; : : : ; K .
Remarque:
(1) Un estimateur est linéaire s’il peut s’écrire sous la forme d’une fonction
linéaire des données sur la variable dépendante:
X
N
~j = wij yi
i=1
où chaque wij peut être une fonction de toutes les variables indépendantes.
Or, l’estimateur des MCO est linéaire puisque
PN
^ = Pi=1 r^1i yi
1 N 2
i=1 r
^1i
(2) Un estimateur est “meilleur”q’un autre estimateur si sa variance est plus
petite que celle de cet autre.
(3) Les estimateurs, qui ont la propriété décrite dans le Théorème 4, sont dits
‘BLUE’(= Best Linear Unbiased Estimator).
ple 3: Inférence
5.1 Echantillonnage des estimateurs des MCO
On ne connaît que deux moments de la distribution des estimateurs (espérance
et variance). Pour connaître les autres moments, on a besoin de l’hypothèse
suivante:
Hypothèse 6 (normalité): Les termes aléatoires u sont sont distribués
selon une loi normale.
Remarque:
(1) La normalité est justi…ée par le Théorème central-limite, selon lequel la

p
somme d’un très grand nombre N de variables aléatoires (divisée par N )
suit approximativement une loi normale..
(2) Si l’on ajoute les hypothèses 3 et 5 à l’hypothèse 6, on obtient que
2
u N (0; )
(3) Les hypothèses 1 à 6 constituent les hypothèses classiques du modèle

linéaire. Elles impliquent une forme plus forte du théorème de Gauss-
Markov.
Theoreme 5 (Théorème de Gauss-Markov ‘non linéaire’): Sous les

hypothèses 1-6, les estimateurs des MCO sont les meilleurs estimateurs non bi-
aisés de 0 ; 1 ; : : : ; K :
Remarque: Les estimateurs des MCO sont donc les meilleurs y compris
dans la classe des estimateurs non linéaires.
37
38 Modèle de régression linéaire multiple 3: Inférence
Theoreme 6 (normalité des estimateurs): Sous les hypothèses 1-6, la

distribution des estimateurs des MCO est normale
^j N ( j ; var j )
où var j est donné par

2
PN :
q
En particulier, ^ j j = var( ^ j ) N (0; 1).
Démonstration (intuition): L’estimateur des MCO est linéaire car il
peut s’écrire sous la forme:
PN
^ = r^ji ui
j j + Pi=1
N 2
i=1 r
^ji
Donc, ^ j est une combinaison linéaire des termes aléatoires qui suivent une loi
normale.
5.2 Test d’une seule restriction: le t-test

Le test de Student repose sur le théorème suivant.
Theoreme 7 (t-distribution des estimateurs standardisés): Sous
les hypothèses 1-6, les estimateurs standardisés suivent une loi de Student:
^
qj j
T (N K 1)
\
var( ^j )
où K + 1 est le nombre de paramètres estimés, et

r
\ ^ )= q ^
var( j P :
N
Test d’une seule restriction: le t-test 39
5.2.1 Test unilatéral.
Le théorème 1 permet de tester l’hypothèse nulle:
H0 : j =0
contre l’hypothèse alternative:
H1 : j > 0 (test unilatéral à droite).
Par exemple, considérons le modèle:
log(SAL) = 0 + 1 EDUC + 2 EXPER + 3 ANC + u:
On peut vouloir tester l’hypothèse nulle 2 = 0 (l’expérience n’a pas d’e¤et sur
le salaire) contre l’hypothèse alternative 2 > 0 (l’expérience a un e¤et positif
sur le salaire).
Dans ce cas, le test de student est basé sur la statistique t suivante:
r
\
t = ^ j = var( ^ j ):
De manière intuitive, on sera d’autant plus tenté de rejeter l’hypothèse nulle

que la valeur de cette statistique est grande. Donc, pour un test unilatéral à
droite, la règle de rejet est égale à
t>c
où c est la valeur critique. La valeur critique est déterminée par le seuil de signi-
…cation choisi par l’économètre, c’est-à-dire la probabilité de rejeter l’hypothèse
nulle alors que cette dernière est correcte. Si l’on choisit un seuil de signi…ca-
tion de 5% — le choix le plus courant — . la valeur critique c est la valeur de
la loi de Student telle que la probabilité d’obtenir une valeur supérieure à c est
égale à 5%, c’est-à-dire
Pr(t > cjH0 est vraie) = 0:05

Donc, si la statistique de Student t est supérieure à c, cela signi…e que la

probabilité que la distribution de t soit une loi de Student est faible.
Exemple 1: Considérons la régression du logarithme du salaire sur
l’éducation, l’expérience et l’ancienneté et testons l’hypothèse que l’ancienneté
n’a¤ecte pas la variable dépendante.
\ = 0:284 + 0:092 EDUC + 0:0041 EXPER + 0:022 ANC
ln(SAL)
(0:104) (0:007) (0:0017) (0:003)
2
N = 526; R = 0:316; t exper
= 0:0041=0:0017 2:41
Exemple 2: Considérons la régression du pourcentage de réussite au

test MEAP (Michigan Educational Assessment Program) sur la rémunération
moyenne des enseignants, le nombre d’enseignements et le nombre d’étudiants
et testons l’hypothèse que le nombre d’étudiants n’a¤ecte sur la réussite moyenne
au test MEAP.
\ = 2:274 + 0:00046 COMP_TOT + 0:048 NB_PERS

MEAP
(6:113) (0:00010) (0:040)
0:00020 NB_ETUD
(0:00022)
N = 408; R2 = 0:0541; t enroll = 0:0002=0:00022 0:91

\ =
MEAP 207:66 + 21:16 ln(COMP_TOT) + 3:98 ln(NB_PERS)
(48:70) (4:06) (4:19)
1:29 ln(NB_ETUD)
(0:69)
N = 408; R2 = 0:0651; t ln(enroll )

= 1:29=0:69 1:87
5.2.2 Test bilatéral.
Le théorème 1 permet également de tester l’hypothèse nulle:
H0 : j =0
H1 : j 6= 0 (test bilatéral).
Pour un test bilatéral, la règle de rejet est égale à
jtj > c
où c est la valeur critique. Autrement dit, l’hypothèse nulle sera rejetée si t est
très grand ou si t est très petit. La valeur critique c est également déterminée
par le seuil de signi…cation (choisi de manière arbitraire). Formellement,
Pr(jtj > cjH0 est vraie) = 0:05:
Soulignons que, puisque la loi de Student est symétrique, Pr(jtj > cjH0 est
vraie) = 2 Pr(t > cjH0 est vraie):
5.2.3 Tests généraux
La formule la plus générale de la statistique de Student,

r
t = ^j \ ^
j = var( j )
permet de tester d’autres hypothèses nulles telles que:
H0 : j = bj
H1 : j 6= bj (test bilatéral).
La procédure est exactement la même que celle qui vient d’être décrite.
Exemple 3: Considérons la régression du logarithme du nombre de
crimes et délits commis sur les campus universitaire sur le nombre d’étudiants
et testons l’hypothèse que nombre de crimes augmente proportionnellement
avec le nombre d’étudiants:

\
ln(CRIME) = 6:63 + 1:27 ln(NB_ETUD)
(1:03) (0:11)
2
N = 97; R = 0:585; t ln(enrol )
= (1:27 1)=0:11 2:454
5.2.4 Tests impliquant plusieurs paramètres.
Le test de Student permet également de tester un restriction portant sur une

combinaison linéaire de paramètres. Pour cela, il faut reparametrer le modèle.
Exemple 4: On désire tester si le taux de rendement d’une année
passée dans un “junior college” est di¤érent de celui d’une annéepassée dans
un “college”(ou “university”). Le modèle à estimer est
ln(SAL) = 0 + 1 COLL + 2 UNIV + 3 EXPER + u
et il faut tester
H0 : 1 = 2:
Le modèle estimé est:
\ = 1:43 + 0:098 COLL + 0:124 UNIV + 0:019 EXPER
ln(SAL)
(0:27) (0:031) (0:035) (0:008)
2
N = 285; R = 0:243
On peut procéder en calculant la di¤érence ^ 1 ^ 2 et la variance de var(\

^ 1 ^ 2 ).
Toutefois il est plus simple de procéder à en changement de paramétrisation.
On dé…nit:
= 1 2
et en substituant ce nouveau paramètre dans le modèle, on obtient:
ln(SAL) = 0 + COLL + 2 (COLL + UNIV) + 3 EXPER + u
L’estimation de ce modèle donne:

\ = 1:43
ln(SAL) 0:026 COLL + 0:124 SUP_TOT + 0:019 EXPER
(0:27) (0:018) (0:035) (0:008)
Le test de student est e¤ectué à l’aide la statistique t = 0:026=0:018.

Exemple 5: La théorie économique montre que les demandes doivent être
homogène. Cela signi…e que:
q1 = f (p1 ; p2 ; y) = f (tp1 ; tp2 ; ty).
Si l’on veut tester cette propriété, il faut construire un modèle économétrique

et dériver les implications de la contraite d’homogénéité. On choisit:
ln q1 = 0 + 1 ln p1 + 2 ln p2 + 3 ln y + u
La propriété d’homogénéité implique une restriction sur les paramètres. En

e¤et, l’équation
0 + 1 ln tp1 + 2 ln tp2 + 3 ln ty + u
sera égale à
+ 1 ln p1 + 2 ln p2 +
0 3 ln y + u
pour toute valeur de t si et seulement si
1 + 2 + 3 = 0:
On dé…nit donc: = 1 + 2 + 3 et on e¤ectue le changement de parametri-

sation comme précédemment a…n de faire le test.
5.2.5 Tests et intervalles de con…ance
En vertu du Théorème 6, l’inégalité suivante

^
j j
c< q <c
\ ^
var( j )
où c est le 97:5 percentile de la loi de Student à N K 1 degrés de liberté,
est satisfaite dans 95% des cas. Donc, l’intervalle de con…ance est donné par:
r r
^ c \
var( ^ j ) < j < ^ j + c \
var( ^ ):
j j
Exemple 6: Considérons la régression du logarithme du prix des maisons

sur le logarithme de la super…cie de celles-ci, le nombre de chambres et le
nombre de salles de bain:
\
log(PRIX) = 7:46 + 0:634 log(PIEDS_CARRE)
(1:15) (0:184)
0:066 CH_COUCH + 0:158 SAL_BAINS
(0:059) (0:075)
2
N = 19, R = 0:806
et calculons l’intervalle de con…ance à 95% de l’estimation de l’e¤et de la su-

per…cie:
0:634 + 2:131 0:184 < j < 0:634 2:131 0:184
5.3 Tests d’une mutiplicité de restrictions: le F-test

Le test de Fisher s’appuie sur le résultat suivant.
Theoreme 7 (F-distribution des rapports de SSR): Sous les hypothèses
1-6,
(SSRr SSRnr ) =Q
F = F (Q; N K 1)
(SSRnr ) =(N K 1)
où SSRr est la somme des carrés résiduels du modèle restreint, SSRnr la
somme des carrés résiduels du modèle non restreint, q le nombre de restric-
tions, N le nombre d’observations, et K le nombre de variables explicatives.
Remarques:
(1) Le test de Fisher appliqué à une restriction unique est parfaitement valable.
Dans ce cas, il donne exactement le même résultat que le test de Student.
Tests d’une mutiplicité de restrictions: le F-test 45
En e¤et, on peut monter que la statistique de Fisher pour une seule re-
striction est égale au carré de la statistique de Student. Or, la distribution
de Fisher à (1; N K 1) degrés de liberté est égale à la distribution du
carré d’une variable qui suit une loi de Student à (N K 1).
(2) Le test de Fisher sous la forme de R2 est très pratique. Soulignons que
SSRr =SST (1 Rr2 ) et SSRnr =SST (1 Rnr 2
). Donc:
2
(SSRr SSRnr ) =q (Rur Rr2 ) =q
F = = 2 ) =(N
:
(SSRnr ) =(N K 1) (1 Rur K 1)
(3) Le test de Fisher appliqué à l’ensemble des paramètres. Dans ce cas,
l’hypothèse nulle s’écrit:
H0 : 1 = 0; 2 = 0; : : : ; K =0
et la statistique de Fisher devient:

R2 =K
F = :
(1 R2 ) =(N K 1)
Exemple 7: Le salaire des houeurs de base-ball s’explique par le nom-

bre d’années passé dans la ligue, le nombre de matchs joués en moyenne, et
le niveau du joueur représenté par des indicateurs batting_average (“career
batting average”) home_runs (“home runs per year”) et runs_batted (“runs
batted in per year”). On estime l’équation suivante:
\ = 11:10 + 0:0689 ANNEES + 0:126 NB_MATCHS
ln(SAL)
(0:29) (0:0121) (0:0026)
+0:00098 BAT_AV + 0:0144 HOM_RUN
(0:0110) (0:0161)
+0:0108 RUN_BAT
(0:0072)
N = 353; SSR = 183:16; R2 = 0:627
On désire tester que les performances des joueurs in‡uencent le salaire. Pour
cela, on estime le modèle contraint suivant:

\
ln(salaire) = 11:22 + 0:0713 ANNEES + 0:0202 NB_MATCHS
(0:11) (0:0125) (0:0013)
N = 353; SSR = 198:311; R2 = 0:5971
La statistique de student est égale à: 9:55:

Exemple 8: Le test de Fisher permet également de tester d’autres formes
de restrictions. Considérons l’exemple suivant:
log(PRIX) = 0 + 1 log(EVAL) + 2 log(SUP_TER)

+ 3 log(SUP_HABIT) + 4 CHAM_COU + u
SSRnr = 1:822; N = 88
L’hypothèse nulle est la suivante:
H0 : 1 = 1; 2 = 0; 3 = 0; 4 = 0:
Pour tester cette hypothèse, le modèle restreint est le suivant:
log(PRIX) log(EVAL) = 0 +u
Le modèle non restreint est le suivant:Or le SSRr du modèle restreint est égal:
SSRr = 1:880
et la statistique de Fisher à
[(1:880 1:822) =(1:822)] (83=4) = 0:661

ple 4: Propriétés asymptotiques
des estimateurs
Ce chapitre traite des propriétés des estimateurs des MCO lorsque le nombre
d’observations devient très grand (tend vers l’in…ni).
6.1 Convergence
If you can’t get it right as n goes to in…nity, you shouldn’t be in this business.
(C.W..J. Granger).
Intuition de la convergence. Soit ^ j l’estimateur des MCO de j . Pour
tout N , ^ j a une distribution de probabilité. Si l’estimateur ^ j est convergent,
alors sa distribution est de plus en plus ‘concentrée’ autour de sa valeur de
population j , et sa distribution dégénère en un seul point j lorsque N tend
vers l’in…ni.
Hypothèse 300 (moyenne et corrélations nulles): E(u) = 0, cov(xj ; u) =
0, var(xj ) < 1:
Remarque: Cette hypothèse est plus faible que l’hypothèse 3 précédente.
Théorème 8 (convergence des MCO): Sous les hypothèses 1-2, 300 et 4,
les estimateurs des MCO ^ j convergent vers j pour tout j:
plim ^ j = j:
Démonstration (cas simple): L’estimateur des MCO s’écrit de la
47
48 Modèle de régression linéaire multiple 4: Propriétés asymptotiques des estimateurs
manière suivante:
PN
^ (xi x) yi
1 = Pi=1
N
i=1 (xi x)2
1
PN
N i=1 (xi x) ui
= 1 + 1 PN
N i=1 (xi x)2
Si l’on passe en plim,

cov(x; u)
plim ^ 1 = 1 + en vertu de la loi des grands nombres
var(x)
= 1 en vertu de l’hypothèse 30 :
Remarques:
(1) De la corrélation entre u et un xj cause la non-convergence des estimateurs

des MCO. Le terme
cov(x; u)
plim ^ 1 1 =
var(x)
désigne le biais asymptotique. Ce terme est positif si x et u sont posi-
tivement corrélés.
(2) L’omission d’une variable cause généralement un biais asymptotique. Sup-
posons que le ‘vrai’modèle est
y= 0 + 1 x1 + 2 x2 +"
et que le modèle estimé est
y= 0 + 1 x1 +u
où u = 2 x2 + ". Dans ce cas,

cov(x1 ; u) cov(x1 ; 2 x2 + ") cov(x1 ; x2 )
= = 2 :
var(x1 ) var(x1 ) var(x1 )
Normalité asymptotique 49
Donc,
plim ^ 1 = 1 + 2 1
où
cov(x1 ; x2 )
1 = = plim ^1
var(x1 )
6.2 Normalité asymptotique

En grand échantillon, l’hypothèse de normalité sur les termes aléatoires peut
être abandonnée. Cela est important puisque souvent l’hypothèse de normalité
n’est pas crédible.
Théorème 9 (normalité asymptotique): Sous les hypothèses 1-5, et
si var(x) < 1 et var(u) < 1,
p a
(i) N (^j j) N (0; 2 =a2j ) où 2 =a2j est la variance asymptotique
p PN 2
de N ( ^ j 2
j ); et aj = plim N
1
^ji , où r^ji est le résidu de la
i=1 r
régression de xj sur l’ensemble des variables autres explicatives;
(ii) ^ 2 est un estimateur convergent de 2
.
Démonstration (intuition dans le cas simple): De la dé…nition de

^ 1 , nous avons:
PN
p p1
i=1 (xi x) ui
N ^1 1 = N
P N
N
1
i=1 (xi x)2
où le dénominateur converge vers var(x) et le numérateur converge en proba-

bilité vers une loi normale, en vertu du Théorème central limite.
Remarque:
(1) Selon les formules traditionnelles (en petit échantillon), la variance de

50 Modèle de régression linéaire multiple 4: Propriétés asymptotiques des estimateurs
p
N (^j j) est égale à
2 2
N PN = 1
PN :
1 Rj2 i=1 (xji xj ) N i=1 r
2
^ji
Quand la taille de l’échantillon grandit, le dénominateur de cette expression
converge vers a2j .
(2) Pour tout j, puisque plim ^ 2 = 2 ,
p
N (^j j) (^j j) a
s = q N (0; 1):
^ \ ^)
PN 2 var(
1
N
r
^
i=1 ji
La loi de Student converge vers la loi Normale centrée réduite lorsque le

nombre de degrés de liberté tend vers l’in…ni.
(3) Les tests de Student et de Fisher sont asymptotiquement valides. Si
l’échantillon est grand, les procédures d’inférences décrites précédemment
peuvent être appliquées telles quelles.
ple 5: Speci…cation
7.1 Le choix de la forme fonctionnelle
7.1.1 Les terms logarithmiques
Lorsque les variables expliquées et explicatives sont en logarithmes, les para-

mètres sont des élasticités. Lorsque seule la variable expliquée est en loga-
rithme, les paramètres sont des demi-élasticitées. Ce sont des approximations
si la variable explicative varie de manière discrete.
Exemple 1 (équation de prix hédonique):
\
log(PRIX) = 9:23 0:718 log(OX_NIT) + 0:306 PIECES;
(0:19) (0:066) (0:019)
2
N = 506; R = 0:514
où nox désigne la quantité d’oxyde nitreux dans l’air. L’e¤et exact en pour-
centage de l’accroissement d’une pièce sur le prix est:
\
log(PRIX) = 0:306 PIECES
PRIXrooms = r+1
) log = 0:306
PRIXrooms = r
PRIXrooms = r+1
) = exp (0:306) = 1:358
PRIXrooms = r
Remarque: Les variables monétaires, ou plus généralement celles dont la

valeur est large, sont souvent en logarithmes. Les variables mesurées en années
sont souvent en niveaux. Les taux sont souveaux en niveaux.
7.1.2 Les termes quadratiques
Les variables explicatives peuvent être en exprivées sous forme quadratique.

51
52 Modèle de régression linéaire multiple 5: Speci…cation
La forme fonctionnelle est alors caractérisée par un poit d’in‡exion.

Exemple 2 (équation de salaire):
d = 3:73 + 0:298 EXPER
SAL 0:0061 EXPER2 :
(0:35) (0:041) (0:0009)
2
N = 526; R = 0:093
L’e¤et de l’expérience est donné par

d = (0:298
SAL 2 0:0061 EXPER) EXPER:
La première année d’expérience rapporte environ 29:8 centimes, la seconde

année environ 28:6 centimes, la onzième année environ 17:6 centimes. L’année
à partir de laquelle l’e¤et d’exper est négatif est donnée par
0:298
(0:298 2 0:0061 EXPER ) = 0 ) EXPER = 24:4:
2 0:0061
Remarque: Les termes quadratiques peuvent être mélangés avec des ter-
mes logarithmiques. Ils peuvent également être associés à des termes d’interaction.
Exemple 3 (équation de salaire, Wooldridge, p. 214):
\
log(SAL) = 5:95 + 0:0440 EDUC 0:0215 EXPER + 0:00320 EDUC EXPER
(0:24) (0:0174) (0:0200) (0:00153)
n = 935; R2 = 0:135
L’e¤et de l’expérience est donné par:

\
log(SAL)
= 0:0215 + 0:00320 EDUC:
EXPER
et donc
0:0215
0:0215 + 0:00320 EDUC = 0 , EDUC = 6:71
0:00320
L’e¤et de l’expérience sur le salaire est négatif pour les personnes ayant 6
années et moins d’éducation, et est positif pour les personnes ayant 7 années
Les variables qualitatives 53
et plus d’éducation.
7.2 Les variables qualitatives

Les variables qualitatives sont des variables sous la forme binaire. Exem-
ple: homme ou femme, français ou étranger, etc. On parle de variable ‘di-
chotomique’ou de variable ‘dummy’.
Personne SAL EDUC EXPER FEM MAR

1 3.10 11 2 1 0
2 3.24 12 22 1 1
3 3.00 11 2 0 0
4 6.00 8 44 0 1
5 5.30 12 7 0 1
.. .. .. .. .. ..
. . . . . .
525 11.56 16 5 0 1
526 3.50 14 8 1 0
Exemple 4 (une seule variable binaire): Considérons la régression du

salaire sur l’éducation et une variable binaire qui prend la valeur 1 lorsque le
travailleur est une femme et zéro sinon:
SAL = 0 + 0 FEM + 1 EDUC + u:
Ce modèle incorpore deux modèles particuliers:

Si FEM = 1,
SAL = ( 0 + 0 ) + 1 EDUC + u
Si FEM = 0,
SAL = 0 + 1 EDUC + u
Une variable explicative dichotomique implique un déplacement de la con-
stante de la droite de régresion. Dans le ca présent, la catégore ‘male’est
la catégorie de référence, par rapport à laquelle l’e¤et d’être une femme est
mesuré. Le choix de la catégorie de référence (male ou female) est arbitraire.

d =
SAL 1:57 1:81 FEM
(0:72) (0:26)
+0:572 EDUC + 0:025 EXPER + 0:141 ANC
(0:049) (0:012) (0:021)
2
N = 526; R = 0:364
) mesure de discrimination
d = 7:10
SAL 2:51 FEM
(0:21) (0:30)
N = 526; R2 = 0:116
Exemple 5 (une variable binaire dans une régression logarithmique):
\
log(PRIX) = 5:56 + 0:168 log(SURF_TER) + 0:707 log(SURF_HAB)
(0:65) (0:038) (0:093)
+0:027 CH_COUCH + 0:054 COLONIAL
(0:029) (0:045)
2
N = 88; R = 0:649
Exemple 6 (croisement de variables binaires):

\
log(SAL) = 0:321 + 0:213 HOM MAR 0:198 FEM MAR 0:110 FEM CEL
(0:100) (0:055) (0:058) (0:056)
+ 0:079 EDUC + 0:027 EXPER
(0:007) (0:005)
0:00054 EXPER2 + 0:029 ANC

(0:00011) (0:007)
2
0:00053 ANC
(0:00023)
N = 526; R2 = 0:461
Exemple 7 (variables binaires et variables ordonnées, Hamermesh et

Bidle, 1994): Une enquête est réalisée sur les salaires; les enquêteurs
récoltent également de l’information sur la beauté physique des personnes in-
terrogées. Hamermesh et Bidle classent les individus entre beauté inférieure à
Test de Chow 55
la maoyenne, moyenne, supérieure à la moyenne. Ils e¤ectuent les estimations

suivantes:
\
log SAL_HOM = 0 0:164 SUP_MOY + 0:016 INF_MOY + AUTRES
(0:046) (0:033)
N = 700
\
log SAL_FEM = 0 0:124 SUP_MOY + 0:035 INF_MOY + AUTRES
(0:066) (0:049)
N = 409
Exemple 8 (salaire des joueurs de base-ball et discrimination):

E¤et de la race sur les salaires des joueurs de baseball
\
log(SAL) = 10:34 + 0:0673 ANNEES + 0:0089 NB_MATCHS
(2:18) (0:0129) (0:0034)
+0:00095 BAT_AV + 0:0146 HOM_RUN + 0:0045RUN_BAT
(0:00151) (0:0164) (0:0076)
+0:0072RUN + 0:0011FLDPERC + 0:0075ALLSTAR
(0:0046) (0:0021) (0:0029)
0:198NOIR 0:190HISP + 0:0125NOIRk PERC_NOIR
(0:125) (0:153) (0:0050)
+0:0201HISPAN PERC_HISP
(0:0098)
7.3 Test de Chow

Le test de Chow permet de tester que des populations di¤érentes sont carac-
térisées par les même valeurs de paramètres. L’estimation de
SAL = 0 + 0 FEM + 1 EDUC + 1 FEM EDUC + u
est équivalente aux estimations de
SAL = 0 + 1 EDUC + 2 +u
pour les hommes, et de
SAL = ( 0 + 0) +( 1 + 1) EDUC + u
= 0 + 1 EDUC + u
pour les femmes. Si l’on veut tester que la même droite de régression s’applique
aux hommes et aux femmes, l’hypothèse nulle s’écrit::
H0 : 0 = 0; 1 = 0:
Le test de Fisher de cette hypothèse nulle s’écrit:

(SSRr (SSR1 + SSR2 )) N 2 (K + 1)
F =
(SSR1 + SSR2 ) K +1
7.4 Le R2 ajusté et la sélection de modèles

Le R2 s’écrit:
SSR=N
R2 = 1 :
SST=N
Dans ce cas, R2 est vu comme un estimateur de:
2
u
R2 = 1 2
:
y
Mais, si le nombre de paramètres à estimer tend vers le nombre d’observation,

le R2 tend vers 1 (la SSR tend vers 0). Celà est dû au fait que les estimateurs
de 2u et de 2y sont biaisés. Donc, le R2 est dé…ni par:
SSR=(N K 1)
R2 = 1
SST=(N 1)
L’ajout d’une variable explicative fait augmenter sa valeur si et seulement si le
t-test de la variable ajoutée est supérieur à 1. Le R2 peut être négatif. Le R2
peut être utilisé pour sélectionner des modèles non emboîtés.
Exemple. Soit deux modèles qui expliquent la recherche en développement
Prédiction et analyse de résidus 57
en fonction du chi¤re d’a¤aire:
INTENS_RD = 0 + 1 log(VENTE) + u
INTENS_RD = 0 + 1 VENTE + 2 VENTEs2 + u
Remarque. Si l’on insiste excessivement sur la minimisation des résidus,

on peut contrôler pour trop de variables. Le choix des variables explicatives
dépend de ce que l’on veut expliquer.
(1) Si l’on veut expliquer l’e¤et d’une taxation de l’alcohol sur le nombre
d’accidents de la route,
ACC = 0 + 1 TAX + 2 MILES + 3 PERC_HOM + : : : + u

ACC = 0 + 1 TAX + 2 CONS_BIERE + : : : + u
le second modèle est inadapté.

(2) Si l’on veut calculer des prix hédoniques pour les maisons,
log(PRIX) = 0 + 1 log(SURF_HAB) + ::: + u

log(PRIX) = 0 + 1 log(EVAL) + 1 log(SURF_HAB) + ::: + u
le second modèle est inadapté.
7.5 Prédiction et analyse de résidus
7.5.1 Variance de la moyenne conditionnelle
On e¤ectue une régression de y sur un ensemble de variables explicatives:
y= 0 + 1 x1 + 2 x2 + : : : + K xK + u;
et on obtient les estimateurs des paramètres ^ 0 ; ^ 1 ; ^ 2 ; : : : ; ^ K : Soit xo1 ; xo2 ;

: : : ; xoK des valeur particulière pour chacune des variables explicatives. On
veut prédire la moyenne conditionnelle de y, c’est-à-dire:

o
= 0 + 1 xo1 + 2 xo2 + : : : + K xoK
= E(yjx1 = xo1 ; x2 = xo2 ; : : : ; xK = xoK ):
La prédiction de la moyenne conditionnelle est:
yô = ^ 0 + ^ 1 xo1 + ^ 2 xo2 + : : : + ^ K xoK :
Pour calculer l’écart-type de 0, on procède en dé…nissant:

o
0 = 1 xo1 2 xo2 ::: K xoK
que l’on remplace dans l’équation estimée. On obtient la régression:

o
y= 1 (x1 xo1 ) + 2 (x2 xo2 ) + : : : + K (xK xoK ) + u:
L’estimation de cette relation donne la variance de l’estimateur de o , à savoir,

var(^y o ). Cette procédure permet de calculer un intervalle de con…ance pour
l’espérance conditionnelle.
7.5.2 Variance de la prédiction
Pour calculer un intervalle de con…ance de la prédiction, il faut également tenir

compte de la variance du terme aléatoire. Soit uo une valeur (non observée)
pour le terme aléatoire:
yo = 0 + 1 xo1 + 2 xo2 + : : : + K xoK + uo :
L’erreur de prédiction en utilisant yô pour prédire y o est:
eô = y o yô = 0 + 1 xo1 + 2 xo2 + : : : + K xoK + uo yô :
Or,
y o ) = y o ) E(^
E(^ eo ) = 0
Donc, l’espérance de l’erreur de prédiction est nulle. La variance de l’erreur de
Problèmes de spéci…cation 59
prédiction est:
eo ) = var(uo yô ) = var(^
var(^ y o ) + 2u
car uo et yô sont non corrélés. Donc, il y a deux sources de la variance de eô ,
mais la première devient négligeable lorsque l’échantillon est grand.
7.6 Analyse de résidus
Exemples L’analyse des résidus peut être utile dans diverses circonstances:
(1) Pour l’achat d’une maison;

(2) Pour mesurer l’e¢ cacité d’une …rme;
(3) Pour classer les écoles de droit.
7.7 Problèmes de spéci…cation
7.7.1 Mauvaise spéci…cation de la forme fonctionnelle
Exemple 1. Le vrai modèle est:
log(SAL) = 0 + 1 EDUC + 2 EXPER + 3 EXPER2 + u;
et le modèle estimé est:
log(SAL) = 0 + 1 EDUC + 2 EXPER + u:
pu encore
SAL = 0 + 1 EDUC + 2 EXPER + 3 EXPER2 + u;
Remarque. Si l’on spéci…e mal, la relation entre une relation entre la

variable y et l’une des variables x, l’on parle de mauvaise sépci…cation. Cela
mène généralement à un biais des estimateurs.
7.7.2 Test RESET.
Le test reset (pour Regression Speci…cation Error Test) de Ramsey permet

de tester le forme fonctionnelle. Le modèle dont on veut tester la forme fonc-
tionnelle est:
y = 0 + 1 x1 + : : : + K xK + u:
Dans ce cas, on estime:
y= 0 + 1 x1 + ::: + K xK + ^2
1y + ^3
2y + u:
où y^ est la valeur prédite de la relation initiale. Le test consiste à tester

H0 : 1 = 2 = 0 à l’aide d’un test de Fisher. Le test reset est surtout
valable pour faire un test contre un modèle plus général (qui englobe le modèle
particulier).
7.7.3 Test de modèles non emboîtés.
Dans le cas de modèles non emboîtés, d’autres tests ont été développés. Con-
sidérons les modèles suivants:
I: y= 0 + 1 x1 + 2 x2 +u
et
II : y = 0 + 1 log(x1 ) + 2 log(x2 ) + u
Le modèle I n’est pas un cas particulier du modèle II; le modèle II n’est pas
un cas particulier du modèle I. Le test de Mizon–Richard consiste à formuler
un modèle général qui englobe les deux modèles particuliers:
y= 0 + 1 x1 + 2 x2 + 3 log(x1 ) + 4 log(x2 ) + u:
Le test du modèle I contre le modèle II (H0 : le modèle I est vrai; H1 : le modèle

II est vrai) consiste à tester 3 = 4 = 0 par un test de Fisher. Le test du
modèle II contre le modèle I (H0 : le modèle II est vrai; H1 : le modèle I est
vrai) consiste à tester 1 = 2 = 0. Le test de Davidson–MacKinnon consiste
Utilisation de variables ‘proxy’ 61
à formuler les modèles:
y= 0 + 1 x1 + 2 x2 + 1y
^+ u
et
y = 0 + 1 log(x1 ) + 2 log(x2 ) + 2 y^ + u
où les valeurs prédites y^ sont obtenues par le modèle alternatif, et à tester soit
1 = 0, soit 2 = 0, par un test de Student.
Remarque. Les test de modèles emboîtés peuvent donner quatre résultats:

le modèle I est ‘accepté’et le modèle II est rejeté, le modèle I est rejeté et le
modèle II est ‘accepté’, le modèle I et le modèle II sont rejetés, le modèle I et
le modèle II sont ‘acceptés’.
7.8 Utilisation de variables ‘proxy’

Une variable ‘proxy’peut dans certaines conditions remplacer une variable non
observée. Soit le modèle:
y= 0 + 1 x1 + 2 x2 + 3 x3 +u
où x3 n’est pas observé. Or,
x3 = 0 + 1 x3 + .
où x3 est observé. Si l’on remplace cette expression dans le modèle initial, on

obtient:
y = 0 + 1 x1 + 2 x2 + 3 x3 +u
= 0 + 1 x1 + 2 x2 + 3 ( 0 + 1 x3 + )+u
= ( 0 + 3 0) + 1 x1 + 2 x2 + 3 1 x3 +( 3 + u)
ou encore:
y = 0 + 1 x1 + 2 x2 + 3 x3 + e
L’approche consiste donc à régresser y sur x1 ; x2 ; x3 et les estimateurs des MCO
seront convergents si (conditions su¢ santes)
(1) Le terme aléatoire u est non corrélé avec x1 , x2 et x3 (ce sont les hypothèses
habituelles des MCO).
(2) Le terme aléatoire u est non corrélé avec x3 (cette hypothèse naturelle
puisque sinon la variable x3 aurait été introduite dans le modèle).
(3) Le terme aléatoire est non corrélé avec x1 , x2 et x3 (c’est ce qui dé…nit
une bonne variable ‘proxy’).
Exemple. Le vrai modèle est:
log(SAL) = 0 + 1 log(EDUC) + 2 log(EXPER) + 3 log(HABIL) + u
Or, la variable abil n’est pas observée. La solution est d’utiliser la variable QI
comme proxy, avec
log (HABIL) = 0 + 1 QI + .
Cela permet d’obtenir des estimateurs convergents de 1 et de 2 sous les

conditions précitées.
7.9 Propriétés des MCO avec erreurs de mesure
7.9.1 Si les erreurs de mesure portent sur la variable dépendante:
Soit le modèle suivant:
y = 0 + 1 x1 + 2 x2 + 3 x3 +u
où la variable y est a¤ectée d’une erreur de mesure:
e0 = y y
Propriétés des MCO avec erreurs de mesure 63
y= 0 + 1 x1 + 2 x2 + 3 x3 + (u e0 )
Si l’erreur de mesure n’est pas corrélée avec x1 ; x2 ; x3 les estimateurs seront

convergents.
7.9.2 Si les erreurs de mesure portent sur la variable indépendante:

y = 0 + 1 x1 + u
où la variable x1 est a¤ecté d’une erreur de mesure:
e1 = x1 x1
y= 0 + 1 x1 + (u 1 e1 )
Si l’erreur de mesure n’est pas corrélée avec x1 les estimateurs seront conver-
gents. Cependant, cette hypothèse est peu réaliste. Généralement, on aura:
cov(e1 ; x1 ) = 0
Dans ce cas, il y aura une corrélation entre la variable explicative et le terme

aléatoire:
cov(e1 ; x1 ) = cov(e1 ; x1 + e1 )
= E(e1 (x1 + e1 ))
= E(e1 x1 + e21 )
= E(e1 x1 ) + E(e21 )
= E(e21 )
2
= e1
Pour cela, remarquons:
cov (x1 ; u 1 e1 ) = E(x1 (u 1 e1 ))
= E(x1 u 1 e1 x1 )
= E(x1 u) 1 E(e1 x1 )
= 1 cov(e1 ; x1 )
2
= 1 e1
Cela permet de mesurer le biais asymptotique. En e¤et,

cov (x1 ; u 1 e1 )
plim ^ 1 = 1 +
var(x1 )
2
1 e1
= 1 2 2
x1 + e1
!
2
e1
= 1 1 2
x1 + 2e1
2
!
x1
= 1 2 2
x1 + e1
C’est le biais d’atténuation.
7.10 Données manquantes, échantillons non aléatoires, et

observations abérantes
La notion de sélection endogène et de sélection exogène.
8 Heteroscédasticité
L’hétéroscédasticité invalide les estimateurs de la variance des ^ j et fausse les
procédure classiques de tests; le théorème de Gauss-Markov n’est plus correct.
8.1 Tests de l’hétéroscédasticité

Les tests d’hétéroscédasticité sont intéressants car, en cas d’hétéroscédasticité,
les estimateurs des MCO ne sont plus les meilleurs estimateurs. Soit le modèle
de régression multiple:
y= 0 + 1 x1 + 2 x2 +u
L’hypothèse nulle est:

2
H0 : var (ujx1 ; x2 ) =
ou de manière équivalente:
H0 : E u2 jx1 ; x2 = 2
Le test d’homoscédasticité consiste à tester si u2 est corrélé avec certaines

variables explicatives. Une simple approche consiste à supposer une relation
entre u2 et x1 ; x2 . Le test de Breusch-Pagan suppose une relation est linéaire:
u2 = 0 + 1 x1 + 2 x2 +v
et la procédure de test se réduit à
H0 : 1 = 2 = 0:
Cependant, comme u2 n’est pas observé, il doit être remplacé par u^2 :
u^2 = 0 + 1 x1 + 2 x2 +v
où v = v + u^2 u2 . La statistique de Fisher de la signi…cativité globale de la
65
régression est:
Ru2 =K
F =
(1 Ru2 ) =(n K 1)
Le test de White suppose une relation est quadratique:
u2 = 0 + 1 x1 + 2 x2 + 2
3 x1 + 2
4 x2 + 5 x1 x2 +v
et le test de Breusch-Pagan se réduit à
H0 : 1 = 2 = 3 = 4 = 5 = 0:
La statistique de Fisher est la mème que la précédente. Le test de White se

justi…e pour des raisons de convergence.
8.2 Inférence robuste à l’hétéroscédasticité

Les écarts-type des paramètres peuvent assez facilement être modi…és a…n de
tenir compte de l’hétéroscédasticité et de rendre possible des tests de student.
Considérons le modèle de régression simple:
yi = 0 + 1 xi + ui
avec
var(ui jxi ) = 2i
Dans ce cas, l’estimateur des MCO s’écrit:
PN
^ 1 = 1 + Pi=1 (xi xi )ui
N
i=1 (xi x)2
et donc:
PN ! PN
(xi xi )ui (xi xi )2 2
var( ^ 1 ) = var Pi=1
N
= hPi=1 i
i2
i=1 (xi x)2 N
x)2
i=1 (xi
Estimation par les Moindres Carrés Pondérés 67
Sous certaines conditions, l’estimateur de la variance,

PN
\ ^ (xi x)2 u^2i
var( 1 ) = hPi=1 i2
N 2
i=1 (x i x)
est “satisfaisant”, car

0 1
1
PN
B (xi xi )2 u^2i C
plim @ hn Pi=1 i2 A = n var( ^ 1 )
1 N 2
n i=1 (xi x)
Dans le cas général,
yi = 0 + 1 x1i + ::: + K xKi + ui

PN
\ r^2 u^2
var( ^ ) = h i=1 ji ii
j PN 2 2
i=1 r^ji
C’est l’estimateur de la variance robuste à l’hétéroscédasticité (dit estimateur
de White ou de Huber).
Exemple.
\
log(SAL) = 0:321 + 0:213 HOM_MAR 0:198 FEM_MAR 0:110 FEM_CEL
(0:100) (0:055) (0:058) (0:056)
[0:109] [0:057] [0:058] [0:057]
+0:0789 EDUC + 0:0268 EXPERr 0:00054 EXPER2

(0:0067) (0:0055) (0:00011)
[0:0074] [0:0051] [0:00011]
+0:0291 ANC 0:00053 ANC2

(0:0068) (0:00023)
[0:0069] [0:00024]
8.3 Estimation par les Moindres Carrés Pondérés

8.3.1 Cas 1: observation de h(x):
yi = 0 + 1 xi1 + 2 xi2 + ::: + K xiK + ui
où le terme aléatoire est hétéroscédastique. L’hétéroscédasticité est connue à

une fonction multiplicative près, c’est-à-dire
var(ujx) = 2 h(x)
où h(x) est une fonction positive connue des variables explicatives. Puisque
var(ui jxi ) = E(u2i jxi ) = 2 h(xi ), la variance de ui =h(xi ) est égale à
0 !2 1
ui 1
E@ p xi A = E u2i xi = 2
h(xi ) h(xi )
Si nous divisons les variables de l’équation de régression, nous obtenons:

yi 1 xi1 xi2 xiK ui
p = 0p + 1p + 2p +:::+ Kp +p :
h(xi ) h(xi ) h(xi ) h(xi ) h(xi ) h(xi )
ou
yi = 0 x0i + 1 xi1 + 2 xi2 + : : : + K xiK + ui
Cet estimateur est une variante des moindres carrés généralisés, appelée “moin-
dres carrés pondérés”. En e¤et,
X
N
(yi 2
0 1 xi1 2 xi2 ::: K xiK )
i=1
h(xi )
donne:
X
N
2
(yi 0 xi0 1 xi1 2 xi2 ::: K xiK ) :
i=1
Les tests de Student et de Fisher peuvent être utilisés sur le modèle transformé.
Le Théorème de Gauss-Markov est également apllicable.
Exemple. Le modèle initial est:
2
EPARi = 0 + 1 REVi + ui avec var(ui jREVi ) = REVi
Le modèle transformé est:
EPARi 1 p
p = 0p + 1 REVi + ui
REVi REVi
Estimations
(1) (2) (3) (4)
Ind. Var
OLS WLS OLS WLS
0:147 0:172 0:109 0:101
REV
(0:058) (0:057) (0:071) (0:077)
67:6 6:8
TAILLE _ _
(222:9) (168:4)
151:8 139:4
EDUC _ _
(117:2) (100:5)
0:28 21:7
AGE _ _
(50:03) (41:3)
518:3 137:2
NOIR _ _
(1308:0) (844:5)
124:8 124:9 1605:4 1854:8
CONST
(655:3) (480:8) (2830:7) (2351:8)
Obs. 100 100 100 100
R2 0:0621 0:0853 0:0828 0:1042
8.3.2 Cas 2: non observation de h(x):
En général, le fonction n’est pas observée mais doit être estimée. Pour cela, il
faut choisir une forme fonctionnelle pour la variance:
2
var(ujx) = exp( 1 x1 + : : : + K xK ):
L’objectif est d’estimer cette relation. De manière équivalente, écrivons:
u2 = 2
exp( 1 x1 + : : : + K xK ) ;
où E( ) = 1. Si est indépendant de x1 ; : : : ; xK ,
log u2 = log 2
+ 1 x1 + ::: + K xK + log ( ) ;
où E (log ( )) 6= 0 en général. Donc:
log u2 = 0 + 1 x1 + ::: + K xK + e;
où 0 = log ( 2 ) + E (log ( )) et e = log ( ) E (log ( )). Les paramètres

peuvent donc être estimés par une régression de:
log u^2 sur x1 ; : : : ; xK :
Cela donne les valeurs prédites:

\
log u2 )i = ^ 0 + ^1 x1i + : : : + ^K xKi :
(^
Si l’on prend l’exponentielle de cette expression, l’on obtient une estimation de

la fonction h(x) à une constante multiplicative près:
\
exp log u2 )i
(^ = exp ^ 0 exp ^1 x1i + : : : + ^K xKi
= exp ^ 0 [i )
h(x
Exemple.
\ =
CIGS 3:64 + 0:880 log(REV) 0:751 log(PRIX_CIGS) 0:501 EDUC
(24:08) (0:728) (5:773) (0:167)
2
+0:771 AGE 0:0990 AGE 2:83 RESTAURN
(0:167) (0:0017) (1:11)
\ =
CIGS 5:64 + 1:30 log(REV) 2:94 log(PRIX_CIGS) 0:463 EDUC
(17:80) (0:44) (4:46) (0:120)
2
+0:482 AGE 0:0056 AGE 3:46 RESTAURN
(0:097) (0:0009) (0:80)
9 Régression avec séries temporelles:
Bases
9.1 Caractéristiques des séries temporelles:
Les observations sont ordonnées
Les observations ne sont pas issues d’un échantillon aléatoire
– Rappel: un échantillon de variables (yi ) de la population représentée par
la densité f (y; ) est aléatoire si les variables yi sont indépendantes et
ont une même densité f (y; ).
L’ensemble des observations est appelé “processus stochastique”(au lieu de
“échantillon aléatoire”).
9.2 Exemples de modèles estimés avec séries temporelles
Exemple 1 (modèles statiques):
yt = 0 + 1 zt + ut
Courbe de Phillips statique:
INFt = 0 + 1 UNEMt + ut
Modèle de criminalité:
MRDRTEt = 0 + 1 CONRTEt + 2 UNEMt + 3 YNGMLEt + ut
Exemple 2 (modèles avec retards échelonnés)
yt = 0 + 1 zt + 2 zt 1 + 3 zt 2 + ut
73
74 Régression avec séries temporelles: Bases
Modèle de fertilité:
GFRt = 0 + 1 PEt + 2 PEt 1 + 3 PEt 2 + ut
9.3 Propriétés en échantillon …ni des MCO sous les hypothèses

classiques
L’hypothèse d’échantillon aléatoire est abandonnée.
9.3.1 Absence de biais
Hypothèse 1 (linéarité dans les paramètres): Le processus stochastique

f(xt1 ; xt2 ; : : : ; xtK ; yt ) : t = 1; : : : ; T g se décrit par un modèle linéaire:
yt = 0 + 1 x1t + 2 x2t + ::: + K zKt + ut
où fut : t = 1; : : : ; T g est une suite de variables aléatoires.

Remarque: Le modèle avec retard distribués présenté précédemment
satisfait l’hypothèse 1, si zt = x1t ; zt 1 = x2t ; : : :
Hypothèse 2 (moyenne conditionnelle nulle): Pour tout t,
E(ut jx0 ; x1 ; : : : ; xt ; : : : ; xT ) = 0:
Remarques:
(1) Cette hypothèse est plus forte que l’hypothèse alternative: E(ut jxt ) =
0; que l’on quali…e d’exogénéité contemporaine. L’hypothèse 2 est celle
d’exogénéité stricte.
(2) L’hypothèse 2 remplace l’hypothèse d’échantillon aléatoire. Dans le cas
d’un échantillon aléatoire, l’exogénéité “contemporaine”implique l’exogénéité
structe.
(3) L’hypothèse 2 exclut la possibilité que des changements aujourd’hui dans
Propriétés en échantillon …ni des MCO sous les hypothèses classiques 75
u ne causent des changements futurs dans z. Exemple:
TXCRIM = 0 + 1 NB_POL + ut
Hypothèse 3 (absence de colinéarité parfaite): Dans l’échantillon,

les variables indépendantes ne doivent être ni constantes, ni des combinaisons
linéaires des autres.
Théorème 1 (absence de biais des MCO): Sous les hypothèses 1-3, les
estimateurs des MCO sont non biaisés: E( ^ j ) = j.
9.3.1.1 La variance des estimateurs des MCO et le Théorème de

Gauss-Markov
Deux hypothèses supplémentaires sont nécessaires.

Hypothèse 4 (homoscédasticité): Pour tout t: var(ut jx0 ; x1 ; : : : ; xt ;
: : : ; xT ) = 2u
Hypothèse 5 (absence d’autocorrélation): Pour tout t 6= s,
corr(ut ; us jx0 ; x1 ; : : : ; xt ; : : : ; xT )
Remarque: Dans un échantillon aléatoire, cette hypothèse est automa-

tiquement satisfaite.
Théorème 2 (variance des estimateurs MCO): Sous les hypothèses
1-5, la variance des estimateurs des MCO ^ j est:
2
var( ^ j ) = XT
u
;
(1 Rj2 ) (xjt xj )
t=1
où Rj2 est R-carré obtenu de la régression de xj sur l’ensemble des autres

variables explicatives.
Théorème 3 (absence de biais de l’estimateur de 2u ): Sous les
hypothèses 1-5, ^ 2u est un estimateur sans biais de 2u : E(^ 2u ) = 2
u.
Théorème 4 (Théorème de Gauss-Markov): Sous les hypothèses 1-5,

les estimateurs des MCO sont les meilleurs estimateurs linéaire sans biais.
9.4 Inférence sous les hypothèses classiques
Hypothèse 6 (normalité des termes aléatoires): Les termes aléatoires

ut sont distribués selon une loi normale.
Remarque: Cette hypothèse, jointe aux hypothèses 2, 4 et 5, im-
plique que les ut sont indépendants de x0 ; x1 ; : : : ; xt ; : : : ; xT , indépendemment
et identiquement selon une loi N (0; 2u ).
Théorème 5 (normalité des estimateurs MCO): Sous les hypothèses
1-6, les estimateurs des MCO sont distribués selon une loi normale . De plus,
sous les hypothèseses nulles, les statistiques de Student ont une distribution de
Student, et les statistiques de Fisher ont une distribution de Fisher.
9.4.1 Tendance et saisonalité
9.4.1.1 Caractérisation d’une série tendancielle
De nombreuses séries temporelles sont caractérisées par une tendance. Ignorer

ce fait peut amener à mettre en évidence des relations de causalité qui n’existent
pas.
Modèle de tendance linéaire:
yt = 0 + 1t + et
Modèle de tendance exponentielle:
log(yt ) = 0 + 1t + et
Dans ce cas:
yt = exp ( 0 + 1t + et )
Inférence sous les hypothèses classiques 77
et
yt yt 1
1 = log(yt ) ( ) = le taux de croissance de yt :
yt 1
9.4.1.2 Utilisation de variables tendancielles dans une régression
Cela ne viole pas nécessairement les hypothèses 1-6. Cependant, on doit pren-
dre en compte le fait que yt peut également être in‡uencé par une tendance
(sinon problème de variable manquante et biais).
yt = 0 + 1 xt + 2t + ut
9.4.1.3 Détendancialisation
Dé…nissons la tédencialisation par:
y•t = yt ^0 ^ 1t
Considérons l’estimation du modèle précédent:
yt = ^ 0 + ^ 1 xt + ^ 2 t
Alors, l’estimateur ^ 1 peut être obtenu de la manière suivante:
(1) Régresser yt et xt sur t et une constante, et récupérer les résidus: y•t et x•t .
C’est-à-dire: y•t = yt ^ 0 ^ 1 t. En un sens, y•t est une série dont on a
enlevé la tendance. En e¤et, y•t est non corrélé avec t.
(2) Régresser y•t sur x•t . Cela donne: ^ 1 . Donc, les estimateurs peuvent être
obtenus par une régressions sur des données détendancialisées.
9.4.2 Calcul du R2 quand la variable dépendante est tendancielle
En général, les R2 obtenus sur séries temporelles sont très élevés. La raison est
la suivante. La formule du R2 ajusté est:
2
u
R2 = 1 :
^ 2y
L’estimateur ^ 2u est non biaisé (si la tendance est introduite dans la régression).
P
Mais, l’estimateur ^ 2y = N 1 1 Tt=1 (yt y)2 est biaisé si y est tendanciel. Par
exemple, si
yt = 0 + 1 t + et :
Le principe est alors de calculer le R2 à partir d’une série qui aura été préal-
ablement détendancialisée, et donc de régresser y•t sur xt et t.
9.4.3 Utilisation de variables saisonnières dans une régression et
désaisonnalisation
Si yt est vraisemblablement in‡uencé par la saison, le modèle suivant peut être

estimée:
y•t = yt ^ ^ xt ^1 jant ^2 févt ::: ^11 novt

0 1
Dé…nissons la désaisonnalisation par:
y•t = yt ^0 ^ 1t
L’estimateur 1 peut être obtenu de la manière suivante:
(1) Régresser yt et xt sur une constante et les variables binaires mensuelles.

On obtient: y•t sur x•t , qui sont les résidus de ces régressions.
y•t = yt ^0 ^ 1 xt ^1 jant ^2 févt ::: ^11 novt
Ces résidus sont des variables désaisonnalisées.

(2) Régresser y•t sur x•t donne l’estimateur ^ 1 .
10 Régression avec séries temporelles:
Eléments de théorie asymptotique
10.1 Stationarité et dépendance faible
10.1.1 Séries stationaires et non stationaires
Dé…nition 1 (stationnarité): Le processus stochastique fxt : t = 1; 2; :::g

est stationnaire si pour toute collection d’indices 1 6 t1 < t2 < ::: < tm , la
distribution jointe de fxt1 ; xt2 ; :::; xtm g est la même que la distribution jointe
de fxt1 +h ; xt2 +h ; :::; xtm +h g pour tous les entiers h > 1.
Dé…nition 2 (stationnarité en covariance): Le processus stochastique
fxt : t = 1; 2; :::g avec des moments de second ordre …nis (E(x2t ) < 1) est
stationnaire en covariance si (a) E(xt ) est constant; (b) var(xt ) est constant;
et (c) pour tout t; h > 1, cov(xt ; xt+h ) dépend seulement de h.
La dépendance faible peut maintenant être dé…nie de manière intuitive de
la manière suivante: un processus stochastique stationnaire en covariance est
caractérisée par les corrélations entre xt et xt+h . Un processus stochastique
stationnaire en covariance est faiblement dépendant si
lim cov(xt ; xt+h ) = 0:

h!1
Cette hypothèse remplace l’hypothèse d’échantillon aléatoire.
10.2 Propriétés asymptotiques des MCO
Hypothèse 1’(linéarité dans les paramètres): Le processus stochastique

f(xt1 ; xt2 ; : : : ; xtK ; yt ) : t = 1; : : : ; T g se décrit par un modèle linéaire:
yt = 0 + 1 x1t + 2 x2t + ::: + K zKt + ut

79
80 Régression avec séries temporelles: Eléments de théorie asymptotique
où fut : t = 1; : : : ; T g est une suite de variables aléatoires. De plus, f(xt1 ; xt2 ; : : : ; xtK ; yt ) :
t = 1; : : : ; T g est un processus stochastique stationnaire en covariance et faible-
ment dépendant.
Hypothèse 2’(moyenne conditionnelle nulle): Pour tout t, E(ut jxt ) =
0:
Hypothèse 3’(absence de colinéarité parfaite): Dans l’échantillon,
les variables indépendantes ne doivent être ni constantes, ni des combinaisons
linéaires des autres.
Théorème 6 (convergence des MCO): Sous les hypothèses 10 30 , les
estimateurs des MCO sont non convergents: plim ^ j = j .
2
Hypothèse 4’(homoscédasticité): Pour tout t: var(ut jxt ) =
Hypothèse 5’ (absence d’autocorrélation): Pour tout t 6= s,
corr(ut ; us jxt ; xs ) = 0
Théorème 7 (normalité des estimateurs MCO): Sous les hypothèses
10 50 , les estimateurs des MCO sont asymptotiquement distribués selon une
loi normale . De plus, sous les hypothèseses nulles, les tests de Student, et les
tests de Fisher sont asymptotiquement valides.
11 Autocorrélation
11.1 Propriétés des MCO en présence d’autocorrélation
Les estimateurs ne sont plus BLUE en présence d’autocorrélation. Considérons:
ut = ut 1 + et
avec j j < 1 et
E(et jut 1 ; ut 2 ; : : :) = 0
var(et jut 1 ; ut 2 ; : : :) = 2e
On suppose que:
E(ut ) = E(ut 1 ) = 0:
Un processus autorégressif d’ordre 1.
2
var(ut ) = var(ut 1 ) + var(et )
Donc
2 2 2 2
u = u + e
2
2 e
u = 2
1
2
E(ut ut 1 ) = E(ut 1 ) + E(et ut 1 )
cov(ut ; ut 1 ) = 2u
cov(ut ; ut 2 ) = 2 2u
Dans le modèle:
y t = 0 + 1 xt + ut
Pour simpli…er, on suppose que x = 0. Les estimateurs des MCO sont:
P
^ 1 = 1 + Pxt ut
x2t
81
82 Autocorrélation
P
xt ut
var ^ 1 = var P 2
x
P t
var ( xt ut )
= P 2
( x2t )
P 2 P P
xt var (ut ) + 2 Tt=11 Tj=1t xt xt+j cov (ut ; ut+j )
= P 2
( x2t )
2
PT 1 PT t j
j=1 xt xt+j
2
u u t=1
= P 2 +2 P 2
xt ( x2t )
La variance sera généralement biaisée. Si > 0, et si les x sont autocorrélés, on

sous-estimera la variance. Si < 0, on ne peut pas tirer de conclusion générale.
11.2 Tests d’autocorrélation
ut = ut 1 + et
E(et jut 1 ; ut 2 ; : : :) = 0
var(et jut 1 ; ut 2 ; : : :) = 2e
Hypothèse:
H0 =0
11.2.0.1 Durbin-Watson
PT
(^
t=2ut u^t 1 )2
DW = PT
^2t
t=1 u
PT P PT
^2t + Tt=2
t=2 u u^2t 1 2 t=2 u^2t u^2t 1
= PT
^2t
t=1 u
' 2 (1 ^)
If DW < dL ; rejet.
If DW > dU ; non rejet.
Correction de l’autocorrélation 83
If dU > DW > dL ; test non concluant.

Par exemple, pour un test à 5%, n=45, k= 4,dU = 1:720; dL = 1:336
11.3 Correction de l’autocorrélation

L’autocorrélation est connue.
On adopte les hypothèses traditionnelles de Gauss-Markov sauf l’hypothèse
5 sur l’autocorrélation.
ut = ut 1 + et
2
e
var(ut ) = 2)
(1
y t = 0 + 1 xt + ut
On écrit:
yt 1= 0 + 1 x t 1 + ut 1
yt = 0 + 1 xt + ut
D’où,
yt yt 1 = (1 ) 0 + 1 (xt xt 1 ) + (ut ut 1 )
ou
y~t = (1 ) 0 + 1 x~t + et
Cet estimateur n’est pas BLUE. Pour cela, on use:
y1 = 0 + 1 x1 + u1
où u1 est non corrélé avec e. mis

2
e
var(u1 ) = 2)
(1
p p p p
(1 2y = (1 2 + (1 2x + (1 2u
1 0 1 1 1
où p p
y~1 = 0 (1 2+ (1 2x
~1 + u~1
1
2
var(~
u1 ) = (1 )var(u1 ) = 2e
Estimateur GLS
FGLS: Cochrane-Orcutt, Prais-Winsten + itération
84 Autocorrélation
11.4 Inférence robuste à l’autocorrélation
11.5 Annexe
Les formules suivantes sont régulièrement utilisées dans le cours:
!
X
N X
N X
N X
N
xi (xi x) = xi (xi x) x xi xi
i=1 i=1 i=1 i=1
!
XN XN
= xi (xi x) x xi Nx
i=1 i=1
!
X
N X
N
= xi (xi x) x (xi x)
i=1 i=1
XN
= (xi (xi x) x (xi x))
i=1
XN
= (xi x)2
i=1
!
X
N XN X
N X
N
xi (yi y) = xi (yi y) x yi yi
i=1 i=1 i=1 i=1
!
XN XN
= xi (yi y) x yi Ny
i=1 i=1
!
XN XN
= xi (yi y) x (yi y)
i=1 i=1
XN
= (xi (yi y) x (yi y))
i=1
X
N
= (xi x) (yi y)
i=1

ECONOMETRIE

Transféré par

Droits d'auteur :

Formats disponibles

ECONOMETRIE

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ECONOMETRIE

Transféré par

Droits d'auteur :

Formats disponibles

Econométrie

(1) Les données utilisées ne sont pas expérimentales;

1.2 Les étapes d’une analyses empirique

(1) D’abord, un modèle économique est construit. Exemples:

1.3 Structure des données

(1) Des données transversales (cross-section data): en général, un échantillon

aléatoire issu d’une population; souvent des données microéconomiques.

De…nition 1 Un échantillon aléatoire est un ensemble de variables aléatoires

(2) Des séries temporelles: journalières, hebdomadaires, mensuelles, trimes-

1.4 Principal objectif d’une étude économétrique

(1) E¤ets d’un engrais;

où 0 est la constante, 1 est la pente et u le terme aléatoire. On parle de la

où 1 est souvent le paramètre d’intérêt.

Exemple 2: La relation entre le salaire et le niveau d’éducation (mesuré

2.2 Dérivation des estimateurs des MCO

2.2.1 Calcul des estimateurs

Soit un échantillon f(xi ; yi ) : i = 1; :::; N g. Les estimateurs des MCO, ^ 0 et

où le résidu des MCO pour l’observation i est dé…ni par

La première équation devient:

Elle devient ensuite:

2.2.2 Quelques dé…nitions

La valeur prédite des MCO de yi conditionnellement à xi est:

Le résidu des MCO est:

La droite de régression des MCO est:

Celle-ci est une estimation de la fonction de régression de la population:

L’estimateur de la pente est:

Exemple 5 (Wooldridge, 2003): La droite de régression du salaire sur

Exemple 6 (Wooldridge, 2003): La droite de régression du pourcentage

\ = 40:90 + 0:306 PART_A

2.3 Propriétés algébriques des MCO

Propriété 2: La covariance entre les résidus et les valeurs de la variable

Propriété 3: La régression passe par le point moyen de l’échantillon:

Propriété 4: La covariance entre les résidus et les valeurs prédites est

La dérivation de la propriété 5 nécessite de dé…nir les concepts suivants:

SST = SSE + SSR

Cette propriété permet de calculer le coe¢ cient de détermination (R2 ):

Ce coe¢ cient est égal au carré du coe¢ cient de corrélation.

Exemple 7 (Wooldridge, 2003): Le R2 de la régression du salaire des

\ = 963:191 + 18:501 roe

Exemple 8 (Wooldridge, 2003): Le R2 de la régression du pourcentage

2.4 Unités de mesure et non linéarité

2.4.1 Changement d’unités de mesure:

La variable expliquée est exprimée en miliers d’euros, et la variable explicative

Le modèle de régression simple est linéaire dans les paramètres. Cependant,

Exemple 10 (Wooldridge, 2003): La droite de régression du salaire

2.5 Propriétés statistiques des MCO

Les démonstrations qui suivent sont basées sur la transformation suivante:

L’estimateur ^ 1 est donc égal à la somme de la vraie valeur de 1 dans la

Démonstration: (les espérances sont conditionnelles aux valeurs de

Si l’on prend les espérances, on a:

Partie 2: La dé…nition de ^ 0 est:

Si l’on prend les espérances, on a:

Exemple 11 (score et subvention des repas): Considérons la ré-

Les estimateurs sont certainement biaisés car l’hypothèse d’espérance condi-

Pour calculer la variance des estimateurs, l’hypothèse suivante, qui assure

On a alors le théorème suivant.

En prenant la variance des membres de droite et de gauche, on obtient:

= x2 var ^ 1 + var (u) + 2xcov ^ 1 ; u

var( ^ 0 ) = x2 var ^ 1 + var (u)