Cours Econometrie L3
Cours Econometrie L3
Cours Econometrie L3
L’essentiel du cours
l’économétrie en Licence 3
Economie/Gestion
benatick2017@outlook.com
y1
[]
Y = y2
⋮
yn
De même, les n observations sur les K facteurs explicatifs peuvent être empilés
x11 x 12 ⋯ x1 K
x x ⋯x
[ ]
dans une matrice X(n×K) telle que X = 21 22 2 K . Et également les n
⋮ ⋮⋮
x n 1 x n 2 ⋯ xnK
observations sur la perturbation forment un vecteur ε tel que
ε1
[]
ε = ε2
⋮
εn
L’hypothèse H1 de linéarité: yi = xi1 β1+ xi2 β2 +…+ xiK βK + εi dit que la relation entre y et x1,
β1
β
x2, …xK est linéaire. Sous la forme matricielle. H1 devient : Y = Xβ+ ε, avec β= 2 , le
⋮
βK
vecteur des paramètres du modèle de dimension (K×1). Le plus souvent, on pose que la
[]
première colonne de X est formée de 1 (colonne unitaire), afin d’introduire un terme constant
dans le modèle.
Par convention de notation pour une observation i, on écrit :
y i= X 'i β +ε i
'
avec X i =[ xi 1 xi 2 ⋯ x iK ], le vecteur des valeurs observées des variables explicatives de
l’observation i.
Des formes de linéarité souvent utilisées en pratique
a) Le modèle Log-linéaire (ou Log-Log)
Le modèle suivant y i=α xiβ2 xiβ3 e ε n’est pas linéaire, mais il peut être transformé en un
2 3 i
Le modèle log-linéaire est appelée une forme fonctionnelle à élasticité constante. Par
exemple, L’élasticité de y par rapport à x 2 est égale à β 2. Ainsi si est β 2 positif, on dit qu’une
augmentation de x 2 de 1% entrainerait une augmentation de β 2% de y, toutes choses égales
par ailleurs.
b) Le modèle semi-log
Le modèle semi-log est souvent utilisé dans les modèles de croissance :
On a ainsi :
ln y t =β 1+ β2 x t 2+ ⋯+ β K xtK + δt+ ε t
δest le taux de croissance autonome (non expliquée par le modèle lui-même). Alors
que, par exemple, quand x2 change d’une unité, cela entrainerait un changement de β 2
% de y, citerus paribus.
Simplement dit, il ne sera pas possible de faire un modèle de régression avec très peu
d’observations et un nombre relativement grand de variables explicatives.
Cela peut s’écrire également E ( ε i| X )=0. Et pour les n observations, cela donne
E ( ε 1|X )
L’espérance
[ ]
E ( ε| X )= E ( ε 2|X ) =0
⋮
E ( ε n|X )
non conditionnelle de ε iest également nulle :
E ( ε i )=E X [ E ( ε i|X ) ]=E X [ 0 ] =0. En effet, pour chaque ε i,
Cov ⌈ E ( ( ε i| X ) ) , X ⌉=Cov [ ε i , X ] et l’hypothèse 3 suppose que Cov [ ε i , X ] =0 pour tout
i.
Notons que dans un modèle sans terme constant, supposer que E ( ε i )=0 est fortement
problématique.
De plus, comme Y = Xβ+ ε, l’hypothèse 3 implique que :
E ( Y |X )=Xβ+ E ( ε|X ) =Xβ
Ainsi, la régression de y sur X est l’espérance conditionnelle.
ε1 ε 21 ε 1 ε 2 ⋯ ε 1 ε n
' ε
[] [ ] ε ε ε2 ⋯ ε ε
Comme nous avons, ε ε = 2 [ ε 1 ε 2 ⋯ ε n ]= 2 1 2 2 n
⋮
εn
⋮ ⋮⋮ ⋮
ε n ε 1 ε n ε 2 ⋯ ε 2n
E ( ε 21| X ) E ( ε 1 ε 2|X ) ⋯ E ( ε 1 ε n| X )
[ 2
Var ( ε|X )=E ( ε ε | X )= E ( ε 2 ε 1|X ) E ( ε 2|X ) ⋯ E ( ε 2 ε n| X )
'
⋮ ⋮ ⋮⋮
E ( ε n ε 1|X ) E ( ε n ε 2|X ) ⋯ E ( ε 2n| X )
]
σ 20 ⋯ 0
[ ] 2
¿ 0 σ ⋯ 0 =σ 2 I
⋮
0 0 ⋯ σ2
ε|X N [ 0 , σ 2 I ]
I.2.7 L’indépendance
Tout au long des hypothèses précédentes, nous avons supposé sournoisement trois types
d’indépendance :
(i) L’indépendance par la moyenne, E ( ε i| X )=0. Elle suppose que les variations des
perturbations ne sont pas expliquées par celles des variables explicatives.
(ii) L’indépendance statistique. Etant donné que nous avons supposé que les
perturbations ne sont pas corrélées entre elles (donc elles sont indépendantes à
travers leur moyenne), l’hypothèse de leur normalité (conditionnelle) suppose
qu’elles sont statistiquement indépendantes. Ce qui constitue une hypothèse plus
forte que celle d’indépendance par la moyenne.
(iii) L’indépendance linéaire des colonnes de la matrice X. Pour la modélisation, cette
notion implique que si les variables ne varient pas de façon indépendante, il est
impossible de les inclure dans le modèle de régression linéaire.
Dans la méthode des moindres carrés, le vecteur de coefficients est celui qui minimise la
somme des carrés des résidus (voir la démonstration en classe). Cette méthode consiste en
fait à choisir ^β de sorte que la droite d’ajustement X 'i ^β soit proche des points observés.
Pour trouver ^β , commençons par choisir un vecteur de coefficients estimés ^β 0 et posons alors
n
' ' 2
la somme des carrés des résidusS ( ^β 0 ) =ε^ 0 ε^ 0 =∑ ( y i −X i ^β0 ) .
i=1
'
Minβ^ S ( β^ 0 ) =^ε '0 ^ε 0=( Y −X ^β 0 ) ( Y − X β^ 0 )
0
^β01 ε^ 01
En effet, ^β 0=
Développons
[] []
^β02
⋮
^β 0 K
la
ε^
, ε^ 0= 02 ; ε^ 0i = y i−X 'i ^β 0 et ε^ 0=Y − X β^ 0
⋮
^ε 0 n
dernière expression, on a
' ' ' ' ' ' ' ' ' '
S ( ^β 0 ) =( Y −X ^β0 ) ( Y −X ^β 0 ) =( Y − ^β 0 X )( Y − X ^β0 ) =Y Y −Y X β^ 0 − ^β0 X Y + ^β 0 X X ^β 0
or Y ' X β^ 0 est la transposée de ^β '0 X ' Y et est un scalaire (une matrice de dimension 1×1). Par
' ' ' '
conséquent, on a S ( ^β 0 ) =Y Y −2Y X ^β 0+ β^ 0 X X ^β0 .
∂ S ( ^β 0)
La condition nécessaire d’un minimum est =−2 X ' Y +2 X ' X ^β 0=0
∂β^
0
Ce résultat vient de ce que β^ '0 X ' X ^β 0 est une somme qui comprend les carrés des coefficients
∂ A, x
dans ^β 0 et pour toute matrice A, =A
∂x
La condition nécessaire fournit ainsi ce que l’on appelle (dans la littérature) les équations
normales des moindres carrés : X ' X ^β=X ' Y,
Plusieurs logiciels d’économétrie (Eviews, SAS, SPSS, Stata, etc.) rendent aisé le calcul de ^β
à partir de données.
∂2 S ( β^ )
En outre, on a '
=2 X ' X
^
∂ β∂ β ^
∑ ( x i−x́ ) ( y i− ý )
^β 2= i=1 et ^β 1= ý− β^ 2 x́
n
2
∑ ( xi −x́ )
i=1
Exemple numérique
Considérons un échantillon de données en coupe transversale des producteurs d’anacarde de
la région du Worodougou pour l’année 2019. Le Tableau suivant résume quelques
informations collectées sur 20 planteurs d’anacarde.
Tableau 5 :
Nom du Numéro du Quantité produite Heures travaillées à Capital utilisé
producteur producteur (i) (Q) en Kg la semaine (L) (K) en milliers de
Fcfa
Adjoumnani 1 10372 16 3880
Alassane 2 4082 19 3400
Brahima 3 11385 14 4330
Boukari 4 14500 14 3900
Diomandé 5 15906 21 4290
Dosso 6 3299 29 2110
Drissa 7 5705 16 3690
Doukouré 8 4504 22 3180
Diakité 9 5104 22 3220
Daouda 10 3667 24 2750
Fofana 11 3955 19 3430
Fofié 12 3984 30 2120
Gogoh 13 4010 18 3600
Gondo 14 5886 16 3600
Konaté 15 6342 17 3740
Kouakou 16 4389 28 1800
Koné 17 4187 21 2650
Konan 18 11497 12 4840
Kouassi 19 13466 12 4720
Traoré 20 3829 14 3830
Q i= A Lαi K δi .
Qi= A Lαi K δi e ε .i
où a=Log(A)
Pour estimer ce modèle, nous commençons d’abord par transformer toutes nos variables du
Tableau 5 sous la forme Log. Ensuite, nous pouvons utiliser la formule des équations
normales pour retrouver les estimateurs. Il est tout aussi possible d’utiliser la formule du
vecteur des paramètres estimés.
La matrice des variables explicatives y compris le terme constant est alors donnée par
X= [1 2.772589 8.263591
1 2.944439 8.131531
1 2.639057 8.373322
1 2.639057 8.268732
1 3.044523 8.364042
1 3.367296 7.654443
1 2.772589 8.213382
1 3.091043 8.064636
1 3.091043 8.077137
1 3.178054 7.919356
1 2.944439 8.140316
1 3.401197 7.659172
1 2.890372 8.188689
1 2.772589 8.188689
1 2.833213 8.226841
1 3.332205 7.495542
1 3.044523 7.882315
1 2.484907 8.48467
1 2.484907 8.459564
1 2.639057 8.25062]
X est de dimension (20*3)
et
X’X= [20 58.367099 162.30659
58.367099 171.7837 472.40126
162.30659 472.40126 1318.5537]
(X’X) est une matrice symétrique de dimension (3×3).
Y= [8.263591
8.131531
8.373322
8.268732
8.364042
7.654443
8.213382
8.064636
8.077137
7.919356
8.140316
7.659172
8.188689
8.188689
8.226841
7.495542
7.882315
8.48467
8.459564
8.25062
X’Y= [162.30659
472.40126
1318.5537].
(X’Y) est de dimension (3*1)
Ainsi, en appliquant la formule des équations normales, on a
20 58.367099162.30659 a^ 162.30659
[ 58.367099171.7837 472.40126
162.30659 472.401261318.5537 ][ ] [
α^ = 472.40126
δ^ 1318.5537 ]
Ce qui fournit le système d’équations suivant :
^
20 a^ +58.367099 α^ + 162.30659 δ=162.30659
{ ^
58.367099 a^ +171.7837 α^ +472.40126 δ=472.40126
162.30659 a^ +472.40126 α^ + 1318.5537 δ^ =1318.5537
a^ =−2.241178
{ α^ =−0.0156444
^
δ=1.3551
'
L’estimateur de la régression de la population E ( y i|X i ) =X i β est ainsi donné par
^
log ( Qi ) =−2.241178−0.0156444 log ( Li ) +1.3551 log ( K i ).
On a aussi
log ( Q i ) =−2.241178−0.0156444 log ( Li ) +1.3551 log ( K i ) + ε^ i
où M 0 est une matrice idempotente de dimension n×n qui transforme les observations en
1
0 1 1
[]
écarts aux moyennes de l’échantillon. M =I − II ' , avec l= et I est la matrice identité de
dimension n×n.
n ⋮
1
On montrera en classe que STC se décompose en la somme des carrés expliquée par la
régression (SCE) et la somme des carrés des résidus (SCR), STC = SCR+SCE.
Y = X ^β+ ε^
Premultiplios cette equation par M 0 . Ce qui donne M 0 Y =X ^β + ε^
Par exemple, si R2=0,9 , alors le modèle de régression explique 90% de la variation totale de
y.
Néanmoins, l’un des problèmes majeurs liés à l’utilisation de R2 pour juger de la qualité d’un
ajustement est que R2 ne décroit jamais quand une variable supplémentaire est ajoutée à la
régression. On serait donc tenter de rajouter des variables au modèle jusqu’à ce que R2
atteigne sa limite supérieure, à savoir 1. Afin de remédier à ce problème, on a recours au
coefficient de détermination ajusté (par rapport aux degrés de liberté).
Etant donné que Ŕ2 prend en compte une correction liée à la reduction de degrés de liberté
tout en refletant des ameliorations de l’ajustement, il est possible de choisir la spécification
du modèle de régression qui maximise Ŕ2. Par conséquent, Ŕ2servira en pratique à choisir la
meilleure spécification parmi plusieurs spécifications possibles d’un même modèle de
régression. Certains chercheurs estiment que Ŕ2 ne corrige pas assez la perte de degré de
liberté. D’autres solutions ont été suggérées dans la littérature pour comparer des
spécifications d’un modèle :
ε^ 2i
(9) (10) (11)
1 0.1156 0.5395
2 0.1764 -0.4005
3 0.0784 0.3495
4 0.4356
5 0.3844
6 0.0004
7 0.04
8 0.0484
9 0.0169
10 0.0576
11 0.2116
12 0.0441
13 0.2601
14 0.0169
15 0.0121
16 0.2809
17 0.0025
18 0.0169
19 0.1089
20 0.4225
Tota
l
Deux sources de biais des estimateurs des moindres carrés sont souvent développées dans la
littérature : (i) l’omission de variables explicatives pertinentes importantes et l’utilisation des
variables explicatives non pertinentes (voir le développement en class).
III.2 variance de l’estimateur des moindres carrés
Si les variables explicatives peuvent être considérées comme non stochastiques, alors, on peut
obtenir la variance d’échantillonnage de l’estimateur des moindres carrées en utilisant X
comme une matrice de constantes.
Alternativement, X peut être stochastique, pourvu que l’analyse lui soit conditionnelle. On
montrera alors (en classe) que la matrice de variance-covariance (ou simplement matrice de
covariance) de l’estimateur des moindres carrés est donnée par :
[ ^ ^ ^
V =Var ( β^|X )=σ ( X X ) = cov ( β 2 , β1|X ) var ( β 2|X ) ⋯ cov ( β 2 , β K |X ) x
2 ' −1
⋮ ⋮⋮ ⋮
cov ( β^ K , ^β1|X ) cov ( ^β K , ^β 2| X ) ⋯ var ( ^β K |X )
]
V est une matrice symétrique de dimension (K×K)
∑ ( x i− x́ )
i=1
− x́
2 ;
[
var ( ^β 1| X )=σ 2 +
n n
∑ ( x i−x́ )2
i=1
] et,
cov ( β^ 1 , β^ 2|X ) = n
∑ ( x i−x́ )2
i=1
Par conséquent, pour la classe des estimateurs linéaires, on a le théorème suivant (voir
démonstration en classe) :
Théorème de Gauss-Markov : Dans un modèle classique de régression linéaire où X
désigne la matrice des variables explicatives, l’estimateur des moindres carré ^β est
l’estimateur linéaire sans biais de variance minimale de β. Pour n’importe quel
vecteur de constantes w, l’estimateur linéaire sans biais de variance minimale de w ' β
est w ' ^β , où ^β est l’estimateur des moindres carrés.
∑ ε^ 2i
SCR
S2= i=1 =
n−K n−K
La racine carrée de S2 est S et est appelée l’écart-type de la régression.
−1
Nous pouvons maintenant calculer l’estimateur de Var ( ^β| X ) =σ 2 ( X ' X ) . Comme :
X' X
(a) ^β converge (en probabilité) vers β, si converge (en probabilité) vers une matrice
n
définie positive Q.
Les hypothèses vues plus haut (H1 à H4) sont très contraignantes pour les modèles de séries
temporelles incluant des tendances temporelles, des polynômes et des variables ayant une
tendance. Par conséquent, on utilisera des hypothèses plus faibles sur X, appelées conditions
de Grenander
Conditions de données régulières de Grenander
(i) Pour chaque colonne de X, notée X k, si d 2nk = X 'k X k , alors lim ¿n →∞ d 2nk =+ ∞¿, donc
X kne dégénère pas en une séquence de zéros. La somme des carrés continue à
augmenter avec la taille de l’échantillon. Aucune variable ne dégénère en une
séquence de zéros.
(ii) lim ¿n →∞ x 2ik /d2nk =0 ¿ pour tout i=1,…, n. Cette condition dit qu’aucune
observation ne doit dominer la somme des carrés d 2nk = X 'k X k et que quand n → ∞,
les observations individuelles deviennent moins importantes.
(iii) Soit Rn la matrice de corrélation des colonnes de X, excepté le terme constant.
Alors lim ¿n →∞ Rn =C ¿, une matrice définie positive. Cette condition garantit
l’hypothèse de plein rang de X.
2
σ
[ ]
(b) ^β a une distribution normale asymptotique N β , Q −1 , si { ε i } sont indépendamment
n
distribués, de moyenne nulle et de variance finie σ 2 et si x ik vérifie les conditions de
1 −1
Grenander. En pratique, l’estimation Q par ( X ' X ) et de σ 2par S2 est nécessaire.
−1
n
Par ailleurs, notons que si les regresseurs ont de bonnes propriétés et si les observations sont
indépendantes, alors le théorème central limite implique que la normalité asymptotique de
l’estimateur des moindres carrés ne dépend pas de celle des perturbations.
(c) on montre que la matrice de covariance asymptotique de ^β est
2 ' −1
Var . Asy . Est .( ^β)=S ( X X )
III.4 Efficacité asymptotique de l’estimateur des moindres carrés
Définition : Un estimateur est asymptotiquement efficace s’il est convergent,
asymptotiquement normal et de matrice de covariance asymptotique inférieure à celle de tout
estimateur convergent et asymptotiquement normal.
III.5 Estimation par Moindres carrés ou maximum de vraisemblance ?
Nous avons vu que la distribution asymptotique normale de ^β est fondée sur le théorème
central limite (de Lindeberg-Feller), même si les perturbations n’ont pas une distribution
normale. Ce qui peut laisser penser que l’hypothèse de normalité des perturbations n’est pas
nécessaire. Néanmoins, elle a une utilité indéniable. En effet, si les perturbations sont
normalement distribuées, l’estimateur des moindres carrés est identique à l’estimateur du
maximum de vraisemblance (MV) ; Toutefois, l’estimateur des moindres carrés est
asymptotiquement efficace parmi les estimateurs convergents et asymptotiquement normaux
(théorème de la borne de Cramér-Rao).
Au total, selon les deux théorèmes, l’estimateur des moindres carrés est le plus efficace dans
la classe des estimateurs. Néanmoins ces deux théorèmes diffèrent en ce sens que par le
théorème de Gauss-Markov, l’estimateur des moindres carrés est linéaire et sans biais ; alors
que pour le second, l’estimateur MV est fondé sur la distribution normale des perturbations,
est convergent et est asymptotiquement normale.
Rappelons que le théorème de Gauss-Markov est un résultat pour échantillon fini, alors que
pour Cramer-Rao c’est une propriété asymptotique (grands échantillons).
Nous avons vu plus haut que ^β| X a une distribution normale multivariée N [ β , σ 2 ( X ' X ) ] et ;
−1
β^ k − βk
Il est aisé d’établir que la statistique t k = a une distribution de Student t à (n-K)
√ v^ar ( ^β |X )
k
β^ k
La statistique du test devient alors : t k =
√ v^ar ( ^β |X )
k
En général, on teste H0 : β k = β́ k contre H1 : β k ≠ β́ k , où β́ k est un nombre réel choisi (par
β^ k − β́k
exemple, 1). La statistique du test est t k =
v^ √
ar ( ^β k|X )
La règle de décision du test t peut également être établie en utilisant la probabilité critique
(ou pvalue), notée p. p= prob ( t >|t k|) ×2. Si p>α, alors on ne peut rejeter H0. En revanche si,
p<α, alors rejeter H0.
IV.2 Intervalle de confiance d’un coefficient
β^ k − βk
Un intervalle de confiance de β k est basé sur t k = et il peut être construit de la
√ ar ( ^β k|X )
v^
manière suivante :
[ √
prob ^β k −t α / 2 × ^ √
var ( ^β k|X ) ≤ β k ≤ ^β k +t α /2 × v^ ]
ar ( ^β k| X ) =1−α
où (1−α ) est appelé le seuil de confiance désiré et t α / 2 est la valeur critique de la distribution
de t à (n-K) degrés de liberté. Ce qui permet d’obtenir l’intervalle de confiance de β k .
De manière importante, si les perturbations n’ont pas une distribution normale, les résultats
des sous-sections IV.1 et IV.2 ne sont pas utilisables. Néanmoins, les résultats concernant les
grands échantillons fournissent une alternative, puisque ^β k est asymptotiquement normale
dans ce cas. En effet, dans les grands échantillons, la statistique t k converge de façon normale
même si les perturbations ne sont pas normalement distribuées. Par conséquent pour calculer
l’intervalle de confiance de β k , nous devons utiliser la valeur critique de la distribution
normale ( et non pas celle de la distribution de student).
En pratique si les degrés de liberté (n-K) sont modérément grands, par exemple plus de100,
t k ne sera pas different de la normale standard. Pour des échantillons plus petits, il est
préférable d’utiliser les valeurs critiques dans la table de student plutôt que la table de la
normale standard, même en absence de l’hypothèse de normalité.
IV.2 Tester la significativité de la régression
Une question centrale restante est de savoir si l’équation de régression est globalement
significative. La réponse à cette question passe par un test joint de l’hypothèse que tous les
coefficients excepté le terme constant sont nuls. Autrement dit, nous testons
H0 : β 2=β 3=⋯=β K =0 contre H1 : au moins l’un des β k est non nul
R 2 / ( K −1 )
La statistique du test est donnée par F=
( 1−R2 ) / ( n−K )
F a une distribution de Fisher à (K-1) et (n-K) degrés de liberté si l’hypothèse nulle est vraie
et les perturbations sont normalement distribuées.
La règle de décision du test : si F> F α , le modèle de régression est dit statistiquement
globalement significatif au seuil de α %, où α est le seuil de significativité choisi et F α est la
valeur critique de la distribution de Fisher à (K-1) et (n-K) degrés de liberté. Par contre si
F< F α , le modèle de régression est dit statistiquement non significatif globalement au seuil de
α %. En outre, la règle de décision basée sur la pvalue s’applique comme précédemment.
V. La prédiction
Apres avoir estimé les paramètres d’un modèle, on réalise généralement des prédictions de la
variable expliquée. Il s’agit de calculer les valeurs ajustées (c’est-à-dire les valeurs estimées)
de la variable expliquée à partir du modèle de régression.
V.1 Intervalle de prédiction
Supposons que nous souhaitons prévoir la valeur y 0 associée aux valeurs des regresseurs dans
le vecteur X 0. Cette valeur est y 0= X 0 ' β +ε 0 . Par le théorème de Gauss-Markov,
^y 0= X 0 ' ^β est l’estimateur sans biais de variance minimale de ( y 0| X 0 ) .
'
L’erreur de prédiction est ε^ 0= y 0− ^y 0 =( β− ^β ) X 0 +ε 0 et
En remplaçant σ 2par S2, la variance de l’erreur de prédiction peut être estimée. L’intervalle de
ar ( ε^ 0| X , X 0 ), où est t α / 2 la valeur critique de la distribution de
prédiction est alors ^y 0 ±t α / 2 × √ v^
t à (n-K) degrés de liberté.
V.1 Prédiction de la variable expliquée (y) lorsque la régression décrit log de y
'
A partir du modèle de régression suivant log ( y i ) =X i β+ ε i, on a
' '
Afin éviter l’hypothèse de normalité, Duan (1983) a proposé d’estimer E ( exp (ε ¿¿ 0)¿ X 0 )
n
1
par h0 = ∑ exp ( ε^ i ), où ε^ i est le résidu des moindres carrés dans la régression d’origine sous
n i=1
forme log. Ainsi, l’estimateur de Duan du prédicteur y 0 est ^y 0=h0 exp ( X 0 ' β^ ).
( 1/n0 ) ∑ y 2i
i
( 1/n0 ) ∑ ∆ y2i
i
Ces mesures reflètent la capacité du modèle à identifier les points de retournement des
données.
VI. Problème de données
VI.1 la multicolinéarité
Nous avons vu plus haut que le théorème de Gauss-Markov énonce que l’estimateur des
moindres carrés est le meilleur estimateur linéaire sans biais de variance minimale. Toutefois,
cela ne signifie pas que dans l’absolu, l’estimateur des moindres carrés a la plus petite
variance. En effet, plusieurs situation, appelées la multi colinéarité, contredisent l’énoncé du
théorème.
(i) Si les deux variables explicatives sont parfaitement corrélées, alors la variance de
chacun des coefficients de ces variables est infinie ;
(ii) Si les variables sont fortement corrélées, mais pas parfaitement, le modèle de
régression conserve toutes ses propriétés, bien que des problèmes statistiques
potentiellement graves subsistent, notamment :
– Une forte sensibilité des paramètres estimés à de faibles variations des
données ;
– Des coefficients pouvant avoir des écarts types très importants et des niveaux
de significativité faibles, même s’ils sont significatifs jointement avec un R2
élevé ;
– Des coefficients pouvant être du « mauvais » signe ou de grandeur inattendue
En pratique, certaines mesures permettent de savoir quand la multicolinéarité pose problème.
Certains logiciels fournissent le facteur d’inflatin de variance (variance inflation factor, en
abrégé VIF) de chaque coefficient. vif =1/ ( 1−R2k ), où R2k est le coefficient de détermination
dans la régression d’une variable x k sur toutes les autres variables explicatives. Un vif
supérieur à 10 indique qu’il y a des problèmes.
Une autre mesure pour détecter la multicolinéarité est le nombre de conditionnement de X’X.
Elle se définit comme la racine carré du ratio entre la plus grande et la plus petite racine
caractéristique (valeur propre) de X’X. Un ratio d’environ 20 indique qu’il y a des problèmes
(Belssley, Kuh et welsch, 1980).
Plusieurs méthodes ont été proposé pour détecter et résoudre le problème de la
multicolinéarité. S’il provient d’un manque d’informations, alors il faut essayer d’obtenir
plus de données. Cependant, plus d’informations ne signifie pas nécessairement plus de
données. Le remède pratique consiste à supprimer les variables qui posent le problème. Mais
on court le risque de faire une mauvaise spécification. L’usage des outils de diagnostics pour
détecter la multicolinéarité a pu être considéré comme une manière de faire la distinction
entre un mauvais modèle et de mauvaises données.
Certains chercheurs ont suggéré de recourir à l’estimation de pré-test. On commence par
inclure provisoirement dans le modèle de régression la variable qui pose problème. Si sa
statistique t calculée (t-ratio) est suffisamment grande, on la maintient, sinon on l’enlève.
VI.2 les observations manquantes et imputation, erreur de mesure et, valeurs
aberrantes et observations influentes
A developper en classe.
VII Tests d’hypothèse et sélection de modèles