Expose Final
Expose Final
Expose Final
PAIX-TRAVAIL-PATRIE PEACE-WORK-FATHERLAND
********************* *********************
MINISTERE DE L’ENSEIGNEMENT SUPERIEUR MINISTRY OF HIGHER EDUCATION
******************* *******************
UNIVERSITE DE DOUALA UNIVERSITY OF DOUALA
**************** ****************
FALCULTE DES SCIENCES ECONOMIQUE ET FALCULTY OF ECONOMICS AND APPLIED
DE GESTION APPLIQUEE MANAGEMENT
BRANCHE : SECO 4
TPE : ECONOMETRIE II
H
1
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
PLAN DU DEVOIR
INTRODUCTION
A- IDENTIFICATION DE L’HETEROSCEDASTICITE
1-Origine de l’hétéroscédasticité
2-Représentation mathématique de l’hétéroscédasticité
3-Causes de l’hétéroscédasticité
4- Tests sur l’hétéroscédasticité
B- CORRECTION DE L’HETEROSCEDASTICITE
1-Conséquences de l’hétéroscédasticité
2-Solutions de l’hétéroscédasticité
3-Cas pratiques
CONCLUSION
2
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
INTRODUCTION :
L’économétrie est un ensemble de techniques utilisant la statistique, la mathématique pour
vérifier la validité empirique des relations supposées entre les phénomènes économiques afin
de mesurer les paramètres de ces relations. Dans son analyse et estimation des modèles
économiques, l’économétrie passe par plusieurs techniques ou méthodes qui lui sont
inhérentes et toutes complémentaires. C’est ainsi qu’on passera de la méthode des MCO à la
méthode des MCG toutes basées sur l’hypothèse d’homoscédasticité (la variance des erreurs
est constante pour toutes les observations) mais cela n’est pas toujours vrai d’où la violation
de l’hypothèse 3(var(ε t ¿=σ 2ε ¿ ce qui aboutit à l’hétéroscédasticité. En régression linéaire,
L’hétéroscédasticité c’est lorsque les variances des erreurs ne sont pas les mêmes dans toutes
les observations faites. Ainsi, l’une des exigences fondamentales des hypothèses des modèles
linéaires n’est pas remplie. Dès lors, qu’advient-il si la variance de l’erreur n’est pas
constante ? Cette préoccupation nous amène principalement au thème de notre exposé à
savoir : IDENTIFICATION (A) ET CORRECTION (B) DE
L’HETEROSCEDASTICITE DES ERREURS.
A-IDENTIFICATION DE L’HETEROSCEDASTICITE
Rappel des hypothèses de base
H 1 : Le modèle est linéaire en x t (ou en n’importe quelle transformation de x t ) et
les valeurs x t sont observées sans erreur ( x t non aléatoire).
H 2: E ( ε t ) =0 , l’espérance mathématique de l’erreur est nulle : en moyenne le
Modèle est bien spécifié et donc l’erreur moyenne est nulle.
H 3 : E ( ε t )=σ 2ε La variance de l’erreur est constante : le risque de l’amplitude de
l’erreur est le même quelle que soit la période.
H 4 : E ( ε t ε t )=0 Si t=t, les erreurs sont non corrélées (ou encore indépendantes) :
une erreur à l’instant « t » n’a pas d’influence sur les erreurs suivantes.
H 5 :Cov ( x t ε t )=0 , l’erreur est indépendante de la variable explicative.
Lorsque l’hypothèse 3 n’est pas vérifiée, on a à faire à l’hétéroscédasticité.
1-Origine de l’hétéroscédasticité
Le mot hétéroscédasticité peut être décomposé en deux parties, hétéro (différent) et
scédasticité (dispersion). De telle sorte que, si l’on joignait ces deux mots adaptés du grec, on
obtiendrait quelque chose comme une dispersion différente.
La figure ci-dessous montre un exemple graphique d’hétéroscédasticité :
3
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
Exemple : Modèle d’apprentissage par les erreurs antérieures
Au fil du temps, les gens apprennent et leurs erreurs de comportement deviennent de plus en
plus petites. Considérons une régression du nombre de faute de frappe (Y) dans une période
de temps donnée, en fonction des heures mises en tapant sur le clavier (X), la figure montre
que lorsque les heures de frappe augmentent, σ 2i diminue du nombre moyen des erreurs de
frappe sur le clavier.
( )
σ 2ε ⋯ 0
erreurs Ω ε=E ( εε )=¿ ⋮ ⋱ ⋮ mais si cette hypothèse (hypothèse 3) n’est pas vérifiée, on
0 ⋯ σ 2ε
a à faire à l’hétéroscédasticité. Si cette hypothèse est violée alors :
2
Ωε ≠ σ ε I
Les variances ne sont plus constantes sur la diagonale principale.
Alors la matrice des erreurs est la suivante ;
( )
2
σε 1
⋯ 0
Ω ε=E (ε ε ¿= ⋮
'
⋱ ⋮
0 ⋯ σ 2ε n
4
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
3-Causes d’hétéroscédasticité
L’hétéroscédasticité est un problème qui est en général spécifique aux modèles en coupe
instantanée qui s’écrivent par exemple de la manière suivante :
C i=a 0+ a1 Y i Pour i=1…,20
j=1
5
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
m
∑ (ni−1) σ^ 2i m
σ^ 2T = i=1 =
∑ 2
v i σ^ i
m i=1
∑ ( ¿ ni−1)¿ v
i=1
m
avec vi =ni−1 et v=∑ vi =∑ ( ni ¿−1)¿
i=1
Etape 4 : A partir de variance totale, on peut calculer la statistique Q' qui servira au
test :
m
Q =vLn σ^ T −∑ v i ln σ^ i
' 2 2 2
χ m−1
i=1
NB : Une autre forme de cette statistique est préférée a celle qui précède pour sa précision.
Soit Q cette statistique :
(∑ )
m
Q' 1 1 1
Q= avec C=1+ − =¿ c’est une constante d’échelle)
C 3 ( m−1 ) i =1 vi v
b) Test de Gleisjer
Ce test permet de déceler l’hétéroscédasticité et identifier la forme que revêt cette
hétéroscédasticité. Ce test est fondé sur le résidu issu de l’estimation par la M.C.O
effectuée sur le modèle de la base et la variable explicative supposée être la cause de
l’hétéroscédasticité. Les étapes sont :
Etape1 : On effectue la régression par les MCO de Yi en Xi c’est-à-dire Y i=µ + β X i +ε i
Etape 2 : On détermine le vecteur des résidus e i qui représente une estimation des ε i.
Etape 3 : On effectue ensuite une régression par la MCO de la valeur absolue |e i| des
résidus sur X i . Ici, Gleisjer suggère de réaliser les trois formes suivantes :
Forme générale : |e i| = a 0+ a1 X i +v i
2 2 2
L’hétéroscédasticité est de la forme : σ^ e =K X i i
Hypothèses :
6
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
H 0 :a1=0 / H 1 : a1 ≠ 0
a^1
T*¿ ^ student (n−2)
σ a^
1
Etape 5 : On compare la student empirique à la student tabulé à n-2 degré de liberté
pour déterminer la significativité de a 1 dans chaque spécification. L’hypothèse
d’homoscédasticité est rejetée si le coefficient a 1 d’une des spécifications ci-dessus est
significativement différent de 0. La forme d’hétéroscédasticité retenue est celle de la
spécification ayant le T* le plus élevé.
c) Test de Goldfeld-Quandt
Ce test n’est valable que si l’une des variables est la cause de l’hétéroscédasticité, et le
nombre d’observation est important. Il s’effectue suivant les étapes :
Etape 1 : pour un échantillon donné, il faut ordonner les observations en fonction des
valeurs croissantes ou décroissantes, soit de la variable expliquée, soit de la variable
explicative soupçonné être la source de l’hétéroscédasticité.
Etape 2 : extraire arbitrairement de l’échantillon d’observation, un nombre ◿
d’observations. Ces observations sont prélevées au centre de l’échantillon et retiré de
l’analyse, partageant ainsi l’échantillon de deux sous échantillons. La valeur de ◿ est
approximativement égale au quart du nombre d’observation total.
[ n
]
◿ = partie entière( ) Avec n=nombre d’observation total de l’échantillon
4
Etape 3 : l’échantillon de n- ◿ observations ayant été partagé en deux sous-
échantillons, on effectue les régressions sur chacun d’eux. Il faut noter que si n- ◿ est
n−◿
paire, alors chaque sous-échantillon comportera + 1 observations.
2
Etape 4 : on calcul les SC R1 et SCR 2 correspondant à chaque sous-échantillon.
Etape 5 : On effectue le test
Formulation des hypothèses du test :
H 0 : Homoscédasticité / H 1 : hétéroscédasticité
F ¿ est comparé à la Fisher lu, pour un seuil α , à (ddl 1 , ddl 2 ¿ ou( dll2 , ddl 1) en
¿
fonction du cas. Si F > F table , le modèle est hétéroscédasticité car on rejette H 0.
d) Test de White
7
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
Le test de White est très proche du tes de Gleisjer, et est fondée sur la relation
significative entre le carré du résidu, et une ou plusieurs variables explicatives en
niveau X ij et au carré X 2ij au sein d’une même équation de régression.
e 2j =a 1 x 1 j +b1 x 21 j+ a2 x2 j+ b2 x 22 j + …+ak x kj +b k x 2kj + a0 +v j
Soit n, le nombre d’observations disponible pour estimer les paramètres du modèle ; et
2
R le coefficient de détermination du modèle.
Les hypothèses sont :
H 0 :a1=b1=a 2=b2 =…=ak =bk =0 / H 1 :il existe un a j ou b j ≠ 0
La statistique empirique est calculée peut-être :
La Fisher empirique si l’on décide d’effectuer un test de nullité de coefficient à
l’aide du test de Fisher classique.
2
¿ SCE /k (n−k −1) R
F= =
SCR /¿ n−K −1 ¿ k (1−R 2)
Ou encore, on peut recourir à la statistique LM=n* R2. Elle suit une khi-deux a
P=2k degré de liberté, a un seuil α .
Comparaison et conclusion
¿
Lorsque l’on utilise un test de Fisher classique, on compare pour un seuil α , F
¿
a la Fisher lu a (k, n-k-1) degrés de libertés. Si F > F table on rejette H 0 C’est-à-
dire on accepte l’hétéroscédasticité.
2
Également, le soupçon d’hétéroscédasticité est avéré si LM ¿ χ (p ) lu au seuil α .
B-CORRECTION DE L’HETEROSCEDASTICITE
1) Conséquences de l’hétéroscédasticité :
Les conséquences sont les mêmes que celles de l’autocorrélation des erreurs
émanant de la non réalisation des hypothèses d’hétéroscédasticité dans les
résultats sur l’estimation des moindres carrés :
- Il y’a des erreurs dans les calculs de l’estimateur de la matrice des variances
et de covariance des estimateurs des moindres carrés.
- L’efficacité est généralement perdue sur l’estimateur des moindres carrés.
2) Solution de l’hétéroscédasticité :
Or le test de Gleisjer a mis en évidence une relation du type σ 2ej=k 2 x j . Pour lever
l’hétéroscédasticité dans ce cas, nous employons la régression pondérée sur les données brutes
divisées par √ x j . En effet :
yj a0 ej
= + a1 + d’où E ¿
√x j √ xj √xj
2 2
En général, lorsque nous avons détecté une hétéroscédasticité de type : σ ej=k f ( x j ) , il
convient de diviser les données par √ f ( x j), afin de se ramener à un modèle homoscédastique.
3) Cas pratique
Considérons une régression du nombre de défauts constatés (Y i) par rapport au temps de
vérification ( X i ) d’une automobile, selon le modèle suivant :
Y i=a0 +a1 X i + ε i
Pour ce faire, on procède à un test sur 30 véhicules qu’on regroupe en 6 classes de 5 voitures
en demandant à chaque chef d’atelier de passer un nombre d’heures de vérification fixé.
Les résultats sont consignés dans le tableau suivant :
Nombre de défauts Yi Temps passés en heures Xi
4 5 6 7 8 4
6 11 13 15 17 3.5
9 13 14 15 21 2
6 13 16 23 26 1.5
11 15 17 22 34 1
7 21 23 28 38 0.5
9
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
Etape 2 : Calcul de la variance empirique pour chaque groupe.
¿ 5
σ^ i =∑ ¿ ¿ ¿=∑ ¿¿ ¿
2
j=1 j=1
∑ (ni−1) σ^ 2i m
=∑
2
2 i=1 v i σ^ i
σ^ T = m i=1
∑ ( ¿ ni−1)¿ v
i=1
m
avec vi =ni−1 et v=∑ vi =∑ (ni ¿−1) ¿
i=1
i=1
l’estimation peut être améliorée en divisant Q' par une constante d’échelle C :
m
1 1 1 Q'
C=1+ ( ∑ − ) ainsi Q= → χ 2 (m−1)
3 ( m−1 ) i=1 vi v C
i Xi σ^ 2i vi ln( σ^ 2i )
1 4 5 6 8 8 4 2,5 3,66
5 11 15 17 22 34 1 78,7 17,46
σ^ 2T =51,46
10
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
2
Q =14,22 ; C=1,097 ; Q=12,97¿ χ 0 , 05 ( 5 ) =11,07, le modèle est donc hétéroscédastique.
'
b) Test de Goldfeld-Quandt
Ce test n’est valable que si l’une des variables est la cause de l’hétéroscédasticité et
que le nombre d’observations est important. Il d’effectue suivant les étapes :
1 4 4
2 5 4
… … …
29 28 0,5
30 38 0,5
Etape 2 : Omettre C observations centrales.
Nous choisissons arbitrairement C observations situées au centre de l’échantillon. Ces
C observations sont exclues de l’analyse. La valeur de C doit être approximativement
égale au quart du nombre d’observations totales.
C=partie entière de (30/4) =8
Etape 3 : régression sur les deux sous-échantillons et test.
Premier échantillon : j=1,11 Deuxième échantillon :
Y j=16,93−2,13 X j +e j j=20,30
(4,22) Y j=9,84−1,3 2 X j +e j
n=11 (7,51)
2
R =0,08 n=11
SCR 1=∑ e j =164,66
2
2
R =0,02
SCR 2=∑ e j =872,02
j 2
(.) = t Student j
ddl 1=n−2=9 (.) = t Student
ddl 2=n−2=9
11
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
Sous l’hypothèse H0 d’homoscédasticité, le rapport :
c) Test de Gleisjer
2
R =0,38
Etape 2 : Le vecteur de résidus e j est alors connu.
Etape 3 : régression de la valeur absolue |e j| des résidus sur X j.
Gleisjer suggère de tester différentes formes de relation, par exemple :
Estimation( j=1,30)
Forme générale |e j|=8,09−1,46 X j + v^ j
|e j|=a 0+ a1 X j + v j n=30 (2,55)
R2=0,19
12
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
1
|e j|=a 0+ a1 X 1/j 2+ v j |e j|=10,7−4,15 X 2
j + ^v j
(2,60)
n=30
2
R =0,19
σ^ 2ej=K 2 X j
Forme de type 2
|e j|=a 0+ a1 X−1
j +v j
|e j|=2,7+2,86 X−1 ^j
j +v
(2,30)
n=30
σ^ ej=K X j
2 2 −2
2
R =0,16
Le test de White est très proche du précédent, il est fondé sur une relatiion
significativement entre le carré du résidu et une ou plusieurs variables explicatives en
niveau et au carré au sein d’une même équation de régression :
2 2 2 2
e t =a 1 x 1 t +b1 x 1t + a2 x2 t + b2 x 2 t + …+a k x kt + bk x kt +a 0 +v t
13
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
Soit recourir à la statistique LM qui est distribuée comme un χ 2 à p=2k degrés de liberté
(autant que de coefficients que nous estimons, hormis le terme constant), si n × R 2> χ 2( p) lu
dans la table au seuil α , on rejette l’hypothèse d’homoscédasticité des erreurs.
2 2
-Test LM n R =30 × 0,22=6,78> χ 0,05 ( 2 )=5,99.
Nous sommes, dans les deux cas, amenés à rejeter H0 pour un seuil de 5%.
Le modèle est donc hétéroscédastique.
2- Conséquences de l’hétéroscédasticité
3) Correction de l’hétéroscédasticité
Les quatre tests mentionnés ci-dessus sont concordants : le modèle est hétéroscédastique, il
convient donc d’en corriger les effets.
Supposons, par exemple, que l’on retienne la forme I : σ^ 2ej=K 2 X 2j ; l’application de la
régression pondérée par facteur 1/ X j conduit à un modèle homoscédastique :
Y j a0 ej
= + a1 + d’où E ¿
Xj X j Xj
Or, le test de Gleisjer a mis en évidence une relation (II) du type :σ^ 2ej=k 2 X j . Pour lever
l’hétéroscédasticité, dans ce cas, nous employons la régression pondérée sur les données
brutes divisées par √ X j . En effet :
Yj a0 Xj ej
= +a1 + d’où E ¿
√Xj √Xj √X j √ X j
σ^ ej=k f (X j), il convient de diviser les données par √ f ( X j ¿ )¿ afin de se ramener à un modèle
2 2
homoscédastique.
14
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
Dans le cadre de notre exercice, les données sont alors transformées (tableau ci-dessous) :
Yj 1 Xj
Z j= X 1 j= X 2 j=
√Xj √Xj √Xj
2,00 0,50 2,00
2,50 0,50 2,00
… … …
39,60 1,41 0,71
53,74 1,41 0,71
Les coefficients du modèle initial sont a^0=b^ 1 =25,004 et a^1=b^2=−4,50 . Le modèle estimé
est donc :
Y j=25,004−4,50 X j +e j
(2,93)
n=30
15
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
(.) = t de Student
Il existe bien une influence significative du temps de vérification sur le nombre de défauts
constatés, chaque heure de vérification permet de supprimer en moyenne 4,5 défauts.
CONCLUSION
La théorie économétrique a été élaborée dans les années 40 en supposant d’une part que la
théorie économique est capable de fournir des modèles directement testables et d’autre part
que la confrontation avec des données nous permet de rejeter ou d’accepter sans ambiguïté
une théorie. Il s’agit d’une double illusion.
Tout d’abord les modèles théoriques sont loin d’être toujours utilisables par l’économètre. En
effet certaines variables ne sont ni directement observables ni directement mesurables.
D’autre part de nombreux modèles théoriques restent insuffisamment spécifiés. Par exemple
ils n’indiquent pas les délais à prendre en compte. Enfin les théories économiques sont
formalisées de façon trop générale pour être testables (comme la théorie walrasienne) soit sont
construites sous l’hypothèse « Ceteris Paribus » (toute chose égale par ailleurs). Dans ce
dernier cas nous ne pouvons savoir si la non correspondance entre le modèle théorique et les
observations proviennent de la mauvaise spécification de la fonction ou bien d’un changement
dans l’environnement du modèle. L’économétrie a du contribué à modifier la théorie
économique dans la mesure l’exigence de modèles testables devient une condition
d’acceptabilité dans les publications scientifiques.
Tables statistiques
16
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3
17
Exposé sur l’identification et la correction de l’hétéroscédasticité des erreurs ; Groupe 3