Econométrie I Chap IV
Econométrie I Chap IV
Econométrie I Chap IV
SIMPLE (MRLS)
Sous les hypothèses H2, H3, H4, et H5, les EMC sont sans biais, efficaces et convergents. Avec
l’hypothèse H6 les EMC tendent vers la loi normale. Elle permet de construire des intervalles
de confiances autour de ces EMC et aux tests d’hypothèses.
Toutes ces préoccupations sont abordées à travers l’étude des inférences dans le modèle de
régression linéaire simple. Les investigations porteront sur les EMC.
Les estimations de la régression linéaire simple et par conséquent les EMC sont des variables
aléatoires dont la distribution découle de celle du terme aléatoire du modèle.
( )( X ) ( ) ( ).
2 2
En rappel SYX = S XY = ∑ Yi − Y i − X , S XX = ∑ X i − X et SYY = ∑ Yi − Y
Développons SYX .
(
Syx = ∑ Yi − Y )( X − X ) = ∑ Y ( X − X ) − Y ∑ ( X
i i i i −X )
(
= ∑ Yi X i − X ) −Y∑ X +Y∑ X i
= ∑Y ( X − X ) − nY * ∑ X +Yn X
1
i i i
n
= ∑Y ( X
i i − X ) − nY X + nY X
= ∑Y ( X
i i − X ) +0 .
On peut développer autrement SYX :
(
Syx = ∑ Yi − Y )( X i ) (
− X = ∑ X i Yi − Y − X ∑ Yi − Y ) ( )
(
On aboutit à SYX = ∑ X i Yi − Y . Donc SYX ) = ∑ Y ( X − X ) = ∑ X (Y − Y )
i i i i
Egalement si on développe Sxx et Syy on aboutit à des résultats analogues, c'est-à-dire que
() et Syy = ∑ Y (Y − Y ) . On
Sxx=∑ X i X i − X i i peut donc écrire autrement b1 et b0 . Soit
Syx ∑ Y ( X − X ) (X − X ) = i−X
∑∑ Yi * Ci , avec Ci = XSxx . b1 = ∑ Ci * Yi est
i i i
b1 = = = Y* i
Sxx Sxx Sxx
alors une combinaison linéaire de Yi qui est aléatoire. Donc b1 est une variable aléatoire.
1
1 1
b0 = Y − b1 X =
n
∑ Yi − X * ∑ Yi * Ci = ∑ Yi − XCi = ∑ Yi * di , avec di = 1 − X Ci . Donc
n n
b0 = ∑ Yi * d i . b0 est aussi une variable aléatoire puisque Yi est une variable aléatoire.
b0 et b1 étant des variables aléatoires, on peut faire des inférences sur ces estimateurs et sur les
estimateurs dérivés de ces derniers.
E ( b ) = E ( ∑ C *Y ) = ∑ C * E (Y )
1 i i i i
= ∑C * E (β + β X )
i 0 1 i
= β *∑C + β *∑C * X
0 i 1 i i
= β0 * ∑
Xi − X
+ β1 * ∑
Xi − X
* Xi
( )
Sxx Sxx
= β0 *
1
∑ (
X i − X + β1*
Sxx 14243
1
Sxx
)
∑ Xi Xi − X ( )
=0
1
= 0 + β1 * Sxx
Sxx
E ( b1 ) = β1 , donc b1 est sans biais.
Calcul de E ( b0 )
b0 = ∑ di * Yi , avec di = 1 − X Ci = 1 −
X Xi −X ( )
n n Sxx
E ( b0 ) = E ( ∑ di Yi ) = ∑ di * E (Yi ) = ∑ di * ( β 0 + β1 X i )
= β 0 * ∑ di + β1 * ∑ di * X i
1 1
= β 0 * ∑ − XCi + β1 * ∑ − XCi X i
n n
1 1
= β 0 * ∑ − β 0 * X ∑ Ci + β1 * ∑ X i − β1 * X * ∑ Ci * X i
{ n { n 1424 3
0 1
1
= β0 − 0 + β1 X − β1 X
= E ( b0 ) = β 0 , donc b0 est sans biais.
Les EMC ( b0 , b1 ) sont efficaces s’ils présentent la variance la plus petite parmi les
estimateurs sans biais des paramètres β 0 et β 1 .
2
Variances de b1
En rappel V ( aX , bY ) = ab * V ( X , Y ) .
V ( b1 ) = V ( ∑ C i * Y i ) = ∑ Ci2 * V (Yi ) ; or, V (Yi ) = V (U i ) = σ 2 .
2
X −X
∑( X −X)
1
Alors, V ( b1 ) = σ * ∑ C = σ * ∑ i
2
=σ * 2
2 2 2 2
i i
S XX S XX
1
= σ 2 * 2 * Sxx = σ 2 *
1
= σ2 .
( )
2
S xx Sxx
∑ iX − X
Au finish on a V ( b1 ) =
σ2
∑( X )
2
i −X
Variance de b0
2
1
V ( b0 ) = V ( ∑ di Yi ) = ∑ di * σ = σ * ∑ − XCi
2 2 2
n
n 1 2
= σ ∑ 2 − 2* XCi + X Ci
2
2
n n
1 1
= σ 2 − 2 X ∑ Ci + X 2 ∑ Ci
2
n n{
=0
2
2 1 1 2 1 X .
2
=σ + X * =σ +
( )
2
n Sxx n ∑ Xi − X
2
2 1 X .
Ainsi, V ( b0 ) = σ +
n
( )
2
∑ X i − X
Covariance de b0 et b1
3
Efficacité
Dans quelles conditions b1 peut-il être efficace? b1 est efficace si et seulement si b1 est sans
biais et V ( b1 ) minimale.
On sait que b1 est sans biais, avec E ( b1 ) = β1 et que b1 = ∑ ci yi . Soit β̂1 un estimateur
quelconque de β1 . Alors βˆ1 = ∑ ai * yi .
( )
E βˆ1 = E ( ∑ ai yi ) = ∑ ai E ( yi ) . or, E ( yi ) = β 1xi . Par conséquent E βˆ1 = β1 * ∑ ai * xi . ( )
Donc β̂1 est sans biais si ∑ai xi =1 .
Calculons V βˆ1 ( )
Supposons que β̂1 soit sans biais, c'est-à-dire que ∑ai xi =1 . Dans quelle condition V βˆ1 ( ) est
minimale.
( )
V βˆ = V (
1 ∑ a y ) = ∑ a V ( y ) = ∑ a V ( β x + u ) . Or, V ( β x + u ) = σ .
i i
2
i i
2
i 1 i i 1 i i
2
Alors, V ( βˆ ) = ∑ a * V ( y ) = ∑ a *σ . Donc, V ( βˆ ) = σ * ∑ a .
1
2
i i
2
i
2
1
2 2
i
CPO:
∂L(ai )
=0 ⇒ 2∑ai −λ∑ xi =0 ⇒ ∑ai = λ ∑ xi , (1)
∂ai 2
Transformons l’équation (1) en la multipliant par xi : soit ∑ai xi = λ ∑ xi2 . En considérant la
2
λ
contrainte on aura 1 = ∑ xi2 ⇒ λ = 2 2 , (2);
2 ∑ xi
1 2
En intégrant (2) dans (1) on obtient: ∑a i = *
2 ∑ xi2
* ∑ xi .
4
Soit donc que ∑ ai =
∑x x
= ∑ i 2
i
.
∑x ∑x
2
i i
Donc V βˆ1 ( ) est minimale si ai = xi 2 .
∑ xi
xi
Or = Ci et par conséquent b1 = ∑ ai yi = ∑ Ci yi = βˆ1
∑ xi2
Donc b1 est efficace si et seulement si b1 = β̂1 . Par conséquent b1 (EMC de β1 ) est l’estimateur
possédant la variance minimale parmi les estimateurs linéaires non biaisés de β1 . On dit que
l’EMC est BLUE (Best Linear Unbiased Estimator).
Les EMC bi sont convergents (en probabilité) vers β i si ∀ε aussi petit que possible, on a:
lim Pr oba ( bi − βi > ε ) = 0 et lim V ( bi ) = 0 si les estimateurs sont sans biais.
n →∞ n →∞
lim V ( b1 ) = lim
σ 2
. Quand n → ∞ , alors σ
2
→0 .
n →∞ n →∞
∑x 2
i ∑x 2
i
1 2
2
X 2 1 X .
lim V ( b0 ) = lim σ +
2
= lim σ +
n
( )
2
n ∑ xi2 n →∞
∑ X i − X
n →∞ n →∞
2
1 1 2 1 X =0 .
lim = 0 et lim = 0 . Donc = lin σ +
n →∞ n n →∞
∑( X i −X )
2 n→∞ n
∑ Xi −X ( )
2
Par conséquent, b0 est convergent.
5
Estimateur de σ .
2
n−2
dire E ( S ) = σ . (n-2) est choisi pour que l’estimateur soit sans biais.
2 2
i =1
Introduisant une variable explicative X, i.e., construisons un modèle explicatif de Y par X.
La variation totale de Y se décompose selon deux parties:
-une partie expliquée par la régression, c'est-à-dire par la présence de la variable explicative X
appelée SCE (somme des carrés expliqués);
-une partie non expliquée par la régression, c'est-à-dire liée aux erreurs d’estimation SCR
(somme des carrés des résidus). On a alors: STC = SCE + SCR .
Décomposition
∑ (Y − Y ) = ∑ (Y − Yˆ + Yˆ − Y ) = ∑ ( (Y − Yˆ ) + (Yˆ − Y ) )
2 2 2
STC = i i i i i i i
( )
En rappel Yi − Yˆi = ei . C’est aussi la déviation de la droite de régression par rapport à Ŷ .
( ) ( )
2
Donc, STC = ∑ ei2 + ∑ Yˆi − Y + 2∑ ei * Yˆi − Y . Or,
∑ e * (Yˆ − Y ) = ∑ e * Yˆ − Y ∑
i i
{
e i i i
=0
6
= ∑ ei * Yˆi = ∑ ei * ( b0 + b1 X i )
= b0 *∑ ei + b1 *∑ ei * X i = 0 + 0
{ {
=0 =0
⇒ ∑ ei * Yˆi − Y = 0 . ( )
( )
2
Ainsi, STC = ∑ ei2 + ∑ Yˆi − Y , ou STC = SCE + SCR .
( )
2
Exercice: Montrer que SCE = ∑ Yˆi − Yˆ = b12 ∑ xi2 .
∑ (Yˆ − Y ) ( )
2
= ∑ yˆi2 = ∑ ( b1 xi ) = b12 * ∑ xi2
2
= ∑ Yˆi − Yˆ
2
i
∑x y * x
= b1 * ∑ = b1 ∑ xi yi , ou encore
i i 2
∑x 2 i
i
(∑ x y ) ∑ (Y − Y )( X − X )
2
∑x y
∑ (Yˆ − Y ) = x * ∑ x y =
2 i i
, or b1 =
i i i i
∑ ∑x ∑( X − X )
i 2 i i 2 2
i i
i
( )( )
2
( ∑ xi yi ) ∑ Yi − Y X i − X
2
= = = b2 * x 2 .
∑ i
∑x ( )
2 2 1
i
∑ Xi − X
On peut aussi écrire: STC = ∑ (Yi − Y ) = S yy et SCE = ∑ Yˆi − Y ( )
2
= b1 ∑ xi yi = b1 S xy .
2
Y − E (Yi )
2
Yi → N ( E (Yi ) ; σ ) ⇒ i → χ (1)
22
σ
(Y − E (Y ) ) → σ χ (1) ⇒ ∑ (Y − E (Y ) ) → σ 2χ 2 (n)
2 2 2 2
i i i i
∑ (Y − Y ) → σ χ ( n − 1) .
2 2 2
i
7
Synthèse de l’analyse de variance
Source de Degré de Carrés
variation Sommes des carrés liberté moyens
Régression SCE = b1 * S xx k − 1 = 2 − 1 = 1 SCE k − 1
2
SCR ∑ ei
2
SCE
L’adéquation de la régression est mesurée par le coefficient de détermination R 2 = .
STC
R 2 donne la proportion de la variation totale de Y expliquée par la variable explicative X. On
dit aussi qu’il mesure la proportion de la variation totale de Y expliquée par le modèle. Plus
R 2 est élevé plus le modèle est adéquat. Cependant certains modèles ont tendance à donner un
coefficient R 2 élevé tandis que d’autres conduisent généralement à un coefficient R 2 faible.
SCE SCR SCR SCE SCR
STC = SCE + SCR ⇒ 1 = + ⇒ 1− = = R2 ⇒ R2 = 1 − .
STC STC STC STC STC
R 2 comporte des biais liés à la taille de l’échantillon et au nombre de paramètres estimés.
SCR ( n − k )
On peut corriger ces biais en calculant R 2 , avec R 2 = 1 − , avec k = nombre de
STC ( n − 1)
paramètres à estimer.
8
H 0 : β j = 0 H 0 : β j = c H 0 : β j = 0
; ou ; ou encore
H1 : β j ≠ 0 H1 : β j ≠ c H1 : β j f 0
Procédure du test
H 0 : β j = 0
Soit à tester .
H1 : β j ≠ 0
-La procédure du test consiste à construire une statistique à partir de la distribution de
l’estimateur b j associé à β j ;
-calculer la valeur empirique de cette statistique et la comparer à la valeur théorique lue sur la
table des lois.
Construction du test
H 0 : β j = c
On s’intéresse à β1 . Soit les hypothèses ; c est une constante, une donnée.
H1 : β j ≠ c
( )
D’après ce qui précède, on sait que b j → N β j , σ b2j . On peut construire la statistique
bj − β j
Z= → N ( 0,1) . Malheureusement, Z n’est pas utilisable parce que σ b j n’est pas
σb j
connu. σ b j est aussi appelé paramètre de nuisance. σ b j peut être estimé par Sb j = Sb2j . Sb j est
S2
appelé erreur-type du coefficient b j . On montre que W = ( n − 2 ) → χ 2 ( n − 2 ) . Alors, on
σ2
Z
peut construire T = → t ( n − 2 ) . Par remplacement, on aboutit à
W ( n − 2)
bj − β j bj − β j
T=
Z
=
σ ∑x 2
i
=
σ ∑x 2
i
. Soit T=
bj − β j
, ou
W ( n − 2) S 2
1 Sσ σ ∑x 2
( n − 2) * i
σ 2
( n − 2)
bj − β j bj − c
T= → t ( n − 2 ) . Dans l’échantillon et sous H0, on calcul t = ; t est bilatéral. On
Sb j Sb j
rejette H0 pour les valeurs extrêmes de t. Au niveau α on rejette H0 si t f tα
2
( n − 2) .
(graphique)
9
Cas particulier: c=0
H : β = 0 b −0
Pour c=0, le test devient 0 1 ; alors t se réduit à t = 1 → t ( n − 2 ) , ou
H1 : β1 ≠ 0 Sb1
b
t = 1 → t ( n − 2 ) . Ce genre de test est appelé test de signification de β1 . Si H0 n’est pas
Sb1
rejeté, c'est-à-dire que β1 = 0 , la variable X ne contribue pas statistiquement à expliquer Y.
Construire un IC autour d’un paramètre β1 avec un niveau de confiance (1-α) revient à trouver
les bornes A et B tel que P ( A p T p B ) = 1 − α .
b1 − β1
L’IC permet de mesurer la précision de β1 . Soit T = . On peut trouver un nombre (1-α)
Sb1
En développant P on obtient:
b − β1
P −tα p 1 p tα = 1 − α
2 Sb1 2
(
⇒ P −tα * Sb1 p b1 − β1 p tα * Sb1 = 1 − α
2 2
)
⇒ P ( −b − t 1 α
2 2
)
* Sb1 p − β1 p tα * Sb1 − b1 = 1 − α
⇒ P (b − t
1 α * Sb1 p β1 p b1 + tα * S ) = 1−α
b1
2 2
10
Relation entre IC et test
∑ xi n−2
2 b1
Donc β1 ∈ [ 0, 00395; 0, 02205] , avec 95% de confiance. Concrètement le résultat veut dire que
la pmc des biens alimentaires à Monorovia en 1986 se situe entre 0,31% et 2,2%, avec une
marge d’erreur de 5%.
11
Le test
H : β = c
On pose 0 1 ; et on dispose d’un IC à 95% pour β1 .
H1 : β1 ≠ c
Si c ∈ [ 0, 00395;0, 02205] ou 0, 00395 p c p 0, 02205 , on acceptera H0, au seuil de 5%. Si
H 0 : β1 = 0
ailleurs, on rejette H0. On pose . D’après ce qui précède, on rejette H0, soit
H1 : β1 ≠ 0
b 0, 013
formellement t = 1 = ou t 3, 25 . On a t f t0,025 ( 9 ) , ou 3, 25 f 2, 262 . Alors on
Sb1 0, 004
rejette H0. C'est-à-dire que le revenu X contribue à expliquer la consommation de riz dans la
ville de Monorovia en 1986.
H 0 : β1 = c
Type 1. On pose
H1 : β1 p c
On a tc= t calculé; t=t(1-α)=-tα . Si tc<-tα, on rejette H0.
H 0 : β1 = c
Type 2. On pose
H1 : β1 f c
Si tc>tα, on rejette H0.
b1 − c
Dans tous les cas la statistique à étudier est celle de t avec t = → t ( n − 2 ) . La valeur
Sb1
théorique de t(n-2) à utiliser n’est plus tα mais tα .
2
H 0 : β1 = 1 b − 1 0, 013 − 1
Exemple dans le cas de Monorovia on pose: ; on a t = 1 = .
H1 : β1 p 1 Sb1 0, 004
Soit t −246, 75 . On a aussi –t0,05=-1,833. Comparons t à –t0,05.
On voit que t<–t0,05 ou (-246,75<-1,833). Alors, on rejette de H0. La pmc est inférieure à 1 à
Monorovia en 1986.
12
Type1 Type2
Exemple.
IC type1: β1 ≤ LD , avec 95% de confiance. β1 ≤ b1 + Sb1 * t0,05 ( 9 ) . Ce qui donne
β1 ≤ 0, 013 + ( 0, 004 ) * (1,833) ; β1 ≤ 0, 020332 avec 95% de confiance.
Les logiciels présentent les résultats de la régression sous forme d’analyse de la variance.
L’analyse de la variance peut être aussi utilisée pour tester la signification de la régression.
Ceci est surtout utile dans le modèle de régression multiple.
On sait que 1
b − β1 ∑ ei2
→ N ( 0.1) et que 2 → λ 2 ( n − 2 ) . On peut construire la statistique
σb 1
σ
( b1 − β1 ) σ b2 ( b1 − β1 ) σ 2 ∑ xi2 ( b1 − β1 ) ∑ xi2
2 2 2
F= ⇒F=
1
⇒F= → F (1; n − 2 ) .
∑ ei2 σ 2 / ( n − 2 ) ∑ ei2 σ 2 / ( n − 2 ) ∑ ei2 ( n − 2 )
Sous H0, F =
b12 ∑x
2
i
→ F (1; n − 2 ) . On sait que SCE = b12 * ∑ xi2 et SCR = ∑ ei2 .
∑ e ( n − 2)
2
i
SCE 1
Alors F = → F (1; n − 2 ) . Au niveau α on rejette H0 si F «élevé» c'est-à-dire
SCR ( n − 2 )
si F f Fα (1; n − 2 ) .
(graphique)
13
SCE 1 386, 090
F= = = 11,134 , soit F = 11,134 . F0,05 (1;9 ) = 5,12 . On voit
SCR ( n − 2 ) 312, 092 9
que F f Fα , soit 11,134 f 5,12 . On rejette donc H0.
Régression et corrélation
Il existe une relation entre le coefficient de corrélation r et les EMC.
1
∑ y 2 σ Y
b1 =
∑ xy = ∑ xy ¨*
n σ
, donc b1 = rXY * Y , avec σ X et σ Y les écarts-
∑ x 1442443
2
∑x * ∑y
2 2
1 σX
rXY n
∑ x 2 σ X
types de X et Y.
Dans la régression simple rXY = ± R 2 et le signe dépend du signe de b1 .
σ
rXY = b1 * X ⇒ rXY = b1 *
∑x 2
⇒ R =b
2 2
*
∑x 2
= rXY
2
.
σY ∑y ∑y
2 1 2
Propriétés
Espérance de l’erreur
E ( e0 ) = E ( b0 − β 0 ) + X 0 * ( b1 − β1 ) − E ( u0 )
= E ( b0 ) − β 0 + X 0 * E ( b1 ) − β1 − 0
{ {
β0 β1
= β 0 − β 0 + X 0 * ( β1 − β1 ) − 0
E ( e0 ) = 0 + 0 − 0 = 0 .
( ) ( )
Ainsi, E ( e0 ) = 0 ⇒ E Yˆ0 − Y0 = 0 ⇒ E Yˆ0 − E (Y0 ) = 0
( ) ( )
⇒ E Yˆ0 = E ( Y0 ) ⇒ E Yˆ0 = Y0 , c'est-à-dire que la prédiction est sans biais.
14
Variance de l’erreur
V ( e0 ) = V ( b0 − β 0 ) + X 02 *V ( b1 − β1 ) + V ( u0 ) + 2COV ( b0 ; b1 ) X 0
= V ( b0 ) + X 02 *V ( b1 ) + V ( u0 ) + 2 X 0 * COV ( b0 ; b1 )
1 X2 σ2 X
=σ2 + + * X 02 + σ 2 − 2 X 0 * *σ 2
n ∑ x 2 ∑ x 2 ∑ x 2
1 ( )
2
1 X 2
X 2
2 X X X − X
V ( e0 ) = σ 2 + 1 + + − ( ) = σ 2
+ + .
0
0 0
⇒ V e 1
n ∑ ∑x 2
x 2
∑ x 2 0
n ∑ x 2
La variance de l’erreur de prédiction est minimum quand X 0 = X . Ainsi la prédiction à la
moyenne du régresseur est la meilleure. Au fur et à mesure que X 0 s’éloigne de X , la
variance augmente de manière non linéaire. Nous n’avons aucun contrôle sur σ 2 ni sur n. Par
contre c’est nous qui choisissons X 0 .
(
e0 = Yˆ0 − Y0 ) est une variable normale car Ŷ0 et Y0 sont des variables normales. De
Ŷ − Y Yˆ0 − Y0
( )
plus E Yˆ0 = Y0 . Donc Z = 0 0 ⇒ Z =
V ( e0 )
→ N ( 0;1) .
(X − X )
2
1
σ * 1+ +
0
n ∑x 2
2
Yˆ − Y
Se0
2
2
(
Pour tα , on a P −tα p 0 0 p tα = 1 − α ⇒ P −tα * Se0 p Yˆ0 − Y0 p tα * Se0 = 1 − α
2 2
)
( )
⇒ P Yˆ0 − tα * S e0 p Y0 p Yˆ0 + tα * Se0 = 1 − α .
2 2
1 ( X0 − X )
2
15
Application
n
∑ x 2
En rappel,
n X S2 ∑x 2
S = 34, 677 * + 1 +
2
⇒ Se20 = 42, 267 ⇒ Se0 = 42, 267
e0
11 2281850, 497
⇒ Se0 = 6, 5013 , avec Se0 est l’erreur de prédiction.
Un IC à 95% de la prédiction est Y = Yˆ ± t * S .
0 0 α e0
2
THE END
16