Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Tpchap STATAres

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 37

Introduction a STATA : un exemple d’étude

Introduction a STATA : un exemple d’étude

Ahmed Tritah, Université du Maine

Novembre 2014
Introduction a STATA : un exemple d’étude
Le prix des logements pour les familles monoparentales
Introduction

Les étapes d’un projet


I lien http ://perso.univ-lemans.fr/~atritah/L3econometrieS1/
I Etablir un cadre théorique (modèle) qui spéci…e le sujet
d’étude et dé…ni la façon dont les résultats pourrons être
interprétés.
I Trouver les données qui correspondent à la contrepartie
empirique du modèle.
I Mener une analyse exploratoire pour se familiariser avec les
données et identi…er les points abérants : votre échantillon
est-il représentatif de la population ?
I Ajuster le modèle à l’aide d’une regression et mener une
analyse de spéci…cation pour déterminer l’adéquation des
facteurs explicatives avec la forme fonctionelle estimée.
I Procéder à l’inférence statistique sur les questions et les
implications dérivées du modèle
I Analyser les résultats des tests d’hypothèses et le pouvoir
Introduction a STATA : un exemple d’étude
Interprétation des résultats

La question

I On s’intéresse aux déterminants externes du prix des


logements, i.e. les éléments d’environnement du logement.
I La variable dépendante, dénotée lprice, est le prix médian (en
log) des logements dans une localité. Une observation
correspon à une localité.
I Variables explicatives externes : caractéristiques de la localité
I lnox : mesure de la population (en log)
I ldist : distance au bassin d’emploi (en log)
I stratio : ratio d’étudiants par enseignant
Introduction a STATA : un exemple d’étude
Interprétation des résultats

Statistiques descriptives

. summarize price lprice lnox ldist stratio

Variable Obs Mean Std. Dev. Min Max

price 506 22511.51 9208.856 5000 50001


lprice 506 9.941057 .409255 8.517193 10.8198
lnox 506 1.693091 .2014102 1.348073 2.164472
ldist 506 1.188233 .539501 .1222176 2.495682
stratio 506 18.45929 2.16582 12.6 22
Introduction a STATA : un exemple d’étude
Interprétation des résultats

Regression par MCO


Introduction a STATA : un exemple d’étude
Interprétation des résultats

Analyse de la variance F statistique et R2


I F statistique : teste H0 : β1 = β2 = ... = βk = 0
I
MS Model
Fcal = MS
residiual
= 175, 86
I Probabilité de rejeter H0 alors que H0 vrai :
Prob(F > Fcal ) = 0, 0000
I Ici on rejette H0 à "tous les niveaux conventionels de
signi…cation"
I Ecartype des erreurs du modèle (Root MSE) : trés faible au
regard de la moyenne lprice.
I Variation de y autour de ȳ expliquée par x :
R2 = 1 SSresidual /SSTotal :
I On s’interesse à la variation par rapport à la moyenne :
SSTotal = ∑i (yi ȳ )2 .
I L’idée est de comparer notre modèle au modèle yi = ȳ + ui
I Peut-on faire mieux que la moyenne pour prédire yi ?
I Ce qui revient à se demander si E (y jx ) 6= E (y )
Introduction a STATA : un exemple d’étude
Interprétation des résultats

Le R2 ajusté
I Rappel : le R2 ne dimininue jamais lorsque une variable
explicative est ajoutée au modèle ; ceci quelque soit la
signi…cativité de la variable.
I Le R2 ajusté corrige cela en prenant en compte le nombre de
degré de liberté en calculant un ratio de variance plutôt que
de variation entre les résidus et y :
SSR/(n k) n 1
R̄ 2 = 1 =1 (1 R2) < R2
SST /n 1 n k
I R̄ 2 augmente si le gain à rajouter une variable explicative
(variation plus faible des résidus) excède son coût (perte d’un
degré de liberté).
I On peut utiliser le R̄2 pour comparer des modèles avec la
même variable dépendante mais des spéci…cations di¤érentes.
I On peut aussi comparer l’erreur type de chaque modèle.
Introduction a STATA : un exemple d’étude
Interprétation des résultats

Retrouver les résultats d’estimation


I Les commandes stata tels que regress crée des variables
systèmes qui enregistrent les résultats.
I Le vecteur des paramètres estimés est contenu dans e(b), et
la matrice de variance covariance dans e(V). Un élément de
e(b) est référencé _b[varname] et son écartype estimé
_se[varname] (par ex. _b[rooms] et _se[rooms]).
I Le contenu de ces matrices se réfère à la dernière estimation
et sont remis à jour à chaque nouvelle estimation.
I On peut retrouver leur contenu avec la commande ereturn
scalars: macros:
e(rank) = 5 e(cmdline) : "regress lprice lnox ldist rooms stratio"
e(ll_0) = -265.4134648194153 e(title) : "Linear regression"
e(ll) = -43.4951392092929 e(marginsok) : "XB default"
e(r2_a) = .5807111444517128 e(vce) : "ols"
e(rss) = 35.18349741237627 e(depvar) : "lprice"
e(mss) = 49.39877352102587 e(cmd) : "regress"
e(rmse) = .2650029089298266 e(properties) : "b V"
e(r2) = .5840322442976398 e(predict) : "regres_p"
e(F) = 175.8550695227946 e(model) : "ols"
e(df_r) = 501 e(estat_cmd) : "regress_estat"
e(df_m) = 4
e(N) = 506 matrices:
e(b) : 1 x 5
e(V) : 5 x 5

functions:
e(sample)
Introduction a STATA : un exemple d’étude
Interprétation des résultats

I e(sample) crée une variable binaire qui prend la valeur 1 si


l’observation est inclu dans l’estimation et 0 sinon.
I Pour obtenir des stat des. sur l’échantillon exact utilisé dans
l’échantillon on tape :
summarise regresseurs if e(sample)
ou plus directement :
. estat summarize

Estimation sample regress Number of obs = 506

Variable Mean Std. Dev. Min Max

lprice 9.941057 .409255 8.51719 10.8198


lnox 1.693091 .2014102 1.34807 2.16447
ldist 1.188233 .539501 .122218 2.49568
rooms 6.284051 .7025938 3.56 8.78
stratio 18.45929 2.16582 12.6 22

I Stata possède un language matriciel. Toutes les commandes


sur les matrice commencent par matrix.
Introduction a STATA : un exemple d’étude
Interprétation des résultats

I Pour imprimer la matrice des coe¢ cients estimés :


. matrix list e(b)

e(b)[1,5]
lnox ldist rooms stratio _cons
y1 -.95354002 -.13434015 .25452706 -.05245119 11.083865

I Pour imprimer la matrice de variance covariance des


coe¢ cients estimés :
. estat vce

Covariance matrix of coefficients of regress model

e(V) lnox ldist rooms stratio _cons

lnox .01362865
ldist .00426247 .00185789
rooms .00035279 .00003043 .00034337
stratio 9.740e-07 .00002182 .00003374 .00003478
_cons -.03037429 -.01001835 -.00341397 -.00088151 .10119496

Les éléments de la diagonale correspondent aux carrés des écartypes


estimés(_se[])
Introduction a STATA : un exemple d’étude
Détecter la collinéarité dans la régression

I Stat détecte automatiquement la collinéarité parfaite


I La multicolinéarité (colinéarité forte) modi…e l’intéprétation
des résultats.
I Rapel de cours, la kième diagonale de la matrice de variance
covariance (VCE) est :
σ̂
(cf. Eq. (41) chapitre 3)
SSTj (1 Rj2 )
I La variance estimée sera d’autant plus élevé que (1) la
corrélation de j avec les autres variables explicatives (Rj2 ) est
élevée, (2) la variation de xj à sa moyenne (SSTj ) est faible
et (3) la qualité de l’ajustement est faible (σ̂ élevé).
I Le terme (1 Rj2 ) 1 est le facteur d’in‡ation de la variance
(VIF). Il peut être calculé aprés chaque régression avec la
commande estat vif. L’usage admet une suspission de
colinéarité à partir d’un VIF moyen supérieur à 1, ou d’un VIF
maximum supérieur à 10.
Introduction a STATA : un exemple d’étude
Détecter la collinéarité dans la régression

. reg lprice lnox ldist rooms stratio

Source SS df MS Number of obs = 506


F( 4, 501) = 175.86
Model 49.3987735 4 12.3496934 Prob > F = 0.0000
Residual 35.1834974 501 .070226542 R-squared = 0.5840
Adj R-squared = 0.5807
Total 84.5822709 505 .167489645 Root MSE = .265

lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]

lnox -.95354 .1167418 -8.17 0.000 -1.182904 -.7241762


ldist -.1343401 .0431032 -3.12 0.002 -.2190255 -.0496548
rooms .2545271 .0185303 13.74 0.000 .2181203 .2909338
stratio -.0524512 .0058971 -8.89 0.000 -.0640373 -.0408651
_cons 11.08387 .3181115 34.84 0.000 10.45887 11.70886

. estat vif

Variable VIF 1/VIF

lnox 3.98 0.251533


ldist 3.89 0.257162
rooms 1.22 0.820417
stratio 1.17 0.852488

Mean VIF 2.56


Introduction a STATA : un exemple d’étude
Présentation des résultats

Présentation des résultats


I estimates permet de stocker les résultats d’estimations
I estimates store : enregistre les résultats
I estimates table : crée une table d’équations avec les
p-value (p), t-stat (t), erreurs-types (se). Les options
permettent de spéci…er le format (voir help estimates), de
rajouter des résultats contenus dans e() (option stat) ; etc.
. use tp_hprice2a, clear
(Housing price data for Boston-area communities)

. generate rooms2=rooms^2

. quietly regress lprice rooms /*Model 1*/

. /*quietly lance la regression sans afficher///


> les résultats*/
. estimates store model1 //enregistrent les estimations du model1

. quietly regress lprice rooms rooms2 ldist/*Model 2*/

. estimates store model2 //enregistrent les estimations du model2

. quietly regress lprice ldist stratio lnox //Model 3

. estimates store model3 //enregistrent les estimations du model3

. quietly regress lprice lnox ldist rooms stratio //Model 4

. estimates store model4 //enregistrent les estimations du model4


Introduction a STATA : un exemple d’étude
Présentation des résultats

. estimates table model1 model2 model3 model4, stat(r2_a rmse) b(%7.3g) se(%6.3g
> ) p(%4.3f)

Variable model1 model2 model3 model4

rooms .369 -.821 .255


.0201 .183 .0185
0.000 0.000 0.000
rooms2 .0889
.014
0.000
ldist .237 -.157 -.134
.0255 .0505 .0431
0.000 0.002 0.002
stratio -.0775 -.0525
.0066 .0059
0.000 0.000
lnox -1.22 -.954
.135 .117
0.000 0.000
_cons 7.62 11.3 13.6 11.1
.127 .584 .304 .318
0.000 0.000 0.000 0.000

r2_a .399 .5 .424 .581


rmse .317 .289 .311 .265

legend: b/se/p
Introduction a STATA : un exemple d’étude
Présentation des résultats

I On peut aussi présenter la signi…cativité sous forme d’étoile


. estimates table model4 model1 model3 model2, stat(r2_a rmse ll) b(%7.3g) /*
> */ star title("Models of median housing price")

Models of median housing price

Variable model4 model1 model3 model2

lnox -.954*** -1.22***


ldist -.134** -.157** .237***
rooms .255*** .369*** -.821***
stratio -.0525*** -.0775***
rooms2 .0889***
_cons 11.1*** 7.62*** 13.6*** 11.3***

r2_a .581 .399 .424 .5


rmse .265 .317 .311 .289
ll -43.5 -136 -124 -88.6

legend: * p<0.05; ** p<0.01; *** p<0.001

I Il existe deux autres commandes importantes pour créer des


table de type articles :
I estout
I outreg2
Introduction a STATA : un exemple d’étude
Présentation des résultats

Présenter des statistiques descriptives et des corrélations


I statsmat stocke les résultats de stat des dans une matrice
I Exemple : prix moyen des logements en fonction des niveaux de
criminalité (5 niveaux)
. label define crlev 0 "v.Low" 1 "low" 2 "Medium" 3 "high" 4 "v.high"

. egen crimelevel=cut(crime), group(5)

. label values crimelevel crlev

. statsmat price, stat(n mean p50) by(crimelevel) /*


> */ matrix(price_crime) format(%9.4g) title("Housing price by quintile of cri
> me")

price_crime[5,3]: Housing price by quintile of crime


n mean p50
v,Low 101 27273 24499
low 101 24806 22800
Medium 101 23374 21600
high 101 22222 19900
v,high 102 14957 13350

I autre possibilité tabout (voir :


http ://www.ianwatson.com.au/stata/tabout_tutorial.pdf)
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

I On suppose que le modèle est proprement spéci…é et que les


erreurs sont identiquements et indépendements distribuées.
I Rappel : les estimateurs sont des variables aléatoires dont la
distribution dépend de la distribution des erreurs.
I Trois types de tests : Test de student (Wald teste), tests LM
(teste de Lagrange) et test LR (teste du ratio de
vraissemblance).
I On présente ici les testes de Wald (vue en cours).
I Avec q restrictions sur les paramètres le modèle restreint
comporte (k q) coe¢ cients à estimer.
I Stata présente les p values des testes : signi…cativité
maximale d’un teste qui ne rejette pas H0 . Par exemple si
p = 0.013 on peut rejeter H0 à 10% et à 5%, mais pas 1% (à
1% le tcritique > tcalcul é ). Par défaut les tests sont bilatéraux.
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

I Stata dispose de trois commandes de tests trés utiles :


I test coe‡ist : où coe‡ist contient le nom d’une ou plusieurs
variable du modèles
I test exp = exp : exp est une fonction algébrique des variables
I testparm varlist : qui permet des tests de types testparm
pop ou testparm ind1 ind9, i.e. tester si ces variables sont
conjointement égales à zéro (utiles pour des variables
discrètes).
I lincom exp : permet d’e¤ectuer des testes sur des
combinaisons linéaires des coe¢ cients
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

test de Wald avec la commande test


I On souhaite tester une hypothèse de type : H0 : βj = 0
I Sous H0 on connait la distribution du ratio du coe¢ cient
estimé à son écartype (distribution t).
I regress imprime ce ratio dans la colonne t
. regress lprice lnox ldist rooms stratio

Source SS df MS Number of obs = 506


F( 4, 501) = 175.86
Model 49.3987735 4 12.3496934 Prob > F = 0.0000
Residual 35.1834974 501 .070226542 R-squared = 0.5840
Adj R-squared = 0.5807
Total 84.5822709 505 .167489645 Root MSE = .265

lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]

lnox -.95354 .1167418 -8.17 0.000 -1.182904 -.7241762


ldist -.1343401 .0431032 -3.12 0.002 -.2190255 -.0496548
rooms .2545271 .0185303 13.74 0.000 .2181203 .2909338
stratio -.0524512 .0058971 -8.89 0.000 -.0640373 -.0408651
_cons 11.08387 .3181115 34.84 0.000 10.45887 11.70886

. test rooms

( 1) rooms = 0

F( 1, 501) = 188.67
Prob > F = 0.0000
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

I Plus générallement on teste l’égalité d’un coe¢ cient à un


paramètre
. quietly regress lprice lnox ldist rooms stratio

. test rooms=0.33

( 1) rooms = .33

F( 1, 501) = 16.59
Prob > F = 0.0001
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

test de Wald avec combinaison linéaire sur les paramètres


I On souhaite tester une hypothèse de type
H0 : βrooms + βdist + βstratio = 0
. quietly regress lprice lnox ldist rooms stratio

. test rooms=0.33

( 1) rooms = .33

F( 1, 501) = 16.59
Prob > F = 0.0001

I test permet de tester l’égalité de 2 coe¢ cients ou que leur


ratio est égal à une certaine valeur
. quietly regress lprice lnox ldist rooms stratio

. test ldist=stratio

( 1) ldist - stratio = 0

F( 1, 501) = 3.63
Prob > F = 0.0574

. test lnox=10*stratio

( 1) lnox - 10*stratio = 0

F( 1, 501) = 10.77
Prob > F = 0.0011
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Regression contraintes
I On a montré que l’hypothèse βrooms + βdist + βstratio = 0 ne
pouvait pas être rejetée.
I On doit donc réestimer le modèle en imposant cette
contrainte.
I La commande constraint permet de dé…nir la contrainte :

constraint [define] # [exp = exp jcoe‡ist ]

I Ensuite, on estime le modèle contraint à l’aide de cnsreg :

cnsreg depvar indepvars [if ] [in ] [weight ], constraints(numlist)

numlist fait référence au numéro de la contraintes spéci…é


dans constraint par #
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Regression contraintes
I On a montré que l’hypothèse βrooms + βdist + βstratio = 0 ne
pouvait pas être rejetée.
I On doit donc réestimer le modèle en imposant cette
contrainte.
I La commande constraint permet de dé…nir la contrainte :

constraint [define] # [exp = exp jcoe‡ist ]

I Ensuite, on estime le modèle contraint à l’aide de cnsreg :

cnsreg depvar indepvars [if ] [in ] [weight ], constraints(numlist)

numlist fait référence au numéro de la contraintes spéci…é


dans constraint par #
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

. constraint def 1 ldist+rooms+stratio=0

. cnsreg lprice lnox ldist rooms stratio, constraint(1)

Constrained linear regression Number of obs = 506


F( 3, 502) = 233.42
Prob > F = 0.0000
Root MSE = 0.2652

( 1) ldist + rooms + stratio = 0

lprice Coef. Std. Err. t P>|t| [95% Conf. Interval]

lnox -1.083392 .0691935 -15.66 0.000 -1.219337 -.9474478


ldist -.1880712 .0185284 -10.15 0.000 -.2244739 -.1516684
rooms .2430633 .01658 14.66 0.000 .2104886 .2756381
stratio -.0549922 .0056075 -9.81 0.000 -.0660092 -.0439752
_cons 11.48651 .1270377 90.42 0.000 11.23691 11.7361
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Les testes d’hypothèse jointes

I Chacune des hypothèse doit être satisfaite simultanément


(H0 : β2 = 0 et β3 = 0), ce qui est di¤érent de
0
H0 : β 2 + β 3 = 0
. quietly regress lprice lnox ldist rooms stratio . quietly regress lprice lnox ldist rooms stratio

. test lnox ldist . test (lnox=10*stratio) (ldist=stratio)

( 1) lnox = 0 ( 1) lnox - 10*stratio = 0


( 2) ldist = 0 ( 2) ldist - stratio = 0

F( 2, 501) = 58.95 F( 2, 501) = 5.94


Prob > F = 0.0000 Prob > F = 0.0028
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Tester des restrictions non linéaires et des combinaisons


non linéaires
I Tous les testes précédent reviennent à minimiser la somme des
carrés des résidus en imposant des contraintes linéaires sur les
paramètres
I Mais les contraintes peuvent être non linéaires (tester l’égalité
du produit de deux paramètres à une valeur)
I tensnl permet de spéci…er des hypothèses non linéaires. Pour
cette commande on doit utiliser la syntaxe _b[varname] pour
le coe¤cients de la variable varname
I nlcom permet de tester des combinaisons non linéaires des
paramètres (par interval de con…ance ou estimation
ponctuelle).
I Ces testes sont sensibles à l’échelle de mesure des variables X
et y (pas vrai pour les testes linéaires).
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

. quietly regress lprice lnox ldist rooms stratio


Ici on ne peut pas
. testnl _b[lnox]*_b[stratio]=0.06
rejeter l'hypothèse H₀
(1) _b[lnox]*_b[stratio] = 0.06
que lnox*stratio=0.06
F(1, 501) = 1.44
Prob > F = 0.2306

I Tester des hypothèses non linéaires jointes :


. quietly reg lprice lnox ldist rooms stratio

. testnl (_b[lnox]*_b[stratio]=0.06) ///


> (_b[rooms]/_b[ldist]=3*_b[lnox])
On peut rejeter
(1) _b[lnox]*_b[stratio] = 0.06 l’
hypothèse H0 à 1%
(2) _b[rooms]/_b[ldist] = 3*_b[lnox]

F(2, 501) = 5.13


Prob > F = 0.0062
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

Tester des modèles concurents (non-emboîtés)


I Si les variables explicatives d’un modèle forment un sous
ensemble d’un autre (modèle emboités) on peut utiliser les
procédures de testes classiques (test)
I Supposons qu’on souhaite évaluer les modèles suivants :

H0 : yi = xi β + e0i , i = 1, ..., n : Modèle 1


H1 : yi = zi β + e1i , i = 1, ..., n : Modèle 2
I On suppose que chaque vecteur de variable explicative, xi et
zi contient des variables qui lui sont spéci…ques.
I Un examen de la qualité de l’ajustement (R2 ou Root MSE)
sous chaque hypothèse n’est pas satisfaisant et n’a pas de
justi…cation statistique.
I Les économétres Davidson et MacKinon (1981) on proposé
une solution.
Introduction a STATA : un exemple d’étude
Tests d’hypothèses, restrictions linéaires et moindres carrés contraints

I Intuition : On génère les valeurs prédites de y , ŷ1 et ŷ2 sous


chaque hypothèse. On inclut ŷ2 dans le modèle 1 (hyp. H0 ), si
ŷ2 signi…cative on rejette H0 . On introduit ensuite ŷ1 dans le
modèle 2 (hyp. H1 ), si ŷ1 signi…cative on rejette H1 . Quatres
résultat possibles :
1. On préfère H0 à H1
2. On préfère H1 à H0
3. Les deux modèles sont rejetès
4. Aucun des modèles n’est rejetés
. nnest lprice lnox ldist rooms stratio (crime proptax ldist rooms stratio)

M1 : Y = a + Xb with X = [lnox ldist rooms stratio]


M2 : Y = a + Zg with Z = [crime proptax ldist rooms stratio]

J test for non-nested models

H0 : M1 t(500) 10.10728 lnox compris dans M1 mais pas M2 et crime,


H1 : M2 p-val 0.00000
proptax compris dans M2 et non M1 (modèles
H0 : M2 t(499) 7.19138
H1 : M1 p-val 0.00000 non emboités).
Cox-Pesaran test for non-nested models Ici on rejette H0 et H1 par rapport au modèle
H0 : M1 N(0,1) -20.07277 ou tous les variables (lnox, crime, proptax)
H1 : M2 p-val 0.00000
seraient incluses.
H0 : M2 N(0,1) -17.63186
H1 : M1 p-val 0.00000
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites

Résidus et valeurs prédites


I Aprés l’ajutement d’un modèle avec regress on peut calculer
les résidus de la régression et les valeurs prédites pour
l’échantillon de la régression ou un autre échantillon. Un
modèle bien spéci…é doit générer de bonnes prédictions
quelque soit l’échantillon de la population. Pour générer ces
valeurs, aprés regress on invoque la commande :
predict [type] newvar [if] [in], [, choice]
choice : quantité à calculer pour chaque observation
I predict calcule par défaut les valeurs prédites :
. quietly reg lprice lnox ldist rooms stratio Pour restreindre le calcul des résidus
. predict double lpricehat et des prédictions à l’
échantillon utilisé
(option xb assumed; fitted values)
pour l’estimation imposez la restriction
if e(sample)
. predict double lpriceeps, residual

I La qualité de l’ajustement peut être visualisé à l’aide d’un


graphique.
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites

Résidus et valeurs prédites


. quietly reg lprice lnox ldist rooms stratio

. predict double lpricehat, xb

. label var lpricehat "predicted log price"

. twoway (scatter lpricehat lprice, msize(small) mcolor(black) msize(tiny))/*


> */ (line lprice lprice if lprice<., clwidth(thin)),/*
> */ ytitle("Predicted log median housing price")/*
> */ xtitle("Actual log median housing price") aspectratio(1) legend(off)
11
Predicted log median housing price
10.5

Le modèle surévalue
les logements les
moins chères et sous
10

évalue les logements


les plus chères. Le
modèle n’ a donc pas
9.5

de bonnes
prédictions pour ces
9

valeurs extrêmes
8.5

8.5 9 9.5 10 10.5 11


Actual log median housing price
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites

Calcul des intervals de prédictions


I Voir [R] regression postestimation pour l’ensemble des
capacités de predict aprés regress.
I En plus de la prédictions ponctuelle on peut obtenir l’interval
de con…ance des prédictions : "ensemble des valeurs probables
de yi étant donné xi à x%".
I Stata calcule deux types de prédiction :
I predicted value : valeur espére de la variable dépendante pour
des valeurs données des variables explivatives.
I forcast (prévisions) : valeur de la variable dépendante pour un
esemble donnée de variable explicatives.
R ègle : variance prévision > variance prédiction
I Un interval de prédiction est une borne supérieur et inférieur
qui contient la véritable valeur du paramètre de population
avec une certaine probabilité.
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites

Calcul des intervals de prédictions


I Les bornes de l’interval pour la prévision est :
y0 t1 α/2 V̂f
V̂f est l’estimation de la variance des erreurs de prédictions
On calcule cette interval de con…ance avec l’option stdf de
predict
I Les bornes de l’interval pour la prédiction est :
y0 t1 α/2 V̂p
V̂f est l’estimation de la variance des erreurs de prédictions
La variance de la valeur prédite augmente avec la distance à x̄.
On calcule cette interval de con…ance avec l’option stdp de
predict
I On peut visualiser graphiquement la prédiction ponctuelle et
son interval de con…ance en générant les bornes de l’interval.
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites

I On invoque deux fois predict pour générer la prédiction (par


défaut) et l’érreur type de la prédiction (option stdp)
. use tp_hprice2a, clear
(Housing price data for Boston-area communities)

. quietly reg lprice lnox if _n<100 /* on se retreint au 100 1ere observations*/

. predict double xb if e(sample) /*genere les valeurs prédites pour l'échantillon /


> de la régression dans la variable xb*/
(option xb assumed; fitted values)
(407 missing values generated)

. predict double stpred if e(sample), stdp /*genere l'erreur type pour l'échantillo
> dans la variables stpred*/
(407 missing values generated)

I Pour calculer l’interval de con…ance, il nous faut générer


t1 α/2 avec la fonction tval qui est l’inverse de la fonction de
densité de probabilité de student.
. scalar tval=invttail(e(df_r),0.975) /*t de student tel P(x<t)=0.975)*/

. gen double uplim=xb+tval*stpred


(407 missing values generated)

. gen double lowlim=xb-tval*stpred


(407 missing values generated)
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites

I Graph des résultats avec indication de la moyenne de la


variable explicative
. summarize lnox if e(sample), meanonly /*créer en mémoire la moyenne de lnow*/

. local lnoxbar=r(mean) /*l'enregistrer dans une variable local lnoxbar*/

. label var xb "Pred"

. label var uplim "95% prediction interval"

. label var lowlim "95% prediction interval"

.
. **graph des résultats
. twoway (scatter lprice lnox if e(sample), sort ms(Oh) xline(`lnoxbar')) /*nuage de points avec d
> roite verticale
> à la valeur moyenne de lnox ///
> */ (connected xb lnox if e(sample), sort msize(small)) /*droite de regression x et y prédit
> */(rline uplim lowlim lnox if e(sample), sort), /*graph des limites supérieurs et inférieurs
> */ ytitle(Actual and predicted log price) legend(cols(3))
Introduction a STATA : un exemple d’étude
Résidus et valeurs prédites

11
Actual and predicted log price
10 9.5 10.5

1.4 1.5 1.6 1.7


log(nox)

log(price) Pred 95% prediction interval


Introduction a STATA : un exemple d’étude
Calcul d’élasticité et des e¤ets marginaux

11
Actual and predicted log price
10 9.5 10.5

1.4 1.5 1.6 1.7


log(nox)

log(price) Pred 95% prediction interval

Vous aimerez peut-être aussi