Microeconometría
Microeconometría
Microeconometría
22 de diciembre de 2003
*
Departamento de Economía. Universidad de Chile. e-mail : jbenaven@econ.uchile.cl. Quisiera
agradecer la eficiente ayuda de Javiera Vásquez en la transcripción de estos apuntes.
Capitulo 4: Tópicos Especiales con Variable
Dependiente Binaria 91
Resulta conveniente agrupar los modelos posibles en dos grandes clases, binomial y
multinomial, dependiendo de si el resultado es la elección entre dos alternativas o entre
más. Si bien el segundo tipo es una extensión del primero, se pueden distinguir en estos
últimos situaciones donde los resultados son no ordenados, como el caso de la elección
del auto o bien ordenados como el caso de las patentes.
Supuesto básico:
yi∗ = x0i β + εi
con: ½
1 si yi∗ > 0;
yi =
0 si yi∗ ≤ 0
Luego,
0 0
P [yi = 1]=P [xi β + εi > 0] = F (xi β)
4
Modelos Alternativos para F(·):
Probit:
Z z
1
Φ(z) = √ · exp(−u2 /2)du
2π −∞
Logit:
1
Λ(z) =
1 + e−z
n
Y 0 0
L= F (xi β)yi [1 − F (xi β)]1−yi
i=1
n n
X o
0 0
logL = yi · logF (xi β) + (1 − yi ) · log[1 − F (xi β)]
i=1
n ½ ¾
∂logL X yi · fi (1 − yi ) · fi
= − · xi
∂β Fi 1 − Fi |{z}
i=1 | {z } vector
escalar
0 0
con Fi = F (xi β) y fi = f (xi β); donde f es la densidad correspondiente a F.
Entonces:
n
∂logL X yi − Fi
= · fi · xi
∂β Fi (1 − Fi )
i=1
n
X yi − Fi
· fi · xi = 0
Fi (1 − Fi )
i=1
5
(1) Modelo Logit: Si se tiene que en el modelo logit:
1
Λ(z) =
1 + e−z
entonces al derivar se puede obtener la siguiente expresión :
Demostración :
dΛ(z)
= −1(1 + e−1 )−2 (−1 · e−z ) = Λ(z)[1 − Λ(z)]
dz
Demostración:
n
X
∂logL yi − Fi
= · fi · xi
∂β Fi (1 − Fi )
i=1
n
X yi − Λi
= · Λi (1 − Λi ) · xi
Λi (1 − Λi )
i=1
n
X
= (yi − Λi ) · xi
i=1
n
X
∂ 2 logL ∂Λi
= −xi
∂β∂β 0 ∂β
i=1
n
X
= − Λi (1 − Λi ) · xi x0i
i=1
6
La que es definida negativa para todos los β, asumiendo que los x’s no son perfec-
tamente colineales ( si lo fueran H no es invertible, explota). Así, la log-likelihood es
globalmente cóncava. La esperanza de H es ella misma y no depende de y, por lo tanto
la matriz de información muestral es:
n
X
Jn(β) = Λi (1 − Λi ) · xi x0i
i=1
n
∂logL X yi − Φi
= · φi · xi = 0
∂β Φi (1 − Φi )
i=1
∂logL X −φi X φi
= · xi + · xi
∂β 1 − Φi Φi
yi =0 yi =1
0
E(εi |yi = 1) = E(εi |xi β + εi > 0)
0
φ(xi β)
= 0
Φ(xi β)
7
Si z v N(0,1):
Figura 1
Distribución Normal(0,1)
densidad:
1
φ(z) = √ · exp(−1/2z 2 )
2π
Medias Condicionales:
Z k
1
E(z|z < k) = · z · φ(z)dz
P (z < k) −∞
Z k
1 1
= · z · √ · exp(−1/2z 2 )dz
Φ(k) −∞ 2π
· ¸k
1 1 2
= − √ · exp(−1/2z )
Φ(k) 2π −∞
φ(k)
=
Φ(k)
8
De la misma manera:
Z +∞
1
E(z|z > k) = · z · φ(z)dz
1 − Φ(k) k
Z +∞
1 1
= · z · √ · exp(−1/2z 2 )dz
1 − Φ(k) k 2π
· ¸+∞
1 1
= − √ · exp(−1/2z 2 )
1 − Φ(k) 2π k
φ(k)
=
1 − Φ(k)
Así, las ecuaciones de verosimilitud, en el caso de un modelo Probit, se pueden escribir
de la siguiente forma:
n
X
E(εi |yi ) · xi = 0
i=1
| {z }
condición de ortogonalidad
Dadas las expresiones para las medias condicionales, los valores entre paréntesis
cuadrados son positivos y entonces la matriz Hessiana correspondiente es negativa defini-
da, es decir, la log-likelihood es globalmente cóncava.
Tomando esperanzas, la matriz de información muestral para el modelo Probit es la
siguiente:
n
X φ2i
Jn(β) = · xi x0i
Φi (1 − Φi )
i=1
9
La varianza del vector Score:
n
∂logL X yi − Fi
= · fi · xi
∂β Fi (1 − Fi )
i=1
µ ¶µ ¶0 n µ
X ¶2
∂logL ∂logL yi − Fi
E = E · fi2 · xi x0i
∂β ∂β Fi (1 − Fi )
i=1
n
X fi2
= · xi x0i
Fi (1 − Fi )
i=1
Demostración:
Notar que esta última expresión es la misma que la matriz de información muestral
derivada para cada uno de los modelos anteriores.
b
logL(β) < logL(β)
10
1.4. Algunas Propiedades de las densidades regulares y verosimili-
tudes
Considere una muestra aleatoria obtenida de una función de densidad g(y:θ), la que
depende del parámetro θ (extendible al caso de un vector). El logaritmo de la función
de verosimilitud viene dado por:
n
X
logL = log(g(yi ; θ))
i=1
Propiedades:
1.
Z +∞
g(y; θ)dy = 1
−∞
Z +∞
g 0 (y; θ)dy = 0
−∞
y entonces:
· ¸
g 0 (y; θ)
E =0
g(y; θ)
es decir,
· ¸
∂log(g(y; θ))
E =0
∂θ
11
y entonces
· ¸
∂logL
E = 0 score
∂θ
· 0 ¸
∂ 2 log(g(y; θ)) g 00 (y; θ) g (y; θ) 2
= −
∂θ2 g(y; θ) g(y; θ)
Z +∞
g 00 (y; θ) · dy = 0
−∞
es decir,
· ¸
g 00 (y; θ)
E =0
g(y; θ)
y así,
· ¸ · ¸
∂ 2 log(g(y; θ)) g 0 (y; θ) 2
E = −E
∂θ2 g(y; θ)
· ¸
∂log(g(y; θ)) 2
= −E
∂θ
3.
· ¸2 " n #2 n · ¸
∂logL X ∂log(g(yi ; θ)) X ∂log(g(yi ; θ)) 2
E =E =E
∂θ ∂θ ∂θ
i=1 i=1
Ya que el valor esperado de todos los términos cruzados (fuera de la diagonal) son
cero. Ello debido al supuesto de independencia de las observaciones y el hecho de
que:
· ¸
∂log(g(y; θ))
E =0
∂θ
12
Así entonces:
· ¸ · ¸
∂ 2 logL ∂logL 2
E = −E
∂θ2 ∂θ
· ¸ µ ¶µ ¶
∂ 2 logL ∂logL ∂logL 0
E = −E
∂θ2 ∂θ ∂θ
· ¸
∂ 2 logL
Jn(θ) = E − = E(Q)
∂θ∂θ0
Donde:
n µ
X ¶µ ¶
∂log(g(yi ; θ)) ∂log(g(yi ; θ)) 0
Q=
∂θ ∂θ
i=1
Evaluada en θbM L entrega un estimador de la matriz de covarianzas del MLE. Sin em-
bargo, este estimador rara vez esta disponible dado que son complicadas funciones no
lineales de los datos. Existen dos alternativas:
1.
h i−1 µ ∂ 2 logL ¶−1
c b
Jn(θ) = −
∂θ∂θ0
13
La que se obtiene al evaluar la matriz de segundas derivadas actual (no esperada)
con el valor de MLE máximo obtenido. No obstante, a veces es difícil obtener las
segundas derivadas y programarlas en el computador.
2.
" n µ #
h i−1 X ∂log(g(yi ; θ)) ¶ µ ∂log(g(yi ; θ)) ¶0
Jn( b
c θ) =
∂θ ∂θ
i=1
Score:
X 1 X n n
∂logL yi
=− + =0
∂β β + xi (β + xi )2
i=1 i=1
14
Dado que E(yi )=β+xi es conocido, la forma exacta del valor esperado de (1) es conocida
(algo no común). Reemplazamos β + xi por yi e invirtiendo obtenemos 44.255 como
b
estimador de la varianza. Al insertar β=15.60275 e invirtiendo obtenemos el segundo
estimador de la varianza: 46.164. Finalmente, al computar el inverso de la suma de los
cuadrados de la primera derivada de la densidad evaluada en βbM LE :
· ¸−1
\ b 1
Jn(β) =P h i2
n −1 yi
i=1 b + b 2
(β+xi ) (β+xi )
Los tres estimadores son asintóticamente equivalentes, pero BHHH es mucho más fácil
de obtener. Pero cuidado con los valores en muestras finitas:
15
16
17
1.7. Efectos Marginales
Sabemos que:
P [yi = 1] = F (x0i β)
∂P [yi = 1]
= f (x0i β) · β
∂xi
Probit: φ(x0i β) · β
También se pueden calcular los errores standard de estos efectos marginales. Si defini-
b = fb · βb donde fb = f (x0i β),
mos γ b entonces:
µ ¶ µ ¶0
∂b
γ ∂b
γ
V ar.Asin.(b
γ) = V
b
∂β0 b
∂β0
b
Donde V= Var. Asin. (β).
Probit: df
dz = −z · φ, con z = x0 βb
b βx
γ )probit = φ2 [I − (x0 β)
V ar.Asin.(b b 0 ]V [I − (x0 β)
b βx
b 0 ]0
df
Logit: dz = (1 − 2Λ)Λ(1 − Λ)
V ar.Asin.(b b − Λ))
γ )logit = (Λ(1 b 2 [I + (1 − 2Λ) b 0 ]V [I + (1 − 2Λ)
b βx b 0 ]0
b βx
18
Al igual que los efectos marginales, los errores standard asintóticos también dependen
del vector de variables x utilizado.
GRADE: indicador si los alumnos mejoraron sus notas después de realizar un curso
especial PSI.
Usando estos coeficientes, tenemos las siguientes probabilidades como función de GPA
(evaluadas en la media de TUC):
19
PSI=0: Prob[GRADE=1]=Φ[-7.45+1.62GPA+0.052(21.938)]
PSI=1: Prob[GRADE=1]=Φ[-7.45+1.62GPA+0.052(21.938)+1.4263]
Prob(GRADE=1)
con PSI
0.571
sin PSI
0.106
3.117
GPA
El efecto marginal de PSI es la diferencia entre las dos funciones, el que va desde 0.06
en GPA=2 hasta 0.5 en GPA=0.35. Así, la probabilidad de que el estudiante aumente
sus notas dado que siguió PSI es más alta si mejores son sus notas!!. (Efecto marginal
de PSI en x es 0.468).
Efectos marginales:
Probit: φ(x0i β) · β
Logit: Λ(x0i β)[1 − Λ(x0i β)] · β
Entonces:
Probit:
b βx
γ )probit = φ2 [I − (x0 β)
V ar.Asin.(b b 0 ]V [I − (x0 β)
b βx
b 0 ]0
20
Logit:
V ar.Asin.(b b − Λ))
γ )logit = (Λ(1 b 2 [I + (1 − 2Λ) b 0 ]V [I + (1 − 2Λ)
b βx b 0 ]0
b βx
Así, se pueden realizar todas las pruebas de hipótesis ya conocida para los parámet-
ros. Por ejemplo, los tradicionales test-t para restricciones simples los que están basados
en los errores estándar calculados a partir de la matriz de información (BHHH u otra).
Logit Probit
Variable Coef. t ratio Pendiente t ratio Coef. t ratio Pendiente t ratio
Constante -13.021 -2.64 - - -7.452 -2.930 - -
(4.931) (2.542)
GPA 2.826 2.238 0.534 2.252 1.626 2.343 0.533 1.761
(1.263) (0.237) (0.694) (0.303)
TUCE 0.095 0.672 0.018 0.685 0.052 0.617 0.017 0.587
(0.142) (0.026) (0.084) (0.029)
PSI 2.379 2.234 0.449 2.284 1.426 2.397 0.468 1.695
(2.234) (0.197) (0.595) (2.276)
n o−1
W = (Rβb − q)0 R(Est.V ar.Asin(β))R
b 0 (Rβb − q)
Para una prueba general sobre un conjunto de coeficientes que sean igual a cero (por
ejemplo: los L últimos) el test de Wald requiere que:
R = [0|IL ] y q=0
b r − log L]
b ∼ χ2r a
LR = −2[log L
donde L br y L
b son las funciones log-likelihood evaluadas con los estimadores restringui-
dos y no restringuidos respectivamente. Por ejemplo, la prueba típica de que todos los
coeficientes de las pendientes en el modelo Probit o Logit son cero (como un test F).
Para esta prueba solo se restringe el coeficiente de la constante. En este caso, el caso no
21
restringuido es el mismo para Logit y Probit:
Ejemplo anterior (ver tabla 19.1 Greene): P=11/32 → logL0 =-20.5917, se sabe que
b probit =-12.819 y logL
logL b logit =-12.890, χ2 2 2
probit =15.546 y χlogit =15.404, con χcrit(3) =7.81,
0
por lo tanto se rechaza la hipótesis nula de que todos los β s son igual a cero.
(2) Otro problema de identificación ocurre cuando tenemos una combinación de muestra
pequeña con un gran número de parámetros a ser estimados.
Si min[n·y, n·(1 − y)]<k, entonces no se pueden estimar los β’s. Donde n es el tamaño
de muestra, k es la dimensión de β, n·y es el número de unos y n·(1 − y) es el número
de ceros.
Lo anterior pues no existe una solución finita para las condiciones de primer orden
y por lo tanto β no puede ser identificado.
22
En el modelo Probit habíamos visto que la media condicional tenia la siguiente estruc-
tura:
φ(x0i β)
E(εi |yi = 1) =
Φ(x0i β)
−φ(x0i β)
E(εi |yi = 0) =
1 − Φ(x0i β)
De esta forma,
φ(x0i β) φ(x0i β)
ηi = · y i − · (1 − yi )
Φ(x0i β) 1 − Φ(x0i β)
(yi − Φi )
= · φi
Φi (1 − Φi )
También vimos que las ecuaciones de verosimilitud (score) podrían escribirse como:
n
∂logL X
= E(εi |yi ) · xi = 0
∂β
i=1
o bien
n
∂logL X
= ηi · x i = 0 (2)
∂β
i=1
o bien:
n
X
H=− {ηi (x0i β + ηi )} · xi x0i
i=1
23
φ2
Notar que E(ηi ) = 0 y V ar(ηi ) = Φi (1−Φ
i
i)
(demostrar !!), ηi se conoce como el “residuo
del primer momento” (ηi es la contribución de cada observación i al score!!).
Si usamos Q para estimar la matriz de varianzas, entonces el test puede ser calculado
como:
W
1+ W
n
donde W es el estadístico de Wald para la hipótesis que todos los interceptos son cero.
(De nuevo, si p=1, entonces Wald=t2 sobre la constante).
yi∗ = x0i β + σ · εi
24
con εi ∼ N(0,1), entonces:
n
∂logL X
= E(ε2i − 1|yi )
∂σ 2
i=1
yi∗ = xi β + σi · εi
¯
2 0 ∂h(zi0 γ) ¯¯
con σi =h(zi γ) con h tal que h(0)=1 y ∂γ ¯ = zi (por ejemplo si h(zi0 γ)=1+zi0 γ).
γ=0
el que puede ser obtenido al regresionar c sobre R. O bien, como mecanismo alternativo,
regresionar ηi (x0i β)zi sobre ηi xi y una constante y testear con Wald.
Una forma de probar normalidad de los errores es asumir que zi =[(x0i β)2 (x0i β)3 ] y
probar mediante un Reset-test la significancia de estos términos. (también en Ruud
1984).
Pero, ¿de dónde proviene todo esto?. Respuesta : sobre las restricciones de momentos.
yi = x0i β + ui
25
i E(zi ui )=0
1
τb2 = u2i − σ
zi (b b2 )
n
yi = Φ(x0i β) + vi
con vi = yi − E(yi ) el cual tiene media cero y varianza Φi (1 − Φi ) con Φi = Φ(x0i β).
De esta manera:
n
1 X zi · φbi · vbi
τbi =
n b i (1 − Φ
Φ b i)
i=1
Xn
1 zi · φbi · (yi − Φ b i)
=
n b i (1 − Φ
Φ b i)
i=1
Xn
1
= zi · ηbi
n
i=1
De esta forma se construye entonces la prueba sobre los momentos, que en este caso
utiliza los residuos generalizados. En particular, esta última expresión es la covarianza
entre los residuos generalizados y z. Así, al regresionar zi · ηbi sobre xi · ηbi y una constante
es equivalente a un estadístico de prueba sobre la importancia de la variable z(Idéntico
al test de score LM).
26
Consecuencias de la heterocedasticidad y variable omitida en Probit (Logit): incon-
sistencia, a pesar de que no existe correlación en los errores.
Ejemplo de Prueba:
t-statistic
Test Moment Restriction Eligible Ineligible
Omitted E(SAL80∗ η)=0 1.427 1.145
Variables E(DSA79∗ η)=0 1.101 1.365
RESET E(PRED2 η)=0 2.404 2.6
E(PRED3∗ η)=0 2.287 0.525
Heteroskedasticity E(SAL80∗ PRED∗ η)=0 1.364 0.891
E(MOVES∗ PRED∗ H)=0 2.879 7.670
E(RACE∗ PRED∗ η)=0 1.090 1.855
E(LSA79∗ PRED∗ η)=0 1.647 1.349
E(MLE∗ PRED∗ η)=0 1.449 5.869
E(ATBATS∗ PRED∗ η)=0 2.258 1.043
E(ADJS∗ PRED∗ η)=0 2.194 0.083
E(DFN∗ PRED∗ η)=0 1.981 4.626
E(BYR∗ PRED∗ η)=0 2.197 2.595
E(YSRM∗ PRED∗ η)=0 2.541 3.557
Probit
Variable Coeficiente s.e
LWW1 0.240 0.094
KL6 -0.879 0.115
K618 -0.0321 0.0407
WA -0.0345 0.0077
WE 0.132 0.026
UN -0.0107 0.0160
CIT 0.0115 0.1075
PRIN/104 -0.212 0.047
Constant 0.538 0.481
27
1.9. Probit Heterocedástico
La idea aquí es incorporar la estructura de la forma funcional esperada o presunta
de la heterocedasticidad en la estimación del modelo. Parecida a la idea de la corrección
de heterocedasticidad en OLS pero ahora en un contexto no lineal utilizando ML.
n ½
X µ ¶ µ µ ¶¶¾
x0i β x0i β
logL = yi · logΦ + (1 − yi ) · log 1 − Φ
exp(zi0 γ) exp(zi0 γ)
i=1
µ ¶
x0i β
pi = Φ
exp(zi0 γ)
En general, (no demostrado aquí) los coeficientes obtenidos son un poco mayores y los
intervalos de confianza (errores standard) mas amplios. Aunque algunos resultados em-
píricos sugieren que el sesgo no es importante (ver Horowitz, Econometrica 1977).
con logL0 : verosimilitud calculado solo con una constante (es decir, asumir que todos
los betas son cero).
Propiedades:
Acotado entre 0 y 1
28
si Fi es siempre 1 cuando yi es uno y 0 cuando yi es 0, entonces logL es igual a
cero → LRI=1. (Pero cuidado con los predictores perfectos).
29
2. Econometría Semi y No Paramétrica
2.1. Introducción
Texto Guía: A. Pagan y A. Ullah, “Non Parametric Econometrics”.
Más detalles se pueden encontrar en: A.W. van der Vaart, “Asymptotic Statistics”.
Temas a cubrir:
• Métodos de Kernel
• Métodos teóricos de información
De forma similar, la poca claridad de la aseveración del primer párrafo no nos dice
nada acerca de si las observaciones son independientes e idénticamente distribuidas. El
relajo de este supuesto de “idéntica” no será una gran barrera a lo que veremos más
adelante, no obstante, el relajo del supuesto de "independencia"es un tema mucho más
complejo.
Si llegamos a tener una buena estimación de f (z), por ejemplo fb(z), entonces muchas
preguntas convencionales de la econometría pueden ser respondidas. Por ejemplo, una
estimación de E(y1 |x1 , x2 ) puede ser derivada a partir de la integración apropiada de
fb(z).
Para hacer las cosas más fáciles comenzaremos con la estimación de la densidad de
una sola variable: x. Veamos las metodológicas alternativas para realizar esta tarea.
30
2.2.1. Estimación de Densidad I: Kernel
Una estimación “naive” de f (x) sería dar un “peso” 1/n a cada punto xi , i=1,...n. La
función de distribución correspondiente a este procedimiento, se conoce como “función
de distribución empírica”. Una debilidad aparente de esta propuesta es que no asigna
probabilidades o valores de la densidad a valores de x que no ocurrieron o que no están
presentes en la muestra, con la agravante que para la mayoría de los casos que estudi-
amos en econometría se asume que f (x) hace un dominio (support) continuo.
Una alternativa natural es la de suavizar el peso 1/n asignado a cada punto xi sobre
un area ’cercana’ a xi . Una forma de hacer esto podría ser estimar f (x) como una com-
binación de densidades normales, cada una con una desviación standard σ centrada en
cada punto x. Usando φ(x; µ, σ 2 ) para denotar la densidad normal estándar con media
µ y varianza σ 2 evaluada en cada x, entonces el estimador de f (x) tendría la siguiente
forma:
n
X n
X · ¸
1 1 1 (x − xi ) 2
fb(x) = 2
φ(x; xi , σ ) = · (2π)−1/2 −
· e 1/2 · (3)
n n σ σ
i=1 i=1
donde, si σ es muy pequeño entonces tendríamos una estimación de la función con pun-
tas agudas en cada xi . Si σ es mas grande, la estimación resultante es mas suave. Dado
que (3) es una mezcla de funciones de densidad, entonces fb(x) también es una densidad.
µ ¶ µ ¶
x − xi x − xi
K o K
σ h
donde σ ha sido reemplazado por h sin alterar las propiedades fundamentales de fb(x),
h i
(x−xi ) 2
−1/2·
ello mientras K(·) comparta ciertas propiedades con ·e (2π)−1/2como ser: σ
simétrica, no-negativa y que la integral sobre x sea igual a 1. También resulta natural
que K(0) ≥ K(x) ∀ x.1 De esta manera la expresión en (3) puede ser reescrita como:
n
X µ ¶
1 x − xi
fb(x) = · K (4)
n·h h
i=1
1
R
La condición de simetría implica que y · K(y)dy = 0, la que usaremos después
31
Estimador Kernel con un Kernel normal y dos observaciones
para tres ancho de banda: pequeño (izquerda), intermedio
(centro) y largo (derecha)
32
33
Criterios para la elección de h:
Pagan y Ullah (pag. 23-26) y la literatura en general, considera dos criterios para elegir h:
P ¡ ¢
Dado que fb = fb(x) = n·h1
· ni=1 K x−xh
i
, entonces, considerando la expresión (5),
es claro que si escogemos un h pequeño, el sesgo en la estimación de la densidad es
pequeño pero la varianza (ruido) es grande. Por otra parte, un h muy pequeño signifi-
ca que no habrán suficientes puntos en x para promediar o suavizar y en consecuencia,
obtendremos una estimación de la densidad que presente "saltos.o .ondas"(sinusoidales).
Por otra parte, si escogemos un h grande el sesgo será grande pero la varianza (rui-
do) menor, resultando en una estimación de densidad sobre suavizada y en conclusión
con una fuerte distorsión sobre la verdadera estructura de la densidad. En la práctica h
se debe escoger de manera de alcanzar el mejor "trade-off"posible entre sesgo y varianza,
lo que necesita de algún criterio.
34
Z
λ2 = [K 2 (ψ)dψ
µ ¶
x − xi
ψ=
h
Z
µ2 = ψ 2 K(ψ)dψ
para el caso de función kernel. Para obtener h∗ tal que minimize AMISE, diferenciamos
(6) con respecto a h e igualamos a 0.
1
h3 λ1 − λ2 = 0 → h∗ = c · n−1/5
n · h2
donde c=(λ2 /λ1 )1/5 el que depende del kernel y de la curvatura de la densidad (ver-
dadera).
Elección de h en la práctica:
R
Podemos notar que x depende de la varianza del Kernel y de [f (2) (x)]2 dx el que indica
el grado de variabilidad de la densidad. Así, por ejemplo, si la verdadera densidad es
más bien plana entonces λ1 → 0 y c → ∞ (ancho de banda muy grande). En contraste,
si la verdadera función es altamente variable, λ1 → ∞ y c → 0 (h pequeño).
Con el fin de tener una idea sobra la magnitud de c suponga que K es la densidad
normal estándar y f(x) ∼ N(µ, σ 2 ). Algebraicamente se puede determinar que c ∼ 1.06
σ y entonces h=1.06 σ · n−1/5 .
35
restantes puntos para estimar logfb(x1 ) el que denotaremos por fb[−1] (x1 ). de esta forma,
escogemos h de tal modo de:
n
X
máx log fb[−i] (xi )
{h}i=1
i=1
Elección de K(·):
Pagan y Ullah usan K(ψ) mientras que Van der Vaart usa K(y). Pagan y Ullah -
supuesto A.2 (Pág 21) - impone las condiciones estándar para K(·) la que debe ser una
función simétrica (no negativa ?) y que satisfaga los siguientes criterios:
Z
(i) K(ψ)dψ = 1
Z
(ii) K 2 (ψ)dψ = µ2 6= 0
Z
(iii) K 2 (ψ)dψ < ∞
bajo estas condiciones, se demuestra (pág. 27-28) que AMISE puede ser minimizado
para el caso del Kernel con bandwidth uniforme al escoger el siguiente kernel:
½ 3 2
K(ψ) = 4 (1 − ψ ) |ψ| ≤ 1;
0 ∼
Este tipo de Kernel es no negativo para todo el dominio de x y tiene forma de parábola.
Existe una extensa literatura comparando el MISE de este Kernel con el de otros posibles
Kernels. Los resultados indican que la diferencia entre estos es pequeña. Consecuente-
mente, considerando simplicidad, costos computacionales y la velocidad de convergencia
del estimador de la densidad pueden determinar que Kernel escogemos como apropiado
al problema que estemos analizando. No obstante, la elección de h tiene mucho mayor
impacto que la elección de K(·).
36
→ O(n−2r/(2r+1) )), con r el valor del orden del Kernel. Sea K perteneciente a la clase
de Kernels simétricos, tal que:
Z
ψ j K(ψ)dψ = 1 si j = 0
= 0 si j = 1, · · · , r − 1; r≥2
< ∞ si j = r
(momentos de orden (r-1) son cero pero el r-ésimo momento es finito). Estos Kernels se
conocen como “Kernels de orden superior” (orden r). Para emplearlos debemos asumir
que la derivada de orden r es continua).
Se puede demostrar que Kernels de orden superior reducen su AMISE a O(n−2r/(2r+1) )
el cual para r grandes es cercano a la tasa paramétrica de O(n−1 ), ello al extender los
términos en la expansión de Taylor). 3
Ejemplo:
así debemos generar Kernels cuyos r-1 momentos sean cero. Si r=3 y K(ψ)=(a0 + a1 ·
ψ + a2 · ψ 2 ) · φ(ψ)
R donde φ(ψ) Res una densidad NR(0, 1), a0 , a1 , a2 deben determinarse
de modo que K(ψ)dψ = 1 y ψK(ψ)dψ = 0 = ψ 2 K(ψ)dψ.
Del hecho que los momentos impares de una normal (0,1) son cero y los pares son:
µ ¶
2j 2j + 1
Eψ 2j = ·Γ
π 2
tenemos que:
Z
K(ψ)dψ = 0 ⇒ a0 + a2 = 1
Z
ψK(ψ)dψ = 0 ⇒ a1 = 0
Z
ψ 2 K(ψ)dψ = 1 ⇒ a0 + 3a2 = 0
3
La secuencia {xn } de números se dice que es de orden nk , xn =O(nk ), si xn
nk
→ c mientras n → ∞
y c es constante.
37
donde las soluciones son: a0 = 3/2; a1 = 0, a2 = −1/2. Así, el Kernel es:
1
K(ψ) = (3 − ψ 2 )φ(ψ)
2
cuyos primeros momentos son cero. Este Kernel incluye una mezcla de polinomio de
grado dos y una densidad normal el que puede alcanzar valores negativos !! (en vez de
sumar, datos lejanos se restan).
¿Puede la reducción del sesgo lograrse sin tener que utilizar kernels de orden superior?.
La respuesta es Si al escoger diferentes h para xi . En general, si xi esta en una area
densa, hi deberá ser pequeño; mientras las observaciones “outlying” deberán recibir un
hi mayor. Hecho de manera correcta O(n−8/9 ) puede lograrse con Kernels adaptativos,
no negativos (equivalente a kernels con r=4). Pero, en la práctica, kernels adaptativos
son más lentos que h uniforme y la teoría es muy compleja.
Definimos una función de densidad arbitraria f0 (x); también ψ(x) como un vector de
funciones de x con una dimensión m (es decir, pensar en un momento como E(x), E(x2 ),
E(x3 ), si m=3); y t un vector de m parámetros. Consideremos la siguiente densidad:
et·ψ(x) · f0 (x)
f (x; t) = R t·ψ(x) (7)
e · f0 dx
Aquí t transforma f0 (x) en otra densidad. Ahora, suponga que utilizamos la densidad
f (x; t) como un modelo paramétrico de un conjunto de datos, con parámetro t descono-
cido y a ser estimado. El logaritmo de la densidad es:
Z
logf (x; t) = t · ψ(x) + logf0 (x) − log et·ψ(x) · f0 (x)dx
= t · ψ(x) + logf0 (x) − K(t)
38
acumulada. Entonces el log-likelihood es:
n
X n
X n
X
logL(t) = log[f (x; t)] = t · ψ(xi ) + logf0 (xi ) − n · K(t)
i=1 i=1 i=1
n Pn
∂logL(t) X ∂K(t) i=1 ψ(xi ) ∂K(t)
= ψ(xi ) − n o = (8)
∂t ∂t n ∂t
i=1
Así la media de ψ se define para que sea igual a ∂K(t) ∂t . Aquellos familiarizados con
funciones generadoras de momentos reconocerán
P que (8) plantea que el estimador MLE
de t es aquel donde Ef (x;t) ψ(x) = n−1 · ni=1 ψ(xi ), es decir que la media poblacional
de esta distribución "t-tilde"se iguala a la media muestral para cada componente de ψ.
Z
∂K(t) ∂
= log et·ψ(x) f0 (x)dx
∂t ∂t
R
ψ(x)et·ψ(x) f0 (x)dx
= R
et·ψ(x) f0 (x)dx
Z ( )
et·ψ(x) f0 (x)dx
= ψ(x) R t·ψ(x) dx
e f0 (x)dx
Z
= ψ(x) · f (x; t)dx
= Ef (x;t) ψ(x)
En el trabajo original de Barron y Sheu las funciones base ψ(x) eran secuencias de las
funciones polinomiales, trigonométricas o spline y x fue reescalado para que estuviera
en el rango [0, 1]. Así, tomando f0 (x) como la densidad uniforme sobre [0, 1], uno puede
usar polinomios ortogonales de la función uniforme para definir ψ(x). Pero cuantas de
estasψ’s deberían considerarse?. Si se sabe que el logaritmo de la verdadera densidad
39
R
tiene r derivadas cuadráticamente integrables, ( |Dr logf (x)|dx < 0) entonces definien-
1 −2r
do m=n 2r+1 alcanza una tasa de convergencia de fb a f igual a Op (n 2r+1 ) el cual es
similar al alcanzado por los Kernels adaptativos (de orden superior)
Los datos solo entran en la construcción del estimador a través de las medias mues-
trales de las funciones bases ψ(x). En la práctica, de aplicaciones econométricas
construimos las funciones base de tal forma que tengas media cero y las denomi-
namos çondiciones de momentos". Por ejemplo, ψ(xi ) = x3i − (x3 ) (el cual tiene
media cero) en vez de ψ(xi ) = x3i .
40
donde x tiene dimensión q e y es un escalar.
La ecuación anterior usa el mismo h para cada variable; una práctica habitual es o
bien reescalar los datos componente a componente con el fin de obtener una varianza
unitaria, aplicar el estimador Kernel y transformar de vuelta. Otra alternativa es uti-
lizar un Kernel normal multivariado con una matriz de covarianzas no diagonal donde
la elección natural para la matriz de covarianzas sería proporcional a la matriz de co-
varianzas muestral.
Por otra parte, la función Kernel multivariada K1 puede incluir la densidad normal
estándar multivariada o bien el producto de q+1 kernels univariados. Sorprendente-
mente, Epanechmikov demostró que el Kernel normal multivariado ( y no el producto
de Kernels Epanechnikov) minimizan el MISE sobre toda la clase de productos de Ker-
nels.
o bien:
fb(y, x)
fb(y|x) =
fb(x)
y así sucesivamente. De esto último se desprende que podremos calcular, entre otros
E(y|x) aunque no todos los estimadores no paramétricso de E(y|x) se obtienen de esta
forma.
Uno de los primeros trabajos que utiliza la estimación de densidades está relaciona-
do con los retornos mensuales de activos financieros entre 1834 y 1925, con un total de
1104 observaciones para xi . Después de determinar los valores mínimos y máximos, un
grupo de 100 observaciones fueron seleccionadas las que pertenecían ea este rango. La
figura 2.1. presenta la estimación de densidad para estos 100 puntos para una función
Gaussiana :
1 2
K(ψ) = (2π)−1/2 e− 2 ψ
y una Espanechnikov:
K(ψ) = 43 (1 − ψ 2 ) si |ψ| ≤ 1
41
xi −x
donde ψ = h y h=n−1/5 σ
bx , con n=1104.
Se observa que sólo hay pequeñas diferencias entre estimadores sugiriendo que la elec-
ción entre tipos de kernel no es fundamental.
La figura 2.2 contrasta la densidad estimada con una Normal de una variable aleatoria
con la misma varianza muestral. También se entrega la cota inferior del intervalo de
confianza al 95 %, el cual se calcula como :
42
No hay duda de que la densidad es diferente a la Normal y una de sus características
principales es sus colas mas anchas y gran peak en torno al valor cero. Esto significa que
hay demasiados retornos o muy grandes o muy pequeños para que sean consistentes con
una distribución Normal. Adicionalmente, pareciera ser que hay mas retornos positivos
que negativos dando una idea de que la distribución no es exactamente simétrica.
µ Z ¶
d
(nh) 1/2
(fb − E fb) → N 0, f (x) · 2
K (ψ)dψ cuando n → ∞
La utilización de Kernels de mayor orden puede ser ua forma de solucionar este proble-
ma. En la Figura 2.3 muestra que el ajuste no mejora mucho existiendo un estimación
con mas sinusoidales. Otra forma de solucionarlo es mediante Kernels adaptativos (ver
forma de estimación en pág. 74 de Pagan y Ullah). Los resultados que se presentan en
la Figura 2.4 tampoco arrojan resultados satisfactorios.
43
(2) Estimación de Densidad Dickey-Fuller:
44
yt = ρyt−1 + et donde ρ = 1
De esta forma, este experimento es estimar por Montecarlo la densidad n(b ρ − 1) con
n = 1000 series de yt , t = 1, · · · 1000, y y0 y et obtenida de una N (0, 1). Si cada serie yt
(i)
es designada como {yt }1000i=1 , entonces:
"1000 # 1000
X (i) X (i) (i)
ρb(i) = (yt=1 )2 yt−1 · yt , ρ(i) − 1)
xi = 1000(b
t=1 t=1
45
46
Estimación de Densidad Univariada por Balanceo Exponencial:
Suponga que queremos construir una densidad g(x) con ciertas propiedades y cuen-
to con una estimación preliminar o densidad "base"f0 (x) la que puede o no tener las
propiedades deseadas. En particular, las "propiedades"son condiciones sobre los mo-
mentos, las que pueden ser expresadas como:
Z
γ(x)g(x)dx = M (9)
47
donde asumiremos que el dominio de x es conocido (por ahora). Podemos reescribir la
ecuación anterior como sigue:
Z Z
(γ(x) − M ) · g(x)dx = 0 o bien ψ(x)g(x)dx = 0
Considere:
eλ·ψ(x) · f0 (x)
f (x; t) = R
eλ·ψ(x) f0 (x)dx
Definiendo:
Z
Mo (t) = et·ψ(x) · fo (x)dx
Z
= et·ψ(x) · f (x; o)dx
y, en forma similar:
Z
Mλ (t) = et·ψ(x) · f (x; λ)dx
Z
eλψ(x) · f0 (x)
= et·ψ(x) · dx
M0 (λ)
Ahora, podemos definir λ en f(x; λ) de tal modo que f(x; λ) es la ( o una) función g(x)
que buscamos. Estos requiere que:
Z
eλψ(x) · f0 (x)
ψ(x) · dx = 0 (10)
M0 (λ)
48
escogida para f0 (x).
vn : pesos normalizados (pesos normalizados por su suma, es decir que sumen 1).
Posiblemente en la realidad sea como A pues están incluidos blancos y negros con
claras diferencias en sus PCE’s.
h’s grandes o oversmoothing pueden esconder propiedades verdaderas de los datos.
49
Pero h’s pequeños hacen que la serie tenga muchos saltos, quizás exagerando la
verdadera distribución de los datos.
Y = E(Y |X = x) + u = m(x) + u
En primer lugar, debemos notar que si tenemos valores repetidos de x, podemos prome-
diar los valores correspondientes de y para obtener un estimador de m(x). NO obstante
l,o anterior, si no tenemos varias observaciones de x, podemos tomar valores muestrales
{yi , xi } donde xi esta cercano a x y promediar los y’s correspondientes. O bien, mas
sofisticado aún, tomar un promedio ponderado de los y’s dependiendo cuan cerca esta
el correspondiente xi de x. La idea en general, es analizar la estructura o dispersion
que tienen los valores de y, los cuales son obtenidos a partir de los x en relación de
como están distribuidos dichos x. Veamos esto formalmente. Podemos definir entonces,
el valor esperado de y condicional en x como :
Z ∞
f (x, y)
m(x) = y· dy (11)
−∞ f1 (x)
50
que los x’s de cada yi hacen para la estimación de la densidad marginal de X a x.
El estimador de Nadaraya-Watson puede ser visto como una suma ponderada de aque-
llos yi ’s que corresponden a xi en una vecindad de x.
donde wni = wn (xi , x). Si los wni son no negativos y suman 1, podemos pensarlos en
ellos como pesos probabilísticos.
Veamos esta situació en el siguiente gráfico donde se han considerado sólo dos pun-
tos.
yj
m(x)
yi
xi X xj
n
X
m(x)
e = wni (x) · yi
i=1
= yi · wn (xi , x) + yj · wn (xj , x)
¡ ¢ ³ ´
x −x
K xih−x · yi + K jh · yj
= ¡ x −x ¢ ³ ´
x −x
K ih + K jh
51
OLS de β se encontraría al minimizar la siguiente expresión:
n
X
(yi − m(xi , β))2
i=1
mediante el cual se le entrega un ponderador mayor (peso mas alto) a aquellos xi que
están mas cerca de x. Si m(x) es considerado como un solo parámetro a estimar (pensar
en la constante en un modelo de regresión), entonces tenemos que:
n
X
wn∗ i (x) · [yi − m]2 (14)
i=1
wn∗ (x)
wni = Pn i ∗
i=1 wni (x)
Notar, que lo que hacemos es tratar de estimar los β para lo que necesitamos una
estimación (en este caso no paramétrica) de la esperanza condicional. Para el caso
del estimador de Nadaraya-Watson los pesos para la estimación de dicha esperanza
condicional son de tal forma que - al comparar (14) con (12)- escogemos los m de tal
forma de minimizar:
X µ ¶
x − xi
[yi − m]2 · K
h
El siguiente gráfico muestra una de estas LPR en que se han utilizados polinomios
de Hermite para aproximar la función.
52
f3(x)
f2(x)
1
f1(x)=1
Z Z
f2 (x) · f1 (x) · φ(x) = 1 pero f2 (x) · f1 (x) = 0
Entre las ventajas de los modelos de LLR podemos destacar las siguientes:
53
forma más compleja son series trigonométricas sin(kx), cos(kx) para k = 1, ...., M/2.
La idea es estimar θ en el modelo:
n
X
y= zik θn + ui
i=1
PM
De esta manera, m(x) puede ser aproximada por m(x)
b = k=1 zk (x)θk .
con kl0 vector de valores entre -1 y 2 (ver siguiente tabla ) y L y J realcionados con M/2.
La idea central de esta forma flexible, desarrollada por Gallant, es que dichas series
aproximan bastante bien m(x) para el caso multivariado. En particular bajos ciertos
supuestos (B1-B7, en teorema 3.9 Pagan y Ullah), se cumple que:
u−1/2 [E(m(x))
b − m(x)] → 0 mientras n → ∞
54
Conditional Moment Estimation
Tabla3.1. Multi-indices {kl } for q=3. K ∗ =3
k∗ 1 2 3
(1,0,0) (1,1,0) (1,1,1)
(0,1,0) (1,0,1) (1,-1,1)
(0,0,1) (0,1,1) (1,1,-1)
(1,-1,0) (1,-1,-1)
(1,0,-1) (0,1,2)
(0,1,-1) (0,2,1)
(1,2,0)
(1,0,2)
(2,1,0)
(2,0,1)
(0,1,-2)
(0,2,-1)
(1,-2,0)
(1,0,-2)
(2,-1,0)
(2,0,-1)
2. No obstante, cálculos para valores cercanos a cero pueden ser obtenidos pero con
intervalos de confianza (varianza) muy altos y por lo tanto, la imposición será
alta.
55
Bandwidth m2
y3*
y2* m1
y3
y2
y1
x1 x2 xa xb x3
Partamos con el caso de la función m2. Dado el ancho de banda h sólo los puntos
x1 , x2 y x3 contribuyen a la estimación de y2 , En consecuencia, este valor será un
promedio ponderado entre y1 , y2∗ e y3∗ donde y2∗ captura la mejor parte del peso y con
y1 e y3∗ tomando el mismo peso y con los pesos sumando 1.
Dado que la función de regresión es cóncava, este promedio ponderado será menor
que y2∗ y por lo tanto la estimación estará sesgada hacia abajo. Si la verdadera función
fuera convexa, el sesgo será hacia arriba y por lo tanto, sólo en el caso lineal no existiría
sesgo. No obstante, el sesgo sería cada vez menor a medida que el tamaño de la muestra
aumentara ya que el bandwidth será cada vez menos y, en el límite, salo x2 contribuirá
a estimar la media condicional.
Al considerar los valores extremos también cierto sesgo puede aparecer. Suponga que
x1 es el valor menor de las x’s en la muestra. Cuando tratamos de estimar la regresión
por kernel en x1 , el promedio de los puntos vecinos sólo incluirán aquellos que están
a la derecha y por lo tanto existirá un sesgo hacia arriba en la estimación (si la regre-
sión tiene pendiente positiva). Un problema análogo se observará en la otra parte de la
muestra. Este sesgo disminuye a medida que nos movemos de las puntas hacia el centro
pero si el bandwidth es amplio este sesgo puede ser distorsionador.
56
La pregunta que surge es, si a pesar de tener una relación lineal, la cual evita el primer
sesgo ya discutido, cómo se puede eludir el segundo sesgo. La respuesta es ampliar
la muestra (es decir, n → ∞). Pero que sucede si no demos hacer esto en la práctica.
Una forma, es la ya discutida aproximación utilizando series, pero existen otras, veamos.
Una forma es imponer una estructura de los momentos condicionales, el cual, entre
otras cosas nos ayuda a solucionar el problema del çurse of dimensionality"que surge al
utilizar las aproximaciones por series.
Por una parte, existen un tipo de aproximaciones que se denominan Modelos Aditivos
Generalizados los que tiene la siguiente estructura :
q
X
yi = mj (xij ) + ui
j=1
donde mj son funciones de variables unitarias con E[mq (xq )] = 0 condición necesaria
para su identificación. Supongamos que el número de regresores q, es igual a 2.
Una forma de llevar a cabo esta última etapa es mediante el reemplazo de f (x2 ) por
una función determinística f (x2 ) con la condición que integre a la unidad.
57
De esta forma, finalmente, el estimador de m1 (x1 ) será:
Z
mb 1 (x1 ) = m(x
b 1 , x2 )f (x2 )dx2
n
X Z
= yj · wj (x1 , x2 )dF (x2 )
j=1
Xn
= wj (x1 )yj
j=1
R
donde: wj (x1 ) = wj (x1 , x2 )f (x2 )dx2 .
yi = x01i β + g1 (x2i ) + ui
donde β puede ser estimado vía OLS una vez que E(yi |x2i ) y E(x01i |x2i ) han sido
reemplazados por sus estimadores tipo kernel u otro similar. Así, g1 (x2i ) puede ser
recobrado de la siguiente manera:
Notar la aparición de β en estas dos últimas ecuaciones. Ello nos lleva al mundo de la
"estimación semi-paramétrica", donde existen parámetros de interés económico en un
modelo de características no paramétricas.
Modelo : como afecta al salario por hora (en logaritmos) la habilidad cognitiva, me-
dida por un aprueba estándar, y nivel de educación, medida como el máximo nivel de
educación alcanzado por los individuos entrevistados.
yi = m(xi ) + ui
58
donde el estimador de m(x0 ) es denotado por αo∗ , el cual minimiza el siguiente problema
de mínimos cuadrados ponderados:
n ·
X µ ¶¸
2 xi − x0
mı́n (yi − α0 − α1 (xi − x0 )) K
α0 ,α1 h
i=1
Para este caso particular, la variable educación, fue separada en 5 categorías y para la
variable habilidad cognitiva se creo una grilla de 20 puntos separados uniformemente
los que denotaban aquellos individuos desde 0.3 desviaciones estándar bajo la media de
esta variable hasta 1,5 desviaciones estándar sobre la media.
59
Comentarios:
Con respecto a los resultados: salarios suben a medida que la educación sube
dado un nivel de habilidad; excepto en habilidad baja y educación alta, lo que
es un problema de disponibilidad de datos más que de inconsistencia económica.
También para niveles altos de educación existen retornos crecientes a los niveles
de educación más bajos donde tiene forma de U invertida.
Otro ejemplo:
Ahora bien veamos resultados mediante el uso del modelo semi paramétrico “partially
linear model” entre otras cosas, para ver el aumento del “curse of dimensionality” y los
beneficios en términos de ahorro de costos computacionales. Para ellos consideremos
este sencillo modelo:
yi = zi β + m(xi ) + εi
(i) Ordenar los datos por valores ascendentes de x (aquellos que deseamos tratar no
paramétricamente). Calcular primeras diferencias de todos los datos ordenados.
yi∗ = yi − zi0 β0
(iv) Obtener una regresión lineal local no paramétrica usando yi∗ y xi para obtener un
estimador de m.
Veamos una aplicación práctica de este modelo para el cual se ha generado 300 puntos el
que incluye componentes paramétricos como también no paramétricos con la siguiente
estructura:
y = 2z1 + z2 + m(x) + ε
Los siguientes gráficos muestran la verdadera así como los resultados de las variadas
60
estimaciones, concentrándose en la parte no paramétrica.
61
No obstante lo anterior, vimos que si utilizamos especificaciones no paramétricas para
determinar valores esperados condicionales nos enfrentaremos al problema del curse of
dimensionality, el cual se agrava mientras mas regresores incorporamos en las estima-
ciones.
Como vimos, una forma de salir al paso es realizar estimaciones del tipo semiparamétri-
ca pueda así esquivamos este último problema y nos concentramos en la variable de
interés (ó aquella generadora del problema).
62
Una forma de interpretar las condiciones de primer orden del estimador máximo verosímil
es que en ellas se "pesan"las FOC del mínimo cuadrado no lineales (NLS) en forma
apropiada para correguir la heterocedasticidad presente del error (yi − Fi ).
Es importante notar que F (·) es una función del escalar x0i β; de ahí el nombre de
modelo índice unitario (single-index model).
Debido a esta dependencia, la esperanza condicional está basada en este índice x0i β
y no en xi . Si β fuera conocido, y deseáramos estimar la probabilidad de una decisión
positiva (es decir, yi = 0 ó yi∗ > 0) dadas las características del individuo xi , métodos
no- paramétricos podrían ser empleados para estimar dicha esperanza condicional al
usar yi y zi = x0i β como datos. Notar que no se debería usar yi , xi pues no captarán la
naturaleza de índice único del modelo).
donde
sariamente que ser lineal. Lo esencial es que la forma funcional entre los parámetros,
sea conocida y uno de estos parámetros puede ser normalizado a 1.
6
en logit y probit la medida se define como cero
63
Existen dos formas principales para evaluar θ semiparametricamnte, una al resolver
las condiciones de primer orden como (16) o (17), ó bien al maximizar (15) donde F (·)
y sus derivadas son reemplazadas por las estimaciones no paramétricas correspondientes
de la media de yi condicional en v(xi , θ). El primero de ellos se denomina estimador
Ichimura (1993) y el segundo el estimador de Klein y Spady (1993) donde ambos alcan-
zan el limite de eficiencia no paramétrica.7 .
yi − E(y|xi ) = yi − F (v(xi , θ0 ))
= yi − m(v(xi , θ0 ))
donde mb puede ser estimado, por ejemplo, por Nadaraya-Watson y v me lo doy. Aquí,
m
b es el estimador no paramétrico de E(y|v(x, θ)).
La eficiencia de esta técnica depende de la habilidad para estimar m[v(xi , θ)], es decir, de
la velocidad de estimación. Ello impone ciertas restricciones sobre los anchos de banda h
si se utilizan métodos de kernel. No obstante, si son bien seleccionados se podrá obtener
consistencia n1/2 y normalidad. Esto es:
d
n1/2 (θb − θ0 ) → N (0, D−1 V D−1 )
64
escribir la siguiente relación:
P (y = 1|x) = P (y = 1|v)
f (y = 1|v)
=
f (v)
f (v|y = 1) · P (y = 1)
=
f (v|y = 1) · P (y = 1) + f (v|y = 0) · P (y = 0)
Todas las cantidades que aparecen en este último término pueden ser estimadas; las
densidades condicionales por estimadores de densidad no paramétrica y las probabili-
dades incondicionales por las medias muestrales.
65
Extensiones KSE: ver Lee(95) para varias elecciones (polychotomous) aunque KSE
no llega al límite inferior NP.
66
3. Extensiones del Modelo Básico
Una vez que ya hemos analizado con cierto grade de detalle modelos de elección
binaria, en este capítulo revisaremos algunas extensiones del modelo básico binario.
Comenzaremos con el análisis de datos grupales para luego continuar con modelos para
situaciones con mas de dos elecciones.
1. Máxima Verosimilitud:
Si asumimos que existen J clases de grupos de individuos donde las características
de éstos x son las mismas al interior de cada clase, entonces
P (yi = 1) = F (x0i β)
pero cuidado, ahora xi en un conjunto de variables las que sólo difieren entre gru-
pos y no al interior de ellos.
Pnj
donde pj = n1j · j=1 yi es la proporción de respuestas igual a "1"en la clase j y
con n1 , · · · , nj el número de observaciones al interior de cada clase j. Notar que
la suma del MLE es solo sobre j términos y donde F puede ser la Normal o la
Logística.
67
saturado” con J parámetros. Esto significa que para cada clase de x asignamos
un parámetro diferente. Por ejemplo, δj con j = 1, ...J no imponiendo condición
alguna de como las covarianzas entre los δj pueden afectar las probabilidades.
πj = F (x0j β)
68
dada en la última columna de la tabla.
pj = F (x0j β) + ²j = πj + ²j
πj (1−πj )
donde E(²j )=0 y V(²j ) = nj
· ¸
−1 −1 −1 dF −1 (πj )
F (pj ) = F (πj + ²j ) ≈ F (πj ) + ²j
dπj
la última expresión corresponde a una expansión de Taylor en torno al punto
²j = 0.
exp(x0j β)
πj =
1 + exp(x0j β)
entonces, µ ¶
πj
x0j β = log
1 − πj
69
Un ejemplo
y = 0 en otro caso.
En la siguiente table se presentan los resultados alcanzados para las cuatro especifi-
caciones empíricas.
70
Comparación entre los parámetros estimados: datos individuales y por grupos
Variable Individual linear Grouped linear Individual logit Grouped logit
Ed<12 -0.105 (17.04) -0.109 (14.14) -0.672 (21.23) -0.656 (14.42)
Ed>12 0.028 (3.88) 0.032 (3.79) 0.349 (4.51) 0.284 (2.87)
Mental group I 0.084 (9.95) 0.084 (9.65) 1.179 (9.32) 1.040 (6.00)
Mental group II 0.021 (3.96) 0.020 (3.09) 0.201 (4.50) 0.208 (3.6)
Mental group III -0.053 (7.70) -0.052 (6.20) -0.345 (7.71) -3.42 (6.00)
Mental group IV -0.098 (12.46) -0.097 (10.04) -0.581 (12.98) -0.571 (9.75)
Dependents -0.046 (4.82) -0.039 (3.61) -0.349 (5.52) -0.403 (5.21)
Age<18 -0.031 (4.16) -0.024 (2.56) -0.145 (3.24) -0.166 (3.14)
Age>19 -0.027 (4.30) -0.022 (3.51) -0.185 (4.13) -0.169 (3.24)
Race 0.027 (3.61) 0.037 (4.15) 0.136 (3.04) 0.081 (1.28)
Constant 0.881 (25.70) 0.882 (20.79) 1.959 (61.96) 1.950 (40.87)
N 30.000 137 30.000 137
(t values entre paréntesis)
Como se observa, las variaciones entre el modelo estimado en forma grupal y aquel
individual son poco significativas. Notar, eso sí, la menor cantidad de datos necesarios
para la estimación de los datos en forma agrupada.
En general pueden existir a lo menos dos tipos de situaciones cuando hay mas de una
elección, a saber: (i) individuos que tienen que tomar varias decisiones cada una de
ellas entre dos alternativas o bien (ii)una elección donde hay mas de dos alternativas
(ordenadas o no ordenadas).
Para el primer caso se aplica generalmente modelos probit o logit multivariados mien-
tras que para el segundo caso se aplican los denominados multinomial logit cuando
las alternativas no tienen un orden pre establecido (no ordenados) o ordered probit
cuando el orden de las alternativas importa (caso ordenado).
Comenzaremos con la revisión de aquellos casos donde existen mas de dos alternati-
va de elección pero donde hay sólo una elección. Como se mencionó, en este caso existen
a lo menos dos situaciones:
1. donde las probabilidades de elección de cada alternativa dependen solo de las car-
acterísticas de quien decide. Bajo esta situación modelamos dichas probabilidades
con un Multinomial Logit (MNL).
71
3.2.1. Modelos para alternativas múltiples no ordenadas
Multinomial Logit Model Suponga que hay m categorías, donde pj con j = 1, ..., m
las probabilidades asociadas a la elección de estas m categorías. La idea detrás del multi-
nomial logit es expresar estas probabilidades en forma binaria. Esto es, la probabilidad
de escoger una alternativa j o de no hacerlo. Veamos.
Sea:
p1
= F (β10 X)
p1 + pm
p2
= F (β20 X)
p2 + pm
pm−1 0
= F (βm−1 X)
pm−1 + pm
pj F (βj0 X)
= = G(βj0 X) j = 1, 2, · · · , m − 1.
pm 1 − F (βj0 X)
ya que,
m−1
X pj 1 − pm 1
= = −1
pm pm pm
j=1
tenemos que:
−1
m−1
X
pm = 1 + G(βj0 X) (20)
j=1
y entonces:
G(βj0 X)
pj = Pm−1 (21)
1 + j=1 G(βj0 X)
Podemos considerar que las observaciones son obtenidas de una distribución multinomial
con las probabilidades dadas según (19) y (20). Desde el punto de vista computacional la
distribución logística para el error hacen que G(βj0 X) sea igual a exp(βj0 X) y entonces:8
0
eβj X
pj = j = 1, 2, ...m − 1 (22)
D
8
aunque técnicamente se puede asumir cualquier distribución para u en el modelo y ∗ = β 0 X + u
72
Pm−1 0
con D = 1 + k=1 eβj X
Así yij = 1 si el individuo escoje la categoría j y yij = 0 en otro caso. De esta manera,
la función de verosimilitud del MNL es la siguiente:
n
Y
L= pyi1i1 · pyi2i2 · · · pyim
im
i=1
transformando en logaritmos, la función tiene la siguiente estructura:
n X
X m
logL = yij · logpij
i=1 j=1
Dado que :
exp(x0i βj )
pij = P j = 1, 2, ....m − 1.
1 + m−1 0
k=1 exp(xi βk )
y también que :
1
pim = Pn−1
1 + k=1 exp(x0i βk )
podemos obtener las siguientes expresiones más simples:
∂pij
= pij (1 − pij ) · xi j, k = 1, 2, ......m − 1
∂βj
∂pij
= −pij · pik · xi
∂βk
∂pim
= −pij · pim · xi
∂βj
Entonces el score viene dado por:
Xn X
∂logL yik yij
= · pik (1 − pik ) + (−pij · pik ) xi
∂βk pik pij
i=1 j=1
j6=k
n
X
= (yik − pik )xi = 0
i=1
73
Pm
después de simplificar y recordando que j=1 yij = 1, las ecuaciones del vector score
pueden escribirse como :
n
X
(yik − pik )xi = 0 k = 1, 2, ....m − 1 (23)
i=1
Las ecuaciones (22) son no lineales en βk pues pik es una función no lineal de todos
los β 0 s y en consecuencia se aplican métodos numéricos (i.e. Newton-Raphson). POr su
parte, la matriz de segundas derivadas se obtiene a partir de:
X n
∂ 2 logL
0 =− pik (1 − pik ) · xi x0i
∂βk · ∂βk
i=1
X n
∂ 2 logL
0 = pik pil · xi x0i
∂βk · ∂βl
i=1
La cual es negativa definida lo que asegura una única solución. La estimación de ésta
puede realizarse según los métodos ya vistos donde el estimador BHHH es un a alter-
nativa sencilla.
Finalmente, para la iteración de las rutinas para encontrar los valores óptimos a partir
del score se pueden considerar como valores iniciales para obtener los β 0 s aquellos re-
sultantes de los modelos logit simples para cada alternativa j ó bien los coeficientes de
una función discriminante.
Conditional Logit Model Como se advirtió, este modelo desarrollado por McFad-
den (1976) considera ciertas características de las opciones (vista por los individuos)
como los determinantes de la probabilidades asociadas a cada elección, mas que las
características de los individuos en sí.
Revisemos un ejemplo -Boskin (1976) que nos ayude a ilustrar este modelo. Supon-
ga que existen m distintos trabajos cada uno caracterizado por tres variables (i) valor
presente de ganancias potenciales, (ii) costos de entrenamiento sobre ganancias netas y
(iii) valor presente del tiempo en desempleo.
Sea yij : vector de valores de estas características para la ocupación j percibida por
el individuo i.
74
Notar que en el caso del MNL (ecuación 21), los pj tienen diferentes vectores de coefi-
ciente βj . En cambio, en el conditional logit (ecuación 23) el vector β entrega el vector
de precios implícitos para las características. 9 .
exp(αj0 xi )
pij = Pm 0 (25)
k=1 exp(αk xi )
Por supuesto que uno puede combinar ambas cosas y escribir (23) y (24) como:
exp(β 0 yij + αj xi )
pij = Pm 0 0
k=1 exp(β yij + αk xi
9
aunque se necesita un tipo de normalización por ejemplo que el primer elemento de β sea igual a 1
75
Tabla 2.3. Relative weights of occupational characteristic in the conditional logit decision model.
Population group
Variable White males Black males White females Black females
Present value of 1.084 0.072 0.875 0.378
potential earnings (0.075)a (0.013) (0.076) (0.132)
Training cost/net -0.001 -0.010 -0.005 -0.012
worth (0.001) (0.001) (0.002) (0.002)
Present value of -0.051 -4.35 -18.74 -20.78
time unemployment (0.090) (0.57) (1.61) (1.82)
a
Figures in parentheses are asymptotic standard errors
Source: Boskin (1974, Table 3, p.395)
Tabla 2.4. Probability of being in each occupation given average education and experience in 1970.
Occupation
Race-sex combination Menial Blue collar Craft White collar Professional
Black female 0.396 0.188 0.011 0.219 0.187
Black male 0.222 0.368 0.136 0.073 0.202
White female 0.153 0.146 0.018 0.492 0.192
White male 0.089 0.296 0.232 0.169 0.214
Veamos otro ejemplo de un modelo conditional logit.10 Hensher (1986) estima un mod-
elo de elección de viajes urbanos para una muestra de Sydney. Las cuatros elecciones
eran: auto/conductor (C/D), auto/pasajero (C/P), tren y bus. Para el modelo básico,
los atributos eran (1) constante especifica de C/D, (2) una constante especifica de C/P,
(3) una constante especifica de tren, (4) tiempo de viaje, (5) tiempo de espera, (6)
tiempo caminando, (7) costos de viaje, (8) costos de estacionamiento, (9) número de
vehiculos requeridos para la familia y (10) porcentaje de los gastos de transporte cubier-
tos por fuentes que no sean de la familia. La muestra consistió en 1455 observaciones.
Un resumen de los datos se presenta en la siguiente tabla.
Resumen Estadísticas
In-Vehicle In-Vehicle Walk Wait Number
Cost (dol) Time (min) Time (min) Time (min) Choosing
C/D 64.56 28.65 0.76 0.15 953
C/P 4.37 28.32 0.71 2.89 78
Train 98.23 43.84 10.50 8.37 279
Bus 81.61 38.15 7.47 7.11 145
10
ver ejemplo 19.16 Greene
76
Parámetros estimados (t values entre paréntesis)
(1) 0.8973 (4.86) (2) -2.2154 (-10.36)
(3) 1.3286 (9.10) (4) -0.0227 (-4.7)
(5) -0.1336 (-6.68) (6) -0.0672 (-5.44)
(7) -0.0063 (-5.03) (8) -0.0086 (-5.05)
(9) 0.4524 (1.83) (10) -0.0119 (3.71)
Log likelihood para β=0, = -2017.1
Log likelihood at convergence=-598.2
Ahora bien, si la mitad de los autos que existen en el país son nacionales (o azules)
entonces el cociente de probabilidades de ir a trabajar manejando en auto nacional o
ir en bus es ahora 7.4 a1. Ello, ya que la relación de 14 a 1 se mantiene, erróneamente
podría asignarse el otro 7.4 al tren o como pasajeros en un auto.
Dicho de otro modo, si la utilidad relativa de viajar en auto versus viajar en bus es
alta, no necesariamente implica que la utilidad relativa de viajar en tren versus viajar
en bus será alta también. Pero si dicha utilidad es alta entre un auto rojo versus bus
aumenta la probabilidad que viajar en auto azul sea relativamente mas preferible a vi-
ajar en bus.
De esta manera podemos notar que en el MNL se asume que la elección entre dos
alternativas es independiente de las alternativas restantes. Específicamente se asume
que los términos de error en la ecuación de elección subyacente son independientes en-
tre sí.
77
Hausman y McFadden (1984) indican que si un subconjunto de alternativas posibles
es verdaderamente irrelevante, omitirlo del modelo no llevará cambios sistemáticos en
los estimadores de los parámetros. Si son relevantes y dejarlos fuera, entonces serán
inconsistentes los estimadores obtenidos mediante el MNL.
donde :
s: conjunto restringuido.
f : conjunto de todas las alternativas posibles.
k: rango de la matriz [Vbs − Vbf ]
Logit Anidado
Elección
Rama 1 Rama 2
Cabe señalar que este modelo surge, generalmente, como modificación de la especifi-
cación estocástica del modelo logit condicional y no necesariamente como un modelo de
comportamiento.
78
Supongamos que también los datos están formados por observaciones con atributos
de las alternativas yj|l y atributos de los conjuntos alternativos zl con l = 1, ....L
Así:
0 0
eβ yj|l +γ zl
P [subramaj , ramal ] = pjl = PL Pj β 0 yj|l +γ 0 zl
j=1 e
l
l=1
y
0
eγ zl +τl Il
pl = PL
γ 0 zl +τl Il
l=1 e
P l β0y
donde Il = log jj=1 e j|l valor inclusivo de la l-esima rama y donde si τl = 1, entonces
se recupera el modelo original.
La estimación de un modelo logit anidado puede ser realizada por dos métodos al-
ternativamente. En el primero de ellos, se estiman los β considerando la elección dentro
de cada rama como un modelo logit condicional sencillo. Así se calculan los valores
inclusivos de todas las ramas del modelo. Y luego, se estima γ y todos los parámetros
τ considerando la elección entre ramas como un modelo logit condicional con atributos
zl y Il . Este método se conoce como máxima verosimilitud con información incompleta
(LIML).
siendo esta última más eficiente que la estimación en dos etapas con Información Limi-
tada.
79
HINC.
Como se mencionó, el LIML se estima en dos etapas. Hay dos pruebas acerca del
anidamiento. El LR entre las dos formas de estimación -2(65.73-65.41)=0.65 resulta
ser bastante m,enor que el χ2 crítico de 3.84. Y la segunda prueba basada en un test
2
de Wald del FIML con χ2 = (0,7758−1)
(0,24159)2
= 0,861 entregando la misma conclusión.
Multinomial Probit:
Y1∗ = V1 + ²1
Y2∗ = V2 + ²2
Y3∗ = V3 + ²3
Asuma que los residuos (²1 , ²2 , ²3 ) tiene una distribución trivariada normal con me-
dia cero y matriz de covarianzas Σ.
2 2 2
σ11 σ12 σ13
Σ = σ12 2 2
σ22 2
σ23
2
σ13 σ232 2
σ33
80
si η21 = ²2 − ²1 , η31 = ²3 − ²1 , V12 = V1 − V2 y V13 = V1 − V3 .
Entonces η21 y η31 tiene una distribución normal bivariada con matriz de varianza
y covarianza:
· ¸
σ 2 + σ22 − 2σ12 σ12 − σ13 − σ12 + σ23
Ω= 2 1
σ1 − σ13 − σ12 + σ23 σ12 + σ32 − 2σ13
Así la probabilidad de que la alternativa 1 sea escogida viene dada por:
Z V12 Z V13
P1 = f (η21 η31 ) · dη21 dη31
−∞ −∞
donde f (η21 η31 ) tiene una distribución normal bivariada con matriz de covarianza igual
a Ω y media cero.
Resumen
El siguiente cuadro nos permite contextualizar la discusión de los modelos que hemos
analizados hasta ahora y los que aún nos quedan por analizar.
Probit
Logit
Dicotómica
Lineal
variable No y semiparamétrico
discreta
multinomial logit
no ordenada
conditional logit
Policotómica ordenada ordered probit
secuencial
No ordenado:
81
P
que i escoja j con j πij = 1.
MNL:
e(αj +βj xi )
E(yij = 1) = πij = Pm (α +β x )
j=1 e
j j i
MNL(τN ):
1
E(yi1 ) = πi1 = Pm (αj +βj xi )
1+ j=2 e
e(α2 +β2 xi )
E(yi2 ) = πi2 = Pm (α +β x )
1 + j=2 e j j i
..
.
MNL:
" K
#
∂πj X
= πj βj − πk βk
∂xk
k=0
£ ¤
= πj βj − β
82
donde K: # de variables independientes y con πj la probabilidad predicha de obtener
la escojencia de la alternativa j evaluada en la media del vector x. Nota: puede suceder
∂π
que ∂xkj no tenga el mismo signo que βk .
CLM:
∂πj ∂πj
= πj (1 − πj ) · βe y = −πj · πk · βe
∂zj ∂zk
Nested Logit: otra forma de salir al paso ante la situación de rechazo de la hipótesis
de independencia de las alternativas irrelevantes.
yi∗ = x0i β + ²i
µ0 = −∞ ∧ µj = +∞
83
Así, la variable dependiente observada puede ser definida de la siguiente forma :
Para estos casos, se utiliza un modelo denominado Probit Ordenado para estimar esta
ecuación donde se asume que los errores se distribuyen:
²i ∼ N (0, σ 2 )
los que no son observables y luego deben ser estimados; es decir, son parámetros del
modelo.
Dado que los umbrales µ0 s y los valores de y ∗ no son observados, la escala y origen
de y ∗ son arbitrarios. Así, podemos llevar a cabo la siguiente normalización: σ=1 y
µ1 =0.
es decir,
..
.
84
y también :
n J
∂logL X X 1(j = k) · φ(µj − x0i β) − 1(j − 1 = k) · φ(µj−1 − x0i β)
= yij ·
∂µk Φ(µj − x0i β) − Φ(µj−1 − x0i β)
i=1 j=1
Para el caso de las segundas derivadas, ver Maddala 1986:49 donde se demuestra que el
Hessiano es negativo definido, y por lo tanto, el método de iteración usado (i.e. Newton-
Raphson) convergerá al máximo global del log-likelihood.
Cabe señalar que la función de verosimilitud se debe maximizar con respecto a (β,
µ2 , µ3 , . . ., µJ−1 ) es decir hay k + J − 2 parámetros por estimar.
Los efectos marginales del modelo probit ordenado son los siguientes:
∂P [yi = j] £ ¤
= φ(µj−1 − x0i β) − φ(µj − x0i β) · β
∂xi
∂P [yi = 1]
= −φ(x0i β) · β
∂xi
∂P [yi = J]
= φ(µj−1 − x0i β) · β
∂xi
donde los dos últimos casos son aquellos en el extremo de la distribución. Si se asume
que el β obtenido es positivo entonces el signo de estar derivadas será negativo para el
primer umbral y positivo para el último. Para aquellas categorías o alternativas en el
centro, el efecto es ambiguo. Veamos lo que ocurre gráficamente para el caso de tener
tres alternativas ordenadas (i.e. dos umbrales).11
f(e)
11
aunque con la normalización sólo queda un solo umbral por estimar.
85
P [y = 0] = 1 − Φ(x0 β)
P [y = 1] = Φ(µ1 − x0 β) − Φ(−x0 β)
P [y = 2] = 1 − Φ(µ1 − x0 β)
El siguiente gráfico ilustra los efectos marginales asociados al cambio en una de las
variables independientes xi .
f(e)
Del gráfico anterior se observa que al aumentar una de las x manteniendo constante los
β y µ equivale a desplazar la distribución hacia la derecha. Si el β asociado a esta x es
positivo, entonces inequivocamente P (y = 0) tendrá menos masa y P (y = 2) aumen-
tará, no obstante en el medio el efecto no es concluyente ∂P∂x
(y=1) ≥
i < 0.
Puesto que la asignación se hace tanto de factores específicos de los individuos como de
las propias necesidades y criterios de la armada, se utilizo un modelo probit ordenado
con las siguientes variables explicativas: (1) FP=variable binaria que indica si el recluta
ha obtenido previamente algún diploma en un instituto de formación profesional o no;
(2) EM=nivel educativo de la madre del recluta; (3) EX=calificación obtenida en un ex-
amen de ingreso; (4) AE=años de educación del recluta; (5) CAS=variable binaria que
86
indica si el individuo estaba casado o no en el momento que se alistó; (6) EDAD=edad
del recluta en el momento que se alistó. La muestra obtenida fue de 5.641 observaciones.
La siguiente tabla muestra los resultados obtenidos.
Estimación de la ecuación de asignación de empleos
Variable Estimador Estadístico La variable
Constante -4.34 - -
FP 0.057 1.7 0.66
EM 0.007 0.8 12.1
EX 0.039 39.9 71.2
AE 0.190 8.7 12.1
CAS -0.48 -9.0 0.08
EDAD 0.0015 0.1 18.8
µ 1.79 80.8 -
Es lógico el enorme valor del estadistico t asociado a la variable EX, pues la Armada
tiene muy en cuenta el resultado de este examen cuando asigna un puesto de trabajo.
Por otra parte, si se quieren obtener los efectos marginales de las variables continuas,
es necesario evaluar la densidad normal estándar en −β 0 x=-0.8479 y en µ − β 0 x=0.9421.
De esta manera odemos obtener las probabilidades estimadas, las que son Φ(0,8479) =
0,198, Φ(0,9421)−Φ(−0,8479)=0.628 y 1-Φ(0,9421)=0.173. Por su parte, las frecuencias
relativas observadas eran: 0.25, 0.52 y 0.23. Las dos densidades son φ(−0,8479)=0.278
y φ(0,9421)=0.255. Por lo tanto, las derivadas con respecto a las tres probabilidades
con respecto a la variable EX, por ejemplo, son:
∂P0
= (−0,278)0,039 = −0,01084
∂EX
∂P1
= (0,278 − 0,255)0,039 = 0,0009
∂EX
∂P2
= (0,255)0,039 = 0,00995
∂EX
Obsérvese que la suma de los efectos marginales es cero, lo que es consecuencia de que la
suma de las probabilidades sea igual a 1. Este enfoque no resulta apropiado para evaluar
el efecto de una variable binaria. Podemos analizar el efecto de estas comparando las
probabilidades que se obtienen cuando la variable binaria se evalúa es cada uno de sus
dos valores posibles y las demás variables se evalúan en sus medias muestrales.
Por ejemplo, en la siguiente table se entregan los resultados que se obtienen para la
variable CAS.
Efecto marginal de una variable binaria.
−β 0 x b − βb0 x P[y=0] P[y=1] P[y=2]
µ
CAS=0 -0.8863 0.9037 0.187 0.629 0.184
CAS=1 -0.4063 1.3837 0.342 0.574 0.084
cambio 0.155 -0.055 -0.100
87
Test de Diagnostico para Modelos Probit Ordenados:
yi∗ = x0 β + εi εi ∼ N (0, 1)
donde θ0 = −∞ and θj = ∞. Para los datos de 1980 que son usados J=3, y para 1984
J=5. Dado que el vector x contiene una constante, el conjunto completo de θ no esta
identificado. La normalización θ1 = 0 es adoptada. La log-likehood esta dada por:
J X
X £ ¤
logL = log Φ(θj − x0i β) − Φ(θj−1 − x0i β)
j=1 yi =j
donde φji = φ(wij ) y wij = θj − x0i β. Entonces los residuos generalizados o primer
momento de los residuos están dados por:
donde (b) denota que el parámetros desconocido ha sido reemplazado por su estimación
MLE.
Momentos condicionales de orden mayor para la variable latente pueden ser especifi-
cados en término de las funciones definidas por Stewart (1983) como:
τ
w(j−1)i τ φ
φ(j−1)i − wji ji
Mτ i =
Φji − Φ(j−1)i
88
Los primeros cuatro momentos residuales son definidos como:
(1)
êi = M̂0i
(2)
êi = M̂1i
(3) (1)
êi = 2êi + M̂2i
(4) (2)
êi = 3êi + M̂3i
El estadístico del test score reportado en este paper toman la forma de:
ξ = 10 F (F 0 F )−1 F 0 1
Test estadísticos:
Forma seudo-funcional: forma modificada del test RESET (Ramsey), construido co-
mo un caso particular del test previo donde qi contienen potencias de ŷi∗ = x0i β
Heterocedasticidad:
σi2 = 1 + q/α
Normalidad:
89
Las filas de F en el test usual χ2(2) para asimetría y/o Kurtosis están dadas por:
Heterogeneidad en los umbrales: bajo la hipótesis alternativa, los umbrales pueden vari-
ar sistemáticamente sobre las observaciones.
y el test score puede ser construido para la nula de que αj = 0, j=1, 2,.....,J-1. Las filas
de F en este caso estarán dadas por:
(1)
Fi = (êi xi , η̂2i . . . , η̂(J−1)i , η̂2i qi , . . . , η̂(J−1)i qi )
90
4. Tópicos Especiales con Variable Dependiente Binaria
En este corto capítulo revisaremos dos aspectos adicionales de modelos de elección
binaria. Uno de ellos es el conocido análisis discriminante y el otro el modelamiento
mediante datos de panel de variables binarias. Si bien los aspectos de datos de panel
serán abordados en un capítulo separado, se asume sólo un conocimiento básico de este
tema.
y = λ1 · x1 + λ2 · x2 + . . . λk · xk
λ = Σ−1 (µ1 − µ2 )
Si los parámetros poblacionales no son conocidos, como generalmente ocurre, los parámet-
ros pueden ser estimados de la siguiente manera :
λ̂ = S −1 (X 1 − X 2 )
con
" #
1 X X
S= (X1i − X 1 )(X1i − X 1 )0 + (X2i − X 2 )(X2i − X 2 )0
n1 + n2 − 2
i i
91
donde R1 y R2 son regiones de tal manera que si la observación muestral cae en esta
región, se clasifica al individuo en el grupo π1 o bien π2 respectivamente. Adicional-
mente, f1 (x), f2 (x) son las densidades de las distribuciones de características X en cada
una de las dos poblaciones.
Dado que:
Z Z
f2 (x)dx + f1 (x)dx = 1
R2 R1
y así, la condición sobre R1 para que C sea minimizada queda determinada de la sigu-
iente forma :
C2 · p2 1 0
λ0 x > ln + λ (µ1 + µ2 )
C1 · p1 2
ahora si Σ1 6= Σ2 , entonces la expresión anterior tiene la siguiente forma :
f1 (x) 1
ln = − x0 (Σ−1 −1 0 −1 −1
1 − Σ2 )x + x (Σ1 µ1 − Σ2 µ2 ) + constante (30)
f2 (x) 2
la que es una función discriminante cuadrática en X la cual se reemplazo en (27).
El modelo discriminación lineal que hemos revisado descansa en los siguientes supuestos:
92
tanto f1 (x) como f2 (x) son normales multivariadas.
Pero si sustituimos por los valores muestrales, los dos últimos supuestos están resueltos.
Si usamos la ecuación (28) entonces el segundo supuesto también está resuelto. Veamos
que hacemos con el primer supuesto:
P (x|πi ) · pi
P (πi |x) = i = 1, 2
P (x|π1 ) · p1 + P (x|π2 ) · p2
exp(α + β 0 x)
P (π1 |x) =
1 + exp(α + β 0 x)
1
P (π2 |x) =
1 + exp(α + β 0 x)
donde el modelo representado en la ecuación (29) se conoce como modelo logístico, dis-
tinto de modelo logit).
Estimación:
Sea :
yi = 1 si xi ∈ π1
yi = 0 si xi ∈ π2
93
entonces la función de verosimilitud vienen dada por la siguiente expresión :
Y exp(α + β 0 x) Y 1
L= 0
· (33)
1 + exp(α + β x) 1 + exp(α + β 0 x)
yi =1 yi =0
Diversos autores señalan que si X no proviene de una normal entonces los estimadores
ML de (33) son preferibles a aquellos de una función discriminante λ; más aún si X son
dummies ya que λ̂ no es consistente. Cuando son más de dos grupos los que se analizan,
el modelo es análogo a un logit. Ver Maddala (p. 379) sobre si las muestras de yi = 1 y
yi = 0 son muy diferentes en tamaño, lo que significa un ajuste en la constante.
Sea yit = 1 si la persona i trabaja en el tiempo t e yit =0 en otra situación. Por otra
parte, se define xit como el vector de características observadas de quien decide partic-
ipar en el mercado laboral o no.
lo que representa un modelo de elección discreta igual a los ya estudiado, con la única
diferencia que tenemos N · T observaciones.
o sea, una vez que obtenemos xit el que la señora halla trabajado o no en el periodo
anterior no nos dará ninguna información acerca de la situación de hoy; poco sostenible
94
empíricamente!!.
4.2.1. Heterogeneidad
Para atacar el problema de la heterogeneidad no observable, supongamos el siguiente
modelo :
i = 1, . . . , n
P (yit = 1|ui ) = F (x0it β + ui ) (34)
t = 1, . . . , T
asumiendo que los {yit } son serialmente independientes (sobre t) condicionales a ui ,
entonces se tiene que (descartando el subindice i):
£ ¤
E F (x0t β + u) · F (x0t−1 β + u) £ ¤
P (yt = 1|yt−1 ) − P (yt = 1) = £ 0
¤ − E F (x0t β + u)
E F (xt−1 β + u)
£ ¤
COV F (x0t β + u), F (x0t−1 β + u)
= £ ¤
E F (x0t−1 β + u)
De esta manera, la probabilidad conjunta de {yit } con t = 1, 2, ...T viene dada por la
siguiente expresión :
(T )
Y £ ¤1−yit
P (yi1 , yi2 , ...yiT ) = Eui F (x0it β + ui )yit 1 − F (x0it β + ui ) (35)
t=1
donde la función de verosimilitud del modelo es el producto de esta ecuación sobre to-
dos los individuos i = 1, 2, ...n. Para ello se asume que {ui } son i.i.d sobre los individuos.
95
con ui distribuido beta, de la siguiente forma :
Γ(ai + bi ) ai > 0
fi (ui ) = · uai −1 (1 − ui )bi −1 0 ≤ ui ≤ 1
Γ(ai ) · Γ(bi ) i bi > 0
R∞
donde Γ(z) = 0 xz−1 · e−x dx.
donde
E(u2 )
> E(u)
E(u)
ya que E(u) está definido como P (yt = 1) donde se sabe que V (u) > 0. Heckman y
Willis sugieren que ai = exp(x0i α) y bi = exp(x0i β), donde xi es un vector de caracterís-
ticas de los decisores el que no depende del tiempo para i.
Pudiendo estimarse entonces α, β en forma más eficiente. Cabe señalar, eso sí, que aún
persiste el problema acerca del supuesto de que los xi son independientes del tiempo.
96
4.2.2. Modelos con Heterogeneidad y dependencia de estado
En esta sección generalizaremos aún mas el modelo anterior incoporando no sólo la
heterogeneidad sino que también la dependencia del estado.
Por de pronto se asumirá que que {vit } está serialmente correlacionado pero donde
{yit } se mantiene independiente entre individuos i. La función de verosimilitud por lo
tanto es el producto de las funciones individuales.
Formalmente, ½
1 si γyi,t−1 + x0it β + ui + ²it > 0
yit =
0 si ∼
donde ui ∼ iid(0, σu2 ) y ²it ∼ iid(0, σ²2 ) sobre i y sobre t. Además ui y ²it son indepen-
dientes y para cualquier (t, s), se tiene que xit es independiente de ²is .
Algunos comentarios:
por otra parte, x0it β puede capturar parte de la heterogeneidad. Sin embargo,
aquella heterogeneidad no observada será capturada por ui .
97
si existe heterogeneidad no-observada, esto es var(ui ) 6= 0 pero no se controla
por ella en la estimación, el estimador de γ estará sesgado hacia arriba. Esto es,
concluiremos que toda la persistencia, una vez que controlamos por xit , se debe
a una "verdadera dependencia entre estadosçuando ello no es cierto. De hecho,
puede que no exista tal dependencia.
Una importante diferencia con el modelo estático es que tenemos una variable
explicativa yi,t−1 la que no es exógena fuerte con respecto a uit . Es una variable
predeterminada: independiente de valores actuales y futuros de u pero dependiente
de valores previos de u.
Si tenemos un panel largo, esto es con muchas observaciones por individuo, el prob-
lema de identificación entre heterogeneidad y dependencia sería trivial. El problema
radica en que generalmente este no es el caso.
Por ejemplo, cuál de las siguientes historias de elección puede ser generada por un
modelo verdadero de dependencia entre estados?
A = {0, 0, 0, 1, 1, 1} B = {0, 0, 0, 1, 0, 0}
Historia A: con una verdadera dependencia entre estados esperaríamos encontrar per-
sistencia en los dos estados. Con heterogeneidad esperaríamos encontrar persistencia en
solo un estado.
98
5. Variable Dependiente Limitada
5.1. Introducción
Dentro del trabajo empírico propiamente tal, existen muchos casos donde debido a
la forma en como recolectamos datos, disponemos de información incompleta acerca de
la conducta de ciertos elementos o unidades de la muestra. Si esta información faltante
fuera sistemática entonces aquellos modelos econométricos que ignoren este hecho po-
drían estar sesgados. Veamos algunos casos donde este fenómeno ocurre.
En los acápites que siguen revisaremos la forma de estimar modelos que incorporen
explícitamente estas situaciones. No obstante lo anterior, previo a esto revisaremos al-
guna propiedades de la distribución normal que son fundamentales para entender los
problemas antes señalados.
1 −(x−µ)2
f (x) = √ · e 2σ2
2πσ 2
x−µ
ó en el caso de que z ∼ N (0, 1) con z = σ , se tiene que :
1 z2
φ(z) = √ · e 2
2π
99
Lo anterior permite determinar ciertas propiedades de esta variable aleatoria.
φ(−z) = φ(z)
dφ(z)
dz = −z · φ(z)
h i
f (x) = σ1 · φ (x−µ)
σ = 1
σ · φ(z)
Ra
Φ(a) = P (z < a) = −∞ φ(z)dz
Φ(−a) = 1 − Φ(a) = P (z ≥ a)
5.3. Truncamiento
Como se mencionó, este fenómeno se observa cuando la muestra está restringida a
una parte de la población de tal forma que sólo observamos las variables X e Y dentro
de una rango restringido. Por ejemplo, si estamos interesados en examinar el efecto de
la escolaridad sobre los ingresos (salarios) pero solo disponemos una muestra de ingre-
sos altos. O bien, si examinamos los determinantes de los ingresos a nivel de hogares
usando una encuesta sobre empleo e ingresos en vez de una encuesta de hogares, ya
que la primera incluye, por definición, solo aquellos que están trabajado o aquellos que
pagan impuestos.
Para analizar y con ello generar una forma de estimar un modelo cuya variable de-
pendiente tenga esta característica debemos revisar las propiedades de una distribución
truncada.
f (x)
f (x|x > a) =
p(x > a)
esta definición asegura que la densidad truncada sume uno sobre el rango restringido.
100
f(x)
De esta forma, el valor esperado de una distribución truncada tiene la siguiente for-
ma :
E(x|truncamiento) = µ + σ · λ(α)
donde,
φ(α)
λ(α) =
[1 − Φ(α)]
si el truncamiento es del tipo x > a, o bien,
−φ(α)
λ(α) =
Φ(α)
101
si el truncamiento es del tipo x < a
En ambos casos, λ(α) se conoce como el inverse mills ratio (ó hazard rate), la que
está asociada a la probabilidad condicional de observar α condicional en que α está
en la muestra. En otras palabras, mide el grado de ajuste requerido para la media sin
truncar µ.
Por otro lado, la varianza de la distribución truncada viene determinada por la siguiente
expresión :
V (x|truncamiento) = σ 2 (1 − δ(α))
donde
λ(α)
δ(α) = con 0 < δ < 1 ∀α
[λ(α) − α]
lo que implica que la varianza de la distribución truncada siempre es menor que aquella
de la distribución sin truncar.
0
P(x>a)
yi = βxi + ²i ²i ∼ N (0, σ 2 )
102
donde si yi es truncada de algún modo, sabemos que:
(a − βxi )
E(yi |yi > a) = βxi + σ · λi (αi ) con αi =
σ
No olvidar que a es el punto de truncamiento y αi es el valor estandarizado (pero no es
la constante del modelo la cual esta incorporada en x).
expresión que sugiere que la media de la distribución truncada es una función no lineal
de x, β y σ y el punto de truncamiento a.
ya que δ(αi )) < 1, ∀α, el efecto marginal de un cambio en xj sobre E(yi ) cuando yi
tiene una distribución truncada es siempre menor que el correspondiente a βj .
103
verdadera
+
+ + + OLS
+ +
+ + +
+ +
+ +
a
(+) (+)
(+) (+) (+): no observado
(+)
(+) (+) + : observado
Del gráfico podemos notar que ajustando un OLS a los datos truncados (muestra trun-
cada) sesgará los coeficientes hacia cero. 12
5.3.3. Estimación:
Como se mencionó, si estimamos el siguiente modelo :
yi = βxi + ²i ²i ∼ N (0, σ 2 )
por OLS pero usando una muestra truncada, entonces tendríamos un problema de sesgo
por omisión de variable (el inverse Mills Ratio) relacionado con el truncamiento. Así los
β’s estarán sesgados y serán inconsistentes.
Mas aún, dado que el término de error en el modelo OLS está también truncado (es
decir, es una función de α) entonces el modelo anterior tendrá un término de error
heterocedastico con la siguiente estructura :
V (²i ) = σ 2 (1 − λ2i + λi αi )
el cual es una función de xi (ya que λi es función de xi ).
104
Maximizando con respecto a β y σ 2 se obtiene lo siguiente :
∂logL X · yi − βxi λi ¸
= − · xi = 0
∂β σ2 σ
i
∂logL X· 1 (yi − βxi )2 αi λi
¸
= − 2+ − =0
∂σ 2 2σ 2σ 4 2σ 2
i
(a−βxi ) φ(αi )
donde αi = σ y λi = 1−Φ(αi ) .
Notar que el sesgo introducido mediante la restricción del rango observado para y será
serio si la probabilidad de que y caiga por debajo del umbral no sea despreciable.
f(y)
a u y
Sabemos que al sacar las observaciones censuradas nos quedamos con un modelo trunca-
do (muestra truncada). Por lo tanto, debemos entonces ver un método para incorporar
la presencia de censura. El problema de sacar los datos es que se pierde información
importante. Con este fin primero estudiaremos la distribución de probabilidades cuando
la variable analizada presenta censura.
y ∗ ∼ N (µ, σ 2 )
105
½
a si y ∗ ≤ a;
y=
y∗ ∼
en este caso y ∗ es sólo observable para los valores sobre el umbral a. La distribución de
una variable censurada puede pensarse como la combinación de dos partes. La primera
es un componente discreto la cual otorga todo el peso del componente censurado de la
distribución en un sólo punto. En cambio, la segunda comprende el componente contin-
uo para el rango de valores de y para el que existe una distribución (truncada).
Así, el valor esperado de esta variable aleatoria esta compuestos por dos partes :
yi =0 si yi∗ ≤ 0
yi =1 si yi∗ > 0
donde:
φ[(0 − βxi )/σ]
λi =
1 − Φ[(0 − βxi )/σ]
φ(βxi /σ)
=
Φ(βxi /σ)
106
por otro lado, se tiene que:
Combinando los puntos anteriores se tiene que el valor esperado de yi viene dado por
la siguiente expresión :
µ ¶
βxi
E(yi ) = Φ · [(βxi + σ · λi )]
σ
donde:
φ(βxi /σ)
λi =
Φ(βxi /σ)
∂E(yi |xi )
= βj · Φ(βxi /σ)
∂xj
| {z }
parte censurada
∂E(yi∗ /xi )
= βj
∂xj
| {z }
toda la población
107
verdadera
+ OLS muetra
censurada
+
+ OLS
+ +
+ + muestra
+ + truncada
+ +
(+) (+)
(+) (+)(+)
(+)
La cual es una mezcla de observaciones con distribución continua (no censurada) y ob-
servaciones con distribución discreta censurada. Esta es una expresión compleja pero
manejable. Generalmente, los estimadores OLS se reportan también con fines compar-
ativos.
Del gráfico anterior se puede observar que los parámetros OLS son menores en valor
absoluto, a aquellos obtenidos por MLE. Resultados empíricos sugieren que los esti-
madores MLE pueden aproximarse al dividir los estimadores OLS por la proporción de
observaciones no limitadas en la muestra.
No obstante, existe una forma más adecuada de corregir los estimadores OLS cuando
los datos son censurados: método de Heckman en dos etapas, el cual discutiremos con
más detalle en "sesgo de selección".
Dado esto, se desarrolló una batería de test basados en los residuos generalizados de las
estimaciones máximo verosímiles las que ahora se explican para el caso de un modelo
Tobit.
108
Sabemos que E(yi∗ ) = x0i β y además que las esperanzas condicionales son:
(i)
con:
³ ´
x0i β
φ σ
λ(αi ) = ³ ´
x0i β
1−Φ σ
µi = Di · yi + (1 − Di ) · (x0i β − σ · λi )
donde ½
1 si yi∗ > 0;
Di =
0 ∼
De esta manera, los residuos generalizados del modelo Tobit vienen dados por la sigu-
iente expresión : ½
0 yi − x0i β si yi 6= 0;
ηi = µi − xi β =
−σ · λi si yi = 0
La función de verosimilitud asociada a estos residuos, tiene la siguiente forma :
n
X ½ µ ¶ ¾ · µ 0 ¶¸
yi − x0i β xi β
logL = Di logφ − log(σ) + (1 − Di ) · log 1 − Φ
σ σ
i=1
109
A partir de esta expresión se pueden obtener los primeros momentos de los residuos los
cuales tienen la siguiente forma :
(1) η̂i
êi =
σ̂
à ! à !
y − x0 β̂ 2 x 0 β̂
(2) i i i
êi = Di − 1 + (1 − Di ) · λ̂i ·
σ̂ σ̂
à !3 à !2
0
yi − xi β̂ 0
xi β̂
(3)
êi = Di · − (1 − Di ) · λ̂i · 2 +
σ̂ σ̂
à ! à ! à !3
y − x0 β̂ 4 0
xi β̂ 0
xi β̂
(4) i
êi = Di i
− 3 + (1 − Di ) · λ̂i · 3 +
σ̂ σ̂ σ̂
1. Variable Omitida:
Se asume que el modelo correctamentee specificado tiene la siguinete forma :
110
donde c es un vector de unos con dimensión n y por su parte R una matriz cuya
(1) (1) (2)
fila i es: (êi x0i , êi zi0 , êi ), el cual se obtiene al regresionar c sobre R. Si se trata
(1)
de una sola variable omitida, el estadístico de student asociado a êi zi0 al cuadrado
es el χ21 necesario para la prueba. Recordar que:
(1) η̂i
êi =
σ̂
( (1)
(2) [êi ]2 − 1 si y > 0;
êi = x0i β̂
λ̂i σ̂ si y = 0
2. Heterocedasticidad: aquí se aplica la misma idea que el caso anterior pero ahora
(1) (2) (2)
la fila i del vector R es la siguiente : (êi x0i , êi , êi zi ) si se asume que el modelo
es:
yi∗ = x0i β + ²i
∂h(zi0 γ) ¯¯
con σ 2 = h(zi0 γ) donde ∂γ γ=0
= zi . Por ejemplo, exp(zi γ).
3. Normalidad: para este caso se debe considerar el tercer y cuarto momento de la
distribución de los errores generalizados. Veamos esto en detalle.
Tercer momento:
·³ ´ ¸
²i 3
E |yi = 0
σ
(
(1)
(3) [êi ]3 si y > 0;
êi =
λ(2 + z 2 ) si y = 0
o bien
à !3 à !2
(3) yi − x0i β̂ x0i β̂
êi = Di − (1 − Di )λ̂i 2 +
σ̂ σ̂
como ya lo habíamos visto. Por su part el cuarto momento tien la siguiente es-
tructura:
·³ ´ ¸
²i 4
E |yi = 0
σ
(
(1)
(4) [êi ]4 − 3 si y > 0;
êi =
λi (3z + z 3 ) si y = 0
o bien
à !4 à ! à !3
0
yi − xi β̂ 0
xi β̂ 0
xi β̂
(4)
êi = Di − 3 + (1 − Di )λ̂i 3 +
σ̂ σ̂ σ̂
111
Para testear la normalidad de los residuos, se deben utilizar el tercer y cuarto
momento conjuntamente. La prueba estadística es análoga a las dos ya vistas y
tiene la siguiente forma:
112
El efecto de la heterocedasticidad sobre los estimadores es muy importante. Puede
contrastarse la hipótesis α = 0 utilizando un estadístico de cocientes de verosimil-
itudes. Con estos resultados el estadístico es -2[-547.3-(-466.27)]=162.06. La dis-
tribución asintótica del estadístico es χ2(5) . El valor muestral es muy superior al
valor crítico que aparece en las tablas, por lo que se rechaza la hipótesis nula.
La idea detrás de este estimador puede resumirse de la siguiente manera. Suponga que
pudiéramos observar la variable latente y ∗ en todo su espectro y que el término de error,
en consecuencia, estará simétricamente distribuido en torno a cero. Así la estimación
por OLS nos daría estimadores consistentes. De esta forma, la censura introduce lo que
hace es introducir una asimetría a la distribución.
Densidad de xi'beta + e
xi'beta 2xi'beta e
Para una observación dada xi , solo podemos obtener el area a la derecha de 0. Así todas
las observaciones donde ei <−xi β están omitidas. En un modelo del tipo:
y ∗ = xβ + e
½ ∗
yi si yi∗ > 0;
yi =
0 si yi∗ ≤ 0
ó bien ½
yi∗ si ei > −xi β;
yi =
0 si ei ≤ −xi β
113
Suponga ahora que truncamos las observaciones tales que ei >xiβ. Esto significa tomar
los puntos a la derecha de 2xi β en la figura anterior, y en consecuencia tendríamos
nuevamente una distribución del error que sería simétrica.
Powell (Econometrica 1986) sugiere que si conociéramos el verdadero valor del parámetro
β (por ejemplo, β0 ) podríamos reemplazar yi por la mínima cantidad entre {yi , 2xi β0 } y
generar de esta forma un estimador consistente para β0 . Otra forma de hacer lo mismo
es:
y reemplazar e∗i por el min{yi , 2xi β0 } si xi β0 >0 o bien borrar la observación si esto no
se cumple.
En consecuencia, el verdadero valor del coeficiente β0 debería satisfacer la siguiente
ecuación normal:
Xn
1(xi β0 ) · (min{yi , 2xi β0 } − xi β0 )x0i = 0 (38)
i=1
Cabe hacer notar que β0 no es observado pero Powell hace uso de la noción de .auto
consistencia"para demostrar que un estimador de β0 , consistente al ser solución de (38)
nos entrega un estimador consistente del verdadero β.
114
Así la matriz de varianza covarianza puede sere estimada como :
b −1 D
C bCb −1
byD
donde C b son estimadores consistentes de (39)y (40) respectivamente.
115
116
117
5.4.8. Censured Least Absolute Deviations (CLAD)
Esto es una forma alternativa de estimar Tobit simple cuando existen problemas con
los supuestos. Este estimador es un poco menos restringido con respecto a los errores
comparado con el STLS.
y ∗ = xβ + ²
así:
su estimador consistente puede ser obtenido por OLS, el cual es la solución al siguiente
programa :
" n #
X
mı́n (yi∗ − xi β̂)2
β̂ i=1
Suponga que en vez de minimizar los errores al cuadrado, se minimiza la suma del
valor absoluto de los errores.
" n #
X
mı́n |yi∗ − xi β̂|
β̂ i=1
este estimador se conoce como desviaciones absolutas mínimas (LAD). Otra forma de
escribir este modelo es:
n
X
mı́n (yi∗ − xi β̂) · signo(yi∗ − xi β̂)
β̂ i=1
118
No olvidar que OLS corresponde a la regresión sobre la media la cual será inconsistente
en un modelo de regresión censurada pues :
1. Regresione por LAD (o qreg en q = 50) sobre la muestra entera para generar un
valor inicial de β.
2. Use este estimador para sacar las observaciones para las cuales su predicción es
negativa.
3. Regresione por LAD sobre esta nueva muestra y encuentre un nuevo estimador de
β.
Notar que pueden existir problemas con el mínimo global. Así, deberá probar distintos
valores iniciales. La matriz de covarianzas se estima por bootstrap del proceso completo.
119
La ecuación para y1i es una ecuación de regresión común. Sin embargo, bajo ciertas
condiciones no observamos la variable dependiente de esta ecuación. Denotaremos si
observamos o no esta variable mediante una variable dummy D2i . La observación de la
variable dependiente y1i es función del valor de otra regresión : la ecuación de selección
que relaciona la variable latente y2i con algunas características observadas zi ). Puede
que las variables en xi y zi puedan traslaparse incluso ser las mismas aunque esto puede
generar problemas de identificación.
Algunos ejemplos:
1. Oferta de trabajo de madres casadas: primera ecuación son las horas y la segunda
es sobre al diferencia de salario de mercado y el salario de reserva no observado.
Suponga que estimamos la ecuación (b) por OLS usando solo los datos observados.
Existe algún sesgo en los βs ?.
Sin asumir una distribución en particular para los errores v, el valor esperado de y1
condicional en x y la probabilidad de observar y1 viene dado por :
120
1. El intercepto estimado será sesgado pues la media del término de error no es cero.
De hecho es igual a Ei [λ(zi δ; θ)].
Notar que aunque x y z sean independientes, el hecho de que los datos faltantes no lo
sean aleatoriamente introduce heterocedasticidad al término de error y así OLS no es
eficiente.
Así, la distribución de y dado x es normal con una media mayor que su media sin
condicionar µy si las variables x e y están positivamente correlacionados y mientras x
sea mayor que su media sin condicionar. Análogamente, la media condicional de y es
menor que su media incondicional cuando x e y están negativamente correlacionados y
x es mayor que su media. 15 En general, y condicional en x tiene una varianza menor
que la distribución incondicional de y independientemente de la correlación entre x e y.
13
ya discutiremos mas adelante aquellas provenientes del mundo semi paramétrico
14
la normal truncada univariada fue discutida previamente
15
lo contrario se cumple cuando x es menor a su media
121
Usando este resultado podemos mostrar que la esperanza condicional de y, condicional
que x es mayor que una valor dado, tiene la siguiente forma:
µ ¶
a − µx
E[y|x > a] = µy + ρ · σy · λ
σx
donde
φ(µ)
λ(µ) =
1 − Φ(µ)
φ(−µ)
=
Φ(−µ)
122
Cabe señalar que en el caso del Tobit simple, donde y1 es igual a y2 , ρ = 1 y por
lo tanto se tiene que el valor esperado condicional es :
φ(xβ)
E[y1 |y1 > 0] = xβ + σ1 ·
Φ(xβ)
φ(zi δ)
E[y1i |y2i > 0] = xi β + ρ · σ1 ·
Φ(zi δ)
φ(zi δ)
y estimar β en (b) por OLS incluyendo una medida de Φ(zi δ) en dicha ecuación.
Con este fin Heckman (1979) sugiere realizar los siguientes pasos:
3. Incluir λ̂i en la regresión de y1i sobre xi para aproximar λ(zi δ). El coeficiente de
λ̂i será una medida de ρσ1 y de esta forma una estimación de ρ y σ1 puede ser
obtenida a partir de allí.
No obstante lo anterior, existen a lo menos tres aspectos que se deben considerar con
respecto a este estimador en dos etapas:
123
5.5.2. Estimación por ML:
Cabe señalar que uno de los principales problemas que existían por ese entonces era la
capacidad computacional para estimar modelos no lineales sofisticados. De esta man-
era, el tener acceso a un paquete computacional que pueda maximizar la función de
verosimilitud con respecto a un vector de parámetros dado un conjunto de datos per-
mite savar esta valla técnica. De esta forma, quizá el desafío más grande sea definir la
función de verosimilitud acorde al problema econométrico que se nos presenta.
Para el caso particular del Tobit generalizado (Tobit tipo II según la nomenclatura
de Amemiya 1985), primero se debe especificar el modelo completo como lo hemos he-
cho en (a) y (b). A su vez, es necesario incluir una especificación general y completa de
la distribución de las variables aleatorias en el modelo, como lo hicimos en (42).
124
De esta manera, juntando ambos términos, se tiene que la loglikelihood de la muestra
completa de observaciones será la siguiente:
N0
X
logL(β, δ, ρ, σ1 ; datos) = log [1 − Φ(zi δ)]
i=1
N
" µ ¶ Ã ρ
!#
X y1i − xi β zi δ + σ1 (y1i − xi β)
+ −logσ1 + logφ + logΦ p
σ1 1 − ρ2
i=N0 +1
16
Ver Amemiya 81 para la demostración.
125
126
127
128
129
5.5.3. Pruebas de normalidad en el Tobit generalizado
Como habíamos visto, el modelo de Tobit generalizado (tipo II) pueder ser escrito de
la siguiente forma :
∗
y1i = x01i β1 + ε1i
½ ∗
½
y1i si y2i > o 1 si Y2i > 0;
yi = Di =
0 otro caso 0 otro caso
con
∗
y2i = x02i β2 + ε2i
Partiremos con una expresión generalizada de distribución conjunta para los errores
de ambas ecuaciones desarrolada por Gallant y Nychka (Econométrica 1987).
XK X
J
f (ε1 , ε2 ) = γkj · εk1 · εj2 · b(ε1 , ε2 )
k=0 j=0
E(ε1i |Di = 1) = E(ε2i |Di = 1) + γ01 E(ε2i |Di = 1) + .......γ0j E(εj2i |Di = 1)
donde
0 β
X2i φ(Zi )
2
Zi = y λi =
σ2 φ(Zi )
130
respectivamente.
Pagan y Vella (1989) basada en esta descomposición, sugieren agregar Ẑij · λ̂i con
(j = 1, 2, 3) a la ecuación en el segundo paso del estimador de Heckman y probar por su
significancia conjunta. En otras palabras, sugieren agregar el IM R, IM R2 y IM R3 a la
ecuación de intensidad y testear su significancia conjunta. Si se rechaza entonces no ex-
iste sospecha de no normalidad y por lo tanto los estimadores del Tobit son consistentes.
Pues bien, si los errores son normales en el Probit o la expansión de IMR’s en la ecuación
de intensidad sugerida por Pagan y Vella no son significativos, entonces el modelo Tobit
generalizado debería estimarse por ML.
Recordemos que la estimación de Heckman es ineficiente comparada con ML y según
Davidson y Mackinnon, representa una buena prueba para estudiar la presencia de sesgo
de selección pero no para estimar parámetros.
Existen dos formas generales para solucionar este problema. Una es seguir en el mundo
paramétrico, asumiendo que se conoce la distribución de los errores en ambas ecua-
ciones. Y la otra es moverse al mundo no paramétrico, estrictamente hablando, al semi-
paramétrico.Veamos cada uno de ellos.
Mundo paramétrico:
Supongamos que ε2 , los errores de la ecuación de selección no son normales. Bajo lo que
se denomina "Modelo de Selección Generalizado"podemos redefinir el término del error
como sigue:
∗
y1i = x01i β1 + σ1 ε01i
∗
y2i = x02i β2 + ε02i
131
Suponga que ε02i tiene una distribución F conocida. Entonces, podemos obtener una
nueva variable normal al aplicar la siguiente función sobre los errores originales :
ε∗2i = J(ε02i ) = Φ−1 · F (ε02i )
y, en consecuencia :
ε∗2i ∼ N (·)
También se puede relajar el supuesto de normalidad de ε∗1i . La única condición es que
F sea conocida y continua.
Notar que las probabilidades ajustadas de la primera etapa son F (x02i βˆ2 ) y en con-
secuencia, el término entre corchetes en (43) será:
φ[Φ−1 (pˆi )]
con pˆi = F (x02i βˆ2 )
pˆi
Entre otras propiedades de esta forma de estimación esta que puede ser aplicado para
un caso mas general, donde existan mas de dos alternativas. Por ejemplo, a través de
un multinomial logit y se calcula las probabilidades predichas para cada alternativa y
luego se corrige la ecuación de intensidad utilizando la corrección propuesta para cada
alternativa. No obstante, solo se puede aplicar si F es conocida y continua.
Mundo No Paramétrico
La mayoría de los modelos no paramétricos continuan la idea propuesta por Heckman
de estimación en dos etapas. De esta forma, la segunda etapa viene definida por:
y1i = x01i β1 + E(ε1i |Di = 1) + ν1i
donde se relaja el supuesto paramétrico sobre el término de corrección, es decir, la nor-
malidad de ε2i .
132
Pensar en λ como un ruido.
Aproximar λ.
En general, existen mas formas de tratarlo, pero éstas son las mas frecuentes en la lit-
eratura.
133
2. La otra forma es tratar de aproximar λ
Lee (Journal of Econometrics,1994) plantea la siguiente relación :
J
X
λ(x02i β̂2 ) ≈ αj · bj · (x02i β2a )
j=1
Es decir:
o bien,
φ(x02i β̂2 )
· (x02i β̂)j (j = 1, ..., 3)
Φ(x02i β̂2 )
134
6. Modelos de Duración
Para comenzar se debe señalar que los modelos de duración pueden ser vistos como de
duración discreta o continua. Como punto de partida, se considera el modelo de datos
de duración discreta.
135
con t ≥ 1 y con S(0) = 1. De (48) es posible notar que la función de distribución
acumulada se define como:
F (t) = 1 − S(t) (50)
La función de densidad de probabilidades de T entrega la probabilidad de que una
duración completa sea exactamente igual a t, es decir, P (T = t):
t−1
Y
f (t) = λt (1 − λs ) = λt S(t) (51)
s=0
Note que:
∂S(t)
f (t) = − (54)
∂t
La función de riesgo es ahora la probabilidad instantánea de dejar de ser desempleado
en el tiempo t condicional a que el individuo lo ha estado hasta t. Corresponde a la
probabilidad de dejar el estado (de desempleo) en un intervalo de tiempo breve, digamos
entre t y t + ∆t, dado que se encuentra desempleado en t es:
136
La función de riesgo se define como:21
∂λ(t)
6= 0 (57)
∂t
Al igual que en el caso discreto, la distribución de T puede ser especificada tanto en
términos de f (t) como de S(t), o bien, de λ(t).
1 −∂S(t) −∂logS(t)
λ(t) = = (58)
S(t) ∂t ∂t
Por lo tanto: ½Z ¾
t
S(t) = exp λ(u)du = exp{−Λ(t)} (59)
0
donde Λ(t) se denomina función integrada de riesgo. Nuevamente, estas relaciones per-
miten escribir la función de verosimilitud para una muestra dada en términos de un
modelo de riesgo específico.
137
para aquellos con duración censuradas por la función de sobrevivencia. La verosimilitud
de la muestra observada viene dada por:
n
( t −1 )
Y ci
Y
i
L= λti (1 − λs ) (60)
i=1 s=0
Sea J la duración mas larga en la muestra22 (es decir, el individuo que estuvo o está
más tiempo desempleado) y definiendo nj como el número de salidas en tiempo igual
a j (número de personas que encontraron trabajo en la última semana) y rj como el
número de potenciales salidas en j (número de personas que pudieron haber encontrado
trabajo en la última semana), es decir, el número de individuos con duraciones ≥ j.
Entonces podemos reescribir la verosimilitud como sigue:
J
Y n
L= λj j (1 − λj )rj −nj (61)
j=0
138
6.4. Modelos Paramétricos
La partida natural al considerar modelos paramétricos es aquel modelo donde la
función de riesgo es constante, λ(t) = λ ∀t. La probabilidad condicional de dejar el
desempleo no varía en el ciclo, es decir, no depende de cuánto tiempo el individuo ha
estado desempleado. Es posible mostrar que en este caso T (tiempo del ciclo) tiene una
distribución exponencial. De las relaciones discutidas anteriormente, podemos observar
que para este caso:
Λ(t) = λt (66)
a lo cual se llega solucionando una sencilla integral. Además:
Existe una marcada curvatura en el gráfico, sugiriendo que una representación expo-
nencial de T puede no ser adecuada.24 La duración media en el modelo exponencial es
λ−1 y la varianza es λ−2 (la mediana
¡ ¢ de la distribución de duración viene dada por la
solución de S(t) = 0,5 y es log λ2 ). El modelo puede ser escrito en su forma log-lineal
como sigue:25
log(T ) = −log(λ) + ω (69)
donde ω tiene una distribución extrema del tipo I (eω tiene una distribución exponencial
unitaria). Así:
media : E(logT ) = −logλ + ψ(1) (70)
varianza : V (logT ) = ψ 0 (1) (71)
donde ψ(1) y ψ 0 (1) son constantes conocidas −0,5772 y 1,6449, respectivamente. Así,
log(T ) tiene una varianza conocida, la cual no depende de λ.
139
con α, λ > 0. Esta función crece o decrece monotónicamente dependiendo si α > 1 o
α < 1 y se reduce a la exponencial si α = 1.
Considerando las relaciones antes vistas podemos observar que para el caso Weibull
se tiene que:
Λ(t) = (λt)α (73)
S(t) = exp[−(λt)α ] (74)
f (t) = αλ(λt)α−1 exp[−(λt)α ] (75)
Para el caso de la distribución Weibull se tiene que:
µ ¶
−1 1
media : E(T ) = λ Γ 1 + (76)
α
½ µ ¶ µ ¶¾
−2 2 2 1
varianza : V (T ) = λ Γ 1+ −Γ 1+ (77)
α α
donde Γ(·) es la función Gamma completa (para un ejemplo ver Lancaster 1990 Apéndice
1).
Las funciones ψ(1) y ψ 0 (1) antes mencionadas son la primera y segunda derivada de
logΓ(·), respectivamente. Al igual que en el caso anterior, existe un test gráfico muy útil
basado en la transformación Kaplan-Meier de la estimación de la función de sobreviven-
cia. Dado que log(Λ(t)) = αlog(λ)+αlog(t), un gráfico entre log(Λ̂(t)) = log[−log[Ŝ(t)]]
contra log(t) debería dar aproximadamente una línea recta. Veamos el caso de UK (figu-
ra 4).
Observamos que se parece bastante a la línea recta o por lo menos tiene menos curvatu-
ra que el gráfico anterior. En el caso especial de la exponencial la línea recta también
debería estar sobre la recta de 45◦ .
ψ(1)
media : E(logT ) = −log(λ) + (79)
α
ψ 0 (1)
varianza : V (logT ) = (80)
α2
Weibull introduce su parámetro en la varianza definida por la exponencial.
140
6.5. Estimación
Considere una muestra de n individuos con una distribución de duración particular.
Sea ti la duración observada para el individuo i y sea ci la variable indicadora, que toma
el valor 1 si el ciclo o racha es completada (el período de desempleo terminó) y 0 si no.
La contribución a la verosimilitud del individuo i viene dada por:
λ̂2
V (λ̂) = Pn (86)
i=1 ci
la cual crece a medida que aumenta el grado de censura.
A continuación se presentan los resultados de estos modelos aplicados a los datos de UK:
141
Exponencial Weibull
λ̂×100 0.55 (0.02) 0.56 (0.02)
α̂ 1.0 0.86 (0.03)
log(L) -1905.1 -1888.9
Mediana (días) 127.2 117.4
La duración está medida en días, luego los estimadores de λ están en términos diarios.
Ambos estimadores de λ son similares entre sí e indican que existe una probabilidad
cercana al 4 % para salir del ciclo o racha (de desempleo) por semana. El modelo expo-
nencial (α = 1) se rechaza con test LR a favor de Weibull. Los modelos difieren en su
predicción en la mediana de la distribución. La duración mediana de desempleo en la
muestra es alrededor de 101 días. Así, ambos predicen una mediana un poco mayor a
la verdadera aunque la distorsión es reducida al utilizar el modelo Weibull.
λ = exp{γ0 + Z 0 γ} (88)
En forma alternativa, recordemos que el modelo de Weibull puede ser escrito como
un modelo lineal para el logaritmo de T :
con ω teniendo distribución valor extremo tipo I. De esta forma, al incluir las variables
explicativas tenemos
log(T ) = −γ0 − Z 0 γ + α−1 ω (92)
log(T ) = γ0∗ + Z 0 γ ∗ + σω (93)
142
que corresponde a una regresión log-lineal para T con un error distribuido valor ex-
tremo. En consecuencia, las variables explicativas tienen un efecto multiplicativo sobre
T.
Este modelo también pertenece a la clase general de los modelos log-lineales denom-
inados modelos de tiempo de falla acelerado. En estos modelos, los regresores aceleran el
tiempo de dejar el desempleo. De esta forma, con el fin de generalizar el modelo, tanto
el modelo de riesgo proporcional como aquellos de tiempo de falla acelerada aparecen
como rutas naturales a este fin. Veamos cada uno en detalle donde los modelos de riesgo
proporcionales han sido los mas utilizados en la literatura econométrica sobre duración.
entrega una regresión lineal para la variable transformada t∗ = −log(Λ0 (t)) (conocer la
distribución de ε será fundamental para la construcción de pruebas específicas una vez
143
que el modelo ha sido estimado).
Especificación Paramétrica
Utilizaremos una especificación Weibull para el riesgo base. Como se vio anteriormente,
esto nos entregará:
λi (ti ; Zi ) = αtα−1
i exp{β0 + Zi0 β} (100)
Asumiendo nuevamente una muestra aleatoria, la contribución a la log-likelihood del
i-ésimo individuo viene dada por:27
el cual puede ser maximizando con respecto a (α, β0 , β) por un método iterativo, como
por ejemplo, el de Newton-Raphson. Veamos un ejemplo utilizando el caso de empleo
en UK. El vector Z contiene variables como edad, dummy casado, tasa de desempleo,
el logaritmo del ingreso predicho mientras estuvo empleado, el logaritmo del ingreso
predicho si estuviese empleado. Los coeficientes β, es decir, los efectos en el logaritmo
del riesgo, son presentados en la siguiente tabla. Para obtener los efectos en el logaritmo
de la duración (γ ∗ ) se debe invertir el signo y dividir por α̂:
Exponencial Weibull
α̂ 0.90 (0.30)
β̂ 1.0
Age/ 10 -0.32 (0.03) -0.30 (0.030)
Married 0.16 (0.12) 0.16 (0.12)
local unemployment rate -1.72 (0.60) -1.61 (0.60)
log(employment income) 1.53 (0.14) 1.46 (0.14)
log(unemployment income) -0.55 (0.06) -0.53 (0.06)
βˆ0 -9.28 (0.57) -8.56 (0.57)
log(L) -1816.6 -1809.3
Median (in days) 122.3 116.2
144
adelante, α̂ está sesgado hacia abajo por la exclusión de regresores relevantes.
ψ(1) − β0 β
log(T ) = − Z0 + µ (104)
α α
0
con E(µ) = 0 y V (µ) = ψα(1)
2 . Ante la ausencia de censura, este modelo podría estimarse
por mínimos cuadrados ordinarios (MCO), el cual entregaría un estimador insesgado de
β
α . Pero MCO es inapropiado ante censura y debe ser estimado por máxima verosimili-
tud (ML).
145
dado que el término λ0 (ti ) se cancela. La log-likelihood a ser maximizada viene dada
por:
Xn Xn
log(L(β)) = Zi0 β − log exp(Zj0 β) (107)
i=1 j=i
El estimador puede fácilmente extenderse para casos de censura y empate (es decir, mas
de un individuo con la misma duración). Una vez que β ha sido estimado el riesgo base
puede ser estimado en forma no paramétrica como en el caso de Kaplan-Meier.
Los resultados de la estimación con el estimador parcial de Cox para la misma base
de datos y con el mismo vector de variables explicativas Z, es el siguiente:
β̂
Age/ 10 -0.29 (0.03)
Married 0.18 (0.12)
Local unemployment rate -1.50 (0.60)
log(employment income) 1.42 (0.14)
log(unemployment income) -0.52 (0.06)
Los coeficientes estimados son muy parecidos a los encontrados en los modelos paramétri-
cos. Dentro de las ventajas de estos modelos es que no se necesita ningún supuesto sobre
λ0 (t), la que en este caso particular, no influye mucho sobre los coeficientes estimados.
La desventaja es que λ0 (t) debe ser estimado no paramétricamente.
Estas heterogeneidades omitidas pueden sesgar (hacia abajo) los riesgos estimados. In-
tuitivamente, trabajadores más diestros o que trabajan en sectores mas empleables son
los primeros en dejar de estar desempleados dejando a aquellos con menor probabilidad
de salida, y en consecuencia, creando la ilusión de una fuerte dependencia negativa de
la duración que actualmente existe.
¿Cómo podemos abordar este problema? Una forma natural es incorporar un escalar µ
el cual representa regresores omitidos en forma análoga a aquellos donde se introduce
heterogeneidad observada:
0
λ(t; Z, µ) = λ0 (t)eZ β+µ (108)
146
Z β 0
λ(t; Z, µ) = λ0 (t) ν e|{z}
|{z} (109)
| {z }
riesgo base no obs. obs.
Veamos el caso de los datos para UK nuevamente, donde junto con las anteriores ver-
siones homogéneas, se ha incluido una forma de heterogeneidad distribuida gamma.
147
El modelo Weibull homogéneo es rechazado en favor del gamma mixto: σ 2 es significa-
tivamente mayor que cero. El estimador del parámetro de dependencia de duración α,
es significativamente mayor que 1 en el modelo de gamma de heterogeneidad, mientras
que era significativamente menor que 1 en los modelos que no controlaban por hetero-
geneidad.
148
149
7. Datos de Panel
7.1. Introducción
Un conjunto de datos de panel o longitudinales es aquel que sigue individuos
(firmas o paises) a través del tiempo y en consecuencia entrega múltiples observaciones
para cada individuo. Así, datos de panel es la unión de datos en serie de tiempo y de
corte transversal. El análisis de la de conductas utilizando datos de panel es una de
las áreas más atractivas de la econometría. En esta y la siguiente clase daremos una
introducción a este tema.
150
una regresión de corte transversal, podríamos manejar este problema al utilizar
una variable dummy para Suecia. Esto, sin embargo, lo que logra es sacar com-
pletamente a Suecia de la muestra lo que no es satisfactorio. Este no será el caso
para datos de panel, como veremos en seguida.
(i) Interceptos heterogéneos (αi 6= α). Tanto los coeficientes de la pendiente co-
mo de los interceptos estarán sesgados al ser estimados por OLS y el sesgo
no tendrá signo determinado. Datos de panel pueden ser útiles en este caso.
Ver Figura.
OLS
X
X
alfa 3 X
X
X
X X
X
X
X
alfa 2 X
X
X
X X
X
alfa 1
151
i=3
OLS
i=2
i=1
i=4
Controlando por variables omitidas (no observadas o mal medidas): Datos de panel
permiten al investigador usar los elementos tanto dinámicos como de individuali-
dad de los elementos de un set de datos para controlar por los efectos de variables
faltantes o inobservables. Esta es una de las principales atracciones acerca del uso
de datos de panel.
Bajo los supuestos usuales, la estimación por OLS de (3) entregará estimadores
insesgados y consistentes del vector de parámetros β y γ . Suponga, sin embargo,
de que el vector de variables Z no es observable pero donde la matriz de covarianza
entre X y Z no es cero. En este caso, los estimadores OLS de β estarán sesgados,
dado que zit representaría el caso clásico de omisión de variable.
Cuando tenemos datos de panel existen dos situaciones en las cuales podemos
controlar (i.e. corregir) por este problema de omisión de variable.
(i) Caso donde zit = zi para todo t de tal forma de que las variables Z son
constantes en el tiempo pero que sólo difieren entre individuos. Así, podemos
tomar las primeras diferencias de (114) con respecto al tiempo para obtener
:
(yit − yit−1 ) = β 0 (xit − xit−1 ) + (µit − µit−1 ) (117)
De esta manera lo que hicimos es "sacar"la variable-problema Z de tal man-
era que ahora se pueden obtener estimadores insesgados y consistentes de
β.
(ii) Caso donde zit = zt para todo i de tal manera de que las variables Z son
ahora comunes para todos los individuos. De esta manera, podemos tomar
la desviación de la observación de cada individuo sobre la media entre todos
152
los individuos (en cada período), de la siguiente forma :
donde ²it es una medida del error con media cero y varianza seccional igual a ω.
153
Caso (i) Errores Independientes del Tiempo (autocorrelación perfecta) Suponga de
que un hogar comete el mismo error año tras año ( por ejemplo el hogar se
equivocan en ingresar el valor de su casa). En este caso ρ tenderá a uno y en
consecuencia :
∆x∗it → ∆xit
V ar(∆x∗it ) → V ar(∆xit ) (121)
De esta manera, datos de panel permiten que los errores de medición sean
"eliminados"de los datos y así los parámetros de interés sean estimados sin
sesgo.
Caso (ii) Suponga que los errores de medición no están correlacionados en el tiempo
( ρ = 0 ). En este caso, encontraremos de que al diferenciar la varianza en
el error de medición será duplicada. Si la varianza del verdadero valor de
X es relativamente baja (e.g. existe una persistencia en el tiempo en X)
entonces, al diferenciar los datos significará que la "señal"es absorbido por el
ruido". En general, notar de que si ρ < 0,5 al diferenciar los datos tendrá un
efecto desproporcionado sobre la varianza del error en la medición relativo a
la varianza propia de la variable en sí.
donde i denota las unidades en corte transversal y t el tiempo. Los diferentes modelos
de datos de panel dependerán de los supuestos que se realicen sobre los errores no ob-
servados uit . Existen principalmente dos alternativas :
154
donde µi denota efectos específicos al individuo que no son observables y υit son los
denominados efectos idiosincráticos. Los µi son invariantes en el tiempo y dan cuenta
de cualquier tipo de efecto individual no incluido en la regresión. Un ejemplo están-
dar en ecuaciones de ganancia es la habilidad; en funciones de producción agrícola uno
de estos efectos puede ser la calidad (no observada) del suelo; en macro paneles sobre
crecimiento de países se pueden incluir normas culturales (e.g. con respecto al ahorro o
riesgo).
El two way error component model se asume de que la estructura del error se
define de la siguiente manera :
Y = α1N T + Xβ + u = Zδ + u (125)
u = Zµ µ + υ (126)
Q = IN T − P
155
PT uit
De esta forma P u, tiene el típico elemento ui = t=1 T y la matriz Qu tiene este
como elemento típico uit − ui
Estas relaciones se usan extensivamente para derivar los modelos de datos de panel.
Ahora consideraremos dos supuestos sobre los efectos individuales µi .
y = α1N T + Xβ + Zµ µ + ν = Zδ + Zµ µ + ν (127)
La alternativa mas común para estimar esta situación es el estimador de efectos fijos.
Primero, deberemos pre multiplicar el modelo (124) por la matriz de selección Q la cual
calcula las desviaciones con respecto a la media grupal (de individuos). La observación
representativa para el individuo i en el tiempo t es :
156
podemos estimar como sigue :
βeW = (X 0 QX)−1 X 0 Qy (130)
donde
V ar(βeW ) = σν2 (X 0 QX)−1 = σν2 (X
e 0 X)
e −1 (131)
y donde podemos recuperar el valor estimado de α como :
eW = y − X βeW
α
donde aquí, P
el promedio se calcula sobre todas las observaciones basados en la restric-
ción de que N i=1 µi = 0 el cual es un supuesto estándar para las variables dummy.
Resultados
Si (127) es el verdadero modelo, el estimador de efectos fijos es BLUE sólo mientras
vit tenga las características Gaussianas estándar. A medida de que T tiende a infinito,
entonces el modelo es consistente para todos los parámetros del modelo. Sin embargo,
si T es fijo y N tiende a infinito, entonces el estimador FE de β será consistente. El
estimador FE de los efectos individuales (α+µi ) no son consistentes dado que el número
de parámetros aumenta a medida de que N aumenta.
157
El aspecto clave de esta varianza es que a pesar de ser homocedástica, tiene correlación
serial al interior de cada unidad de corte transversal (dado que cada "efecto individu-
al"de cada persona persiste en el tiempo). En particular, sea :
Así, si i = j y t = s entonces se tiene que la Cov(uit , ujs ) = σµ2 + σv2 . Por otro lado, si
i = j pero t 6= s entonces se tiene que la Cov(uit , ujs ) = σµ2 y cero en otro caso. Por
extensión, tenemos lo siguiente :
σµ2
ρ = Corr(uit , ujs ) = para i = j; t 6= s
(σµ2 + σν2 )
y cero en otro caso. Esto sugiere que ante la presencia de efectos aleatorios, la matriz de
varianzas covarianzas para el modelo de datos de panel no será del tipo "Gaussiano".
Para proceder con la estimación necesitaremos analizar la estructura de esta matriz.
Con esta definición podemos entonces aplicar a (127) el estimador GLS estándar para
derivar los estimadores de los coeficientes de α, β bajo el supuesto de efectos aleatorios:
La forma de resolución a este problema mas popular introduce los denominados es-
timadores Entre Grupos (BG) el cual regresiona un conjunto de observaciones consis-
tentes en el promedio a través del tiempo para cada una de las N observaciones :
0
y i. = α + X i. β + ui i = 1, ...N (139)
158
donde :
T
1X
y i. = yit
T
t=1
El estimador entre grupos puede ser derivado al aplicar la matriz P a nuestro modelo
básico en (127) :
P y = P α1N T + P Xβ + P (Zµ µ + ν) (140)
el cual entrega el siguiente estimador :
Este estimador se denomina entre grupos pues ignora cualquier variación al interior del
grupo ( o individuo) en el tiempo y utiliza, lo que efectivamente es un resumen de la in-
formación de corte transversal simple sobre la variación entre los grupos ( o individuos).
Maddala (Econometrica, 1971) muestra de que el estimador GLS puede ser expresa-
do como :
(X 0 QX) X 0 (P − J N T )X −1 (X 0 Qy) X 0 (P − J N T )y
βbGLS = [ + ] [ + ] (142)
σν2 σ12 σν2 σ12
Podemos simplificar la expresión anterior mediante la siguiente notación. Sea WXX =
X 0 QX, WXY = X 0 Qy, BXX = X 0 (P − J N T )X, BXY = X 0 (P − J N T ) y finalmente,
2
φ2 = σσν2 .
1
−1
Finalmente, notar de (130) de que WXX WXY es simplemente el estimador al interi-
−1
or del grupo (o intra grupo, WG) y de (141) de que BXX BXY es el estimador entre
grupos (BG) de tal forma que :
con Θ = [WXX +φ2 BXX ]−1 WXX . El estimador GLS en (144) es un promedio ponderado
entre los estimadores entre grupos e intra grupo. El parámetro clave en la ponderación
es Θ. Pueden existir tres casos diferentes:
(i) A medida de que T tienda a infinito, entonces φ2 tenderá a cero, y por tanto Θ a
la unidad. En este caso, el estimador GLS tenderá al estimador intra grupo o el
estimador LSDV.
159
(iii) Si σµ2 = 0 (i.e. los efectos individuales son determinísticos) entonces φ2 = 1 y así
el estimador GLS tenderá al estimador OLS (el cual entrega igual ponderación a
la variación intra grupo y inter grupos).
La primera opción es usar una estimación máxima verosímil interativa. Bajo los supuestos
de normalidad para µi y νit podemos escribir la función de verosimilitud de la siguiente
manera:
NT N 1
log L(α, β, φ2 , σν2 ) = constante − log σν2 + log φ2 − 2 u0 Σ−1 u (145)
2 2 2σν
y maximizarla en la forma usual, utilizando los estimadores entre grupos como los val-
ores iniciales de β.
Resumen
El método de estimación a ser usado dependerá en si asumimos de que los efectos in-
dividuales sean fijos o aleatorios. Resulta ser de que los valores para los parámetros β
pueden variar dramáticamente, en el caso mas común donde N es grande y T pequeño,
entre estimadores intra o entre grupos. Cuando sólo existen pocas observaciones en el
tiempo resulta mejor usar los elementos de corte transversal de los datos para estimar
aquella parte de la relación que contenga variables que difieren entre un individuo al
29
ver la rutina existente en STATA
160
otro (el estimador entre grupos). Ello permite de que la parte de serie de tiempo de los
datos sea usada en forma eficiente de tal manera de rescatar la parte común de dicha
relación entre individuos.
Un resultado importante de Mundlak (Econometrica, 1978) sugiere que cuando los efec-
tos µi son tratados como variables aleatorias pero la varianza entre estos y las variables
xi no son cero, el estimador de efectos aleatorios GLS será sesgado e inconsistente. Da-
do que el estimador intra grupo "eliminaçompletamente el efecto de los µi , entonces el
estimador de efectos fijo intra grupo es insesgado y consistente.
donde la hipótesis nula es que la covarianza es cero. Covarianza significativa entre los
efectos µi y las variables xi hará que el valor de m sea grande lo que rechazará el test
y deberá estimarse, entonces, utilizando el estimador de efectos fijos intra grupo.
161
Podemos re escribir esto en forma vectorial como :
u = Zµ µ + Zλ λ + ν (148)
Podemos usar no obstante, una versión modificada del estimador intra grupo mediante
una transformación que "saque"los efectos de µi y λt . Re definiendo la transformación
Q tenemos :
Q = IN ⊗ IT − IN ⊗ J T − J N ⊗ IT + J N ⊗ J T (149)
Esta transformación significa que el típico elemento del vector y viene dado por :
ye = (yit − y i. − y .t + y) (150)
βe = (X 0 QX)−1 X 0 y (152)
α e ..
e = y .. − βX (153)
Ho = µ1 = · · · µn−1 = λ1 · · · λT −1 = 0 (154)
162
7.4.2. Modelo de Efectos Aleatorios
Ahora suponga que ambos efectos individuales y temporales son no determinísticos,
es decir podemos tratarlas como variables aleatorias estocásticas. Podemos asumir de
que µi ∼ iid(0, σu2 ), λt ∼ iid(0σλ2 ) independiente entre cada uno de ellas y con νit , y
que µi , λt , νit son independientes de xit para todo i y t. Ahora siendo los efectos fijos
aleatorios, la varianza del término de error será :
El aspecto clave de esta varianza es que siendo de nuevo homocedástica tendrá dos tipos
de correlación serial : entre cada unidad de corte transversal (un “efecto fijo” individual
que persiste en el tiempo) y uno a través del tiempo. Así :
βbGLS = [WXX + φ22 BXX + φ23 CXX ]−1 [WXY + φ22 BXY + φ23 CXY ] (156)
−1
el cual puede ser simplificado un paso más al notar de que WXX WXY es simplemente
−1
el estimador intragrupo y que BXX BXY es el estimador intergrupo individual y que
−1
CXX CXY es el estimador intergrupo temporal. Así, se tiene que la siguiente expresión :
donde :
163
Si σµ2 = σλ2 = 0 implica de que φ22 = φ23 = 1 y así el estimador GLS tenderá al
OLS.
Si T y N tienden al infinito entonces esto implica de que φ22 , φ23 tiendan a cero y
así el estimador GLS tienda al estimador intra grupo.
7.5. Extensiones
El modelo básico puede ser extendido en varias direcciones. Estas son discutidas en
forma extensa en el Hsiao y en Baltagi algunas de las cuales revisaremos en la próxima
clase. Entre las mas interesantes se tiene :
164
8. Datos de Panel Dinámicos
30
8.1. Introducción
El uso de datos de panel dinámico es una de las areas de mayor desarrollo en la
actualidad en el trabajo econométrico tanto en términos teóricos como aplicados. Las
ventajas que se derivan del uso de estos son evidentes, ya que permite estimar relaciones
económicas que presentan una naturaleza dinámica y que es imposible estimarla usando
datos de corte transversal. Por otra parte en la práctica es raro poseer observaciones
para periodos de tiempo prolongados de una unidad de análisis, como requeriría el poder
trabajar con series de tiempo. De esta manera es común tener en el trabajo aplicado
paneles con períodos de tiempo corto y con un gran numero de unidades. Sin embargo,
el trabajar con paneles dinámicos con estas características involucra una serie de de-
safíos en la estimación de los parámetros, ya que deseamos que estos sean consistentes
y eficientes, al menos en términos asintóticos.
Las técnicas tradicionales de estimación como son Mínimos Cuadros Ordinarios (OLS)
y el estimador Within Group (W G) han demostrado tener un pobre desempeño debido a
que presentan sesgos los cuales no desaparecen cuando la muestra crece (N → ∞). Una
alternativa sugerida para hacer frente a este problema es trabajar con los estimadores
de variables instrumentales (VI) que proponen Anderson y Hsiao (1982). Estos autores
instrumentalizan la variable dependiente rezagada a través del uso de la misma variable
dependiente pero con un orden mayor de rezago.
Como una respuesta a los estimadores anteriores se ha desarrollado toda una liter-
atura la cual esta basada en el Método Generalizado de los Momentos (GM M ), el cual
trata de obtener estimadores consistentes y eficientes en términos asintóticos. Entre los
estimadores que se han desarrollado podemos mencionar el estimador de una etapa,
de dos etapas y el estimador sistemas el cual trata de explotar toda la información
disponible a través de las combinación de las condiciones de momento para la ecuación
en niveles y en sus primeras diferencias. En este capítulo nos concentramos en dar una
revisión a los diversos métodos de estimación enfatizando cuales son los posibles sesgos
en que se incurre y la eficiencia que muestran dichos métodos.
165
ambos son variables aleatorias y sus dos primeros momentos vienen dados por:
E(ηi ) = E(υit ) = 0; y E(ηi2 ) = ση2 ; 2
E(υit ) = συ2 ; E(υit υis ) = 0 ∀ i 6= s
Por otra parte se asume que N es grande y T es pequeño y fijo, por tanto las propiedades
asintóticas de los estimadores vendrán dadas en la medida que N → ∞.
166
El estimador W G si bien elimina el efecto individual ηi , mediante la aplicación de la
matriz de transformación dada por Q, igual resulta ser inconsistente. Para ver porque
se produce esto, analicemos los términos (yit−1 − y i,−1 ) y (υit − υ i ) en la ecuación (162).
Si escribimos dichos términos de manera extendida se tiene que :
1
yit−1 − y i,−1 = yit−1 − ( (yi1 + ....yit + ..... + yiT −1 ))
T −1
por otra parte el terminó de error es :
1
υit − υ i = υit − ( (υi2 + ..... + υit−1 + ....... + υiT ))
T −1
A partir de lo anterior es fácil darse cuenta que yit−1 está correlacionado con el término
−1 −1
T −1 υit−1 y que el término T −1 yit lo está con υit . De esta manera existe una correlación
negativa entre la variable dependiente rezagada y el terminó de error en la ecuación
(162), por tanto el estimador W G de α resulta ser inconsistente, plimb αW G es entregado
por la ecuación (164)
1+α 1−αT
(T −1) (1 − T (1−α) )
plimb
αW G = − 2α 1−αT
(164)
1− (1−α)(1−T ) (1 − T (1−α) )
El sesgo es hacia abajo y por tanto W G subestima a α. De esta forma tanto OLS como
W G entregan estimadores inconsistentes de α en la estimación de (158) y la dirección
de los sesgos van en direcciones opuestas.
La segunda alternativa que tenemos para eliminar el efecto individual de (158) es estimar
un modelo en primeras diferencias el cual viene dado por la siguiente ecuación:
En donde ∆yit = yit − yit−1 , ∆yit−1 = yit−1 − yit−2 y por último ∆υit = υit − υit .
167
y cuando usamos (yit−2 −yit−3 ) como instrumento tiene la siguiente expresión alternativa
: PN PT
(yit − y i )(yit−2 − yit−3 )
bV I = PN i=1
α PT t=2 (167)
i=1 t=2 (yit−1 − yit−2 )(yit−2 − yit−3 )
El estimador dado por (166) tiene la ventaja que identifica a α cuando T > 2, en cambio
(167) funciona cuando T > 3.
Los criterios para usar (166) ó (167) vienen dados por el instrumento que presente
una mayor correlación con ∆yit−1 , así como también por consideraciones de eficiencia
asintotica.
En esta sección se describen los estimadores sugeridos por estos autores basados en
el concepto de estimación consistente mediante la utilización de un vector de instru-
mentos.
con respecto a θ, en donde WN−1 es una matriz definida positiva que cumple con
plimN →∞ WN−1 = W con W una matriz definida positiva.
P PN
GMM asume que limN →∞ N1 N i=1 gi (θ) = E(gi (θ)) y ademas que
1
N i=1 gi (θ0 ) →
N (0, Ψ). LO último se conoce como condiciones de regularidad.
168
√
) y Γθ0 = Γ(θ0 ), entonces N (θb − θ0 ) tiene
Por otra parte sea Γ(θ) = E(∂gi (θ)/∂θ0√
una distribución normal limite dada por N (θb − θ0 ) → N (0, VW ), donde :
Para ver cómo funciona GMM retomemos el modelo dado por (165) el cual esta ex-
presado en primeras diferencias, y asumamos que T > 3 de manera tal que el modelo
está sobreidentificado, en particular asumamos T = 4.
En dicho caso se tiene que para t = 4 los instrumentos disponibles son yi2 y yi1 , y
para t = 3 solo tenemos disponibles yi1 como instrumento. De esta manera se puede
deducir que para t = T se tiene que los instrumentos disponibles son (yi1 , yi2 , .......yiT −2 ).
con ∆υi0 = (υi3 , υi4 , .....υiT )0 y Zi es una matriz de instrumentos definida de la siguiente
manera :
yi1 0 0... ... 0
0 yi1 yi2 . . . ... 0
Zi = .
(173)
. . ... ... .
0 0 0 yi1 . . . yiT −2
la cual es de (T −2)×m en donde m representa las condiciones de momento disponibles.
El estimador GMM basado en las condiciones entregadas por (171), minimiza el siguiente
criterio " # "N #
N
1 X −1
X
Q= ∆υi0 Zi WN Zi0 ∆υ (174)
N
i=1 i=1
169
La elección de la matriz da lugar a dos estimadores los cuales son asintóticamente equiv-
alentes.
en donde H es una matriz que contiene dos en la diagonal principal y menos uno en las
dos primeras subdiagonales y ceros en todo los demás lugares.
La ecuación (176) muestra el estimador que se obtiene al minimizar (174) con respecto
a α:
α
c1 GM M = [∆y−10
ZWN−11 Z 0 ∆y−1 ]−1 [∆y−1
0
ZWN−11 Z 0 ∆y] (176)
en donde ∆y−1 es un vector de N (T − 2) × 1 dado por ∆y−1 0 = (∆y 0 0 0
1(−1) , ....∆yN (−1) ) ,
del mismo modo se tiene que ∆y 0 = (∆y10 , ....∆yN 0 )0 el cual es también es de orden
0 0 0 0
N (T − 2) × 1, y finalmente Z = (Z1 , ........ZN ) , la cual es una matriz de m × N (T − 2).
El estimador αc1GM M es consistente en la medida que N → ∞, aunque no es eficiente.
V[
AR(c 0 ZW −1 Z 0 ∆y )−1 ∆y 0 ZW −1 W
α1GM M ) = N (∆y−1 N1 −1 −1 N 1 N 1 (c
α1GM M )× (178)
0 ZW −1 Z 0 ∆y )−1
Z 0 ∆y−1 (∆y−1 N1 −1
33
Sabemos que α
c2 GM M es asintóticamente eficiente en la medida que N → ∞.
170
donde se tiene que :
N
1 X 0 d d0
WN 1 (c
α1 GM M ) = Zi ∆υi ∆υi Zi
N
i=1
di = ∆yi − α
∆υ c1 GM M ∆y−1
Por otra parte la varianza para el estimador de dos etapas viene dada por la siguiente
expresión :
V[AR(cα2GM M ) = N (∆y−10
α2GM M )Z 0 ∆y−1 )
ZWN 2 (c (179)
Arellano y Bond (1991) documentan el hecho que la varianza del estimador de dos eta-
pas puede estar severamente sesgada hacia abajo en muestras finitas y por tanto las
estadísticas de prueba tienen un mayor poder tendiéndose a sobrerechazar la hipótesis
nula.
De esta manera se sugiere el uso del estimador de una etapa para la realización de
inferencias. La fuente de sesgo en los errores estándar del estimador de dos etapas
proviene del hecho que en el cálculo de (178) está presente el estimador de una etapa.
Windmeijer (2000) muestra este hecho y propone una corrección para muestras fini-
tas a partir de una expansión de Taylor de primer orden.
νbit = ∆yit − α
b∆yit−1 (181)
171
A partir de (181) podemos ver que una manera fácil de entender el problema es con-
centrar nuestra atención solamente en una unidad i y ver si se cumple la condición. De
esta manera se sabe que:
0
ξi = ∆νi(−2) νi (182)
donde ∆νi(−2) y νi son de vectores de (T −4)×1. Bajo la hipótesis nula de no correlación,
ξi tiene media cero y podemos construir test para saber si efectivamente E(ξi ) = 0. Así
a partir de la simple idea anterior el test para saber si existe o no correlación serial de
segundo orden es el siguiente:
∆b 0
νi(−2) νbi
m1 = 1/2
(183)
νb∗
1/2
donde m1 tiende a una normal de media cero y varianza uno34 . Por otra parte νb∗
viene dado por:
N
X
0
νb∗ = νi(−2) νbi νi νbi(−2) −
i=1
N
X
0
2b
ν−2 X∗ (X 0 ZWN ZX)−1 X 0 ZAN ( Zi0 νbi νbi0 νbi(−2) )
i=1
+b0
ν−2 X∗ a[ b 0 νb−2
var(δ)X∗
Lo interesante de (183) está en el hecho que es flexible ya que esta definida en términos
de un estimador consistente y no necesariamente eficiente. Sin embargo, la potencia que
alcance m1 dependerá de la eficiencia asintótica del estimador que se utilice.
Una forma para discriminar entre ambas situaciones seria la de construir un estadístico
denominado como m2 pero para probar si existe o no correlación serial de primer orden
en ∆νit .
El poder distinguir entre ambos casos no es un tema menor ya que si los errores siguen
un Random Walk al estimar por GMM y por MCO la ecuacion en primera diferencias,
ambos entregaran estimadores consistentes y por tanto se tiene que esto daría origen a
un test de Hausman de especificación.
172
que el modelo esta sobreidentificado si p > k.
ν 0 Z(Z 0 ∆b
S = ∆b ν 0 Z)−1 Z 0 ∆b
ν ∆b ν ∼ aχ2p−k (184)
donde νb es construido a partir del estimador de dos etapas, para una matriz de in-
strumentos Z dada, que no necesariamente es la matriz de instrumentos óptimas. La
hipótesis nula de este test es que las condiciones de momento son validas.
Un aspecto interesante del test de Sargan es aquel relacionado con el hecho que puede
ser modificado de manera de poder trabajar con distintas hipótesis para el termino de
error νit , en particular para el tema de correlación serial.
173
Uno de los primeros estudios en dar cuenta de esto fue el realizado por Griliches y
Mairesse(1997), quienes señalan para el caso de la estimación de una función de pro-
ducción Cobb-Douglas:
En la practica, la aplicación de métodos de panel a microdatos producen
resultados muy insatisfactorios; coeficientes para el capital bajo y usualmente
insignificantes junto estimadores poco contradictorios para los retornos con-
stantes a escala
-Griliches y Mairesse (1997) Para entender
el porque se produce este problema consideremos el caso donde T = 3, de manera tal
que las condiciones de momento se reducen solamente a una condición de ortogonalidad.
174
8.5.1. Condiciones iniciales y un estimador en niveles
Consideremos la siguiente condición :
La condición anterior es una restricción sobre el proceso que genera los datos, y a partir
de esta tendremos las siguientes condiciones de momento adicionales:
Lo anterior proviene de (189) y señala que si ∆yi2 no está correlacionado con ηi entonces
llevará a que ∆yit también no lo esté.
Esto puede ser visto en (165), donde si comenzamos a reemplazar al lado derecho de
esta ecuación, se llega a una expresión del siguiente tipo :
t−3
X
t−2
∆yit = α ∆yi2 + αs ∆µit−s (191)
s=0
Por tanto de (191) se deriva el hecho que ∆yit estará no correlacionado con ηi en
la medida que ∆yi2 no lo esté.
175
8.6. GMM de sistemas
Al tener las condiciones de momento en niveles y en primeras diferencias la pregunta
obvia que nos surge es ¿como combinamos estas condiciones de la manera mas eficiente
posible?.
en donde Zs es :
Zdi 0 0 0 0 0
· ¸ 0 ∆yi2 0 ... ... 0
Zdi 0 0 0 ∆yi3 . . . . . . 0
Zs = = (196)
0 ZliP .. .. .. .. ..
0 . . . . .
0 0 . . . . . . 0 ∆yiT −1
Al igual que en los casos anteriores, el estimador de una y de dos etapas se obtiene con
el procedimiento descrito en las secciones precedentes.
Lo interesante del estimador GM M de sistemas, es que puede ser entendido como una
combinación del estimador en primeras diferencias y del estimador en niveles usando
solo algunas condiciones de momento para este.37
Por otra parte, para el estimador en 2SLS en sistemas se puede demostrar que :
0
α
bs = (q−1 Zs (Zs0 Zs )−1 Zs0 )−1 q−1
0
Zs (Zs0 Zs )−1 Zs0 q
0 = [∆y , y ]. Y por otra parte se tiene que :
en donde q−1 −1 −1
0
q−1 Zs (Zs0 Zs )−1 Zs0 q−1 = ∆y−1
0
Zd (Zd0 Zd )−1 Zd0 ∆y−1 + y−1
0
Zlp (Zlp0 Zlp )−1 Zlp0 y−1
36
La sección siguiente se discute el caso cuando se tiene regresores adicionales a la variables depen-
diente rezagada.
37
En particular solo usamos la diagonal de la matriz Zli .
176
Usando estas dos expresiones se llega al hecho de que :
α
bs = γ α αlp
bd + (1 − γ)b (197)
bd0 Zd0 Zd π
π bd
γ=
π 0 0
bd Zd Zd π
bd + π bl0 Zlp0 Zd0 π
bl
con π
bd y π
bl son los estimadores de OLS en la primera etapa.
De esta manera, el modelo que estamos interesados en esta sección es uno del sigu-
iente tipo :
yit = αyit−1 + βxit + µit , t = 2.....T (198)
donde µit = ηi + υit y xit es un escalar. Asumiremos que xit está correlacionado con ηi .
Por otra parte sabemos que xit puede estar correlacionado de tres maneras distintas
con υit , lo que dará origen a diversas condiciones de momento.
En primer lugar asumiremos que xit es estrictamente exógeno, lo cual puede ser repre-
sentado de la siguiente manera :
177
El segundo caso que podemos tener es que xit sea predeterimanda o débilmente exógena
donde bajo esta situación :
y
E(xis υit ) 6= 0 para s = t + 1, ...T
Finalmente xit puede estar determinado endógenamente en cuyo caso se tiene que :
y
E(xis υit ) 6= 0 s = t, ....T, t = 1, ......T
Con lo anterior tendremos distintas condiciones de momento para cada caso, en donde
las condiciones dadas por (171) se mantienen, pero para cada caso de xit tendremos
condiciones adicionales.
De esta forma, si xit es estrictamente exógena las condiciones de momento son las
siguientes :
E(xis ∆υit ) = 0 s = 1......T, t = 3, ......T (199)
lo cual origina que existen T (T − 2) condiciones de momento adicionales.
Por otra parte cuando tenemos el caso que xit es predeterminada tenemos que :
E(yit−s ∆υit ) = 0
y
E(yit−1 (ηi + υit ))
178
con t = 3...T y s = 2, ....., t − 1.
E(xit−s ∆υit ) = 0
y
E(∆xit−1 (ηi + υit )) = 0
para t = 3...T y s = 2, ....., t − 1.
Kiviet (1995) desarrolla una corrección al estimador WG el que como ya vimos, presenta
un sesgo sistemático el cual no desaparece conforme N crece. No obstante lo anterior,
cuando T crece este sesgo tiende a disminuir aunque no es muy claro en la literatura el
valor de T para el cual dicho sesgo desaparece.
El método lo que hace es restarle al estimador por LSDV del modelo original una
expresión que captura el sesgo cometido por este último. Cabe hacer notar que el sesgo
del estimador LSDV es función de los verdaderos parámetros del modelo. En conse-
cuencia éstos deberán ser estimados primeramente tarea que se realiza mediante una
estructura de IV sugerida por Anderson y Hsiao (1981).
179
Formalmente (198) puede ser re escrita de la siguiente forma :
y = W ϕ + (In ⊗ iT )η + ε (202)
.
donde W = [Y−1 ..X] y ϕ0 = (δ, β). El estimador de efectos fijos (LSDV) será:
−1
ϕ̂ = (W 0 AW ) W 0 Ay (203)
1 0
donde At = It − T iT iT y A = IN ⊗ AT .
Sin embargo, como se señalo anteriormente este estimador es sesgado por lo cual se
sugiere utilizar el estimador de Kiviet(1995). El sesgo será en consecuencia :
W̄ = E(W ) (204)
W̃ = W − E(W ) (205)
W = W̄ + W̃ (206)
. .
donde W̄ = [Ȳ−1 ..X] y W̃ = [Ỹ−1 ..0].
donde
0 · · · · · 0
1 0 ·
δ 1 0 ·
C=
δ2 δ 1 · ·
· · · · · ·
· · ·
δ T −2 · · · δ 1 0
180
Kiviet utiliza estas expresiones para derivar el sesgo del estimador de LSDV de la
siguiiente forma :
donde :
181
9. Métodos de Evaluación para Datos No-Experimentales
Objetivo: La medición del impacto de una reforma política o intervención sobre
un conjunto de variables (de predicción) bien definidas.
En general, los individuos pueden ser identificados por ciertas variables observ-
ables, -sexo, edad, educación, estado civil- y por tanto, el problema de la evaluación
es medir el impacto del programa en cada tipo de individuo.
Recupera así, el efecto promedio del programa sobre aquellos individuos que par-
ticiparon (o fueron "tratados") capturando el efecto: "The effect of Treatment
on the Treated". Lo anterior , al remover efectos individuales no observables y
factores macro comunes.
Problemas:
- Asume que existen efectos temporales comunes entre los grupos.
182
- No existen cambios de composición al interior del grupo.
- Así, escoger el grupo de control es muy complejo.
(ya lo veremos)
Persigue seleccionar factores observables suficientes como para que dos individuos
con los mismos valores para estos factores no presenten diferencias sistemáticas
en sus reacciones a las reformas. Así, el impacto del programa puede ser aislado al
comparar dos individuos similares (clones); uno que participó y uno que no lo hizo:
Problema:
- La escogencia de las variables que serán utilizadas para definir el clon.
- Si las variables son las equivocadas, el efecto contrafactual estará incorrec-
tamente medido y así el impacto del programa.
4. Modelo de Selección.
183
9.2. Qué se desea medir?
1. El impacto del programa sobre individuos con características particulares como
si fueran asignados aleatoriamente al programa de una población de todos los
individuos con otras características.
Bajo el supuesto de efecto del tratamiento homogéneo estas dos medidas son idénticas.
Pero si los efectos son heterogéneos ambas medidas pueden diferir, en particular, 2. se
conoce como "efecto del tratamiento sobre los tratados".
⇒ E(di , µit ) 6= 0
pues, puede ser que la decisión de participar, o el ser seleccionado depende de ciertas
características de los individuos.
Ni = Zi · γ + νi
184
9.2.2. Efectos de Tratamiento Heterogéneos
Aquí el impacto del programa varía entre individuos. También dichos efectos difer-
enciados pueden influenciar el proceso de decisión (es decir, correlación con indicador
di ).
Sustituyendo de otros regresores X,
αi = α + εi
αT = α + E(εi |di = 1)
donde E(εi |di = 1) desviación media del impacto entre los participantes. Así el impacto:
Yit = β + di · α + [µit + di · εi ]
= β + di · α + [µit + di (αi − α)]
Así, aún si µit no está correlacionado con di , de tal modo que E(µit |di = 1)=E(µit |di =
0)=0 sigue existiendo el problema de identificación.
Solo es posible identificar: αT = α + E(εi |di = 1), es decir, el impacto del tratamiento
sobre los tratados.
Ello pues separar de que el término de error µ no este correlacionado con el proceso de
decisión el componente del efecto del programa específico al individuo εi , probablemente
lo esté. En general, se espera que los individuos considera sus condiciones específicas en
su decisión y en consecuencia E(εi |di = 1)6=0 y por lo tanto, la identificación de α se
hace mas dificultosa.
185
9.3. Datos Experimentales
Si el diseño del programa escoge aleatoriamente una muestra del grupo de personajes
elegibles para participar donde la elección es absolutamente es independiente del posible
resultado, entonces
1
α̂ = Y t − ς 0t t>k
(1) (0)
donde Y t y ς t son los resultados medios en los tratados y no tratados en el tiempo
t después del programa.
Pero:
- si existen dropouts (non random)
- si se le ofrece otros programas a los no-seleccionados
- si el experimento en si altera la conducta de los tratados/no tratados.
Entonces
- consistencia de α̂ es invalidada.
186
Annual Earnings of Male Treatments and Controls
Treatments Controls
1975 3,066 3,027
1976 4,035 2,121
1977 6,335 3,403
1978 5,976 5,090
Number of observation 297 425
Definitions:
PSID 1 -all male household heads continuously in the period studied (1975-78) who were less than 55
years old and did not classify themselves as retired in 1975.
PSID 2 -all men in PSID 1 not working when surveyed in the spring of 1976.
PSID 3 -all men in PSID 1 not working when surveyed in either the spring of 1975 or the spring of
1960.
CPS-SSA 1 -all males based on Westat’s criterion except those over 55 years old.
CPS-SSA 2 -all males in CPS-SSA 1 who were not working when surveyed in March 1976.
CPS-SSA 3 -all males in CPS-SSA 1 who were unemployed in 1976 and whose income in 1975 was
below the poverty level.
187
Revisión principales métodos para datos no-experimentales.
2. modelo subyacente
3. parámetros de interés
IV
para single
cross-section Heckman
two-step
difference-in-difference
Longitudinal o matching
repeated cross
section propensity
scores /
matching / dif
con ½
1 si Ni > 0;
di =
0 otro caso
188
- Z ∗ no esté completamente determinado por X.
Así la(s) variable(s) Z ∗ son los instrumentos que entregan la variación exógena
que aproximan el diseño aleatorio.
Entonces en la regresión por IV, el indicador de tratamiento es reemplazado por
g(Z ∗ ) o bien, alternativamente, se usa tanto X como Z ∗ para predecir d, creando
una nueva variable dˆ la que se incorpora a la regresión en vez de d.
dado que Zi∗ determina di por definición, entonces el error estará correlaciona-
do con Zi y por tanto IV no es aplicable en el caso de impacto homogéneo.
φ(Zi · γ)
E(Yit |di = 1) = β · Xi + α + ρ ·
Φ(Zi · γ)
y
φ(Zi · γ)
E(Yit |di = 0) = β · Xi − ρ ·
1 − Φ(Zi · γ)
con las mismas salvedades descritas para el Tobit en que Z y X deben tener al
menos una variable diferente y γ̂ puede ser estimado regresionando N = Zi γ por
Probit.
Ahora, cuando existen efectos de tratamiento heterogéneos, el modelamiento es
un poco más complejo. Considerando que αT = α̂ + E(εi |di = 1), entonces
Yit = β · Xi + di · α + [µit + di · εi ]
189
El procedimiento en dos etapas requiere el conocimiento de la distribución con-
junta de µit , νi y εi . Si esta es normal con σv = 1, entonces
φ(Zi · γ)
E(ξit |di = 1) = corr(µit + εi , νi ) · V ar(µit + εi )1/2 ·
Φ(Zi · γ)
−φ(Zi · γ)
= ρ(µ,ν,ε) ·
Φ(Zi · γ)
análogamente
−φ(Zi · γ)
E(ξit |di = 0) = corr(µit , νi ) · V ar(µit )1/2 ·
1 − Φ(Zi · γ)
−φ(Zi · γ)
= ρ(µ,ν) ·
1 − Φ(Zi · γ)
y así, la regresión queda:
· ¸
φ(Zi · γ) −φ(Zi · γ)
Yit = β · Xi + di αT + ρ(µ,ν,ε) + (1 − di ) · ρ(µ,ν) · + δit
Φ(Zi · γ) 1 − Φ(Zi · γ)
pudiendo identificarse αT pero no α.
Notación.
Y1 = outcome de los tratados.
Y0 = outcome de los no-tratados.
D=1 si la persona recibe tratamiento (D=0 si no).
X: vector de características utilizadas como variables de condicionamiento.
P(X)= Pr(D=1|X).
ì) Cross-sectional (CS): el que compara los outcomes para los tratados y el grupo de
comparación medidos en algún período después del programa.
190
La principal ventaja de DID sobre CS es que considera las diferencias no observables-
contantes en el tiempo-en los tratados y no tratados.
Adicionalmente a los dos estimadores vistos en la clase anterior, aquí veremos tres
a) nearest neighbor cross-sectional matching estimator
Todos los estimadores que veremos tratan de estimar el impacto medio del tratamiento
en los tratados ∆D=1 .
a) Cross Sectional
Supuestos:
Así
n1
X
ˆ CS 1 b 0i |P (Xi ), Di = 0)
∆ D=1 = · Y1i (Xi ) − E(y
n1
i=1
{Di =1}
191
b) Difference-in-difference (DID) Matching Estimators.
Para su implementación se necesita datos cross-sectional repetidos o datos longi-
tudinales tanto para participantes como no participantes. Sea t y t’ dos períodos
en el tiempo uno antes del comienzo del programa y otro después del término
de este. Y0t es el outcome observado en t. Las condiciones que se necesitan para
implementar de estos estimadores son:
Así
n1t
b DID 1 X
∆ D=1 = {Y1ti (Xi ) − Ê(Y0ti |P (Xi ), Di = 0)}
n1t
i=1
{Di =1}
n1t0
1 X
− {Y0t0j (Xj ) − Ê(Y0t0j |P (xj ), Dj = 0)}
n1t0
j=1
{Dj =1}
Implementación
192
Paso 2: Construir los matching outcomes.
{Dj ∈ AZ }
193
b) Kernel regression matching estimator.
El estimador anterior o bien asigna un peso de Z1 o 0 a las observaciones del
grupo de control. Así, si Z=5 entonces el segundo o tercer vecino mas cercano
reciben el mismo peso en la estimación del valor esperado condicional.
Un Kernel regression escoge el peso de tal forma de que la observación mas
cercana en términos de |P (Xi ) − P (Xj )| recibe mayor peso.
Una forma de Kernel es la bi-weight Kernel:
½ 15 2
K(s) = 16 · (s − 1) para |s| < 1
0 otro caso
conde,
R en general, los
R Kernels escogidos deben cumplir con la condición de
que K(s)ds = 1 y K(s)sds = 0.
Aquí el ancho hn es análogo al problema de escoger el número Z en el caso
anterior.
³ Los pesos
´ a las observaciones Dj = 0 dependerán de los valores de
P (X )−P (X )
i j
K hn .
En términos prácticos una forma de definir a hn es hn = |P (Xi ) − P (Xj )|
para el z-ésimo vecino cercano. Así, el hn variará dependiendo de la cantidad
de datos (vecinos) que tenga cada punto de P (Xi ) (o en cada i ∈ {Di = 1})
otra forma es escoger un hn ∈ [0,2,0,4].
De nuevo, la diferencia solo yace en los pesos donde en el caso de LLR, éstos
vienen determinados por:
P 0 P 0
Kij nK=1 KiK (PK − Pi )2 − [Kij (Pj − Pi )][ nK=1 KiK (Pk − Pi )]
ωj (P (Xi )) = Pn0 Pno 2
Pn0 2
j=1 Kij K=1 KiK (Pk − Pi ) − [ j=1 Kij (Pj − Pi )]
³ ´
P (XI )−P (Xj )
donde KiK = K hn
también se puede demostrar (Fan (1992,1993)) de que el LLR estimator de E(Y0 i|P (Xi ), Di =
0) puede ser visto como la solución hata al problema siguiente de regresión pon-
derada:
Xn0 µ ¶
2 P (Xi ) − P (Xj )
mı́n (Y0j − a − b · (P (Xj ) − P (Xi ))) · K
a,b hn
j=1
{Dj =0}
Así, para cada valor P (Xi ) requiere por WLS Y0j sobre una constante y P (Xj ) −
P (Xi ) usado las personas con Dj = 0 y así el intercepto estimado será un esti-
mador de E(Y0i |P (Xi ), Di = 0).
194
Los estimadores no paramétricos de E(Y0i |P (Xi ), Di = 0) esta definido solamente
en los puntos de la densidad f (P (Xi )|D = 0) > 0. Esto significa que deberían
existir valores de P (Xj ) para el grupo de Dj = 0 en la vecindad de los puntos de
evaluación P (Xi ).
Así, observaciones Di = 1 que no tengan un P (XJ ) cercano a P (Xi ) deben ser
excluidas de la estimación.
En general, deberíamos considerar el support para P(X) donde tanto fx (P (X)|D =
1) > 0 como también fx (P (X)|D = 0) o sea la región de overlapping support.
Una forma de determinar este soporte común es al dibujar el histograma de P (Xi )
tanto para los tratados como los de control e identificar visualmente los rangos
donde no hay matches cercanos.
Una forma mas rigurosa de determinar esta región de soporte común es calcular
la densidad F (P (Xi )|D = 0) en cada punto de los P (Xi ) para las observaciones
Di = 1 madiante estimadores de densidad no-paramétrica. Por ejemplo:
Xn0 µ ¶
P (xi ) − P (xK )
fˆ(P (Xi )|Di = 0) = K
hn
K=1
{DK =0}
Una vez que los estimadores de las densidades en cada punto son obtenidos se
debe ordenar los estimadores de densidad. Así, todos los valores de P (Xi ) para
los cuales las densidades estimadas exceden el limite de 1 o 2 % cuantil son con-
sideradas dentro de la región de soporte común. Aquellos por debajo deben ser
excluidos de la estimación.
(Ahora si la región de traslape es muy pequeña es muy pequeña, entonces se deben
recalcular los P(X) al considerar otros X).
195