Apuntes 1
Apuntes 1
Apuntes 1
IntroducciónaalalaEconometría
Econometría
3º3ºdedeEconomía
Economía
Curso 2006-2007
Curso 2008-2009
“Science is Measurement”
(William Thomson, Lord Kelvin)
2
1. ¿Qué es la Econometría?
La Teoría Económica sugiere relaciones entre variables que, normalmente, tienen
implicaciones importantes en el diseño de políticas; pero rara vez sugiere cuál es
la magnitud de los efectos causales entre esas variables.
Por ejemplo:
1. ¿Qué es la Econometría?
4
1. ¿Qué es la Econometría?
La Econometría, como disciplina, surge en el 1º Encuentro de la
Econometric Society en Cleveland, Ohio (USA) en 1930, como una
iniciativa de economistas, matemáticos y estadísticos muy relevantes:
Fisher, Schumpeter, Wiener, Frisch, etc.
1. ¿Qué es la Econometría?
6
2. ¿Para qué sirve?
PREDICCIÓN:
A large body of empirical research has confirmed a positive link between education and
productivity. Better educated employees are generally more productive, and may raise
the productivity of coworkers…..
DATOS: Analizan el efecto que tiene sobre la altura y peso del niño y sobre la
participación laboral de las madres la asistencia a “hogares comunitarios” (madres
de la comunidad que cuidan a niños y además les dan un suplemento nutritivo).
10
2. ¿Para qué sirve?
La Econometría es importante en prácticamente todas las ramas de la
economía aplicada: laboral, salud, industrial, macroeconomía, desarrollo,
internacional, marketing, finanzas, etc.
3. ¿Qué aprenderéis?
12
There are two things you are better off not watching in the
making: sausages and econometric estimates.
-Edward Leamer –
13
¾ Una vez que tenemos esto en cuenta, podemos describir las siguientes
etapas en la investigación econométrica:
14
Ejemplo: Un modelo económico del crimen
1. Pregunta empírica
¾ ¿Qué tipo de políticas son más eficaces para reducir un tipo de crimen
particular: las que aumentan la probabilidad de capturar al criminal o las
que aumentan el castigo?
¾ Este puede ser un tipo de modelo apropiado para ciertos tipos de crímenes,
pero no para otros… 15
donde:
h = horas dedicadas a la actividad criminal
wage = salario por hora en el mercado de trabajo
wcrime = salario por hora en el sector criminal
inc = renta no salarial
pcaught = probabilidad de ser capturado
pconv = probabilidad de ser declarado culpable si es capturado
esent = pena esperada en caso de ser declarado culpable
age = edad
16
Ejemplo: Un modelo económico del crimen
3. Especificación del modelo econométrico
18
5. Tipos de datos
Existen diferentes tipos de datos. Cada uno tiene sus ventajas, sus
inconvenientes y sus características particulares.
19
5. Tipos de datos
20
5. Tipos de datos
Ejemplo de datos de corte transversal:
1 3,10 11 2 1 0
2 3.24 12 22 1 1
3 3.00 11 2 0 0
. . . . . .
. . . . . .
. . . . . .
499 11.56 16 5 0 1
500 3.50 14 5 1 0
21
5. Tipos de datos
22
5. Tipos de datos
Ejemplo de series temporales:
. . . . .
. . . . .
. . . . .
23
5. Tipos de datos
24
5. Tipos de datos
¾ Esta característica hace que este tipo de datos tenga diversas ventajas
sobre los otros.
25
5. Tipos de datos
Ejemplo de datos de panel: datos de 150 ciudades en 2 años
3 2 1999 2 64.300 75
4 2 2000 1 65,100 75
. . . . . .
. . . . . .
26
Programa de la asignatura
27
28
TEMA 1: INTRODUCCIÓN
• ¿Qué es la Econometría?
• ¿Para qué sirve?
• ¿Qué aprenderéis?
• Etapas de la modelización.
• Tipos de datos.
29
30
TEMA 6: VARIABLES ARTIFICIALES
31
BIBLIOGRAFÍA BÁSICA
BIBLIOGRAFÍA COMPLEMENTARIA
1. DISTRIBUCIONES DISCRETAS
rojo 1 2 3 4 5 6
verde
1
2
3
4
5
6
Supongamos que tenemos un dado rojo que toma valores entre 1 y 6 con igual
probabilidad, y un dado verde de las mismas características.
1. DISTRIBUCIONES DISCRETAS
rojo 1 2 3 4 5 6
verde
1
2
3
4
5
6 10
1. DISTRIBUCIONES DISCRETAS
r 1 2 3 4 5 6
v
1
2
3
4
5 7
6
r 1 2 3 4 5 6
v
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
Esta tabla muestra todos los posibles resultados, que van de 2 a 12.
1. DISTRIBUCIONES DISCRETAS
r 1 2 3 4 5 6
x
v 2
3
1 2 3 4 5 6 7 4
5
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
7
1. DISTRIBUCIONES DISCRETAS
r 1 2 3 4 5 6
x f
v 2
3
1 2 3 4 5 6 7 4
5
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
1. DISTRIBUCIONES DISCRETAS
r 1 2 3 4 5 6
x f
v 2
3
1 2 3 4 5 6 7 4
5 4
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
r 1 2 3 4 5 6
x f
v 2 1
3 2
1 2 3 4 5 6 7 4 3
5 4
2 3 4 5 6 7 8 6 5
3 4 5 6 7 8 9 7 6
8 5
4 5 6 7 8 9 10 9 4
5 6 7 8 9 10 11 10 3
11 2
6 7 8 9 10 11 12 12 1
1. DISTRIBUCIONES DISCRETAS
Ejemplo de distribución de probabilidades: x es una variable
aleatoria igual a la suma de dos dados
x f p
r 1 2 3 4 5 6
v 2 1 1/36
3 2 2/36
4 3 3/36
1 2 3 4 5 6 7
5 4 4/36
2 3 4 5 6 7 8 6 5 5/36
7 6 6/36
3 4 5 6 7 8 9
8 5 5/36
4 5 6 7 8 9 10 9 4 4/36
10 3 3/36
5 6 7 8 9 10 11
11 2 2/36
6 7 8 9 10 11 12 12 1 1/36
probabilidad
1 2
__ 3
__ 4
__ 5
__ 6
__ 5
__ 4
__ 3
__ 2 1
__
/ /
36 36 36 36 36 36 36 36 36 36 36
2 3 4 5 6 7 8 9 10 11 12 x
La distribución se muestra gráficamente mediante un histograma.
14
2. DISTRIBUCIONES CONTINUAS
Ejemplo de una función de densidad: x es una variable
aleatoria igual a la temperatura en una habitación
densidad
f(x)
65 70 75 x
f(x)
0.20
0.15
0.10
0.05
65 70 75 x
El área total del triángulo debe ser uno. Dado que la base del triángulo es 10, la altura debe
ser 0.2.
2. DISTRIBUCIONES CONTINUAS
Ejemplo de una función de densidad: x es una variable
aleatoria igual a la temperatura en una habitación
0.15
0.10
0.05
65 70 75 x
En este ejemplo, la función de densidad toma la forma f(x) = a + bx. Para pasar por los
puntos (65, 0.20) y (75, 0), a debe ser igual a 1.50 y b debe ser igual a -0.02.
2. DISTRIBUCIONES CONTINUAS
n
Discreta : E ( x) = x1 p1 + ... + xn pn = ∑ xi pi
i =1
Continua : E ( x) = x ƒ ( x)dx
El valor esperado de una variable aleatoria, conocido también como la media poblacional,
es la suma ponderada de los valores que toma la variable aleatoria, donde los pesos son
las probabilidades ( o densidades) ligadas a esos valores.
1
3. VALOR ESPERADO DE UNA V. ALEATORIA
xi
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
xi pi
x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11
4
3. VALOR ESPERADO DE UNA V. ALEATORIA
xi pi xi p i
x1 p1 x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11
xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11
6
3. VALOR ESPERADO DE UNA V. ALEATORIA
xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3 x3 p3
x4 p4 x4 p4
x5 p5 x5 p5
x6 p6 x6 p6
x7 p7 x7 p7
x8 p8 x8 p8
x9 p9 x9 p9
x10 p10 x10 p10
x11 p11 x11 p11
xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3 x3 p3
x4 p4 x4 p4
x5 p5 x5 p5
x6 p6 x6 p6
x7 p7 x7 p7
x8 p8 x8 p8
x9 p9 x9 p9
x10 p10 x10 p10
x11 p11 x11 p11
Σ xi pi = E(x)
El valor esperado no es más que la suma de la última columna. 8
3. VALOR ESPERADO DE UNA V. ALEATORIA
xi pi xi p i xi pi
x1 p1 x1 p1 2 1/36
x2 p2 x2 p2 3 2/36
x3 p3 x3 p3 4 3/36
x4 p4 x4 p4 5 4/36
x5 p5 x5 p5 6 5/36
x6 p6 x6 p6 7 6/36
x7 p7 x7 p7 8 5/36
x8 p8 x8 p8 9 4/36
x9 p9 x9 p9 10 3/36
x10 p10 x10 p10 11 2/36
x11 p11 x11 p11 12 1/36
Σ xi pi = E(x)
Ejemplo del dado.
xi pi xi p i xi pi xi pi
x1 p1 x1 p1 2 1/36 2/36
x2 p2 x2 p2 3 2/36 6/36
x3 p3 x3 p3 4 3/36 12/36
x4 p4 x4 p4 5 4/36 20/36
x5 p5 x5 p5 6 5/36 30/36
x6 p6 x6 p6 7 6/36 42/36
x7 p7 x7 p7 8 5/36 40/36
x8 p8 x8 p8 9 4/36 36/36
x9 p9 x9 p9 10 3/36 30/36
x10 p10 x10 p10 11 2/36 22/36
x11 p11 x11 p11 12 1/36 12/36
Σ xi pi = E(x) 252/36 = 7
14
3. VALOR ESPERADO DE UNA V. ALEATORIA
n
Discreta : E ( g ( x) ) = g ( x1 ) p1 + ... + g ( xn ) pn = ∑ g ( xi ) pi
i =1
Continua : E ( g ( x) ) = g ( x) f ( x)dx
2
4. VALOR ESPERADO DE UNA FUNCIÓN DE
UNA VARIABLE ALEATORIA
1
5. REGLAS DEL VALOR ESPERADO
3
5. REGLAS DEL VALOR ESPERADO
5
5. REGLAS DEL VALOR ESPERADO
y = a + bx
E(y) = E(a + bx)
= E(a) + E(bx)
= a + bE(x)
8
3
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA
La varianza poblacional de x = E [( x − µ ) ]
2
[ ]
n
Discreta : E ( x − µ ) = ( x1 − µ ) p1 + ... + ( xn − µ ) pn = ∑ ( xi − µ ) 2 pi
2 2 2
i =1
[
Continua : E ( x − µ ) 2 = ] ( x − µ ) 2 f ( x)dx
xi pi
2 1/36
3 2/36
4 3/36
5 4/36
6 5/36
7 6/36
8 5/36
9 4/36
10 3/36
11 2/36
12 1/36
3
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA
xi pi xi-µ
2 1/36
3 2/36
4 3/36
5 4/36
6 5/36 µ x = E( x) = 7
7 6/36
8 5/36
9 4/36
10 3/36
11 2/36
12 1/36
xi pi xi-µ
2 1/36 -5
3 2/36 -4
4 3/36 -3
5 4/36 -2
6 5/36 -1 µ x = E( x) = 7
7 6/36 0
8 5/36 1
9 4/36 2
10 3/36 3
11 2/36 4
12 1/36 5
6
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA
xi pi xi-µ (xi-µ)2
2 1/36 -5 25
3 2/36 -4 16
4 3/36 -3 9
5 4/36 -2 4
6 5/36 -1 1
7 6/36 0 0
8 5/36 1 1
9 4/36 2 4
10 3/36 3 9
11 2/36 4 16
12 1/36 5 25
2 1/36 -5 25 0.69
3 2/36 -4 16 0.89
4 3/36 -3 9 0.75
5 4/36 -2 4 0.44
6 5/36 -1 1 0.14
7 6/36 0 0 0.00
8 5/36 1 1 0.14
9 4/36 2 4 0.44
10 3/36 3 9 0.75
11 2/36 4 16 0.89
12 1/36 5 25 0.69
11
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA
2 1/36 -5 25 0.69
3 2/36 -4 16 0.89
4 3/36 -3 9 0.75
5 4/36 -2 4 0.44
6 5/36 -1 1 0.14
7 6/36 0 0 0.00
8 5/36 1 1 0.14
9 4/36 2 4 0.44
10 3/36 3 9 0.75
11 2/36 4 16 0.89
12 1/36 5 25 0.69
5.83
12
Varianza poblacional de x
E [( x − µ ) 2 ]
pop.var(x)
σ x2
Desviación típica de x
E[( x − µ ) 2 ]
σx
15
EJERCICIO: Demostrar
[ ]
E ( x − µ ) 2 = E ( x 2 ) − [ E ( x)]2
15
8. COVARIANZA POBLACIONAL ENTRE DOS
VARIABLES ALEATORIAS
REGLAS DE LA COVARIANZA
1. Si Y = V + W,
3. Si Y = a, donde a es constante,
Cov(X, Y) = Cov(X, a) = 0
Por tanto, las reglas de la varianza se pueden deducir a partir de las reglas
de la covarianza.
1
9. RELACIÓN ENTRE LA VARIANZA Y LA
COVARIANZA
Regla 1:
Si Y = V + W, Var(Y) = Var(V) + Var(W) + 2Cov(V, W)
Prueba:
Regla 2:
Si Y = bZ, donde b es constante, Var(Y) = b2Var(Z)
Prueba:
Var(Y) = Cov(Y, Y) = Cov(Y, bZ)= …
9. RELACIÓN ENTRE LA VARIANZA Y LA
COVARIANZA
Regla 3:
Si Y = b, donde b es constante, Var(Y) = 0
Prueba:
Var(Y) = Cov(Y, Y)
= Cov(b, b)
=0
18
Regla 4:
Si Y = V + b, donde b es constante, Var(Y) = Var(V)
Prueba:
Var(Y) = Var(V + b)
= Var(V) + Var(b) + 2Cov(V, b)
= Var(V)
0 V
0 V+b
Sumar una constante sólo tiene un efecto de traslación: la varianza no cambiará y la media
se verá desplazada por la constante de la traslación.
10. COEFICIENTE DE CORRELACIÓN
POBLACIONAL
σ XY
ρ XY =
σ X2 σ Y2
1. ESTIMADORES
1
1. ESTIMADORES
1 n
Media: µx x= ∑ xi
n i =1
1 n
Varianza : σ x
2
s2 = ∑ ( xi − x )
2
n − 1 i =1
1 n
Covarianza: σXY Cov( X , Y ) = ∑
n i =1
X iYi − XY
1. ESTIMADORES
Densidad de x Densidad de x
µx x µx x
9
1. ESTIMADORES: Insesgadez y eficiencia
Insesgadez de x:
1 1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
Insesgadez de x:
1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
2
1. ESTIMADORES: Insesgadez y eficiencia
Insesgadez de x:
1 1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
Insesgadez de x:
1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
4
1. ESTIMADORES: Insesgadez y eficiencia
Insesgadez de x :
1 1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
Insesgadez de x:
1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
El estimador general Z lo definimos como la suma ponderada de las dos observaciones que
tenemos, donde los pesos sonλ1 y λ2. Por ejemplo, en el caso de la media muestral los dos
pesos son iguales a 1/n = 1/2 porque sólo tenemos dos observaciones.
6
1. ESTIMADORES: Insesgadez y eficiencia
Insesgadez de x:
1 1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
¿Cómo deben ser esos ponderadores para que el valor esperado del estimador sea igual a
la media poblacional?
Insesgadez de x:
1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
8
1. ESTIMADORES: Insesgadez y eficiencia
Insesgadez de x:
1 1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
Insesgadez de x:
1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
Dado que las variables aleatorias son iid., su valor esperado es µx.
10
1. ESTIMADORES: Insesgadez y eficiencia
Insesgadez de x:
1 1
E ( x ) = E ( x1 + ... xn ) = E ( x1 + ... + xn )
n n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
estimator B
estimador A
µx
¿Cómo elegimos entre estimadores? Cuanto más preciso sea un estimador, es decir,
cuanto menos incertidumbre nos transmita sobre el valor del parámetro, mejor será. La
propiedad de EFICIENCIA se refiere justamente a la precisión.
12
1. ESTIMADORES: Insesgadez y eficiencia
densidad
estimator B
estimador A
µx
13
Analicemos la varianza poblacional del estimador general buscando definir los pesos que
minimicen dicha varianza
14
1. ESTIMADORES: Insesgadez y eficiencia
La varianza de una suma de variables aleatorias es la suma de las varianzas más dos veces
la covarianza. Pero si las variables son independientes, las covarianzas son cero (un poco
más adelante recordaremos las propiedades de la covarianza y la varianza).
15
16
1. ESTIMADORES: Insesgadez y eficiencia
17
18
1. ESTIMADORES: Insesgadez y eficiencia
La varianza depende de λ1, por lo que debemos buscar el λ1 que haga mínima dicha
varianza
19
densidad
estimador B
estimador A
Supongamos que tenemos dos estimadores alternativos para estimar θ, uno es insesgado y
el otro es sesgado pero con varianza menor que el primero: ¿cuál de los dos elegimos?
1
2. Conflicto entre varianza mínima e insesgadez
pérdida
Una forma para decidir entre uno y otro es definirse una función de pérdida: nos
quedaremos con aquél que tenga menor pérdida.
densidad
Distribuciòn del estimador Z
θ
Verdadero
valor del
parámetro
Una función muy utilizada es la que se conoce como el “ERROR CUADRÁTICO MEDIO”
(mean squared error MSE), y se define como el valor esperado del cuadrado de las
desviaciones del estimador respecto al valor poblacional del parámetro que tratamos de
estimar. 3
2. Conflicto entre varianza mínima e insesgadez
MSE( Z ) = E [( Z − θ ) 2 ] = σ Z2 + ( µ Z − θ ) 2
densidad
sesgo
θ µZ
El error cuadrático medio puede escribirse como la suma del sesgo al cuadrado más la
varianza: es decir, combina el conflicto entre varianza y sesgo en un solo indicador.
Supongamos que el sesgo del estimador respecto a µZ es el que aparece en el gráfico.
4
densidad
sesgo
θ µZ
5
2. Conflicto entre varianza mínima e insesgadez
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
7
2. Conflicto entre varianza mínima e insesgadez
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
9
2. Conflicto entre varianza mínima e insesgadez
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
10
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
11
2. Conflicto entre varianza mínima e insesgadez
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
12
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
13
2. Conflicto entre varianza mínima e insesgadez
densidad
estimador B
estimador A
¿Cómo elegiremos entre ambos estimadores? Buscando aquel que tenga menor MSE.
14
n σx
0.08 1 50
0.06
0.04
0.02 n=1
1
3. Consistencia de los estimadores
densidad de x
n σx
0.08 1 50
0.06
0.04
0.02 n=1
Supongamos que x tiene media poblacional 100 y desviación típica 50. Supongamos,
además, que no conocemos esta media y que queremos estimarla
n σx
0.08 1 50
0.06
0.04
0.02 n=1
De las propiedades de la media muestral, sabemos que su media coincide con la media
poblacional, que es insesgada y que su desviación típica será igual a la desviación típica
poblacional dividida por la raíz cuadrada del número de observaciones. n
3
3. Consistencia de los estimadores
densidad de x
n σx
0.08 1 50
0.06
0.04
0.02 n=1
Por tanto, cuanto mayor sea n, menor será la varianza de la media muestral.
n σx
0.08 1 50
0.06
0.04
0.02 n=1
5
3. Consistencia de los estimadores
densidad de x
n σx
0.08 1 50
4 25
0.06
0.04
n=4
0.02
n σx
0.08 1 50
4 25
25 10
0.06
n = 25
0.04
0.02
7
3. Consistencia de los estimadores
densidad de x
n σx
0.08 n = 100 1 50
4 25
25 10
0.06 100 5
0.04
0.02
n σx
0.8 1 50
4 25
25 10
0.6 100 5
n = 1000 1000 1.6
0.4
0.2
10
3. Consistencia de los estimadores
densidad de x
n = 5000 n σx
0.8 1 50
4 25
25 10
0.6 100 5
1000 1.6
5000 0.7
0.4
0.2
En el límite, la desviación típica de la media muestral tiende a cero, por lo que la media
muestral tenderá, en el límite, a la media poblacional: consistencia.
11
plim x = µ
14
n = 20
θ Z
1
3. Consistencia de los estimadores
densidad de Z
n = 20
θ Z
n = 100
n = 20
θ Z
Para que el estimador sea consistente, deben pasar dos cosas puando la muestra aumenta.
El sesgo debe disminuir.
3
3. Consistencia de los estimadores
n = 1000
n = 100
n = 20
θ Z
n = 100000
n = 1000
n = 100
θ Z
6
Tema 3
Modelo de regresión lineal simple (I)
¿ Qué recoge u?
- Algunas variables que explican la variable dependiente y, pero que no son
observables o no se pueden medir.
- Errores de especificación, es decir, variables explicativas importantes que
hemos omitido por error, no porque no las podamos medir.
- Errores de medición de la variable dependiente.
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
y = β1 + β2 x + u
β1 + β 2 X
β1
X1 X2 X3 X4 X
Si nuestro interés fuera conocer la relación que une a X con Y, entonces deberíamos
estimar los parámetros desconocidos.
1
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
β1 + β 2 X
Q4
Q3
Q2
β1 Q1
X1 X2 X3 X4 X
Si la relación entre X e Y fuera exacta, sólo bastarían dos puntos para hallar una
solución para los parámetros β1 y β2. 3
Y P4
β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2
X1 X2 X3 X4 X
Sin embargo, las relaciones económicas no son exactas: muchos de los puntos que
observamos no van a estar en la recta
4
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Y P4
β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2
X1 X2 X3 X4 X
Y P4
β1 + β 2 X
Q4
u1 P1 Q3
Q2
β1 Q1 P3
P2
β1 + β 2 X 1
X1 X2 X3 X4 X
Y P4
P1
P3
P2
X1 X2 X3 X4 X
Y P4
Yˆ = b1 + b2 X
P1
P3
P2
b1
X1 X2 X3 X4 X
Naturalmente, podríamos utilizar los puntos P para dibujar una línea que aproxime
^
Y = β1 + β2X.
Podemos escribir esta línea como Y = b1 + b2X, donde b1 es una estimación de β1 y b2 8
Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4
R2
P1
R1 P3
P2
b1
X1 X2 X3 X4 X
Y (valor real)
Y Ŷ (valor predicho) P4
Y − Yˆ = e (residuo) e4 Yˆ = b1 + b2 X
R3 R4
R2
e1 P1 e3
e2
R1 P3
P2
b1
X1 X2 X3 X4 X
Observad que hay una discrepancia entre el valor de Y realmente observado (los
puntos P) y el valor predicho por la línea aproximada (R). A esta discrepancia se le
llama residuo.
10
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1
β1 R1 P3
P2
b1
X1 X2 X3 X4 X
Es importante observar que los valores que toman los residuos son distintos a los
valores del término de perturbación. Esto es debido a que la aproximación que
hacemos nunca va a coincidir exactamente con la verdadera línea que relaciona a
estas variables.
11
Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2
b1
X1 X2 X3 X4 X
12
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1
β1 R1 P3
P2
b1
X1 X2 X3 X4 X
Los residuos son la diferencia entre el valor real y el valor predicho por la recta
estimada en base a la “aproximación” de los parámetros desconocidos
13
Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1
β1 R1 P3
P2
b1
X1 X2 X3 X4 X
Entonces, es natural que cuando los residuos sean pequeños, el ajuste sea bueno y
los residuos tiendan a estar cerca de la perturbación. Pero lo que debe quedar claro
es que los dos conceptos representan cosas distintas.
14
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Y (valor real)
Y Ŷ (valor predicho) P4
u4 Yˆ = b1 + b2 X
β1 + β 2 X
Q4
β1 β1 + β 2 X 4
b1
X1 X2 X3 X4 X
Y (valor real)
Y Ŷ (valor predicho) P4
u4 Yˆ = b1 + b2 X
β1 + β 2 X
Q4
β1 β1 + β 2 X 4
b1
X1 X2 X3 X4 X
17
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
Y (valor real)
Y Ŷ (valor predicho) P4
e4 Yˆ = b1 + b2 X
R4 β1 + β 2 X
β1 b1 + b2 X 4
b1
X1 X2 X3 X4 X
Por
Porqué
quédecimos
decimosque
queeste
estesupuesto
supuestono
noes
esrestrictivo:
restrictivo:
YY==ββ1 ++ββ2XX++uu
1 2
Suponed
Suponed E(u)
E(u) ==µµuu ≠≠ 0.0.
Entonces
Entonces YY ==bb1 ++bb2XX++vv++µµu
1 2 u
==(b µ
(b11 + µuu) + b22X +vv
+ ) + b X +
donde
donde E(v) E(u--µµuu))==E(u)
E(v) ==E(u E(u)--E(µ
E(µuu))==00
f(y)
E(y|x) = β1 + β2x
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
wage = β1 + β2 educ + u
EJERCICIO 1
Sea kids el número de niños que una mujer ha tenido y educ el
número de años de educación que la mujer ha recibido. El
siguiente es un modelo simple que relaciona la fertilidad con
el número de años de educación.
kids = β1 + β2 educ + u
Donde u es el error no observado.
a) ¿Qué tipo de factores están en u? ¿Pueden éstos estar
correlacionados con el nivel de educación?
b) En el análisis de regresión nosotros estamos interesados
en hacer interpretaciones de efectos causales. Para ello
debemos medir relaciones entre educ y kids “ceteris
paribus”, es decir, si lo demás permanece constante. De
acuerdo con lo que respondiste en el apartado anterior,
crees que en este modelo el β2 mide el efecto causal de
educ sobre kids?
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
Si un ajuste bueno es aquél que tiene los residuos pequeños, ¿por qué no
buscar unos valores para los parámetros que hagan mínimo este residuo?
∑ei =1
i = e1 + ... + en
19
Y P4
Y P1
P3
P2
X1 X2 X3 X4 X
21
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
Y Verdadero : Y = β1 + β2 X + u
Yn
Y1
X1 Xn X
13
Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X
Yˆn = b1 + b2 X n
Yn
Y1
Yˆ1 = b1 + b2 X 1
b1 b2
X1 Xn X
Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X
Yˆn = b1 + b2 X n
Yn
Y1
e1 e1 = Y1 − Yˆ1 = Y1 − b1 − b2 X 1
.....
Yˆ1 = b1 + b2 X 1
b1 b2 en = Yn − Yˆn = Yn − b1 − b2 X n
X1 Xn X
15
Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X
Yˆn = b1 + b2 X n
en
Yn
Y1
e1 e1 = Y1 − Yˆ1 = Y1 − b1 − b2 X 1
.....
Yˆ1 = b1 + b2 X 1
b1 b2 en = Yn − Yˆn = Yn − b1 − b2 X n
X1 Xn X
n n
∑ (e ) ∑ (Y − b1 − b 2 X i )
2 2
SCR = i = i
i =1 i =1
17
n n
∑ (e ) ∑ (Y − b1 − b 2 X i )
2 2
min b1 , b 2 SCR = i = i
i =1 i =1
∂ SCR
=0 ⇒ ∑ 2 ( Y i − b1 − b 2 X i )( − 1 ) = 0 ⇒
b1
………….
b1 = Y − b2 X
∂ SCR
b2
=0 ⇒ ∑ 2 ( y i − b1 − b 2 X i )( − X i ) = 0 ⇒
2b2 ∑X i
2
− 2 ∑Xi Yi + 2 b1 ∑Xi = 0
17
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
Se divide por 2.
26
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0
b1 = Y − b2 X
27
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0
X=
∑X i
∑X i = nX
28
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0
b2 (∑ X i2 − nX 2 ) = ∑ X iYi − nXY
1 1
b2 ∑ X i2 − X 2 = ∑ X iYi − XY
n n
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0
b2 (∑ X i2 − nX 2 ) = ∑ X iYi − nXY
1 1
b2 ∑ X i2 − X 2 = ∑ X iYi − XY
n n
b2 Var( X ) = Cov( X , Y )
Así, obtenemos una expresión para b2. Cov( X , Y )
b2 =
Var( X )
Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X
Yˆn = b1 + b2 X n
Yn
Y1
Yˆ1 = b1 + b2 X 1
b1 b2
X1 Xn X
Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X
Yˆn = b1 + b2 X n
Yn
Y1
b1 = Y − b2 X
Yˆ1 = b1 + b2 X 1 Cov( X , Y )
b2 b2 =
b1 Var( X )
X1 Xn X
32
1
n
∑ ( X i − X )(Yi − Y ) ∑ ( X i − X )(Yi − Y )
b2 = =
1
∑ i ( X − X ) 2 ∑ ( X i − X )2
n
34
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
Cov( X , Y )
b2 =
Var( X )
1
n
∑ ( X i − X )(Yi − Y ) ∑ ( X i − X )(Yi − Y )
b2 = =
1
∑ i ( X − X ) 2 ∑ ( X i − X )2
n
1
n
∑ X iYi − XY ∑ X iYi − nXY
b2 = =
1
∑ i
X 2
− X 2 ∑ X i2 − nX 2
n
...y utilizando las expresiones alternativas de la varianza y covarianza
muestral que calculamos en clases anteriores.
35
3. INTERPRETACIÓN DE LA REGRESIÓN
80
70
60
Salario por hora ($)
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10
Estudios
1
3. INTERPRETACIÓN DE LA REGRESIÓN
------------------------------------------------------------------------------
SALARIO | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | 1.073055 .1324501 8.102 0.000 .8129028 1.333206
_cons | -1.391004 1.820305 -0.764 0.445 -4.966354 2.184347
------------------------------------------------------------------------------
3. INTERPRETACIÓN DE LA REGRESIÓN
80
^
70 Salario = −1.391 + 1.073S
60
50
Salario
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10
Estudios
11
3. INTERPRETACIÓN DE LA REGRESIÓN
15
14
13
$11.49
12
Salario
11 $1.07
Un año
10
$10.41
9
7
10.8 11 11.2 11.4 11.6 11.8 12 12.2
Estudios
12
3. INTERPRETACIÓN DE LA REGRESIÓN
80
^
70 Salario = −1.391 + 1.073S
60
50
Ingreso
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10
Estudios
¿Qué significa el término constante? En este caso, ¿su valor tiene sentido?
La razón por la que obtenemos ese valor negativo es porque en nuestra muestra sólo
hay individuos con un nivel de estudios igual o superior a 6 años. Entonces…. 15
3. INTERPRETACIÓN DE LA REGRESIÓN
80
^
70 Salario = −1.391 + 1.073S
60
50
Salario
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10
Estudios
18
EJERCICIO 2
El siguiente cuadro contiene los resultados de la prueba de aptitud para el
acceso a la universidad en EE.UU. (ACT, American College Testing) y la nota
media en la universidad (GPA, Grade Point Average) de 8 estudiantes. El
GPA se basa en una escala de 1 a 4.
a) Estimar la relación entre GPA y ACT empleando MCO, es decir, obtener los
valores estimados de los parámetros del modelo
GPA = β1 + β2 ACT + u
¿En este ejemplo, el término constante tiene una interpretación útil? ¿Cuánto
aumenta GPA si ACT aumenta 5 puntos?
b) Calcula los valores ajustados y los residuos para cada observación.
c) Calcular el valor predicho para GPA cuando ACT=20.
4. BONDAD DE AJUSTE
e =0 Yˆ = Y Cov(Yˆ , e ) = 0
4. BONDAD DE AJUSTE
e =0 Yˆ = Y Cov(Yˆ , e ) = 0
Demostrar e =0
3
4. BONDAD DE AJUSTE
e =0 Yˆ = Y Cov(Yˆ , e ) = 0
Demostrar Yˆ = Y
ei = Yi − Yˆi = Yi − b1 − b2 X i
∑ e = ∑ Y − ∑ Yˆ
i i i
1 1 1
n
∑ e i =
n
∑ Yi −
n
∑ Yˆi
e = Y − Yˆ Yˆ = Y
11
4. BONDAD DE AJUSTE
e =0 Yˆ = Y Cov(Yˆ , e ) = 0
Demostrar Cov(Yˆ , e ) = 0
Cov(Yˆ , e ) = Cov([b1 + b2 X ]), e ) = Cov(b1 , e ) + Cov(b2 X , e )
= 0 + b2Cov( X , e ) = b2Cov( X , [Y − b1 − b2 X ])
= b2 [Cov( X , Y ) − Cov( X , b1 ) − Cov( X , b2 X )]
= b2 [Cov( X , Y ) − b2Cov( X , X )]
Cov( X , Y )
= b2 Cov( X , Y ) − Var( X ) = 0
Var( X )
21
4. BONDAD DE AJUSTE
ei = Yi − Yˆi ⇒ Yi = Yˆi + ei
23
4. BONDAD DE AJUSTE
ei = Yi − Yˆi ⇒ Yi = Yˆi + ei
∑ (Y − Y ) = ∑ (Yˆ − Y ) + ∑ e
2 2 2
SCE ∑ (Yˆi − Y ) ∑
2 2
ei
R =
2
= = 1−
SCT ∑ (Yi − Y ) 2 ∑ (Yi − Y )2
Un criterio de bondad de ajuste es el coeficiente de determinación.
35
4. BONDAD DE AJUSTE
Cov(Y , Yˆ ) Cov([Yˆ + e ], Yˆ )
rY ,Yˆ = =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Cov(Yˆ , Yˆ ) + Cov( e , Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Var(Yˆ ) Var(Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y )
Otro criterio de bondad
2 de ajuste es la correlacion entre el valor observado
= R
y ajustado de la variable Y.
37
4. BONDAD DE AJUSTE
Cov(Y , Yˆ ) Cov([Yˆ + e ], Yˆ )
rY ,Yˆ = =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Cov(Yˆ , Yˆ ) + Cov( e , Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Var(Yˆ ) Var(Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y )
= R2
43
Tema 4
Modelo de regresión lineal múltiple
1. MOTIVACIÓN
y = β1 + β2 x2 + β3 x3 + . . . βk xk + u
y = variable dependiente
x2, x3 . . . xk = variables explicativas
u = perturbación aleatoria
β1 = constante
β2 β3 . . . βk = parámetros de pendiente
1. MOTIVACIÓN
Yi = β 1 + β 2 X 2 i + β 3 X 3 i + ui
Yˆi = b1 + b2 X 2 i + b3 X 3 i
Los parámetros del modelo original son obtenidos por el método de mínimos cuadrados
ordinarios, de donde se obtienen los estimadores b1, b2, y b3.
11
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
Yi = β 1 + β 2 X 2 i + β 3 X 3 i + ui
Yˆi = b1 + b2 X 2 i + b3 X 3 i
ei = Yi − Yˆi = Yi − b1 − b2 X 2 i − b3 X 3 i
12
SCR = ∑ e i2 = ∑ (Yi − b1 − b2 X 2 i − b3 X 3 i ) 2
EJERCICIO:
Derivar los estimadores MCO de los parámetros. Recordad que tenéis que minimizar
la expresión anterior, es decir, debéis resolver las siguientes condiciones de primer
orden
14
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
ESTIMADORES MCO:
b1 = Y − b2 X 2 − b3 X 3
15
15
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
15
EJEMPLO:
Vamos a estimar una ecuación de ingresos salariales. Para ello, utilizamos información
sobre 570 trabajadores. La especificación propuesta supone que los ingresos salariales
están explicados por los años de estudios del trabajador (S) y el nivel intelectual del
individuo, medido por el resultado de un test de inteligencial (HABIL)
15
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
------------------------------------------------------------------------------
INGRESOS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
HABIL | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------
ˆ
ingresos = −4.62 + 0.74 S + 0.15 habil
20
90
80
70
60
Ingresos por hora
50
40
30
20
10
0
0 5 10 15 20 25
-10
Años de Estudio
Pero supongamos que lo que nos interesa es la relación entre ingresos y S: si observamos
únicamente este gráfico para extraer conclusiones, éstas podrían estar equivocadas dado
que sabemos que la inteligencia (HABIL) afecta al ingreso, pero también a la educación.
2
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
90
. correlación S hábil
80 (obs=570)
| S hábil
--------+------------------
70
S| 1.0000
hábil | 0.5779 1.0000
Ingreso por hora 60
50
40
30
20
10
0
0 5 10 15 20 25
-10
Años de estudio
Existe una relación positiva fuerte entre S y hábil, y también entre hábil e ingresos. Es por
ello que mirar únicamente la relación entre S e ingreso podría llevarnos a conclusiones
equivocadas.
4
------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
hábil | .2687432 .035666 7.535 0.000 .1986898 .3387966
_cons | -.359883 1.818571 -0.198 0.843 -3.931829 3.212063
------------------------------------------------------------------------------
6
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
. reg S hábil
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
hábil | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
70
60
Residuos Ingreso frente a Hábil
50
40
30
20
10
0
-6 -4 -2 0 2 4 6 8
-10
-20
Residuos S frente a Hábil
Una vez que hemos hecho eso, representamos gráficamente los residuos de ambas
regresiones. Esta gráfica nos muestra la relación entre el ingreso y S, una vez depurado el
efecto de la habilidad. La recta oscura es la regresión entre los residuos y la más clara es la
regresión original entre ingresos y estudios. 9
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
. reg Res-ingresos res-estudios
Source | SS df MS Number of obs = 570
---------+------------------------------ F( 1, 568) = 21.21
Model | 1256.44239 1 1256.44239 Prob > F = 0.0000
Residual | 33651.2873 568 59.2452241 R-squared = 0.0360
---------+------------------------------ Adj R-squared = 0.0343
Total | 34907.7297 569 61.3492613 Root MSE = 7.6971
------------------------------------------------------------------------------
Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244
_cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333
------------------------------------------------------------------------------
PREGUNTA:
¿Por qué la estimación de la constante en este modelo es prácticamente igual a 0?
(* PISTA: pensad en la fórmula del estimador de la constante en un modelo de regresión
simple)
11
Regresión multiple:
------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
habil | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------
12
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
15
Y = β1 + β 2 X 2 + β 3 X 3 + u Yˆ = b1 + b2 X 2 + b3 X 3
σ u2 1
Varianza poblacional b2 = σ = ×
2
nVar( X 2 ) 1 − rX22 , X 3
b2
►► El segundo componente está relacionado con la correlación que existe entre las
dos variables explicativas del modelo. Cuanto mayor sea la correlación entre estas dos
variables, mayor será la varianza del estimador. Esto se debe a que cuanto mayor sea
la correlación entre las dos variables explicativas, más difícil será discriminar entre el
efecto que dichas variables producen en la Y y, por lo tanto, menos precisa será la
estimación.
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
Y = β1 + β 2 X 2 + β 3 X 3 + u Yˆ = b1 + b2 X 2 + b3 X 3
σ u2 1
Varianza poblacional b2 = σ = ×
2
nVar( X 2 ) 1 − rX22 , X 3
b2
σ u2 1
Desviación típica b2 = ×
nVar( X 2 ) 1 − rX22 , X 3
n−k 2
E [Var(e )] = σu
n
El estimador insesgado es:
n su2 1
s =
2
Var(e ) s.e. (b2 ) = ×
u
n−k nVar( X 2 ) 1 − rX22 , X 3
Tema 5
Inferencia y predicción en el modelo de
regresión lineal
1. SUPUESTO DE NORMALIDAD
Supuesto 6: Normalidad
u es independiente de x1, x2,…, xk y u sigue una distribución Normal
con media cero y varianza σ2
u ~ Normal(0,σ2)
1. SUPUESTO DE NORMALIDAD
[
βˆ j ~ Normal β j , Var βˆ j ( )]
por tanto
(βˆ − β ) ~ Normal (0,1 )
( )
j j
sd βˆ j
1. SUPUESTO DE NORMALIDAD
• No lo necesitamos.
Modelo: Y = β1 + β2X + u
Hipótesis nula: H 0 : β 2 = β 20
Hipótesis alternativa H 1 : β 2 ≠ β 20
Modelo: Y = β1 + β2X + u
Hipótesis nula: H 0 : β 2 = β 20
Hipótesis alternativa H 1 : β 2 ≠ β 20
Función de densidad
de probabilidad de b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)
Si la hipótesis nula es cierta, el estimador b2 tendrá una distribución con media 1.0. Para
dibujar la distribución debemos conocer su desviación típica.
Suponemos que conocemos la desviación típica y que es igual a 0.1. Este es un supuesto
muy poco realista. En la práctica esta desviación típica la tenemos que estimar.
6
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β20 es cierta (la desviación típica se
considera conocida)
Esta sería la distribución de b2 para el caso general. En lo que sigue suponemos que
conocemos la desviación típica (sd=standard deviation).
8
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)
¡NO LO ES! Es cierto que la estimación es inferior a 1.0 pero, debido a que existe el término
de perturbación en el modelo, nosotros no podríamos esperar una estimación exactamente
igual a 0.9. 9
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)
Si la hipótesis nula fuese cierta, las estimaciones no deberían estar lejos de 0.9. De modo
que no parece existir conflicto entre la estimación y lo que proponemos en la hipótesis
nula.
11
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Función de densidad
de probabilidad b2
31.7%
En el caso general, el resultado equivale a haber obtenido una estimación que esté
solamente una desviación típica por debajo del valor hipotético.
Si la hipótesis nula fuese cierta, la probabilidad de obtener una estimación una desviación
típica (o más) por encima o por debajo del valor medio es 31.7%.
12
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)
Función de densidad
de probabilidad b2
1.4 está cuatro desviaciones típicas por encima del valor hipotético y la probabilidad de
obtener una estimación más extrema que ésta es sólo del 0.006%. En este caso,
rechazaríamos la hipótesis nula.
15
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)
Supongamos que ahora obtemos una estimación igual a 0.77. Este es un resultado
complicado para emitir un juicio sobre la hipótesis nula.
16
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Función de densidad
de probabilidad b2
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β200 es cierta
0
(la desviación típica se
considera conocida)
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β20 es cierta (la desviación típica se
considera conocida)
2.5% 2.5%
Por ejemplo, podríamos decidir rechazar la hipótesis nula si ello implicase que la
probabilidad de obtener un valor tan extremo como el obtenido fuese menor que 0.05 (5%).
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)
2.5% 2.5%
23
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β2 es cierta (la desviación típica se
considera conocida)
2.5% 2.5%
La segunda sí lo haría.
24
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β2 es cierta (la desviación típica se
considera conocida)
2.5% 2.5%
25
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β2 es cierta
0
(la desviación típica se
considera conocida)
2.5% 2.5%
Las colas que acumulan el 2.5% de probabilidad en una distribución normal siempre
comienzan a 1.96 desviaciones típicas de su media.
26
Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
2.5% 2.5%
27
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
2.5% 2.5%
28
2.5% 2.5%
29
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
b2 − β 20
z=
s.d.
2.5% 2.5%
30
2.5% 2.5%
Entonces, la regla de decisión consiste en rechazar la hipótesis nula si z es mayor que 1.96
en términos absolutos.
30
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
2.5% 2.5%
32
2.5% 2.5%
Los valores de z que definen la región de aceptación son 1.96 y -1.96 (para un nivel de
significación del 5%).
32
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
2.5% 2.5%
La región de aceptación para b2 es el intervalo 0.804 a 1.196. Una estimación muestral que
caiga en este rango no conducirá a un rechazo de la hipótesis nula. 36
2.5% 2.5%
2.5% 2.5%
Por supuesto, podemos reducir el riesgo de cometer un error Tipo I si reducimos el tamaño
de la región de rechazo.
Por ejemplo, podríamos cambiar la regla de decisión y fijar una nueva tal que “rechacemos
la hipótesis nula si la probabilidad de obtener una estimación muestral como la obtenida es
menor que 0.01 (1 %)”.
37
Función de densidad
de probabilidad b2
2.5% 2.5%
La región de rechazo se convierte ahora en las colas superior en inferior que acumulan el
0.5% de la probabilidad.
42
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
0.5% 0.5%
Las colas que acumulan el 0.5% de la probabilidad de una distribución normal comienzan a
2.58 desviaciones típicas de la media, de manera que ahora rechazamos la hipótesis nula si
el valor del estadístico z es mayor que 2.58 en valor absoluto.
43
0.5% 0.5%
Como la probabilidad de cometer un error Tipo I, si la hipótesis nula es cierta, es ahora del
1%, se dice que el contraste se realiza a un nivel de significación del 1 %.
44
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
0.5% 0.5%
La región de aceptación para b2 es el intervalo entre 0.742 y 1.258. Puesto que es más
amplio que el correspondiente al contraste al nivel de significación del 5%, existe un riesgo
menor de cometer un error Tipo I, si la hipótesis nula es cierta. 45
Función de densidad 5%: β 2 − 1.96 s.d. ≤ b2 ≤ β 2 + 1.96 s.d. -1.96 < z < 1.96
0 0
de probabilidad b2 1%: β 20 − 2.58 s.d. ≤ b2 ≤ β 20 + 2.58 s.d. -2.58 < z < 2.58
nivel 1%
b − β 20
z= 2 nivel 5%
s.d.
0.5% 0.5%
Este diagrama compara los procesos de decisión para contrastes al 5% y 1%. Notar que si
se rechaza H0 al 1%, debe rechazarse también al 5%.
Notar también que si b2 cae dentro de la región de aceptación del contraste al 5%, también
debe caer dentro de la región de aceptación al 1%.
47
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Ejemplo:
Caso general Decisión precios/salarios
49
3. ERROR TIPO I Y ERROR TIPO II
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
5% nivel
2.5% 2.5%
Hemos definido error de Tipo I como el rechazo de la hipótesis nula cuando es cierta.
En el contraste de hipótesis, también existe la posibilidad de no rechazar la hipótesis nula
cuando es falsa. Esto se conoce como error de Tipo II.
Aquí demostraremos que existe un intercambio o trade-off entre el riesgo de cometer un
error de Tipo I y el riesgo de cometer un error Tipo II.
1
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
5% nivel
2.5% 2.5%
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
5% nivel
0.5% 0.5%
¿Cuáles son las implicaciones de la elección del nivel de significación si la hipótesis nula
es falsa?
5
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
Supongamos que H1: β2 = β21 es cierta y, por tanto, la distribución de b2 es la curva que se
presenta en la parte derecha.
8
3. ERROR TIPO I Y ERROR TIPO II
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
Aquí tenemos otra estimación (suponemos que hemos conseguido una muestra distinta a
la anterior). De nuevo, la decisión correcta sería rechazar la hipótesis nula, tanto para un
nivel de significación del 5% como del 1%.
10
3. ERROR TIPO I Y ERROR TIPO II
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
11
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
14
3. ERROR TIPO I Y ERROR TIPO II
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
Es el área gris del gráfico. En este caso particular, si realizásemos el contraste al 5% en vez
de al 1%, el riesgo de cometer error Tipo II se reduciría casi a la mitad.
15
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
El problema es, por supuesto, que nunca sabemos si H0 es cierta o falsa. Si lo supiéramos,
¿para qué ibamos a hacer contrastes?
17
3. ERROR TIPO I Y ERROR TIPO II
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
s.d. de b2 conocida
Por esta razón, necesitamos mirar la tabla de valores críticos de la t cuando realizamos
contrastes de significación sobre los coeficientes de la regresión.
19
Nótese que confome aumentan los grados de libertad, el valor crítico converge a 1.96, que
es el valor crítico de una distribución normal. Esto es porque la distribución t converge a
una distribución normal.
24
5. CONTRASTES DE UNA COLA
0
Supongamos que nos interesan alternativas a la hipótesis nula de la forma H1 : β2 > 0; por
alguna razón, estamos descartando valores del parámetro menores que cero. (Otra
forma de ver esto es que la hipótesis nula sea en realidad H0: β2 ≤ 0; tanto en un caso
como en otro la implementación del contraste es igual).
¿Cómo deberíamos elegir una regla de rechazo de la hipótesis nula?
36
no rechazar H0 rechazar H0
5%
0 1.65 sd
Primero debemos elegir un nivel de significación o la probabilidad de rechazar H0 cuando
es cierta. En concreto, supongamos que elegimos un nivel de significatividad del 5%, que
es lo más habitual. De este modo, estamos dispuestos a rechazar erróneamente H0 cuando
es verdadera el 5% de las veces.
Fijémonos que, si H1 fuese verdadera, el valor del estadístico t sería positivo. Por tanto, la
región de rechazo será aquélla para la cual los valores del estadístico sean
36
“suficientemente grandes (y positivos)”. A un nivel del 5%, será la que aparece arriba.
5. CONTRASTES DE UNA COLA
rechazar H0 no rechazar H0
5%
-1.65 sd 0
36
6. INTERVALOS DE CONFIANZA
( yi xi ' ) 2
1
f ( yi | xi , , ) e 2 2
2 2
Y
= 1
+ 2
X
Y
1 + 2Xi
1
X X
EJERCICIO:
Estimador MV en el modelo de regresión lineal bajo el supuesto de normalidad.
4. Estimadores
e x
p( x )
x!
Donde λ es un parámetro desconocido y x! = x ( x-1) (x-2)…..
En una muestra de 3 observaciones, los valores de la variable aleatoria
son 2, 5 y 2:
a) Escribe la función de verosimilitud de la muestra
b) Deriva el estimador MV de λ
2. PROPIEDADES ASINTÓTICAS
1. CONSISTENCIA
2. PROPIEDADES ASINTÓTICAS
1. CONSISTENCIA
1º PROCEDIMIENTO PARA DEMOSTRAR CONSISTENCIA
Se trata de demostrar la
Convergencia en Media
Cuadrática.
2. PROPIEDADES ASINTÓTICAS
1. CONSISTENCIA
2º PROCEDIMIENTO PARA DEMOSTRAR CONSISTENCIA
2. PROPIEDADES ASINTÓTICAS
1. CONSISTENCIA
1º PROCEDIMIENTO
2º PROCEDIMIENTO
2. PROPIEDADES ASINTÓTICAS
2. DISTRIBUCIÓN ASINTÓTICA
2. DISTRIBUCIÓN ASINTÓTICA
Ejemplo:
Estadístico t ~ t-Student
a d
Estadístico t ~ N(0,1) o bien Estadístico t → N(0,1)
2. PROPIEDADES ASINTÓTICAS
2. DISTRIBUCIÓN ASINTÓTICA
0.4
Normal (0,1)
t, 10 g.l.
0.3
t, 5 g.l.
0.2
0.1
0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
2. PROPIEDADES ASINTÓTICAS
2. DISTRIBUCIÓN ASINTÓTICA
Igual que ocurre con la Ley de los Grandes Números, existen diferentes
Teoremas Centrales del Límite cuando las Xi no son i.i.d. (se suelen
exigir condiciones de diferentes para que se cumpla).
2. PROPIEDADES ASINTÓTICAS
2. DISTRIBUCIÓN ASINTÓTICA
Consistencia
Distribución asintótica Normal
Eficiencia asintótica
Invarianza
3. PROPIEDADES DEL ESTIMADOR MÁXIMO VEROSÍMIL
(MAXIMUM LIKELIHOOD ESTIMATOR)
3. PROPIEDADES DEL ESTIMADOR MÁXIMO VEROSÍMIL
(MAXIMUM LIKELIHOOD ESTIMATOR)
4. CONCEPTOS HABITUALES EN ESTIMACIÓN ML
4. CONCEPTOS HABITUALES EN ESTIMACIÓN ML
Tres métodos:
Por tanto:
EJERCICIO:
g(.) es no lineal
(1 x k) (k x k) (k x 1)
5. EL MÉTODO DELTA
Donde:
7. BONDAD DE AJUSTE
∑ (Y − Y ) = ∑ (Yˆ − Y ) + ∑ e
2 2 2
SCE ∑ (Yˆi − Y )
2
R =2
=
SCT ∑ (Yi − Y ) 2
Uno de los defectos del R2 es que nunca puede disminuir cuando añadimos una
nueva variable explicativa en la ecuación de regresión. Esto se debe a que la
“suma de cuadrados de los residuos” nunca aumenta (de hecho, normalmente
suele disminuir) conforme se van añadiendo más variables independientes. En
ocasiones, esas variables que añadimos no son estadísticamente significativas,
por lo tanto el R2 no nos ayuda a seleccionar bien entre especificaciones con
diferente número de variables explicativas (e idéntica variable dependiente).
Uno de los atractivos del R2-ajustado es que penaliza a los modelos que
añaden muchas variables explicativas, contrarrestando de ese modo lo que
ocurre con la SCR.
Y = β 1 + β 2 X 2 + ... + β k X k + u
H 0 : β 2 = ... = β k = 0
H 1 : al menos un β ≠ 0
Observar:
• hay k parámetros en el modelo y, como incluimos una constante, tenemos k-1
variables explicativas
• la hipótesis nula plantea si estas variables explican la variabilidad de la
variable dependiente.
4
8. CONTRASTE F DE BONDAD DE AJUSTE
Y = β 1 + β 2 X 2 + ... + β k X k + u
H 0 : β 2 = ... = β k = 0
H 1 : al menos un β ≠ 0
ESTADÍSTICO DE CONTRASTE:
SCE ( k − 1)
F ( k − 1, n − k ) =
SCR ( n − k )
SCE
Grados de ( k − 1)
SCT R 2 ( k − 1)
libertad en el
= =
numerador SCR (1 − R 2
) (n − k )
Grados de (n − k )
libertad en el SCT
denominador 4
Y = β 1 + β 2 X 2 + ... + β k X k + u
H 0 : β 2 = ... = β k = 0
H 1 : al menos un β ≠ 0
f(F)
SCE ( k − 1)
No rechazo H0 F ( k − 1, n − k ) =
SCR ( n − k )
Rechazo H0
(1 − α) α
0 c=Valor
crítico F
8. CONTRASTE F DE BONDAD DE AJUSTE
EJERCICIO:
H0 : β2 = β3 = 0
H 1 : al menos un β ≠ 0
f (F)
SCE (k − 1)
F = F (2, 290)
SCR (n − k ) No rechazo F * =36.73
Valor empírico del estadístico de contraste:
F* = 36.731
Rechazo
Valor crítico que define la región de rechazo para α=0.05
c = F(2,290; α=0.05) = 3 c=3
8. CONTRASTE F DE BONDAD DE AJUSTE
EJERCICIO:
H0 : β2 = β3 = 0
H 1 : al menos un β ≠ 0
Y = β1 + β 2 X + u
H 0 : β 2 = 0, H 1 : β 2 ≠ 0
Var(e ) Var(e ) n
R2 = 1 − ⇒ 1 − R2 = su2 = Var(e )
Var(Y ) Var(Y ) n−2
R 2 /( k − 1) R2
F ( k − 1, n − k ) = =
(1 − R 2 ) /( n − k ) (1 − R 2 ) /( n − 2)
b22 Var( X )
Var(Y ) b22 Var( X ) b22 Var( X ) b22
= = = = = t2
Var(e ) 1 n 2
su su2
( n − 2) Var(e )
Var(Y ) nn−2 n nVar( x )
32
EJEMPLOS:
4.41 = 2.10 2
8.29 = 2.88 2
34
8. CONTRASTE F DE BONDAD DE AJUSTE
EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + u
H0 : β2 = 0
H1 : β 2 ≠ 0
Comprobar en este ejemplo que el resultado del contraste t es igual al del contraste F
39
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u
EJEMPLO:
Supongamos que queremos contrastar la siguiente hipótesis nula:
H 0 : β 2 + β3 = c
H1 : β 2 + β 3 ≠= c
25
9. CONTRASTE DE UNA COMBINACIÓN LINEAL DE PARÁMETROS
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u
H 0 : β 2 + β3 = c
H1 : β 2 + β 3 ≠= c
ESTADÍSTICO DE CONTRASTE:
(b2 + b3 ) − c
t= t n-k
s.e.(b 2 + b3 )
Donde:
EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + β 3 EDUC + u
Contrasta si el efecto marginal de la educación es estadísticamente igual al efecto de la
edad a la que la mujer tuvo el primer hijo.
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u
EJEMPLO:
Supongamos que queremos contrastar la capacidad predictiva de un subconjunto
de parámetros. Por ejemplo:
H0 : β3 = β4 = 0
H1 : β 3 ≠ 0 o β 4 ≠ 0 o β3 y β4 ≠ 0
25
MODELO SIN
RESTRINGIR
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u SCRSR
MODELO
RESTRINGIDO Y = β1 + β 2 X 2 + u SCRR
ESTADÍSTICO DE CONTRASTE:
( − ) q
F (q, n-k) = SCR R SCRSR
SCRSR (n-k)
EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + β 3 EDUC + β 4CIUDAD + β 5CASADA + u
1. VARIABLES ARTIFICIALES
COST
Occupational schools
Regular schools
Supón que dispones de una muestra sobre el coste annual (COSTE) y el número de
estudiantes matriculados en educación secundaria (N) de una muestra de centros de
formación secundaria que pueden ser de formación profesional (occupational schools) o
institutos (regular schools).
COST
β1' Occupational schools
Regular schools
β1
Supondremos que la diferencia entre los gastos se debe al término constante (costes fijos
del centro). Por ejemplo, cabe esperar que β1' > β1 (el gasto fijo de FP es mayor que el de
instituto) Sin embargo, suponemos que el coste marginal, β2 , es el mismo para ambos
6
tipos de enseñanza.
1. VARIABLES ARTIFICIALES
COST
β1
8
1. VARIABLES ARTIFICIALES
COST
Occupational schools
β1+δ
δ Regular schools
β1
Por tanto, podemos escribir β1' = β1 + δ y reescribir la ecuación del COSTE de FP.
1. VARIABLES ARTIFICIALES
COST
Occupational schools
β1+δ
δ Regular schools
β1
Si se define una variable FP que tome el valor 0 si el individuo está en el instituto y 1 si está
en FP, es posible combinar ambas ecuaciones en una sola.
FP recibe el nombre de variable artificial
10
1. VARIABLES ARTIFICIALES
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
Consideremos ahora datos reales de un estudio del Banco Mundial sobre 74 escuelas
secundarias de Shanghai.
12
1. VARIABLES ARTIFICIALES
1 FP 345,000 623 1
2 FP 537,000 653 1
3 Instituto 170,000 400 0
4 FP 526.000 663 1
5 Instituto 100,000 563 0
6 Instituto 28,000 236 0
7 Instituto 160,000 307 0
8 FP 45,000 173 1
9 FP 120,000 146 1
10 FP 61,000 99 1
Esta tabla muestra las 10 primeras observaciones y cómo se define la variable artificial. El
COSTE anual de cada centro se mide en yuans y N es el número de estudiantes en cada
centro.
13
1. VARIABLES ARTIFICIALES
. reg COSTE N FP
------------------------------------------------------------------------------
COSTE | Coef. Std. Err. t P>|t| [95% Conf.
Interval]
---------+--------------------------------------------------------------------
N | 331.4493 39.75844 8.337 0.000 252.1732 410.7254
FP | 133259.1 20827.59 6.398 0.000 91730.06 174788.1
_cons | -33612.55 23573.47 -1.426 0.158 -80616.71 13391.61
------------------------------------------------------------------------------
15
1. VARIABLES ARTIFICIALES
^
COSTE = -34,000 + 133,000FP + 331N
Instituto ^
COSTE = -34,000 + 331N
(FP = 0)
FP ^
COSTE = -34,000 + 133,000 + 331N
(FP = 1)
= 99,000 + 331N
Para interpretar el efecto de la variable FP resulta útil escribir el modelo estimado para los dos
posibles valores de esta variable:
- Si FP toma el valor 0, se obtiene la ecuación para Institutos, donde el coste marginal por
estudiante año es de 331 yuan. El hecho de que la constante sea negativa no tiene sentido y
puede estar indicando un problema de mala especificación
- Si FP = 1, el coste inicial de FP alcanza los 99,000 yuan. El coste marginal por estudiante
es el mismo, pues así lo hemos supuesto. 21
1. VARIABLES ARTIFICIALES
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
-100000
N
Fijaos que sólo hemos estimado una ecuación. Pero esta ecuación “anida” una doble
estructura, es decir, supone que la recta que explica los costes de los institutos es
diferente a la que explica los costes de los centros de FP.
22
1. VARIABLES ARTIFICIALES
. reg COSTE N FP
------------------------------------------------------------------------------
COSTE | Coef. Std. Err. t P>|t| [95% Conf.Interval]
---------+--------------------------------------------------------------------
N | 331.4493 39.75844 8.337 0.000 252.1732 410.7254
FP | 133259.1 20827.59 6.398 0.000 91730.06 174788.1
_cons | -33612.55 23573.47 -1.426 0.158 -80616.71 13391.61
------------------------------------------------------------------------------
• ¿Qué pasa si la variable artificial tiene más de dos categorías? En el caso anterior, los
centros se clasificaban en FP o instituto regular. Pero supongamos que hay dos tipos de
centros de FP y dos tipos de institutos regulares.
- Institutos regulares:
los tradicionales
los vocacionales: introducen materias más específicas.
- Formación profesional (FP):
- técnicos
- manuales.
• Por tanto, lo que tenemos ahora son 4 categorías de centros: FP técnico, FP trabajador
manual, Instituto regular e instituto vocacional (éste es el caso de Shanghai). La forma
tradicional de trabajar es elegir una categoría de referencia y construir variables artificiales
para las restantes.
Como categoría de referencia definiremos el instituto regular.
• Una vez definida la categoría de referencia, se definen las otras variables artificiales. Por
ejemplo TEC toma el valor 1 si el centro es una FP técnica y cero en otro caso. Los
parámetros de cada una de las variables artificiales reflejan el cambio de coste anual del
instituto con respecto a la categoría de referencia. 1
16
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS
19
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
20
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------
¿Qué indica el coeficiente estimado de N?
¿Y la constante?
21
^
COST = -55,000 + 154,000TEC + 143,000TRAB + 53,000VOC + 343N
^
Instituto regular COST = -55,000 + 343N
(TEC = TRAB = VOC = 0)
^
FP Técnica COST = -55,000 + 154,000 + 343N
(TEC = 1; TRAB = VOC = 0) = 99,000 + 343N
^
FP TRAB COST = -55,000 + 143,000 + 343N
(TRAB = 1; TEC = VOC = 0) = 88,000 + 343N
Inst. Vocacional ^
COST = -55,000 + 53,000 + 343N
(VOC = 1; TEC = TRAB = 0) = -2,000 + 343N
Observar que se ha asumido que el coste marginal por alumno es el mismo en todos los
centros. Este es un supuesto que no tiene por qué ser cierto
28
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
-100000
N
30
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------
¿Cómo interpretas este contraste? (piensa qué concluirías si no rechazases la hipótesis nula)
Vamos a implementarlo…..
37
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------
38
. reg COST N
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 339.0432 49.55144 6.842 0.000 240.2642 437.8222
_cons | 23953.3 27167.96 0.882 0.381 -30205.04 78111.65
------------------------------------------------------------------------------
39
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS
. reg COST N
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
Observar que ahora la categoría de referencia es el FP Trab Manual, por lo que es necesario
crear una nueva variable artificial para los Institutos regulares, introduciéndola al modelo, y
quitar la variable artificial de FP Trab manual.
6
3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA
Derivamos la expresión de los costes para cada tipo de centro. Los coeficientes δ se
interpretan como incrementos (decrementos) de costes con respecto a la categoría de
referencia.
10
12
3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 10748.51 30524.87 0.352 0.726 -50146.93 71643.95
VOC | -90133.74 33984.22 -2.652 0.010 -157930.4 -22337.07
REG | -143362.4 27852.8 -5.147 0.000 -198927.2 -87797.57
_cons | 88469.29 28849.56 3.067 0.003 30916.01 146022.6
------------------------------------------------------------------------------
13
^
COST = 88,000 + 11,000TEC - 90,000VOC - 143,000REG + 343N
^
FP Trab Manual COST = 88,000 + 343N
(TEC = VOC = REG = 0)
^
FP TEC COST = 88,000 + 11,000 + 343N
(TEC = 1; VOC = REG = 0) = 99,000 + 343N
^
Inst. Voc COST = 88,000 - 90,000 + 343N
(VOC = 1; TEC = REG = 0) = -2,000 + 343N
Inst. Reg. ^
COST = 88,000 - 143,000 + 343N
(REG = 1; TEC = VOC = 0) = -55,000 + 343N
Observar que la categoría de referencia no afecta a los resultados, que son iguales al caso
anterior.
Tampoco se ve afectado el ajuste de la regresión por el cambio en la categoría de referencia
17
3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 10748.51 30524.87 0.352 0.726 -50146.93 71643.95
VOC | -90133.74 33984.22 -2.652 0.010 -157930.4 -22337.07
REG | -143362.4 27852.8 -5.147 0.000 -198927.2 -87797.57
_cons | 88469.29 28849.56 3.067 0.003 30916.01 146022.6
------------------------------------------------------------------------------
22
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
-100000
N
En este gráfico, se muestran los costes de los institutos de FP y los regulares, con las
rectas de regresión donde lo único que cambia entre uno y otro es la ordenada en el origen.
1
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
-100000
N
Sin embargo, ¿no sería más razonable pensar que también el coste marginal por alumno es
distinto entre los dos tipos de institutos? La formación del profesorado, los materiales de
enseñanza necesarios, la infraestructura, que es distinta entre los centros, puede llevar a
que el coste marginal por alumno no sea el mismo entre los dos tipos de centros
1
FP
λ
Regular
δ
β1 +δ
β1
En este gráfico se ilustra como cambian los coeficientes cuando pasamos del instituto
regular a la FP.
10
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN
11
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 152.2982 60.01932 2.537 0.013 32.59349 272.003
FP | -3501.177 41085.46 -0.085 0.932 -85443.55 78441.19
NFP | 284.4786 75.63211 3.761 0.000 133.6351 435.3221
_cons | 51475.25 31314.84 1.644 0.105 -10980.24 113930.7
------------------------------------------------------------------------------
Este es el resultado de estimar el modelo para los 74 datos de Shanghai del estudio del
Banco Mundial.
12
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN
Regular ^
COST = 51,000 + 152N
(FP = NFP = 0)
^
FP COST = 51,000 - 4,000 + 152N + 284N
(FP = 1; NFP = N) = 47,000 + 436N
El coste fijo inicial de FP es menor que el de un Instituto regular, pero el coste marginal es
mayor.
15
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
16
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN
. reg COST N FP NFP
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 152.2982 60.01932 2.537 0.013 32.59349 272.003
FP | -3501.177 41085.46 -0.085 0.932 -85443.55 78441.19
NFP | 284.4786 75.63211 3.761 0.000 133.6351 435.3221
_cons | 51475.25 31314.84 1.644 0.105 -10980.24 113930.7
------------------------------------------------------------------------------
20
------------------------------------------------------------------------------
. reg COST N
23
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN
. reg COST N FP NFP
------------------------------------------------------------------------------
. reg COST N
¿Qué concluimos?
29
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Muchas veces, en los análisis de regresión hay dos tipos de datos: hombres y mujeres;
norte y sur; FP e institutos regulares. Como consecuencia de ello, surge la pregunta de si
es más adecuado estimar una única regresión para ambos conjuntos de datos, o dos
regresiones, una para cada conjunto.
El contraste de Chow sirve justamente para resolver este problema.
1
5. EL CONTRASTE DE CHOW
. reg COST N
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 339.0432 49.55144 6.842 0.000 240.2642 437.8222
_cons | 23953.3 27167.96 0.882 0.381 -30205.04 78111.65
------------------------------------------------------------------------------
Este es el resultado si realizamos una única regresión para los dos tipos de centros de
enseñanza. Observar que el supuesto que se está haciendo es que los parámetros, es decir
la constante y el coste marginal, son iguales para ambos centros.
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
5
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
5. EL CONTRASTE DE CHOW
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 436.7769 58.62085 7.451 0.000 317.3701 556.1836
_cons | 47974.07 33879.03 1.416 0.166 -21035.26 116983.4
------------------------------------------------------------------------------
7
5. EL CONTRASTE DE CHOW
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 152.2982 41.39782 3.679 0.001 68.49275 236.1037
_cons | 51475.25 21599.14 2.383 0.022 7750.064 95200.43
------------------------------------------------------------------------------
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Aquí presentamos las regresiones estimadas para cada una de las submuestras
9
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Y aquí introducimos el ajuste por submuestras y, además, el que surge de realizar una sola
regresión para ambas submuestras. La pregunta que debemos hacernos es si está bien
realizar un solo ajuste para ambas submuestras a partir de estos resultados.
10
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Este gráfico muestra los residuos para la submuestra de FP si realizamos una regresión
para cada submuestra.
11
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Y estos son los residuos que obtendríamos para la submuestra de FP si sólo realizamos
una única regresión para ambas submuestras. Naturalmente, la idea sería hacer una
regresión para ambas submuestras o dos regresiones, una por submuestra, dependiendo
del tamaño de dichos residuos. 12
5. EL CONTRASTE DE CHOW
700000
600000
500000
SCR = 3.49 x 1011
400000
COST
700000
300000
600000
200000
500000
100000
400000
COST
0
0 200
300000 400 600 800 1000 1200 1400
N
200000
Occupational schools Regular schools
0
0 200 400 600 800 1000 1200 1400
Para clarificar, separamos ambos tipos de residuos y calculamos su suma cuadrática.
N submuestra. Esto siempre debe
Observar que tenemos menos residuos en la regresión por
ser así, ¿por qué?
Occupational schools Regular schools
13
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
17
5. EL CONTRASTE DE CHOW
SCRP
Junto (Pooled) 5.55 3.36 8.91
20
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
24
5. EL CONTRASTE DE CHOW
SCRP
Pooled 5.55 3.36 8.91
SCRP
SCR1
SCR2
5. EL CONTRASTE DE CHOW
26
Tema 7
Problemas de especificación y problemas
con los datos
PROBLEMAS DE ESPECIFICACIÓN
Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado
Yˆ = b1 + b2 X 2
Yˆ = b1 + b2 X 2
+ b3 X 3
Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado
Yˆ = b1 + b2 X 2 Sin problemas ?
Yˆ = b1 + b2 X 2
+ b3 X 3
? Sin problemas
Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado
Yˆ = b1 + b2 X 2
+ b3 X 3 Sin problemas
7
1. OMISIÓN DE VARIABLES RELEVANTES
MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u
MODELO AJUSTADO Yˆ = b1 + b2 X 2
12
MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u
MODELO AJUSTADO Yˆ = b1 + b2 X 2
15
1. OMISIÓN DE VARIABLES RELEVANTES
MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u
MODELO AJUSTADO Yˆ = b1 + b2 X 2
Cov( X 2 , Y ) Cov( X 2 , X 3 ) Cov( X 2 , u)
b2 = = β2 + β3 +
Var( X 2) Var( X 2) Var( X 2)
Cov( X 2 , X 3 ) Cov( X 2 , u)
E (b2 ) = E β 2 + β 3 +
Var( X 2) Var( X 2)
Cov( X 2 , X 3 ) Cov( X 2 , u)
= E ( β 2 ) + E β 3 + E
Var( X 2) Var( X 2)
Cov( X 2 , X 3 )
= β2 + β3
Var( X 2)
Para investigar el sesgo tomamos el valor esperado de b2.
16
MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u
MODELO AJUSTADO Yˆ = b1 + b2 X 2
Cov( X 2 , Y ) Cov( X 2 , X 3 ) Cov( X 2 , u)
b2 = = β2 + β3 +
Var( X 2) Var( X 2) Var( X 2)
Cov( X 2 , X 3 ) Cov( X 2 , u)
E (b2 ) = E β 2 + β 3 +
Var( X 2) Var( X 2)
Cov( X 2 , X 3 ) Cov( X 2 , u)
= E ( β 2 ) + E β 3 + E
Var( X 2) Var( X 2)
Cov( X 2 , X 3 )
= β2 + β3
Var( X 2)
Por tanto, b2 es sesgado por la cantidad β3 Cov(X2, X3)/Var(X2). Además, los errores
estándar y los contrastes de hipótesis realizados a partir de ellos no son válidos.
18
1. OMISIÓN DE VARIABLES RELEVANTES
MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u
MODELO AJUSTADO Yˆ = b1 + b2 X 2
Cov( X 2 , X 3 )
E (b2 ) = β 2 + β 3
Var( X 2)
Y
efecto de X3
efecto directo de
X2, manteniendo
β2 β3
X3 constante
efecto aparente de X2,
oculto el efecto de X3
X2 X3
Intuición….
La importancia del efecto aparente depende de: la fuerza del efecto de de X3 en Y, dado por
β3, y de la relación entre X2 y X3. 9
. reg S ASVABC SM
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
Para ilustrar, veamos el efecto sobre el nivel de estudios, S, del resultado de un test de
inteligencia, ASVABC, y del nivel de estudios del padre, SM.
20
1. OMISIÓN DE VARIABLES RELEVANTES
. reg S ASVABC SM
. cor SM ASVABC
Source | SS df MS Number de obs =
(obs=570) 570
---------+------------------------------ F( 2, 567) = 156.81
Model | 1230.2039 2 615.101949 Prob
| > F SM = 0.0000
ASVABC
Residual | 2224.04347 567 3.92247526 R-squared = 0.3561
--------+------------------
---------+------------------------------ Adj R-squared
SM| 1.0000 = 0.3539
Total | 3454.24737 569 6.07073351 Root 0.3819
ASVABC| MSE = 1.9805
1.0000
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
23
. reg S ASVABC
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
S = β 1 + β 2 ASVABC + β 3 SM + u
Cov( ASVABC , SM )
E (b2 ) = β 2 + β 3
Var( ASVABC )
Aquí obtenemos la regresión omitiendo SM.
24
1. OMISIÓN DE VARIABLES RELEVANTES
. reg S ASVABC SM
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
. reg S ASVABC
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
25
. reg S SM
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
SM | .3445198 .0376833 9.142 0.000 .2705041 .4185354
_cons | 9.506491 .4495754 21.145 0.000 8.623458 10.38952
------------------------------------------------------------------------------
S = β 1 + β 2 ASVABC + β 3 SM + u
Cov( ASVABC , SM )
E (b3 ) = β 3 + β 2
Var( SM )
Aquí omitimos ASVABC en vez de SM. Esperaríamos quet b3 tuviera un sesgo positivo.
Anticipamos que β2 es positivo y sabemos que las covarianzas y varianzas son positivas.
26
1. OMISIÓN DE VARIABLES RELEVANTES
. reg S ASVABC SM
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
. reg S SM
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
SM | .3445198 .0376833 9.142 0.000 .2705041 .4185354
_cons | 9.506491 .4495754 21.145 0.000 8.623458 10.38952
------------------------------------------------------------------------------
27
. reg S ASVABC SM
Source | SS df MS Number de obs = 570
---------+------------------------------ F( 2, 567) = 156.81
Model | 1230.2039 2 615.101949 Prob > F = 0.0000
Residual | 2224.04347 567 3.92247526 R-squared = 0.3561
---------+------------------------------ Adj R-squared = 0.3539
Total | 3454.24737 569 6.07073351 Root MSE = 1.9805
. reg S ASVABC
Source | SS df MS Number de obs = 570
---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
Residual | 2300.43873 568 4.05006818 R-squared = 0.3340
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125
. reg S SM
Source | SS df MS Number de obs = 570
---------+------------------------------ F( 1, 568) = 83.59
Model | 443.110436 1 443.110436 Prob > F = 0.0000
Residual | 3011.13693 568 5.30129742 R-squared = 0.1283
---------+------------------------------ Adj R-squared = 0.1267
Total | 3454.24737 569 6.07073351 Root MSE = 2.3025
28
2. INCLUSIÓN DE VARIABLES IRRELEVANTES
Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado
Estimadores
Yˆ = b1 + b2 X 2 insesgados.
Errores estándar Sin problemas
+ b3 X 3 grandes
MODELO VERDADERO Y = β1 + β 2 X 2 + u
MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3
3
2. INCLUSIÓN DE VARIABLES IRRELEVANTES
MODELO VERDADERO Y = β1 + β 2 X 2 + u
MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3
Y = β1 + β 2 X 2 + 0 X 3 + u
MODELO VERDADERO Y = β1 + β 2 X 2 + u
MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3
Y = β1 + β 2 X 2 + 0 X 3 + u
σ u2 1
varianza poblacional b2 = σ b22 = ×
nVar( X 2 ) 1 − rX22 , X 3
El error standard sigue siendo válido, porque el modelo está correctamente especificado,
pero será mayor que el que se obtiene si la variable irrelevante no es incluida.
5
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
X 2 = λ + µZ
Algunas veces puede utilizarse una variable que aproxime a X2. Una variable proxy es
aquella que se supone está relacionada de forma lineal con la variable que falta. Por
ejemplo, Z puede actuar como si fuera X2.
3
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
X 2 = λ + µZ
Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
X 2 = λ + µZ
Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u
1. Las estimaciones de los coeficientes correspondientes a X3, ..., Xk serán los mismos
que si hiciésemos la regresión de Y frente a X2, ..., Xk.
2. Los errores estándar y los t -ratios de los coeficientes de X3, ..., Xk son los mismos que
si hiciésemos la regresión de Y frente a X2, ..., Xk.
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
X 2 = λ + µZ
Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u
Si Z es una mala proxy de X2, entonces tenemos lo que en la literatura se conoce como
problemas de errores de medida
(ESTO CAUSA PROBLEMAS GRAVES EN LA ESTIMACIÓN. LO VERÉIS EN
ECONOMETRÍA I)
14
3. VARIABLES PROXY
Ejemplo
S = β 1 + β 2 ASVABC + β 3 INDEX + u
INDEX = λ + µ1 SM + µ 2 SF
Supongamos que queremos estimar el nivel educativo que puede alcanzar un individuo a
partir de su habilidad y del background familiar.
Este family background, INDEX, lo aproximaremos por el nivel de estudios del padre y de la
madre, SM y SF.
17
3. VARIABLES PROXY
Ejemplo
S = β 1 + β 2 ASVABC + β 3 INDEX + u
INDEX = λ + µ1 SM + µ 2 SF
S = β 1 + β 2 ASVABC + β 3 (λ + µ1 SM + µ 2 SF ) + u
= ( β 1 + β 3 λ ) + β 2 ASVABC + β 3 µ1 SM + β 3 µ 2 SF + u
18
3. VARIABLES PROXY
Ejemplo
. reg S ASVABC SM SF
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
SM | .069403 .0422974 1.641 0.101 -.013676 .152482
SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401
_cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214
------------------------------------------------------------------------------
19
3. VARIABLES PROXY
Ejemplo
. reg S ASVABC
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
20
3. VARIABLES PROXY
Ejemplo
. reg S ASVABC SM SF
. cor ASVABC SM SF
------------------------------------------------------------------------------
(obs=570)
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
| ASVABC SM SF
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
--------+---------------------------
SM | .069403 .0422974 1.641 0.101 1.0000-.013676
ASVABC| .152482
SF | .1102684 .0311948 3.535 0.000
SM| 0.3819.0489967
1.0000 .1715401
_cons | 4.914654 .5063527 9.706 0.000
SF| 0.41793.920094
0.6391 5.909214
1.0000
------------------------------------------------------------------------------
. reg S ASVABC
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
Observar que hay un sesgo al alza cuando incluimos sólo ASVABC. Esto es esperable,
dado que SM y SF tienen un efecto positivo sobre los niveles ded estudio.
22