Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Apuntes 1

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 233

Introducción

IntroducciónaalalaEconometría
Econometría
3º3ºdedeEconomía
Economía
Curso 2006-2007
Curso 2008-2009

Begoña Álvarez García


Begoña Álvarez García
Despacho 337
Despacho 337
Material del curso:
Material del curso:
http://webs.uvigo.es/alvarez
Plataforma TEMA http://faitic.uvigo.es

“Science is Measurement”
(William Thomson, Lord Kelvin)

2
1. ¿Qué es la Econometría?
La Teoría Económica sugiere relaciones entre variables que, normalmente, tienen
implicaciones importantes en el diseño de políticas; pero rara vez sugiere cuál es
la magnitud de los efectos causales entre esas variables.

Por ejemplo:

‰ ¿Cuál es la elasticidad-precio de los cigarrillos?

‰ ¿Cuál es el efecto de reducir el tamaño de la clase en las notas de los


estudiantes?

‰ ¿Cuál es el rendimiento, en términos de salario, de un año adicional de


educación?

‰Si aumenta el tipo de interés en un 2% ¿cuánto variará la tasa de crecimiento del


PIB?

1. ¿Qué es la Econometría?

La Teoría Económica trata de responder al ¿POR QUÉ?

La Econometría trata de dar respuestas a ¿CUÁNTO?

Mensurabilidad es la palabra clave en la Econometría.

4
1. ¿Qué es la Econometría?
„ La Econometría, como disciplina, surge en el 1º Encuentro de la
Econometric Society en Cleveland, Ohio (USA) en 1930, como una
iniciativa de economistas, matemáticos y estadísticos muy relevantes:
Fisher, Schumpeter, Wiener, Frisch, etc.

„ Uno de los resultados de este encuentro fue la publicación de la revista


Econometrica (1933) una de las más (o la más) prestigiosa en
investigación económica. En su primera edición publicó algunas
definiciones para la Econometría:

“studies that aim at a unification of theoretical-quantitative and the empirical-


quantitative approach to economic problems [based on] rigorous thinking similar to
that which has come to dominate in the natural sciences”

Pero , “econometrics is by no means the same as economic statistics, [n]or general


economic theory, [n]or the application of mathematics to economics. It is the
unification of all three”

1. ¿Qué es la Econometría?

„ La Econometría consiste en la combinación de métodos estadísticos,


económicos y datos para responder a preguntas sobre cuestiones
económicas empíricas.

„ Existen diferentes tipos de cuestiones empíricas (y por tanto de


aplicaciones de Econometría). Algunos ejemplos son:

‰ Estimación de relaciones causales: funciones de demanda,


funciones de producción, ecuaciones de salarios, etc.

‰ Contraste de teorías económicas: hipótesis de los modelos de


capital humano (relación entre educación e ingreso; salud e ingreso,
etc.).

‰ Evaluación de políticas gubernamentales: efecto sobre el empleo


de un aumento en el salario mínimo interprofesional;

‰ Predicción: predecir variables macroeconómicas como la inflación, el


PIB, etc.

6
2. ¿Para qué sirve?
PREDICCIÓN:

2. ¿Para qué sirve?


ESTIMACIÓN DE RELACIONES CAUSALES:
¿Los impuestos sobre el consumo de alcohol salvan vidas?

Cook, Ostermann, and Sloan, NBER WP 11138, Febrero 2005

DATOS: Utilizan datos americanos estatales sobre tasas de mortalidad entre


1970-2000, consumo de alcohol agregado, tasas de impuestos sobre el alcohol,
etc.
RESULTADOS DEL ANÁLISIS ECONOMÉTRICO:

„ Duplicar el consumo de alcohol aumenta la mortalidad en un


23%

‰ Eso implica que se pasaría de 2.4 milliones de muertes por


año a 2.9 millones.

„ Duplicar los impuestos sobre el alcohol reduciría la mortalidad en


un 0.7%

‰ Es decir, en USA, se salvarían 16.000 vidas por año.


8
2. ¿Para qué sirve?
CONTRASTE DE TEORÍAS ECONÓMICAS:

Efectos de la educación: modelo de capital humano

Estimating the macroeconomic returns to education

A large body of empirical research has confirmed a positive link between education and
productivity. Better educated employees are generally more productive, and may raise
the productivity of coworkers…..

Studies of the macroeconomic returns to education are methodologically diverse and


based on two broad theoretical approaches. The first, a neo-classical approach, models
the relationship between the stock of education and the long-run level of GDP. Most
studies follow this tradition. A second approach derives from “new-growth” theory and
models the relationship between the stock of education and the rate of growth of GDP.
Whether increases in the stock of education primarily affect the level of output, or its
growth rate, is still unclear. Concerning the magnitude of the returns, the available
studies indicate that in the neo-classical models a one-year increase
in average education raises the level of output per capita by
between 3 and 6%. Studies of the “new-growth” variety find
that the same increase in average education raises the rate of
growth of output by around 1%. OCDE, 2004.
9

2. ¿Para qué sirve?


EVALUACIÓN DE POLÍTICAS

Evaluación del Programa “Hogares Comunitarios” en Colombia

Attanasio, O. and M. Vera-Hernández, IFS 2006

DATOS: Analizan el efecto que tiene sobre la altura y peso del niño y sobre la
participación laboral de las madres la asistencia a “hogares comunitarios” (madres
de la comunidad que cuidan a niños y además les dan un suplemento nutritivo).

RESULTADOS DEL ANÁLISIS ECONOMÉTRICO:

‰ La asistencia a un hogar comunitario aumenta la altura del


niño en 2cm, si el resto de factores que explican la altura se
mantiene constante.

‰ La asistencia al Hogar Comunitario aumenta la oferta laboral


de las madres en 71.7 horas por mes.

10
2. ¿Para qué sirve?
„ La Econometría es importante en prácticamente todas las ramas de la
economía aplicada: laboral, salud, industrial, macroeconomía, desarrollo,
internacional, marketing, finanzas, etc.

„ Hay dos características que distinguen la Econometría de lo que sería la


estadística aplicada a la economía

‰ Los datos económicos son no experimentales.


No podemos clasificar a los individuos o las empresas como si fueran
“grupos experimentales” y “grupos de control”. Los individuos son
libres y se auto-seleccionan en grupos (nivel educativo, ocupación,
etc. ). Precisamente la Econometría tiene en cuenta esta circunstancia,
es decir tiene en cuenta el comportamiento del individuo, sus
decisiones.

‰ Los modelos económicos (simples o sofisticados) son cruciales para


interpretar los resultados estadísticos en las aplicaciones
econométricas.
11

3. ¿Qué aprenderéis?

En los cursos de Econometría de la licenciatura:

¾ Aprenderéis métodos para estimar efectos causales a partir de datos


observacionales

¾ Aprenderéis herramientas que pueden ser utilizadas para otros objetivos,


como la predicción.

¾ Pondremos especial énfasis en las aplicaciones, pero la teoría es necesaria


para entender el porqué de los métodos.

¾ Aprenderéis a “producir” (hacer los análisis econométricos) y a “consumir”


(evaluar el trabajo de otros).

12
There are two things you are better off not watching in the
making: sausages and econometric estimates.
-Edward Leamer –

If you torture the data long enough, Nature will confess.


-Ronald Coase –

The four golden rules of econometrics:


1.Think brilliantly,
2.Be infinitely creative,
3.Be outstandingly lucky,
4.Otherwise, stick to being a theorist
-David Hendry-

13

4. Etapas del análisis econométrico

¾ Es importante tener en cuenta que el proceso de investigación en


econometría aplicada no es lineal sino que sigue bucles. Es decir, la
pregunta orginal y el modelo, e incluso la recogida de datos (ejemplo:
búsqueda de información o variables adicionales) puede modificarse
después de una visión preliminar de los resultados econométricos.

¾ Una vez que tenemos esto en cuenta, podemos describir las siguientes
etapas en la investigación econométrica:

1. Formulación de la pregunta que queremos responder


2. Construcción del modelo económico que la responde.
3. Especificación del modelo econométrico: ¿qué datos necesitamos?
4. Recogida o búsqueda de datos.
5. Estimación, validación, contrastes de hipótesis y predicción.

14
Ejemplo: Un modelo económico del crimen

1. Pregunta empírica
¾ ¿Qué tipo de políticas son más eficaces para reducir un tipo de crimen
particular: las que aumentan la probabilidad de capturar al criminal o las
que aumentan el castigo?

2. Modelo económico del comportamiento criminal


¾ Necesitamos un modelo que explique cuáles son los factores/variables
principales que determinan la decisión de un individuo de involucrarse en
una actividad criminal.

¾ Becker (JPE, 1968) modela el comportamiento criminal como si fuera una


elección de ocupación. De manera que las variables que afectan a las a las
ganancias netas (ingresos menos costes) en las ocupaciones criminales y no
criminales son variables explicativas relevantes.

¾ Este puede ser un tipo de modelo apropiado para ciertos tipos de crímenes,
pero no para otros… 15

Ejemplo: Un modelo económico del crimen

¾ De acuerdo con este modelo, la cantidad de tiempo dedicado a la actividad


criminal es una función de las siguientes variables

h = f(wage, wcrime, inc, pcaught, pconv, esent, age)

donde:
h = horas dedicadas a la actividad criminal
wage = salario por hora en el mercado de trabajo
wcrime = salario por hora en el sector criminal
inc = renta no salarial
pcaught = probabilidad de ser capturado
pconv = probabilidad de ser declarado culpable si es capturado
esent = pena esperada en caso de ser declarado culpable
age = edad

16
Ejemplo: Un modelo económico del crimen
3. Especificación del modelo econométrico

¾ ¿Qué tipo de datos? ¿individuales, agregados a nivel de provincia, CCAA,


país? ¿corte transversal, series temporales, panel?
¾ ¿Qué variables podemos observar y cuáles no?
¾ ¿Cuál es la forma funcional de f(.)?

hc = β 0 + β1 wagec + β 2 incc + β 3 freqac + β 4 freqcc + β 5 avgsc + uc

¾ Supongamos que tenemos datos para un año correspondientes a ciudades


españolas. El subíndice c denota la ciudad: Madrid es c=1, Barcelona es c=2,
Sevilla es c=3, etc.
¾ Los β’s son parámetros que debemos estimar. Suponemos una relación lineal.
¾ u representa variables inobservables para el económetra, ej.: el salario por hora
en el sector criminal, entre otras.
17

Ejemplo: Un modelo económico del crimen


3. Especificación del modelo econométrico (continuación)

¾ El componente inobservable (o término de error o perturbación) u, es uno de los


componentes más importantes del análisis econométrico.

¾ Imponer ciertas condiciones sobre las propiedades estadísticas del término de


error es crucial para garantizar las buenas propiedades de los estimadores de
nuestros parámetros de interés.

¾ Con ciertas limitaciones, podremos contrastar si se cumplen esas condiciones.


Sin embargo, la interpretación económica del término de error (es decir, de
cuáles son los factores que lo componen) es muy importante para interpretar los
resultados de nuestra estimación.

¾ Dado nuestro modelo econométrico, podemos también contrastar diversas


hipótesis y cuestiones empíricas relacionadas con el valor de los parámetros
desconocidos. Por ejemplo:
β3 < 0 , β4 < 0 , β3 < β4

18
5. Tipos de datos

Existen diferentes tipos de datos. Cada uno tiene sus ventajas, sus
inconvenientes y sus características particulares.

Algunos métodos econométricos pueden ser válidos con unos tipos de


datos, pero con otros no.

19

5. Tipos de datos

5. 1 Corte transversal o sección cruzada

¾ Consiste en datos referidos a individuos, hogares, empresas, ciudades


…. que se observan en momento de tiempo dado.

¾ Normalmente suponemos que esos datos se obtienen por muestreo


aleatorio.

¾ En ocasiones, la muestra no es aleatoria: problemas de selección,


correlación espacial, muestras estratificadas, etc.

20
5. Tipos de datos
Ejemplo de datos de corte transversal:

obsno wage educ exper female married

1 3,10 11 2 1 0

2 3.24 12 22 1 1

3 3.00 11 2 0 0

. . . . . .

. . . . . .

. . . . . .

499 11.56 16 5 0 1

500 3.50 14 5 1 0

21

5. Tipos de datos

5.2 Series temporales

¾ Una serie temporal consiste en observaciones de una variable o de


varias variables a lo largo de varios periodos de tiempo (días, semanas,
meses, años…)

¾Una de las características fundamentales de las series temporales es que


están correlacionadas a lo largo del tiempo. Es decir, no constituyen una
muestra aleatoria.

¾Esta correlación condiciona mucho el tipo de estimación y de contrastes


econométricos que pueden realizarse.

22
5. Tipos de datos
Ejemplo de series temporales:

obsno year month Exchange Interest


rate rate
1 1990 1 1.32 7.35

2 1990 2 1.30 7.30

3 1990 3 1.29 7.32

. . . . .

. . . . .

. . . . .

191 2005 11 1.11 4.26

192 2005 12 1.10 4.31

23

5. Tipos de datos

5.3 Datos fusionados de secciones cruzadas (pooled cross-sections)

¾ Suponed que tenemos una secuencia de datos de corte transversal, con


las mismas variables pero correspondientes a poblaciones entrevistadas
en diferentes años 1990, 1991, 1992, … y 2005. A esto se le denomina
“datos fusionados de secciones cruzadas”.

¾ Estos datos son útiles si queremos analizar la evolución a lo largo del


tiempo de la distribución de ciertas variables como los salarios, la renta
de los hogares, etc.

¾ Es importante tener en cuenta que en este tipo de datos no se tiene


información de los mismos individuos a lo largo del tiempo. En cada
periodo, tenemos una nueva muestra de individuos.

24
5. Tipos de datos

5.4 Datos de panel o datos longitudinales

¾ En este caso, observamos a un grupo de individos (personas, hogares,


empresas…) en diferentes momentos del tiempo. Es decir, tenemos series
temporales para cada individuo de la muestra.

¾ Por tanto, en este tipo de datos seguimos a los mismos individuos a lo


largo del tiempo.

¾ Esta característica hace que este tipo de datos tenga diversas ventajas
sobre los otros.

25

5. Tipos de datos
Ejemplo de datos de panel: datos de 150 ciudades en 2 años

obsno city Year murders population police

1 1 1999 5 350,000 440

2 1 2000 8 359,200 471

3 2 1999 2 64.300 75

4 2 2000 1 65,100 75

. . . . . .

. . . . . .

299 150 1999 25 543,000 520

300 150 2000 32 546,200 493

26
Programa de la asignatura

27

Es importante manejar con soltura los conceptos


estadísticos impartidos en las asignaturas Estadística I y
Estadística II . También se requieren conocimientos de
Matemáticas y Teoría Económica.

28
TEMA 1: INTRODUCCIÓN

• ¿Qué es la Econometría?
• ¿Para qué sirve?
• ¿Qué aprenderéis?
• Etapas de la modelización.
• Tipos de datos.

TEMA 2: REPASO DE CONCEPTOS ESTADÍSTICOS

• Variables aleatorias discretas y continuas.


• Distribución de probabilidad de una variable aleatoria.
• Esperanza de una variable aleatoria.
• Esperanza de una función de variables aleatorias.
• Propiedades de la esperanza.
• Varianza poblacional y varianza muestral.
• Propiedades de la varianza.
• Independencia de dos variables aleatorias.
• Estimadores y sus propiedades: insesgadez; eficiencia; consistencia.
• Coeficiente de correlación.

29

TEMA 3: MODELO DE REGRESIÓN LINEAL SIMPLE


• Formulación del modelo.
• Hipótesis básicas.
• Estimación de los coeficientes de regresión.
• Propiedades de los coeficientes de regresión.
• Teorema de Gauss-Markov.

TEMA 4: MODELO DE REGRESIÓN LINEAL MÚLTIPLE


• Justificación del modelo con muchas variables explicativas
• Hipótesis del modelo
• Funcionamiento e interpretación de mínimos cuadrados ordinarios.
• Coeficiente de determinación R2

TEMA 5: CONTRASTES SOBRE RESTRICCIONES LINEALES EN EL


MODELO DE REGRESIÓN MÚLTIPLE
• Contrastes t de hipótesis sobre los parámetros del modelo de regresión.
• Contrastes sobre combinaciones lineales de parámetros.
• Contraste F de bondad de ajuste.

30
TEMA 6: VARIABLES ARTIFICIALES

• Descripción de las variables artificiales y obtención de las mismas a partir de


variables continuas.
• Variables artificiales para especificar cambios en el término constante.
• Efectos interactivos de las variables artificiales y otros regresores del modelo.
• Interpretación de los coeficientes en una regresión con variables artificiales.
• Contrastes de estabilidad basados en variables artificiales y contraste de Chow.

TEMA 7: PROBLEMAS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS


DATOS

• Problema de variables omitidas.


• Problema de variables irrelevantes.
• Multicolinealidad.
• Datos influyentes.

31

BIBLIOGRAFÍA BÁSICA

- Dougherty, C. (2002) Introduction to econometrics (2ª ed.). Oxford University


Press. London

- Goldberger, A.S. (2001). Introducción a la Econometría. Ariel Economía, Madrid.

- Gujarati, D. (2004). Econometría (4ª ed.). McGraw-Hill. México.

(**) Wooldridge, J.M. (2006 ). Introducción a la Econometría: Un enfoque


moderno (2ª edición). Thomson Paraninfo. Madrid.

BIBLIOGRAFÍA COMPLEMENTARIA

- Carrascal, U., Y. González y B. Rodríguez (2001). Análisis Econométrico con


Eviews, Ra-Ma.

- Pena, J.B. y otros (1999). Cien ejercicios de Econometría. Editorial Pirámide,

- Pérez, C. (2006). Problemas resueltos de Econometría. Thomson Paraninfo.


Madrid.
32
Tema 2
Repaso de conceptos
estadísticos (I)

1. DISTRIBUCIONES DISCRETAS

Ejemplo de distribución de probabilidades: x es una variable


aleatoria igual a la suma de dos dados

rojo 1 2 3 4 5 6
verde

1
2
3
4
5
6

Supongamos que tenemos un dado rojo que toma valores entre 1 y 6 con igual
probabilidad, y un dado verde de las mismas características.
1. DISTRIBUCIONES DISCRETAS

Ejemplo de distribución de probabilidades: x es una variable


aleatoria igual a la suma de dos dados

rojo 1 2 3 4 5 6
verde

1
2
3
4
5
6 10

Por ejemplo, en el dado rojo puede aparecer 4 y en el verde un 6

1. DISTRIBUCIONES DISCRETAS

Ejemplo de distribución de probabilidades: x es una variable


aleatoria igual a la suma de dos dados

r 1 2 3 4 5 6
v

1
2
3
4
5 7
6

Igualmente, si el dado rojo es 2 y el verde 5, la suma es 7


1. DISTRIBUCIONES DISCRETAS

Ejemplo de distribución de probabilidades: x es una variable


aleatoria igual a la suma de dos dados

r 1 2 3 4 5 6
v

1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12

Esta tabla muestra todos los posibles resultados, que van de 2 a 12.

1. DISTRIBUCIONES DISCRETAS

Ejemplo de distribución de probabilidades: x es una variable


aleatoria igual a la suma de dos dados

r 1 2 3 4 5 6
x
v 2
3
1 2 3 4 5 6 7 4
5
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
7
1. DISTRIBUCIONES DISCRETAS

Ejemplo de distribución de probabilidades: x es una variable


aleatoria igual a la suma de dos dados

r 1 2 3 4 5 6
x f
v 2
3
1 2 3 4 5 6 7 4
5
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12

La frecuencia f es el número de veces que se repite un resultado


8

1. DISTRIBUCIONES DISCRETAS

Ejemplo de distribución de probabilidades: x es una variable


aleatoria igual a la suma de dos dados

r 1 2 3 4 5 6
x f
v 2
3
1 2 3 4 5 6 7 4
5 4
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12

Por ejemplo, hay cuatro resultados que hacen x igual a 5


9
1. DISTRIBUCIONES DISCRETAS

Ejemplo de distribución de probabilidades: x es una variable


aleatoria igual a la suma de dos dados

r 1 2 3 4 5 6
x f
v 2 1
3 2
1 2 3 4 5 6 7 4 3
5 4
2 3 4 5 6 7 8 6 5
3 4 5 6 7 8 9 7 6
8 5
4 5 6 7 8 9 10 9 4
5 6 7 8 9 10 11 10 3
11 2
6 7 8 9 10 11 12 12 1

1. DISTRIBUCIONES DISCRETAS
Ejemplo de distribución de probabilidades: x es una variable
aleatoria igual a la suma de dos dados

x f p
r 1 2 3 4 5 6
v 2 1 1/36
3 2 2/36
4 3 3/36
1 2 3 4 5 6 7
5 4 4/36
2 3 4 5 6 7 8 6 5 5/36
7 6 6/36
3 4 5 6 7 8 9
8 5 5/36
4 5 6 7 8 9 10 9 4 4/36
10 3 3/36
5 6 7 8 9 10 11
11 2 2/36
6 7 8 9 10 11 12 12 1 1/36

Finalmente, derivamos la probabilidad de obtener cada valor de x.


Hay 1/6 de probabilidad de obtener cada número del dado rojo y lo mismo para el dado verde. Por
lo tanto, cada valor en la tabla ocurre con probabilidad 1/36. Por lo tanto, para obtener las
12
probabilidades asociadas a cada valor de x, se dividen las frecuencias por 36.
1. DISTRIBUCIONES DISCRETAS
Ejemplo de distribución de probabilidades: x es una variable
aleatoria igual a la suma de dos dados

probabilidad

1 2
__ 3
__ 4
__ 5
__ 6
__ 5
__ 4
__ 3
__ 2 1
__
/ /
36 36 36 36 36 36 36 36 36 36 36

2 3 4 5 6 7 8 9 10 11 12 x
La distribución se muestra gráficamente mediante un histograma.
14

2. DISTRIBUCIONES CONTINUAS
Ejemplo de una función de densidad: x es una variable
aleatoria igual a la temperatura en una habitación

densidad

f(x)

65 70 75 x

Imaginemos ahora que la distribución de probabilidades tiene esta forma.


2. DISTRIBUCIONES CONTINUAS
Ejemplo de una función de densidad: x es una variable
aleatoria igual a la temperatura en una habitación

f(x)
0.20

0.15

0.10

0.05

65 70 75 x
El área total del triángulo debe ser uno. Dado que la base del triángulo es 10, la altura debe
ser 0.2.

2. DISTRIBUCIONES CONTINUAS
Ejemplo de una función de densidad: x es una variable
aleatoria igual a la temperatura en una habitación

f(x) f(x) = 1.50 - 0.02x si 65 ≤ x ≤ 75


f(x) = 0 for x < 65 y x > 75
0.20

0.15

0.10

0.05

65 70 75 x
En este ejemplo, la función de densidad toma la forma f(x) = a + bx. Para pasar por los
puntos (65, 0.20) y (75, 0), a debe ser igual a 1.50 y b debe ser igual a -0.02.
2. DISTRIBUCIONES CONTINUAS

¡La distribución continua más famosa!

3. VALOR ESPERADO DE UNA V. ALEATORIA

La definición de E(x), el valor esperado de x:

n
Discreta : E ( x) = x1 p1 + ... + xn pn = ∑ xi pi
i =1

Continua : E ( x) = x ƒ ( x)dx

Notación alternativa para E(x):


E(x) = µx

El valor esperado de una variable aleatoria, conocido también como la media poblacional,
es la suma ponderada de los valores que toma la variable aleatoria, donde los pesos son
las probabilidades ( o densidades) ligadas a esos valores.
1
3. VALOR ESPERADO DE UNA V. ALEATORIA

xi
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11

3. VALOR ESPERADO DE UNA V. ALEATORIA

xi pi
x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11

4
3. VALOR ESPERADO DE UNA V. ALEATORIA

xi pi xi p i
x1 p1 x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11

3. VALOR ESPERADO DE UNA V. ALEATORIA

xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11

6
3. VALOR ESPERADO DE UNA V. ALEATORIA

xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3 x3 p3
x4 p4 x4 p4
x5 p5 x5 p5
x6 p6 x6 p6
x7 p7 x7 p7
x8 p8 x8 p8
x9 p9 x9 p9
x10 p10 x10 p10
x11 p11 x11 p11

3. VALOR ESPERADO DE UNA V. ALEATORIA

xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3 x3 p3
x4 p4 x4 p4
x5 p5 x5 p5
x6 p6 x6 p6
x7 p7 x7 p7
x8 p8 x8 p8
x9 p9 x9 p9
x10 p10 x10 p10
x11 p11 x11 p11
Σ xi pi = E(x)
El valor esperado no es más que la suma de la última columna. 8
3. VALOR ESPERADO DE UNA V. ALEATORIA

xi pi xi p i xi pi
x1 p1 x1 p1 2 1/36
x2 p2 x2 p2 3 2/36
x3 p3 x3 p3 4 3/36
x4 p4 x4 p4 5 4/36
x5 p5 x5 p5 6 5/36
x6 p6 x6 p6 7 6/36
x7 p7 x7 p7 8 5/36
x8 p8 x8 p8 9 4/36
x9 p9 x9 p9 10 3/36
x10 p10 x10 p10 11 2/36
x11 p11 x11 p11 12 1/36
Σ xi pi = E(x)
Ejemplo del dado.

3. VALOR ESPERADO DE UNA V. ALEATORIA

xi pi xi p i xi pi xi pi
x1 p1 x1 p1 2 1/36 2/36
x2 p2 x2 p2 3 2/36 6/36
x3 p3 x3 p3 4 3/36 12/36
x4 p4 x4 p4 5 4/36 20/36
x5 p5 x5 p5 6 5/36 30/36
x6 p6 x6 p6 7 6/36 42/36
x7 p7 x7 p7 8 5/36 40/36
x8 p8 x8 p8 9 4/36 36/36
x9 p9 x9 p9 10 3/36 30/36
x10 p10 x10 p10 11 2/36 22/36
x11 p11 x11 p11 12 1/36 12/36
Σ xi pi = E(x) 252/36 = 7
14
3. VALOR ESPERADO DE UNA V. ALEATORIA

EJERCICIO: Calcular la esperanza de la variable “temperatura”

4. VALOR ESPERADO DE UNA FUNCIÓN DE


UNA VARIABLE ALEATORIA

La definición de E[g(x)], no es más que :

n
Discreta : E ( g ( x) ) = g ( x1 ) p1 + ... + g ( xn ) pn = ∑ g ( xi ) pi
i =1

Continua : E ( g ( x) ) = g ( x) f ( x)dx

Ejemplo: En el caso del “dado”


n
E ( x 2 ) = x12 p1 + ... + xn2 pn = ∑ xi
2
pi
i =1

2
4. VALOR ESPERADO DE UNA FUNCIÓN DE
UNA VARIABLE ALEATORIA

xi pi g(xi) g(xi ) pi xi pi xi2 xi2 pi


x1 p1 g(x1) g(x1) p1 2 1/36 4 0.11
x2 p2 g(x2) g(x2) p2 3 2/36 9 0.50
x3 p3 g(x3) g(x3) p3 4 3/36 16 1.33
… … …... ……... 5 4/36 25 2.78
… … …... ……... 6 5/36 36 5.00
… … …... ……... 7 6/36 49 8.17
… … …... ……... 8 5/36 64 8.89
… … …... ……... 9 4/36 81 9.00
… … …... ……... 10 3/36 100 8.83
… … …... ……... 11 2/36 121 6.72
xn pn g(xn) g(xn) pn 12 1/36 144 4.00
Σ g(xi) pi 54.83
El valor esperado es 54.83. Observar que no es igual a 7 elevado al cuadrado.
Es decir, E(x2) no es lo mismo que E(x) elevado al cuadrado

5. REGLAS DEL VALOR ESPERADO

1. E(x+y) = E(x) + E(y)

1
5. REGLAS DEL VALOR ESPERADO

1. E(x+y) = E(x) + E(y)


Generalización:
E(w+x+y+z) = E(w) + E(x) + E(y) + E(z)

5. REGLAS DEL VALOR ESPERADO

1. E(x+y) = E(x) + E(y)


2. E(ax) = aE(x)

3
5. REGLAS DEL VALOR ESPERADO

1. E(x+y) = E(x) + E(y)


2. E(ax) = aE(x)
Ejemplo:
E(3x) = 3E(x)

5. REGLAS DEL VALOR ESPERADO

1. E(x+y) = E(x) + E(y)


2. E(ax) = aE(x)
3. E(a) = a

5
5. REGLAS DEL VALOR ESPERADO

1. E(x+y) = E(x) + E(y)


2. E(ax) = aE(x)
3. E(a) = a

y = a + bx
E(y) = E(a + bx)
= E(a) + E(bx)
= a + bE(x)
8

6. INDEPENDENCIA DE DOS V. ALEATORIAS

Dos variables aleatorias x e y son independientes si

E[f(x)g(y)] = E[f(x)] E[g(y)]


para cualquier f(x) , g(y)

Caso particular: si x e y son independientes,


E(xy) = E(x) E(y)
.

3
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA

La varianza poblacional de x = E [( x − µ ) ]
2

[ ]
n
Discreta : E ( x − µ ) = ( x1 − µ ) p1 + ... + ( xn − µ ) pn = ∑ ( xi − µ ) 2 pi
2 2 2

i =1

[
Continua : E ( x − µ ) 2 = ] ( x − µ ) 2 f ( x)dx

La varianza mide la dispersión de la distribución con respecto a la media de la población.


2

7. VARIANZA POBLACIONAL DE UNA VARIABLE


ALEATORIA

xi pi

2 1/36
3 2/36
4 3/36
5 4/36
6 5/36
7 6/36
8 5/36
9 4/36
10 3/36
11 2/36
12 1/36

3
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA

xi pi xi-µ

2 1/36
3 2/36
4 3/36
5 4/36
6 5/36 µ x = E( x) = 7
7 6/36
8 5/36
9 4/36
10 3/36
11 2/36
12 1/36

7. VARIANZA POBLACIONAL DE UNA VARIABLE


ALEATORIA

xi pi xi-µ

2 1/36 -5
3 2/36 -4
4 3/36 -3
5 4/36 -2
6 5/36 -1 µ x = E( x) = 7
7 6/36 0
8 5/36 1
9 4/36 2
10 3/36 3
11 2/36 4
12 1/36 5

6
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA

xi pi xi-µ (xi-µ)2

2 1/36 -5 25
3 2/36 -4 16
4 3/36 -3 9
5 4/36 -2 4
6 5/36 -1 1
7 6/36 0 0
8 5/36 1 1
9 4/36 2 4
10 3/36 3 9
11 2/36 4 16
12 1/36 5 25

7. VARIANZA POBLACIONAL DE UNA VARIABLE


ALEATORIA

xi pi xi-µ (xi-µ)2 (xi-µ)2 pi

2 1/36 -5 25 0.69
3 2/36 -4 16 0.89
4 3/36 -3 9 0.75
5 4/36 -2 4 0.44
6 5/36 -1 1 0.14
7 6/36 0 0 0.00
8 5/36 1 1 0.14
9 4/36 2 4 0.44
10 3/36 3 9 0.75
11 2/36 4 16 0.89
12 1/36 5 25 0.69

11
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA

xi pi xi-µ (xi-µ)2 (xi-µ)2 pi

2 1/36 -5 25 0.69
3 2/36 -4 16 0.89
4 3/36 -3 9 0.75
5 4/36 -2 4 0.44
6 5/36 -1 1 0.14
7 6/36 0 0 0.00
8 5/36 1 1 0.14
9 4/36 2 4 0.44
10 3/36 3 9 0.75
11 2/36 4 16 0.89
12 1/36 5 25 0.69
5.83
12

7. VARIANZA POBLACIONAL DE UNA VARIABLE


ALEATORIA

EJERCICIO: Calcular la varianza de la variable “temperatura”


7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA

Varianza poblacional de x

E [( x − µ ) 2 ]

pop.var(x)

σ x2
Desviación típica de x

E[( x − µ ) 2 ]

σx
15

7. VARIANZA POBLACIONAL DE UNA VARIABLE


ALEATORIA

EJERCICIO: Demostrar

[ ]
E ( x − µ ) 2 = E ( x 2 ) − [ E ( x)]2

15
8. COVARIANZA POBLACIONAL ENTRE DOS
VARIABLES ALEATORIAS

La covarianza poblacional de dos variables aleatorias es el valor esperado del


producto de sus desviaciones con respecto a la media. Mide el grado de dependencia
lineal que hay entre dos variables aleatorias. Una covarianza positiva indica que las
dos variables se mueven en la misma dirección, mientras que si es negativa se
mueven en direcciones opuestas.

La covarianza poblacional: σXY =E((X-µX) (Y-µY))

EJERCICIO: Demostrar la siguiente igualdad

σXY =E((X-µX) (Y-µY))=E(XY)- µX µY

8. COVARIANZA POBLACIONAL ENTRE DOS


VARIABLES ALEATORIAS

Si X sonY indeptes ⇒ σXY = 0.


Lo contrario no es cierto. Es decir, si la covarianza entre X e Y es cero no
implica que sean independientes.

EJERCICIO: Demostrar la implicación


8. COVARIANZA POBLACIONAL ENTRE DOS
VARIABLES ALEATORIAS

REGLAS DE LA COVARIANZA

1. Si Y = V + W,

Cov(X, Y) = Cov(X, V) + Cov(X, W)

2. Si Y = aZ, donde a es constante,

Cov(X, Y) = Cov(X, aZ) = aCov(X, Z)

Ejemplo: Cov(X, 3Z) = 3Cov(X, Z)

3. Si Y = a, donde a es constante,

Cov(X, Y) = Cov(X, a) = 0

Ejemplo: Cov(X, 10) = 0

9. RELACIÓN ENTRE LA VARIANZA Y LA


COVARIANZA

La varianza de una variable aleatoria no es más que la covarianza de dicha


variable respecto a sí misma.

Var (X) = Cov(X,X)

Por tanto, las reglas de la varianza se pueden deducir a partir de las reglas
de la covarianza.

1
9. RELACIÓN ENTRE LA VARIANZA Y LA
COVARIANZA

Regla 1:
Si Y = V + W, Var(Y) = Var(V) + Var(W) + 2Cov(V, W)

Prueba:

9. RELACIÓN ENTRE LA VARIANZA Y LA


COVARIANZA

Regla 2:
Si Y = bZ, donde b es constante, Var(Y) = b2Var(Z)

Prueba:
Var(Y) = Cov(Y, Y) = Cov(Y, bZ)= …
9. RELACIÓN ENTRE LA VARIANZA Y LA
COVARIANZA

Regla 3:
Si Y = b, donde b es constante, Var(Y) = 0

Prueba:
Var(Y) = Cov(Y, Y)
= Cov(b, b)
=0

18

9. RELACIÓN ENTRE LA VARIANZA Y LA


COVARIANZA

Regla 4:
Si Y = V + b, donde b es constante, Var(Y) = Var(V)

Prueba:
Var(Y) = Var(V + b)
= Var(V) + Var(b) + 2Cov(V, b)
= Var(V)

0 V
0 V+b

Sumar una constante sólo tiene un efecto de traslación: la varianza no cambiará y la media
se verá desplazada por la constante de la traslación.
10. COEFICIENTE DE CORRELACIÓN
POBLACIONAL

Este coeficiente mide la dependencia lineal entre dos variables aleatorias X


e Y. No tiene unidades de medida y está acotado entre -1 y 1

σ XY
ρ XY =
σ X2 σ Y2

Si X e Y son independientes, entonces el coeficiente de correlación es igual


a 0, pero la correlación igual a 0 no implica independencia.
Tema 2
Repaso de conceptos
estadísticos (II)

1. ESTIMADORES

Generalmente, no disponemos observaciones de los valores de una variable para


toda la población. Eso implica que no vamos a poder calcular los momentos
poblacionales de su distribución, lo único que podemos hacer es “aproximarlos”.
¿Cómo? A partir de una muestra de datos extraída de la población y utilizando
estimadores de los momentos poblacionales.

IMPORTANTE: Diferencia entre un estimador y una estimación

• Un estimador es una fórmula matemática.

• Una estimación es un número que se obtiene de aplicar


el estimador a los datos de una muestra.

1
1. ESTIMADORES

Momento poblacional Estimador

1 n
Media: µx x= ∑ xi
n i =1

1 n
Varianza : σ x
2
s2 = ∑ ( xi − x )
2

n − 1 i =1

1 n 
Covarianza: σXY Cov( X , Y ) =  ∑
n  i =1
X iYi  − XY

Coeficiente de correlación: ρXY Cov ( X , Y )


r XY =
Var ( X ) Var (Y )
4

1. ESTIMADORES

Densidad de x Densidad de x

µx x µx x

Los estimadores son variables aleatorias

9
1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Supongamos que queremos estimar la media poblacional µx de una variable aleatoria x


dado un conjunto de observaciones. Un estimador a utilizar es la media muestral.
Demostraremos que es insesgado.
1

1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

2
1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Es decir, el valor esperado de la media muestral es igual al parámetro poblacional que


estamos buscando µx

4
1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x :
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Estimador General Z = λ1x1 + λ2x2

Sin embargo, la media muestral no es el único estimador insesgado de la media


poblacional. Supongamos que tenemos únicamente dos observaciones y nos construimos
un estimador general, Z
5

1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Estimador General Z = λ1x1 + λ2x2

El estimador general Z lo definimos como la suma ponderada de las dos observaciones que
tenemos, donde los pesos sonλ1 y λ2. Por ejemplo, en el caso de la media muestral los dos
pesos son iguales a 1/n = 1/2 porque sólo tenemos dos observaciones.
6
1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Estimador General Z = λ1x1 + λ2x2

E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1

¿Cómo deben ser esos ponderadores para que el valor esperado del estimador sea igual a
la media poblacional?

1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Estimador General Z = λ1x1 + λ2x2

E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1

8
1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Estimador General Z = λ1x1 + λ2x2

E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1

1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Estimador General Z = λ1x1 + λ2x2

E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1

Dado que las variables aleatorias son iid., su valor esperado es µx.

10
1. ESTIMADORES: Insesgadez y eficiencia

Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n

Estimador General Z = λ1x1 + λ2x2

E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1

Por lo tanto, cualquier estimador Z será un estimador insesgado de µ si la suma de los


pesos de las observaciones es 1. Observar que existen infinitas combinaciones de los
ponderadores que hacen que su suma sea igual a 1.
11

1. ESTIMADORES: Insesgadez y eficiencia


densidad

estimator B

estimador A

µx

¿Cómo elegimos entre estimadores? Cuanto más preciso sea un estimador, es decir,
cuanto menos incertidumbre nos transmita sobre el valor del parámetro, mejor será. La
propiedad de EFICIENCIA se refiere justamente a la precisión.
12
1. ESTIMADORES: Insesgadez y eficiencia
densidad

estimator B

estimador A

µx

De la densidad se observa que si bien los dos estimadores A y B son insesgados, el


estimador B es más preciso, tiene menor varianza.

13

1. ESTIMADORES: Insesgadez y eficiencia

Estimador General Z = λ1x1 + λ2x2


pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2

Analicemos la varianza poblacional del estimador general buscando definir los pesos que
minimicen dicha varianza

14
1. ESTIMADORES: Insesgadez y eficiencia

Estimador General Z = λ1x1 + λ2x2


pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2

La varianza de una suma de variables aleatorias es la suma de las varianzas más dos veces
la covarianza. Pero si las variables son independientes, las covarianzas son cero (un poco
más adelante recordaremos las propiedades de la covarianza y la varianza).
15

1. ESTIMADORES: Insesgadez y eficiencia

Estimador General Z = λ1x1 + λ2x2


pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2

16
1. ESTIMADORES: Insesgadez y eficiencia

Estimador General Z = λ1x1 + λ2x2


pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2

Dado que la varianza poblacional de x es σx2.

17

1. ESTIMADORES: Insesgadez y eficiencia

Estimador General Z = λ1x1 + λ2x2


pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2

Por la condición de insesgadez.

18
1. ESTIMADORES: Insesgadez y eficiencia

Estimador General Z = λ1x1 + λ2x2


pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2

La varianza depende de λ1, por lo que debemos buscar el λ1 que haga mínima dicha
varianza

19

1. ESTIMADORES: Insesgadez y eficiencia

Estimador General Z = λ1x1 + λ2x2


pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
d pop.var ( Z )
= 0 ⇒ 4λ1 − 2 = 0 ⇒ λ1 = λ2 = 0.5
dλ1

Z es insesgado si la suma de los pesos es uno. Pero hay infinitas combinaciones de λ1 y λ2


que satisfacen estas condiciones. Nos interesa, por lo tanto, minimizar la varianza en esos
pesos para encontrar el más preciso.
20
1. ESTIMADORES: Insesgadez y eficiencia

Estimador General Z = λ1x1 + λ2x2


pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
d pop.var ( Z )
= 0 ⇒ 4λ1 − 2 = 0 ⇒ λ1 = λ2 = 0.5
dλ1

Es decir, si tenemos dos observaciones, cada observación la debemos ponderar por ½


para obtener el estimador de menor varianza. Pero ponderar 1/2 es justamente definir el
estimador Z como la media muestral.
21

2. Conflicto entre varianza mínima e insesgadez

densidad

estimador B

estimador A

Supongamos que tenemos dos estimadores alternativos para estimar θ, uno es insesgado y
el otro es sesgado pero con varianza menor que el primero: ¿cuál de los dos elegimos?

1
2. Conflicto entre varianza mínima e insesgadez

pérdida

error (negativa) error (positiva)

Una forma para decidir entre uno y otro es definirse una función de pérdida: nos
quedaremos con aquél que tenga menor pérdida.

2. Conflicto entre varianza mínima e insesgadez


MSE( Z ) = E [( Z − θ ) 2 ] = σ Z2 + ( µ Z − θ ) 2

densidad
Distribuciòn del estimador Z

θ
Verdadero
valor del
parámetro

Una función muy utilizada es la que se conoce como el “ERROR CUADRÁTICO MEDIO”
(mean squared error MSE), y se define como el valor esperado del cuadrado de las
desviaciones del estimador respecto al valor poblacional del parámetro que tratamos de
estimar. 3
2. Conflicto entre varianza mínima e insesgadez
MSE( Z ) = E [( Z − θ ) 2 ] = σ Z2 + ( µ Z − θ ) 2

densidad

sesgo

θ µZ

El error cuadrático medio puede escribirse como la suma del sesgo al cuadrado más la
varianza: es decir, combina el conflicto entre varianza y sesgo en un solo indicador.
Supongamos que el sesgo del estimador respecto a µZ es el que aparece en el gráfico.
4

2. Conflicto entre varianza mínima e insesgadez


MSE( Z ) = E [( Z − θ ) 2 ] = σ Z2 + ( µ Z − θ ) 2

densidad

sesgo

θ µZ

Demostraremos a continuación esta descomposición

5
2. Conflicto entre varianza mínima e insesgadez

MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2

2. Conflicto entre varianza mínima e insesgadez

MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2

7
2. Conflicto entre varianza mínima e insesgadez

MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2

2. Conflicto entre varianza mínima e insesgadez

MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2

9
2. Conflicto entre varianza mínima e insesgadez

MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2

(µZ-θ )es constante

10

2. Conflicto entre varianza mínima e insesgadez

MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2

(µZ-θ) puede sacarse de la media porque es constante

11
2. Conflicto entre varianza mínima e insesgadez

MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2

E(Z) es µZ, y E(- µZ) es - µZ.

12

2. Conflicto entre varianza mínima e insesgadez

MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2

Por tanto, el tercer témino es cero y llegamos a la descomposición buscada.

13
2. Conflicto entre varianza mínima e insesgadez

densidad

estimador B

estimador A

¿Cómo elegiremos entre ambos estimadores? Buscando aquel que tenga menor MSE.

14

3. Consistencia de los estimadores


densidad de x

n σx
0.08 1 50

0.06

0.04

0.02 n=1

50 100 150 200

La media muestral es un estimador de la media poblacional ¿qué pasa cuando la muestra


crece?

1
3. Consistencia de los estimadores
densidad de x

n σx
0.08 1 50

0.06

0.04

0.02 n=1

50 100 150 200

Supongamos que x tiene media poblacional 100 y desviación típica 50. Supongamos,
además, que no conocemos esta media y que queremos estimarla

3. Consistencia de los estimadores


densidad de x

n σx
0.08 1 50

0.06

0.04

0.02 n=1

50 100 150 200

De las propiedades de la media muestral, sabemos que su media coincide con la media
poblacional, que es insesgada y que su desviación típica será igual a la desviación típica
poblacional dividida por la raíz cuadrada del número de observaciones. n
3
3. Consistencia de los estimadores
densidad de x

n σx
0.08 1 50

0.06

0.04

0.02 n=1

50 100 150 200

Por tanto, cuanto mayor sea n, menor será la varianza de la media muestral.

3. Consistencia de los estimadores


densidad de x

n σx
0.08 1 50

0.06

0.04

0.02 n=1

50 100 150 200

Si n = 1, la muestra consiste en una única observación y la desviación típica de la media


muestral será 50.

5
3. Consistencia de los estimadores
densidad de x

n σx
0.08 1 50
4 25

0.06

0.04

n=4
0.02

50 100 150 200

3. Consistencia de los estimadores


densidad de x

n σx
0.08 1 50
4 25
25 10
0.06

n = 25
0.04

0.02

50 100 150 200

7
3. Consistencia de los estimadores
densidad de x

n σx
0.08 n = 100 1 50
4 25
25 10
0.06 100 5

0.04

0.02

50 100 150 200

3. Consistencia de los estimadores


densidad de x

n σx
0.8 1 50
4 25
25 10
0.6 100 5
n = 1000 1000 1.6

0.4

0.2

50 100 150 200

10
3. Consistencia de los estimadores
densidad de x

n = 5000 n σx
0.8 1 50
4 25
25 10
0.6 100 5
1000 1.6
5000 0.7
0.4

0.2

50 100 150 200

En el límite, la desviación típica de la media muestral tiende a cero, por lo que la media
muestral tenderá, en el límite, a la media poblacional: consistencia.

11

3. Consistencia de los estimadores

Muestra Finita: x es un estimador insesgado de µ

La insesgadez es un concepto de muestras finitas. El valor esperado de la media muestral


es igual a su valor poblacional. Pero ¡ojo! el valor real que toma la media muestral puede no
coindicir con la media poblacional.
13
3. Consistencia de los estimadores

Muestra Finita: x es un estimador insesgado de µ

Muestra grande: la distribución de x


colapsa en µ

plim x = µ

La consistencia es un concepto de muestras grandes. Un estimador consistente es más


preciso a medida que el tamaño de la muestra aumenta.

14

3. Consistencia de los estimadores


densidad de Z

n = 20

θ Z

Es posible que un estimador sea sesgado en muestras pequeñas pero consistente.

1
3. Consistencia de los estimadores

densidad de Z

n = 20

θ Z

Sea Z un estimador de la característica poblacional θ. Mirando a la densidad de Z, se


observa que sobreestima el valor del parámetro, es decir, tiene un sesgo positivo

3. Consistencia de los estimadores

n = 100

n = 20

θ Z

Para que el estimador sea consistente, deben pasar dos cosas puando la muestra aumenta.
El sesgo debe disminuir.

3
3. Consistencia de los estimadores

n = 1000

n = 100

n = 20

θ Z

y la densidad debe colapsar en el parámetro.

3. Consistencia de los estimadores

n = 100000

n = 1000
n = 100

θ Z

6
Tema 3
Modelo de regresión lineal simple (I)

Introducción a la Econometría. Curso 2008-2009


3º de Economía

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

• El modelo de regresión lineal simple trata de capturar la relación entre


dos variables y, x.
y = f(x,u)

• y es la variable dependiente, o variable explicada o regresando.


• x es la variable independiente, o variable explicativa, o regresor.
• u es el término de error o perturbación aleatoria o inobservable.
Contiene todos los factores distintos de x que afectan a y.

¿ Qué recoge u?
- Algunas variables que explican la variable dependiente y, pero que no son
observables o no se pueden medir.
- Errores de especificación, es decir, variables explicativas importantes que
hemos omitido por error, no porque no las podamos medir.
- Errores de medición de la variable dependiente.
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

• Para obtener un modelo útil que nos permita cuantificar “cómo x


explica y”, tenemos que responder a las siguientes cuestiones:

1) ¿Qué forma funcional suponemos para f(x,u) ?

Supondremos que la relación que vincula x e y es lineal en parámetros


y que el término inobservable entra de forma aditiva.

y = β1 + β2 x + u

β0 es la constante (intercept parameter)


β1 es la pendiente (slope parameter)

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

β1 + β 2 X

β1

X1 X2 X3 X4 X

Supongamos que la variable Y es una función lineal de otra variable X, donde la


relación entre Y y X depende de parámetros β1 y β2 desconocidos.

Si nuestro interés fuera conocer la relación que une a X con Y, entonces deberíamos
estimar los parámetros desconocidos.
1
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

β1 + β 2 X
Q4
Q3
Q2
β1 Q1

X1 X2 X3 X4 X

Supongamos que tenemos una muestra de 4 observaciones de (X,Y). Suponemos que


esas observaciones proceden de una muestra aleatoria simple.

Si la relación entre X e Y fuera exacta, sólo bastarían dos puntos para hallar una
solución para los parámetros β1 y β2. 3

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y P4

β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2

X1 X2 X3 X4 X

Sin embargo, las relaciones económicas no son exactas: muchos de los puntos que
observamos no van a estar en la recta

4
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y P4

β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2

X1 X2 X3 X4 X

Para permitir divergencia entre la variable Y de la recta de interés, introducimos un


término de perturbación al modelo, que no es observable: Y = β1 + β2X + u.
Por ejemplo, si Y es el salario y X la educación, u puede representar la habilidad
innata para ganar más dinero: así dos individuos con la misma educación pueden
tener un salario diferente.
5

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y P4

β1 + β 2 X
Q4
u1 P1 Q3
Q2
β1 Q1 P3
P2
β1 + β 2 X 1

X1 X2 X3 X4 X

Cada valor de Y tiene entonces un “componente no aleatorio” o “sistemático” β1 + β2X


y un “componente aleatorio”, u.
La primera observación la hemos descompuesto en estas dos partes.
6
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y P4

P1

P3
P2

X1 X2 X3 X4 X

En el mundo real, únicamente observamos los puntos P para cada X.

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y P4
Yˆ = b1 + b2 X

P1

P3
P2
b1

X1 X2 X3 X4 X

Naturalmente, podríamos utilizar los puntos P para dibujar una línea que aproxime
^
Y = β1 + β2X.
Podemos escribir esta línea como Y = b1 + b2X, donde b1 es una estimación de β1 y b2 8

es una estimación de β2.


1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4
R2
P1

R1 P3
P2
b1

X1 X2 X3 X4 X

A esta línea aproximada se la conoce como el modelo ajustado, y a los valores de la


variable Y en esa línea se les llama valores predichos o ajustados (son los puntos R).

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4

Y − Yˆ = e (residuo) e4 Yˆ = b1 + b2 X
R3 R4
R2
e1 P1 e3
e2
R1 P3
P2
b1

X1 X2 X3 X4 X

Observad que hay una discrepancia entre el valor de Y realmente observado (los
puntos P) y el valor predicho por la línea aproximada (R). A esta discrepancia se le
llama residuo.

10
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1

β1 R1 P3
P2
b1

X1 X2 X3 X4 X

Es importante observar que los valores que toman los residuos son distintos a los
valores del término de perturbación. Esto es debido a que la aproximación que
hacemos nunca va a coincidir exactamente con la verdadera línea que relaciona a
estas variables.
11

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2
b1

X1 X2 X3 X4 X

La perturbación es la responsable de la desviación que existe entre el componente


“no aleatorio” y las verdaderas observaciones.

12
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1

β1 R1 P3
P2
b1

X1 X2 X3 X4 X

Los residuos son la diferencia entre el valor real y el valor predicho por la recta
estimada en base a la “aproximación” de los parámetros desconocidos

13

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1

β1 R1 P3
P2
b1

X1 X2 X3 X4 X

Entonces, es natural que cuando los residuos sean pequeños, el ajuste sea bueno y
los residuos tiendan a estar cerca de la perturbación. Pero lo que debe quedar claro
es que los dos conceptos representan cosas distintas.

14
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4

u4 Yˆ = b1 + b2 X
β1 + β 2 X
Q4

β1 β1 + β 2 X 4
b1

X1 X2 X3 X4 X

Ambas líneas, la aproximada y la verdadera, son importantes en el análisis de


regresión, puesto que permiten descomponer el valor observado de Y en dos partes.
Usando la relación téorica, o verdadera, Y se descompone en su parte no estocástica
β1 + β2X y su parte estocástica u.
15

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4

u4 Yˆ = b1 + b2 X
β1 + β 2 X
Q4

β1 β1 + β 2 X 4
b1

X1 X2 X3 X4 X

Esta es una descomposición teórica dado que no conocemos los valores


exactos de β1 o β2, ni los del término de perturbación.

17
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Y (valor real)
Y Ŷ (valor predicho) P4

e4 Yˆ = b1 + b2 X

R4 β1 + β 2 X

β1 b1 + b2 X 4
b1

X1 X2 X3 X4 X

La segunda descomposición del valor real de Y se hace en función de la


línea ajustada: es la suma del valor predicho de Y y de su residuo.
Esta descomposición la utilizaremos para obtener fórmulas que nos permitan
aproximar los valores desconocidos de los parámetros
18

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

2) ¿Cómo podemos obtener buenas estimaciones de los parámetros


del modelo?

• Más adelante mostraremos que sólo podemos obtener estimadores


fiables de β1 y β2 partiendo de un muestreo aleatorio de datos y
cuando establecemos supuestos que restringen el modo en el que el
término de error u se relaciona con x.

• Dado que x y u son variables aleatorias, necesitamos realizar


supuestos importantes sobre su distribución conjunta. Es decir,
necesitamos hacer supuestos sobre cómo es la relación entre x y u.

• Antes de establecer el supuesto clave, vamos a establecer un


supuesto sobre cómo se comporta u. Siempre y cuando
introduzcamos un término constante en la regresión, no perdemos
nada al suponer que
E(u) = 0
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

2) ¿Cómo podemos obtener buenas estimaciones de los parámetros


del modelo?

Por
Porqué
quédecimos
decimosque
queeste
estesupuesto
supuestono
noes
esrestrictivo:
restrictivo:

YY==ββ1 ++ββ2XX++uu
1 2

Suponed
Suponed E(u)
E(u) ==µµuu ≠≠ 0.0.

Definimos vv ==uu--µµu,,entonces u=v+µ


Definimos u entonces u = v + µuu

Entonces
Entonces YY ==bb1 ++bb2XX++vv++µµu
1 2 u
==(b µ
(b11 + µuu) + b22X +vv
+ ) + b X +

donde
donde E(v) E(u--µµuu))==E(u)
E(v) ==E(u E(u)--E(µ
E(µuu))==00

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

2) ¿Cómo podemos obtener buenas estimaciones de los parámetros


del modelo?

• Pero el supuesto clave para poder identificar el efecto de x sobre y es


que x y u no estén relacionadas. Para garantizar esto ¿bastaría con
suponer cov(x,u)=0?

• Queremos que x no nos dé ninguna información sobre u, es decir,


queremos que estas dos variables no tengan ningún tipo de relación
y la covarianza sólo recoge relaciones lineales.

• SUPUESTO: E(u|x) = E(u) = 0


• Este supuesto implica: E(y|x) = β0 + β1x
EJERCICIO

1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

Es decir, estamos suponiendo que E(y|x) es una función lineal


de x tal que, para cualquier x, la distribución de y está centrada
en E(y|x)

f(y)

E(y|x) = β1 + β2x
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES

• EJEMPLO: Ecuación de salarios

wage = β1 + β2 educ + u

• Supongamos que u es la capacidad innata del individuo para ganar


dinero.

• El supuesto de media condicional igual a cero implica que:

E( ability | educ =10) = E( ability | educ =16)

• Es decir, el nivel medio de “capacidad” debe ser el mismo para todos


los niveles educativos.
• Si la gente con más capacidad tiende a educarse más, entonces este
supuesto no se cumple. ESTO ES UN PROBLEMA IMPORTANTE.

EJERCICIO 1
Sea kids el número de niños que una mujer ha tenido y educ el
número de años de educación que la mujer ha recibido. El
siguiente es un modelo simple que relaciona la fertilidad con
el número de años de educación.

kids = β1 + β2 educ + u
Donde u es el error no observado.
a) ¿Qué tipo de factores están en u? ¿Pueden éstos estar
correlacionados con el nivel de educación?
b) En el análisis de regresión nosotros estamos interesados
en hacer interpretaciones de efectos causales. Para ello
debemos medir relaciones entre educ y kids “ceteris
paribus”, es decir, si lo demás permanece constante. De
acuerdo con lo que respondiste en el apartado anterior,
crees que en este modelo el β2 mide el efecto causal de
educ sobre kids?
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Si un ajuste bueno es aquél que tiene los residuos pequeños, ¿por qué no
buscar unos valores para los parámetros que hagan mínimo este residuo?

Minimizar la SCR (suma de cuadrados de los residuos),


donde n
SCR = ∑ ei2 = e12 + ... + en2
i =1

¿Por qué no minimizamos…?


n

∑ei =1
i = e1 + ... + en

19

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Y P4

Y P1

P3
P2

X1 X2 X3 X4 X

La respuesta está en que los errores positivos y negativos se compensarían. El ajuste


perfecto en este caso sería una línea recta en la media del valor de Y

21
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Y Verdadero : Y = β1 + β2 X + u

Yn
Y1

X1 Xn X

¿Qué pasa si tenemos n observaciones?

13

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X

Yˆn = b1 + b2 X n

Yn
Y1

Yˆ1 = b1 + b2 X 1
b1 b2

X1 Xn X

Dada nuestra elección de b1 y b2, la recta ajustada es la que se muestra en


el gráfico.
14
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X

Yˆn = b1 + b2 X n

Yn
Y1
e1 e1 = Y1 − Yˆ1 = Y1 − b1 − b2 X 1
.....
Yˆ1 = b1 + b2 X 1
b1 b2 en = Yn − Yˆn = Yn − b1 − b2 X n

X1 Xn X

Definimos el residuo para la primera observación

15

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X

Yˆn = b1 + b2 X n
en
Yn
Y1
e1 e1 = Y1 − Yˆ1 = Y1 − b1 − b2 X 1
.....
Yˆ1 = b1 + b2 X 1
b1 b2 en = Yn − Yˆn = Yn − b1 − b2 X n

X1 Xn X

Del mismo modo, definimos los residuos para el resto de observaciones. En


la gráfica se señala el correspondiente a la última observación.
16
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

n n

∑ (e ) ∑ (Y − b1 − b 2 X i )
2 2
SCR = i = i
i =1 i =1

Observad que los residuos dependen de b1 y b2


y que, por lo tanto, se pueden elegir los valores de estos estimadores
de forma tal que hagan mínima dicha suma de residuos al cuadrado

17

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

n n

∑ (e ) ∑ (Y − b1 − b 2 X i )
2 2
min b1 , b 2 SCR = i = i
i =1 i =1

∂ SCR
=0 ⇒ ∑ 2 ( Y i − b1 − b 2 X i )( − 1 ) = 0 ⇒
b1
………….
b1 = Y − b2 X

∂ SCR
b2
=0 ⇒ ∑ 2 ( y i − b1 − b 2 X i )( − X i ) = 0 ⇒

2b2 ∑X i
2
− 2 ∑Xi Yi + 2 b1 ∑Xi = 0

17
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i

b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0

Se divide por 2.

26

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i

b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0

b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0

b1 = Y − b2 X

Se sustituye b1 por la expresión obtenida anteriormente, de manera que la


ecuación queda sólo en función de b2.

27
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i

b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0

b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0

b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0

X=
∑X i

∑X i = nX

Utilizamos la definición de la media muestral

28

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i

b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0

b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0

b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0

b2 (∑ X i2 − nX 2 ) = ∑ X iYi − nXY

1  1
b2  ∑ X i2 − X 2  = ∑ X iYi − XY
n  n

Los términos que no contienen b2 se pasan a la parte de la derecha y se


divide la ecuación por n.
29
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i

b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0

b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0

b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0

b2 (∑ X i2 − nX 2 ) = ∑ X iYi − nXY

1  1
b2  ∑ X i2 − X 2  = ∑ X iYi − XY
n  n
b2 Var( X ) = Cov( X , Y )
Así, obtenemos una expresión para b2. Cov( X , Y )
b2 =
Var( X )

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X

Yˆn = b1 + b2 X n

Yn
Y1

Yˆ1 = b1 + b2 X 1
b1 b2

X1 Xn X

De nuevo, mostramos el gráfico para ilustrar lo que hemos hecho. Hemos


especificado un modelo de regresión y, a partir de los datos, hemos
ajustado la recta que aparece en el gráfico.
31
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Y Verdadero : Y = β1 + β2 X + u
Ajustado : Yˆ = b1 + b2 X

Yˆn = b1 + b2 X n

Yn
Y1
b1 = Y − b2 X

Yˆ1 = b1 + b2 X 1 Cov( X , Y )
b2 b2 =
b1 Var( X )

X1 Xn X

Hemos elegido los parámetros de la recta ajustada de modo que minimicen


la suma de cuadrados de los residuos.

32

2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Expresiones alternativas para b2


Cov( X , Y )
b2 =
Var( X )

1
n
∑ ( X i − X )(Yi − Y ) ∑ ( X i − X )(Yi − Y )
b2 = =
1
∑ i ( X − X ) 2 ∑ ( X i − X )2
n

En función de las expresiones de la varianza y covarianza muestral....

34
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS

Expresiones alternativas para b2

Cov( X , Y )
b2 =
Var( X )

1
n
∑ ( X i − X )(Yi − Y ) ∑ ( X i − X )(Yi − Y )
b2 = =
1
∑ i ( X − X ) 2 ∑ ( X i − X )2
n
1
n
∑ X iYi − XY ∑ X iYi − nXY
b2 = =
1
∑ i
X 2
− X 2 ∑ X i2 − nX 2
n
...y utilizando las expresiones alternativas de la varianza y covarianza
muestral que calculamos en clases anteriores.
35

3. INTERPRETACIÓN DE LA REGRESIÓN

80

70

60
Salario por hora ($)

50

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10

Estudios

Este gráfico muestra el salario por hora de 570 individuos.

1
3. INTERPRETACIÓN DE LA REGRESIÓN

. Regresión Salario- Estudios

Source | SS df MS Number of obs = 570


---------+------------------------------ F( 1, 568) = 65.64
Model | 3977.38016 1 3977.38016 Prob > F = 0.0000
Residual | 34419.6569 568 60.5979875 R-squared = 0.1036
---------+------------------------------ Adj R-squared = 0.1020
Total | 38397.0371 569 67.4816117 Root MSE = 7.7845

------------------------------------------------------------------------------
SALARIO | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | 1.073055 .1324501 8.102 0.000 .8129028 1.333206
_cons | -1.391004 1.820305 -0.764 0.445 -4.966354 2.184347
------------------------------------------------------------------------------

Esta es una salida de ordenador de un programa econométrico típico.

3. INTERPRETACIÓN DE LA REGRESIÓN

80
^
70 Salario = −1.391 + 1.073S

60

50
Salario

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10

Estudios

¿Qué significan los coeficientes?

11
3. INTERPRETACIÓN DE LA REGRESIÓN
15

14

13
$11.49
12
Salario

11 $1.07
Un año
10
$10.41
9

7
10.8 11 11.2 11.4 11.6 11.8 12 12.2
Estudios

¿Qué mide la pendiente?

12

3. INTERPRETACIÓN DE LA REGRESIÓN

80
^
70 Salario = −1.391 + 1.073S

60

50
Ingreso

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10

Estudios

¿Qué significa el término constante? En este caso, ¿su valor tiene sentido?
La razón por la que obtenemos ese valor negativo es porque en nuestra muestra sólo
hay individuos con un nivel de estudios igual o superior a 6 años. Entonces…. 15
3. INTERPRETACIÓN DE LA REGRESIÓN

80
^
70 Salario = −1.391 + 1.073S

60

50
Salario

40

30

20

10

0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10

Estudios

… ésta sería la parte de la regresión que se corresponde con las observaciones


disponibles.

18

EJERCICIO 2
El siguiente cuadro contiene los resultados de la prueba de aptitud para el
acceso a la universidad en EE.UU. (ACT, American College Testing) y la nota
media en la universidad (GPA, Grade Point Average) de 8 estudiantes. El
GPA se basa en una escala de 1 a 4.

Estudiante GPA ACT


1 2.8 21
2 3.4 24
3 3.0 26
4 3.5 27
5 3.6 29
6 3.0 25
7 2.7 25
8 3.7 30

a) Estimar la relación entre GPA y ACT empleando MCO, es decir, obtener los
valores estimados de los parámetros del modelo
GPA = β1 + β2 ACT + u
¿En este ejemplo, el término constante tiene una interpretación útil? ¿Cuánto
aumenta GPA si ACT aumenta 5 puntos?
b) Calcula los valores ajustados y los residuos para cada observación.
c) Calcular el valor predicho para GPA cuando ACT=20.
4. BONDAD DE AJUSTE

Tres resultados relevantes:

e =0 Yˆ = Y Cov(Yˆ , e ) = 0

4. BONDAD DE AJUSTE

Tres resultados relevantes:

e =0 Yˆ = Y Cov(Yˆ , e ) = 0

Demostrar e =0

Residuo ei = Yi − Yˆi = Yi − b1 − b2 X i Yˆi = b1 + b2 X i

3
4. BONDAD DE AJUSTE

Tres resultados relevantes:

e =0 Yˆ = Y Cov(Yˆ , e ) = 0

Demostrar Yˆ = Y
ei = Yi − Yˆi = Yi − b1 − b2 X i

∑ e = ∑ Y − ∑ Yˆ
i i i

1 1 1
n
∑ e i =
n
∑ Yi −
n
∑ Yˆi

e = Y − Yˆ Yˆ = Y

11

4. BONDAD DE AJUSTE

Tres resultados relevantes:

e =0 Yˆ = Y Cov(Yˆ , e ) = 0

Demostrar Cov(Yˆ , e ) = 0
Cov(Yˆ , e ) = Cov([b1 + b2 X ]), e ) = Cov(b1 , e ) + Cov(b2 X , e )
= 0 + b2Cov( X , e ) = b2Cov( X , [Y − b1 − b2 X ])
= b2 [Cov( X , Y ) − Cov( X , b1 ) − Cov( X , b2 X )]
= b2 [Cov( X , Y ) − b2Cov( X , X )]
 Cov( X , Y ) 
= b2 Cov( X , Y ) − Var( X ) = 0
 Var( X ) 

Demostrad que es igual a 0

21
4. BONDAD DE AJUSTE

ei = Yi − Yˆi ⇒ Yi = Yˆi + ei

Para analizar la bondad del ajuste, descomponemos el valor observado en el


valor ajustado y el residuo.

23

4. BONDAD DE AJUSTE

ei = Yi − Yˆi ⇒ Yi = Yˆi + ei

Var(Y ) = Var(Yˆ + e ) = Var(Yˆ ) + Var(e ) + 2Cov(Yˆ , e )


= Var(Yˆ ) + Var(e )
1 1 1
n
∑ (Y − Y ) 2 = ∑ (Yˆ − Yˆ ) 2 + ∑ (e − e ) 2
n n

∑ (Y − Y ) = ∑ (Yˆ − Y ) + ∑ e
2 2 2

SCT = SCE + SCR

SCE ∑ (Yˆi − Y ) ∑
2 2
ei
R =
2
= = 1−
SCT ∑ (Yi − Y ) 2 ∑ (Yi − Y )2
Un criterio de bondad de ajuste es el coeficiente de determinación.
35
4. BONDAD DE AJUSTE

Cov(Y , Yˆ ) Cov([Yˆ + e ], Yˆ )
rY ,Yˆ = =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Cov(Yˆ , Yˆ ) + Cov( e , Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Var(Yˆ ) Var(Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y )
Otro criterio de bondad
2 de ajuste es la correlacion entre el valor observado
= R
y ajustado de la variable Y.

37

4. BONDAD DE AJUSTE

Cov(Y , Yˆ ) Cov([Yˆ + e ], Yˆ )
rY ,Yˆ = =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Cov(Yˆ , Yˆ ) + Cov( e , Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Var(Yˆ ) Var(Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y )
= R2

43
Tema 4
Modelo de regresión lineal múltiple

Introducción a la Econometría. Curso 2008-2009


3º de Economía

1. MOTIVACIÓN

Supongamos un modelo de regresión con muchas variables explicativas

y = β1 + β2 x2 + β3 x3 + . . . βk xk + u

y = variable dependiente
x2, x3 . . . xk = variables explicativas
u = perturbación aleatoria
β1 = constante
β2 β3 . . . βk = parámetros de pendiente
1. MOTIVACIÓN

Existen varias razones por las que un modelo de regresión múltiple es


más util que un modelo de regresión simple

1. Podemos medir el efecto causal (ceteris paribus) de más de


una variable. La regresión múltiple nos permite separar los
efectos causales de distintas variables explicativas sobre la
variable dependiente.

2. La variable dependiente puede estar explicada por más de una


variable explicativa. Por tanto, especificar un modelo de
regresión simple nos podría conducir a sesgos en la estimación
de los parámetros.

3. Podemos plantear relaciones más flexibles (no lineales) entre


la variable dependiente y alguna de las variables explicativas.

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

Vamos a comenzar planteando el caso más sencillo de regresión múltiple

Yi = β 1 + β 2 X 2 i + β 3 X 3 i + ui

Yˆi = b1 + b2 X 2 i + b3 X 3 i

Los parámetros del modelo original son obtenidos por el método de mínimos cuadrados
ordinarios, de donde se obtienen los estimadores b1, b2, y b3.

11
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

Yi = β 1 + β 2 X 2 i + β 3 X 3 i + ui

Yˆi = b1 + b2 X 2 i + b3 X 3 i

ei = Yi − Yˆi = Yi − b1 − b2 X 2 i − b3 X 3 i

El residuo, ei de la observación i no es más que la diferencia entre la observación actual y la


ajustada.

12

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

SCR = ∑ e i2 = ∑ (Yi − b1 − b2 X 2 i − b3 X 3 i ) 2

EJERCICIO:
Derivar los estimadores MCO de los parámetros. Recordad que tenéis que minimizar
la expresión anterior, es decir, debéis resolver las siguientes condiciones de primer
orden

∂SCR ∂SCR ∂SCR


=0 =0 =0
∂b1 ∂b2 ∂b3

14
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

ESTIMADORES MCO:

b1 = Y − b2 X 2 − b3 X 3

Cov( X 2 ,Y )Var( X 3 ) - Cov( X 3 , Y )Cov( X 2 , X 3 )


b2 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

Cov( X 3 ,Y )Var( X 2 ) - Cov( X 2 , Y )Cov( X 2 , X 3 )


b3 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

15

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

Observemos los estimadores de los parámetros de pendiente:

Cov( X 2 ,Y )Var( X 3 ) - Cov( X 3 , Y )Cov( X 2 , X 3 )


b2 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

Cov( X 3 ,Y )Var( X 2 ) - Cov( X 2 , Y )Cov( X 2 , X 3 )


b3 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

¿Qué sucede si la covarianza entre X2 y X3 es cero?

¿En este caso, de qué depende el signo que tome el parámetro?

¿Tiene sentido en economía pensar que la covarianza entre X2 y X3 sea cero?

15
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

¿Qué sucede si en el denominador saco como factor común las varianzas?


Hacerlo e interpretar

Cov( X 2 ,Y )Var( X 3 ) - Cov( X 3 , Y )Cov( X 2 , X 3 )


b2 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

Cov( X 3 ,Y )Var( X 2 ) - Cov( X 2 , Y )Cov( X 2 , X 3 )


b3 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

15

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

EJEMPLO:
Vamos a estimar una ecuación de ingresos salariales. Para ello, utilizamos información
sobre 570 trabajadores. La especificación propuesta supone que los ingresos salariales
están explicados por los años de estudios del trabajador (S) y el nivel intelectual del
individuo, medido por el resultado de un test de inteligencial (HABIL)

INGRESOS = β1 + β2S + β3HABIL + u

tal que: E(u |S,HABIL) = 0

Este ejemplo nos va a servir para entender qué es lo que “ganamos”


cuando estimamos una regresión múltiple en vez de una regresión simple
a la hora de medir el efecto causal de una variable explicativa sobre la
variable dependiente.

15
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

. reg INGRESOS S HABIL

Source | SS df MS Number of obs = 570


---------+------------------------------ F( 2, 567) = 39.98
Model | 4745.74965 2 2372.87483 Prob > F = 0.0000
Residual | 33651.2874 567 59.3497133 R-squared = 0.1236
---------+------------------------------ Adj R-squared = 0.1205
Total | 38397.0371 569 67.4816117 Root MSE = 7.7039

------------------------------------------------------------------------------
INGRESOS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
HABIL | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------

ˆ
ingresos = −4.62 + 0.74 S + 0.15 habil

20

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

90

80

70

60
Ingresos por hora

50

40

30

20

10

0
0 5 10 15 20 25
-10
Años de Estudio

Pero supongamos que lo que nos interesa es la relación entre ingresos y S: si observamos
únicamente este gráfico para extraer conclusiones, éstas podrían estar equivocadas dado
que sabemos que la inteligencia (HABIL) afecta al ingreso, pero también a la educación.
2
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

90
. correlación S hábil
80 (obs=570)
| S hábil
--------+------------------
70
S| 1.0000
hábil | 0.5779 1.0000
Ingreso por hora 60

50

40

30

20

10

0
0 5 10 15 20 25
-10
Años de estudio

Existe una relación positiva fuerte entre S y hábil, y también entre hábil e ingresos. Es por
ello que mirar únicamente la relación entre S e ingreso podría llevarnos a conclusiones
equivocadas.
4

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

. reg ingresos hábil

Source | SS df MS Number of obs = 570


---------+------------------------------ F( 1, 568) = 56.78
Model | 3489.30726 1 3489.30726 Prob > F = 0.0000
Residual | 34907.7298 568 61.4572708 R-squared = 0.0909
---------+------------------------------ Adj R-squared = 0.0893
Total | 38397.0371 569 67.4816117 Root MSE = 7.8395

------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
hábil | .2687432 .035666 7.535 0.000 .1986898 .3387966
_cons | -.359883 1.818571 -0.198 0.843 -3.931829 3.212063
------------------------------------------------------------------------------

Para eliminar el efecto de la experiencia, lo que debería hacerse es limpiar de ingresos y S


el efecto que se debe a hábil y después representar gráficamente ambas variables. Para
ello, es necesario hacer dos regresiones por separado: 1) ingresos frente a HABIL; 2)
estudios frente a HABIL. El objetivo es quedarnos con los residuos de estas dos
regresiones.

6
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

. reg S hábil

Source | SS df MS Number of obs = 570


---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
Residual | 2300.43873 568 4.05006818 R-squared = 0.3340
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
hábil | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

70

60
Residuos Ingreso frente a Hábil

50

40

30

20

10

0
-6 -4 -2 0 2 4 6 8
-10

-20
Residuos S frente a Hábil

Una vez que hemos hecho eso, representamos gráficamente los residuos de ambas
regresiones. Esta gráfica nos muestra la relación entre el ingreso y S, una vez depurado el
efecto de la habilidad. La recta oscura es la regresión entre los residuos y la más clara es la
regresión original entre ingresos y estudios. 9
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
. reg Res-ingresos res-estudios
Source | SS df MS Number of obs = 570
---------+------------------------------ F( 1, 568) = 21.21
Model | 1256.44239 1 1256.44239 Prob > F = 0.0000
Residual | 33651.2873 568 59.2452241 R-squared = 0.0360
---------+------------------------------ Adj R-squared = 0.0343
Total | 34907.7297 569 61.3492613 Root MSE = 7.6971
------------------------------------------------------------------------------
Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244
_cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333
------------------------------------------------------------------------------

Regresión de los residuos.

PREGUNTA:
¿Por qué la estimación de la constante en este modelo es prácticamente igual a 0?
(* PISTA: pensad en la fórmula del estimador de la constante en un modelo de regresión
simple)

11

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS


. reg Res-ing RS
Source | SS df MS Number of obs = 570
---------+------------------------------ F( 1, 568) = 21.21
Model | 1256.44239 1 1256.44239 Prob > F = 0.0000
Residual | 33651.2873 568 59.2452241 R-squared = 0.0360
---------+------------------------------ Adj R-squared = 0.0343
Total | 34907.7297 569 61.3492613 Root MSE = 7.6971
------------------------------------------------------------------------------
Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244
_cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333
------------------------------------------------------------------------------

Regresión multiple:
------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
habil | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------

Es importante observar que el procedimiento seguido anteriormente da lugar al mismo


estimador que la regresión multiple.

12
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

Cov( X 2 ,Y )Var( X 3 ) - Cov( X 3 , Y )Cov( X 2 , X 3 )


b2 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

Se puede demostrar analíticamente que este estimador surge de la regresión entre


los residuos obtenidos de hacer la regresión de Y frente X3, frente a los residuos
obtenidos de la regresión de X2 frente X3

15

2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

Varianza de los estimadores

Y = β1 + β 2 X 2 + β 3 X 3 + u Yˆ = b1 + b2 X 2 + b3 X 3

σ u2 1
Varianza poblacional b2 = σ = ×
2

nVar( X 2 ) 1 − rX22 , X 3
b2

Observad que la varianza se compone de dos elementos:

►► El primero es idéntico al caso de regresión simple: depende de la varianza de la


perturbación, del número de observaciones en la muestra y de la varianza de la
variable explicativa de interés.

►► El segundo componente está relacionado con la correlación que existe entre las
dos variables explicativas del modelo. Cuanto mayor sea la correlación entre estas dos
variables, mayor será la varianza del estimador. Esto se debe a que cuanto mayor sea
la correlación entre las dos variables explicativas, más difícil será discriminar entre el
efecto que dichas variables producen en la Y y, por lo tanto, menos precisa será la
estimación.
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS

Varianza de los estimadores

Y = β1 + β 2 X 2 + β 3 X 3 + u Yˆ = b1 + b2 X 2 + b3 X 3

σ u2 1
Varianza poblacional b2 = σ = ×
2

nVar( X 2 ) 1 − rX22 , X 3
b2

σ u2 1
Desviación típica b2 = ×
nVar( X 2 ) 1 − rX22 , X 3

Para estimar σ2 no utilizamos Var(e) porque es un estimador sesgado:

n−k 2
E [Var(e )] = σu
n
El estimador insesgado es:
n su2 1
s =
2
Var(e ) s.e. (b2 ) = ×
u
n−k nVar( X 2 ) 1 − rX22 , X 3
Tema 5
Inferencia y predicción en el modelo de
regresión lineal

Introducción a la Econometría. Curso 2007-2008


3º de Economía

1. SUPUESTO DE NORMALIDAD

• Para poder realizar contrastes de hipótesis sobre los parámetros del


modelo de regresión, necesitamos conocer la distribución del
estimador MCO (no sólo su esperanza y su varianza).

• Añadimos un nuevo supuesto a las Condiciones Gauss-Markov

Supuesto 6: Normalidad
u es independiente de x1, x2,…, xk y u sigue una distribución Normal
con media cero y varianza σ2

u ~ Normal(0,σ2)
1. SUPUESTO DE NORMALIDAD

1. A los supuestos 1 a 6 se les denomina SUPUESTOS O


HIPÓTESIS CLÁSICAS del modelo de regresión

2. El supuesto de Normalidad de u implica que, condicionado en x

y|x ~ Normal(β0 + β1x1 +…+ βkxk, σ2)

3. Bajo los supuestos clásicos, el estimador MCO sigue una


distribución Normal:

[
βˆ j ~ Normal β j , Var βˆ j ( )]
por tanto
(βˆ − β ) ~ Normal (0,1 )
( )
j j
sd βˆ j

1. SUPUESTO DE NORMALIDAD

• ¿Realmente necesitamos suponer que u sigue una distribución


Normal para obtener que el estimador MCO también se
distribuye Normal?

• No lo necesitamos.

• Cuando trabajamos con muestras grandes (y si se cumplen los


supuestos 1 a 5) el Teorema Central del Límite implica que el
estimador MCO tiene una distribución aproximadamente Normal.

• En particular, decimos que estimador MCO es asintóticamente


Normal. Esto significa que la distribución Normal es una buena
aproximación cuando la muestra es grande, incluso si no se
cumple el Supuesto 6.
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Modelo: Y = β1 + β2X + u
Hipótesis nula: H 0 : β 2 = β 20
Hipótesis alternativa H 1 : β 2 ≠ β 20

Esta secuencia describe el contraste de una hipótesis a un nivel de significación del 5% y


del 1 %. También define lo que significa un error de Tipo I.

A partir de un modelo de regresión simple, nos planteamos contrastar la hipótesis H0 de


que el coeficiente de pendiente es igual a un valor dadoβ20.

La hipótesis que se contrasta se denomina HIPÓTESIS NULA. La contrastamos frente a la


HIPÓTESIS ALTERNATIVA H1 que simplemente propone que β2 no es igual al β20.

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Modelo: Y = β1 + β2X + u
Hipótesis nula: H 0 : β 2 = β 20
Hipótesis alternativa H 1 : β 2 ≠ β 20

Ejemplo de modelo: p = β1 + β2w + u


Hipótesis nula: H 0 : β 2 = 1.0
Hipótesis alternativa: H 1 : β 2 ≠ 1.0

Como ilustración, consideremos un modelo que relacione el índice de precios al consumo


con un índice de salarios: p es el IPC y w es el índice salarial.

Contrastaremos la hipótesis de que la tasa de inflación en precios es igual a la tasa de


inflación en salarios. Es decir la hipótesis nula es H0: β2 = 1.0.
4
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad de b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

Si la hipótesis nula es cierta, el estimador b2 tendrá una distribución con media 1.0. Para
dibujar la distribución debemos conocer su desviación típica.

Suponemos que conocemos la desviación típica y que es igual a 0.1. Este es un supuesto
muy poco realista. En la práctica esta desviación típica la tenemos que estimar.
6

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β20 es cierta (la desviación típica se
considera conocida)

β20-4sd β20-3sd β20-2sd β20-sd β20 β20+sd β20+2sd β20+3sd β20+4sd b2

Esta sería la distribución de b2 para el caso general. En lo que sigue suponemos que
conocemos la desviación típica (sd=standard deviation).

8
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2


Supongamos que tenemos una muestra de datos para estimar el modelo de precios y que la
estimación del coeficiente de pendiente, b2, es 0.9. Sería este resultado una evidencia
suficiente en contra de la hipótesis nula β2 = 1.0?

¡NO LO ES! Es cierto que la estimación es inferior a 1.0 pero, debido a que existe el término
de perturbación en el modelo, nosotros no podríamos esperar una estimación exactamente
igual a 0.9. 9

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

Si la hipótesis nula fuese cierta, las estimaciones no deberían estar lejos de 0.9. De modo
que no parece existir conflicto entre la estimación y lo que proponemos en la hipótesis
nula.
11
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
31.7%

β20-4sd β20-3sd β20-2sd β20-sd β20 β20+sd β20+2sd β20+3sd β20+4sd b2

En el caso general, el resultado equivale a haber obtenido una estimación que esté
solamente una desviación típica por debajo del valor hipotético.

Si la hipótesis nula fuese cierta, la probabilidad de obtener una estimación una desviación
típica (o más) por encima o por debajo del valor medio es 31.7%.
12

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

Ahora supongamos que en el modelo de inflación de precios/inflación de salarios,


obtuviésemos una estimación de 1.4. Este resultado claramente entra en conflicto con la
hipótesis nula.
14
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2

β20-4sd β20-3sd β20-2sd β20-sd β20 β20+sd β20+2sd β20+3sd β20+4sd b2

1.4 está cuatro desviaciones típicas por encima del valor hipotético y la probabilidad de
obtener una estimación más extrema que ésta es sólo del 0.006%. En este caso,
rechazaríamos la hipótesis nula.
15

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

Supongamos que ahora obtemos una estimación igual a 0.77. Este es un resultado
complicado para emitir un juicio sobre la hipótesis nula.

16
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2

β20-4sd β20-3sd β20-2sd β20-sd β20 β20+sd β20+2sd β20+3sd β20+4sd b2


Si la hipótesis nula fuese cierta, la estimación obtenida estaría entre 2 y 3 desviaciones
típicas por debajo de la media.
Existen dos posibilidades. La primera es que la hipótesis nula sea cierta y simplemente
hayamos obtenido una estimación anormal (mala suerte con la muestra).
La otra posibilidad es que la hipótesis nula sea falsa. Es decir, la tasa de inflación en
precios no es igual a la tasa de inflación en salarios. 17

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β200 es cierta
0
(la desviación típica se
considera conocida)

β20-4sd β20-3sd β20-2sd β20-sd β20 β20+sd β20+2sd β20+3sd β20+4sd b2

El procedimiento habitual para tomar decisiones consiste en rechazar la hipótesis nula si


implica que la probabilidad de obtener una estimación tan extrema como la que se ha
obtenido es menor que alguna probabilidad pequeña p.
20
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β20 es cierta (la desviación típica se
considera conocida)

2.5% 2.5%

β20-4sd β20-3sd β20-2sd β20-sd β20 β20+sd β20+2sd β20+3sd β20+4sd b2

Por ejemplo, podríamos decidir rechazar la hipótesis nula si ello implicase que la
probabilidad de obtener un valor tan extremo como el obtenido fuese menor que 0.05 (5%).

De acuerdo con esta regla de decisión, rechazaríamos la hipótesis nula si la estimación


cayese dentro de las colas superior e inferior que acumulan el 2.5% de la probabilidad. 21

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)

2.5% 2.5%

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

Si aplicamos esta regla decisión al ejemplo de precios/salarios, la primera estimación de β2


no nos conduciría al rechazo de la hipótesis nula.

23
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β2 es cierta (la desviación típica se
considera conocida)

2.5% 2.5%

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

La segunda sí lo haría.

24

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β2 es cierta (la desviación típica se
considera conocida)

2.5% 2.5%

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

La tercera también conduciría al rechazo.

25
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2
Distribución de b2 si la hipótesis nula H0: β2
=β2 es cierta
0
(la desviación típica se
considera conocida)

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

Las colas que acumulan el 2.5% de probabilidad en una distribución normal siempre
comienzan a 1.96 desviaciones típicas de su media.

26

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 5%):


RechazoH0 : β 2 = β 2
0

Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

De modo que rechazaríamos H0 si la estimación estuviese a 1.96 desviaciones típicas (o


más) por encima o por debajo de la media hipotética.

27
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 5%)


Rechazo H0 : β 2 = β 20
Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 − β 20 > 1.96 s.d. (2) si b2 − β 20 < −1.96 s.d.

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

Es decir, rechazaríamos H0 si la diferencia entre la estimación muestral y el valor hipotético


fuese mayor que 1.96 desviaciones típicas.

28

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 5%):


Rechazo H0 : β 2 = β 20
Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 − β 20 > 1.96 s.d. (2) si b2 − β 20 < −1.96 s.d.
(1) si (b2 − β 2 ) / s.d. > 1.96 (2) si (b2 − β 2 ) / s.d. < −1.96
0 0

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

Rechazaríamos H0 si la diferencia, expresada en términos de desviaciones típicas, fuese


mayor que 1.96 en valor absoluto.

29
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 5%):


Rechazo H0 : β 2 = β 20
Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 − β 20 > 1.96 s.d. (2) si b2 − β 20 < −1.96 s.d.
(1) si (b2 − β 2 ) / s.d. > 1.96 (2) si (b2 − β 2 ) / s.d. < −1.96
0 0

b2 − β 20
z=
s.d.

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

Denotamos la diferencia, expresada en términos de desviaciones típicas, como z

30

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 5%):


Rechazo H0 : β 2 = β 20
Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 − β 20 > 1.96 s.d. (2) si b2 − β 20 < −1.96 s.d.
(1) si (b2 − β 2 ) / s.d. > 1.96 (2) si (b2 − β 2 ) / s.d. < −1.96
0 0

(1) si z > 1.96 (2) si z < -1.96


b − β 20
z= 2
s.d.

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

Entonces, la regla de decisión consiste en rechazar la hipótesis nula si z es mayor que 1.96
en términos absolutos.

30
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 5%):


Rechazo H0 : β 2 = β 20
Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si z > 1.96 (2) si z < -1.96
Región de aceptación para b2:
β 20 − 1.96 s.d. ≤ b2 ≤ β 20 + 1.96 s.d.
b2 − β 0
z= 2
s.d.

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

El rango de valores de b2 que no conducen al rechazo de la hipótesis nula se conoce como


REGIÓN DE ACEPTACIÓN.

32

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 5%):


Rechazo H0 : β 2 = β 20
Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si z > 1.96 (2) si z < -1.96
Región de aceptación para b2:
β 20 − 1.96 s.d. ≤ b2 ≤ β 20 + 1.96 s.d.
b2 − β 0
− 1.96 ≤ z ≤ 1.96
z= 2
s.d.

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

Los valores de z que definen la región de aceptación son 1.96 y -1.96 (para un nivel de
significación del 5%).

32
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 5%):


Rechazo H0 : β 2 = 1.0
Función de densidad
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 > 1.0 + 1.96 × 0.1 (2) si b2 < 1.0 − 1.96 × 0.1
(1) si b2 > 1.196 (2) si b2 < 0.804
Región de aceptación para b2:
0.804 ≤ b2 ≤ 1.196

2.5% 2.5%

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

Veamos la regla de decisión en el ejemplo de precios/ salarios. La hipótesis nula es que el


coeficiente de pendiente es igual a 1.0.
Suponemos que conocemos la desviación típica y que es igual a 0.1.

La región de aceptación para b2 es el intervalo 0.804 a 1.196. Una estimación muestral que
caiga en este rango no conducirá a un rechazo de la hipótesis nula. 36

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Error Tipo I: rechazar H0 cuando es cierta


Probabilidad de error Tipo I: en este caso es el 5%
Función de densidad
de probabilidad b2 El nivel de significación del contraste es el 5 %

Rechazo H0 : β 2 = β 20 Región de aceptación Rechazo H0 : β 2 = β 20

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

En el contraste que estamos haciendo, si la hipótesis es cierta, el error Tipo I ocurrirá el 5 %


de las veces porque el 5% de las veces obtendremos estimaciones que caerán dentro de
las colas superior e inferior que acumulan una probabilidad del 2.5%.

El nivel de significación de un contraste se define como la probabilidad de cometer un error


de Tipo I si la hipótesis nula es cierta. 37
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Error Tipo I: rechazar H0 cuando es cierta


Probabilidad de error Tipo I: en este caso es el 5%
Función de densidad
de probabilidad b2 El nivel de significación del contraste es el 5 %

Rechazo H0 : β 2 = β 20 Región de aceptación Rechazo H0 : β 2 = β 20

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

Por supuesto, podemos reducir el riesgo de cometer un error Tipo I si reducimos el tamaño
de la región de rechazo.
Por ejemplo, podríamos cambiar la regla de decisión y fijar una nueva tal que “rechacemos
la hipótesis nula si la probabilidad de obtener una estimación muestral como la obtenida es
menor que 0.01 (1 %)”.
37

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Función de densidad
de probabilidad b2

Rechazo H0 : β 2 = β 20 Región de aceptación Rechazo H0 : β 2 = β 20

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

La región de rechazo se convierte ahora en las colas superior en inferior que acumulan el
0.5% de la probabilidad.

42
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 1%):


Rechazo H0 : β 2 = β 20
Función de densidad
(1) si b2 > β 20 + 2.58 s.d. (2) si b2 < β 20 − 2.58 s.d.
de probabilidad b2
(1) si z > 2.58 (2) si z < -2.58
Región de aceptación para b2:
β − 2.58 s.d. ≤ b2 ≤ β 20 + 2.58 s.d.
0
2
b2 − β 20 − 2.58 ≤ z ≤ 2.58
z=
s.d.

0.5% 0.5%

β20-2.58sd β20-sd β20 β20+sd β20+2.58sd b2

Las colas que acumulan el 0.5% de la probabilidad de una distribución normal comienzan a
2.58 desviaciones típicas de la media, de manera que ahora rechazamos la hipótesis nula si
el valor del estadístico z es mayor que 2.58 en valor absoluto.
43

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Error Tipo I: rechazar H0 cuando es cierta


Probabilidad de error Tipo I: en este caso es el 1%
Función de densidad
de probabilidad b2 El nivel de significación del contraste es el 1%

Rechazar H0 : β 2 = β 20 Región de aceptación Rechazo H0 : β 2 = β 20

0.5% 0.5%

β20-2.58sd β20-sd β20 β20+sd β20+2.58sd b2

Como la probabilidad de cometer un error Tipo I, si la hipótesis nula es cierta, es ahora del
1%, se dice que el contraste se realiza a un nivel de significación del 1 %.

44
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Regla de decisión (nivel de significación 1%):


Rechazo H0 : β 2 = 1.0
Función de densidad
(1) si b2 > β 20 + 2.58 s.d. (2) si b2 < β 20 − 2.58 s.d.
de probabilidad b2
(1) si b2 > 1.0 + 2.58 × 0.1 (2) si b2 < 1.0 − 2.58 × 0.1
(1) si b2 > 1.258 (2) si b2 < 0.742
Región de aceptación para b2:
0.742 ≤ b2 ≤ 1.258

0.5% 0.5%

0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

En el ejemplo de inflación de precios/inflación salarios, como la desviación típica es 0.1, las


colas del 0.5% de probabilidad comienzan 0.742 y 1.258.

La región de aceptación para b2 es el intervalo entre 0.742 y 1.258. Puesto que es más
amplio que el correspondiente al contraste al nivel de significación del 5%, existe un riesgo
menor de cometer un error Tipo I, si la hipótesis nula es cierta. 45

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN

Comparación de regiones de aceptación al 5% y 1%

Función de densidad 5%: β 2 − 1.96 s.d. ≤ b2 ≤ β 2 + 1.96 s.d. -1.96 < z < 1.96
0 0

de probabilidad b2 1%: β 20 − 2.58 s.d. ≤ b2 ≤ β 20 + 2.58 s.d. -2.58 < z < 2.58

nivel 1%
b − β 20
z= 2 nivel 5%
s.d.

0.5% 0.5%

β20-4sd β20-3sd β20-2sd β20-sd β20 β20+sd β20+2sd β20+3sd β20+4sd b2

Este diagrama compara los procesos de decisión para contrastes al 5% y 1%. Notar que si
se rechaza H0 al 1%, debe rechazarse también al 5%.

Notar también que si b2 cae dentro de la región de aceptación del contraste al 5%, también
debe caer dentro de la región de aceptación al 1%.
47
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Ejemplo:
Caso general Decisión precios/salarios

Rechazo H0 al 1% (y también al 5%)


β 20 + 2.58 s.d. 1.258
Rechazo H0 al 5% pero no al 1%
β 20 + 1.96 s.d. 1.196

β 20 No rechazo H0 al 5% (ni al 1%) 1.000

β 20 − 1.96 s.d. 0.804


Rechazo H0 al 5% pero no al 1%
β 20 − 2.58 s.d. 0.742
Rechazo H0 al 1% (y también al 5%)

El diagrama resume las decisiones posibles en contrastes realizados para niveles de


significación del 5% y del 1%, en el caso general, y en el ejemplo de inflación de
precios/salarios.
En el medio del diagrama se señala cuál sería la decisión. Generalmente no se dicen las
49
frases entre paréntesis.

2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN


Ejemplo: Inflación
Caso general Decisión precios/inflación
salarios
Rechazo H0 al 1% (y también al 5%)
β 20 + 2.58 s.d. 1.258
Rechazo H0 al 5% pero no al 1%
β 20 + 1.96 s.d. 1.196

β 20 No rechazo H0 al 5% (ni al 1%) 1.000

β 20 − 1.96 s.d. 0.804


Rechazo H0 al 5% pero no al 1%
β 20 − 2.58 s.d. 0.742
Rechazo H0 al 1% (y también al 5%)

Deberías ofrecer los resultados de ambos contrastes sólo si rechazas a un nivel de


significación del 5%, pero no a un nivel del 1%.

49
3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2

5% nivel

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

Hemos definido error de Tipo I como el rechazo de la hipótesis nula cuando es cierta.
En el contraste de hipótesis, también existe la posibilidad de no rechazar la hipótesis nula
cuando es falsa. Esto se conoce como error de Tipo II.
Aquí demostraremos que existe un intercambio o trade-off entre el riesgo de cometer un
error de Tipo I y el riesgo de cometer un error Tipo II.
1

3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2

5% nivel

2.5% 2.5%

β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2

El gráfico muestra las regiones de aceptación y rechazo para un contraste a un nivel de


significación del 5%. El riesgo de cometer un error Tipo I, si la hipótesis nula es cierta, es
del 5%.
4
3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
5% nivel

0.5% 0.5%

β20-2.58sd β20-sd β20 β20+sd β20+2.58sd b2

Si realizamos el contraste a un nivel de significación del 1%, el riesgo de cometer un error


de Tipo I se reduce al 1%, si la hipótesis nula es cierta.

¿Cuáles son las implicaciones de la elección del nivel de significación si la hipótesis nula
es falsa?
5

3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2

Supongamos que H1: β2 = β21 es cierta y, por tanto, la distribución de b2 es la curva que se
presenta en la parte derecha.

8
3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2

Si tuviésemos datos para estimar la regresión, la estimación de b2 sería la que se muestra.


En este caso, tomaríamos la decisión correcta y rechazaríamos H0, independientemente del
nivel de significación que se adoptase.
9

3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2

Aquí tenemos otra estimación (suponemos que hemos conseguido una muestra distinta a
la anterior). De nuevo, la decisión correcta sería rechazar la hipótesis nula, tanto para un
nivel de significación del 5% como del 1%.
10
3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2

En el caso que se muestra ahora, cometeríamos un error de Tipo II y no rechazaríamos la


hipótesis nula para esos niveles de significación.

11

3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2

Pero, en el caso de esta estimación, podríamos tomar la decisión correcta si realizamos el


contraste a un nivel de significación del 5%, mientras que cometeríamos un error Tipo II si
utilizásemos un nivel de significación del 1%.
12
3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2

La probabilidad de cometer un error de Tipo II si realizamos el contraste al nivel del 1%


viene dada por la probablidad de que b2 caiga dentro de la región de aceptación para ese
nivel de significación, es decir, el intervalo entre las líneas rojas punteadas.
13

3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2

Dado que H1 es cierto, la probabilidad de que b2 caiga en la región de aceptación es el área


sombreada que corresponde a la distribución bajo H1.

14
3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2


Si realizásemos el contraste a un nivel de significación del 5%, la probabilidad de cometer
error Tipo II si H1 es cierta, viene dada por el área que está bajo la distribución
correspondiente a H1, dentro de la región de aceptación a ese nivel de significación.

Es el área gris del gráfico. En este caso particular, si realizásemos el contraste al 5% en vez
de al 1%, el riesgo de cometer error Tipo II se reduciría casi a la mitad.
15

3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2

El problema es, por supuesto, que nunca sabemos si H0 es cierta o falsa. Si lo supiéramos,
¿para qué ibamos a hacer contrastes?

17
3. ERROR TIPO I Y ERROR TIPO II

distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21

0.5% 0.5%

β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2


Recapitulemos: si H0 fuese cierta, realizar el contraste a un nivel de significación del 1% en
vez de al 5%, reduciría enormemente el riesgo de cometer un error Tipo I (no cometeríamos
error Tipo II).

...sin embargo, si H0 fuese falsa, realizar el contraste a un nivel de significación del 1% en


vez de al 5% aumentaría el riesgo de cometer un error Tipo II (en este caso no podríamos
cometer error Tipo I). 18

4. CONTRASTE t SOBRE SOBRE UN COEFICIENTE DE REGRESIÓN

s.d. de b2 conocida

Discrepancia entre el valor


hipotético y la estimación
muestral, en términos de s.d:
b2 − β 20
z=
s.d.

Nivel de significación 5%:


rechazo H0: β2 = β2 0si
z > 1.96 o z < -1.96

El esquema resume el procedimiento para realizar un contraste de significación del


coeficiente de la pendiente de la regresión a un nivel de significación del 5 %, suponiendo
que conocemos la desviación típica de la estimación.
1
4. CONTRASTE t SOBRE SOBRE UN COEFICIENTE DE REGRESIÓN

s.d. de b2 conocida s.d. de b2 desconocida

Discrepancia entre el valor Discrepancia entre el valor


hipotético y la estimación hipotético y la estimación
muestral, en términos de s.d: muestral, en términos de s.e.:
b2 − β 20 b2 − β 20
z= t=
s.d. s.e.

Nivel de significación 5%:


rechazo H0: β2 = β2 0si
z > 1.96 o z < -1.96
Este es un supuesto poco realista. normalmente, tenemos que estimar la desviación típica
del estimador (poque no conocemos la varianza de las perturbaciones) y utilizamos esa
estimación para realizar el contraste de hipótesis.
Puesto que hemos sustituido la desviación típica por su estimación (standard error) en el
denominador, el estadístico de contraste sigue una distribución t con n-k grados de libertad
1
(n=nº observaciones, k=nº de parámetros del modelo de regresión).

4. CONTRASTE t SOBRE SOBRE UN COEFICIENTE DE REGRESIÓN

s.d. de b2 conocida s.d. de b2 desconocida

Discrepancia entre el valor Discrepancia entre el valor


hipotético y la estimación hipotético y la estimación
muestral, en términos de s.d: muestral, en términos de s.e.:
b2 − β 20 b2 − β 20
z= t=
s.d. s.e.

Nivel de significación 5%: Nivel de significación 5%:


rechazo H0: β2 = β2 0si rechazo H0: β2 = β0 2 si
z > 1.96 o z < -1.96 t > tcrit o t < -tcrit

De modo que denominamos al estadístico de contraste , el estadístico t. En el resto de


aspectos, el procedimiento es igual al que hemos descrito.
La clave está en observar el valor crítico de la distribución t, y si el valor del estadístico t en
nuestra muestra es mayor (en valor absoluto) que dicho valor crítico, rechazamos la
1
hipótesis nula. Y si es menor (en valor absoluto) no la rechazamos.
4. CONTRASTE t SOBRE SOBRE UN COEFICIENTE DE REGRESIÓN
Distribución t: valores críticos
Grados de Dos colas 10% 5% 2% 1% 0.2% 0.1%
libertad Una cola 5% 2.5% 1% 0.5% 0.1% 0.05%
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
… … … … … … …
… … … … … … …
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
… … … … … … …
… … … … … … …
120 1.658 1.980 2.358 2.617 3.160 3.373
∞ 1.645 1.960 2.326 2.576 3.090 3.291

Por esta razón, necesitamos mirar la tabla de valores críticos de la t cuando realizamos
contrastes de significación sobre los coeficientes de la regresión.
19

4. CONTRASTE t SOBRE SOBRE UN COEFICIENTE DE REGRESIÓN


Distribución t: valores críticos
Grados de Dos colas 10% 5% 2% 1% 0.2% 0.1%
libertad Una cola 5% 2.5% 1% 0.5% 0.1% 0.05%
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
… … … … … … …
… … … … … … …
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
… … … … … … …
… … … … … … …
120 1.658 1.980 2.358 2.617 3.160 3.373
∞ 1.645 1.960 2.326 2.576 3.090 3.291

Nótese que confome aumentan los grados de libertad, el valor crítico converge a 1.96, que
es el valor crítico de una distribución normal. Esto es porque la distribución t converge a
una distribución normal.
24
5. CONTRASTES DE UNA COLA

densidad de hipótesis nula: H0 : β 2 = 0


b2
hipótesis alternativa: H1 : β 2 > 0

0
Supongamos que nos interesan alternativas a la hipótesis nula de la forma H1 : β2 > 0; por
alguna razón, estamos descartando valores del parámetro menores que cero. (Otra
forma de ver esto es que la hipótesis nula sea en realidad H0: β2 ≤ 0; tanto en un caso
como en otro la implementación del contraste es igual).
¿Cómo deberíamos elegir una regla de rechazo de la hipótesis nula?
36

5. CONTRASTES DE UNA COLA

densidad de hipótesis nula: H0 : β 2 = 0


b2
hipótesis alternativa: H1 : β 2 > 0

no rechazar H0 rechazar H0

5%

0 1.65 sd
Primero debemos elegir un nivel de significación o la probabilidad de rechazar H0 cuando
es cierta. En concreto, supongamos que elegimos un nivel de significatividad del 5%, que
es lo más habitual. De este modo, estamos dispuestos a rechazar erróneamente H0 cuando
es verdadera el 5% de las veces.
Fijémonos que, si H1 fuese verdadera, el valor del estadístico t sería positivo. Por tanto, la
región de rechazo será aquélla para la cual los valores del estadístico sean
36
“suficientemente grandes (y positivos)”. A un nivel del 5%, será la que aparece arriba.
5. CONTRASTES DE UNA COLA

densidad de hipótesis nula: H0 : β 2 = 0


b2
hipótesis alternativa: H1 : β 2 < 0

rechazar H0 no rechazar H0

5%

-1.65 sd 0

Utilizando el mismo razonamiento, la región de rechazo estaría a la izquierda si la hipótesis


alternativa fuese H1: β2<0.

36

6. INTERVALOS DE CONFIANZA

Desviación típica conocida


intervalo de confianza al 95%
b2 - 1.96 sd < β2 < b2 + 1.96 sd
intervalo de confianza al 99%
b2 - 2.58 sd < β2 < b2 + 2.58 sd

Desviación típica estimada


intervalo de confianza al 95%
b2 - tcrit (5%) se < β2 < b2 + tcrit (5%) se
intervalo de confianza al 99%
b2 - tcrit (1%) se < β2 < b2 + tcrit (1%) se

Un intervalo de confianza proporciona un intervalo de valores probables para el parámetro


poblacional , y no simplemente una estimación puntual.
El significadode un intervalo de confianza es el siguiente: Si se recogiera un gran número
de muestras aleatorias y se estimase el parámetro β2 con cada una de ellas, el 99% de las
veces estaría dentro del intervalo (b2 - tcrit (1%)se , b2 + tcrit (1%) se). 29
Tema 0
Econometría II 09/10
Estimación por máxima verosimilitud y conceptos de
teoría asintótica
1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD)

La estimación por Máxima Verosimilitud es un método de


optimización que supone que la distribución de probabilidad de las
observaciones es conocida.

La intuición del principio de MV es la siguiente:

1. Dado el supuesto sobre la distribución de las Yi , construimos la


verosimilitud (probabilidad conjunta) de observar la muestra que
tenemos. Esa probabilidad conjunta es una función de una serie de
parámetros desconocidos que caracterizan la distribución.

2. Elegimos como estimadores MV aquellos valores de los parámetros


desconocidos que hacen máxima esa verosimilitud.
1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD)

Se trata de construir la función de probabilidad conjunta (o


función de verosimilitud) de y1, y2, …. Yn. Suponemos que las
observaciones son independientes y están idénticamente
distribuidas (i.i.d.)
yi ~ f (yi; θ)

 Si, para un determinado valor de θ, la verosimilitud es PEQUEÑA,


es poco probable que ese θ sea el valor correcto que ha generado los
datos que observamos.

 Si, para un determinado valor de θ, la verosimilitud es GRANDE, es


bastante probable que ese θ sea el valor correcto que ha generado los
datos que observamos.
1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD)

Por tanto tenemos que elegir el θ que maximiza L(θ). Es decir, el


estimador MV será el que satisfaga la condición de primer orden:

Lo cual es equivalente a maximizar el logaritmo de la función de


verosimilitud. Es decir, el estimador MV también satisface:

Generalmente, trabajamos con el


logaritmo de la verosimilitud por
razones prácticas.
EJERCICIO:
Estimador MV en el modelo de regresión lineal bajo el supuesto de normalidad.

( yi  xi ' ) 2
1 
f ( yi | xi ,  ,  )  e 2 2

2 2
Y

=  1
+ 2
X
Y

1 + 2Xi

1

X X
EJERCICIO:
Estimador MV en el modelo de regresión lineal bajo el supuesto de normalidad.

1. Construimos la función de verosimilitud

2. Calculamos el logaritmo de la función de verosimilitud


EJERCICIO:
Estimador MV en el modelo de regresión lineal bajo el supuesto de normalidad.

3. Condiciones de primer orden

4. Estimadores

En este caso, pero


1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD)

VENTAJA: El estimador MV (ML=maximum likelihood) tiene


propiedades asintóticas óptimas entre todos los estimadores
consistentes y normales asintóticamente.

DESVENTAJA: Podemos tener problemas graves si nos equivocamos


en el supuesto de la distribución. En otras palabras, el estimador
MV depende de forma importante de los supuestos sobre la
distribución.

Otra desventaja: El estimador MV tiene propiedades mediocres en


muestras pequeñas.
EJERCICIO:

Una variable aleatoria X puede tomar valores enteros 0,1,2,3, … La


probabilidad de que X sea igual a un valor específico x, p(x) se escribe:

e   x
p( x ) 
x!
Donde λ es un parámetro desconocido y x! = x ( x-1) (x-2)…..
En una muestra de 3 observaciones, los valores de la variable aleatoria
son 2, 5 y 2:
a) Escribe la función de verosimilitud de la muestra
b) Deriva el estimador MV de λ
2. PROPIEDADES ASINTÓTICAS

• La idea es analizar el comportamiento aproximado del estimador


cuando n → ∞

• En particular, nos interesa saber si los estimadores son


“consistentes” y cuál es su distribución asintótica.

Estas propiedades “sustituyen” de alguna forma a otras que se obtienen en


muestras pequeñas pero que no se cumplen en muchos estimadores de MV. En
particular, en muchos casos, no podemos demostrar “insesgadez”
ni podemos calcular la distribución exacta del estimador (ejemplo: )
2. PROPIEDADES ASINTÓTICAS

1. CONSISTENCIA
2. PROPIEDADES ASINTÓTICAS

1. CONSISTENCIA
1º PROCEDIMIENTO PARA DEMOSTRAR CONSISTENCIA

Se trata de demostrar la
Convergencia en Media
Cuadrática.
2. PROPIEDADES ASINTÓTICAS

1. CONSISTENCIA
2º PROCEDIMIENTO PARA DEMOSTRAR CONSISTENCIA
2. PROPIEDADES ASINTÓTICAS

1. CONSISTENCIA

Los estimadores pueden ser inconsistentes por dos razones:

(1) Convergen a una constante que no coincide con el parámetro


que pretendemos estimar. Es decir, son estimadores
consistentes de otro parámetro, pero no del que nos interesa.

(1) No convergen a una constante. En ese caso no son


estimadores consistentes de nada.
EJERCICIO:
Consistencia del estimador OLS /MV en el modelo de regresión lineal

1º PROCEDIMIENTO

2º PROCEDIMIENTO
2. PROPIEDADES ASINTÓTICAS

2. DISTRIBUCIÓN ASINTÓTICA

Cuando desconocemos la distribución exacta de un estimador, podemos


preguntarnos si en grandes muestras el estimador sigue alguna
distribución conocida. Esto nos permitirá realizar inferencia estadística
(contrastes de hipótesis) cuyos resultados serán válidos en muestras
grandes.

La intuición de la convergencia en distribución es que la distribución


de Zn se va pareciendo cada vez más a la distribución de Z conforme
aumenta el tamaño muestral
2. PROPIEDADES ASINTÓTICAS

2. DISTRIBUCIÓN ASINTÓTICA

Ejemplo:

El estadístico t tiene una distribución t de Student con n-k grados de


libertad. Pero conforme n → ∞ se comporta como una distribución Normal
estándar. Esta es, por tanto, su distribución asintótica

Estadístico t ~ t-Student
a d
Estadístico t ~ N(0,1) o bien Estadístico t → N(0,1)
2. PROPIEDADES ASINTÓTICAS

2. DISTRIBUCIÓN ASINTÓTICA

0.4
Normal (0,1)
t, 10 g.l.
0.3
t, 5 g.l.

0.2

0.1

0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
2. PROPIEDADES ASINTÓTICAS

2. DISTRIBUCIÓN ASINTÓTICA

Una herramienta útil para derivar distribuciones asintóticas es el


Teorema Central del Límite

Igual que ocurre con la Ley de los Grandes Números, existen diferentes
Teoremas Centrales del Límite cuando las Xi no son i.i.d. (se suelen
exigir condiciones de diferentes para que se cumpla).
2. PROPIEDADES ASINTÓTICAS

2. DISTRIBUCIÓN ASINTÓTICA

¿Por qué es útil el Teorema Central del Límite?


Porque nos ayuda a demostrar la validez de los contrastes de hipótesis
en muestras grandes (basados en los estadísticos de contraste que
conocemos) incluso si desconocemos cuál es la verdadera distribución
de los términos de perturbación del modelo.

En el caso del estimador MCO (OLS):


Un Teorema Central del Límite nos dice que aunque las perturbaciones
aleatorias o términos de error del modelo de regresión no sigan una
distribución Normal, si tienen media 0 y varianza finita e igual a σ2
3. PROPIEDADES DEL ESTIMADOR MÁXIMO VEROSÍMIL
(MAXIMUM LIKELIHOOD ESTIMATOR)

Las principales propiedades el estimador MV son propiedades


asintóticas (o en muestras grandes). Se cumplen bajo condiciones
bastante generales (condiciones de regularidad).

 Consistencia
 Distribución asintótica Normal
 Eficiencia asintótica
 Invarianza
3. PROPIEDADES DEL ESTIMADOR MÁXIMO VEROSÍMIL
(MAXIMUM LIKELIHOOD ESTIMATOR)
3. PROPIEDADES DEL ESTIMADOR MÁXIMO VEROSÍMIL
(MAXIMUM LIKELIHOOD ESTIMATOR)
4. CONCEPTOS HABITUALES EN ESTIMACIÓN ML
4. CONCEPTOS HABITUALES EN ESTIMACIÓN ML

ESTIMACIÓN DE LA MATRIZ DE VARIANZAS Y COVARIANZAS [-E[H]]-1

Tres métodos:

(1) Si la expresión de [-E[H]]-1 es conocida, podemos evaluar la matriz en el


valor de los parámetros estimados (que sustituirán así a los verdaderos
parámetros que aparecen en la expresión).

(2) Si las esperanzas de los elementos de la matriz Hessiana no son


conocidos (muchas veces esos elementos son funciones no lineales para
las que no es posible calcular su esperanza), entonces podemos evaluar
I=[H]-1 en los valores de los parámetros estimados.

(3) Como E[H] es la varianza de las primeras derivadas, podemos estimarla


mediante la varianza muestral de las primeras derivadas, es decir:
EJERCICIO:
Matriz de información del estimador MV en el modelo de regresión lineal

La matriz de información es:

Los gradientes o scores ya los tenemos calculados


En realidad es
un vector
gradiente (k x 1)
EJERCICIO:
Matriz de información del estimador MV en el modelo de regresión lineal

La matriz de información es:


EJERCICIO:
Matriz de información del estimador MV en el modelo de regresión lineal

La matriz de información es:


EJERCICIO:
Matriz de información del estimador MV en el modelo de regresión lineal

Por tanto:
EJERCICIO:

Supongamos una muestra aleatoria simple X1, X2, …, Xn con función de


distribución de probabilidad definida por:

1) Calcula E(Xi) y Var(Xi)


2) Encuentra el estimador MV de θ
3) ¿Es ΘMV consistente?
4) Encuentra su distribución asintótica
5. EL MÉTODO DELTA
5. EL MÉTODO DELTA
5. EL MÉTODO DELTA

Supongamos que tenemos la estimación MV de un parámetro θ. Pero estamos


interesados en estimar una función de ese parámetro δ=g(θ) y, además,
queremos hacer inferencia (contrastes) sobre el mismo.
Por la propiedad de “Invarianza” de los estimadores MV, podemos estimar

g(.) es no lineal

Pero, ¿cómo estimamos la varianza? El método delta nos da una


solución.
Si θ es un escalar, entonces la expresión de la varianza es:
EJERCICIO:

Supongamos que hemos estimado por MV el parámetro γ y también su


varianza, donde

Pero estamos interesados en el parámetro ρ.


a) ¿Cómo puedo estimar ρ?
b) Obtener la expresión de .
5. EL MÉTODO DELTA

Supongamos que θ es un vector k x 1. Por ejemplo, si k=3

Estamos interesados en estimar una función de los parámetros que forman el


vector,

De nuevo, por la propiedad de invarianza,

Y la estimación de la varianza por el método delta es:

(1 x k) (k x k) (k x 1)
5. EL MÉTODO DELTA

Donde:

Vector gradiente (de derivadas


parciales) y dimensión 3x1
5. EL MÉTODO DELTA
Tema 5
Inferencia y predicción en el modelo de
regresión lineal (II)

Introducción a la Econometría. Curso 2007-2008


3º de Economía

7. BONDAD DE AJUSTE

Recordemos la descomposición de la varianza de Y y la expresión del R2.

Var(Y ) = Var(Yˆ ) + Var(e )

∑ (Y − Y ) = ∑ (Yˆ − Y ) + ∑ e
2 2 2

SCT = SCE + SCR

SCE ∑ (Yˆi − Y )
2

R =2
=
SCT ∑ (Yi − Y ) 2

La mayoría de los programas econométricos proporcionan junto con el R2 un estadístico


denominado R2 – ajustado. Dado que el R2 – ajustado es el más utilizado en el trabajo
aplicado, vamos a describirlo.
3
7. BONDAD DE AJUSTE

Uno de los defectos del R2 es que nunca puede disminuir cuando añadimos una
nueva variable explicativa en la ecuación de regresión. Esto se debe a que la
“suma de cuadrados de los residuos” nunca aumenta (de hecho, normalmente
suele disminuir) conforme se van añadiendo más variables independientes. En
ocasiones, esas variables que añadimos no son estadísticamente significativas,
por lo tanto el R2 no nos ayuda a seleccionar bien entre especificaciones con
diferente número de variables explicativas (e idéntica variable dependiente).

Uno de los atractivos del R2-ajustado es que penaliza a los modelos que
añaden muchas variables explicativas, contrarrestando de ese modo lo que
ocurre con la SCR.

SCR / (n-k) (n-1)


R2 – ajustado = 1 - = 1 - (1- R2)
SCT / (n-1) (n-k)

8. CONTRASTE F DE BONDAD DE AJUSTE

Y = β 1 + β 2 X 2 + ... + β k X k + u

En un modelo de regresión múltiple, queremos contrastar la siguiente hipótesis nula

H 0 : β 2 = ... = β k = 0
H 1 : al menos un β ≠ 0

Observar:
• hay k parámetros en el modelo y, como incluimos una constante, tenemos k-1
variables explicativas
• la hipótesis nula plantea si estas variables explican la variabilidad de la
variable dependiente.

4
8. CONTRASTE F DE BONDAD DE AJUSTE

Y = β 1 + β 2 X 2 + ... + β k X k + u

En un modelo de regresión múltiple, queremos contrastar la siguiente hipótesis nula

H 0 : β 2 = ... = β k = 0
H 1 : al menos un β ≠ 0

ESTADÍSTICO DE CONTRASTE:

SCE ( k − 1)
F ( k − 1, n − k ) =
SCR ( n − k )
SCE
Grados de ( k − 1)
SCT R 2 ( k − 1)
libertad en el
= =
numerador SCR (1 − R 2
) (n − k )
Grados de (n − k )
libertad en el SCT
denominador 4

8. CONTRASTE F DE BONDAD DE AJUSTE

Y = β 1 + β 2 X 2 + ... + β k X k + u
H 0 : β 2 = ... = β k = 0
H 1 : al menos un β ≠ 0
f(F)
SCE ( k − 1)
No rechazo H0 F ( k − 1, n − k ) =
SCR ( n − k )

Rechazo H0
(1 − α) α

0 c=Valor
crítico F
8. CONTRASTE F DE BONDAD DE AJUSTE

EJERCICIO:

HIJOSNA = β1 + β 2 EDADNA + β 3 EDUC + u

H0 : β2 = β3 = 0
H 1 : al menos un β ≠ 0

Contrastar la SIGNIFICATIVIDAD DE LA REGRESIÓN O LA BONDAD DE


AJUSTE DE LA REGRESIÓN

8. CONTRASTE F DE BONDAD DE AJUSTE

EJERCICIO: Dependent Variable: HIJOSNA


Method: Least Squares
Date: 04/30/09 Time: 16:17
Sample(adjusted): 4 4353 IF EDAD>42 AND EDADNA<>NA
Included observations: 293 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 11.21083 0.722210 15.52296 0.0000
EDADNA -0.234873 0.034142 -6.879189 0.0000
EDUC -0.165071 0.038830 -4.251096 0.0000
R-squared 0.202121 Mean dependent var 5.802048
Adjusted R-squared 0.196619 S.D. dependent var 2.799534
S.E. of regression 2.509266 Akaike info criterion 4.688044
Sum squared resid 1825.960 Schwarz criterion 4.725725
Log likelihood -683.7984 F-statistic 36.73188
Durbin-Watson stat 1.610020 Prob(F-statistic) 0.000000

f (F)
SCE (k − 1)
F = F (2, 290)
SCR (n − k ) No rechazo F * =36.73
Valor empírico del estadístico de contraste:
F* = 36.731
Rechazo
Valor crítico que define la región de rechazo para α=0.05
c = F(2,290; α=0.05) = 3 c=3
8. CONTRASTE F DE BONDAD DE AJUSTE

EJERCICIO:

HIJOSNA = β1 + β 2 EDADNA + β 3 EDUC + u

H0 : β2 = β3 = 0
H 1 : al menos un β ≠ 0

Contrastamos la SIGNIFICATIVIDAD DE LA REGRESIÓN O LA BONDAD


DE AJUSTE DE LA REGRESIÓN

RESULTADO DEL CONTRASTE:


Rechazo H0 para un α =0.05. Por tanto concluyo que la regresión es significativa
a un nivel de significatividad del 5%

8. CONTRASTE F DE BONDAD DE AJUSTE

Y = β1 + β 2 X + u
H 0 : β 2 = 0, H 1 : β 2 ≠ 0

En el caso de la regresión simple, el contraste F es equivalente al t. Es


decir, estos contrastes no pueden llevarnos a conclusiones contradictorias.
Vamos a demostrar analíticamente este resultado.
8. CONTRASTE F DE BONDAD DE AJUSTE

Var(Yˆ ) Var(b1 + b2 X ) Var(b2 X ) b22 Var( X )


R =
2
= = =
Var(Y ) Var(Y ) Var(Y ) Var(Y )

Var(e ) Var(e ) n
R2 = 1 − ⇒ 1 − R2 = su2 = Var(e )
Var(Y ) Var(Y ) n−2

R 2 /( k − 1) R2
F ( k − 1, n − k ) = =
(1 − R 2 ) /( n − k ) (1 − R 2 ) /( n − 2)
b22 Var( X )
Var(Y ) b22 Var( X ) b22 Var( X ) b22
= = = = = t2
Var(e ) 1 n 2
su su2
( n − 2) Var(e )
Var(Y ) nn−2 n nVar( x )

32

8. CONTRASTE F DE BONDAD DE AJUSTE

EJEMPLOS:

Fcrit , 5% (1,18) = 4.41

t crit , 5% (18) = 2.10

4.41 = 2.10 2

Fcrit ,1% (1,18) = 8.29

t crit ,1% (18) = 2.88

8.29 = 2.88 2
34
8. CONTRASTE F DE BONDAD DE AJUSTE

EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + u

H0 : β2 = 0
H1 : β 2 ≠ 0

Dependent Variable: HIJOSNA


Method: Least Squares
Date: 04/30/09 Time: 17:18
Sample(adjusted): 4 4353 IF EDAD>42 AND EDADNA<>NA
Included observations: 293 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 11.05850 0.742177 14.90008 0.0000
EDADNA -0.252275 0.034876 -7.233422 0.0000
R-squared 0.152400 Mean dependent var 5.802048
Adjusted R-squared 0.149487 S.D. dependent var 2.799534
S.E. of regression 2.581821 Akaike info criterion 4.741670
Sum squared resid 1939.748 Schwarz criterion 4.766790
Log likelihood -692.6546 F-statistic 52.32240
Durbin-Watson stat 1.599521 Prob(F-statistic) 0.000000

Comprobar en este ejemplo que el resultado del contraste t es igual al del contraste F
39

9. CONTRASTE DE UNA COMBINACIÓN LINEAL DE PARÁMETROS

Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u

EJEMPLO:
Supongamos que queremos contrastar la siguiente hipótesis nula:

H 0 : β 2 + β3 = c
H1 : β 2 + β 3 ≠= c

Se trata de un contraste de dos colas sobre una combinación lineal de parámetros.


Podemos utilizar el estadístico t para contrastarla

25
9. CONTRASTE DE UNA COMBINACIÓN LINEAL DE PARÁMETROS

Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u

H 0 : β 2 + β3 = c
H1 : β 2 + β 3 ≠= c

ESTADÍSTICO DE CONTRASTE:

(b2 + b3 ) − c
t= t n-k
s.e.(b 2 + b3 )

Donde:

s.e(b2 + b2 ) = (var(b2 + b3 ))1/ 2 = (var(b 2) + var(b3 ) + 2 cov(b2 , b3 ))1/ 2


25

9. CONTRASTE DE UNA COMBINACIÓN LINEAL DE PARÁMETROS

EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + β 3 EDUC + u
Contrasta si el efecto marginal de la educación es estadísticamente igual al efecto de la
edad a la que la mujer tuvo el primer hijo.

Dependent Variable: HIJOSNA


Method: Least Squares
Date: 04/30/09 Time: 16:17
Sample(adjusted): 4 4353 IF EDAD>42 AND EDADNA<>NA
Included observations: 293 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 11.21083 0.722210 15.52296 0.0000
EDADNA -0.234873 0.034142 -6.879189 0.0000
EDUC -0.165071 0.038830 -4.251096 0.0000
R-squared 0.202121 Mean dependent var 5.802048
Adjusted R-squared 0.196619 S.D. dependent var 2.799534
S.E. of regression 2.509266 Akaike info criterion 4.688044
Sum squared resid 1825.960 Schwarz criterion 4.725725
Log likelihood -683.7984 F-statistic 36.73188
Durbin-Watson stat 1.610020 Prob(F-statistic) 0.000000

Matriz de varianzas-covarianzas de los estimadores


C EDADNA EDUC
C 0.521587 -0.023793 -0.001391
EDADNA -0.023793 0.001166 -0.000159
EDUC -0.001391 -0.000159 0.001508
10. CONTRASTE DE RESTRICCIONES LINEALES MÚLTIPLES

Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u

EJEMPLO:
Supongamos que queremos contrastar la capacidad predictiva de un subconjunto
de parámetros. Por ejemplo:

H0 : β3 = β4 = 0
H1 : β 3 ≠ 0 o β 4 ≠ 0 o β3 y β4 ≠ 0

El estadístico que utilizamos para contrastar esta hipótesis nula, se basa en la


comparación de las SCR que se obtienen cuando estimamos el modelo con todas
las variables explicativas (MODELO SIN RESTRINGIR) y cuando lo estimamos
imponiendo las restricciones propuestas en la hipótesis nula (MODELO RESTRINGIDO)

25

10. CONTRASTE DE RESTRICCIONES LINEALES MÚLTIPLES

MODELO SIN
RESTRINGIR
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u SCRSR

MODELO
RESTRINGIDO Y = β1 + β 2 X 2 + u SCRR

ESTADÍSTICO DE CONTRASTE:

( − ) q
F (q, n-k) = SCR R SCRSR
SCRSR (n-k)

q = grados de libertad del numerador, es decir número de


restricciones (en el ejemplo serían 2)
n-k = grados de libertad del denominador, es decir del modelo
sin restringir
25
10. CONTRASTE DE RESTRICCIONES LINEALES MÚLTIPLES

EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + β 3 EDUC + β 4CIUDAD + β 5CASADA + u

Contrasta la significatividad conjunta de las variables “ciudad” y “casada” a un nivel


de significatividad del 5%

Dependent Variable: HIJOSNA


Method: Least Squares Dependent Variable: HIJOSNA
Date: 04/30/09 Time: 18:50 Method: Least Squares
Sample(adjusted): 4 4353 IF EDAD>42 AND EDADNA<>NA Date: 04/30/09 Time: 16:17
Included observations: 293 after adjusting endpoints Sample(adjusted): 4 4353 IF EDAD>42 AND EDADNA<>NA
Variable Coefficient Std. Error t-Statistic Prob. Included observations: 293 after adjusting endpoints
C 10.60713 0.808651 13.11707 0.0000 Variable Coefficient Std. Error t-Statistic Prob.
EDADNA -0.235531 0.034111 -6.904769 0.0000
C 11.21083 0.722210 15.52296 0.0000
EDUC -0.151717 0.040792 -3.719258 0.0002
EDADNA -0.234873 0.034142 -6.879189 0.0000
CIUDAD -0.562395 0.321078 -1.751585 0.0809
CASADA 0.960969 0.370942 2.590615 0.0101
EDUC -0.165071 0.038830 -4.251096 0.0000
R-squared 0.227935 Mean dependent var 5.802048 R-squared 0.202121 Mean dependent var 5.802048
Adjusted R-squared 0.217212 S.D. dependent var 2.799534 Adjusted R-squared 0.196619 S.D. dependent var 2.799534
S.E. of regression 2.476897 Akaike info criterion 4.668808 S.E. of regression 2.509266 Akaike info criterion 4.688044
Sum squared resid 1766.886 Schwarz criterion 4.731610 Sum squared resid 1825.960 Schwarz criterion 4.725725
Log likelihood -678.9804 F-statistic 21.25637 Log likelihood -683.7984 F-statistic 36.73188
Durbin-Watson stat 1.526100 Prob(F-statistic) 0.000000 Durbin-Watson stat 1.610020 Prob(F-statistic) 0.000000
Tema 6
Variables artificiales

Introducción a la Econometría. Curso 2007-2008


3º de Economía

1. VARIABLES ARTIFICIALES
COST

Occupational schools
Regular schools

Supón que dispones de una muestra sobre el coste annual (COSTE) y el número de
estudiantes matriculados en educación secundaria (N) de una muestra de centros de
formación secundaria que pueden ser de formación profesional (occupational schools) o
institutos (regular schools).

¿Existen diferencias significativas entre los COSTES de cada tipo de enseñanza?


Una forma de tratar este problema es hacer una regresión para cada uno de los tipos de
centros de enseñanza.
2
1. VARIABLES ARTIFICIALES

COST
β1' Occupational schools
Regular schools

β1

Instituto COSTE = β1 + β2N + u


FP COSTE = β1' + β2N + u

Supondremos que la diferencia entre los gastos se debe al término constante (costes fijos
del centro). Por ejemplo, cabe esperar que β1' > β1 (el gasto fijo de FP es mayor que el de
instituto) Sin embargo, suponemos que el coste marginal, β2 , es el mismo para ambos
6
tipos de enseñanza.

1. VARIABLES ARTIFICIALES
COST

β1' Occupational schools


δ Regular schools

β1

Instituto COSTE = β1 + β2N + u


FP COSTE = β1' + β2N + u

Definamos por δ a la diferencia entre los niveles: δ = β1' - β1.

8
1. VARIABLES ARTIFICIALES

COST
Occupational schools
β1+δ
δ Regular schools

β1

Instituto COSTE = β1 + β2N + u


FP COSTE = β1 + δ + β2N + u

Por tanto, podemos escribir β1' = β1 + δ y reescribir la ecuación del COSTE de FP.

1. VARIABLES ARTIFICIALES
COST

Occupational schools
β1+δ
δ Regular schools

β1

Ecuación Combinada COSTE = β1 + δ FP + β2N +u


FP = 0 Instituto COSTE = β1 + β2N + u
FP = 1 FP COSTE = β1 + δ + β2N + u

Si se define una variable FP que tome el valor 0 si el individuo está en el instituto y 1 si está
en FP, es posible combinar ambas ecuaciones en una sola.
FP recibe el nombre de variable artificial
10
1. VARIABLES ARTIFICIALES

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

Occupational schools Regular schools

Consideremos ahora datos reales de un estudio del Banco Mundial sobre 74 escuelas
secundarias de Shanghai.

12

1. VARIABLES ARTIFICIALES

Centro Tipo COSTE N FP

1 FP 345,000 623 1
2 FP 537,000 653 1
3 Instituto 170,000 400 0
4 FP 526.000 663 1
5 Instituto 100,000 563 0
6 Instituto 28,000 236 0
7 Instituto 160,000 307 0
8 FP 45,000 173 1
9 FP 120,000 146 1
10 FP 61,000 99 1

Esta tabla muestra las 10 primeras observaciones y cómo se define la variable artificial. El
COSTE anual de cada centro se mide en yuans y N es el número de estudiantes en cada
centro.
13
1. VARIABLES ARTIFICIALES

. reg COSTE N FP

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 2, 71) = 56.86
Model | 9.0582e+11 2 4.5291e+11 Prob > F = 0.0000
Residual | 5.6553e+11 71 7.9652e+09 R-squared = 0.6156
---------+------------------------------ Adj R-squared = 0.6048
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 89248

------------------------------------------------------------------------------
COSTE | Coef. Std. Err. t P>|t| [95% Conf.
Interval]
---------+--------------------------------------------------------------------
N | 331.4493 39.75844 8.337 0.000 252.1732 410.7254
FP | 133259.1 20827.59 6.398 0.000 91730.06 174788.1
_cons | -33612.55 23573.47 -1.426 0.158 -80616.71 13391.61
------------------------------------------------------------------------------

Regresión COSTE sobre N y FP, tratando FP como cualquier otra variable

15

1. VARIABLES ARTIFICIALES

^
COSTE = -34,000 + 133,000FP + 331N

Instituto ^
COSTE = -34,000 + 331N
(FP = 0)

FP ^
COSTE = -34,000 + 133,000 + 331N
(FP = 1)
= 99,000 + 331N

Para interpretar el efecto de la variable FP resulta útil escribir el modelo estimado para los dos
posibles valores de esta variable:
- Si FP toma el valor 0, se obtiene la ecuación para Institutos, donde el coste marginal por
estudiante año es de 331 yuan. El hecho de que la constante sea negativa no tiene sentido y
puede estar indicando un problema de mala especificación
- Si FP = 1, el coste inicial de FP alcanza los 99,000 yuan. El coste marginal por estudiante
es el mismo, pues así lo hemos supuesto. 21
1. VARIABLES ARTIFICIALES

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
-100000
N

Occupational schools Regular schools

Fijaos que sólo hemos estimado una ecuación. Pero esta ecuación “anida” una doble
estructura, es decir, supone que la recta que explica los costes de los institutos es
diferente a la que explica los costes de los centros de FP.
22

1. VARIABLES ARTIFICIALES

. reg COSTE N FP

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 2, 71) = 56.86
Model | 9.0582e+11 2 4.5291e+11 Prob > F = 0.0000
Residual | 5.6553e+11 71 7.9652e+09 R-squared = 0.6156
---------+------------------------------ Adj R-squared = 0.6048
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 89248

------------------------------------------------------------------------------
COSTE | Coef. Std. Err. t P>|t| [95% Conf.Interval]
---------+--------------------------------------------------------------------
N | 331.4493 39.75844 8.337 0.000 252.1732 410.7254
FP | 133259.1 20827.59 6.398 0.000 91730.06 174788.1
_cons | -33612.55 23573.47 -1.426 0.158 -80616.71 13391.61
------------------------------------------------------------------------------

Una vez analizados los coeficientes, debería realizarse un análisis de la significatividad de


las variables.
En particular, evaluaremos si existen diferencias significativas en los costes de instalación
de un centro de FP con respecto a un instituto normal. Es decir, contrastaremos H0: δ = 0
frente a H1: δ ≠ 0.

El t-ratio de N es 8.34, por lo que es posible concluir que el coste marginal es


significativamente distinto de cero. 25
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

• ¿Qué pasa si la variable artificial tiene más de dos categorías? En el caso anterior, los
centros se clasificaban en FP o instituto regular. Pero supongamos que hay dos tipos de
centros de FP y dos tipos de institutos regulares.

- Institutos regulares:
los tradicionales
los vocacionales: introducen materias más específicas.
- Formación profesional (FP):
- técnicos
- manuales.

• Por tanto, lo que tenemos ahora son 4 categorías de centros: FP técnico, FP trabajador
manual, Instituto regular e instituto vocacional (éste es el caso de Shanghai). La forma
tradicional de trabajar es elegir una categoría de referencia y construir variables artificiales
para las restantes.
Como categoría de referencia definiremos el instituto regular.

• Una vez definida la categoría de referencia, se definen las otras variables artificiales. Por
ejemplo TEC toma el valor 1 si el centro es una FP técnica y cero en otro caso. Los
parámetros de cada una de las variables artificiales reflejan el cambio de coste anual del
instituto con respecto a la categoría de referencia. 1

2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

COST = β1 + δTTEC + δWTRAB + δVVOC + β2N + u

Instituto regular COST = β1 + β2N + u


(TEC = TRAB = VOC = 0)

FP Técnica COST = (β1 + δT) + β2N + u


(TEC = 1; TRAB = VOC = 0)

FP Manual COST = (β1 + δW) + β2N + u


(TRAB = 1; TEC = VOC = 0)

Inst. Vocacional COST = (β1 + δV) + β2N + u


(VOC = 1; TEC = TRAB = 0)

16
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

Centro Tipo COST N TEC TRAB VOC

1 FP TEC 345,000 623 1 0 0


2 FP TEC 537,000 653 1 0 0
3 Inst Regular 170,000 400 0 0 0
4 FP Trab 526.000 663 0 1 0
5 Inst Regular 100,000 563 0 0 0
6 Inst. Voc. 28,000 236 0 0 1
7 Inst Voc. 160,000 307 0 0 1
8 FP TEC 45,000 173 1 0 0
9 FP TEC 120,000 146 1 0 0
10 FP Trab 61,000 99 0 1 0

19

2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

Tec Voc Regular Trab manual

20
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

. reg COST N TEC TRAB VOC

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
Residual | 5.4138e+11 69 7.8461e+09 R-squared = 0.6320
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------
¿Qué indica el coeficiente estimado de N?

¿Cómo se interpretan los coeficientes estimados de TEC, TRAB y VOC?

¿Y la constante?
21

2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

^
COST = -55,000 + 154,000TEC + 143,000TRAB + 53,000VOC + 343N

^
Instituto regular COST = -55,000 + 343N
(TEC = TRAB = VOC = 0)

^
FP Técnica COST = -55,000 + 154,000 + 343N
(TEC = 1; TRAB = VOC = 0) = 99,000 + 343N

^
FP TRAB COST = -55,000 + 143,000 + 343N
(TRAB = 1; TEC = VOC = 0) = 88,000 + 343N

Inst. Vocacional ^
COST = -55,000 + 53,000 + 343N
(VOC = 1; TEC = TRAB = 0) = -2,000 + 343N

Aquí derivamos los costes implícitos en cada tipo de centro de enseñanza.

Observar que se ha asumido que el coste marginal por alumno es el mismo en todos los
centros. Este es un supuesto que no tiene por qué ser cierto
28
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
-100000
N

Tec Voc Regular Trab manual

30

2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

. reg COST N TEC TRAB VOC

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
Residual | 5.4138e+11 69 7.8461e+09 R-squared = 0.6320
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------

¿Cómo contrastarías H0: δT = δT= δV = 0?

¿Cómo interpretas este contraste? (piensa qué concluirías si no rechazases la hipótesis nula)

Vamos a implementarlo…..
37
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

. reg COST N TEC TRAB VOC

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
Residual | 5.4138e+11 69 7.8461e+09 R-squared = 0.6320
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------

La suma de cuadrados en el modelo no restringido es 5.41×1011.

38

2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

. reg COST N

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
Residual | 8.9160e+11 72 1.2383e+10 R-squared = 0.3940
---------+------------------------------ Adj R-squared = 0.3856
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 1.1e+05

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 339.0432 49.55144 6.842 0.000 240.2642 437.8222
_cons | 23953.3 27167.96 0.882 0.381 -30205.04 78111.65
------------------------------------------------------------------------------

Y en el modelo restringido 8.92×1011.

39
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS

. reg COST N

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
Residual | 8.9160e+11 72 1.2383e+10 R-squared = 0.3940
---------+------------------------------ Adj R-squared = 0.3856
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 1.1e+05

. reg COST N TEC TRAB VOC

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
Residual | 5.4138e+11 69 7.8461e+09 R-squared = 0.6320
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578

(8.92 × 1011 − 5.41× 1011 ) / 3


F (3,69) = = 14.92 F (3,60)crit, 0.1% = 6.17
5.41× 1011 / 69
El numerador lo divido por tres porque es el número de restricciones que impongo, o el
número de grados de libertad que pierdo cuando estimo los tres coeficientes del modelo no
restingido.
El denominador es el numero de observaciones, 74, menos el total de parámetros
44
estimados en el modelo no restringido: 5.

3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

Tec Voc Regular Trab

¿Qué sucede cuando utilizamos otra categoría de referencia? En el análisis anterior, la


categoría de referencia era el Instituto regular, y los coeficientes de las otras categorías
indicaban los cambios en costes de los distintos centros con respecto a la categoría de
referencia. 1
3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

Tec Voc Regular Trab

Pero, ¿qué sucedería si cambiásemos la categoría de referencia? Por ejemplo, supongamos


que queremos ver los cambios en costes que se producen con respecto a los centros de FP
que forman trabajadores manuales.
Para ello, se utilizaría como categoría de referencia los centros de FP Trab Manual
1

3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA

COST = β1 + δTTEC + δVVOC + δGREG + β2N + u

Observar que ahora la categoría de referencia es el FP Trab Manual, por lo que es necesario
crear una nueva variable artificial para los Institutos regulares, introduciéndola al modelo, y
quitar la variable artificial de FP Trab manual.
6
3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA

COST = β1 + δTTEC + δVVOC + δGREG + β2N + u

FP Trab Manual COST = β1 + β2N + u


(TEC = VOC = REG = 0)

FP TEC COST = (β1 + δT) + β2N + u


(TEC = 1; VOC = REG = 0)

Inst. Voc COST = (β1 + δV) + β2N + u


(VOC = 1; TEC = REG = 0)

Inst. Reg. COST = (β1 + δG) + β2N + u


(REG = 1; TEC = VOC = 0)

Derivamos la expresión de los costes para cada tipo de centro. Los coeficientes δ se
interpretan como incrementos (decrementos) de costes con respecto a la categoría de
referencia.
10

3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA

School Type COST N TEC VOC REG

1 TEC 345,000 623 1 0 0


2 TEC 537,000 653 1 0 0
3 REG 170,000 400 0 0 1
4 Trab 526.000 663 0 0 0
5 REG 100,000 563 0 0 1
6 Voc 28,000 236 0 1 0
7 Voc 160,000 307 0 1 0
8 TEC 45,000 173 1 0 0
9 TEC 120,000 146 1 0 0
10 Trab 61,000 99 0 0 0

Volvemos a la muestra de datos que utilizamos anteriormente.

12
3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA

. reg COST N TEC VOC REG

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
Residual | 5.4138e+11 69 7.8461e+09 R-squared = 0.6320
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 10748.51 30524.87 0.352 0.726 -50146.93 71643.95
VOC | -90133.74 33984.22 -2.652 0.010 -157930.4 -22337.07
REG | -143362.4 27852.8 -5.147 0.000 -198927.2 -87797.57
_cons | 88469.29 28849.56 3.067 0.003 30916.01 146022.6
------------------------------------------------------------------------------

13

3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA

^
COST = 88,000 + 11,000TEC - 90,000VOC - 143,000REG + 343N

^
FP Trab Manual COST = 88,000 + 343N
(TEC = VOC = REG = 0)

^
FP TEC COST = 88,000 + 11,000 + 343N
(TEC = 1; VOC = REG = 0) = 99,000 + 343N

^
Inst. Voc COST = 88,000 - 90,000 + 343N
(VOC = 1; TEC = REG = 0) = -2,000 + 343N

Inst. Reg. ^
COST = 88,000 - 143,000 + 343N
(REG = 1; TEC = VOC = 0) = -55,000 + 343N

Observar que la categoría de referencia no afecta a los resultados, que son iguales al caso
anterior.
Tampoco se ve afectado el ajuste de la regresión por el cambio en la categoría de referencia
17
3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA

. reg COST N TEC VOC REG

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
Residual | 5.4138e+11 69 7.8461e+09 R-squared = 0.6320
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 10748.51 30524.87 0.352 0.726 -50146.93 71643.95
VOC | -90133.74 33984.22 -2.652 0.010 -157930.4 -22337.07
REG | -143362.4 27852.8 -5.147 0.000 -198927.2 -87797.57
_cons | 88469.29 28849.56 3.067 0.003 30916.01 146022.6
------------------------------------------------------------------------------

Pero los contrastes t sí se ven afectados. En particular, la interpretación de la hipótesis


nula ahora es distinta ¿Cuál es esta interpretación?

Por ejemplo, cómo se interpreta la nula del estadístico t para FP TEC.

22

4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE


REGRESIÓN
700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
-100000
N

Institutos FP Institutos Regulares

En este gráfico, se muestran los costes de los institutos de FP y los regulares, con las
rectas de regresión donde lo único que cambia entre uno y otro es la ordenada en el origen.

1
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN
700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
-100000
N

Institutos FP Institutos Regulares

Sin embargo, ¿no sería más razonable pensar que también el coste marginal por alumno es
distinto entre los dos tipos de institutos? La formación del profesorado, los materiales de
enseñanza necesarios, la infraestructura, que es distinta entre los centros, puede llevar a
que el coste marginal por alumno no sea el mismo entre los dos tipos de centros
1

4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE


REGRESIÓN

COST = β1 + δ FP + β2N + λN*FP + u

Para suavizar el supuesto de costes marginales iguales, podemos especificar la regresión


incluyendo una variable artificial que multiplique a la variable número de alumnos.
Decimos que la variable N*FP recoge una interacción de variables.
Observar que FP toma el valor 1 cuando el centro es de FP y cero en otro caso. Por lo tanto,
el coeficiente λ se activa cuando paso de instituto regular a FP. 6
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN

COST = β1 + δ FP + β2N + λN*FP + u

Inst. Regular COST = β1 + β2N + u


(FP = NFP = 0)

Inst. FP COST = (β1 + δ ) + (β2 + λ )N + u


(FP = 1; NFP = N)

4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE


REGRESIÓN
COST

FP

λ
Regular
δ
β1 +δ

β1

En este gráfico se ilustra como cambian los coeficientes cuando pasamos del instituto
regular a la FP.

10
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN

School Type COST N FP N*FP

1 FP 345,000 623 1 623


2 FP 537,000 653 1 653
3 Regular 170,000 400 0 0
4 FP 526.000 663 1 663
5 Regular 100,000 563 0 0
6 Regular 28,000 236 0 0
7 Regular 160,000 307 0 0
8 FP 45,000 173 1 173
9 FP 120,000 146 1 146
10 FP 61,000 99 1 99

Los primeros 10 datos del análisis serían.

11

4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE


REGRESIÓN
. reg COST N FP NFP

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 3, 70) = 49.64
Model | 1.0009e+12 3 3.3363e+11 Prob > F = 0.0000
Residual | 4.7045e+11 70 6.7207e+09 R-squared = 0.6803
---------+------------------------------ Adj R-squared = 0.6666
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 81980

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 152.2982 60.01932 2.537 0.013 32.59349 272.003
FP | -3501.177 41085.46 -0.085 0.932 -85443.55 78441.19
NFP | 284.4786 75.63211 3.761 0.000 133.6351 435.3221
_cons | 51475.25 31314.84 1.644 0.105 -10980.24 113930.7
------------------------------------------------------------------------------

Este es el resultado de estimar el modelo para los 74 datos de Shanghai del estudio del
Banco Mundial.

12
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN

^ = 51,000 - 4,000 FP + 152N + 284N*FP


COST

Regular ^
COST = 51,000 + 152N
(FP = NFP = 0)

^
FP COST = 51,000 - 4,000 + 152N + 284N
(FP = 1; NFP = N) = 47,000 + 436N

El coste fijo inicial de FP es menor que el de un Instituto regular, pero el coste marginal es
mayor.

15

4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE


REGRESIÓN
700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

FP Regular

16
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN
. reg COST N FP NFP

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 3, 70) = 49.64
Model | 1.0009e+12 3 3.3363e+11 Prob > F = 0.0000
Residual | 4.7045e+11 70 6.7207e+09 R-squared = 0.6803
---------+------------------------------ Adj R-squared = 0.6666
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 81980

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 152.2982 60.01932 2.537 0.013 32.59349 272.003
FP | -3501.177 41085.46 -0.085 0.932 -85443.55 78441.19
NFP | 284.4786 75.63211 3.761 0.000 133.6351 435.3221
_cons | 51475.25 31314.84 1.644 0.105 -10980.24 113930.7
------------------------------------------------------------------------------

¿Cómo sabríamos si el incremento marginal de costes del Instituto Regular respecto al de


FP es significativo? ¿Cuál sería la hipótesis nula a contrastar en este caso? ¿y el resultado
del contraste?

20

4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE


REGRESIÓN
. reg COST N FP NFP

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 3, 70) = 49.64
Model | 1.0009e+12 3 3.3363e+11 Prob > F = 0.0000
Residual | 4.7045e+11 70 6.7207e+09 R-squared = 0.6803
---------+------------------------------ Adj R-squared = 0.6666
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 81980

------------------------------------------------------------------------------
. reg COST N

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
Residual | 8.9160e+11 72 1.2383e+10 R-squared = 0.3940
---------+------------------------------ Adj R-squared = 0.3856
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 1.1e+05

¿Cómo contrastamos si el tipo de centro afecta a la estructura de costes?


- Escribe el estadístico de contraste.
- ¿Cuál es el modelo restringido? ¿y el modelo sin restringir?

23
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE
REGRESIÓN
. reg COST N FP NFP

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 3, 70) = 49.64
Model | 1.0009e+12 3 3.3363e+11 Prob > F = 0.0000
Residual | 4.7045e+11 70 6.7207e+09 R-squared = 0.6803
---------+------------------------------ Adj R-squared = 0.6666
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 81980

------------------------------------------------------------------------------
. reg COST N

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
Residual | 8.9160e+11 72 1.2383e+10 R-squared = 0.3940
---------+------------------------------ Adj R-squared = 0.3856
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 1.1e+05

(8.92 × 1011 − 4.70 × 1011 ) / 2


F (2,70) = = 31.4 F (2,60)crit, 0.1% = 7.8
4.70 × 1011 / 70

Resultado del contraste:

¿Qué concluimos?
29

5. EL CONTRASTE DE CHOW
700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

FP Regular

Muchas veces, en los análisis de regresión hay dos tipos de datos: hombres y mujeres;
norte y sur; FP e institutos regulares. Como consecuencia de ello, surge la pregunta de si
es más adecuado estimar una única regresión para ambos conjuntos de datos, o dos
regresiones, una para cada conjunto.
El contraste de Chow sirve justamente para resolver este problema.
1
5. EL CONTRASTE DE CHOW

. reg COST N

Source | SS df MS Number of obs = 74


---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
Residual | 8.9160e+11 72 1.2383e+10 R-squared = 0.3940
---------+------------------------------ Adj R-squared = 0.3856
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 1.1e+05

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 339.0432 49.55144 6.842 0.000 240.2642 437.8222
_cons | 23953.3 27167.96 0.882 0.381 -30205.04 78111.65
------------------------------------------------------------------------------

Este es el resultado si realizamos una única regresión para los dos tipos de centros de
enseñanza. Observar que el supuesto que se está haciendo es que los parámetros, es decir
la constante y el coste marginal, son iguales para ambos centros.

5. EL CONTRASTE DE CHOW

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

Occupational schools Regular schools L3


Dado que solamente estimamos una regresión, el ajuste estaría dado por esta recta

5
5. EL CONTRASTE DE CHOW

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N
FP Regular

Observemos que si diferenciamos las observaciones entre FP y regular, parece existir


diferencia entre las observaciones de uno y otro centro. Entonces, ¿por qué suponer para
ambas los mismos parámetros (o sea, ajustar una sola regresión)?
6

5. EL CONTRASTE DE CHOW

. reg COST N if FP==1

Source | SS df MS Number of obs = 34


---------+------------------------------ F( 1, 32) = 55.52
Model | 6.0538e+11 1 6.0538e+11 Prob > F = 0.0000
Residual | 3.4895e+11 32 1.0905e+10 R-squared = 0.6344
---------+------------------------------ Adj R-squared = 0.6229
Total | 9.5433e+11 33 2.8919e+10 Root MSE = 1.0e+05

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 436.7769 58.62085 7.451 0.000 317.3701 556.1836
_cons | 47974.07 33879.03 1.416 0.166 -21035.26 116983.4
------------------------------------------------------------------------------

Este es el resultado de estimar la regresión para los centros de FP

7
5. EL CONTRASTE DE CHOW

. reg COST N if FP==0

Source | SS df MS Number of obs = 40


---------+------------------------------ F( 1, 38) = 13.53
Model | 4.3273e+10 1 4.3273e+10 Prob > F = 0.0007
Residual | 1.2150e+11 38 3.1973e+09 R-squared = 0.2626
---------+------------------------------ Adj R-squared = 0.2432
Total | 1.6477e+11 39 4.2249e+09 Root MSE = 56545

------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 152.2982 41.39782 3.679 0.001 68.49275 236.1037
_cons | 51475.25 21599.14 2.383 0.022 7750.064 95200.43
------------------------------------------------------------------------------

Y éste, para los institutos regulares:


PREGUNTA: ¿Los coeficientes estimados de las dos regresiones pueden suponerse
iguales?
8

5. EL CONTRASTE DE CHOW

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

FP Regular

Aquí presentamos las regresiones estimadas para cada una de las submuestras

9
5. EL CONTRASTE DE CHOW

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

FP Regular

Y aquí introducimos el ajuste por submuestras y, además, el que surge de realizar una sola
regresión para ambas submuestras. La pregunta que debemos hacernos es si está bien
realizar un solo ajuste para ambas submuestras a partir de estos resultados.
10

5. EL CONTRASTE DE CHOW

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

FP Regular

Este gráfico muestra los residuos para la submuestra de FP si realizamos una regresión
para cada submuestra.

11
5. EL CONTRASTE DE CHOW

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

FP Regular

Y estos son los residuos que obtendríamos para la submuestra de FP si sólo realizamos
una única regresión para ambas submuestras. Naturalmente, la idea sería hacer una
regresión para ambas submuestras o dos regresiones, una por submuestra, dependiendo
del tamaño de dichos residuos. 12

5. EL CONTRASTE DE CHOW
700000

600000

500000
SCR = 3.49 x 1011
400000
COST

700000
300000

600000
200000

500000
100000

400000
COST

0
0 200
300000 400 600 800 1000 1200 1400
N
200000
Occupational schools Regular schools

100000 SCR = 5.55 x 1011

0
0 200 400 600 800 1000 1200 1400
Para clarificar, separamos ambos tipos de residuos y calculamos su suma cuadrática.
N submuestra. Esto siempre debe
Observar que tenemos menos residuos en la regresión por
ser así, ¿por qué?
Occupational schools Regular schools
13
5. EL CONTRASTE DE CHOW

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

FP Regular

Es posible hacer lo mismo para los residuos de los institutos regulares...pensadlo


vosotros...

17

5. EL CONTRASTE DE CHOW

SUMA DE CUADRADOS DE LOS RESIDUOS (x1011)

Regresión FP Regular Total

SCR1 SCR2 (SCR1+SCR2)


Separado 3.49 1.22 4.71

SCRP
Junto (Pooled) 5.55 3.36 8.91

Lo que obtendríamos de este análisis es este cuadro

20
5. EL CONTRASTE DE CHOW

700000

600000

500000

400000
COST

300000

200000

100000

0
0 200 400 600 800 1000 1200 1400
N

FP Regular

Esta gráfica ilustra cómo se obtiene la SCRp.

24

5. EL CONTRASTE DE CHOW

SUMA DE CUADRADOS DE LOS RESIDUOS (x1011)

Regresión FP Regular Total

SCR1 SCR2 (SCR1+SCR2)


Separado 3.49 1.22 4.71

SCRP
Pooled 5.55 3.36 8.91

La cuestión fundamental es si la reducción de la suma de cuadrados residuales ha sido


significativa cuando pasamos de la regresión conjunta a las individuales. Esta es la idea del
contraste de Chow.
25
5. EL CONTRASTE DE CHOW

SCRP

SCR1

SCR2

5. EL CONTRASTE DE CHOW

El contraste de Chow se basa en un test F donde se analiza el “cambio porcentual” de la


suma de cuadrados residuales cuando pasamos de dos regresiones (una para cada submuestra)
a una sola regresión para toda la muestra.

F(k, n – 2k) = (SCRP − [SCR1 + SCR2 ]) / k


(SCR1 + SCR2 ) /(n − 2k )

(8.91× 1011 − [ 3.49 × 1011 + 1.22 × 1011 ]) / 2


F (2,70) = = 31.2
(3.49 × 1011 + 1.22 × 1011 ) / 70

F (2,60)crit, 0.1% = 7.8

El resultado dice que rechazo la nula, por tanto ¿qué concluyo?

26
Tema 7
Problemas de especificación y problemas
con los datos

Introducción a la Econometría. Curso 2007-2008


3º de Economía

PROBLEMAS DE ESPECIFICACIÓN

Consecuencias de la Mala Especificación

Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado

Yˆ = b1 + b2 X 2

Yˆ = b1 + b2 X 2
+ b3 X 3

¿Qué ocurre en cada uno de estos casos?


1
PROBLEMAS DE ESPECIFICACIÓN

Consecuencias de la Mala Especificación

Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado

Yˆ = b1 + b2 X 2 Sin problemas ?
Yˆ = b1 + b2 X 2
+ b3 X 3
? Sin problemas

¿Qué ocurre en cada uno de estos casos?


5

1. OMISIÓN DE VARIABLES RELEVANTES

Consecuencias de la Mala Especificación

Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado

Estimadores sesgados (en


Yˆ = b1 + b2 X 2 Sin problemas
general). Errores
estándar no válidos

Yˆ = b1 + b2 X 2
+ b3 X 3 Sin problemas

7
1. OMISIÓN DE VARIABLES RELEVANTES

MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u

MODELO AJUSTADO Yˆ = b1 + b2 X 2

Cov( X 2 ,Y ) Cov( X 2 , [ β 1 + β 2 X 2 + β 3 X 3 + u])


b2 = =
Var( X 2) Var( X 2)
Cov( X 2 , β 1 ) + Cov( X 2 , β 2 X 2 ) + Cov( X 2 , β 3 X 3 ) + Cov( X 2 , u)
=
Var( X 2)
0 + β 2Cov( X 2 , X 2 ) + β 3Cov( X 2 , X 3 ) + Cov( X 2 , u)
=
Var( X 2)
Cov( X 2 , X 3 ) Cov( X 2 , u)
= β2 + β3 +
Var( X 2) Var( X 2)

Vamos a demostrar que el estimador de MCO es sesgado.

12

1. OMISIÓN DE VARIABLES RELEVANTES

MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u

MODELO AJUSTADO Yˆ = b1 + b2 X 2

Cov( X 2 ,Y ) Cov( X 2 , [ β 1 + β 2 X 2 + β 3 X 3 + u])


b2 = =
Var( X 2) Var( X 2)
Cov( X 2 , β 1 ) + Cov( X 2 , β 2 X 2 ) + Cov( X 2 , β 3 X 3 ) + Cov( X 2 , u)
=
Var( X 2)
0 + β 2Cov( X 2 , X 2 ) + β 3Cov( X 2 , X 3 ) + Cov( X 2 , u)
=
Var( X 2)
Cov( X 2 , X 3 ) Cov( X 2 , u)
= β2 + β3 +
Var( X 2) Var( X 2)

Por tanto, b2 tiene tres componentes.

15
1. OMISIÓN DE VARIABLES RELEVANTES

MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u

MODELO AJUSTADO Yˆ = b1 + b2 X 2
Cov( X 2 , Y ) Cov( X 2 , X 3 ) Cov( X 2 , u)
b2 = = β2 + β3 +
Var( X 2) Var( X 2) Var( X 2)

 Cov( X 2 , X 3 ) Cov( X 2 , u) 
E (b2 ) = E  β 2 + β 3 + 
 Var( X 2) Var( X 2) 
 Cov( X 2 , X 3 )   Cov( X 2 , u) 
= E ( β 2 ) + E β 3  + E 
 Var( X 2)   Var( X 2) 
Cov( X 2 , X 3 )
= β2 + β3
Var( X 2)
Para investigar el sesgo tomamos el valor esperado de b2.

16

1. OMISIÓN DE VARIABLES RELEVANTES

MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u

MODELO AJUSTADO Yˆ = b1 + b2 X 2
Cov( X 2 , Y ) Cov( X 2 , X 3 ) Cov( X 2 , u)
b2 = = β2 + β3 +
Var( X 2) Var( X 2) Var( X 2)

 Cov( X 2 , X 3 ) Cov( X 2 , u) 
E (b2 ) = E  β 2 + β 3 + 
 Var( X 2) Var( X 2) 
 Cov( X 2 , X 3 )   Cov( X 2 , u) 
= E ( β 2 ) + E β 3  + E 
 Var( X 2)   Var( X 2) 
Cov( X 2 , X 3 )
= β2 + β3
Var( X 2)
Por tanto, b2 es sesgado por la cantidad β3 Cov(X2, X3)/Var(X2). Además, los errores
estándar y los contrastes de hipótesis realizados a partir de ellos no son válidos.

18
1. OMISIÓN DE VARIABLES RELEVANTES

MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u

MODELO AJUSTADO Yˆ = b1 + b2 X 2
Cov( X 2 , X 3 )
E (b2 ) = β 2 + β 3
Var( X 2)
Y
efecto de X3
efecto directo de
X2, manteniendo
β2 β3
X3 constante
efecto aparente de X2,
oculto el efecto de X3

X2 X3

Intuición….
La importancia del efecto aparente depende de: la fuerza del efecto de de X3 en Y, dado por
β3, y de la relación entre X2 y X3. 9

1. OMISIÓN DE VARIABLES RELEVANTES

. reg S ASVABC SM

Source | SS df MS Number de obs = 570


---------+------------------------------ F( 2, 567) = 156.81
Model | 1230.2039 2 615.101949 Prob > F = 0.0000
Residual | 2224.04347 567 3.92247526 R-squared = 0.3561
---------+------------------------------ Adj R-squared = 0.3539
Total | 3454.24737 569 6.07073351 Root MSE = 1.9805

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------

Para ilustrar, veamos el efecto sobre el nivel de estudios, S, del resultado de un test de
inteligencia, ASVABC, y del nivel de estudios del padre, SM.

¿Qué pasa si omitimos SM? Trataremos de predecir su sesgo.

20
1. OMISIÓN DE VARIABLES RELEVANTES

. reg S ASVABC SM
. cor SM ASVABC
Source | SS df MS Number de obs =
(obs=570) 570
---------+------------------------------ F( 2, 567) = 156.81
Model | 1230.2039 2 615.101949 Prob
| > F SM = 0.0000
ASVABC
Residual | 2224.04347 567 3.92247526 R-squared = 0.3561
--------+------------------
---------+------------------------------ Adj R-squared
SM| 1.0000 = 0.3539
Total | 3454.24737 569 6.07073351 Root 0.3819
ASVABC| MSE = 1.9805
1.0000

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------

23

1. OMISIÓN DE VARIABLES RELEVANTES

. reg S ASVABC

Source | SS df MS Number de obs = 570


---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
Residual | 2300.43873 568 4.05006818 R-squared = 0.3340
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------

S = β 1 + β 2 ASVABC + β 3 SM + u
Cov( ASVABC , SM )
E (b2 ) = β 2 + β 3
Var( ASVABC )
Aquí obtenemos la regresión omitiendo SM.

24
1. OMISIÓN DE VARIABLES RELEVANTES

. reg S ASVABC SM

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------

. reg S ASVABC

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------

25

1. OMISIÓN DE VARIABLES RELEVANTES

. reg S SM

Source | SS df MS Number de obs = 570


---------+------------------------------ F( 1, 568) = 83.59
Model | 443.110436 1 443.110436 Prob > F = 0.0000
Residual | 3011.13693 568 5.30129742 R-squared = 0.1283
---------+------------------------------ Adj R-squared = 0.1267
Total | 3454.24737 569 6.07073351 Root MSE = 2.3025

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
SM | .3445198 .0376833 9.142 0.000 .2705041 .4185354
_cons | 9.506491 .4495754 21.145 0.000 8.623458 10.38952
------------------------------------------------------------------------------

S = β 1 + β 2 ASVABC + β 3 SM + u

Cov( ASVABC , SM )
E (b3 ) = β 3 + β 2
Var( SM )
Aquí omitimos ASVABC en vez de SM. Esperaríamos quet b3 tuviera un sesgo positivo.
Anticipamos que β2 es positivo y sabemos que las covarianzas y varianzas son positivas.

26
1. OMISIÓN DE VARIABLES RELEVANTES

. reg S ASVABC SM

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------

. reg S SM

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
SM | .3445198 .0376833 9.142 0.000 .2705041 .4185354
_cons | 9.506491 .4495754 21.145 0.000 8.623458 10.38952
------------------------------------------------------------------------------

En este caso, el sesgo es dramático.

27

1. OMISIÓN DE VARIABLES RELEVANTES

. reg S ASVABC SM
Source | SS df MS Number de obs = 570
---------+------------------------------ F( 2, 567) = 156.81
Model | 1230.2039 2 615.101949 Prob > F = 0.0000
Residual | 2224.04347 567 3.92247526 R-squared = 0.3561
---------+------------------------------ Adj R-squared = 0.3539
Total | 3454.24737 569 6.07073351 Root MSE = 1.9805

. reg S ASVABC
Source | SS df MS Number de obs = 570
---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
Residual | 2300.43873 568 4.05006818 R-squared = 0.3340
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125

. reg S SM
Source | SS df MS Number de obs = 570
---------+------------------------------ F( 1, 568) = 83.59
Model | 443.110436 1 443.110436 Prob > F = 0.0000
Residual | 3011.13693 568 5.30129742 R-squared = 0.1283
---------+------------------------------ Adj R-squared = 0.1267
Total | 3454.24737 569 6.07073351 Root MSE = 2.3025

Observemos cómo se comporta el R2.

28
2. INCLUSIÓN DE VARIABLES IRRELEVANTES

Consecuencias de la Mala Especificación

Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado

Estimadores sesgados (en


Yˆ = b1 + b2 X 2 Sin problemas
general). Errores
estándar no válidos

Estimadores
Yˆ = b1 + b2 X 2 insesgados.
Errores estándar Sin problemas
+ b3 X 3 grandes

2. INCLUSIÓN DE VARIABLES IRRELEVANTES

MODELO VERDADERO Y = β1 + β 2 X 2 + u

MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3

Veamos cómo puede analizarse este problema

3
2. INCLUSIÓN DE VARIABLES IRRELEVANTES

MODELO VERDADERO Y = β1 + β 2 X 2 + u

MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3

Y = β1 + β 2 X 2 + 0 X 3 + u

Reescribamos el Modelo Verdadero incluyendo X3 como variable explicativa con


coeficiente igual a 0. Por tanto, b2 es un estimador de β2 y b3 de 0. Por tanto, ocurrirá que
no rechazaremos la hipótesis nula de que el efecto de X3 es cero.

2. INCLUSIÓN DE VARIABLES IRRELEVANTES

MODELO VERDADERO Y = β1 + β 2 X 2 + u

MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3

Y = β1 + β 2 X 2 + 0 X 3 + u

σ u2 1
varianza poblacional b2 = σ b22 = ×
nVar( X 2 ) 1 − rX22 , X 3

Observar que la varianza poblacional de b2 será mayor que en el modelo original

El error standard sigue siendo válido, porque el modelo está correctamente especificado,
pero será mayor que el que se obtiene si la variable irrelevante no es incluida.

5
3. VARIABLES PROXY

Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u

Supongamos que Y depende de X2, ..., Xk pero no se disponden datos de X2.


Eliminar esta variable daría lugar a estimadores sesgados, como vimos anteriormente.

3. VARIABLES PROXY

Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u

X 2 = λ + µZ

Algunas veces puede utilizarse una variable que aproxime a X2. Una variable proxy es
aquella que se supone está relacionada de forma lineal con la variable que falta. Por
ejemplo, Z puede actuar como si fuera X2.
3
3. VARIABLES PROXY

Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u

X 2 = λ + µZ

Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u

3. VARIABLES PROXY

Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u

X 2 = λ + µZ

Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u
1. Las estimaciones de los coeficientes correspondientes a X3, ..., Xk serán los mismos
que si hiciésemos la regresión de Y frente a X2, ..., Xk.

2. Los errores estándar y los t -ratios de los coeficientes de X3, ..., Xk son los mismos que
si hiciésemos la regresión de Y frente a X2, ..., Xk.

3. R2 será el mismo que si hiciésemos la regresión de Y frente a X2, ..., Xk.

4. El coeficiente de Z será β2µ .

5. Sin embargo, el t-ratio de Z será el mismo que el de X2 si hubiésemos hecho la


regresión de Y frente a X2, ..., Xk, y por tanto es posible analizar la significatividad de X2.
6. No es posible obtener un estimador de β1 .
3. VARIABLES PROXY

Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u

X 2 = λ + µZ

Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u

Si Z es una mala proxy de X2, entonces tenemos lo que en la literatura se conoce como
problemas de errores de medida
(ESTO CAUSA PROBLEMAS GRAVES EN LA ESTIMACIÓN. LO VERÉIS EN
ECONOMETRÍA I)
14

3. VARIABLES PROXY
Ejemplo
S = β 1 + β 2 ASVABC + β 3 INDEX + u

INDEX = λ + µ1 SM + µ 2 SF

Supongamos que queremos estimar el nivel educativo que puede alcanzar un individuo a
partir de su habilidad y del background familiar.

ASVABC (resultado de un test de inteligencia) se utiliza como medida para la habilidad


cognoscitiva. Pero, como no observamos INDEX, buscamos un conjunto de variables para
aproximarlo.

Este family background, INDEX, lo aproximaremos por el nivel de estudios del padre y de la
madre, SM y SF.

17
3. VARIABLES PROXY
Ejemplo
S = β 1 + β 2 ASVABC + β 3 INDEX + u

INDEX = λ + µ1 SM + µ 2 SF

S = β 1 + β 2 ASVABC + β 3 (λ + µ1 SM + µ 2 SF ) + u
= ( β 1 + β 3 λ ) + β 2 ASVABC + β 3 µ1 SM + β 3 µ 2 SF + u

18

3. VARIABLES PROXY
Ejemplo
. reg S ASVABC SM SF

Source | SS df MS Number of obs = 570


---------+------------------------------ F( 3, 566) = 110.83
Model | 1278.24153 3 426.080508 Prob > F = 0.0000
Residual | 2176.00584 566 3.84453329 R-squared = 0.3700
---------+------------------------------ Adj R-squared = 0.3667
Total | 3454.24737 569 6.07073351 Root MSE = 1.9607

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
SM | .069403 .0422974 1.641 0.101 -.013676 .152482
SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401
_cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214
------------------------------------------------------------------------------

19
3. VARIABLES PROXY
Ejemplo
. reg S ASVABC

Source | SS df MS Number of obs = 570


---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
Residual | 2300.43873 568 4.05006818 R-squared = 0.3340
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------

20

3. VARIABLES PROXY
Ejemplo
. reg S ASVABC SM SF
. cor ASVABC SM SF
------------------------------------------------------------------------------
(obs=570)
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
| ASVABC SM SF
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
--------+---------------------------
SM | .069403 .0422974 1.641 0.101 1.0000-.013676
ASVABC| .152482
SF | .1102684 .0311948 3.535 0.000
SM| 0.3819.0489967
1.0000 .1715401
_cons | 4.914654 .5063527 9.706 0.000
SF| 0.41793.920094
0.6391 5.909214
1.0000
------------------------------------------------------------------------------

. reg S ASVABC

------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------

Observar que hay un sesgo al alza cuando incluimos sólo ASVABC. Esto es esperable,
dado que SM y SF tienen un efecto positivo sobre los niveles ded estudio.

22

También podría gustarte