Apuntes 1

Introducción
IntroducciónaalalaEconometría
Econometría
3º3ºdedeEconomía
Economía
Curso 2006-2007
Curso 2008-2009
Begoña Álvarez García

Begoña Álvarez García
Despacho 337
Despacho 337
Material del curso:
Material del curso:
http://webs.uvigo.es/alvarez
Plataforma TEMA http://faitic.uvigo.es
“Science is Measurement”
(William Thomson, Lord Kelvin)
2
1. ¿Qué es la Econometría?
La Teoría Económica sugiere relaciones entre variables que, normalmente, tienen
implicaciones importantes en el diseño de políticas; pero rara vez sugiere cuál es
la magnitud de los efectos causales entre esas variables.
Por ejemplo:
¿Cuál es la elasticidad-precio de los cigarrillos?
¿Cuál es el efecto de reducir el tamaño de la clase en las notas de los

estudiantes?
¿Cuál es el rendimiento, en términos de salario, de un año adicional de

educación?
Si aumenta el tipo de interés en un 2% ¿cuánto variará la tasa de crecimiento del

PIB?
La Teoría Económica trata de responder al ¿POR QUÉ?
La Econometría trata de dar respuestas a ¿CUÁNTO?
Mensurabilidad es la palabra clave en la Econometría.
4
La Econometría, como disciplina, surge en el 1º Encuentro de la
Econometric Society en Cleveland, Ohio (USA) en 1930, como una
iniciativa de economistas, matemáticos y estadísticos muy relevantes:
Fisher, Schumpeter, Wiener, Frisch, etc.
Uno de los resultados de este encuentro fue la publicación de la revista

Econometrica (1933) una de las más (o la más) prestigiosa en
investigación económica. En su primera edición publicó algunas
definiciones para la Econometría:
“studies that aim at a unification of theoretical-quantitative and the empirical-

quantitative approach to economic problems [based on] rigorous thinking similar to
that which has come to dominate in the natural sciences”
Pero , “econometrics is by no means the same as economic statistics, [n]or general

economic theory, [n]or the application of mathematics to economics. It is the
unification of all three”
La Econometría consiste en la combinación de métodos estadísticos,

económicos y datos para responder a preguntas sobre cuestiones
económicas empíricas.
Existen diferentes tipos de cuestiones empíricas (y por tanto de

aplicaciones de Econometría). Algunos ejemplos son:
Estimación de relaciones causales: funciones de demanda,

funciones de producción, ecuaciones de salarios, etc.
Contraste de teorías económicas: hipótesis de los modelos de

capital humano (relación entre educación e ingreso; salud e ingreso,
etc.).
Evaluación de políticas gubernamentales: efecto sobre el empleo

de un aumento en el salario mínimo interprofesional;
Predicción: predecir variables macroeconómicas como la inflación, el

PIB, etc.
6
2. ¿Para qué sirve?
PREDICCIÓN:

ESTIMACIÓN DE RELACIONES CAUSALES:
¿Los impuestos sobre el consumo de alcohol salvan vidas?
Cook, Ostermann, and Sloan, NBER WP 11138, Febrero 2005
DATOS: Utilizan datos americanos estatales sobre tasas de mortalidad entre

1970-2000, consumo de alcohol agregado, tasas de impuestos sobre el alcohol,
etc.
RESULTADOS DEL ANÁLISIS ECONOMÉTRICO:
Duplicar el consumo de alcohol aumenta la mortalidad en un

23%
Eso implica que se pasaría de 2.4 milliones de muertes por

año a 2.9 millones.
Duplicar los impuestos sobre el alcohol reduciría la mortalidad en

un 0.7%
Es decir, en USA, se salvarían 16.000 vidas por año.

8
CONTRASTE DE TEORÍAS ECONÓMICAS:
Efectos de la educación: modelo de capital humano
Estimating the macroeconomic returns to education
A large body of empirical research has confirmed a positive link between education and
productivity. Better educated employees are generally more productive, and may raise
the productivity of coworkers…..
Studies of the macroeconomic returns to education are methodologically diverse and

based on two broad theoretical approaches. The first, a neo-classical approach, models
the relationship between the stock of education and the long-run level of GDP. Most
studies follow this tradition. A second approach derives from “new-growth” theory and
models the relationship between the stock of education and the rate of growth of GDP.
Whether increases in the stock of education primarily affect the level of output, or its
growth rate, is still unclear. Concerning the magnitude of the returns, the available
studies indicate that in the neo-classical models a one-year increase
in average education raises the level of output per capita by
between 3 and 6%. Studies of the “new-growth” variety find
that the same increase in average education raises the rate of
growth of output by around 1%. OCDE, 2004.
9

EVALUACIÓN DE POLÍTICAS
Evaluación del Programa “Hogares Comunitarios” en Colombia
Attanasio, O. and M. Vera-Hernández, IFS 2006
DATOS: Analizan el efecto que tiene sobre la altura y peso del niño y sobre la
participación laboral de las madres la asistencia a “hogares comunitarios” (madres
de la comunidad que cuidan a niños y además les dan un suplemento nutritivo).
RESULTADOS DEL ANÁLISIS ECONOMÉTRICO:
La asistencia a un hogar comunitario aumenta la altura del

niño en 2cm, si el resto de factores que explican la altura se
mantiene constante.
La asistencia al Hogar Comunitario aumenta la oferta laboral

de las madres en 71.7 horas por mes.
10
La Econometría es importante en prácticamente todas las ramas de la
economía aplicada: laboral, salud, industrial, macroeconomía, desarrollo,
internacional, marketing, finanzas, etc.
Hay dos características que distinguen la Econometría de lo que sería la

estadística aplicada a la economía
Los datos económicos son no experimentales.

No podemos clasificar a los individuos o las empresas como si fueran
“grupos experimentales” y “grupos de control”. Los individuos son
libres y se auto-seleccionan en grupos (nivel educativo, ocupación,
etc. ). Precisamente la Econometría tiene en cuenta esta circunstancia,
es decir tiene en cuenta el comportamiento del individuo, sus
decisiones.
Los modelos económicos (simples o sofisticados) son cruciales para

interpretar los resultados estadísticos en las aplicaciones
econométricas.
11
3. ¿Qué aprenderéis?
En los cursos de Econometría de la licenciatura:
¾ Aprenderéis métodos para estimar efectos causales a partir de datos

observacionales
¾ Aprenderéis herramientas que pueden ser utilizadas para otros objetivos,

como la predicción.
¾ Pondremos especial énfasis en las aplicaciones, pero la teoría es necesaria

para entender el porqué de los métodos.
¾ Aprenderéis a “producir” (hacer los análisis econométricos) y a “consumir”

(evaluar el trabajo de otros).
12
There are two things you are better off not watching in the
making: sausages and econometric estimates.
-Edward Leamer –
If you torture the data long enough, Nature will confess.

-Ronald Coase –
The four golden rules of econometrics:

1.Think brilliantly,
2.Be infinitely creative,
3.Be outstandingly lucky,
4.Otherwise, stick to being a theorist
-David Hendry-
13
4. Etapas del análisis econométrico
¾ Es importante tener en cuenta que el proceso de investigación en

econometría aplicada no es lineal sino que sigue bucles. Es decir, la
pregunta orginal y el modelo, e incluso la recogida de datos (ejemplo:
búsqueda de información o variables adicionales) puede modificarse
después de una visión preliminar de los resultados econométricos.
¾ Una vez que tenemos esto en cuenta, podemos describir las siguientes
etapas en la investigación econométrica:
1. Formulación de la pregunta que queremos responder

2. Construcción del modelo económico que la responde.
3. Especificación del modelo econométrico: ¿qué datos necesitamos?
4. Recogida o búsqueda de datos.
5. Estimación, validación, contrastes de hipótesis y predicción.
14
Ejemplo: Un modelo económico del crimen
1. Pregunta empírica
¾ ¿Qué tipo de políticas son más eficaces para reducir un tipo de crimen
particular: las que aumentan la probabilidad de capturar al criminal o las
que aumentan el castigo?
2. Modelo económico del comportamiento criminal

¾ Necesitamos un modelo que explique cuáles son los factores/variables
principales que determinan la decisión de un individuo de involucrarse en
una actividad criminal.
¾ Becker (JPE, 1968) modela el comportamiento criminal como si fuera una

elección de ocupación. De manera que las variables que afectan a las a las
ganancias netas (ingresos menos costes) en las ocupaciones criminales y no
criminales son variables explicativas relevantes.
¾ Este puede ser un tipo de modelo apropiado para ciertos tipos de crímenes,
pero no para otros… 15
¾ De acuerdo con este modelo, la cantidad de tiempo dedicado a la actividad

criminal es una función de las siguientes variables
h = f(wage, wcrime, inc, pcaught, pconv, esent, age)
donde:
h = horas dedicadas a la actividad criminal
wage = salario por hora en el mercado de trabajo
wcrime = salario por hora en el sector criminal
inc = renta no salarial
pcaught = probabilidad de ser capturado
pconv = probabilidad de ser declarado culpable si es capturado
esent = pena esperada en caso de ser declarado culpable
age = edad
16
3. Especificación del modelo econométrico
¾ ¿Qué tipo de datos? ¿individuales, agregados a nivel de provincia, CCAA,

país? ¿corte transversal, series temporales, panel?
¾ ¿Qué variables podemos observar y cuáles no?
¾ ¿Cuál es la forma funcional de f(.)?
hc = β 0 + β1 wagec + β 2 incc + β 3 freqac + β 4 freqcc + β 5 avgsc + uc
¾ Supongamos que tenemos datos para un año correspondientes a ciudades

españolas. El subíndice c denota la ciudad: Madrid es c=1, Barcelona es c=2,
Sevilla es c=3, etc.
¾ Los β’s son parámetros que debemos estimar. Suponemos una relación lineal.
¾ u representa variables inobservables para el económetra, ej.: el salario por hora
en el sector criminal, entre otras.
17

3. Especificación del modelo econométrico (continuación)
¾ El componente inobservable (o término de error o perturbación) u, es uno de los

componentes más importantes del análisis econométrico.
¾ Imponer ciertas condiciones sobre las propiedades estadísticas del término de

error es crucial para garantizar las buenas propiedades de los estimadores de
nuestros parámetros de interés.
¾ Con ciertas limitaciones, podremos contrastar si se cumplen esas condiciones.

Sin embargo, la interpretación económica del término de error (es decir, de
cuáles son los factores que lo componen) es muy importante para interpretar los
resultados de nuestra estimación.
¾ Dado nuestro modelo econométrico, podemos también contrastar diversas

hipótesis y cuestiones empíricas relacionadas con el valor de los parámetros
desconocidos. Por ejemplo:
β3 < 0 , β4 < 0 , β3 < β4
18
5. Tipos de datos
Existen diferentes tipos de datos. Cada uno tiene sus ventajas, sus
inconvenientes y sus características particulares.
Algunos métodos econométricos pueden ser válidos con unos tipos de

datos, pero con otros no.
19
5. Tipos de datos
5. 1 Corte transversal o sección cruzada
¾ Consiste en datos referidos a individuos, hogares, empresas, ciudades

…. que se observan en momento de tiempo dado.
¾ Normalmente suponemos que esos datos se obtienen por muestreo

aleatorio.
¾ En ocasiones, la muestra no es aleatoria: problemas de selección,

correlación espacial, muestras estratificadas, etc.
20
5. Tipos de datos
Ejemplo de datos de corte transversal:
obsno wage educ exper female married
1 3,10 11 2 1 0
2 3.24 12 22 1 1
3 3.00 11 2 0 0
. . . . . .
. . . . . .
. . . . . .
499 11.56 16 5 0 1
500 3.50 14 5 1 0
21
5. Tipos de datos
5.2 Series temporales
¾ Una serie temporal consiste en observaciones de una variable o de

varias variables a lo largo de varios periodos de tiempo (días, semanas,
meses, años…)
¾Una de las características fundamentales de las series temporales es que

están correlacionadas a lo largo del tiempo. Es decir, no constituyen una
muestra aleatoria.
¾Esta correlación condiciona mucho el tipo de estimación y de contrastes

econométricos que pueden realizarse.
22
5. Tipos de datos
Ejemplo de series temporales:
obsno year month Exchange Interest

rate rate
1 1990 1 1.32 7.35
2 1990 2 1.30 7.30
3 1990 3 1.29 7.32
. . . . .
. . . . .
. . . . .
191 2005 11 1.11 4.26
192 2005 12 1.10 4.31
23
5. Tipos de datos
5.3 Datos fusionados de secciones cruzadas (pooled cross-sections)
¾ Suponed que tenemos una secuencia de datos de corte transversal, con

las mismas variables pero correspondientes a poblaciones entrevistadas
en diferentes años 1990, 1991, 1992, … y 2005. A esto se le denomina
“datos fusionados de secciones cruzadas”.
¾ Estos datos son útiles si queremos analizar la evolución a lo largo del

tiempo de la distribución de ciertas variables como los salarios, la renta
de los hogares, etc.
¾ Es importante tener en cuenta que en este tipo de datos no se tiene

información de los mismos individuos a lo largo del tiempo. En cada
periodo, tenemos una nueva muestra de individuos.
24
5. Tipos de datos
5.4 Datos de panel o datos longitudinales
¾ En este caso, observamos a un grupo de individos (personas, hogares,

empresas…) en diferentes momentos del tiempo. Es decir, tenemos series
temporales para cada individuo de la muestra.
¾ Por tanto, en este tipo de datos seguimos a los mismos individuos a lo

largo del tiempo.
¾ Esta característica hace que este tipo de datos tenga diversas ventajas
sobre los otros.
25
5. Tipos de datos
Ejemplo de datos de panel: datos de 150 ciudades en 2 años
obsno city Year murders population police
1 1 1999 5 350,000 440
2 1 2000 8 359,200 471
3 2 1999 2 64.300 75
4 2 2000 1 65,100 75
. . . . . .
. . . . . .
299 150 1999 25 543,000 520
300 150 2000 32 546,200 493
26
Programa de la asignatura
27
Es importante manejar con soltura los conceptos

estadísticos impartidos en las asignaturas Estadística I y
Estadística II . También se requieren conocimientos de
Matemáticas y Teoría Económica.
28
TEMA 1: INTRODUCCIÓN
• ¿Qué es la Econometría?
• ¿Para qué sirve?
• ¿Qué aprenderéis?
• Etapas de la modelización.
• Tipos de datos.
TEMA 2: REPASO DE CONCEPTOS ESTADÍSTICOS
• Variables aleatorias discretas y continuas.

• Distribución de probabilidad de una variable aleatoria.
• Esperanza de una variable aleatoria.
• Esperanza de una función de variables aleatorias.
• Propiedades de la esperanza.
• Varianza poblacional y varianza muestral.
• Propiedades de la varianza.
• Independencia de dos variables aleatorias.
• Estimadores y sus propiedades: insesgadez; eficiencia; consistencia.
• Coeficiente de correlación.
29
TEMA 3: MODELO DE REGRESIÓN LINEAL SIMPLE

• Formulación del modelo.
• Hipótesis básicas.
• Estimación de los coeficientes de regresión.
• Propiedades de los coeficientes de regresión.
• Teorema de Gauss-Markov.
TEMA 4: MODELO DE REGRESIÓN LINEAL MÚLTIPLE

• Justificación del modelo con muchas variables explicativas
• Hipótesis del modelo
• Funcionamiento e interpretación de mínimos cuadrados ordinarios.
• Coeficiente de determinación R2
TEMA 5: CONTRASTES SOBRE RESTRICCIONES LINEALES EN EL

MODELO DE REGRESIÓN MÚLTIPLE
• Contrastes t de hipótesis sobre los parámetros del modelo de regresión.
• Contrastes sobre combinaciones lineales de parámetros.
• Contraste F de bondad de ajuste.
30
TEMA 6: VARIABLES ARTIFICIALES
• Descripción de las variables artificiales y obtención de las mismas a partir de

variables continuas.
• Variables artificiales para especificar cambios en el término constante.
• Efectos interactivos de las variables artificiales y otros regresores del modelo.
• Interpretación de los coeficientes en una regresión con variables artificiales.
• Contrastes de estabilidad basados en variables artificiales y contraste de Chow.
TEMA 7: PROBLEMAS DE ESPECIFICACIÓN Y PROBLEMAS CON LOS

DATOS
• Problema de variables omitidas.

• Problema de variables irrelevantes.
• Multicolinealidad.
• Datos influyentes.
31
BIBLIOGRAFÍA BÁSICA
- Dougherty, C. (2002) Introduction to econometrics (2ª ed.). Oxford University

Press. London
- Goldberger, A.S. (2001). Introducción a la Econometría. Ariel Economía, Madrid.
- Gujarati, D. (2004). Econometría (4ª ed.). McGraw-Hill. México.
(**) Wooldridge, J.M. (2006 ). Introducción a la Econometría: Un enfoque

moderno (2ª edición). Thomson Paraninfo. Madrid.
BIBLIOGRAFÍA COMPLEMENTARIA
- Carrascal, U., Y. González y B. Rodríguez (2001). Análisis Econométrico con

Eviews, Ra-Ma.
- Pena, J.B. y otros (1999). Cien ejercicios de Econometría. Editorial Pirámide,
- Pérez, C. (2006). Problemas resueltos de Econometría. Thomson Paraninfo.

Madrid.
32
Tema 2
Repaso de conceptos
estadísticos (I)
1. DISTRIBUCIONES DISCRETAS
Ejemplo de distribución de probabilidades: x es una variable

aleatoria igual a la suma de dos dados
rojo 1 2 3 4 5 6
verde
1
2
3
4
5
6
Supongamos que tenemos un dado rojo que toma valores entre 1 y 6 con igual
probabilidad, y un dado verde de las mismas características.

rojo 1 2 3 4 5 6
verde
1
2
3
4
5
6 10
Por ejemplo, en el dado rojo puede aparecer 4 y en el verde un 6

r 1 2 3 4 5 6
v
1
2
3
4
5 7
6
Igualmente, si el dado rojo es 2 y el verde 5, la suma es 7


r 1 2 3 4 5 6
v
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
Esta tabla muestra todos los posibles resultados, que van de 2 a 12.

r 1 2 3 4 5 6
x
v 2
3
1 2 3 4 5 6 7 4
5
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
7

r 1 2 3 4 5 6
x f
v 2
3
1 2 3 4 5 6 7 4
5
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
La frecuencia f es el número de veces que se repite un resultado

8

r 1 2 3 4 5 6
x f
v 2
3
1 2 3 4 5 6 7 4
5 4
2 3 4 5 6 7 8 6
3 4 5 6 7 8 9 7
8
4 5 6 7 8 9 10 9
5 6 7 8 9 10 11 10
11
6 7 8 9 10 11 12 12
Por ejemplo, hay cuatro resultados que hacen x igual a 5

9

r 1 2 3 4 5 6
x f
v 2 1
3 2
1 2 3 4 5 6 7 4 3
5 4
2 3 4 5 6 7 8 6 5
3 4 5 6 7 8 9 7 6
8 5
4 5 6 7 8 9 10 9 4
5 6 7 8 9 10 11 10 3
11 2
6 7 8 9 10 11 12 12 1
x f p
r 1 2 3 4 5 6
v 2 1 1/36
3 2 2/36
4 3 3/36
1 2 3 4 5 6 7
5 4 4/36
2 3 4 5 6 7 8 6 5 5/36
7 6 6/36
3 4 5 6 7 8 9
8 5 5/36
4 5 6 7 8 9 10 9 4 4/36
10 3 3/36
5 6 7 8 9 10 11
11 2 2/36
6 7 8 9 10 11 12 12 1 1/36
Finalmente, derivamos la probabilidad de obtener cada valor de x.

Hay 1/6 de probabilidad de obtener cada número del dado rojo y lo mismo para el dado verde. Por
lo tanto, cada valor en la tabla ocurre con probabilidad 1/36. Por lo tanto, para obtener las
12
probabilidades asociadas a cada valor de x, se dividen las frecuencias por 36.
probabilidad
1 2
__ 3
__ 4
__ 5
__ 6
__ 5
__ 4
__ 3
__ 2 1
__
/ /
36 36 36 36 36 36 36 36 36 36 36
2 3 4 5 6 7 8 9 10 11 12 x
La distribución se muestra gráficamente mediante un histograma.
14
2. DISTRIBUCIONES CONTINUAS
Ejemplo de una función de densidad: x es una variable
aleatoria igual a la temperatura en una habitación
densidad
f(x)
65 70 75 x
Imaginemos ahora que la distribución de probabilidades tiene esta forma.

f(x)
0.20
0.15
0.10
0.05
65 70 75 x
El área total del triángulo debe ser uno. Dado que la base del triángulo es 10, la altura debe
ser 0.2.
f(x) f(x) = 1.50 - 0.02x si 65 ≤ x ≤ 75

f(x) = 0 for x < 65 y x > 75
0.20
0.15
0.10
0.05
65 70 75 x
En este ejemplo, la función de densidad toma la forma f(x) = a + bx. Para pasar por los
puntos (65, 0.20) y (75, 0), a debe ser igual a 1.50 y b debe ser igual a -0.02.
¡La distribución continua más famosa!
3. VALOR ESPERADO DE UNA V. ALEATORIA
La definición de E(x), el valor esperado de x:
n
Discreta : E ( x) = x1 p1 + ... + xn pn = ∑ xi pi
i =1
Continua : E ( x) = x ƒ ( x)dx
Notación alternativa para E(x):

E(x) = µx
El valor esperado de una variable aleatoria, conocido también como la media poblacional,
es la suma ponderada de los valores que toma la variable aleatoria, donde los pesos son
las probabilidades ( o densidades) ligadas a esos valores.
1
xi
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
xi pi
x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11
4
xi pi xi p i
x1 p1 x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11
xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
x7 p7
x8 p8
x9 p9
x10 p10
x11 p11
6
xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3 x3 p3
x4 p4 x4 p4
x5 p5 x5 p5
x6 p6 x6 p6
x7 p7 x7 p7
x8 p8 x8 p8
x9 p9 x9 p9
x10 p10 x10 p10
x11 p11 x11 p11
xi pi xi p i
x1 p1 x1 p1
x2 p2 x2 p2
x3 p3 x3 p3
x4 p4 x4 p4
x5 p5 x5 p5
x6 p6 x6 p6
x7 p7 x7 p7
x8 p8 x8 p8
x9 p9 x9 p9
x10 p10 x10 p10
x11 p11 x11 p11
Σ xi pi = E(x)
El valor esperado no es más que la suma de la última columna. 8
xi pi xi p i xi pi
x1 p1 x1 p1 2 1/36
x2 p2 x2 p2 3 2/36
x3 p3 x3 p3 4 3/36
x4 p4 x4 p4 5 4/36
x5 p5 x5 p5 6 5/36
x6 p6 x6 p6 7 6/36
x7 p7 x7 p7 8 5/36
x8 p8 x8 p8 9 4/36
x9 p9 x9 p9 10 3/36
x10 p10 x10 p10 11 2/36
x11 p11 x11 p11 12 1/36
Σ xi pi = E(x)
Ejemplo del dado.
xi pi xi p i xi pi xi pi
x1 p1 x1 p1 2 1/36 2/36
x2 p2 x2 p2 3 2/36 6/36
x3 p3 x3 p3 4 3/36 12/36
x4 p4 x4 p4 5 4/36 20/36
x5 p5 x5 p5 6 5/36 30/36
x6 p6 x6 p6 7 6/36 42/36
x7 p7 x7 p7 8 5/36 40/36
x8 p8 x8 p8 9 4/36 36/36
x9 p9 x9 p9 10 3/36 30/36
x10 p10 x10 p10 11 2/36 22/36
x11 p11 x11 p11 12 1/36 12/36
Σ xi pi = E(x) 252/36 = 7
14
EJERCICIO: Calcular la esperanza de la variable “temperatura”
4. VALOR ESPERADO DE UNA FUNCIÓN DE

UNA VARIABLE ALEATORIA
La definición de E[g(x)], no es más que :
n
Discreta : E ( g ( x) ) = g ( x1 ) p1 + ... + g ( xn ) pn = ∑ g ( xi ) pi
i =1
Continua : E ( g ( x) ) = g ( x) f ( x)dx
Ejemplo: En el caso del “dado”

n
E ( x 2 ) = x12 p1 + ... + xn2 pn = ∑ xi
2
pi
i =1
2
4. VALOR ESPERADO DE UNA FUNCIÓN DE
UNA VARIABLE ALEATORIA
xi pi g(xi) g(xi ) pi xi pi xi2 xi2 pi

x1 p1 g(x1) g(x1) p1 2 1/36 4 0.11
x2 p2 g(x2) g(x2) p2 3 2/36 9 0.50
x3 p3 g(x3) g(x3) p3 4 3/36 16 1.33
… … …... ……... 5 4/36 25 2.78
… … …... ……... 6 5/36 36 5.00
… … …... ……... 7 6/36 49 8.17
… … …... ……... 8 5/36 64 8.89
… … …... ……... 9 4/36 81 9.00
… … …... ……... 10 3/36 100 8.83
… … …... ……... 11 2/36 121 6.72
xn pn g(xn) g(xn) pn 12 1/36 144 4.00
Σ g(xi) pi 54.83
El valor esperado es 54.83. Observar que no es igual a 7 elevado al cuadrado.
Es decir, E(x2) no es lo mismo que E(x) elevado al cuadrado
5. REGLAS DEL VALOR ESPERADO
1. E(x+y) = E(x) + E(y)
1
1. E(x+y) = E(x) + E(y)

Generalización:
E(w+x+y+z) = E(w) + E(x) + E(y) + E(z)
1. E(x+y) = E(x) + E(y)

2. E(ax) = aE(x)
3
1. E(x+y) = E(x) + E(y)

2. E(ax) = aE(x)
Ejemplo:
E(3x) = 3E(x)
1. E(x+y) = E(x) + E(y)

2. E(ax) = aE(x)
3. E(a) = a
5
1. E(x+y) = E(x) + E(y)

2. E(ax) = aE(x)
3. E(a) = a
y = a + bx
E(y) = E(a + bx)
= E(a) + E(bx)
= a + bE(x)
8
6. INDEPENDENCIA DE DOS V. ALEATORIAS
Dos variables aleatorias x e y son independientes si
E[f(x)g(y)] = E[f(x)] E[g(y)]

para cualquier f(x) , g(y)
Caso particular: si x e y son independientes,

E(xy) = E(x) E(y)
.
3
7. VARIANZA POBLACIONAL DE UNA VARIABLE
ALEATORIA
La varianza poblacional de x = E [( x − µ ) ]
2
[ ]
n
Discreta : E ( x − µ ) = ( x1 − µ ) p1 + ... + ( xn − µ ) pn = ∑ ( xi − µ ) 2 pi
2 2 2
i =1
[
Continua : E ( x − µ ) 2 = ] ( x − µ ) 2 f ( x)dx
La varianza mide la dispersión de la distribución con respecto a la media de la población.

2

ALEATORIA
xi pi
2 1/36
3 2/36
4 3/36
5 4/36
6 5/36
7 6/36
8 5/36
9 4/36
10 3/36
11 2/36
12 1/36
3
ALEATORIA
xi pi xi-µ
2 1/36
3 2/36
4 3/36
5 4/36
6 5/36 µ x = E( x) = 7
7 6/36
8 5/36
9 4/36
10 3/36
11 2/36
12 1/36

ALEATORIA
xi pi xi-µ
2 1/36 -5
3 2/36 -4
4 3/36 -3
5 4/36 -2
6 5/36 -1 µ x = E( x) = 7
7 6/36 0
8 5/36 1
9 4/36 2
10 3/36 3
11 2/36 4
12 1/36 5
6
ALEATORIA
xi pi xi-µ (xi-µ)2
2 1/36 -5 25
3 2/36 -4 16
4 3/36 -3 9
5 4/36 -2 4
6 5/36 -1 1
7 6/36 0 0
8 5/36 1 1
9 4/36 2 4
10 3/36 3 9
11 2/36 4 16
12 1/36 5 25

ALEATORIA
xi pi xi-µ (xi-µ)2 (xi-µ)2 pi
2 1/36 -5 25 0.69
3 2/36 -4 16 0.89
4 3/36 -3 9 0.75
5 4/36 -2 4 0.44
6 5/36 -1 1 0.14
7 6/36 0 0 0.00
8 5/36 1 1 0.14
9 4/36 2 4 0.44
10 3/36 3 9 0.75
11 2/36 4 16 0.89
12 1/36 5 25 0.69
11
ALEATORIA
xi pi xi-µ (xi-µ)2 (xi-µ)2 pi
2 1/36 -5 25 0.69
3 2/36 -4 16 0.89
4 3/36 -3 9 0.75
5 4/36 -2 4 0.44
6 5/36 -1 1 0.14
7 6/36 0 0 0.00
8 5/36 1 1 0.14
9 4/36 2 4 0.44
10 3/36 3 9 0.75
11 2/36 4 16 0.89
12 1/36 5 25 0.69
5.83
12

ALEATORIA
EJERCICIO: Calcular la varianza de la variable “temperatura”

ALEATORIA
Varianza poblacional de x
E [( x − µ ) 2 ]
pop.var(x)
σ x2
Desviación típica de x
E[( x − µ ) 2 ]
σx
15

ALEATORIA
EJERCICIO: Demostrar
[ ]
E ( x − µ ) 2 = E ( x 2 ) − [ E ( x)]2
15
8. COVARIANZA POBLACIONAL ENTRE DOS
VARIABLES ALEATORIAS
La covarianza poblacional de dos variables aleatorias es el valor esperado del

producto de sus desviaciones con respecto a la media. Mide el grado de dependencia
lineal que hay entre dos variables aleatorias. Una covarianza positiva indica que las
dos variables se mueven en la misma dirección, mientras que si es negativa se
mueven en direcciones opuestas.
La covarianza poblacional: σXY =E((X-µX) (Y-µY))
EJERCICIO: Demostrar la siguiente igualdad
σXY =E((X-µX) (Y-µY))=E(XY)- µX µY

Si X sonY indeptes ⇒ σXY = 0.

Lo contrario no es cierto. Es decir, si la covarianza entre X e Y es cero no
implica que sean independientes.
EJERCICIO: Demostrar la implicación

REGLAS DE LA COVARIANZA
1. Si Y = V + W,
Cov(X, Y) = Cov(X, V) + Cov(X, W)
2. Si Y = aZ, donde a es constante,
Cov(X, Y) = Cov(X, aZ) = aCov(X, Z)
Ejemplo: Cov(X, 3Z) = 3Cov(X, Z)
3. Si Y = a, donde a es constante,
Cov(X, Y) = Cov(X, a) = 0
Ejemplo: Cov(X, 10) = 0
9. RELACIÓN ENTRE LA VARIANZA Y LA

COVARIANZA
La varianza de una variable aleatoria no es más que la covarianza de dicha

variable respecto a sí misma.
Var (X) = Cov(X,X)
Por tanto, las reglas de la varianza se pueden deducir a partir de las reglas
de la covarianza.
1
COVARIANZA
Regla 1:
Si Y = V + W, Var(Y) = Var(V) + Var(W) + 2Cov(V, W)
Prueba:

COVARIANZA
Regla 2:
Si Y = bZ, donde b es constante, Var(Y) = b2Var(Z)
Prueba:
Var(Y) = Cov(Y, Y) = Cov(Y, bZ)= …
COVARIANZA
Regla 3:
Si Y = b, donde b es constante, Var(Y) = 0
Prueba:
Var(Y) = Cov(Y, Y)
= Cov(b, b)
=0
18

COVARIANZA
Regla 4:
Si Y = V + b, donde b es constante, Var(Y) = Var(V)
Prueba:
Var(Y) = Var(V + b)
= Var(V) + Var(b) + 2Cov(V, b)
= Var(V)
0 V
0 V+b
Sumar una constante sólo tiene un efecto de traslación: la varianza no cambiará y la media
se verá desplazada por la constante de la traslación.
10. COEFICIENTE DE CORRELACIÓN
POBLACIONAL
Este coeficiente mide la dependencia lineal entre dos variables aleatorias X

e Y. No tiene unidades de medida y está acotado entre -1 y 1
σ XY
ρ XY =
σ X2 σ Y2
Si X e Y son independientes, entonces el coeficiente de correlación es igual

a 0, pero la correlación igual a 0 no implica independencia.
Tema 2
Repaso de conceptos
estadísticos (II)
1. ESTIMADORES
Generalmente, no disponemos observaciones de los valores de una variable para

toda la población. Eso implica que no vamos a poder calcular los momentos
poblacionales de su distribución, lo único que podemos hacer es “aproximarlos”.
¿Cómo? A partir de una muestra de datos extraída de la población y utilizando
estimadores de los momentos poblacionales.
IMPORTANTE: Diferencia entre un estimador y una estimación
• Un estimador es una fórmula matemática.
• Una estimación es un número que se obtiene de aplicar

el estimador a los datos de una muestra.
1
1. ESTIMADORES
Momento poblacional Estimador
1 n
Media: µx x= ∑ xi
n i =1
1 n
Varianza : σ x
2
s2 = ∑ ( xi − x )
2
n − 1 i =1
1 n 
Covarianza: σXY Cov( X , Y ) =  ∑
n  i =1
X iYi  − XY

Coeficiente de correlación: ρXY Cov ( X , Y )

r XY =
Var ( X ) Var (Y )
4
1. ESTIMADORES
Densidad de x Densidad de x
µx x µx x
Los estimadores son variables aleatorias
9
1. ESTIMADORES: Insesgadez y eficiencia
Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
Supongamos que queremos estimar la media poblacional µx de una variable aleatoria x

dado un conjunto de observaciones. Un estimador a utilizar es la media muestral.
Demostraremos que es insesgado.
1
Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
2
Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
Es decir, el valor esperado de la media muestral es igual al parámetro poblacional que

estamos buscando µx
4
Insesgadez de x :
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
Estimador General Z = λ1x1 + λ2x2
Sin embargo, la media muestral no es el único estimador insesgado de la media

poblacional. Supongamos que tenemos únicamente dos observaciones y nos construimos
un estimador general, Z
5
Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
El estimador general Z lo definimos como la suma ponderada de las dos observaciones que
tenemos, donde los pesos sonλ1 y λ2. Por ejemplo, en el caso de la media muestral los dos
pesos son iguales a 1/n = 1/2 porque sólo tenemos dos observaciones.
6
Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
¿Cómo deben ser esos ponderadores para que el valor esperado del estimador sea igual a
la media poblacional?
Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
8
Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
Insesgadez de x:
 1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
1
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
Dado que las variables aleatorias son iid., su valor esperado es µx.
10
Insesgadez de x:
1  1
E ( x ) = E  ( x1 + ... xn ) = E ( x1 + ... + xn )
n  n
1 1
= [E ( x1 ) + ... + E ( xn )] = nµ x = µ x
n n
E ( Z ) = E ( λ1 x1 + λ2 x2 ) = E ( λ1 x1 ) + E ( λ2 x2 )
= λ1 E ( x1 ) + λ2 E ( x2 ) = ( λ1 + λ2 ) µ x
= µ x if ( λ1 + λ2 ) = 1
Por lo tanto, cualquier estimador Z será un estimador insesgado de µ si la suma de los

pesos de las observaciones es 1. Observar que existen infinitas combinaciones de los
ponderadores que hacen que su suma sea igual a 1.
11

densidad
estimator B
estimador A
µx
¿Cómo elegimos entre estimadores? Cuanto más preciso sea un estimador, es decir,
cuanto menos incertidumbre nos transmita sobre el valor del parámetro, mejor será. La
propiedad de EFICIENCIA se refiere justamente a la precisión.
12
densidad
estimator B
estimador A
µx
De la densidad se observa que si bien los dos estimadores A y B son insesgados, el

estimador B es más preciso, tiene menor varianza.
13

pop.var ( Z ) = pop.var ( λ1 x1 + λ2 x2 )
= pop.var ( λ1 x1 ) + pop.var ( λ2 x2 )
= λ12 pop.var ( x1 ) + λ22 pop.var ( x2 )
= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
Analicemos la varianza poblacional del estimador general buscando definir los pesos que
minimicen dicha varianza
14

= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
La varianza de una suma de variables aleatorias es la suma de las varianzas más dos veces
la covarianza. Pero si las variables son independientes, las covarianzas son cero (un poco
más adelante recordaremos las propiedades de la covarianza y la varianza).
15

= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
16

= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
Dado que la varianza poblacional de x es σx2.
17

= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
Por la condición de insesgadez.
18

= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
La varianza depende de λ1, por lo que debemos buscar el λ1 que haga mínima dicha
varianza
19

= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
d pop.var ( Z )
= 0 ⇒ 4λ1 − 2 = 0 ⇒ λ1 = λ2 = 0.5
dλ1
Z es insesgado si la suma de los pesos es uno. Pero hay infinitas combinaciones de λ1 y λ2

que satisfacen estas condiciones. Nos interesa, por lo tanto, minimizar la varianza en esos
pesos para encontrar el más preciso.
20

= ( λ12 + λ22 )σ x2
= ( λ12 + [1 − λ1 ]2 )σ x2 if ( λ1 + λ2 ) = 1
= ( 2λ12 − 2λ1 + 1)σ x2
d pop.var ( Z )
= 0 ⇒ 4λ1 − 2 = 0 ⇒ λ1 = λ2 = 0.5
dλ1
Es decir, si tenemos dos observaciones, cada observación la debemos ponderar por ½

para obtener el estimador de menor varianza. Pero ponderar 1/2 es justamente definir el
estimador Z como la media muestral.
21
2. Conflicto entre varianza mínima e insesgadez
densidad
estimador B
estimador A
Supongamos que tenemos dos estimadores alternativos para estimar θ, uno es insesgado y
el otro es sesgado pero con varianza menor que el primero: ¿cuál de los dos elegimos?
1
pérdida
error (negativa) error (positiva)
Una forma para decidir entre uno y otro es definirse una función de pérdida: nos
quedaremos con aquél que tenga menor pérdida.

MSE( Z ) = E [( Z − θ ) 2 ] = σ Z2 + ( µ Z − θ ) 2
densidad
Distribuciòn del estimador Z
θ
Verdadero
valor del
parámetro
Una función muy utilizada es la que se conoce como el “ERROR CUADRÁTICO MEDIO”
(mean squared error MSE), y se define como el valor esperado del cuadrado de las
desviaciones del estimador respecto al valor poblacional del parámetro que tratamos de
estimar. 3
MSE( Z ) = E [( Z − θ ) 2 ] = σ Z2 + ( µ Z − θ ) 2
densidad
sesgo
θ µZ
El error cuadrático medio puede escribirse como la suma del sesgo al cuadrado más la
varianza: es decir, combina el conflicto entre varianza y sesgo en un solo indicador.
Supongamos que el sesgo del estimador respecto a µZ es el que aparece en el gráfico.
4

MSE( Z ) = E [( Z − θ ) 2 ] = σ Z2 + ( µ Z − θ ) 2
densidad
sesgo
θ µZ
Demostraremos a continuación esta descomposición
5
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= E [( Z − µ Z ) 2 ] + E [( µ Z − θ ) 2 ] + E [2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
7
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
9
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
(µZ-θ )es constante
10
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
(µZ-θ) puede sacarse de la media porque es constante
11
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
E(Z) es µZ, y E(- µZ) es - µZ.
12
MSE( Z ) = E [( Z − θ ) 2 ]
= E [( Z − µ Z + µ Z − θ ) 2 ]
= E [( Z − µ Z ) 2 + ( µ Z − θ ) 2 + 2( Z − µ Z )( µ Z − θ )]
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ ) E ( Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2 + 2( µ Z − θ )( µ Z − µ Z )
= σ Z2 + ( µ Z − θ ) 2
Por tanto, el tercer témino es cero y llegamos a la descomposición buscada.
13
densidad
estimador B
estimador A
¿Cómo elegiremos entre ambos estimadores? Buscando aquel que tenga menor MSE.
14
3. Consistencia de los estimadores

densidad de x
n σx
0.08 1 50
0.06
0.04
0.02 n=1
50 100 150 200
La media muestral es un estimador de la media poblacional ¿qué pasa cuando la muestra

crece?
1
densidad de x
n σx
0.08 1 50
0.06
0.04
0.02 n=1
50 100 150 200
Supongamos que x tiene media poblacional 100 y desviación típica 50. Supongamos,
además, que no conocemos esta media y que queremos estimarla

densidad de x
n σx
0.08 1 50
0.06
0.04
0.02 n=1
50 100 150 200
De las propiedades de la media muestral, sabemos que su media coincide con la media
poblacional, que es insesgada y que su desviación típica será igual a la desviación típica
poblacional dividida por la raíz cuadrada del número de observaciones. n
3
densidad de x
n σx
0.08 1 50
0.06
0.04
0.02 n=1
50 100 150 200
Por tanto, cuanto mayor sea n, menor será la varianza de la media muestral.

densidad de x
n σx
0.08 1 50
0.06
0.04
0.02 n=1
50 100 150 200
Si n = 1, la muestra consiste en una única observación y la desviación típica de la media

muestral será 50.
5
densidad de x
n σx
0.08 1 50
4 25
0.06
0.04
n=4
0.02
50 100 150 200

densidad de x
n σx
0.08 1 50
4 25
25 10
0.06
n = 25
0.04
0.02
50 100 150 200
7
densidad de x
n σx
0.08 n = 100 1 50
4 25
25 10
0.06 100 5
0.04
0.02
50 100 150 200

densidad de x
n σx
0.8 1 50
4 25
25 10
0.6 100 5
n = 1000 1000 1.6
0.4
0.2
50 100 150 200
10
densidad de x
n = 5000 n σx
0.8 1 50
4 25
25 10
0.6 100 5
1000 1.6
5000 0.7
0.4
0.2
50 100 150 200
En el límite, la desviación típica de la media muestral tiende a cero, por lo que la media
muestral tenderá, en el límite, a la media poblacional: consistencia.
11
Muestra Finita: x es un estimador insesgado de µ
La insesgadez es un concepto de muestras finitas. El valor esperado de la media muestral

es igual a su valor poblacional. Pero ¡ojo! el valor real que toma la media muestral puede no
coindicir con la media poblacional.
13
Muestra Finita: x es un estimador insesgado de µ
Muestra grande: la distribución de x

colapsa en µ
plim x = µ
La consistencia es un concepto de muestras grandes. Un estimador consistente es más

preciso a medida que el tamaño de la muestra aumenta.
14

densidad de Z
n = 20
θ Z
Es posible que un estimador sea sesgado en muestras pequeñas pero consistente.
1
densidad de Z
n = 20
θ Z
Sea Z un estimador de la característica poblacional θ. Mirando a la densidad de Z, se

observa que sobreestima el valor del parámetro, es decir, tiene un sesgo positivo
n = 100
n = 20
θ Z
Para que el estimador sea consistente, deben pasar dos cosas puando la muestra aumenta.
El sesgo debe disminuir.
3
n = 1000
n = 100
n = 20
θ Z
y la densidad debe colapsar en el parámetro.
n = 100000
n = 1000
n = 100
θ Z
6
Tema 3
Modelo de regresión lineal simple (I)
Introducción a la Econometría. Curso 2008-2009

3º de Economía
1. EL MODELO: MOTIVACIÓN Y DEFINICIONES
• El modelo de regresión lineal simple trata de capturar la relación entre

dos variables y, x.
y = f(x,u)
• y es la variable dependiente, o variable explicada o regresando.

• x es la variable independiente, o variable explicativa, o regresor.
• u es el término de error o perturbación aleatoria o inobservable.
Contiene todos los factores distintos de x que afectan a y.
¿ Qué recoge u?
- Algunas variables que explican la variable dependiente y, pero que no son
observables o no se pueden medir.
- Errores de especificación, es decir, variables explicativas importantes que
hemos omitido por error, no porque no las podamos medir.
- Errores de medición de la variable dependiente.
• Para obtener un modelo útil que nos permita cuantificar “cómo x

explica y”, tenemos que responder a las siguientes cuestiones:
1) ¿Qué forma funcional suponemos para f(x,u) ?
Supondremos que la relación que vincula x e y es lineal en parámetros

y que el término inobservable entra de forma aditiva.
y = β1 + β2 x + u
β0 es la constante (intercept parameter)

β1 es la pendiente (slope parameter)
β1 + β 2 X
β1
X1 X2 X3 X4 X
Supongamos que la variable Y es una función lineal de otra variable X, donde la

relación entre Y y X depende de parámetros β1 y β2 desconocidos.
Si nuestro interés fuera conocer la relación que une a X con Y, entonces deberíamos
estimar los parámetros desconocidos.
1
β1 + β 2 X
Q4
Q3
Q2
β1 Q1
X1 X2 X3 X4 X
Supongamos que tenemos una muestra de 4 observaciones de (X,Y). Suponemos que

esas observaciones proceden de una muestra aleatoria simple.
Si la relación entre X e Y fuera exacta, sólo bastarían dos puntos para hallar una
solución para los parámetros β1 y β2. 3
Y P4
β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2
X1 X2 X3 X4 X
Sin embargo, las relaciones económicas no son exactas: muchos de los puntos que
observamos no van a estar en la recta
4
Y P4
β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2
X1 X2 X3 X4 X
Para permitir divergencia entre la variable Y de la recta de interés, introducimos un

término de perturbación al modelo, que no es observable: Y = β1 + β2X + u.
Por ejemplo, si Y es el salario y X la educación, u puede representar la habilidad
innata para ganar más dinero: así dos individuos con la misma educación pueden
tener un salario diferente.
5
Y P4
β1 + β 2 X
Q4
u1 P1 Q3
Q2
β1 Q1 P3
P2
β1 + β 2 X 1
X1 X2 X3 X4 X
Cada valor de Y tiene entonces un “componente no aleatorio” o “sistemático” β1 + β2X

y un “componente aleatorio”, u.
La primera observación la hemos descompuesto en estas dos partes.
6
Y P4
P1
P3
P2
X1 X2 X3 X4 X
En el mundo real, únicamente observamos los puntos P para cada X.
Y P4
Yˆ = b1 + b2 X
P1
P3
P2
b1
X1 X2 X3 X4 X
Naturalmente, podríamos utilizar los puntos P para dibujar una línea que aproxime
^
Y = β1 + β2X.
Podemos escribir esta línea como Y = b1 + b2X, donde b1 es una estimación de β1 y b2 8
es una estimación de β2.

Y (valor real)
Y Ŷ (valor predicho) P4
Yˆ = b1 + b2 X
R3 R4
R2
P1
R1 P3
P2
b1
X1 X2 X3 X4 X
A esta línea aproximada se la conoce como el modelo ajustado, y a los valores de la

variable Y en esa línea se les llama valores predichos o ajustados (son los puntos R).
Y (valor real)
Y − Yˆ = e (residuo) e4 Yˆ = b1 + b2 X
R3 R4
R2
e1 P1 e3
e2
R1 P3
P2
b1
X1 X2 X3 X4 X
Observad que hay una discrepancia entre el valor de Y realmente observado (los
puntos P) y el valor predicho por la línea aproximada (R). A esta discrepancia se le
llama residuo.
10
Y (valor real)
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1
β1 R1 P3
P2
b1
X1 X2 X3 X4 X
Es importante observar que los valores que toman los residuos son distintos a los
valores del término de perturbación. Esto es debido a que la aproximación que
hacemos nunca va a coincidir exactamente con la verdadera línea que relaciona a
estas variables.
11
Y (valor real)
Yˆ = b1 + b2 X
β1 + β 2 X
P1 Q4
Q3
Q2
β1 Q1 P3
P2
b1
X1 X2 X3 X4 X
La perturbación es la responsable de la desviación que existe entre el componente

“no aleatorio” y las verdaderas observaciones.
12
Y (valor real)
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1
β1 R1 P3
P2
b1
X1 X2 X3 X4 X
Los residuos son la diferencia entre el valor real y el valor predicho por la recta
estimada en base a la “aproximación” de los parámetros desconocidos
13
Y (valor real)
Yˆ = b1 + b2 X
R3 R4 β1 + β 2 X
R2
P1
β1 R1 P3
P2
b1
X1 X2 X3 X4 X
Entonces, es natural que cuando los residuos sean pequeños, el ajuste sea bueno y
los residuos tiendan a estar cerca de la perturbación. Pero lo que debe quedar claro
es que los dos conceptos representan cosas distintas.
14
Y (valor real)
u4 Yˆ = b1 + b2 X
β1 + β 2 X
Q4
β1 β1 + β 2 X 4
b1
X1 X2 X3 X4 X
Ambas líneas, la aproximada y la verdadera, son importantes en el análisis de

regresión, puesto que permiten descomponer el valor observado de Y en dos partes.
Usando la relación téorica, o verdadera, Y se descompone en su parte no estocástica
β1 + β2X y su parte estocástica u.
15
Y (valor real)
u4 Yˆ = b1 + b2 X
β1 + β 2 X
Q4
β1 β1 + β 2 X 4
b1
X1 X2 X3 X4 X
Esta es una descomposición teórica dado que no conocemos los valores

exactos de β1 o β2, ni los del término de perturbación.
17
Y (valor real)
e4 Yˆ = b1 + b2 X
R4 β1 + β 2 X
β1 b1 + b2 X 4
b1
X1 X2 X3 X4 X
La segunda descomposición del valor real de Y se hace en función de la

línea ajustada: es la suma del valor predicho de Y y de su residuo.
Esta descomposición la utilizaremos para obtener fórmulas que nos permitan
aproximar los valores desconocidos de los parámetros
18
2) ¿Cómo podemos obtener buenas estimaciones de los parámetros

del modelo?
• Más adelante mostraremos que sólo podemos obtener estimadores

fiables de β1 y β2 partiendo de un muestreo aleatorio de datos y
cuando establecemos supuestos que restringen el modo en el que el
término de error u se relaciona con x.
• Dado que x y u son variables aleatorias, necesitamos realizar

supuestos importantes sobre su distribución conjunta. Es decir,
necesitamos hacer supuestos sobre cómo es la relación entre x y u.
• Antes de establecer el supuesto clave, vamos a establecer un

supuesto sobre cómo se comporta u. Siempre y cuando
introduzcamos un término constante en la regresión, no perdemos
nada al suponer que
E(u) = 0

del modelo?
Por
Porqué
quédecimos
decimosque
queeste
estesupuesto
supuestono
noes
esrestrictivo:
restrictivo:
YY==ββ1 ++ββ2XX++uu
1 2
Suponed
Suponed E(u)
E(u) ==µµuu ≠≠ 0.0.
Definimos vv ==uu--µµu,,entonces u=v+µ

Definimos u entonces u = v + µuu
Entonces
Entonces YY ==bb1 ++bb2XX++vv++µµu
1 2 u
==(b µ
(b11 + µuu) + b22X +vv
+ ) + b X +
donde
donde E(v) E(u--µµuu))==E(u)
E(v) ==E(u E(u)--E(µ
E(µuu))==00

del modelo?
• Pero el supuesto clave para poder identificar el efecto de x sobre y es

que x y u no estén relacionadas. Para garantizar esto ¿bastaría con
suponer cov(x,u)=0?
• Queremos que x no nos dé ninguna información sobre u, es decir,

queremos que estas dos variables no tengan ningún tipo de relación
y la covarianza sólo recoge relaciones lineales.
• SUPUESTO: E(u|x) = E(u) = 0

• Este supuesto implica: E(y|x) = β0 + β1x
EJERCICIO
Es decir, estamos suponiendo que E(y|x) es una función lineal

de x tal que, para cualquier x, la distribución de y está centrada
en E(y|x)
f(y)
E(y|x) = β1 + β2x
• EJEMPLO: Ecuación de salarios
wage = β1 + β2 educ + u
• Supongamos que u es la capacidad innata del individuo para ganar

dinero.
• El supuesto de media condicional igual a cero implica que:
E( ability | educ =10) = E( ability | educ =16)
• Es decir, el nivel medio de “capacidad” debe ser el mismo para todos

los niveles educativos.
• Si la gente con más capacidad tiende a educarse más, entonces este
supuesto no se cumple. ESTO ES UN PROBLEMA IMPORTANTE.
EJERCICIO 1
Sea kids el número de niños que una mujer ha tenido y educ el
número de años de educación que la mujer ha recibido. El
siguiente es un modelo simple que relaciona la fertilidad con
el número de años de educación.
kids = β1 + β2 educ + u
Donde u es el error no observado.
a) ¿Qué tipo de factores están en u? ¿Pueden éstos estar
correlacionados con el nivel de educación?
b) En el análisis de regresión nosotros estamos interesados
en hacer interpretaciones de efectos causales. Para ello
debemos medir relaciones entre educ y kids “ceteris
paribus”, es decir, si lo demás permanece constante. De
acuerdo con lo que respondiste en el apartado anterior,
crees que en este modelo el β2 mide el efecto causal de
educ sobre kids?
2. ESTIMACIÓN POR MÍNIMOS CUADRADOS ORDINARIOS
Si un ajuste bueno es aquél que tiene los residuos pequeños, ¿por qué no
buscar unos valores para los parámetros que hagan mínimo este residuo?
Minimizar la SCR (suma de cuadrados de los residuos),

donde n
SCR = ∑ ei2 = e12 + ... + en2
i =1
¿Por qué no minimizamos…?

n
∑ei =1
i = e1 + ... + en
19
Y P4
Y P1
P3
P2
X1 X2 X3 X4 X
La respuesta está en que los errores positivos y negativos se compensarían. El ajuste

perfecto en este caso sería una línea recta en la media del valor de Y
21
Y Verdadero : Y = β1 + β2 X + u
Yn
Y1
X1 Xn X
¿Qué pasa si tenemos n observaciones?
13
Ajustado : Yˆ = b1 + b2 X
Yˆn = b1 + b2 X n
Yn
Y1
Yˆ1 = b1 + b2 X 1
b1 b2
X1 Xn X
Dada nuestra elección de b1 y b2, la recta ajustada es la que se muestra en

el gráfico.
14
Yˆn = b1 + b2 X n
Yn
Y1
e1 e1 = Y1 − Yˆ1 = Y1 − b1 − b2 X 1
.....
Yˆ1 = b1 + b2 X 1
b1 b2 en = Yn − Yˆn = Yn − b1 − b2 X n
X1 Xn X
Definimos el residuo para la primera observación
15
Yˆn = b1 + b2 X n
en
Yn
Y1
e1 e1 = Y1 − Yˆ1 = Y1 − b1 − b2 X 1
.....
Yˆ1 = b1 + b2 X 1
b1 b2 en = Yn − Yˆn = Yn − b1 − b2 X n
X1 Xn X
Del mismo modo, definimos los residuos para el resto de observaciones. En

la gráfica se señala el correspondiente a la última observación.
16
n n
∑ (e ) ∑ (Y − b1 − b 2 X i )
2 2
SCR = i = i
i =1 i =1
Observad que los residuos dependen de b1 y b2

y que, por lo tanto, se pueden elegir los valores de estos estimadores
de forma tal que hagan mínima dicha suma de residuos al cuadrado
17
n n
∑ (e ) ∑ (Y − b1 − b 2 X i )
2 2
min b1 , b 2 SCR = i = i
i =1 i =1
∂ SCR
=0 ⇒ ∑ 2 ( Y i − b1 − b 2 X i )( − 1 ) = 0 ⇒
b1
………….
b1 = Y − b2 X
∂ SCR
b2
=0 ⇒ ∑ 2 ( y i − b1 − b 2 X i )( − X i ) = 0 ⇒
2b2 ∑X i
2
− 2 ∑Xi Yi + 2 b1 ∑Xi = 0
17
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
Se divide por 2.
26
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0
b1 = Y − b2 X
Se sustituye b1 por la expresión obtenida anteriormente, de manera que la

ecuación queda sólo en función de b2.
27
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0
X=
∑X i
∑X i = nX
Utilizamos la definición de la media muestral
28
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0
b2 (∑ X i2 − nX 2 ) = ∑ X iYi − nXY
1  1
b2  ∑ X i2 − X 2  = ∑ X iYi − XY
n  n
Los términos que no contienen b2 se pasan a la parte de la derecha y se

divide la ecuación por n.
29
∂ SCR
= 0 ⇒ 2b2 ∑Xi2 − 2 ∑Xi Yi + 2b1 ∑X =0
∂b2 i
b2 ∑ X i2 − ∑ X iYi + b1 ∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )∑ X i = 0
b2 ∑ X i2 − ∑ X iYi + (Y − b2 X )nX = 0
b2 (∑ X i2 − nX 2 ) = ∑ X iYi − nXY
1  1
b2  ∑ X i2 − X 2  = ∑ X iYi − XY
n  n
b2 Var( X ) = Cov( X , Y )
Así, obtenemos una expresión para b2. Cov( X , Y )
b2 =
Var( X )
Yˆn = b1 + b2 X n
Yn
Y1
Yˆ1 = b1 + b2 X 1
b1 b2
X1 Xn X
De nuevo, mostramos el gráfico para ilustrar lo que hemos hecho. Hemos

especificado un modelo de regresión y, a partir de los datos, hemos
ajustado la recta que aparece en el gráfico.
31
Yˆn = b1 + b2 X n
Yn
Y1
b1 = Y − b2 X
Yˆ1 = b1 + b2 X 1 Cov( X , Y )
b2 b2 =
b1 Var( X )
X1 Xn X
Hemos elegido los parámetros de la recta ajustada de modo que minimicen

la suma de cuadrados de los residuos.
32
Expresiones alternativas para b2

Cov( X , Y )
b2 =
Var( X )
1
n
∑ ( X i − X )(Yi − Y ) ∑ ( X i − X )(Yi − Y )
b2 = =
1
∑ i ( X − X ) 2 ∑ ( X i − X )2
n
En función de las expresiones de la varianza y covarianza muestral....
34
Expresiones alternativas para b2
Cov( X , Y )
b2 =
Var( X )
1
n
∑ ( X i − X )(Yi − Y ) ∑ ( X i − X )(Yi − Y )
b2 = =
1
∑ i ( X − X ) 2 ∑ ( X i − X )2
n
1
n
∑ X iYi − XY ∑ X iYi − nXY
b2 = =
1
∑ i
X 2
− X 2 ∑ X i2 − nX 2
n
...y utilizando las expresiones alternativas de la varianza y covarianza
muestral que calculamos en clases anteriores.
35
3. INTERPRETACIÓN DE LA REGRESIÓN
80
70
60
Salario por hora ($)
50
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10
Estudios
Este gráfico muestra el salario por hora de 570 individuos.
1
. Regresión Salario- Estudios
Source | SS df MS Number of obs = 570

---------+------------------------------ F( 1, 568) = 65.64
Model | 3977.38016 1 3977.38016 Prob > F = 0.0000
Residual | 34419.6569 568 60.5979875 R-squared = 0.1036
---------+------------------------------ Adj R-squared = 0.1020
Total | 38397.0371 569 67.4816117 Root MSE = 7.7845
------------------------------------------------------------------------------
SALARIO | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | 1.073055 .1324501 8.102 0.000 .8129028 1.333206
_cons | -1.391004 1.820305 -0.764 0.445 -4.966354 2.184347
------------------------------------------------------------------------------
Esta es una salida de ordenador de un programa econométrico típico.
80
^
70 Salario = −1.391 + 1.073S
60
50
Salario
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10
Estudios
¿Qué significan los coeficientes?
11
15
14
13
$11.49
12
Salario
11 $1.07
Un año
10
$10.41
9
7
10.8 11 11.2 11.4 11.6 11.8 12 12.2
Estudios
¿Qué mide la pendiente?
12
80
^
70 Salario = −1.391 + 1.073S
60
50
Ingreso
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10
Estudios
¿Qué significa el término constante? En este caso, ¿su valor tiene sentido?
La razón por la que obtenemos ese valor negativo es porque en nuestra muestra sólo
hay individuos con un nivel de estudios igual o superior a 6 años. Entonces…. 15
80
^
70 Salario = −1.391 + 1.073S
60
50
Salario
40
30
20
10
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
-10
Estudios
… ésta sería la parte de la regresión que se corresponde con las observaciones

disponibles.
18
EJERCICIO 2
El siguiente cuadro contiene los resultados de la prueba de aptitud para el
acceso a la universidad en EE.UU. (ACT, American College Testing) y la nota
media en la universidad (GPA, Grade Point Average) de 8 estudiantes. El
GPA se basa en una escala de 1 a 4.
Estudiante GPA ACT

1 2.8 21
2 3.4 24
3 3.0 26
4 3.5 27
5 3.6 29
6 3.0 25
7 2.7 25
8 3.7 30
a) Estimar la relación entre GPA y ACT empleando MCO, es decir, obtener los
valores estimados de los parámetros del modelo
GPA = β1 + β2 ACT + u
¿En este ejemplo, el término constante tiene una interpretación útil? ¿Cuánto
aumenta GPA si ACT aumenta 5 puntos?
b) Calcula los valores ajustados y los residuos para cada observación.
c) Calcular el valor predicho para GPA cuando ACT=20.
4. BONDAD DE AJUSTE
Tres resultados relevantes:
e =0 Yˆ = Y Cov(Yˆ , e ) = 0
4. BONDAD DE AJUSTE
e =0 Yˆ = Y Cov(Yˆ , e ) = 0
Demostrar e =0
Residuo ei = Yi − Yî = Yi − b1 − b2 X i Yî = b1 + b2 X i
3
4. BONDAD DE AJUSTE
e =0 Yˆ = Y Cov(Yˆ , e ) = 0
Demostrar Yˆ = Y
ei = Yi − Yî = Yi − b1 − b2 X i
∑ e = ∑ Y − ∑ Yˆ
i i i
1 1 1
n
∑ e i =
n
∑ Yi −
n
∑ Yî
e = Y − Yˆ Yˆ = Y
11
4. BONDAD DE AJUSTE
e =0 Yˆ = Y Cov(Yˆ , e ) = 0
Demostrar Cov(Yˆ , e ) = 0
Cov(Yˆ , e ) = Cov([b1 + b2 X ]), e ) = Cov(b1 , e ) + Cov(b2 X , e )
= 0 + b2Cov( X , e ) = b2Cov( X , [Y − b1 − b2 X ])
= b2 [Cov( X , Y ) − Cov( X , b1 ) − Cov( X , b2 X )]
= b2 [Cov( X , Y ) − b2Cov( X , X )]
 Cov( X , Y ) 
= b2 Cov( X , Y ) − Var( X ) = 0
 Var( X ) 
Demostrad que es igual a 0
21
4. BONDAD DE AJUSTE
ei = Yi − Yî ⇒ Yi = Yî + ei
Para analizar la bondad del ajuste, descomponemos el valor observado en el

valor ajustado y el residuo.
23
4. BONDAD DE AJUSTE
ei = Yi − Yî ⇒ Yi = Yî + ei
Var(Y ) = Var(Yˆ + e ) = Var(Yˆ ) + Var(e ) + 2Cov(Yˆ , e )

= Var(Yˆ ) + Var(e )
1 1 1
n
∑ (Y − Y ) 2 = ∑ (Yˆ − Yˆ ) 2 + ∑ (e − e ) 2
n n
∑ (Y − Y ) = ∑ (Yˆ − Y ) + ∑ e
2 2 2
SCT = SCE + SCR
SCE ∑ (Yî − Y ) ∑
2 2
ei
R =
2
= = 1−
SCT ∑ (Yi − Y ) 2 ∑ (Yi − Y )2
Un criterio de bondad de ajuste es el coeficiente de determinación.
35
4. BONDAD DE AJUSTE
Cov(Y , Yˆ ) Cov([Yˆ + e ], Yˆ )
rY ,Yˆ = =
Var(Y ) Var(Yˆ ) Var(Y ) Var(Yˆ )
Cov(Yˆ , Yˆ ) + Cov( e , Yˆ ) Var(Yˆ )
= =
Var(Yˆ ) Var(Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y )
Otro criterio de bondad
2 de ajuste es la correlacion entre el valor observado
= R
y ajustado de la variable Y.
37
4. BONDAD DE AJUSTE
Cov(Y , Yˆ ) Cov([Yˆ + e ], Yˆ )
rY ,Yˆ = =
Cov(Yˆ , Yˆ ) + Cov( e , Yˆ ) Var(Yˆ )
= =
Var(Yˆ ) Var(Yˆ ) Var(Yˆ )
= =
Var(Y ) Var(Yˆ ) Var(Y )
= R2
43
Tema 4
Modelo de regresión lineal múltiple

3º de Economía
1. MOTIVACIÓN
Supongamos un modelo de regresión con muchas variables explicativas
y = β1 + β2 x2 + β3 x3 + . . . βk xk + u
y = variable dependiente
x2, x3 . . . xk = variables explicativas
u = perturbación aleatoria
β1 = constante
β2 β3 . . . βk = parámetros de pendiente
1. MOTIVACIÓN
Existen varias razones por las que un modelo de regresión múltiple es

más util que un modelo de regresión simple
1. Podemos medir el efecto causal (ceteris paribus) de más de

una variable. La regresión múltiple nos permite separar los
efectos causales de distintas variables explicativas sobre la
variable dependiente.
2. La variable dependiente puede estar explicada por más de una

variable explicativa. Por tanto, especificar un modelo de
regresión simple nos podría conducir a sesgos en la estimación
de los parámetros.
3. Podemos plantear relaciones más flexibles (no lineales) entre

la variable dependiente y alguna de las variables explicativas.
2. REGRESIÓN MÚLTIPLE CON DOS VARIABLES EXPLICATIVAS
Vamos a comenzar planteando el caso más sencillo de regresión múltiple
Yi = β 1 + β 2 X 2 i + β 3 X 3 i + ui
Yî = b1 + b2 X 2 i + b3 X 3 i
Los parámetros del modelo original son obtenidos por el método de mínimos cuadrados
ordinarios, de donde se obtienen los estimadores b1, b2, y b3.
11
Yi = β 1 + β 2 X 2 i + β 3 X 3 i + ui
Yî = b1 + b2 X 2 i + b3 X 3 i
ei = Yi − Yî = Yi − b1 − b2 X 2 i − b3 X 3 i
El residuo, ei de la observación i no es más que la diferencia entre la observación actual y la

ajustada.
12
SCR = ∑ e i2 = ∑ (Yi − b1 − b2 X 2 i − b3 X 3 i ) 2
EJERCICIO:
Derivar los estimadores MCO de los parámetros. Recordad que tenéis que minimizar
la expresión anterior, es decir, debéis resolver las siguientes condiciones de primer
orden
∂SCR ∂SCR ∂SCR

=0 =0 =0
∂b1 ∂b2 ∂b3
14
ESTIMADORES MCO:
b1 = Y − b2 X 2 − b3 X 3
Cov( X 2 ,Y )Var( X 3 ) - Cov( X 3 , Y )Cov( X 2 , X 3 )

b2 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

b3 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2
15
Observemos los estimadores de los parámetros de pendiente:

b2 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

b3 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2
¿Qué sucede si la covarianza entre X2 y X3 es cero?
¿En este caso, de qué depende el signo que tome el parámetro?
¿Tiene sentido en economía pensar que la covarianza entre X2 y X3 sea cero?
15
¿Qué sucede si en el denominador saco como factor común las varianzas?

Hacerlo e interpretar

b2 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2

b3 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2
15
EJEMPLO:
Vamos a estimar una ecuación de ingresos salariales. Para ello, utilizamos información
sobre 570 trabajadores. La especificación propuesta supone que los ingresos salariales
están explicados por los años de estudios del trabajador (S) y el nivel intelectual del
individuo, medido por el resultado de un test de inteligencial (HABIL)
INGRESOS = β1 + β2S + β3HABIL + u
tal que: E(u |S,HABIL) = 0
Este ejemplo nos va a servir para entender qué es lo que “ganamos”

cuando estimamos una regresión múltiple en vez de una regresión simple
a la hora de medir el efecto causal de una variable explicativa sobre la
15
. reg INGRESOS S HABIL

---------+------------------------------ F( 2, 567) = 39.98
Model | 4745.74965 2 2372.87483 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.1205
Total | 38397.0371 569 67.4816117 Root MSE = 7.7039
------------------------------------------------------------------------------
INGRESOS | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
HABIL | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------
ˆ
ingresos = −4.62 + 0.74 S + 0.15 habil
20
90
80
70
60
Ingresos por hora
50
40
30
20
10
0
0 5 10 15 20 25
-10
Años de Estudio
Pero supongamos que lo que nos interesa es la relación entre ingresos y S: si observamos
únicamente este gráfico para extraer conclusiones, éstas podrían estar equivocadas dado
que sabemos que la inteligencia (HABIL) afecta al ingreso, pero también a la educación.
2
90
. correlación S hábil
80 (obs=570)
| S hábil
--------+------------------
70
S| 1.0000
hábil | 0.5779 1.0000
Ingreso por hora 60
50
40
30
20
10
0
0 5 10 15 20 25
-10
Años de estudio
Existe una relación positiva fuerte entre S y hábil, y también entre hábil e ingresos. Es por
ello que mirar únicamente la relación entre S e ingreso podría llevarnos a conclusiones
equivocadas.
4
. reg ingresos hábil

---------+------------------------------ F( 1, 568) = 56.78
Model | 3489.30726 1 3489.30726 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.0893
Total | 38397.0371 569 67.4816117 Root MSE = 7.8395
------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
hábil | .2687432 .035666 7.535 0.000 .1986898 .3387966
_cons | -.359883 1.818571 -0.198 0.843 -3.931829 3.212063
------------------------------------------------------------------------------
Para eliminar el efecto de la experiencia, lo que debería hacerse es limpiar de ingresos y S

el efecto que se debe a hábil y después representar gráficamente ambas variables. Para
ello, es necesario hacer dos regresiones por separado: 1) ingresos frente a HABIL; 2)
estudios frente a HABIL. El objetivo es quedarnos con los residuos de estas dos
regresiones.
6
. reg S hábil

---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125
------------------------------------------------------------------------------
S | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
hábil | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
70
60
Residuos Ingreso frente a Hábil
50
40
30
20
10
0
-6 -4 -2 0 2 4 6 8
-10
-20
Residuos S frente a Hábil
Una vez que hemos hecho eso, representamos gráficamente los residuos de ambas
regresiones. Esta gráfica nos muestra la relación entre el ingreso y S, una vez depurado el
efecto de la habilidad. La recta oscura es la regresión entre los residuos y la más clara es la
regresión original entre ingresos y estudios. 9
. reg Res-ingresos res-estudios
---------+------------------------------ F( 1, 568) = 21.21
Model | 1256.44239 1 1256.44239 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.0343
Total | 34907.7297 569 61.3492613 Root MSE = 7.6971
------------------------------------------------------------------------------
Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244
_cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333
------------------------------------------------------------------------------
Regresión de los residuos.
PREGUNTA:
¿Por qué la estimación de la constante en este modelo es prácticamente igual a 0?
(* PISTA: pensad en la fórmula del estimador de la constante en un modelo de regresión
simple)
11

. reg Res-ing RS
---------+------------------------------ F( 1, 568) = 21.21
Model | 1256.44239 1 1256.44239 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.0343
Total | 34907.7297 569 61.3492613 Root MSE = 7.6971
------------------------------------------------------------------------------
Resin | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
RS | .7390366 .1604802 4.605 0.000 .4238296 1.054244
_cons | -5.99e-09 .3223957 0.000 1.000 -.6332333 .6332333
------------------------------------------------------------------------------
Regresión multiple:
------------------------------------------------------------------------------
ingresos | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
S | .7390366 .1606216 4.601 0.000 .4235506 1.054523
habil | .1545341 .0429486 3.598 0.000 .0701764 .2388918
_cons | -4.624749 2.0132 -2.297 0.022 -8.578989 -.6705095
------------------------------------------------------------------------------
Es importante observar que el procedimiento seguido anteriormente da lugar al mismo

estimador que la regresión multiple.
12

b2 =
Var( X 2 )Var(X 3 ) − [Cov( X 2 , X 3 )]
2
Se puede demostrar analíticamente que este estimador surge de la regresión entre

los residuos obtenidos de hacer la regresión de Y frente X3, frente a los residuos
obtenidos de la regresión de X2 frente X3
15
Varianza de los estimadores
Y = β1 + β 2 X 2 + β 3 X 3 + u Yˆ = b1 + b2 X 2 + b3 X 3
σ u2 1
Varianza poblacional b2 = σ = ×
2
nVar( X 2 ) 1 − rX22 , X 3
b2
Observad que la varianza se compone de dos elementos:
►► El primero es idéntico al caso de regresión simple: depende de la varianza de la

perturbación, del número de observaciones en la muestra y de la varianza de la
variable explicativa de interés.
►► El segundo componente está relacionado con la correlación que existe entre las
dos variables explicativas del modelo. Cuanto mayor sea la correlación entre estas dos
variables, mayor será la varianza del estimador. Esto se debe a que cuanto mayor sea
la correlación entre las dos variables explicativas, más difícil será discriminar entre el
efecto que dichas variables producen en la Y y, por lo tanto, menos precisa será la
estimación.
Varianza de los estimadores
Y = β1 + β 2 X 2 + β 3 X 3 + u Yˆ = b1 + b2 X 2 + b3 X 3
σ u2 1
Varianza poblacional b2 = σ = ×
2
nVar( X 2 ) 1 − rX22 , X 3
b2
σ u2 1
Desviación típica b2 = ×
nVar( X 2 ) 1 − rX22 , X 3
Para estimar σ2 no utilizamos Var(e) porque es un estimador sesgado:
n−k 2
E [Var(e )] = σu
n
El estimador insesgado es:
n su2 1
s =
2
Var(e ) s.e. (b2 ) = ×
u
n−k nVar( X 2 ) 1 − rX22 , X 3
Tema 5
Inferencia y predicción en el modelo de
regresión lineal

3º de Economía
1. SUPUESTO DE NORMALIDAD
• Para poder realizar contrastes de hipótesis sobre los parámetros del

modelo de regresión, necesitamos conocer la distribución del
estimador MCO (no sólo su esperanza y su varianza).
• Añadimos un nuevo supuesto a las Condiciones Gauss-Markov
Supuesto 6: Normalidad
u es independiente de x1, x2,…, xk y u sigue una distribución Normal
con media cero y varianza σ2
u ~ Normal(0,σ2)
1. A los supuestos 1 a 6 se les denomina SUPUESTOS O

HIPÓTESIS CLÁSICAS del modelo de regresión
2. El supuesto de Normalidad de u implica que, condicionado en x
y|x ~ Normal(β0 + β1x1 +…+ βkxk, σ2)
3. Bajo los supuestos clásicos, el estimador MCO sigue una

distribución Normal:
[
βˆ j ~ Normal β j , Var βˆ j ( )]
por tanto
(βˆ − β ) ~ Normal (0,1 )
( )
j j
sd βˆ j
• ¿Realmente necesitamos suponer que u sigue una distribución

Normal para obtener que el estimador MCO también se
distribuye Normal?
• No lo necesitamos.
• Cuando trabajamos con muestras grandes (y si se cumplen los

supuestos 1 a 5) el Teorema Central del Límite implica que el
estimador MCO tiene una distribución aproximadamente Normal.
• En particular, decimos que estimador MCO es asintóticamente

Normal. Esto significa que la distribución Normal es una buena
aproximación cuando la muestra es grande, incluso si no se
cumple el Supuesto 6.
2. CONTRASTE SOBRE UN COEFICIENTE DE LA REGRESIÓN
Modelo: Y = β1 + β2X + u
Hipótesis nula: H 0 : β 2 = β 20
Hipótesis alternativa H 1 : β 2 ≠ β 20
Esta secuencia describe el contraste de una hipótesis a un nivel de significación del 5% y

del 1 %. También define lo que significa un error de Tipo I.
A partir de un modelo de regresión simple, nos planteamos contrastar la hipótesis H0 de

que el coeficiente de pendiente es igual a un valor dadoβ20.
La hipótesis que se contrasta se denomina HIPÓTESIS NULA. La contrastamos frente a la

HIPÓTESIS ALTERNATIVA H1 que simplemente propone que β2 no es igual al β20.
Modelo: Y = β1 + β2X + u
Hipótesis nula: H 0 : β 2 = β 20
Hipótesis alternativa H 1 : β 2 ≠ β 20
Ejemplo de modelo: p = β1 + β2w + u

Hipótesis nula: H 0 : β 2 = 1.0
Hipótesis alternativa: H 1 : β 2 ≠ 1.0
Como ilustración, consideremos un modelo que relacione el índice de precios al consumo

con un índice de salarios: p es el IPC y w es el índice salarial.
Contrastaremos la hipótesis de que la tasa de inflación en precios es igual a la tasa de

inflación en salarios. Es decir la hipótesis nula es H0: β2 = 1.0.
4
Función de densidad
de probabilidad de b2
Distribución de b2 si la hipótesis nula H0: β2
=1.0 es cierta (suponemos que conocemos
la desviación típica y que ésta es igual a 0.1)
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
Si la hipótesis nula es cierta, el estimador b2 tendrá una distribución con media 1.0. Para
dibujar la distribución debemos conocer su desviación típica.
Suponemos que conocemos la desviación típica y que es igual a 0.1. Este es un supuesto
muy poco realista. En la práctica esta desviación típica la tenemos que estimar.
6
de probabilidad b2
=β20 es cierta (la desviación típica se
considera conocida)
β20-4sd β20-3sd β20-2sd β20-sd β20 β20+sd β20+2sd β20+3sd β20+4sd b2
Esta sería la distribución de b2 para el caso general. En lo que sigue suponemos que
conocemos la desviación típica (sd=standard deviation).
8
de probabilidad b2
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2

Supongamos que tenemos una muestra de datos para estimar el modelo de precios y que la
estimación del coeficiente de pendiente, b2, es 0.9. Sería este resultado una evidencia
suficiente en contra de la hipótesis nula β2 = 1.0?
¡NO LO ES! Es cierto que la estimación es inferior a 1.0 pero, debido a que existe el término
de perturbación en el modelo, nosotros no podríamos esperar una estimación exactamente
igual a 0.9. 9
de probabilidad b2
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
Si la hipótesis nula fuese cierta, las estimaciones no deberían estar lejos de 0.9. De modo
que no parece existir conflicto entre la estimación y lo que proponemos en la hipótesis
nula.
11
de probabilidad b2
31.7%
En el caso general, el resultado equivale a haber obtenido una estimación que esté
solamente una desviación típica por debajo del valor hipotético.
Si la hipótesis nula fuese cierta, la probabilidad de obtener una estimación una desviación
típica (o más) por encima o por debajo del valor medio es 31.7%.
12
de probabilidad b2
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
Ahora supongamos que en el modelo de inflación de precios/inflación de salarios,

obtuviésemos una estimación de 1.4. Este resultado claramente entra en conflicto con la
hipótesis nula.
14
de probabilidad b2
1.4 está cuatro desviaciones típicas por encima del valor hipotético y la probabilidad de
obtener una estimación más extrema que ésta es sólo del 0.006%. En este caso,
rechazaríamos la hipótesis nula.
15
de probabilidad b2
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
Supongamos que ahora obtemos una estimación igual a 0.77. Este es un resultado
complicado para emitir un juicio sobre la hipótesis nula.
16
de probabilidad b2

Si la hipótesis nula fuese cierta, la estimación obtenida estaría entre 2 y 3 desviaciones
típicas por debajo de la media.
Existen dos posibilidades. La primera es que la hipótesis nula sea cierta y simplemente
hayamos obtenido una estimación anormal (mala suerte con la muestra).
La otra posibilidad es que la hipótesis nula sea falsa. Es decir, la tasa de inflación en
precios no es igual a la tasa de inflación en salarios. 17
de probabilidad b2
=β200 es cierta
0
(la desviación típica se
considera conocida)
El procedimiento habitual para tomar decisiones consiste en rechazar la hipótesis nula si

implica que la probabilidad de obtener una estimación tan extrema como la que se ha
obtenido es menor que alguna probabilidad pequeña p.
20
de probabilidad b2
considera conocida)
2.5% 2.5%
Por ejemplo, podríamos decidir rechazar la hipótesis nula si ello implicase que la
probabilidad de obtener un valor tan extremo como el obtenido fuese menor que 0.05 (5%).
De acuerdo con esta regla de decisión, rechazaríamos la hipótesis nula si la estimación

cayese dentro de las colas superior e inferior que acumulan el 2.5% de la probabilidad. 21
de probabilidad b2
2.5% 2.5%
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
Si aplicamos esta regla decisión al ejemplo de precios/salarios, la primera estimación de β2

no nos conduciría al rechazo de la hipótesis nula.
23
de probabilidad b2
considera conocida)
2.5% 2.5%
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
La segunda sí lo haría.
24
de probabilidad b2
considera conocida)
2.5% 2.5%
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
La tercera también conduciría al rechazo.
25
de probabilidad b2
=β2 es cierta
0
(la desviación típica se
considera conocida)
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
Las colas que acumulan el 2.5% de probabilidad en una distribución normal siempre
comienzan a 1.96 desviaciones típicas de su media.
26
Regla de decisión (nivel de significación 5%):

RechazoH0 : β 2 = β 2
0
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
De modo que rechazaríamos H0 si la estimación estuviese a 1.96 desviaciones típicas (o

más) por encima o por debajo de la media hipotética.
27
Regla de decisión (nivel de significación 5%)

Rechazo H0 : β 2 = β 20
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 − β 20 > 1.96 s.d. (2) si b2 − β 20 < −1.96 s.d.
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
Es decir, rechazaríamos H0 si la diferencia entre la estimación muestral y el valor hipotético

fuese mayor que 1.96 desviaciones típicas.
28

(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 − β 20 > 1.96 s.d. (2) si b2 − β 20 < −1.96 s.d.
(1) si (b2 − β 2 ) / s.d. > 1.96 (2) si (b2 − β 2 ) / s.d. < −1.96
0 0
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
Rechazaríamos H0 si la diferencia, expresada en términos de desviaciones típicas, fuese

mayor que 1.96 en valor absoluto.
29

(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 − β 20 > 1.96 s.d. (2) si b2 − β 20 < −1.96 s.d.
(1) si (b2 − β 2 ) / s.d. > 1.96 (2) si (b2 − β 2 ) / s.d. < −1.96
0 0
b2 − β 20
z=
s.d.
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
Denotamos la diferencia, expresada en términos de desviaciones típicas, como z
30

(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 − β 20 > 1.96 s.d. (2) si b2 − β 20 < −1.96 s.d.
(1) si (b2 − β 2 ) / s.d. > 1.96 (2) si (b2 − β 2 ) / s.d. < −1.96
0 0
(1) si z > 1.96 (2) si z < -1.96

b − β 20
z= 2
s.d.
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
Entonces, la regla de decisión consiste en rechazar la hipótesis nula si z es mayor que 1.96
en términos absolutos.
30

(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si z > 1.96 (2) si z < -1.96
Región de aceptación para b2:
β 20 − 1.96 s.d. ≤ b2 ≤ β 20 + 1.96 s.d.
b2 − β 0
z= 2
s.d.
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
El rango de valores de b2 que no conducen al rechazo de la hipótesis nula se conoce como

REGIÓN DE ACEPTACIÓN.
32

(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si z > 1.96 (2) si z < -1.96
β 20 − 1.96 s.d. ≤ b2 ≤ β 20 + 1.96 s.d.
b2 − β 0
− 1.96 ≤ z ≤ 1.96
z= 2
s.d.
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
Los valores de z que definen la región de aceptación son 1.96 y -1.96 (para un nivel de
significación del 5%).
32

Rechazo H0 : β 2 = 1.0
(1) si b2 > β 20 + 1.96 s.d. (2) si b2 < β 20 − 1.96 s.d.
de probabilidad b2
(1) si b2 > 1.0 + 1.96 × 0.1 (2) si b2 < 1.0 − 1.96 × 0.1
(1) si b2 > 1.196 (2) si b2 < 0.804
0.804 ≤ b2 ≤ 1.196
2.5% 2.5%
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
Veamos la regla de decisión en el ejemplo de precios/ salarios. La hipótesis nula es que el

coeficiente de pendiente es igual a 1.0.
Suponemos que conocemos la desviación típica y que es igual a 0.1.
La región de aceptación para b2 es el intervalo 0.804 a 1.196. Una estimación muestral que
caiga en este rango no conducirá a un rechazo de la hipótesis nula. 36
Error Tipo I: rechazar H0 cuando es cierta

Probabilidad de error Tipo I: en este caso es el 5%
de probabilidad b2 El nivel de significación del contraste es el 5 %
Rechazo H0 : β 2 = β 20 Región de aceptación Rechazo H0 : β 2 = β 20
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
En el contraste que estamos haciendo, si la hipótesis es cierta, el error Tipo I ocurrirá el 5 %

de las veces porque el 5% de las veces obtendremos estimaciones que caerán dentro de
las colas superior e inferior que acumulan una probabilidad del 2.5%.
El nivel de significación de un contraste se define como la probabilidad de cometer un error

de Tipo I si la hipótesis nula es cierta. 37

de probabilidad b2 El nivel de significación del contraste es el 5 %
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
Por supuesto, podemos reducir el riesgo de cometer un error Tipo I si reducimos el tamaño
de la región de rechazo.
Por ejemplo, podríamos cambiar la regla de decisión y fijar una nueva tal que “rechacemos
la hipótesis nula si la probabilidad de obtener una estimación muestral como la obtenida es
menor que 0.01 (1 %)”.
37
de probabilidad b2
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
La región de rechazo se convierte ahora en las colas superior en inferior que acumulan el
0.5% de la probabilidad.
42

(1) si b2 > β 20 + 2.58 s.d. (2) si b2 < β 20 − 2.58 s.d.
de probabilidad b2
(1) si z > 2.58 (2) si z < -2.58
β − 2.58 s.d. ≤ b2 ≤ β 20 + 2.58 s.d.
0
2
b2 − β 20 − 2.58 ≤ z ≤ 2.58
z=
s.d.
0.5% 0.5%
β20-2.58sd β20-sd β20 β20+sd β20+2.58sd b2
Las colas que acumulan el 0.5% de la probabilidad de una distribución normal comienzan a
2.58 desviaciones típicas de la media, de manera que ahora rechazamos la hipótesis nula si
el valor del estadístico z es mayor que 2.58 en valor absoluto.
43

de probabilidad b2 El nivel de significación del contraste es el 1%
Rechazar H0 : β 2 = β 20 Región de aceptación Rechazo H0 : β 2 = β 20
0.5% 0.5%
β20-2.58sd β20-sd β20 β20+sd β20+2.58sd b2
Como la probabilidad de cometer un error Tipo I, si la hipótesis nula es cierta, es ahora del
1%, se dice que el contraste se realiza a un nivel de significación del 1 %.
44

Rechazo H0 : β 2 = 1.0
(1) si b2 > β 20 + 2.58 s.d. (2) si b2 < β 20 − 2.58 s.d.
de probabilidad b2
(1) si b2 > 1.0 + 2.58 × 0.1 (2) si b2 < 1.0 − 2.58 × 0.1
(1) si b2 > 1.258 (2) si b2 < 0.742
0.742 ≤ b2 ≤ 1.258
0.5% 0.5%
0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 b2
En el ejemplo de inflación de precios/inflación salarios, como la desviación típica es 0.1, las

colas del 0.5% de probabilidad comienzan 0.742 y 1.258.
La región de aceptación para b2 es el intervalo entre 0.742 y 1.258. Puesto que es más
amplio que el correspondiente al contraste al nivel de significación del 5%, existe un riesgo
menor de cometer un error Tipo I, si la hipótesis nula es cierta. 45
Comparación de regiones de aceptación al 5% y 1%
Función de densidad 5%: β 2 − 1.96 s.d. ≤ b2 ≤ β 2 + 1.96 s.d. -1.96 < z < 1.96
0 0
de probabilidad b2 1%: β 20 − 2.58 s.d. ≤ b2 ≤ β 20 + 2.58 s.d. -2.58 < z < 2.58
nivel 1%
b − β 20
z= 2 nivel 5%
s.d.
0.5% 0.5%
Este diagrama compara los procesos de decisión para contrastes al 5% y 1%. Notar que si
se rechaza H0 al 1%, debe rechazarse también al 5%.
Notar también que si b2 cae dentro de la región de aceptación del contraste al 5%, también
debe caer dentro de la región de aceptación al 1%.
47
Ejemplo:
Caso general Decisión precios/salarios
Rechazo H0 al 1% (y también al 5%)

β 20 + 2.58 s.d. 1.258
Rechazo H0 al 5% pero no al 1%
β 20 + 1.96 s.d. 1.196
β 20 No rechazo H0 al 5% (ni al 1%) 1.000
β 20 − 1.96 s.d. 0.804

β 20 − 2.58 s.d. 0.742
El diagrama resume las decisiones posibles en contrastes realizados para niveles de

significación del 5% y del 1%, en el caso general, y en el ejemplo de inflación de
precios/salarios.
En el medio del diagrama se señala cuál sería la decisión. Generalmente no se dicen las
49
frases entre paréntesis.

Ejemplo: Inflación
Caso general Decisión precios/inflación
salarios
β 20 + 2.58 s.d. 1.258
β 20 + 1.96 s.d. 1.196
β 20 No rechazo H0 al 5% (ni al 1%) 1.000
β 20 − 1.96 s.d. 0.804

β 20 − 2.58 s.d. 0.742
Deberías ofrecer los resultados de ambos contrastes sólo si rechazas a un nivel de

significación del 5%, pero no a un nivel del 1%.
49
3. ERROR TIPO I Y ERROR TIPO II
distribución hipotética
bajo H0 : β 2 = β 20
región de aceptación de b2
5% nivel
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
Hemos definido error de Tipo I como el rechazo de la hipótesis nula cuando es cierta.
En el contraste de hipótesis, también existe la posibilidad de no rechazar la hipótesis nula
cuando es falsa. Esto se conoce como error de Tipo II.
Aquí demostraremos que existe un intercambio o trade-off entre el riesgo de cometer un
error de Tipo I y el riesgo de cometer un error Tipo II.
1
bajo H0 : β 2 = β 20
5% nivel
2.5% 2.5%
β20-1.96sd β20-sd β20 β20+sd β20+1.96sd b2
El gráfico muestra las regiones de aceptación y rechazo para un contraste a un nivel de

significación del 5%. El riesgo de cometer un error Tipo I, si la hipótesis nula es cierta, es
del 5%.
4
bajo H0 : β 2 = β 20
1% nivel
5% nivel
0.5% 0.5%
β20-2.58sd β20-sd β20 β20+sd β20+2.58sd b2
Si realizamos el contraste a un nivel de significación del 1%, el riesgo de cometer un error

de Tipo I se reduce al 1%, si la hipótesis nula es cierta.
¿Cuáles son las implicaciones de la elección del nivel de significación si la hipótesis nula
es falsa?
5
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
β20 β21-2sd β21-sd β21 β21+sd β21+2sd b2
Supongamos que H1: β2 = β21 es cierta y, por tanto, la distribución de b2 es la curva que se
presenta en la parte derecha.
8
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
Si tuviésemos datos para estimar la regresión, la estimación de b2 sería la que se muestra.

En este caso, tomaríamos la decisión correcta y rechazaríamos H0, independientemente del
nivel de significación que se adoptase.
9
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
Aquí tenemos otra estimación (suponemos que hemos conseguido una muestra distinta a
la anterior). De nuevo, la decisión correcta sería rechazar la hipótesis nula, tanto para un
nivel de significación del 5% como del 1%.
10
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
En el caso que se muestra ahora, cometeríamos un error de Tipo II y no rechazaríamos la

hipótesis nula para esos niveles de significación.
11
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
Pero, en el caso de esta estimación, podríamos tomar la decisión correcta si realizamos el

contraste a un nivel de significación del 5%, mientras que cometeríamos un error Tipo II si
utilizásemos un nivel de significación del 1%.
12
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
La probabilidad de cometer un error de Tipo II si realizamos el contraste al nivel del 1%

viene dada por la probablidad de que b2 caiga dentro de la región de aceptación para ese
nivel de significación, es decir, el intervalo entre las líneas rojas punteadas.
13
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
Dado que H1 es cierto, la probabilidad de que b2 caiga en la región de aceptación es el área

sombreada que corresponde a la distribución bajo H1.
14
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%

Si realizásemos el contraste a un nivel de significación del 5%, la probabilidad de cometer
error Tipo II si H1 es cierta, viene dada por el área que está bajo la distribución
correspondiente a H1, dentro de la región de aceptación a ese nivel de significación.
Es el área gris del gráfico. En este caso particular, si realizásemos el contraste al 5% en vez
de al 1%, el riesgo de cometer error Tipo II se reduciría casi a la mitad.
15
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%
El problema es, por supuesto, que nunca sabemos si H0 es cierta o falsa. Si lo supiéramos,
¿para qué ibamos a hacer contrastes?
17
bajo H0 : β 2 = β 20
1% nivel
distribución bajo
5% nivel H1 : β 2 = β 21
0.5% 0.5%

Recapitulemos: si H0 fuese cierta, realizar el contraste a un nivel de significación del 1% en
vez de al 5%, reduciría enormemente el riesgo de cometer un error Tipo I (no cometeríamos
error Tipo II).
...sin embargo, si H0 fuese falsa, realizar el contraste a un nivel de significación del 1% en

vez de al 5% aumentaría el riesgo de cometer un error Tipo II (en este caso no podríamos
cometer error Tipo I). 18
4. CONTRASTE t SOBRE SOBRE UN COEFICIENTE DE REGRESIÓN
s.d. de b2 conocida
Discrepancia entre el valor

hipotético y la estimación
muestral, en términos de s.d:
b2 − β 20
z=
s.d.
Nivel de significación 5%:

rechazo H0: β2 = β2 0si
z > 1.96 o z < -1.96
El esquema resume el procedimiento para realizar un contraste de significación del

coeficiente de la pendiente de la regresión a un nivel de significación del 5 %, suponiendo
que conocemos la desviación típica de la estimación.
1
s.d. de b2 conocida s.d. de b2 desconocida
Discrepancia entre el valor Discrepancia entre el valor

hipotético y la estimación hipotético y la estimación
muestral, en términos de s.d: muestral, en términos de s.e.:
b2 − β 20 b2 − β 20
z= t=
s.d. s.e.
Nivel de significación 5%:

rechazo H0: β2 = β2 0si
z > 1.96 o z < -1.96
Este es un supuesto poco realista. normalmente, tenemos que estimar la desviación típica
del estimador (poque no conocemos la varianza de las perturbaciones) y utilizamos esa
estimación para realizar el contraste de hipótesis.
Puesto que hemos sustituido la desviación típica por su estimación (standard error) en el
denominador, el estadístico de contraste sigue una distribución t con n-k grados de libertad
1
(n=nº observaciones, k=nº de parámetros del modelo de regresión).
s.d. de b2 conocida s.d. de b2 desconocida
Discrepancia entre el valor Discrepancia entre el valor

hipotético y la estimación hipotético y la estimación
muestral, en términos de s.d: muestral, en términos de s.e.:
b2 − β 20 b2 − β 20
z= t=
s.d. s.e.
Nivel de significación 5%: Nivel de significación 5%:

rechazo H0: β2 = β2 0si rechazo H0: β2 = β0 2 si
z > 1.96 o z < -1.96 t > tcrit o t < -tcrit
De modo que denominamos al estadístico de contraste , el estadístico t. En el resto de

aspectos, el procedimiento es igual al que hemos descrito.
La clave está en observar el valor crítico de la distribución t, y si el valor del estadístico t en
nuestra muestra es mayor (en valor absoluto) que dicho valor crítico, rechazamos la
1
hipótesis nula. Y si es menor (en valor absoluto) no la rechazamos.
Distribución t: valores críticos
Grados de Dos colas 10% 5% 2% 1% 0.2% 0.1%
libertad Una cola 5% 2.5% 1% 0.5% 0.1% 0.05%
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
… … … … … … …
… … … … … … …
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
… … … … … … …
… … … … … … …
120 1.658 1.980 2.358 2.617 3.160 3.373
∞ 1.645 1.960 2.326 2.576 3.090 3.291
Por esta razón, necesitamos mirar la tabla de valores críticos de la t cuando realizamos
contrastes de significación sobre los coeficientes de la regresión.
19

Distribución t: valores críticos
Grados de Dos colas 10% 5% 2% 1% 0.2% 0.1%
libertad Una cola 5% 2.5% 1% 0.5% 0.1% 0.05%
1 6.314 12.706 31.821 63.657 318.31 636.62
2 2.920 4.303 6.965 9.925 22.327 31.598
3 2.353 3.182 4.541 5.841 10.214 12.924
4 2.132 2.776 3.747 4.604 7.173 8.610
5 2.015 2.571 3.365 4.032 5.893 6.869
… … … … … … …
… … … … … … …
18 1.734 2.101 2.552 2.878 3.610 3.922
19 1.729 2.093 2.539 2.861 3.579 3.883
20 1.725 2.086 2.528 2.845 3.552 3.850
… … … … … … …
… … … … … … …
120 1.658 1.980 2.358 2.617 3.160 3.373
∞ 1.645 1.960 2.326 2.576 3.090 3.291
Nótese que confome aumentan los grados de libertad, el valor crítico converge a 1.96, que
es el valor crítico de una distribución normal. Esto es porque la distribución t converge a
una distribución normal.
24
5. CONTRASTES DE UNA COLA
densidad de hipótesis nula: H0 : β 2 = 0

b2
hipótesis alternativa: H1 : β 2 > 0
0
Supongamos que nos interesan alternativas a la hipótesis nula de la forma H1 : β2 > 0; por
alguna razón, estamos descartando valores del parámetro menores que cero. (Otra
forma de ver esto es que la hipótesis nula sea en realidad H0: β2 ≤ 0; tanto en un caso
como en otro la implementación del contraste es igual).
¿Cómo deberíamos elegir una regla de rechazo de la hipótesis nula?
36

b2
hipótesis alternativa: H1 : β 2 > 0
no rechazar H0 rechazar H0
5%
0 1.65 sd
Primero debemos elegir un nivel de significación o la probabilidad de rechazar H0 cuando
es cierta. En concreto, supongamos que elegimos un nivel de significatividad del 5%, que
es lo más habitual. De este modo, estamos dispuestos a rechazar erróneamente H0 cuando
es verdadera el 5% de las veces.
Fijémonos que, si H1 fuese verdadera, el valor del estadístico t sería positivo. Por tanto, la
región de rechazo será aquélla para la cual los valores del estadístico sean
36
“suficientemente grandes (y positivos)”. A un nivel del 5%, será la que aparece arriba.

b2
hipótesis alternativa: H1 : β 2 < 0
rechazar H0 no rechazar H0
5%
-1.65 sd 0
Utilizando el mismo razonamiento, la región de rechazo estaría a la izquierda si la hipótesis

alternativa fuese H1: β2<0.
36
6. INTERVALOS DE CONFIANZA
Desviación típica conocida

intervalo de confianza al 95%
b2 - 1.96 sd < β2 < b2 + 1.96 sd
b2 - 2.58 sd < β2 < b2 + 2.58 sd
Desviación típica estimada

b2 - tcrit (5%) se < β2 < b2 + tcrit (5%) se
b2 - tcrit (1%) se < β2 < b2 + tcrit (1%) se
Un intervalo de confianza proporciona un intervalo de valores probables para el parámetro

poblacional , y no simplemente una estimación puntual.
El significadode un intervalo de confianza es el siguiente: Si se recogiera un gran número
de muestras aleatorias y se estimase el parámetro β2 con cada una de ellas, el 99% de las
veces estaría dentro del intervalo (b2 - tcrit (1%)se , b2 + tcrit (1%) se). 29
Tema 0
Econometría II 09/10
Estimación por máxima verosimilitud y conceptos de
teoría asintótica
1. ESTIMACIÓN POR MÁXIMA VEROSIMILITUD (MAXIMUM LIKELIHOOD)
La estimación por Máxima Verosimilitud es un método de

optimización que supone que la distribución de probabilidad de las
observaciones es conocida.
La intuición del principio de MV es la siguiente:
1. Dado el supuesto sobre la distribución de las Yi , construimos la

verosimilitud (probabilidad conjunta) de observar la muestra que
tenemos. Esa probabilidad conjunta es una función de una serie de
parámetros desconocidos que caracterizan la distribución.
2. Elegimos como estimadores MV aquellos valores de los parámetros

desconocidos que hacen máxima esa verosimilitud.
Se trata de construir la función de probabilidad conjunta (o

función de verosimilitud) de y1, y2, …. Yn. Suponemos que las
observaciones son independientes y están idénticamente
distribuidas (i.i.d.)
yi ~ f (yi; θ)
 Si, para un determinado valor de θ, la verosimilitud es PEQUEÑA,

es poco probable que ese θ sea el valor correcto que ha generado los
datos que observamos.
 Si, para un determinado valor de θ, la verosimilitud es GRANDE, es

bastante probable que ese θ sea el valor correcto que ha generado los
datos que observamos.
Por tanto tenemos que elegir el θ que maximiza L(θ). Es decir, el

estimador MV será el que satisfaga la condición de primer orden:
Lo cual es equivalente a maximizar el logaritmo de la función de

verosimilitud. Es decir, el estimador MV también satisface:
Generalmente, trabajamos con el

logaritmo de la verosimilitud por
razones prácticas.
EJERCICIO:
Estimador MV en el modelo de regresión lineal bajo el supuesto de normalidad.
( yi  xi ' ) 2
1 
f ( yi | xi ,  ,  )  e 2 2
2 2
Y
=  1
+ 2
X
Y
1 + 2Xi
1
X X
EJERCICIO:
1. Construimos la función de verosimilitud
2. Calculamos el logaritmo de la función de verosimilitud

EJERCICIO:
3. Condiciones de primer orden
4. Estimadores
En este caso, pero

VENTAJA: El estimador MV (ML=maximum likelihood) tiene

propiedades asintóticas óptimas entre todos los estimadores
consistentes y normales asintóticamente.
DESVENTAJA: Podemos tener problemas graves si nos equivocamos

en el supuesto de la distribución. En otras palabras, el estimador
MV depende de forma importante de los supuestos sobre la
distribución.
Otra desventaja: El estimador MV tiene propiedades mediocres en

muestras pequeñas.
EJERCICIO:
Una variable aleatoria X puede tomar valores enteros 0,1,2,3, … La

probabilidad de que X sea igual a un valor específico x, p(x) se escribe:
e   x
p( x ) 
x!
Donde λ es un parámetro desconocido y x! = x ( x-1) (x-2)…..
En una muestra de 3 observaciones, los valores de la variable aleatoria
son 2, 5 y 2:
a) Escribe la función de verosimilitud de la muestra
b) Deriva el estimador MV de λ
2. PROPIEDADES ASINTÓTICAS
• La idea es analizar el comportamiento aproximado del estimador

cuando n → ∞
• En particular, nos interesa saber si los estimadores son

“consistentes” y cuál es su distribución asintótica.
Estas propiedades “sustituyen” de alguna forma a otras que se obtienen en

muestras pequeñas pero que no se cumplen en muchos estimadores de MV. En
particular, en muchos casos, no podemos demostrar “insesgadez”
ni podemos calcular la distribución exacta del estimador (ejemplo: )
1. CONSISTENCIA
1. CONSISTENCIA
1º PROCEDIMIENTO PARA DEMOSTRAR CONSISTENCIA
Se trata de demostrar la
Convergencia en Media
Cuadrática.
1. CONSISTENCIA
2º PROCEDIMIENTO PARA DEMOSTRAR CONSISTENCIA
1. CONSISTENCIA
Los estimadores pueden ser inconsistentes por dos razones:
(1) Convergen a una constante que no coincide con el parámetro

que pretendemos estimar. Es decir, son estimadores
consistentes de otro parámetro, pero no del que nos interesa.
(1) No convergen a una constante. En ese caso no son

estimadores consistentes de nada.
EJERCICIO:
Consistencia del estimador OLS /MV en el modelo de regresión lineal
1º PROCEDIMIENTO
2º PROCEDIMIENTO
2. DISTRIBUCIÓN ASINTÓTICA
Cuando desconocemos la distribución exacta de un estimador, podemos

preguntarnos si en grandes muestras el estimador sigue alguna
distribución conocida. Esto nos permitirá realizar inferencia estadística
(contrastes de hipótesis) cuyos resultados serán válidos en muestras
grandes.
La intuición de la convergencia en distribución es que la distribución

de Zn se va pareciendo cada vez más a la distribución de Z conforme
aumenta el tamaño muestral
Ejemplo:
El estadístico t tiene una distribución t de Student con n-k grados de

libertad. Pero conforme n → ∞ se comporta como una distribución Normal
estándar. Esta es, por tanto, su distribución asintótica
Estadístico t ~ t-Student
a d
Estadístico t ~ N(0,1) o bien Estadístico t → N(0,1)
0.4
Normal (0,1)
t, 10 g.l.
0.3
t, 5 g.l.
0.2
0.1
0
-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6
Una herramienta útil para derivar distribuciones asintóticas es el

Teorema Central del Límite
Igual que ocurre con la Ley de los Grandes Números, existen diferentes
Teoremas Centrales del Límite cuando las Xi no son i.i.d. (se suelen
exigir condiciones de diferentes para que se cumpla).
¿Por qué es útil el Teorema Central del Límite?

Porque nos ayuda a demostrar la validez de los contrastes de hipótesis
en muestras grandes (basados en los estadísticos de contraste que
conocemos) incluso si desconocemos cuál es la verdadera distribución
de los términos de perturbación del modelo.
En el caso del estimador MCO (OLS):

Un Teorema Central del Límite nos dice que aunque las perturbaciones
aleatorias o términos de error del modelo de regresión no sigan una
distribución Normal, si tienen media 0 y varianza finita e igual a σ2
3. PROPIEDADES DEL ESTIMADOR MÁXIMO VEROSÍMIL
(MAXIMUM LIKELIHOOD ESTIMATOR)
Las principales propiedades el estimador MV son propiedades

asintóticas (o en muestras grandes). Se cumplen bajo condiciones
bastante generales (condiciones de regularidad).
 Consistencia
 Distribución asintótica Normal
 Eficiencia asintótica
 Invarianza
4. CONCEPTOS HABITUALES EN ESTIMACIÓN ML
4. CONCEPTOS HABITUALES EN ESTIMACIÓN ML
ESTIMACIÓN DE LA MATRIZ DE VARIANZAS Y COVARIANZAS [-E[H]]-1
Tres métodos:
(1) Si la expresión de [-E[H]]-1 es conocida, podemos evaluar la matriz en el

valor de los parámetros estimados (que sustituirán así a los verdaderos
parámetros que aparecen en la expresión).
(2) Si las esperanzas de los elementos de la matriz Hessiana no son

conocidos (muchas veces esos elementos son funciones no lineales para
las que no es posible calcular su esperanza), entonces podemos evaluar
I=[H]-1 en los valores de los parámetros estimados.
(3) Como E[H] es la varianza de las primeras derivadas, podemos estimarla

mediante la varianza muestral de las primeras derivadas, es decir:
EJERCICIO:
Matriz de información del estimador MV en el modelo de regresión lineal
La matriz de información es:
Los gradientes o scores ya los tenemos calculados

En realidad es
un vector
gradiente (k x 1)
EJERCICIO:

EJERCICIO:

EJERCICIO:
Por tanto:
EJERCICIO:
Supongamos una muestra aleatoria simple X1, X2, …, Xn con función de

distribución de probabilidad definida por:
1) Calcula E(Xi) y Var(Xi)

2) Encuentra el estimador MV de θ
3) ¿Es ΘMV consistente?
4) Encuentra su distribución asintótica
5. EL MÉTODO DELTA
5. EL MÉTODO DELTA
5. EL MÉTODO DELTA
Supongamos que tenemos la estimación MV de un parámetro θ. Pero estamos

interesados en estimar una función de ese parámetro δ=g(θ) y, además,
queremos hacer inferencia (contrastes) sobre el mismo.
Por la propiedad de “Invarianza” de los estimadores MV, podemos estimar
g(.) es no lineal
Pero, ¿cómo estimamos la varianza? El método delta nos da una

solución.
Si θ es un escalar, entonces la expresión de la varianza es:
EJERCICIO:
Supongamos que hemos estimado por MV el parámetro γ y también su

varianza, donde
Pero estamos interesados en el parámetro ρ.

a) ¿Cómo puedo estimar ρ?
b) Obtener la expresión de .
5. EL MÉTODO DELTA
Supongamos que θ es un vector k x 1. Por ejemplo, si k=3
Estamos interesados en estimar una función de los parámetros que forman el

vector,
De nuevo, por la propiedad de invarianza,
Y la estimación de la varianza por el método delta es:
(1 x k) (k x k) (k x 1)
5. EL MÉTODO DELTA
Donde:
Vector gradiente (de derivadas

parciales) y dimensión 3x1
5. EL MÉTODO DELTA
Tema 5
Inferencia y predicción en el modelo de
regresión lineal (II)

3º de Economía
7. BONDAD DE AJUSTE
Recordemos la descomposición de la varianza de Y y la expresión del R2.
Var(Y ) = Var(Yˆ ) + Var(e )
∑ (Y − Y ) = ∑ (Yˆ − Y ) + ∑ e
2 2 2
SCT = SCE + SCR
SCE ∑ (Yî − Y )
2
R =2
=
SCT ∑ (Yi − Y ) 2
La mayoría de los programas econométricos proporcionan junto con el R2 un estadístico

denominado R2 – ajustado. Dado que el R2 – ajustado es el más utilizado en el trabajo
aplicado, vamos a describirlo.
3
7. BONDAD DE AJUSTE
Uno de los defectos del R2 es que nunca puede disminuir cuando añadimos una
nueva variable explicativa en la ecuación de regresión. Esto se debe a que la
“suma de cuadrados de los residuos” nunca aumenta (de hecho, normalmente
suele disminuir) conforme se van añadiendo más variables independientes. En
ocasiones, esas variables que añadimos no son estadísticamente significativas,
por lo tanto el R2 no nos ayuda a seleccionar bien entre especificaciones con
diferente número de variables explicativas (e idéntica variable dependiente).
Uno de los atractivos del R2-ajustado es que penaliza a los modelos que
añaden muchas variables explicativas, contrarrestando de ese modo lo que
ocurre con la SCR.
SCR / (n-k) (n-1)

R2 – ajustado = 1 - = 1 - (1- R2)
SCT / (n-1) (n-k)
8. CONTRASTE F DE BONDAD DE AJUSTE
Y = β 1 + β 2 X 2 + ... + β k X k + u
En un modelo de regresión múltiple, queremos contrastar la siguiente hipótesis nula
H 0 : β 2 = ... = β k = 0
H 1 : al menos un β ≠ 0
Observar:
• hay k parámetros en el modelo y, como incluimos una constante, tenemos k-1
variables explicativas
• la hipótesis nula plantea si estas variables explican la variabilidad de la
4
Y = β 1 + β 2 X 2 + ... + β k X k + u
En un modelo de regresión múltiple, queremos contrastar la siguiente hipótesis nula
H 0 : β 2 = ... = β k = 0
ESTADÍSTICO DE CONTRASTE:
SCE ( k − 1)
F ( k − 1, n − k ) =
SCR ( n − k )
SCE
Grados de ( k − 1)
SCT R 2 ( k − 1)
libertad en el
= =
numerador SCR (1 − R 2
) (n − k )
Grados de (n − k )
libertad en el SCT
denominador 4
Y = β 1 + β 2 X 2 + ... + β k X k + u
H 0 : β 2 = ... = β k = 0
f(F)
SCE ( k − 1)
No rechazo H0 F ( k − 1, n − k ) =
SCR ( n − k )
Rechazo H0
(1 − α) α
0 c=Valor
crítico F
EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + β 3 EDUC + u
H0 : β2 = β3 = 0
Contrastar la SIGNIFICATIVIDAD DE LA REGRESIÓN O LA BONDAD DE

AJUSTE DE LA REGRESIÓN
EJERCICIO: Dependent Variable: HIJOSNA

Method: Least Squares
Date: 04/30/09 Time: 16:17
Sample(adjusted): 4 4353 IF EDAD>42 AND EDADNA<>NA
Included observations: 293 after adjusting endpoints
Variable Coefficient Std. Error t-Statistic Prob.
C 11.21083 0.722210 15.52296 0.0000
EDADNA -0.234873 0.034142 -6.879189 0.0000
EDUC -0.165071 0.038830 -4.251096 0.0000
R-squared 0.202121 Mean dependent var 5.802048
Adjusted R-squared 0.196619 S.D. dependent var 2.799534
S.E. of regression 2.509266 Akaike info criterion 4.688044
Sum squared resid 1825.960 Schwarz criterion 4.725725
Log likelihood -683.7984 F-statistic 36.73188
Durbin-Watson stat 1.610020 Prob(F-statistic) 0.000000
f (F)
SCE (k − 1)
F = F (2, 290)
SCR (n − k ) No rechazo F * =36.73
Valor empírico del estadístico de contraste:
F* = 36.731
Rechazo
Valor crítico que define la región de rechazo para α=0.05
c = F(2,290; α=0.05) = 3 c=3
EJERCICIO:
H0 : β2 = β3 = 0
Contrastamos la SIGNIFICATIVIDAD DE LA REGRESIÓN O LA BONDAD

DE AJUSTE DE LA REGRESIÓN
RESULTADO DEL CONTRASTE:

Rechazo H0 para un α =0.05. Por tanto concluyo que la regresión es significativa
a un nivel de significatividad del 5%
Y = β1 + β 2 X + u
H 0 : β 2 = 0, H 1 : β 2 ≠ 0
En el caso de la regresión simple, el contraste F es equivalente al t. Es

decir, estos contrastes no pueden llevarnos a conclusiones contradictorias.
Vamos a demostrar analíticamente este resultado.
Var(Yˆ ) Var(b1 + b2 X ) Var(b2 X ) b22 Var( X )

R =
2
= = =
Var(Y ) Var(Y ) Var(Y ) Var(Y )
Var(e ) Var(e ) n
R2 = 1 − ⇒ 1 − R2 = su2 = Var(e )
Var(Y ) Var(Y ) n−2
R 2 /( k − 1) R2
F ( k − 1, n − k ) = =
(1 − R 2 ) /( n − k ) (1 − R 2 ) /( n − 2)
b22 Var( X )
Var(Y ) b22 Var( X ) b22 Var( X ) b22
= = = = = t2
Var(e ) 1 n 2
su su2
( n − 2) Var(e )
Var(Y ) nn−2 n nVar( x )
32
EJEMPLOS:
Fcrit , 5% (1,18) = 4.41
t crit , 5% (18) = 2.10
4.41 = 2.10 2
Fcrit ,1% (1,18) = 8.29
t crit ,1% (18) = 2.88
8.29 = 2.88 2
34
EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + u
H0 : β2 = 0
H1 : β 2 ≠ 0
Dependent Variable: HIJOSNA

Date: 04/30/09 Time: 17:18
C 11.05850 0.742177 14.90008 0.0000
EDADNA -0.252275 0.034876 -7.233422 0.0000
Comprobar en este ejemplo que el resultado del contraste t es igual al del contraste F
39
9. CONTRASTE DE UNA COMBINACIÓN LINEAL DE PARÁMETROS
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u
EJEMPLO:
Supongamos que queremos contrastar la siguiente hipótesis nula:
H 0 : β 2 + β3 = c
H1 : β 2 + β 3 ≠= c
Se trata de un contraste de dos colas sobre una combinación lineal de parámetros.

Podemos utilizar el estadístico t para contrastarla
25
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u
H 0 : β 2 + β3 = c
H1 : β 2 + β 3 ≠= c
(b2 + b3 ) − c
t= t n-k
s.e.(b 2 + b3 )
Donde:
s.e(b2 + b2 ) = (var(b2 + b3 ))1/ 2 = (var(b 2) + var(b3 ) + 2 cov(b2 , b3 ))1/ 2

25
EJERCICIO:
Contrasta si el efecto marginal de la educación es estadísticamente igual al efecto de la
edad a la que la mujer tuvo el primer hijo.

Date: 04/30/09 Time: 16:17
C 11.21083 0.722210 15.52296 0.0000
EDADNA -0.234873 0.034142 -6.879189 0.0000
EDUC -0.165071 0.038830 -4.251096 0.0000
Matriz de varianzas-covarianzas de los estimadores

C EDADNA EDUC
C 0.521587 -0.023793 -0.001391
EDADNA -0.023793 0.001166 -0.000159
EDUC -0.001391 -0.000159 0.001508
10. CONTRASTE DE RESTRICCIONES LINEALES MÚLTIPLES
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u
EJEMPLO:
Supongamos que queremos contrastar la capacidad predictiva de un subconjunto
de parámetros. Por ejemplo:
H0 : β3 = β4 = 0
H1 : β 3 ≠ 0 o β 4 ≠ 0 o β3 y β4 ≠ 0
El estadístico que utilizamos para contrastar esta hipótesis nula, se basa en la

comparación de las SCR que se obtienen cuando estimamos el modelo con todas
las variables explicativas (MODELO SIN RESTRINGIR) y cuando lo estimamos
imponiendo las restricciones propuestas en la hipótesis nula (MODELO RESTRINGIDO)
25
MODELO SIN
RESTRINGIR
Y = β1 + β 2 X 2 + β 3 X 3 + β 4 X 4 + u SCRSR
MODELO
RESTRINGIDO Y = β1 + β 2 X 2 + u SCRR
( − ) q
F (q, n-k) = SCR R SCRSR
SCRSR (n-k)
q = grados de libertad del numerador, es decir número de

restricciones (en el ejemplo serían 2)
n-k = grados de libertad del denominador, es decir del modelo
sin restringir
25
EJERCICIO:
HIJOSNA = β1 + β 2 EDADNA + β 3 EDUC + β 4CIUDAD + β 5CASADA + u
Contrasta la significatividad conjunta de las variables “ciudad” y “casada” a un nivel

de significatividad del 5%

Method: Least Squares Dependent Variable: HIJOSNA
Date: 04/30/09 Time: 18:50 Method: Least Squares
Sample(adjusted): 4 4353 IF EDAD>42 AND EDADNA<>NA Date: 04/30/09 Time: 16:17
Included observations: 293 after adjusting endpoints Sample(adjusted): 4 4353 IF EDAD>42 AND EDADNA<>NA
Variable Coefficient Std. Error t-Statistic Prob. Included observations: 293 after adjusting endpoints
C 10.60713 0.808651 13.11707 0.0000 Variable Coefficient Std. Error t-Statistic Prob.
EDADNA -0.235531 0.034111 -6.904769 0.0000
C 11.21083 0.722210 15.52296 0.0000
EDUC -0.151717 0.040792 -3.719258 0.0002
EDADNA -0.234873 0.034142 -6.879189 0.0000
CIUDAD -0.562395 0.321078 -1.751585 0.0809
CASADA 0.960969 0.370942 2.590615 0.0101
EDUC -0.165071 0.038830 -4.251096 0.0000
R-squared 0.227935 Mean dependent var 5.802048 R-squared 0.202121 Mean dependent var 5.802048
Adjusted R-squared 0.217212 S.D. dependent var 2.799534 Adjusted R-squared 0.196619 S.D. dependent var 2.799534
S.E. of regression 2.476897 Akaike info criterion 4.668808 S.E. of regression 2.509266 Akaike info criterion 4.688044
Sum squared resid 1766.886 Schwarz criterion 4.731610 Sum squared resid 1825.960 Schwarz criterion 4.725725
Log likelihood -678.9804 F-statistic 21.25637 Log likelihood -683.7984 F-statistic 36.73188
Durbin-Watson stat 1.526100 Prob(F-statistic) 0.000000 Durbin-Watson stat 1.610020 Prob(F-statistic) 0.000000
Tema 6
Variables artificiales

3º de Economía
1. VARIABLES ARTIFICIALES
COST
Occupational schools
Regular schools
Supón que dispones de una muestra sobre el coste annual (COSTE) y el número de
estudiantes matriculados en educación secundaria (N) de una muestra de centros de
formación secundaria que pueden ser de formación profesional (occupational schools) o
institutos (regular schools).
¿Existen diferencias significativas entre los COSTES de cada tipo de enseñanza?

Una forma de tratar este problema es hacer una regresión para cada uno de los tipos de
centros de enseñanza.
2
COST
β1' Occupational schools
Regular schools
β1
Instituto COSTE = β1 + β2N + u

FP COSTE = β1' + β2N + u
Supondremos que la diferencia entre los gastos se debe al término constante (costes fijos
del centro). Por ejemplo, cabe esperar que β1' > β1 (el gasto fijo de FP es mayor que el de
instituto) Sin embargo, suponemos que el coste marginal, β2 , es el mismo para ambos
6
tipos de enseñanza.
COST
β1' Occupational schools

δ Regular schools
β1

FP COSTE = β1' + β2N + u
Definamos por δ a la diferencia entre los niveles: δ = β1' - β1.
8
COST
β1+δ
δ Regular schools
β1

FP COSTE = β1 + δ + β2N + u
Por tanto, podemos escribir β1' = β1 + δ y reescribir la ecuación del COSTE de FP.
COST
β1+δ
δ Regular schools
β1
Ecuación Combinada COSTE = β1 + δ FP + β2N +u

FP = 0 Instituto COSTE = β1 + β2N + u
FP = 1 FP COSTE = β1 + δ + β2N + u
Si se define una variable FP que tome el valor 0 si el individuo está en el instituto y 1 si está
en FP, es posible combinar ambas ecuaciones en una sola.
FP recibe el nombre de variable artificial
10
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
Occupational schools Regular schools
Consideremos ahora datos reales de un estudio del Banco Mundial sobre 74 escuelas
secundarias de Shanghai.
12
Centro Tipo COSTE N FP
1 FP 345,000 623 1
2 FP 537,000 653 1
3 Instituto 170,000 400 0
4 FP 526.000 663 1
5 Instituto 100,000 563 0
6 Instituto 28,000 236 0
7 Instituto 160,000 307 0
8 FP 45,000 173 1
9 FP 120,000 146 1
10 FP 61,000 99 1
Esta tabla muestra las 10 primeras observaciones y cómo se define la variable artificial. El
COSTE anual de cada centro se mide en yuans y N es el número de estudiantes en cada
centro.
13
. reg COSTE N FP

---------+------------------------------ F( 2, 71) = 56.86
Model | 9.0582e+11 2 4.5291e+11 Prob > F = 0.0000
Residual | 5.6553e+11 71 7.9652e+09 R-squared = 0.6156
---------+------------------------------ Adj R-squared = 0.6048
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 89248
------------------------------------------------------------------------------
COSTE | Coef. Std. Err. t P>|t| [95% Conf.
Interval]
---------+--------------------------------------------------------------------
N | 331.4493 39.75844 8.337 0.000 252.1732 410.7254
FP | 133259.1 20827.59 6.398 0.000 91730.06 174788.1
_cons | -33612.55 23573.47 -1.426 0.158 -80616.71 13391.61
------------------------------------------------------------------------------
Regresión COSTE sobre N y FP, tratando FP como cualquier otra variable
15
^
COSTE = -34,000 + 133,000FP + 331N
Instituto ^
COSTE = -34,000 + 331N
(FP = 0)
FP ^
COSTE = -34,000 + 133,000 + 331N
(FP = 1)
= 99,000 + 331N
Para interpretar el efecto de la variable FP resulta útil escribir el modelo estimado para los dos
posibles valores de esta variable:
- Si FP toma el valor 0, se obtiene la ecuación para Institutos, donde el coste marginal por
estudiante año es de 331 yuan. El hecho de que la constante sea negativa no tiene sentido y
puede estar indicando un problema de mala especificación
- Si FP = 1, el coste inicial de FP alcanza los 99,000 yuan. El coste marginal por estudiante
es el mismo, pues así lo hemos supuesto. 21
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
-100000
N
Fijaos que sólo hemos estimado una ecuación. Pero esta ecuación “anida” una doble
estructura, es decir, supone que la recta que explica los costes de los institutos es
diferente a la que explica los costes de los centros de FP.
22
. reg COSTE N FP

---------+------------------------------ F( 2, 71) = 56.86
Model | 9.0582e+11 2 4.5291e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6048
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 89248
------------------------------------------------------------------------------
COSTE | Coef. Std. Err. t P>|t| [95% Conf.Interval]
---------+--------------------------------------------------------------------
N | 331.4493 39.75844 8.337 0.000 252.1732 410.7254
FP | 133259.1 20827.59 6.398 0.000 91730.06 174788.1
_cons | -33612.55 23573.47 -1.426 0.158 -80616.71 13391.61
------------------------------------------------------------------------------
Una vez analizados los coeficientes, debería realizarse un análisis de la significatividad de

las variables.
En particular, evaluaremos si existen diferencias significativas en los costes de instalación
de un centro de FP con respecto a un instituto normal. Es decir, contrastaremos H0: δ = 0
frente a H1: δ ≠ 0.
El t-ratio de N es 8.34, por lo que es posible concluir que el coste marginal es

significativamente distinto de cero. 25
2. VARIABLES ARTIFICIALES CON MÁS DE DOS CATEGORIAS
• ¿Qué pasa si la variable artificial tiene más de dos categorías? En el caso anterior, los
centros se clasificaban en FP o instituto regular. Pero supongamos que hay dos tipos de
centros de FP y dos tipos de institutos regulares.
- Institutos regulares:
los tradicionales
los vocacionales: introducen materias más específicas.
- Formación profesional (FP):
- técnicos
- manuales.
• Por tanto, lo que tenemos ahora son 4 categorías de centros: FP técnico, FP trabajador
manual, Instituto regular e instituto vocacional (éste es el caso de Shanghai). La forma
tradicional de trabajar es elegir una categoría de referencia y construir variables artificiales
para las restantes.
Como categoría de referencia definiremos el instituto regular.
• Una vez definida la categoría de referencia, se definen las otras variables artificiales. Por
ejemplo TEC toma el valor 1 si el centro es una FP técnica y cero en otro caso. Los
parámetros de cada una de las variables artificiales reflejan el cambio de coste anual del
instituto con respecto a la categoría de referencia. 1
COST = β1 + δTTEC + δWTRAB + δVVOC + β2N + u
Instituto regular COST = β1 + β2N + u

(TEC = TRAB = VOC = 0)
FP Técnica COST = (β1 + δT) + β2N + u

(TEC = 1; TRAB = VOC = 0)
FP Manual COST = (β1 + δW) + β2N + u

(TRAB = 1; TEC = VOC = 0)
Inst. Vocacional COST = (β1 + δV) + β2N + u

(VOC = 1; TEC = TRAB = 0)
16
Centro Tipo COST N TEC TRAB VOC
1 FP TEC 345,000 623 1 0 0

2 FP TEC 537,000 653 1 0 0
3 Inst Regular 170,000 400 0 0 0
4 FP Trab 526.000 663 0 1 0
5 Inst Regular 100,000 563 0 0 0
6 Inst. Voc. 28,000 236 0 0 1
7 Inst Voc. 160,000 307 0 0 1
8 FP TEC 45,000 173 1 0 0
9 FP TEC 120,000 146 1 0 0
10 FP Trab 61,000 99 0 1 0
19
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
Tec Voc Regular Trab manual
20
. reg COST N TEC TRAB VOC

---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578
------------------------------------------------------------------------------
COST | Coef. Std. Err. t P>|t| [95% Conf. Interval]
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------
¿Qué indica el coeficiente estimado de N?
¿Cómo se interpretan los coeficientes estimados de TEC, TRAB y VOC?
¿Y la constante?
21
^
COST = -55,000 + 154,000TEC + 143,000TRAB + 53,000VOC + 343N
^
Instituto regular COST = -55,000 + 343N
(TEC = TRAB = VOC = 0)
^
FP Técnica COST = -55,000 + 154,000 + 343N
(TEC = 1; TRAB = VOC = 0) = 99,000 + 343N
^
FP TRAB COST = -55,000 + 143,000 + 343N
(TRAB = 1; TEC = VOC = 0) = 88,000 + 343N
Inst. Vocacional ^
COST = -55,000 + 53,000 + 343N
(VOC = 1; TEC = TRAB = 0) = -2,000 + 343N
Aquí derivamos los costes implícitos en cada tipo de centro de enseñanza.
Observar que se ha asumido que el coste marginal por alumno es el mismo en todos los
centros. Este es un supuesto que no tiene por qué ser cierto
28
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
-100000
N
Tec Voc Regular Trab manual
30

---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------
¿Cómo contrastarías H0: δT = δT= δV = 0?
¿Cómo interpretas este contraste? (piensa qué concluirías si no rechazases la hipótesis nula)
Vamos a implementarlo…..
37

---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 154110.9 26760.41 5.759 0.000 100725.3 207496.4
TRAB | 143362.4 27852.8 5.147 0.000 87797.57 198927.2
VOC | 53228.64 31061.65 1.714 0.091 -8737.646 115194.9
_cons | -54893.09 26673.08 -2.058 0.043 -108104.4 -1681.748
------------------------------------------------------------------------------
La suma de cuadrados en el modelo no restringido es 5.41×1011.
38
. reg COST N

---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3856
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 1.1e+05
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 339.0432 49.55144 6.842 0.000 240.2642 437.8222
_cons | 23953.3 27167.96 0.882 0.381 -30205.04 78111.65
------------------------------------------------------------------------------
Y en el modelo restringido 8.92×1011.
39
. reg COST N

---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3856

---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578
(8.92 × 1011 − 5.41× 1011 ) / 3

F (3,69) = = 14.92 F (3,60)crit, 0.1% = 6.17
5.41× 1011 / 69
El numerador lo divido por tres porque es el número de restricciones que impongo, o el
número de grados de libertad que pierdo cuando estimo los tres coeficientes del modelo no
restingido.
El denominador es el numero de observaciones, 74, menos el total de parámetros
44
estimados en el modelo no restringido: 5.
3. LOS CAMBIOS EN LA CATEGORÍA DE REFERENCIA
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
Tec Voc Regular Trab
¿Qué sucede cuando utilizamos otra categoría de referencia? En el análisis anterior, la

categoría de referencia era el Instituto regular, y los coeficientes de las otras categorías
indicaban los cambios en costes de los distintos centros con respecto a la categoría de
referencia. 1
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
Tec Voc Regular Trab
Pero, ¿qué sucedería si cambiásemos la categoría de referencia? Por ejemplo, supongamos

que queremos ver los cambios en costes que se producen con respecto a los centros de FP
que forman trabajadores manuales.
Para ello, se utilizaría como categoría de referencia los centros de FP Trab Manual
1
COST = β1 + δTTEC + δVVOC + δGREG + β2N + u
Observar que ahora la categoría de referencia es el FP Trab Manual, por lo que es necesario
crear una nueva variable artificial para los Institutos regulares, introduciéndola al modelo, y
quitar la variable artificial de FP Trab manual.
6
COST = β1 + δTTEC + δVVOC + δGREG + β2N + u
FP Trab Manual COST = β1 + β2N + u

(TEC = VOC = REG = 0)
FP TEC COST = (β1 + δT) + β2N + u

(TEC = 1; VOC = REG = 0)
Inst. Voc COST = (β1 + δV) + β2N + u

(VOC = 1; TEC = REG = 0)
Inst. Reg. COST = (β1 + δG) + β2N + u

(REG = 1; TEC = VOC = 0)
Derivamos la expresión de los costes para cada tipo de centro. Los coeficientes δ se
interpretan como incrementos (decrementos) de costes con respecto a la categoría de
referencia.
10
School Type COST N TEC VOC REG
1 TEC 345,000 623 1 0 0

2 TEC 537,000 653 1 0 0
3 REG 170,000 400 0 0 1
4 Trab 526.000 663 0 0 0
5 REG 100,000 563 0 0 1
6 Voc 28,000 236 0 1 0
7 Voc 160,000 307 0 1 0
8 TEC 45,000 173 1 0 0
9 TEC 120,000 146 1 0 0
10 Trab 61,000 99 0 0 0
Volvemos a la muestra de datos que utilizamos anteriormente.
12
. reg COST N TEC VOC REG

---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 10748.51 30524.87 0.352 0.726 -50146.93 71643.95
VOC | -90133.74 33984.22 -2.652 0.010 -157930.4 -22337.07
REG | -143362.4 27852.8 -5.147 0.000 -198927.2 -87797.57
_cons | 88469.29 28849.56 3.067 0.003 30916.01 146022.6
------------------------------------------------------------------------------
13
^
COST = 88,000 + 11,000TEC - 90,000VOC - 143,000REG + 343N
^
FP Trab Manual COST = 88,000 + 343N
(TEC = VOC = REG = 0)
^
FP TEC COST = 88,000 + 11,000 + 343N
(TEC = 1; VOC = REG = 0) = 99,000 + 343N
^
Inst. Voc COST = 88,000 - 90,000 + 343N
(VOC = 1; TEC = REG = 0) = -2,000 + 343N
Inst. Reg. ^
COST = 88,000 - 143,000 + 343N
(REG = 1; TEC = VOC = 0) = -55,000 + 343N
Observar que la categoría de referencia no afecta a los resultados, que son iguales al caso
anterior.
Tampoco se ve afectado el ajuste de la regresión por el cambio en la categoría de referencia
17
. reg COST N TEC VOC REG

---------+------------------------------ F( 4, 69) = 29.63
Model | 9.2996e+11 4 2.3249e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6107
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 88578
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 342.6335 40.2195 8.519 0.000 262.3978 422.8692
TEC | 10748.51 30524.87 0.352 0.726 -50146.93 71643.95
VOC | -90133.74 33984.22 -2.652 0.010 -157930.4 -22337.07
REG | -143362.4 27852.8 -5.147 0.000 -198927.2 -87797.57
_cons | 88469.29 28849.56 3.067 0.003 30916.01 146022.6
------------------------------------------------------------------------------
Pero los contrastes t sí se ven afectados. En particular, la interpretación de la hipótesis

nula ahora es distinta ¿Cuál es esta interpretación?
Por ejemplo, cómo se interpreta la nula del estadístico t para FP TEC.
22
4. VARIABLES ARTIFICIALES Y LA PENDIENTE DE LA CURVA DE

REGRESIÓN
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
-100000
N
Institutos FP Institutos Regulares
En este gráfico, se muestran los costes de los institutos de FP y los regulares, con las
rectas de regresión donde lo único que cambia entre uno y otro es la ordenada en el origen.
1
REGRESIÓN
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
-100000
N
Institutos FP Institutos Regulares
Sin embargo, ¿no sería más razonable pensar que también el coste marginal por alumno es
distinto entre los dos tipos de institutos? La formación del profesorado, los materiales de
enseñanza necesarios, la infraestructura, que es distinta entre los centros, puede llevar a
que el coste marginal por alumno no sea el mismo entre los dos tipos de centros
1

REGRESIÓN
COST = β1 + δ FP + β2N + λN*FP + u
Para suavizar el supuesto de costes marginales iguales, podemos especificar la regresión

incluyendo una variable artificial que multiplique a la variable número de alumnos.
Decimos que la variable N*FP recoge una interacción de variables.
Observar que FP toma el valor 1 cuando el centro es de FP y cero en otro caso. Por lo tanto,
el coeficiente λ se activa cuando paso de instituto regular a FP. 6
REGRESIÓN
COST = β1 + δ FP + β2N + λN*FP + u
Inst. Regular COST = β1 + β2N + u

(FP = NFP = 0)
Inst. FP COST = (β1 + δ ) + (β2 + λ )N + u

(FP = 1; NFP = N)

REGRESIÓN
COST
FP
λ
Regular
δ
β1 +δ
β1
En este gráfico se ilustra como cambian los coeficientes cuando pasamos del instituto
regular a la FP.
10
REGRESIÓN
School Type COST N FP N*FP
1 FP 345,000 623 1 623

2 FP 537,000 653 1 653
3 Regular 170,000 400 0 0
4 FP 526.000 663 1 663
5 Regular 100,000 563 0 0
6 Regular 28,000 236 0 0
7 Regular 160,000 307 0 0
8 FP 45,000 173 1 173
9 FP 120,000 146 1 146
10 FP 61,000 99 1 99
Los primeros 10 datos del análisis serían.
11

REGRESIÓN
. reg COST N FP NFP

---------+------------------------------ F( 3, 70) = 49.64
Model | 1.0009e+12 3 3.3363e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6666
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 81980
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 152.2982 60.01932 2.537 0.013 32.59349 272.003
FP | -3501.177 41085.46 -0.085 0.932 -85443.55 78441.19
NFP | 284.4786 75.63211 3.761 0.000 133.6351 435.3221
_cons | 51475.25 31314.84 1.644 0.105 -10980.24 113930.7
------------------------------------------------------------------------------
Este es el resultado de estimar el modelo para los 74 datos de Shanghai del estudio del
Banco Mundial.
12
REGRESIÓN
^ = 51,000 - 4,000 FP + 152N + 284N*FP

COST
Regular ^
COST = 51,000 + 152N
(FP = NFP = 0)
^
FP COST = 51,000 - 4,000 + 152N + 284N
(FP = 1; NFP = N) = 47,000 + 436N
El coste fijo inicial de FP es menor que el de un Instituto regular, pero el coste marginal es
mayor.
15

REGRESIÓN
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
16
REGRESIÓN
. reg COST N FP NFP

---------+------------------------------ F( 3, 70) = 49.64
Model | 1.0009e+12 3 3.3363e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6666
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 81980
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 152.2982 60.01932 2.537 0.013 32.59349 272.003
FP | -3501.177 41085.46 -0.085 0.932 -85443.55 78441.19
NFP | 284.4786 75.63211 3.761 0.000 133.6351 435.3221
_cons | 51475.25 31314.84 1.644 0.105 -10980.24 113930.7
------------------------------------------------------------------------------
¿Cómo sabríamos si el incremento marginal de costes del Instituto Regular respecto al de

FP es significativo? ¿Cuál sería la hipótesis nula a contrastar en este caso? ¿y el resultado
del contraste?
20

REGRESIÓN
. reg COST N FP NFP

---------+------------------------------ F( 3, 70) = 49.64
Model | 1.0009e+12 3 3.3363e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6666
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 81980
------------------------------------------------------------------------------
. reg COST N

---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3856
¿Cómo contrastamos si el tipo de centro afecta a la estructura de costes?

- Escribe el estadístico de contraste.
- ¿Cuál es el modelo restringido? ¿y el modelo sin restringir?
23
REGRESIÓN
. reg COST N FP NFP

---------+------------------------------ F( 3, 70) = 49.64
Model | 1.0009e+12 3 3.3363e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6666
Total | 1.4713e+12 73 2.0155e+10 Root MSE = 81980
------------------------------------------------------------------------------
. reg COST N

---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3856
(8.92 × 1011 − 4.70 × 1011 ) / 2

F (2,70) = = 31.4 F (2,60)crit, 0.1% = 7.8
4.70 × 1011 / 70
Resultado del contraste:
¿Qué concluimos?
29
5. EL CONTRASTE DE CHOW
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Muchas veces, en los análisis de regresión hay dos tipos de datos: hombres y mujeres;
norte y sur; FP e institutos regulares. Como consecuencia de ello, surge la pregunta de si
es más adecuado estimar una única regresión para ambos conjuntos de datos, o dos
regresiones, una para cada conjunto.
El contraste de Chow sirve justamente para resolver este problema.
1
. reg COST N

---------+------------------------------ F( 1, 72) = 46.82
Model | 5.7974e+11 1 5.7974e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3856
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 339.0432 49.55144 6.842 0.000 240.2642 437.8222
_cons | 23953.3 27167.96 0.882 0.381 -30205.04 78111.65
------------------------------------------------------------------------------
Este es el resultado si realizamos una única regresión para los dos tipos de centros de
enseñanza. Observar que el supuesto que se está haciendo es que los parámetros, es decir
la constante y el coste marginal, son iguales para ambos centros.
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
Occupational schools Regular schools L3

Dado que solamente estimamos una regresión, el ajuste estaría dado por esta recta
5
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Observemos que si diferenciamos las observaciones entre FP y regular, parece existir

diferencia entre las observaciones de uno y otro centro. Entonces, ¿por qué suponer para
ambas los mismos parámetros (o sea, ajustar una sola regresión)?
6
. reg COST N if FP==1

---------+------------------------------ F( 1, 32) = 55.52
Model | 6.0538e+11 1 6.0538e+11 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.6229
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 436.7769 58.62085 7.451 0.000 317.3701 556.1836
_cons | 47974.07 33879.03 1.416 0.166 -21035.26 116983.4
------------------------------------------------------------------------------
Este es el resultado de estimar la regresión para los centros de FP
7
. reg COST N if FP==0

---------+------------------------------ F( 1, 38) = 13.53
Model | 4.3273e+10 1 4.3273e+10 Prob > F = 0.0007
---------+------------------------------ Adj R-squared = 0.2432
Total | 1.6477e+11 39 4.2249e+09 Root MSE = 56545
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
N | 152.2982 41.39782 3.679 0.001 68.49275 236.1037
_cons | 51475.25 21599.14 2.383 0.022 7750.064 95200.43
------------------------------------------------------------------------------
Y éste, para los institutos regulares:

PREGUNTA: ¿Los coeficientes estimados de las dos regresiones pueden suponerse
iguales?
8
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Aquí presentamos las regresiones estimadas para cada una de las submuestras
9
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Y aquí introducimos el ajuste por submuestras y, además, el que surge de realizar una sola
regresión para ambas submuestras. La pregunta que debemos hacernos es si está bien
realizar un solo ajuste para ambas submuestras a partir de estos resultados.
10
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Este gráfico muestra los residuos para la submuestra de FP si realizamos una regresión
para cada submuestra.
11
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Y estos son los residuos que obtendríamos para la submuestra de FP si sólo realizamos
una única regresión para ambas submuestras. Naturalmente, la idea sería hacer una
regresión para ambas submuestras o dos regresiones, una por submuestra, dependiendo
del tamaño de dichos residuos. 12
700000
600000
500000
SCR = 3.49 x 1011
400000
COST
700000
300000
600000
200000
500000
100000
400000
COST
0
0 200
300000 400 600 800 1000 1200 1400
N
200000
100000 SCR = 5.55 x 1011
0
0 200 400 600 800 1000 1200 1400
Para clarificar, separamos ambos tipos de residuos y calculamos su suma cuadrática.
N submuestra. Esto siempre debe
Observar que tenemos menos residuos en la regresión por
ser así, ¿por qué?
13
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Es posible hacer lo mismo para los residuos de los institutos regulares...pensadlo

vosotros...
17
SUMA DE CUADRADOS DE LOS RESIDUOS (x1011)
Regresión FP Regular Total
SCR1 SCR2 (SCR1+SCR2)

Separado 3.49 1.22 4.71
SCRP
Junto (Pooled) 5.55 3.36 8.91
Lo que obtendríamos de este análisis es este cuadro
20
700000
600000
500000
400000
COST
300000
200000
100000
0
0 200 400 600 800 1000 1200 1400
N
FP Regular
Esta gráfica ilustra cómo se obtiene la SCRp.
24
SUMA DE CUADRADOS DE LOS RESIDUOS (x1011)
Regresión FP Regular Total
SCR1 SCR2 (SCR1+SCR2)

Separado 3.49 1.22 4.71
SCRP
Pooled 5.55 3.36 8.91
La cuestión fundamental es si la reducción de la suma de cuadrados residuales ha sido

significativa cuando pasamos de la regresión conjunta a las individuales. Esta es la idea del
contraste de Chow.
25
SCRP
SCR1
SCR2
El contraste de Chow se basa en un test F donde se analiza el “cambio porcentual” de la

suma de cuadrados residuales cuando pasamos de dos regresiones (una para cada submuestra)
a una sola regresión para toda la muestra.
F(k, n – 2k) = (SCRP − [SCR1 + SCR2 ]) / k

(SCR1 + SCR2 ) /(n − 2k )
(8.91× 1011 − [ 3.49 × 1011 + 1.22 × 1011 ]) / 2

F (2,70) = = 31.2
(3.49 × 1011 + 1.22 × 1011 ) / 70
F (2,60)crit, 0.1% = 7.8
El resultado dice que rechazo la nula, por tanto ¿qué concluyo?
26
Tema 7
Problemas de especificación y problemas
con los datos

3º de Economía
PROBLEMAS DE ESPECIFICACIÓN
Consecuencias de la Mala Especificación
Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado
Yˆ = b1 + b2 X 2
Yˆ = b1 + b2 X 2
+ b3 X 3
¿Qué ocurre en cada uno de estos casos?

1
PROBLEMAS DE ESPECIFICACIÓN
Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado
Yˆ = b1 + b2 X 2 Sin problemas ?
Yˆ = b1 + b2 X 2
+ b3 X 3
? Sin problemas
¿Qué ocurre en cada uno de estos casos?

5
1. OMISIÓN DE VARIABLES RELEVANTES
Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado
Estimadores sesgados (en

Yˆ = b1 + b2 X 2 Sin problemas
general). Errores
estándar no válidos
Yˆ = b1 + b2 X 2
+ b3 X 3 Sin problemas
7
MODELO VERDADERO Y = β1 + β 2 X 2 + β 3 X 3 + u
MODELO AJUSTADO Yˆ = b1 + b2 X 2
Cov( X 2 ,Y ) Cov( X 2 , [ β 1 + β 2 X 2 + β 3 X 3 + u])

b2 = =
Var( X 2) Var( X 2)
Cov( X 2 , β 1 ) + Cov( X 2 , β 2 X 2 ) + Cov( X 2 , β 3 X 3 ) + Cov( X 2 , u)
=
Var( X 2)
0 + β 2Cov( X 2 , X 2 ) + β 3Cov( X 2 , X 3 ) + Cov( X 2 , u)
=
Var( X 2)
Cov( X 2 , X 3 ) Cov( X 2 , u)
= β2 + β3 +
Var( X 2) Var( X 2)
Vamos a demostrar que el estimador de MCO es sesgado.
12
Cov( X 2 ,Y ) Cov( X 2 , [ β 1 + β 2 X 2 + β 3 X 3 + u])

b2 = =
Var( X 2) Var( X 2)
Cov( X 2 , β 1 ) + Cov( X 2 , β 2 X 2 ) + Cov( X 2 , β 3 X 3 ) + Cov( X 2 , u)
=
Var( X 2)
0 + β 2Cov( X 2 , X 2 ) + β 3Cov( X 2 , X 3 ) + Cov( X 2 , u)
=
Var( X 2)
Cov( X 2 , X 3 ) Cov( X 2 , u)
= β2 + β3 +
Var( X 2) Var( X 2)
Por tanto, b2 tiene tres componentes.
15
Cov( X 2 , Y ) Cov( X 2 , X 3 ) Cov( X 2 , u)
b2 = = β2 + β3 +
Var( X 2) Var( X 2) Var( X 2)
 Cov( X 2 , X 3 ) Cov( X 2 , u) 
E (b2 ) = E  β 2 + β 3 + 
 Var( X 2) Var( X 2) 
 Cov( X 2 , X 3 )   Cov( X 2 , u) 
= E ( β 2 ) + E β 3  + E 
 Var( X 2)   Var( X 2) 
Cov( X 2 , X 3 )
= β2 + β3
Var( X 2)
Para investigar el sesgo tomamos el valor esperado de b2.
16
Cov( X 2 , Y ) Cov( X 2 , X 3 ) Cov( X 2 , u)
b2 = = β2 + β3 +
Var( X 2) Var( X 2) Var( X 2)
 Cov( X 2 , X 3 ) Cov( X 2 , u) 
E (b2 ) = E  β 2 + β 3 + 
 Var( X 2) Var( X 2) 
 Cov( X 2 , X 3 )   Cov( X 2 , u) 
= E ( β 2 ) + E β 3  + E 
 Var( X 2)   Var( X 2) 
Cov( X 2 , X 3 )
= β2 + β3
Var( X 2)
Por tanto, b2 es sesgado por la cantidad β3 Cov(X2, X3)/Var(X2). Además, los errores
estándar y los contrastes de hipótesis realizados a partir de ellos no son válidos.
18
Cov( X 2 , X 3 )
E (b2 ) = β 2 + β 3
Var( X 2)
Y
efecto de X3
efecto directo de
X2, manteniendo
β2 β3
X3 constante
efecto aparente de X2,
oculto el efecto de X3
X2 X3
Intuición….
La importancia del efecto aparente depende de: la fuerza del efecto de de X3 en Y, dado por
β3, y de la relación entre X2 y X3. 9
. reg S ASVABC SM
Source | SS df MS Number de obs = 570

---------+------------------------------ F( 2, 567) = 156.81
Model | 1230.2039 2 615.101949 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3539
Total | 3454.24737 569 6.07073351 Root MSE = 1.9805
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
Para ilustrar, veamos el efecto sobre el nivel de estudios, S, del resultado de un test de
inteligencia, ASVABC, y del nivel de estudios del padre, SM.
¿Qué pasa si omitimos SM? Trataremos de predecir su sesgo.
20
. reg S ASVABC SM
. cor SM ASVABC
Source | SS df MS Number de obs =
(obs=570) 570
---------+------------------------------ F( 2, 567) = 156.81
Model | 1230.2039 2 615.101949 Prob
| > F SM = 0.0000
ASVABC
--------+------------------
---------+------------------------------ Adj R-squared
SM| 1.0000 = 0.3539
Total | 3454.24737 569 6.07073351 Root 0.3819
ASVABC| MSE = 1.9805
1.0000
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
23
. reg S ASVABC

---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
S = β 1 + β 2 ASVABC + β 3 SM + u
Cov( ASVABC , SM )
E (b2 ) = β 2 + β 3
Var( ASVABC )
Aquí obtenemos la regresión omitiendo SM.
24
. reg S ASVABC SM
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
. reg S ASVABC
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
25
. reg S SM

---------+------------------------------ F( 1, 568) = 83.59
Model | 443.110436 1 443.110436 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.1267
Total | 3454.24737 569 6.07073351 Root MSE = 2.3025
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
SM | .3445198 .0376833 9.142 0.000 .2705041 .4185354
_cons | 9.506491 .4495754 21.145 0.000 8.623458 10.38952
------------------------------------------------------------------------------
S = β 1 + β 2 ASVABC + β 3 SM + u
Cov( ASVABC , SM )
E (b3 ) = β 3 + β 2
Var( SM )
Aquí omitimos ASVABC en vez de SM. Esperaríamos quet b3 tuviera un sesgo positivo.
Anticipamos que β2 es positivo y sabemos que las covarianzas y varianzas son positivas.
26
. reg S ASVABC SM
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1381062 .0097494 14.166 0.000 .1189567 .1572556
SM | .154783 .0350728 4.413 0.000 .0858946 .2236715
_cons | 4.791277 .5102431 9.390 0.000 3.78908 5.793475
------------------------------------------------------------------------------
. reg S SM
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
SM | .3445198 .0376833 9.142 0.000 .2705041 .4185354
_cons | 9.506491 .4495754 21.145 0.000 8.623458 10.38952
------------------------------------------------------------------------------
En este caso, el sesgo es dramático.
27
. reg S ASVABC SM
---------+------------------------------ F( 2, 567) = 156.81
Model | 1230.2039 2 615.101949 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3539
Total | 3454.24737 569 6.07073351 Root MSE = 1.9805
. reg S ASVABC
---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125
. reg S SM
---------+------------------------------ F( 1, 568) = 83.59
Model | 443.110436 1 443.110436 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.1267
Total | 3454.24737 569 6.07073351 Root MSE = 2.3025
Observemos cómo se comporta el R2.
28
2. INCLUSIÓN DE VARIABLES IRRELEVANTES
Modelo Verdadero
Y = β1 + β 2 X 2 + u Y = β1 + β 2 X 2 + β 3 X 3 + u
Modelo Ajustado
Estimadores sesgados (en

Yˆ = b1 + b2 X 2 Sin problemas
general). Errores
estándar no válidos
Estimadores
Yˆ = b1 + b2 X 2 insesgados.
Errores estándar Sin problemas
+ b3 X 3 grandes
MODELO VERDADERO Y = β1 + β 2 X 2 + u
MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3
Veamos cómo puede analizarse este problema
3
MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3
Y = β1 + β 2 X 2 + 0 X 3 + u
Reescribamos el Modelo Verdadero incluyendo X3 como variable explicativa con

coeficiente igual a 0. Por tanto, b2 es un estimador de β2 y b3 de 0. Por tanto, ocurrirá que
no rechazaremos la hipótesis nula de que el efecto de X3 es cero.
MODELO AJUSTADO
Yˆ = b1 + b2 X 2 + b3 X 3
Y = β1 + β 2 X 2 + 0 X 3 + u
σ u2 1
varianza poblacional b2 = σ b22 = ×
nVar( X 2 ) 1 − rX22 , X 3
Observar que la varianza poblacional de b2 será mayor que en el modelo original
El error standard sigue siendo válido, porque el modelo está correctamente especificado,
pero será mayor que el que se obtiene si la variable irrelevante no es incluida.
5
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
Supongamos que Y depende de X2, ..., Xk pero no se disponden datos de X2.

Eliminar esta variable daría lugar a estimadores sesgados, como vimos anteriormente.
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
X 2 = λ + µZ
Algunas veces puede utilizarse una variable que aproxime a X2. Una variable proxy es
aquella que se supone está relacionada de forma lineal con la variable que falta. Por
ejemplo, Z puede actuar como si fuera X2.
3
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
X 2 = λ + µZ
Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
X 2 = λ + µZ
Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u
1. Las estimaciones de los coeficientes correspondientes a X3, ..., Xk serán los mismos
que si hiciésemos la regresión de Y frente a X2, ..., Xk.
2. Los errores estándar y los t -ratios de los coeficientes de X3, ..., Xk son los mismos que
si hiciésemos la regresión de Y frente a X2, ..., Xk.
3. R2 será el mismo que si hiciésemos la regresión de Y frente a X2, ..., Xk.
4. El coeficiente de Z será β2µ .
5. Sin embargo, el t-ratio de Z será el mismo que el de X2 si hubiésemos hecho la

regresión de Y frente a X2, ..., Xk, y por tanto es posible analizar la significatividad de X2.
6. No es posible obtener un estimador de β1 .
3. VARIABLES PROXY
Y = β 1 + β 2 X 2 + β 3 X 3 + ... + β k X k + u
X 2 = λ + µZ
Y = β 1 + β 2 (λ + µZ ) + β 3 X 3 + ... + β k X k + u
= ( β 1 + β 2 λ ) + β 2 µZ + β 3 X 3 + ... + β k X k + u
Si Z es una mala proxy de X2, entonces tenemos lo que en la literatura se conoce como
problemas de errores de medida
(ESTO CAUSA PROBLEMAS GRAVES EN LA ESTIMACIÓN. LO VERÉIS EN
ECONOMETRÍA I)
14
3. VARIABLES PROXY
Ejemplo
S = β 1 + β 2 ASVABC + β 3 INDEX + u
INDEX = λ + µ1 SM + µ 2 SF
Supongamos que queremos estimar el nivel educativo que puede alcanzar un individuo a
partir de su habilidad y del background familiar.
ASVABC (resultado de un test de inteligencia) se utiliza como medida para la habilidad

cognoscitiva. Pero, como no observamos INDEX, buscamos un conjunto de variables para
aproximarlo.
Este family background, INDEX, lo aproximaremos por el nivel de estudios del padre y de la
madre, SM y SF.
17
3. VARIABLES PROXY
Ejemplo
S = β 1 + β 2 ASVABC + β 3 INDEX + u
INDEX = λ + µ1 SM + µ 2 SF
S = β 1 + β 2 ASVABC + β 3 (λ + µ1 SM + µ 2 SF ) + u
= ( β 1 + β 3 λ ) + β 2 ASVABC + β 3 µ1 SM + β 3 µ 2 SF + u
18
3. VARIABLES PROXY
Ejemplo
. reg S ASVABC SM SF

---------+------------------------------ F( 3, 566) = 110.83
Model | 1278.24153 3 426.080508 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3667
Total | 3454.24737 569 6.07073351 Root MSE = 1.9607
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
SM | .069403 .0422974 1.641 0.101 -.013676 .152482
SF | .1102684 .0311948 3.535 0.000 .0489967 .1715401
_cons | 4.914654 .5063527 9.706 0.000 3.920094 5.909214
------------------------------------------------------------------------------
19
3. VARIABLES PROXY
Ejemplo
. reg S ASVABC

---------+------------------------------ F( 1, 568) = 284.89
Model | 1153.80864 1 1153.80864 Prob > F = 0.0000
---------+------------------------------ Adj R-squared = 0.3329
Total | 3454.24737 569 6.07073351 Root MSE = 2.0125
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
20
3. VARIABLES PROXY
Ejemplo
. reg S ASVABC SM SF
. cor ASVABC SM SF
------------------------------------------------------------------------------
(obs=570)
---------+--------------------------------------------------------------------
| ASVABC SM SF
ASVABC | .1295006 .0099544 13.009 0.000 .1099486 .1490527
--------+---------------------------
SM | .069403 .0422974 1.641 0.101 1.0000-.013676
ASVABC| .152482
SF | .1102684 .0311948 3.535 0.000
SM| 0.3819.0489967
1.0000 .1715401
_cons | 4.914654 .5063527 9.706 0.000
SF| 0.41793.920094
0.6391 5.909214
1.0000
------------------------------------------------------------------------------
. reg S ASVABC
------------------------------------------------------------------------------
---------+--------------------------------------------------------------------
ASVABC | .1545378 .0091559 16.879 0.000 .1365543 .1725213
_cons | 5.770845 .4668473 12.361 0.000 4.853888 6.687803
------------------------------------------------------------------------------
Observar que hay un sesgo al alza cuando incluimos sólo ASVABC. Esto es esperable,
dado que SM y SF tienen un efecto positivo sobre los niveles ded estudio.
22

Apuntes 1

Cargado por

Copyright:

Formatos disponibles

Apuntes 1

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes 1

Cargado por

Copyright:

Formatos disponibles

Introducción

Begoña Álvarez García

 ¿Cuál es la elasticidad-precio de los cigarrillos?

 ¿Cuál es el efecto de reducir el tamaño de la clase en las notas de los

 ¿Cuál es el rendimiento, en términos de salario, de un año adicional de

Si aumenta el tipo de interés en un 2% ¿cuánto variará la tasa de crecimiento del

La Teoría Económica trata de responder al ¿POR QUÉ?

La Econometría trata de dar respuestas a ¿CUÁNTO?

Mensurabilidad es la palabra clave en la Econometría.

 Uno de los resultados de este encuentro fue la publicación de la revista

“studies that aim at a unification of theoretical-quantitative and the empirical-

Pero , “econometrics is by no means the same as economic statistics, [n]or general

 La Econometría consiste en la combinación de métodos estadísticos,

 Existen diferentes tipos de cuestiones empíricas (y por tanto de

 Estimación de relaciones causales: funciones de demanda,

 Contraste de teorías económicas: hipótesis de los modelos de

 Evaluación de políticas gubernamentales: efecto sobre el empleo

 Predicción: predecir variables macroeconómicas como la inflación, el

2. ¿Para qué sirve?

Cook, Ostermann, and Sloan, NBER WP 11138, Febrero 2005

DATOS: Utilizan datos americanos estatales sobre tasas de mortalidad entre

 Duplicar el consumo de alcohol aumenta la mortalidad en un

 Eso implica que se pasaría de 2.4 milliones de muertes por

 Duplicar los impuestos sobre el alcohol reduciría la mortalidad en

 Es decir, en USA, se salvarían 16.000 vidas por año.

Efectos de la educación: modelo de capital humano

Estimating the macroeconomic returns to education

Studies of the macroeconomic returns to education are methodologically diverse and

2. ¿Para qué sirve?

Evaluación del Programa “Hogares Comunitarios” en Colombia

Attanasio, O. and M. Vera-Hernández, IFS 2006

RESULTADOS DEL ANÁLISIS ECONOMÉTRICO:

 La asistencia a un hogar comunitario aumenta la altura del

 La asistencia al Hogar Comunitario aumenta la oferta laboral

 Hay dos características que distinguen la Econometría de lo que sería la

 Los datos económicos son no experimentales.

 Los modelos económicos (simples o sofisticados) son cruciales para

En los cursos de Econometría de la licenciatura:

¾ Aprenderéis métodos para estimar efectos causales a partir de datos

¾ Aprenderéis herramientas que pueden ser utilizadas para otros objetivos,

¾ Pondremos especial énfasis en las aplicaciones, pero la teoría es necesaria

¾ Aprenderéis a “producir” (hacer los análisis econométricos) y a “consumir”

If you torture the data long enough, Nature will confess.

The four golden rules of econometrics:

4. Etapas del análisis econométrico

¾ Es importante tener en cuenta que el proceso de investigación en

1. Formulación de la pregunta que queremos responder

2. Modelo económico del comportamiento criminal

¾ Becker (JPE, 1968) modela el comportamiento criminal como si fuera una

Ejemplo: Un modelo económico del crimen

¾ De acuerdo con este modelo, la cantidad de tiempo dedicado a la actividad

h = f(wage, wcrime, inc, pcaught, pconv, esent, age)

¾ ¿Qué tipo de datos? ¿individuales, agregados a nivel de provincia, CCAA,

hc = β 0 + β1 wagec + β 2 incc + β 3 freqac + β 4 freqcc + β 5 avgsc + uc

¾ Supongamos que tenemos datos para un año correspondientes a ciudades

Ejemplo: Un modelo económico del crimen

¾ El componente inobservable (o término de error o perturbación) u, es uno de los

¾ Imponer ciertas condiciones sobre las propiedades estadísticas del término de

¾ Con ciertas limitaciones, podremos contrastar si se cumplen esas condiciones.

¿Cuál es la elasticidad-precio de los cigarrillos?

¿Cuál es el efecto de reducir el tamaño de la clase en las notas de los

¿Cuál es el rendimiento, en términos de salario, de un año adicional de

Si aumenta el tipo de interés en un 2% ¿cuánto variará la tasa de crecimiento del

Uno de los resultados de este encuentro fue la publicación de la revista

La Econometría consiste en la combinación de métodos estadísticos,

Existen diferentes tipos de cuestiones empíricas (y por tanto de

Estimación de relaciones causales: funciones de demanda,

Contraste de teorías económicas: hipótesis de los modelos de

Evaluación de políticas gubernamentales: efecto sobre el empleo

Predicción: predecir variables macroeconómicas como la inflación, el

Duplicar el consumo de alcohol aumenta la mortalidad en un

Eso implica que se pasaría de 2.4 milliones de muertes por

Duplicar los impuestos sobre el alcohol reduciría la mortalidad en

Es decir, en USA, se salvarían 16.000 vidas por año.

La asistencia a un hogar comunitario aumenta la altura del

La asistencia al Hogar Comunitario aumenta la oferta laboral

Hay dos características que distinguen la Econometría de lo que sería la

Los datos económicos son no experimentales.

Los modelos económicos (simples o sofisticados) son cruciales para