Mqiv 5-7
Mqiv 5-7
Mqiv 5-7
Metodología cuantitativa IV
Bruno Arpino
(Despacho: 20.182; email: bruno.arpino@upf.edu)
Clases 5-7: errores de especificación
Endogeneidad
Sesgo de selección
Multicolinealidad
Relaciones no lineales
2
Clases 5-7: errores de especificación
3
Clases 5-7: errores de especificación
Modelo verdadero
Modelo estimado
por el investigador
Y β0 β1X1 Y β0 β1X1 β2 X2 ε
SESGO
7
Clases 5-7: errores de especificación
8
Clases 5-7: errores de especificación
9
Clases 5-7: errores de especificación
10
Clases 5-7: errores de especificación
11
Clases 5-7: errores de especificación
Endogeneidad
En el contexto de un modelo de regresión, se habla de
endogeneidad cuando un supuesto fundamental de la regresión
está violado:
Para practicar
Leed el articulo “La democracia es buena para la salud”.
15
Clases 5-7: errores de especificación
16
Clases 5-7: errores de especificación
Ejemplo
Imaginemos que en el 2006 un investigador quería estudiar el
efecto del posicionamiento ideológico sobre la valoración del
Gobierno Zapatero (0 = muy mal --- 10 = muy bien). Los datos
disponibles eran estos:
Valoración media 6 4 2
Estos datos indican que hay una relación entre posicionamiento
político y la satisfacción con el gobierno: pasando de izquierda a
centro (o de centro a derecha) la satisfacción en media se reduce
de 2 puntos. 17
Clases 5-7: errores de especificación
Multicolinealidad y confundimiento
estructural
Imaginemos que Messi juegue solo cuando el Barça juega en casa.
¿Se puede estimar cual es el efecto de que Messi juegue o no sobre
la probabilidad que el Barça gane un partido?
Supongamos que tenemos datos sobre 200 partidos (100 jugados
en casa y 100 fuera):
¿Se puede decir que si Messi juega es más probable que el Barça
gane? 23
Clases 5-7: errores de especificación
El problema aquí es que las dos cosas van juntas. Messi está afectado por el hecho de jugar
en el camp nou
No se puede
Multicolinealidad y confundimiento diferenciar el
efecto de las
estructural Para dos variables
diferenciarlo,
El Barça Messi juega los % El Barça Partido en casa
gana Sí No diferentes gana
deberían ser
Sí No
Sí 80 60 Sí 80 60
No 20 40 No 20 40
Total 100 100 Total 100 100
Este caso se llama multicolinealidad perfecta o confundimiento estructural
Multicolinealidad y confundimiento
estructural
Consideremos el ejemplo del articulo sobre la relación entre
democracia y salud. Si todos los países democráticos fueran países
ricos y al revés todos los países no democráticos fueran países
pobres, no seria posible aislar el efecto de la democracia del efecto
del nivel de riqueza.
25
Clases 5-7: errores de especificación
Multicolinealidad y confundimiento
estructural
En el contexto de la regresión, el concepto de confundimiento
estructural corresponde a lo de perfecta multicolinealidad: hay
una relación lineal perfecta entre dos (o más) variables
independientes.
El FIV: un ejemplo
Consideremos la regresión del posicionamiento político sobre
instrucción, genero y años de nacimiento. ¿Hay multicolinealidad?
Coeficientesa
Coeficientes no Coeficientes
estandarizados tipificados Estadísticos de colinealidad
Para practicar
Con referencia al articulo “La democracia es buena para la
salud”:
30
Clases 5-7: errores de especificación
Yi β0 β1X1i β 2 X 2i β k X ki ε i
31
Clases 5-7: errores de especificación
Fuente:
Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades
regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315. 33
Clases 5-7: errores de especificación
34
Clases 5-7: errores de especificación
100
amontar de agua y
salud.
80
60
Evidencia de “water
Health
intoxication” (intoxicación
40
http://chemistry.about.com/cs/5/f/blwaterintox.htm
0
0 20 40 60 80 100
Water 35
Clases 5-7: errores de especificación
80
de 80 onzas por día.
60
40
Ninguna de las dos 20
rectas es apropiada
0
37
Clases 5-7: errores de especificación
80
estimada se ajusta mejor de las
60
dos rectas a los datos!
40
20
Interpretación de los coeficientes
0
de la regresión estimada:
0 20 40 60 80 100
b0 = -192.38 es el valor predicho Water
80
healt h 6.72 0.04 * 2 * water
60
40
20
Esto indica que el efecto marginal
0
no es constante: es positivo hasta 0 20 40 60 80 100
el valor 84 y negativo después. Water
Health Fitted
- b1
6.72 0.04 * 2 * water 0 Haces la 2a derivada
b2 < 0 -> convexa
Fitted values Fitted
Felicidad
(“horas”).
Horas trabajadas
40
Clases 5-7: errores de especificación
Felicidad
También en este caso la concavidad
es hacia abajo (b2 negativo).
(Parábola cóncava;
https://es.wikipedia.org/wiki/Concavidad)
Horas trabajadas
Coeficientesa
Para practicar
Unos investigadores han estudiado la relación entre identificación
nacional con España y porcentaje de votos al principal partido de
ámbito no estatal en las diferentes comunidades autónomas (CA).
Los investigadores han calculado el porcentaje de individuos que en
las encuestas del CIS declaran sentirse identificados únicamente
con España y el porcentaje de votos al principal partido de ámbito
no estatal en cada CA (“votos”). Comentar los resultados de sus
investigación basados en un modelo de regresión donde se han
incluido las variables “votos” y su cuadrado (“votos2”) como
variables independientes: Coeficientesa
Coeficientes no
estandarizados
Referencias
Capítulo 7 de: LAGO, Ignacio. La lógica de la explicación
en ciencias sociales: una introducción metodológica.
Madrid: Alianza Editorial, 2008
43
Si algo no queda claro…
o escribirme un email
44
Apéndice
45
Omisión de variables relevantes:
(otro) ejemplo
Supongamos que el salario dependa de instrucción, antigüedad en
la empresa y días de ausencia injustificada (véase Lago, página 79).
Antigüedad
+
+
¿Que pasa si
estimamos el efecto Años de +
de los años de - estudio Salario
estudio controlando
solo por la antigüedad?
-
Ausencias
-
Habría un sesgo debido
a la exclusión de una variable relevante injustificadas
(baja laboral). Y el sesgo seria positivo (“-” * “-” = “+”. Hay un
46
error en Lago, páginas 79-80)
Omisión de variables relevantes:
(otro) ejemplo
Supongamos que el salario dependa de instrucción, antigüedad en
la empresa y días de ausencia injustificada (véase Lago, página 79).
Antigüedad +
+
¿Que pasa si
estimamos el efecto Años de +
de los años de - Salario
estudio
estudio controlando
solo por las ausencias?
-
-
Habría un sesgo debido Ausencias
a la exclusión de una variable relevante injustificadas
(antigüedad). Y el sesgo seria positivo también en este caso (“+” *
47
“+” = “+”).
Clases 5-7: errores de especificación
Transformaciones logarítmicas
Una alternativa a la estimación de relaciones parabólicas es utilizar
una transformación logarítmica.
Es bastante común hacer transformaciones logarítmicas de variables
con asimetría positiva (p.ej., PIB, salario, etc.).
48