Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Mqiv 5-7

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 48

Departamento de Ciencias Políticas y Sociales

Grado en Ciencias Políticas y de la Administración


Universitat Pompeu Fabra

Metodología cuantitativa IV

Clases 5, 6 y 7: errores de especificación

Bruno Arpino
(Despacho: 20.182; email: bruno.arpino@upf.edu)
Clases 5-7: errores de especificación

¿Que vamos a hacer hoy?


Errores de especificación del modelo

Omisión de variables relevantes y inclusión de variables


irrelevantes

Endogeneidad

Sesgo de selección

Multicolinealidad

Relaciones no lineales
2
Clases 5-7: errores de especificación

Errores de especificación del modelo


Un error de especificación es el incumplimiento de uno
de los supuestos del modelo de regresión lineal.

Con referencia a las variables independientes incluidas


en el modelo pueden haberse dos tipos de errores:

Omisión de variables relevantes (faltan variables relevantes)


Inclusión de variables irrelevantes (hemos incluido más
variables de lo que es necesario)

3
Clases 5-7: errores de especificación

¿Que X hay que incluir en el modelo?

Modelo verdadero
Modelo estimado
por el investigador
Y β0 β1X1 Y β0 β1X1 β2 X2 ε

SESGO

(si X2tiene una relación


ŷ b0 b1x1 Correcto
también con X1;
omisión variable
relevante)
INEFICIENCIA
ŷ b0 b1x1 b 2 x 2 (inclusión variable
Correcto
irrelevante)
(Adaptación de la tabla de Lago, pág. 76)
4
Clases 5-7: errores de especificación

Inclusión de variables irrelevantes


Imaginemos que la religiosidad no influya en el salario de los
individuos. ¿Qué pasa si se incluye esta variable (irrelevante)
en el modelo de regresión lineal como otra variable
independiente?

La inclusión de una variable independiente irrelevante NO


provoca SESGO en la estimación de los coeficientes de la
regresión (pendientes).

Pero provoca INEFICIENCIA: los errores típicos son


sesgados, eso es son (inútilmente) más altos. Esto podría
implicar que una pendiente no resulta significativa sólo
porque el error típico es más alto (y el p-valor es más alto)
de lo que debería ser. 5
Clases 5-7: errores de especificación

Inclusión de variables irrelevantes: ejemplo

Imaginemos que un investigador esté interesado en la


relación entre la edad y el posicionamiento ideológico
(“lrscale”). Supongamos que el investigador haga tres
análisis de regresión lineal:

1) sólo edad como variable independiente (2002-”yrbrn”)


2) edad + años de instrucción (“eduyrs”)
3) edad + años de instrucción + tiempo total pasado
viendo la tele (“tvtot”)

¿Cuál es el modelo mejor?


6
Clases 5-7: errores de especificación

Inclusión de variables irrelevantes: ejemplo

1) sólo edad como variable independiente

7
Clases 5-7: errores de especificación

Inclusión de variables irrelevantes: ejemplo

2) edad + años de instrucción

8
Clases 5-7: errores de especificación

Inclusión de variables irrelevantes: ejemplo

3) edad + años de instrucción + tiempo total pasado


viendo la tele

9
Clases 5-7: errores de especificación

Inclusión de variables irrelevantes: ejemplo


La R2 corregida es más alta en el primer modelo, que sólo
incluye la edad!!! Esto es, el modelo que se ajusta mejor a
los datos es el primero. Añadir las otras variables no mejora
el modelo porqué estas variables no tienen una relación
significativa con la Y.

El error típico de la pendiente de la edad aumenta cuando se


añaden las otras variables (esto siempre pasa). Todavía, en
este caso la conclusión final sobre la pendiente de la edad no
cambia: siempre se rechaza la hipótesis nula (y se acepta la
hipótesis que hay una relación lineal positiva entre
posicionamiento político y edad).

10
Clases 5-7: errores de especificación

El efecto del tamaño de la muestra


El error típico tiende a cero cuando el tamaño muestral tiende a
infinito. Entonces, más grande es la muestra meno grave es el
problema de incluir variables irrelevantes.

En el modelo con variables relevantes omitidas el sesgo NO tiende


a cero cuando el tamaño muestral aumenta.

Entonces, si el tamaño muestral es suficientemente grande, es


menos grave cometer errores de especificación por exceso
(inclusión de variables irrelevantes) que por defecto (exclusión de
variables relevantes).
(Lago pág. 81:) La única manera de asegurar que nuestro
modelo es correcto es tener una buena teoría que nos guíe
en la especificación del modelo.

11
Clases 5-7: errores de especificación

Endogeneidad
En el contexto de un modelo de regresión, se habla de
endogeneidad cuando un supuesto fundamental de la regresión
está violado:

“La componente deterministica y la aleatoria no están


correlacionadas. Es decir, cada variable X tiene cero correlación
con el termino de error, ε.”

Se puede demonstrar que la omisión de variables relevantes


produce la violación de este supuesto de la regresión.

Otro caso: relaciones bidireccionales

En ambos casos la violación del supuesto de la regresión implica un


sesgo en los coeficientes estimados.
12
Clases 5-7: errores de especificación

Un ejemplo de relación bidireccional


(Lago, pag. 93) Imaginemos que un investigador plantee la
hipótesis que estudiar ciencia política aumenta el interés en la
política. La idea podría ser que los que han cursado ciencia política
han tenido contacto con la política como objeto de estudio y esto
debería aumentar sus interés en la política.

Imaginemos que el investigador estime por ejemplo una regresión


con X = (1 si el estudiante ha cursado ciencia política; = 0 si ha
cursado otra carrera) y Y = interés en la política (en una escala 0-
10) medido al final de la carrera.

¿La pendiente de X mide el efecto de cursar ciencia política?

Tenemos un problema de bidirecionalidad: puede que los que han


decidido estudiar ciencia política ya estaban más interesados en la
política! 13
Clases 5-7: errores de especificación

Un ejemplo de relación bidireccional


En muchos casos el problema de la bidirecionalidad se puede ver
también como un problema de variable relevante omitida:

Interés en la política al momento de decidir la carrera (Z)


+ +

Elegir la carrera Interés en la política al


ciencia política (X) final de la carrera (Y)

Si ignoramos el nivel inicial de interés en la política, el efecto de


cursar ciencia política sería sobreestimado (“+” * ”+” = sesgo
positivo). Entonces, la solución a la endogeneidad puede ser
controlar por más variables relevantes, en este caso el nivel inicial
de interés en la política (no siempre es posible si faltan datos). 14
Clases 5-7: errores de especificación

Para practicar
Leed el articulo “La democracia es buena para la salud”.

A. Indicad: el tamaño de la muestra, las variables


dependientes, las variables independientes de
interés (explicativas) y las variables de control.
B. ¿Por qué se han añadido las variables de control?
C. ¿A que se refieren los autores con la expresión “con
independencia de otros factores”?
D. Escribid uno de los modelos de regresión estimado por los
autores.
E. ¿Hay un problema de relación bidireccional en esta
investigación?

15
Clases 5-7: errores de especificación

Según como se selecciona la parte de la muestra,


se puede producir este sesgo -> vamos, cuando la
Sesgo de selección selección de los casos no se hace bien

Se comete al seleccionar la muestra de manera que no sea


representativa de la población relevante (véase también MQIV_9)

El sesgo de selección se puede producir también cuando la muestra


es representativa, pero el investigador selecciona un subconjunto
de datos sobre el cual realizar sus análisis de forma no aleatoria.

Tenemos que distinguir dos casos:

1) el investigador selecciona casos en función de los


valores de la variable dependiente

2) el investigador selecciona casos en función de los


valores de una o más variables independientes

16
Clases 5-7: errores de especificación

Ejemplo
Imaginemos que en el 2006 un investigador quería estudiar el
efecto del posicionamiento ideológico sobre la valoración del
Gobierno Zapatero (0 = muy mal --- 10 = muy bien). Los datos
disponibles eran estos:

Valoración media 6 4 2
Estos datos indican que hay una relación entre posicionamiento
político y la satisfacción con el gobierno: pasando de izquierda a
centro (o de centro a derecha) la satisfacción en media se reduce
de 2 puntos. 17
Clases 5-7: errores de especificación

Es una limitación artificial, un SESGO, ya que no hay una razon para


limitar según este parámetro la muestra
Selección en función de los valores de Y
¿Que pasa si el investigador selecciona solo las personas con
valoraciones iguales o superiores a 4?
La diferencia entre los
grupos es más baja
Los valores de centro
y derecha son más
altos
Se provoca un error Estamos descartando
seleccionando la las valoraciones
muestra en base a peores, y esto
la variable provoca que los tres
dependiente grupos parezcan más
Valoración media 6 5 4 parecidos
El efecto del posicionamiento político sobre la satisfacción con el
gobierno es inferior: pasando de izquierda a centro (o de centro a
derecha) la satisfacción en media se reduce de 1 punto (en lugar
de 2!!!) SESGO de selección.

Es un caso de truncamiento de Y (se limita la variación de Y!) 18


Clases 5-7: errores de especificación

Selección en función de los valores de Y


Se puede ver el efecto de seleccionar casos en función de Y utilizando
un diagrama de dispersión y dibujando la recta estimada en los dos
casos (con todos los casos o solo los casos seleccionados).

La recta negra (estimada eliminando los casos con Y < 4) es más


plana de la recta azul (pendiente más baja y sesgada!). 19
Clases 5-7: errores de especificación

Este tipo de selección no afecta los resultados de la muestra


No provoca un sesgo porque la diferencia entre los grupos se mantiene

Selección en función de los valores de X


¿Que pasa si el investigador selecciona sólo las personas de izquierda o
centro?
El sesgo se podría
provocar si hacemos
extrapolación -> si
hacemos análisis
generales y extraemos
conclusiones a nivel
Valoración media 6 4 poblacional -> entonces
sí que habría sesgo
El efecto del posicionamiento político sobre la satisfacción con el gobierno
no está sesgado! Pasando de izquierda a centro la satisfacción en media se
reduce de 2 puntos. Pero ahora la inferencia no se puede extender
(extrapolación) a las personas de derecha. Si las personas de derecha
tuviesen una valoración media de 4 la extrapolación provocaría una
inferencia sesgada. (En realidad, en el caso de nuestro ejemplo la
extrapolación no provocaría un sesgo pero el investigador no puede
saberlo si las personas de derecha no están en la muestra o si se limita el 20
análisis a las personas de izquierda y centro.)
Clases 5-7: errores de especificación

Un caso famoso de error de selección:


Cesare Lombroso
Lombroso al examinar los cráneos de algunos delincuentes, llegó a
la conclusión que el criminal no es un hombre común si no que por
sus característicos rasgos morfológicos y psíquicos, constituye un
tipo especial.
El criminal según Lombroso presenta signos de inferioridad
orgánica:
Menor capacidad craneana, Mayor diámetro bizigomático,
Gran capacidad orbitaria, Escaso desarrollo de las partes
anteriores y frontales, Abultamiento del occipucio, Frente
hundida, etc.

En particular, en 1871 después de hacer la necropsia a un famoso


bandolero llamado Giuseppe Villella, encontró en su cráneo, en el
sitio de la habitual cresta occipital, un hoyuelo similar a los que
presentan los vertebrados superiores más próximos al hombre. 21
Clases 5-7: errores de especificación

Un caso famoso de error de selección:


Cesare Lombroso
La teoría de Lombroso se puede simplificar así: tener la
deformación del hueso occipital aumenta la probabilidad de ser
criminal.
X: = 1 “tiene hoyuelo occipital”; = 0 “no tiene hoyuelo occipital”
Y: = 1 “criminal”; = 0 “no criminal”.
Problema de la análisis de Lombroso: solo seleccionaba casos con
Y = 1 (criminales). El hecho que entre los criminales habían muchos
con la “deformación” del hueso occipital y otras particularidades
físicas era debido a que la investigación de Lombroso se limitaba a
una área geográfica especifica.
Además los criminales analizados eran en mayoría de las clases
sociales más pobres.
Las características físicas encontradas no eran debidas a que estas
personas eran criminales! 22
Clases 5-7: errores de especificación

Multicolinealidad y confundimiento
estructural
Imaginemos que Messi juegue solo cuando el Barça juega en casa.
¿Se puede estimar cual es el efecto de que Messi juegue o no sobre
la probabilidad que el Barça gane un partido?
Supongamos que tenemos datos sobre 200 partidos (100 jugados
en casa y 100 fuera):

El Barça Messi juega


gana Sí No
Sí 80 60
No 20 40
Total 100 100

¿Se puede decir que si Messi juega es más probable que el Barça
gane? 23
Clases 5-7: errores de especificación

El problema aquí es que las dos cosas van juntas. Messi está afectado por el hecho de jugar
en el camp nou
No se puede
Multicolinealidad y confundimiento diferenciar el
efecto de las
estructural Para dos variables
diferenciarlo,
El Barça Messi juega los % El Barça Partido en casa
gana Sí No diferentes gana
deberían ser
Sí No
Sí 80 60 Sí 80 60
No 20 40 No 20 40
Total 100 100 Total 100 100
Este caso se llama multicolinealidad perfecta o confundimiento estructural

Cuando Messi juega la probabilidad de que el Barça gane es 80%


en lugar de 60% cuando Messi no juega. Pero no se puede atribuir
este efecto al hecho de que Messi juegue porque la diferencia
observada podría ser debida a jugar en casa (Messi juega solo
cuando el Barça juega en casa). Las variables “Messi juega” y
“Partido en casa” son estructuralmente confundidas: no se
puede distinguir el efecto de una variable independiente de lo de la
otra. 24
Clases 5-7: errores de especificación

Multicolinealidad y confundimiento
estructural
Consideremos el ejemplo del articulo sobre la relación entre
democracia y salud. Si todos los países democráticos fueran países
ricos y al revés todos los países no democráticos fueran países
pobres, no seria posible aislar el efecto de la democracia del efecto
del nivel de riqueza.

No seria posible un análisis “a paridad de condiciones” porque


cuando la variable riqueza es mantenida constante (por ejemplo, se
cogen solo los países ricos) también la variable “democracia” no
variaría (solo nos quedaríamos con países democráticos) y no sería
posible establecer si hay un efecto al variar del sistema político
sobre la salud.

25
Clases 5-7: errores de especificación

Multicolinealidad y confundimiento
estructural
En el contexto de la regresión, el concepto de confundimiento
estructural corresponde a lo de perfecta multicolinealidad: hay
una relación lineal perfecta entre dos (o más) variables
independientes.

Ejemplo: edad y cohorte de nacimiento tienen una perfecta relación


lineal en datos trasversales. Por ejemplo, en la primera ola de la
ESS: Es como muy obvio pero hay una relación lineal perfecta
entre edad y año de nacimiento
Pasa lo mismo que con el caso de Messi
edad = 2002 – yrbrn Al aumentar la edad 1 año, significa haber nacido un año
antes
Dos (o más) variables que son perfectamente multicolineales
no se pueden incluir simultáneamente como variables
independientes en un modelo de regresión lineal (no se pueden
distinguir los efectos de estas variables). 26
Clases 5-7: errores de especificación
Si cogemos dos cortes de año para calcular la edad (2012 y 2002 por ejemplo), sí que
podríamos incluir en el modelo de regresión la edad y el año de nacimiento, porque es posible
aumentar la edad manteniendo el corte de nacimiento igual
Multicolinealidad y confundimiento
estructural
Cuando la correlación entre las X no es perfecta, estas variables sí
que se pueden incluir simultáneamente pero pueden haberse
problemas si las correlaciones entre ellas son fuertes.
Cuando no es perfecta, las dos variables se pueden incluir en el estudio
El problema es que el modelo no puede distinguir bien los efectos
de las diferentes variables y esto implica que los errores típicos (y
los p-valores) pueden ser muy altos (y las correspondientes
pendientes ser no significativas) aunque las variables estén en
realidad correlacionadas con la Y!
El FIV (factor de inflación de la variancia) es un indicador de
multicolinealidad: si una variable X tiene un valor de este índice
más alto de 10 significa que esta variable tiene una correlación muy
alta con las otras variables independientes (hay un problema de
multicolinealidad). En SPSS: Analizar Regresión Lineales
Gráficos y Estadísticos Diagnosticos de colinealidad 27
Clases 5-7: errores de especificación

El FIV: un ejemplo
Consideremos la regresión del posicionamiento político sobre
instrucción, genero y años de nacimiento. ¿Hay multicolinealidad?
Coeficientesa

Coeficientes no Coeficientes
estandarizados tipificados Estadísticos de colinealidad

Modelo B Error típ. Beta t Sig. Tolerancia FIV


1 (Constante) 36,722 6,440 5,702 ,000
Years of full-time education completed ,014 ,011 ,039 1,237 ,216 ,758 1,319

genero ,351 ,110 ,088 3,204 ,001 ,999 1,001


Year of birth -,017 ,003 -,159 -5,024 ,000 ,757 1,320
a. Variable dependiente: Placement on left right scale
Cuánto los años de estudio están en relación con las otras dos
El índice FIV es muy bajo para todas las variables (<< 10).
Entonces no hay problema de multicolinealidad en esta regresión.
El FIV mide cuanto cada variable independiente está relacionada con las otras independientes
Tiene valores positivos y nunca inferiores a 1
Para decidir si la correlación es demasiado fuerte, se utiliza el límite de 10. si el FIV está por
encima de 10, la correlación es demasiado alta. si está por debajo no nos preocupamos
28
Clases 5-7: errores de especificación
Felicidad = b0 + b1 Sueldo + b2 Patrimonio Inmobiliario + b3 Edad
FIV : 28,21 37,05 6,41
Sueldo y patrimonio tienen una relación muy fuerte, pero no perfecta. Los podemos incluir
¿Que hacer si hay multicollinealidad?
Seleccionar solo algunas X. Ejemplo: PIB per cápita y porcentaje de
trabajadores del sector terciario. Ambos son indicadores de
desarrollo económico y podemos pensar de utilizar solo uno de ellos.
Construir un indicador que resume las variables multicolineales.
Ejemplo: PIB, esperanza de vida, tasa de alfabetización, etc. son
indicadores de desarrollo socioeconómico. Se puede construir un
indicador como el Índice de desarrollo humano de las Naciones
Unidas.
(http://es.wikipedia.org/wiki/%C3%8Dndice_de_desarrollo_humano)

Mantener todas las variables en el modelo, pero interpretar los


resultados con cuidado! (Esta solución es preferible solo cuando no
nos interesan los efectos individuales de las variables sino nos
interesa el modelo en su totalidad para hacer predicciones que
utilicen toda la información disponible).
Recoger más observaciones de manera que se reduzca la
29
multicolinealidad (no siempre es posible).
Clases 5-7: errores de especificación

Para practicar
Con referencia al articulo “La democracia es buena para la
salud”:

A. ¿Hay un problema de multicolinealidad en esta


investigación? ¿Por qué? ¿Y como se podría resolver?

B. Hacer por lo menos un ejemplo de como se podría


provocar un sesgo de selección en el análisis de la relación
entre salud y democracia.

30
Clases 5-7: errores de especificación

Error de especificación de la forma funcional

Yi β0 β1X1i β 2 X 2i β k X ki ε i

El modelo de regresión lineal en su forma básica supone una


relación lineal entre la Y y las variables independientes, esto es
que el efecto marginal de cada X es constante: por ejemplo
añadir una unidad de X2 siempre tiene el mismo el efecto sobre la Y
(medido por b2).

En algunos casos la relación entre las variables puede ser curvilínea


(parabólica, logarítmica, etc.): el efecto de X sobre Y puede
cambiar según el punto en la distribución de X.

31
Clases 5-7: errores de especificación

Ejemplos de relaciones parabólicas

En los casos C y F estimar una relación lineal es del todo incorrecto:


la correlación lineal seria 0 (o muy cerca de 0). Esto indica que no
hay relación lineal. Pero sí que hay otro tipo de relación!
En los otros casos una recta seria una aproximación de la
verdadera relación entre las variables: la pendiente de la recta
subestima el efecto de la X en algunos puntos de la distribución y lo
sobreestima en otros.
32
Clases 5-7: errores de especificación

Un ejemplo real de relación no lineal


Relación entre identificación autonómica (CA) y porcentaje de votos
al principal partido de ámbito no estatal (PANE) en cada CA.

Fuente:
Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades
regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315. 33
Clases 5-7: errores de especificación

Ejemplo de relación parabólica


Se sabe que beber suficiente agua es importante para la salud. La
cantidad de agua que cada persona tiene que beber depende de
muchos factores, como el peso. Una persona con peso de 160 libras
(72,5 kg), debería beber 80 onzas (2268 gramos) de agua por día
(http://nutrition.about.com/od/hydrationwater/a/waterarticle.htm).

Imaginemos que un medico haya recopilado datos sobre 25


pacientes (todos con peso de 160 libras). Imaginemos que el
medico haya medido el amontar de agua bebido por día (“water”) y
el estado de salud de los pacientes con un índice de 0 a 100
(“health”, más alto es el índice, mejor es el estado de salud).

34
Clases 5-7: errores de especificación

Ejemplo de relación parabólica


El medico ha recomendado a todos de beber 80 onzas de agua por
día. Pero, no todos han seguido la recomendación del medico (el
amontar medio bebido por día varia de 55 a 95 onzas.

Considerando el diagrama de dispersión es evidente que hay una


relación no lineal entre

100
amontar de agua y
salud.
80
60

Evidencia de “water
Health

intoxication” (intoxicación
40

por agua) si se bebe


mas de 80 onzas!
20

http://chemistry.about.com/cs/5/f/blwaterintox.htm
0

0 20 40 60 80 100
Water 35
Clases 5-7: errores de especificación

Ejemplo de relación parabólica


Las rectas roja y verde son ambas rectas de regresión lineal
simple. La diferencia

100 120 140 160


es que la recta roja health b 0 b1water
excluye los pacientes
que han bebido mas

80
de 80 onzas por día.

60
40
Ninguna de las dos 20

rectas es apropiada
0

0 20 40 60 80 100 120 140


porque ambas ignoran Water

que después el nivel 80, aumentar la cantidad


Health
Fitted values
Fitted values

de agua tiene un efecto negativo sobre la salud.

La recta roja representa mejor la relación por niveles de agua


inferior a 80 y peor por niveles superior a 80. 36
Clases 5-7: errores de especificación

Ejemplo de relación parabólica


Utilizando una regresión múltiple es muy fácil estimar una
relación parabólica. Es suficiente añadir la variable
independiente elevada al cuadrado (water)2 como si fuera otra
variable independiente:

health b0 b1water b 2 water2

En SPSS se puede crear una nueva variable (water)2 y utilizarla


normalmente como si fuera una variable independiente
cualquiera o se puede utilizar “Analizar Regresión
Estimación Curvilínea”.

37
Clases 5-7: errores de especificación

Ejemplo de relación parabólica

100 120 140 160


health -192.38 6.72 * water 0.04 * water2

El diagrama indica que la parábola

80
estimada se ajusta mejor de las

60
dos rectas a los datos!

40
20
Interpretación de los coeficientes

0
de la regresión estimada:
0 20 40 60 80 100
b0 = -192.38 es el valor predicho Water

del indicador de salud por un paciente que ha bebidoHealth


0 onzas de
Fitted values
Fitted
Fitted
agua por día. (Claramente no tiene sentido en este caso
interpretar la constante).
b1 y b2 no se pueden interpretar normalmente! (Por ejemplo
aumentar “water” de 1 unidad manteniendo “water2” constante
38
no es posible!)
Clases 5-7: errores de especificación

Ejemplo de relación parabólica

100 120 140 160


Para interpretar b1 y b2
formalmente podemos calcular la
derivada primera:

80
healt h 6.72 0.04 * 2 * water

60
40
20
Esto indica que el efecto marginal

0
no es constante: es positivo hasta 0 20 40 60 80 100
el valor 84 y negativo después. Water

Health Fitted
- b1
6.72 0.04 * 2 * water 0 Haces la 2a derivada
b2 < 0 -> convexa
Fitted values Fitted

2*b2 6.72 para saber el mínimo (o


water 84 máximo) de la parábola
b2 > 0 -> concava
0.08
En general b2 indica si la concavidad es hacia abajo (como en
este ejemplo) o hacia arriba. El punto de máximo o mínimo es X
= -b1 / 2b2 39
Clases 5-7: errores de especificación

Otro ejemplo de relación parabólica


Estimar una relación parabólica entre
el nivel de felicidad en una escala de 0 a 100
( “felicidad”) y el numero de horas
trabajadas normalmente a la semana

Felicidad
(“horas”).

R2 corregida indica que el modelo


parabólico se ajusta mejor a los datos.

Horas trabajadas

Modelo lineal Modelo parabólico:


Resumen del modelob Resumen del modelob
R cuadrado Error típ. de la R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación Modelo R R cuadrado corregida estimación
1 ,201a ,040 ,036 12,120 1 ,312a ,098 ,089 11,779

40
Clases 5-7: errores de especificación

Otro ejemplo de relación parabólica


b2 es significativo: el modelo
parabólico es mejor del modelo lineal.

Felicidad
También en este caso la concavidad
es hacia abajo (b2 negativo).
(Parábola cóncava;
https://es.wikipedia.org/wiki/Concavidad)

Horas trabajadas

Coeficientesa

Coeficientes no estandarizados Coeficientes tipificados Estadísticos de colinealidad


Toleranci
Modelo B Error típ. Beta t Sig. a FIV
1 (Constante) 12,042 5,614 2,145 ,033
wkhtotp 1,010 ,225 ,930 4,489 ,000 ,097 10,283
wkhtotp2 -,008 ,002 -,768 -3,705 ,000 ,097 10,283 41
Clases 5-7: errores de especificación

Para practicar
Unos investigadores han estudiado la relación entre identificación
nacional con España y porcentaje de votos al principal partido de
ámbito no estatal en las diferentes comunidades autónomas (CA).
Los investigadores han calculado el porcentaje de individuos que en
las encuestas del CIS declaran sentirse identificados únicamente
con España y el porcentaje de votos al principal partido de ámbito
no estatal en cada CA (“votos”). Comentar los resultados de sus
investigación basados en un modelo de regresión donde se han
incluido las variables “votos” y su cuadrado (“votos2”) como
variables independientes: Coeficientesa

Coeficientes no
estandarizados

Modelo B Error típ. Sig.


1 (Constante) 62,042 11,057 ,000
votos -0,400 0,076 ,000
votos2 0,005 0,001 ,008
Ejercicio inspirado en:
Fernández-Albertos, J., & Lago, I. (2015). Gobiernos autonómicos e identidades 42
regionales en España, 1980-2012. Política y gobierno, 22(2), 283-315.
Clases 5-7: errores de especificación

Referencias
Capítulo 7 de: LAGO, Ignacio. La lógica de la explicación
en ciencias sociales: una introducción metodológica.
Madrid: Alianza Editorial, 2008

Paragrafos 13.7, 14.4, 14.5 (solo las partes relevantes) de:


NEWBOLD, Paul; CARLSON, William L.; THORNE, Betty M.
Estadística para Administración y Economía. Sexta Edición.
Madrid: Prentice Hall, 2008 (¡En la Aula Global!)

43
Si algo no queda claro…

podéis pedirme tutorías

o escribirme un email

44
Apéndice

45
Omisión de variables relevantes:
(otro) ejemplo
Supongamos que el salario dependa de instrucción, antigüedad en
la empresa y días de ausencia injustificada (véase Lago, página 79).

Antigüedad
+
+
¿Que pasa si
estimamos el efecto Años de +
de los años de - estudio Salario
estudio controlando
solo por la antigüedad?
-
Ausencias
-
Habría un sesgo debido
a la exclusión de una variable relevante injustificadas
(baja laboral). Y el sesgo seria positivo (“-” * “-” = “+”. Hay un
46
error en Lago, páginas 79-80)
Omisión de variables relevantes:
(otro) ejemplo
Supongamos que el salario dependa de instrucción, antigüedad en
la empresa y días de ausencia injustificada (véase Lago, página 79).

Antigüedad +
+
¿Que pasa si
estimamos el efecto Años de +
de los años de - Salario
estudio
estudio controlando
solo por las ausencias?
-
-
Habría un sesgo debido Ausencias
a la exclusión de una variable relevante injustificadas
(antigüedad). Y el sesgo seria positivo también en este caso (“+” *
47
“+” = “+”).
Clases 5-7: errores de especificación

Transformaciones logarítmicas
Una alternativa a la estimación de relaciones parabólicas es utilizar
una transformación logarítmica.
Es bastante común hacer transformaciones logarítmicas de variables
con asimetría positiva (p.ej., PIB, salario, etc.).

Modelo semilogarítmico: log(Y) = b0+ b1 X + ε


Por cada aumento de una unidad de X, Y varia de (100*β1)%
(semielasticidad)

Modelo logarítmico: log(Y) = b0+ b1log(X) + ε


Por cada aumento de 1% de X, Y varia de β1%
(elasticidad)

48

También podría gustarte