Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
537 vistas18 páginas

Modelos Autorregresivos y de Rezagos Distribuidos.

Descargar como pdf o txt
Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1/ 18

REPÚBLICA BOLIVARIANA DE VENEZUELA

UNIVERSIDAD SANTA MARÍA


FACES
ECONOMÍA
ECONOMETRÍA

Modelos Autorregresivos y de Rezagos Distribuidos.

Docente: Autores:

María González. Oscar Hernández.


C.I: 29.780.923

Caracas, febrero del 2021.


Modelos Autorregresivos y de Rezagos Distribuidos.

Modelos Atorregresivos.

 Concepto.

Los modelos autorregresivos, como bien dice su nombre, son modelos que se regresan en sí
mismos. Es decir, la variable dependiente y la variable explicativa son la misma con la
diferencia que la variable dependiente estará en un momento del tiempo posterior (t) al de la
variable independiente (t-1). Decimos ordenados cronológicamente porque actualmente nos
encontramos en el momento (t) del tiempo. Si avanzamos un período nos trasladamos a (t+1)
y si retrocedemos un período nos vamos a (t-1).

Un modelo autorregresivo (AR) es una representación de un proceso aleatorio, en el que la


variable de interés depende de sus observaciones pasadas. Específicamente, la variable de
interés o de salida, depende linealmente de sus valores anteriores. Por esto decimos que existe
dependencia lineal entre las distintas observaciones de la variable.

Si el modelo incluye uno o más valores rezagados de la variable dependiente entre sus
variables explicativas, se denomina modelo Autorregresivo o dinámicos. Como se ha
explicado párrafos atrás.

Una forma de entender un modelo autorregresivo es un proceso que luego de enfrentado a una
perturbación tarda tiempo en regresar a su equilibrio de largo plazo.

 Características.

Los modelos autorregresivos de orden finito se caracterizan porque una variación en la


variable exógena tendrá un efecto tendrá un efecto temporal indefinido sobre la variable
endógena, en el sentido que esta se verá afectada en un número de periodos indeterminado, y
su impacto total puede ser finito o no. En cambio, en un modelo RD, el impacto es finito y se
distribuye en un periodo temporal también concreto.

Rezagos Distribuidos.

 Concepto.

En el análisis de regresión con datos de series de tiempo, cuando el modelo de regresión


incluye no sólo valores actuales sino además valores rezagados de las variables explicativas
(las X), se denomina modelo de Rezagos Distribuidos.

Los modelos con retardos distribuidos son un caso concreto de modelos dinámicos. Son la
metodología econométrica clásica para trabajar con modelos de regresión dinámicos.
Suelen suponer una distribución o pauta determinada de los retardos (para poder estimar los
parámetros). Esta distribución proviene de planteamientos de base económica (expectativas
adaptables, ajuste parcial, corrección del error...)

 Características.

Este tipo de modelos permite que los coeficientes de las variables explicativas se puedan
representar mediante funciones más flexibles. Esta técnica está basada en el teorema de
Weierstrass que en términos generales dice que, en un intervalo finito cerrado, cualquier
función continua puede ser aproximada uniformemente mediante un polinomio de un grado
apropiado.

El papel del tiempo en los modelos econométricos.

En economía, la dependencia de una variable Y (la variable dependiente) respecto de otra u otras
variables X (las variables explicativas) pocas veces es instantánea. Con frecuencia Y responde a X en
un lapso, el cual se denomina rezago.

Variables Retardadas.

Un retardo hace referencia a algo del pasado. Es algo que ocurre con efecto retardado. Es lo contrario
de efecto inmediato o contemporáneo.

Este efecto retardado puede darse después de uno o más periodos. Además, aunque en el ejemplo
inicial tan solo una variable presenta retardos, concretamente un retardo, el retardo puede estar
presente en más variables explicativas.

El método de las variables retardadas es muy importante dentro de las políticas públicas económicas y
de la econometría empírica porque su aplicación además de corregir la violación que produce la
autocorrelación en MCO (Mínimo de Cuadrados Ordinarios), proporciona el periodo de tiempo que
dura el impacto que suelen tener las políticas públicas por medio de variables específicas en la
economía.

Distribución de retardos finitos e infinitos.

Donde no se ha definido la longitud del rezago, es decir, hasta dónde se pretende retroceder en el
pasado, reciben el nombre de modelos de rezagos infinitos, mientras que, en viceversa, se llaman
modelos finitos por cuanto la longitud o tamaño del rezago k está plenamente especificada.

 Tipos de modelos con un retardo distribuido:


 Hipótesis: Todos los multiplicadores son positivos y en el infinito toman valor cero.

 Objetivo: Estudiar la distribución de retardos Multiplicadores = Frec. Absol.


(Importancia de cada retardo al definir la modificación de la variable “efecto” por la “causa”).

o Retardo medio: Tiempo medio que, un cambio en X tarda en producir


modificaciones sobre Y.

o Retardo mediano: Tiempo que, por término medio, es necesario para que transcurra
el 50% de la reacción. Primero que cumpla:

o Varianza: Dispersión en el tiempo de los efectos de X sobre Y.

o Coeficiente de asimetría: Es el de Fisher.


o Coeficiente de apuntamiento: Es el coeficiente de curtosis de Fisher.

Problemas de correlación serial: Durbin y la prueba H.

Considere el siguiente modelo:

Nótese que tanto ut, como Yt-1 dependen de ut-1, las dos variables estarán correlacionadas. El
estimador MCO de a será inconsistente y si ρ es positivo, el parámetro será sesgado hacia arriba y el
estimador de rho será sesgado hacia abajo, de forma tal que el DW estimado estará sesgado hacia 2 y
no encontrará evidencia de autocorrelación serial.

Dado que la prueba DW no es aplicable a los modelos con rezago se sugiere una prueba alternativa
llamada, prueba h de Durbin y esta se define como:

Esta prueba se contrasta como una variable normal estándar. Donde ρ es estimado por los residuos
MCO y S2 β es la varianza del parámetro estimado y T es el tamaño de la muestra.

La prueba de Durbin Watson no puede ser utilizado para detectar la autocorrelación en los modelos
autorregresivos (como son el modelo de Koyck, y el modelo de expectativas adaptativas y el modelo
de ajuste de existencias), debido al siguiente hecho:

 Sabemos que en la prueba de Durbin Watson, el estadístico “d” calculado debe estar alrededor
de “2” para que el modelo sometido a prueba de autocorrelación no este autocorrelacionado.

 En los modelos autorregresivos, el estadístico “d” calculado tiende siempre a 2, por ende,
mediante la prueba de Durbin Watson no se puede detectar la autocorrelación en la variable
aleatoria µt en estos modelos.

 En vista de ello se ha propuesto la prueba h de Durbin para muestras grandes para detectar la
autocorrelación de primer orden en los modelos autorregresivos (ut = p ut-1 +εt).
 En esta prueba se utiliza el estadístico h.

h= p√ n/1- n (var a2).

donde:

n= tamaño de la muestra.

var(a2) = varianza del coeficiente del rezago Yt-1.

P= estimación de p (coeficiente de correlación serial de primer orden), donde p se puede


calcular con:

p= 1-d/2; donde d: el estadístico de Durbin Watson.

 Para un tamaño de muestra grande (asintótica) Durbin demostró que, bajo la hipótesis nula de
que p=0, h sigue una distribución normal estándar, es decir h ~N(0,1).

A un nivel de significación del 5%: ‫׀‬h‫>׀‬1.96, por consiguiente, si en una aplicación: ‫׀‬h‫>׀‬1.96, se
puede rechazar la hipótesis nula de que p=0, es decir existe evidencia de que existe autocorrelación de
primer orden en el modelo autorregresivo dado.

a) H0: P=0 (Hay autocorrelación).

HA :P ≠ 0 (No hay autocorelación)

b) Si ‫׀‬h‫ > ׀‬1.96 => se rechaza H0 y se acepta la HA, es decir, que hay evidencia de autocorrelación en
el modelo.

Estimaciones de los modelos regresivos.

Estimar la recta de regresión consiste en estimar los coeficientes de la regresión β0 y β1 para obtener la
recta:

Disponemos de dos criterios básicos de estimación, que proporcionan la misma solución. Utilizar uno
u otro depende de nuestros intereses estadísticos. Si tan sólo queremos determinar la recta, basta con
considerar el criterio de Mínimos Cuadrados. Si además pretendemos utilizarla con fines inferenciales
o predictivos, hablaremos de que nuestra solución es la máximo-verosímil, pero a su vez habremos de
ser más exigentes con las hipótesis del modelo.
 Solución por Mínimos cuadrados.

El criterio de mínimos cuadrados o minimización del error cuadrático medio, consiste en


minimizar las distancias entre los puntos observados y los predichos por la recta de ajuste. El
error cuadrático medio de la recta se define como:

La solución de mínimos cuadrados β^=(β0^,β1^) se obtiene minimizando S(β). El mínimo se


consigue derivando S(β) respecto de β0 y β1 e igualando a cero:

De ahí se obtienen las ecuaciones normales:

De donde las estimaciones para β0 y β1 resultan:

Con:
 Solución Máximo Verosímil

Habitualmente el objetivo de un análisis de regresión no consiste únicamente en estimar la


recta, sino en inferir con ella, esto es, asociar un error a las estimaciones obtenidas, contrastar
un determinado valor de los parámetros, y/o incluso predecir la respuesta, junto con una
banda de confianza, para un X=x dado. En ese caso, precisamos de distribuciones de
probabilidad para controlar la incertidumbre y el error. Añadimos pues, una hipótesis más
sobre la distribución de la variable respuesta, o lo que es lo mismo, sobre el error aleatorio ϵ.
Dicha hipótesis es la de normalidad de los errores.

Así, el total de hipótesis básicas del modelo de regresión con fines inferenciales, viene
resumido en la siguiente expresión:

Esto es, hablamos de errores aleatorios independientes e idénticamente distribuidos (iid)


según una distribución Normal con media cero y varianza σ2, lo que implica directamente que
la distribución para la variable respuesta será:

Desde este momento, los datos proporcionan información sobre los parámetros del
modelo, β=(β0,β1) a través de la verosimilitud conjunta:

Por tanto, obtener la solución más factible a la vista de los datos observados {(xi,yi),i=1,…,n}
equivale a obtener la solución máximo-verosímil, esto es, la que maximiza la verosimilitud.
Maximizar la verosimilitud es equivalente a maximizar la log-verosimilitud l(β,y), que tiene
una expresión más sencilla sin exponenciales. La solución máximo-verosímil se obtiene
derivando e igualando a cero l(β,y), lo que da lugar, de nuevo, a las ecuaciones normales. Así
pues, la solución máximo-verosímil coincide con la de mínimos cuadrados.

Para obtener el ajuste máximo verosímil utilizaremos la función lm() que permite el ajuste de
cualquier modelo lineal. Su expresión más básica viene dada por:
 Propiedades de la recta de regresión.

Las propiedades más relevantes y básicas del ajuste de la recta de regresión son las siguientes:

1. La estimación de la respuesta para un valor de x=x concreto según el modelo de


regresión lineal simple se obtiene de la recta de regresión ajustada:

2. La suma de los residuos de una recta de regresión con término de interceptación β0 es


cero,

3. La media de los valores observados yi coincide con la media de los valores predichos
y^i,

4. La recta de regresión pasa por el centroide de medias (x¯,y¯).

5. La suma de los residuos ponderados por el valor correspondiente de la variable


predictora x es cero,

6. La suma de los residuos ponderados por el valor ajustado por la recta y^ es cero,

 Estimación de la varianza del modelo.

La varianza σ2 de los errores es una medida de la variabilidad (heterogeneidad) entre los


individuos respecto a la media cuando el modelo RLS describe adecuadamente la tendencia
entre las variables Y y X, o lo que es lo mismo, de la dispersión de las observaciones respecto
de la recta de regresión. Así pues, da una medida de bondad de ajuste del modelo de regresión
a los datos observados. Cuando el modelo de regresión ajustado es bueno para nuestros datos,
es posible conseguir una estimación de la varianza σ2 a partir de la suma de cuadrados
residual SSE, también llamada suma de cuadrados debida al error:
SSE da una medida de la desviación entre las observaciones yi y las estimaciones que
proporciona la recta de regresión, y^i. Puesto que en el modelo de regresión lineal simple se
estiman 2 parámetros, los grados de libertad asociados a SSE son n−2. Se define pues el
cuadrado medio residual, MSE, como un estimador de σ2, que además resulta ser insesgado
(esto es, su valor esperado es σ2):

El error estándar residual viene dado por:

Modelo de Koyck.

 El modelo de expectativas adaptativas.

Supongamos que tenemos el modelo:

Yt = B0 + B1 Xt* +ut.

donde:

Yt : demanda de dinero;

Xt*: tasa de interés esperado, normal, o de largo plazo.

2) La variable de expectativa: Xt* no es directamente observable.

3) Por lo cual se propone la siguiente hipótesis que describe como se forma las expectativas:
Xt* - X*t-1 = θ ( Xt – X*t-1 ); donde 0< θ≤1.

4) La hipótesis implica que los agentes económicos adaptaran sus expectativas a la luz de la
experiencia pasada, es decir aprenderán de sus errores.

5) Xt* - X*t-1 : brecha entre el valor esperado actual y el valor esperado en el periodo anterior
( Xt – X*t-1 ): brecha entre el valor actual y su valor esperado anterior.

6) Las expectativas son corregidas en cada periodo por una fracción θ de la brecha entre el valor
actual de la variable y su valor esperado anterior.
 Derivación del modelo de Expectativas Adaptativas.

1) Yt = B0 + B1 Xt* +ut.

2) Xt* - X*t-1 = ɵ ( Xt – X*t-1)=>

Xt* = ɵ Xt +(1- ɵ ) X*t-1.

3) Sustituyendo (2) en (1).

Yt = B0 + B1 [ ɵ Xt +(1- ɵ ) X*t-1] +ut.

4) Yt = B0 + B1 ɵ Xt + B1 (1- ɵ ) X*t-1 +u.

5) Especificando (1) para el tiempo t-1 :

Yt-1 = B0 + B1 X*t-1 +ut-1.

6) Multiplicando (5) por (1- ɵ ) tenemos:

(1- ɵ ) Yt-1=(1- ɵ )B0 + (1- ɵ ) B1 X*t-1 + (1- ɵ )ut-1.

7) Restando (6) de (4) :

Yt- (1- ɵ )Yt-1=B0 -(1- ɵ )B0+ɵB1Xt +ut - (1- ɵ ) ut-1.

Yt= ɵB0 + ɵB1 Xt + (1- ɵ ) Yt-1 + ut - (1- ɵ ) ut-1.

=>Yt= ɵB0 + ɵB1 Xt + (1- ɵ ) Yt-1 + vt ( el modelo de expectativas adaptativas).

 El modelo de Ajuste Existencial o Ajuste Parcial.

1) Supongamos que tenemos el modelo:

Yt* = B0 + B1 Xt +ut;

donde:

Yt* : Nivel de existencias de capital deseado o de largo plazo


Xt : Nivel de producción.

2) Como Yt* es una variable que no es directamente observable Se postula la siguiente


hipótesis:
Yt – Yt-1 = δ ( Yt* - Yt-1 ); tal que: 0< δ≤ 1.
3) Yt – Yt-1 : cambio observado.
( Yt* - Yt-1 ): cambio deseado o de largo plazo.

4) Se postula que el cambio observado en la existencia de capital (Inversión) en cualquier


momento del tiempo t es una fracción δ del cambio deseado en ese periodo.

 Modelo de Expectativas Adaptativas y Ajuste Parcial.

1) Considérese el modelo: Yt* = B0 + B1 Xt* +ut;

2) Donde Yt* = existencias d capital deseado.

Xt* = nivel de producción deseado.

3) En este caso tenemos que utilizar las dos hipótesis sobre las variables de expectativas.

4) Yt = δ Yt* + (1- δ) Yt-1.

5) Xt* = ɵXt +(1- ɵ ) X*t-1.

 Estimación de modelos autorregresivos.

1) Los modelos de Koyck, de expectativas adaptativas, y de ajuste parcial son modelos


autorregresivos:

2) los modelos autorregresivos son modelos que tienen como variables explicativas a
variables rezagadas de la variable endógena, es decir son de la forma siguiente:

3) Yt = ɸ0 + ɸ1 Xt + ɸ2 Yt-1 + ɸ3 Yt-2 + …+ ut.

4) Yt = α0 + B0 Xt + λ Yt-1 + λ ut.

Yt= ɵB0 + ɵ B1 Xt + (1- ɵ ) Yt-1 + ut - (1- ɵ ) ut-1.

Yt = δ B0 + δ B1 Xt + (1- δ) Yt-1 + δ ut.

5) Los modelos autorregresivos tienen dos problemas de estimación que son:

a) Estos modelos están autocorrelacionados, es decir:

E( vt vt-1) ≠0.

b) La covarianza de su variable aleatoria con la variable explicativa Yt-1 es diferente de cero,


es decir la variable aleatoria esta correlacionada con la variable explicativa Yt-1.

cov(vt ,Yt-1 ) ≠ 0.
6) El modelo de Koyck y el modelo de expectativas adaptativas no cumple con dos de los
supuestos del MCO.

Las violaciones de estos supuestos de MCO dan lugar a estimadores sesgados e


inconsistentes.

c) La implicación de encontrar que en el modelo de Koyck igual que en el modelo de


expectativas adaptativas, la variable explicativa estocástica:

Yt-1, este correlacionada con el termino de error vt es que los estimadores MCO no solamente
están sesgados, sino que, además, no son consistentes (aun si el tamaño de la muestra se
aumenta indefinidamente los estimadores no se aproximan a sus valores poblacionales)
— Sin embargo, el modelo de ajuste parcial es diferente. En este modelo vt=δut, donde
0<δ≤1. Por consiguiente, si ut satisface los supuestos del modelo clásico de regresión
lineal, igual lo hará δut, por tanto, la estimación MCO del modelo de ajuste parcial
tendrá estimaciones consistentes aun cuando las estimaciones tiendas a estar sesgadas
(en muestras finitas o pequeñas).

 Demostrar para el modelo de Koyck.

1) E( vt vt-1) = -λ σ2

2) cov( vt yt-1)= -λσ2

Para corregir estos problemas el modelo Koyck y el modelo de expectativas adaptativas se


estima utilizando el Método de variables instrumentales que dará estimaciones consistentes y
sesgadas en muestras pequeñas, sin embargo, el método de variables instrumentales puede a
su vez generar el problema de multicolinealidad, por ende, el método más adecuado para
estimar estos modelos es el método de la máxima verosimilitud.

Método de variables instrumentales.

El método de Variables Instrumentales (VI) se utiliza para solucionar el problema de endogeneidad de


una o más variables independientes en una regresión lineal.

La aparición de endogeneidad en una variable indica que esta variable está correlacionada con el
término de error. En otras palabras, se ha omitido una variable que está correlacionada con las otras.
Hablamos de variables explicativas que presentan correlación con el término de error. Otro método
muy popular para resolver el problema de la endogeneidad es el estimador de Mínimos Cuadrados en
Dos Etapas (MC2E). La función principal de VI es detectar la presencia de una variable explicativa en
el término de error.

El método de variables instrumentales es una alternativa para estimar el efecto de dicha variable de
interés (X1) sobre la variable dependiente. Intuitivamente, este método consiste en encontrar un
instrumento (Z) que juegue el rol de la variable de interés (X1) sin tener el problema que dicha
variable de interés tiene.
 Introducción al concepto.

Queremos estudiar la variación de los precios de los forfaits en función del número de pistas y
las aversiones al riesgo de los esquiadores reflejada en la calidad del seguro. Ambas variables
explicativas son variables cuantitativas.

Suponemos que incluimos la variable segura en el término de error (u), resultando en:

Entonces, la variable segura se convierte en variable explicativa endógena porque pertenece al


término de error y, por tanto, está correlacionado con él. Como quitamos una variable
explicativa, también quitamos su regresor, en este caso, B2.

Si hubiéramos estimado este modelo con Mínimos Cuadrados Ordinarios (MCO), hubiéramos
obtenido una estimación inconsistente y sesgada para B0 y Bk.

Podemos utilizar el Modelo 1.A si encontramos una variable instrumental (z)


para pistas cumpliendo:

o Cov (z, u) = 0 => z no está correlacionada con u.

o Cov (z, pistas) ≠ 0 => z sí está correlacionada con pistas.

Esta variable instrumental (z) es exógena al Modelo 1 y, por tanto, no tiene ningún efecto
parcial sobre log(forfaits). Aun así, es relevante para explicar la variación en pistas.

 Contraste de Hipótesis.

Para saber si estadísticamente la variable instrumental (z) está correlacionada con la variable
explicativa (pistas), podemos probar la condición Cov(z,pistas) ≠ 0 dada una muestra
aleatoria de la población. Para ello tenemos que hacer la regresiación entre pistas y z.
Utilizamos una nomenclatura distinta para diferenciar sobre qué variables se está regresando.
Interpretamos a los π0 y πk de la misma manera que las B0 y Bk en las regresiones
convencionales.

Entendemos π1 = Cov (z,pistas) / Var(z).

1. Definición de la hipótesis.

En este contraste queremos probar si se puede rechazar π1 = 0 a un nivel de significación


suficientemente pequeño (5%). Por tanto, si la variable instrumental (z) está correlacionada
con la variable explicativa (pistas) y poder rechazar H0.

2. Estadístico de Contraste.

3. Regla de Rechazo.

Determinamos el nivel de significación al 5%. Por tanto, nuestra norma de rechazo se basará
en | t | > 1,96.

o | t | > 1,96: rechazamos H0. Es decir, rechazamos no correlación entre z y pistas.

o | t | < 1,96: no tenemos suficientes evidencias significativas para rechazar H0. Es


decir, no rechazamos que no exista correlación entre z y pistas.

4. Conclusión.

Si concluimos que π1 = 0, estadísticamente la variable instrumental (z) no es buena


aproximación para la variable endógena.

Método de Shiller.

El indicador PER (Price to Earnings Ratio), es muy conocido en el análisis fundamental para las
empresas que cotizan en Bolsa, su sencilla ecuación que relaciona el precio de la acción (precio de
cotización) dividido por su BPA (Beneficio por acción) nos indica cuántas veces el beneficio está
incluido en el precio.
Así para un PER bajo, entre 0 y 10 nos indica que el precio está infravalorado o las expectativas de
beneficios son bajas, con un PER entre 10 y 17 (más apreciado en los mercados) nos encontramos con
empresas estables en la relación precio/beneficio, entre 17 y 25 tenemos sobrevaloración o esperanza
de buenos beneficios y con un PER por encima del 25, tenemos grandes expectativas de beneficios o
el valor se encuentra dentro de una burbuja especulativa. Siempre hay que hacer las comparativas con
empresas del mismo sector y en el mismo mercado, basándose en datos históricos.

Con los actuales ratios de 32 en el mercado americano, el doble que su media histórica, nos
preguntamos si el CAPE (ajuste del PER a beneficios normalizados de los últimos diez años) o PER
de Shiller sirve para algo.

Método de causalidad de Granger.

El test de causalidad de Wiener-Granger, o causalidad de Granger, es una prueba estadística empleada


para determinar si una serie temporal puede predecir a otra. Para ello se basa en la idea de que, si una
serie temporal X causa otra Y, los modelos de Y en los que se emplean datos retrasados de X e Y
deben funcionar mejor los basados únicamente en datos retrasados de Y. Permitiendo identificar en
series temporales en las que se observa una correlación que variable antecede a la otra.

 Causalidad no significa causa-efecto.

El concepto de causalidad que mide el test de Wiener-Granger se puede relacionar con el


concepto de causa-efecto, aunque no es lo mismo. El test solamente identifica si una variable
antecede a otra en una serie temporal. Lo que la convierte en una buena predictora para la
serie temporal. Es decir, si en unos datos se observa causalidad de Granger, no existe
necesariamente un vínculo causal en el verdadero sentido de la palabra. Por ejemplo, ahora
que se acercan las Navidades se podría observar que las ventas de turrón muestran causalidad
de Granger con la Navidad, pero no causan esta. Sino que las ventas de turrón se producen
por la misma causa que la Navidad, el calendario.

 Metodología.

La literatura (Seth, 2007 entre otros) es amplia aunque no siempre


suficientemente divulgativa. Oxley y Greasley (1998) defienden que el test puede
realizarse en dos versiones:

a) Si las variables son estacionarias o, siendo no estacionarias, están cointegradas, en


este último caso debido a la superconsistencia de la estimación, se puede correr el
siguiente modelo con las variables en estado:

Con los rezagos (m, n, q y r) que se estime “razonablemente” convenientes (normalmente de


3-5. Al final se propondrá un test de ayuda). Se pueden hacer dos contrastes, el más fácil es
pasar el test de que todas las yj, en [1], sean conjuntamente = 0 y las cj, en [2], sean
conjuntamente = 0. En Stata se puede utilizar testparm var o bien test var (ambos son el
conocido como test de Wald) después de regress. Otro contraste alternativo es construir dos
regresiones auxiliares restringidas (se llaman restringidas porque suponemos que un grupo de
parámetros son cero lo que equivale a eliminar las variables de la ecuación), en la forma:

Y calcular alguno de los estadísticos que comparan si la diferencia entre los ajustes de los
modelos anidados (en este caso se refiere a restringidos y no) son significativos. Por ejemplo,
el test de la verosimilitud (en Stata es lrtest después de dos regresiones almacenadas como
estimates store) se construye como:

Donde L(m1) y L(m2) es la verosimilitud del modelo restricto e irrestricto respectivamente y


Ll(m1) y Ll(m2) es el logaritmo de la verosimilitud (que es parte del output de Stata tras
regress) de modelo irrestricto y restringido y se distribuye como una Chi cuadrado con la
diferencia de grados de libertad de ambos modelos (es decir el número de variables omitidas
en el modelo restringido: n en el caso [1] ó r en el caso [2]).

B) Otra alternativa, equivalente a la anterior pero para testar la causalidad de series


temporales no estacionarias pero cointegradas en el corto plazo (conviene recordar que la
cointegración permite medir la correlación en el largo – el modelo anterior - y en el corto
plazo), es comprobar si existe causalidad en el sentido de Granger entre las variables en
diferencias, pero dada la no estacionariedad de las series, dicha correlación ha de ser
corregida mediante el modelo de corrección de errores. Los modelos a usar serán entonces:

A este modelo se le puede pasar el mismo test de Wald o el Lr test descrito para el caso
anterior a fin de determinar la causalidad. La elección de los retardos Como se ha
mencionado, una dificultad inherente a cualquiera de las dos versiones es determinar el
número de rezagos a incluir en los modelos. El mejor consejo es utilizar la razón en función
de la naturaleza temporal de los datos, pero también existe herramientas estadísticas que
puede ayudarnos. Así, en el caso de regresión lineal (MCO) se introducirían rezagos en tanto
creciera el coeficiente de determinación (R2) ajustado. En el caso de MCG, dicotómicos u
otros una alternativa sería Utilizar Akaike Información Criterion (AIC) o Criterios de
información Bayesiana (BIC) que son dos medidas usuales que comparan el ajuste (medido
como verosimilitud) de distintos modelos, estén o no anidados (Akaike, 1974; Raftery, 1995;
Sakamoto, Ishiguro, and Kitagawa, 1986); Schwarz, 1978; etc). Estas se definen como:

Donde:

ln(v) = logaritmo de la verosimilitud.


k = número de parámetros estimados (variables independientes + constante).
N = número de observaciones.

El criterio de selección es que, para los mismos datos, el modelo de regresión


que arroje un resultado menor en cualquiera de ambos es el mejor modelo. Este test está
implementado en Stata como estat ic tras cualquier regresión.

En Stata, si, para estimar el modelo, se utiliza glm, binreg o ml también computa
ambos estadísticos, pero utiliza funciones algo distintas:

Donde:

ln(v) = logaritmo de la verosimilitud.

k = número de parámetros estimados (variables independientes + constante).

N = número de observaciones.

D = Desviación (Deviance). Es similar al concepto de razón de verosimilitudes.

Pero a la inversa: La razón de verosimilitudes relaciona el ajuste del modelo actual con
el del modelo en que sólo está la constante mientras que la Desviación relaciona el
ajuste del modelo actual con el del modelo saturado (el que ajusta perfectamente porque
contiene tantos parámetros a estimar como datos).

Montero. R (2013): Test de Causalidad. Documentos de Trabajo en Economía Aplicada.


Universidad de Granada. España

También podría gustarte