Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% encontró este documento útil (0 votos)
482 vistas20 páginas

Modelos de Duración

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1/ 20

TEMA 2.

MODELOS DE DURACIÓN (comandos empiezan por st)

1. INTRODUCCIÓN
Los datos de duración suministran información sobre la medida del tiempo que transcurre entre el inicio y el final de un
suceso, por ejemplo:

- Movimiento entre estados laborales.


- Movimientos maritales.
- Duraciones de huelgas, programas de formación, patentes…
- Duración hasta que se produce una inversión, una compra en bolsa, la vuelta desde la emigración…
- Mortalidad (empresas, individuos…).
- Tratamiento médico (enfermedades, trasplantes…).

La observación de un individuo que sale del estado estudiado en el momento t será una realización de la variable T, es
decir, observamos que T = t. Interpretamos esta observación como que la duración del individuo en el estado estudiado
es igual a t periodos.

Los modelos de duración tienen tres componentes:

a) El tiempo
b) Variable observada
c) Variables explicativas

1.1. La censura

La censura aparece en los datos de duración cuando en el momento en que hacemos la medición, el suceso aún no ha
terminado o ha desaparecido de nuestra vista (normalmente los datos de duración no se observan de forma completa).
Ignorar la censura tiene mismas consecuencias en modelos de duración que en regresión.

 Censura por la derecha: No conocemos la duración final, sólo observamos que T > t (la duración de su estancia
en el estado estudiado es mayor que la observada en el momento de abandonar la muestra).
 Censura por la izquierda: No conocemos la duración inicial, y por tanto no observamos a los individuos desde el
inicio del suceso.

1.2. Otros conceptos

Período: Es el intervalo temporal entre el inicio de un suceso y su final, es decir, entre el comienzo de un estado y el paso
desde éste a otro estado.

Tránsito: Cuando una o varias características fundamentales del estado se alteran se dice que se ha producido un tránsito
entre estados, que el suceso pasa del estado inicial a un nuevo estado.

Efecto calendario: Las observaciones de datos de duración pueden tener un instante inicial común o pueden comenzar
en instantes distintos del tiempo. La influencia del tiempo en general si es relevante.

2. HERRAMIENTAS DE LOS MODELOS DE DURACIÓN


2.1. Función distribución acumulada

Si se representa la duración de un periodo de tiempo mediante la variable aleatoria T. El final del suceso, el tránsito a
otro estado, es un fenómeno dinámico. A medida que el periodo transcurre, siempre en cada momento, existe un riesgo
de que se produzca un tránsito. Describimos T por su función de distribución acumulada que especifica la probabilidad
de que la variable aleatoria T sea menor que algún valor de t.

2.2. Función de densidad


Para variables aleatorias continuas, la función de densidad de probabilidad da una visión equivalente. Este es el enfoque
no condicionado.

2.3. Función de supervivencia

La función de supervivencia da la probabilidad de que la duración del período de tiempo sea el menos de t:

2.4. Función de riesgo (hazard rate)

Es la probabilidad de que el periodo finalice, haya un tránsito, en el momento T=t+t, condicionado a que el individuo
ha sobrevivido hasta t. Su expresión es:

Es decir, mide la velocidad con la que se van completando los periodos de tiempo tras llegar a una duración de t, teniendo
en cuenta que ya ha durado hasta t. Se conoce también como tasa de salida o razón de fallo entre otras denominaciones.

Esta función es la que mejor caracteriza el proceso estocástico descrito:

 Si h(t)/dt>0 el proceso se dice que tiene una dependencia de la duración positiva.


 Si h(t)/dt<0 el proceso exhibe una dependencia de la duración negativa.
 La no-dependencia del tiempo se produce cuando h(t)/dt=0 t, que es una característica de los procesos sin
memoria. Por ejemplo, este tipo de procesos se da cuando sigue una distribución exponencial.
3. MODELOS DE DURACIÓN: TIEMPO CONTINUO Y DISCRETO
El tiempo que transcurre entre los sucesos es medido en escala de:

 Tipo continuo: El acontecimiento puede suceder en cualquier momento del tiempo.


 Tipo discreto: El acontecimiento sucede sólo en momentos concretos del tiempo o las informaciones
disponibles no son lo suficientemente precisas como para considerar las duraciones continuas. Ejemplo:
duraciones de desempleo en semanas o trimestres.

Los métodos en tiempo discreto presentan algunas ventajas como que pueden ser estimados de forma más sencilla
(relacionada con modelos logit).

4. MÉTODOS DE ESTIMACIÓN
Modelos de tipo continuo

4.1. Componentes del modelo MPH (riegos proporcionales mixto)

Lancaster (1979) desarrolló el MPH, que especifica la tasa de salida o función de riesgo como el producto de tres
componentes:

h(t) = h0 (t)(X,)v

h0 (t) es el riesgo básico;


(X,)=exp(X’ ) es la influencia de la het. observada (siempre en forma exponencial);
v es la heterogeneidad inobservada.

El riesgo básico h0(t) recoge el efecto del tiempo transcurrido sobre la probabilidad de que ocurra un tránsito, bajo el
supuesto que la heterogeneidad observada e inobservada es constante. Si se aplican logaritmos se tiene la relación entre
la tasa de salida y la heterogeneidad observada e inobservada de la siguiente manera.

Ln(h(t)) = ln(h0 (t))+X’+ln(v) = (t)+ X + u

Las especificaciones más utilizadas por los investigadores para el riesgo básico son las distribuciones paramétricas. Están
sujetas a críticas porque los parámetros de los modelos de duración son sensibles a las distintas especificaciones
paramétricas de la función de riesgo básico.

Función de densidad, supervivencia y riesgo de las distribuciones paramétricas:


La función de regresores (X,) contiene información de la heterogeneidad observada que influyen sobre la probabilidad
de que el suceso se produzca. Estos regresores son variantes e invariantes en el tiempo, y tienen en cuenta el efecto
calendario en cada periodo. Se colocan en la forma habitual pero su influencia sobre la tasa de salida siempre obedece a
la distribución exponencial:

(X(t),)=exp(`X).

La heterogeneidad inobservada captura el efecto de aspectos inobservados de los individuos o de efectos aleatorios
específicos de los individuos inobservables en los datos como la habilidad, actitud, etc. sobre la probabilidad de tránsito.
Se controla introduciendo:

- Distribución gamma (más común y criticada).


- Distribución no paramétrica (discreta) mediante puntos de soporte (más conveniente).

El método no paramétrico consiste en especificar la distribución de la heterogeneidad F(v) como una función escalón con
J grupos homogéneos. La correspondiente función de distribución de la heterogeneidad será discreta con un número
finito de puntos de soporte conocidos, cuyas localizaciones vi , i=1,...,J también son conocidas y tiene una masa de
probabilidad asociada, pj , j=1,....,J, donde pj=1.

El modelo de tasa de salida analizado hasta ahora es el modelo de tasa de salida mixto (mixed proportional hazard model,
MPH), véase Lancaster (1979), Heckman and Singer (1984a,b). Si se elimina la heterogeneidad inobservada tenemos el
modelo de riesgos proporcionales (proportional hazard, ph), véase Cox (1972).

h(t) = 0 (t)(X,)

Si no tenemos en cuenta la heterogeneidad observada e inobservada, el modelo es no paramétrico:

h(t) = 0 (t)

4.2. Función de verosimilitud

Si tenemos una muestra de N individuos (i=1,2,…N) que tienen datos de duración T (t=0,1,….ti ), que comienzan su
duración en el mismo momento del tiempo t=0, y continua hasta el momento del tiempo t i , donde si el suceso se produce
antes de ese momento, la duración será completa (di1=1), en caso contrario censurada o incompleta (di1=0). Entonces
la función de verosimilitud será:
Aplicando logaritmos para linealizarla:

La clave es tener cuál es la tasa de salida f(t), y cuál la función de supervivencia S(t). Las multiplicamos y ya tendríamos la
función de verosimilitud.

4.3. La métrica AFT (Accelerated Failure Time)

Otra manera de estimar los modelos de duración puede ser la siguiente:

𝑙𝑛𝑇𝑖 = 𝑋𝑖𝛾 + 𝜖𝑖

Es un modelo de regresión del log- del tiempo de supervivencia. Se corresponde también con el modelo:

𝑇𝑖 = exp(𝑋𝑖𝛾) ∗ 𝑢𝑖

Donde 𝜖𝑖=ln (𝑢𝑖) sigue una distribución exponencial, así que ϵi se conoce como una distribución de valor estremo(extreme
value distribution) con medio 0 y varianza igual a 1.
EJEMPLO

Se utiliza la base de datos que corresponden a la MCVL (Muestra Continua de Vidas Laborales) utilizada en el artículo:
Arranz, J.M. and García-Serrano (2013), “The effective measure of unemployment benefit duration: data on spells or
individuals”, Applied Economics Letters, vol. 20(14), 1328-1332.

Queremos analizar la tasa de salida de desempleo hacia el empleo de los perceptores de las prestaciones:

 Estado inicial: Todos desempleados (t=0).

cd "C:\Users\alba.baranco\Desktop\Econometría" = localizo el directorio

log using duración.log = guardo el archivo con el nombre “duración.log” en ese directorio

A) Analizo la tasa de salida de desempleo hacia el empleo de los perceptores de prestaciones.

- Estado inicial: Todos desempleados (t=0).


- Estado final: Encuentran un empleo (duración completa), o continúan desempleados (censura).
- La variable a estimar será discreta: encontrar un trabajo (1) o no (0).

Organizamos los datos antes de la estimación. Disponemos de 75067 individuos de los cuales un 94,54%
encuentran un empleo (censur=1, duración completa) y el restante 5,46% continúan desempleados al finalizar
el período de análisis (censur=0, duración censurada).

Nos interesa medir el tiempo hasta que encuentran un empleo (time). El máximo valor es 1800 días (60 meses)
en nuestros datos.

Primero. Declaro mis datos de duración: st siempre delante de todos los comandos para modelos de duración. Identificar
que estamos trabajando con este tipo de datos, indicando la censura y la duración:

stset durtocur, failure(censu)

stset = siempre pongo st delante de todos los comandos para modelos de duración;
durtocur = nombre de la variable que recoge el tiempo;
failure(censu) = variable fija que distingue entre duración completa (no hay censura) o incompleta (censur).

stdes = descriptivos del modelo

sts graph = para hacer gráficos

Analysis time = Tiempo en el desempleo hasta que encuentren un empleo

streg = para hacer regresiones


Segundo. Análisis no paramétrico de Kaplan Meier. La probabilidad de sobrevivir después de “t”, o la
probabilidad de fallar después del momento “t”
sts graph, hazard

Hazard = es un acumulado de las tasas de salida

Cuanto más valores tiene, tiene más salida (es decir que tienen mayores tasas de salida al mercado laboral). Se produce
un repunte porque como la prestación tiene un máximo de 2 años, los individuos vuelven a intensificar su búsqueda.

En el primer tramo las prestaciones son por razones de eficiencia, pero en la segunda por razones de equidad (el nivel de
prestación disminuye pero se mantiene).

Si el tiempo no influye, la gráfica sería una línea recta. Los individuos cambian su comportamiento y las características
son diferentes en los modelos de duración.

sts list

Si representamos esta lista en Excel tendría que salir la curva de supervivencia igual que antes.

Calcúlame una tabla de supervivencia así:


sts list, hazard

cómo puedo saber si tiene más tasa de salida el hombre o la mujer?

sts graph, by (sexo)

cuando más a la derecha está la curva de supervivencia, más tarda en salir (está más tiempo en el desempleo).

En la última parte el tiempo prácticamente no influye porque es el fin de la prestación del desempleo. Si metemos más
regresores (edad, ocupación…), se desplazarán hacia la derecha o izquierda (porque estamos recogiendo las
características de la muestra).

Para saber si las dos curvas son iguales, hay que hacer un contraste para responder a si son iguales las tasas de
supervivencia (porque por lo juntas que están las curvas, son casi iguales):
Contraste de igualdad de supervivencia: sts test sexo, logrank (“quiero conocer la variable género si las tasas de salida
son idénticas”)

Como pa p=0 y por tanto es menor que 0,05 -> rechazo H0

Si H0 : h1(t) = h2(t) es decir que son idénticas ambas tasas de salida de hombres (1) y mujeres (2), como la rechazo por
ende aceptaría la hipótesis alternativa H1 : h1(t) ≠ h2(t) es decir que son diferentes.

FUNCIÓN DE REGRESIÓN

streg sex1 nacionalidad grupo2-grupo6, distribution(@@@@) nolog nohr

streg = le estamos indicando que es regresión en un modelo de duración (la variable dependiente ‘tiempo’ no hace falta
ponerla ya porque ya he definido antes mi modelo de duración y al poner streg Stata lo identifica ya)

grupo2-grupo6 = pongo un rango que excluya al grupo1

nohr = opción para que me calcule los coeficientes

distribution(@@@@) = indico el tipo de distribución, por ejemplo distribution(exp) para estimar la exponencial

Clase 11/11/19

ESTIMACIÓN MODELOS PARAMÉTRICOS

Si tenemos que elegir cuál es el mejor modelo de duración hay que hacer un contraste.

Criterios de Arkaike: teniendo en cuenta numero parámetros, observaciones y ajuste modelo calculo un indicador que
nos dice cómo de bueno es ese modelo en comparación con otro (el que mejor me ajuste mis datos será el mejor modelo).

El modelo no lineal es negativo por tanto el que mayor valor negativo tenga es el que menos ajusta.
Para saber cuál es el que mejor ajusta hacemos un gráfico y según la forma que veamos en la gráfica deduciremos qué
tipo de modelo es.

- Gomprtz; monótonos (crecen o decrecen)


- Lognormal: no monótonos (tienen un punto de inflexión y cambian)

Según criterio arkaike gompertz y weibull son los peores modelos. El modelo que mejor ajusta es el gamma generalizado
porque engloba el resto de distribuciones.

En Stata se pueden estimar 6 modelos paramétricos: Exponencial, Weibull, Gompertz, log-normal, log-logístico y el
gamma generalizado. Para estimar cualquier modelo:

Streg + variables explicativas (sex1 nacionalidad) , distribution(xxxx) nolog nohr

Al indicarle nohrel programa proporciona los coeficientes estimados y no ratios de probabilidad, nolog (evita poner las
iteraciones). Es importante en primer lugar la interpretación del coeficiente “p”si es menor que uno (como en nuestro
caso), indica que la función de riesgo es decreciente en el tiempo (al pasar el tiempo disminuye la probabilidad de salida.

En los mod de duración como la variable dep es el tiempo, es un modelo no lineal porque vamos a estimar un modelo
donde función verosimilitud es no lineal (está elevada a una serie de coeficientes), por tanto, hay que aplicarle logaritmos
para linealizarla. Por eso hay que recordar que la variable dependiente es logarítmica.

Si no indicamos al modelo que existe censura y que por tanto es incompleto, el modelo asumirá que la duración es
completa.

MODELO EXPONENCIAL

Modelo de duración donde no recoge el tiempo, es una variable constante o sea una línea recta (el tiempo no influye
en que un individuo encuentre trabajo o no).

streg sex1 nacionalidad grupo2-grupo6 , distribution(exp) nolog nohr

Sólo tenemos variables explicativas. En los grupos tengo que omitir el primero porque si pongo todos tendría una
distribución colineal.
Métrica AFT y PH (ver tablita, no todos los modelos usan ambas métricas):

 PH: calcular probabilidad de que una persona encuentre un empleo (tasa de salida).
 AFT: el tiempo que transcurre hasta que encuentres un empleo (cuánto tiempo tardas hasta que encuentras un
empleo).

Interpretación: Al ser un hazard form, veo que los varones (sex1) tienen mayor probabilidad de encontrar empleo que
las mujeres (sex0). Lo interpreto así porque uso la métrica PH. Además, al ser variables dicotómicas (0 y 1) tenemos que
interpretarlo de tal forma que la variable 1 = B0 + B1 y la variable 0 = B0 (por lo tanto el coeficiente que me sale en la
tabla es la diferencia que existe entre B0 que es la variable 0 o sea la mujer, y la variable B1 que es el hombre, por tanto
el hombre está X coeficiente por encima o por debajo de la mujer).

- Sexo: los hombres (1) tienen 0.1914 más de probabilidad que la mujer (0) de encontrar un empleo.
- Nacionalidad: los extranjeros (1) tienen -0.17826 menos probabilidad de encontrar empleo que nacionales (0).
- Todos tienen menos probabilidad de encontrar empleo que el grupo1 (grupo de referencia). La magnitud
negativa va disminuyendo

Z: distribución normal (cuando N tiende a infinito vemos significatividad). Los contrastes se hacen con una normal en
modelos de duración (en regresión lineal los contrastes son con una t de student o F de Snedecor).

P>z: todos los parámetros son significativos.

Si quitamos nohr y hacemos de nuevo la regresión nos va a salir el hazard ratio que tiene que darnos lo mismo que el
coeficiente B1 anterior a través de:

Hazard Ratio (HR) = Exp(B) – 1

Cuando es mayor que 1 tiene efecto positivo, y cuando es menor que 1 tiene efecto negativo.

Cuando son menores que la unidad tienen menos probabilidad (va a la inversa). Es decir en nacionalidad los extranjeros
tienen un 0,17 menos de probabilidad que los nacionales de conseguir empleo (calculo la inversa de 0.8367). el grupo3
por ejemplo diríamos que tiene un 0.20 menos de probabilidad de conseguir trabajo que el grupo1 (que es el grupo de
referencia).
estat ic

En la función del número de obvs que tenemos (75,067) compara la función similitud (-121465.6) con la constante (-
122245.4). Los grados de libertad son 8. El criterio de arkaike es 242947.1.

Cuantas más variables explicativas tenemos, mejor es la bondad de ajuste del modelo.

MODELO WEIBULL

Este modelo engloba el modelo exponencial. Siempre es una función monótona, que crece o decrece. Si estimamos este
modelo, además de las variables explicativas también recogemos:

stregsex1 nacionalidad grupo2-grupo6 , distribution(weibull) nolognohr

hay más información: son lo sparámetros que recogen el riesgo básico, en el modelo exponencial no hay porque es
constante.
Los resultados no cambian (el signo) pero las magnitudes sí. Los signos no cambian porque son modelos sensibles,
cambian las magnitudes.

 Si p>1 la tasa de salida tiene dependencia duración positiva.


 Si p<1 la tasa de salida tiene dependencia duración negativa

En los datos hay una diferencia de duración negativa: conforme aumenta el tiempo los individuos tienen menos
probabilidad de encontrar un empleo. Tendíamos que multiplicar la p (0.9190132) por cada uno de los individuos porque
es un modelo multiplicativo.

Si queremos estimar el hazard ratio quitamos la opción nohr:

El AIC y el BIC son dos criterios de bondad de ajuste que utilizamos para determinar si mi modelo es el que mejor ajusta.
Por lo tanto, esto tenemos que calcularlo para todos los modelos, y una vez que tenga mis modelos con el estat ic aplicado
utilizo el criterio AIC o el BIC (indiferente) y el que menor valor tenga, mejor ajusta.
 Likelihood = función de ajuste del modelo (log likelihood en la fórmula)

display(-2*(-120996.8)+(2*8)) = 242009.6

En la función del número de obvs que tenemos (75,067) compara la función similitud (-121465.6) con la constante (-
122245.4). Los grados de libertad son 8. El criterio de arkaike es 242947.1.

MODELO WEIBULL (AFT)

Modelo de tiempo de salida acelerada (AFT).


OJO, EN EL CASO DE AFT: A mayor valor, quiere decir que más tiempo permanece en desempleo. Si tiene efecto negativo
aparece más tiempo parado.

Si queremos convertir de un PH a un AFT, cogemos el parámetro –b/p = -(0.1748843)/0.919

Podemos calcular la función de supervivencia teniendo en cuenta las características de la muestra:

stcurv, hazardsaving(streg2,replace)
Conforme aumenta el tiempo disminuye la probabilidad de encontrar trabajo (teniendo en cuenta las variables
explicativas género, nacionalidad…).

MODELO GAMMA

La función de riesgo gamma es muy flexible. En esta función se incluyen:

 Modelo de Weibull cuando k=1


 Modelo exponencial cuando k=1 y σ=1,
 Y el modelo log-normal cuando κ=0. Este modelo es usado, principalmente, para evaluar y ayudar a seleccionar
el modelo paramétrico más adecuado.
 Coeficiente negativo = menos tiempo desempleado = más probabilidad de encontrar empleo.
 Coeficiente positivo = más tiempo desempleado = menos probabilidad de encontrar empleo.

0.473213 = positivo = más tiempo de permanencia para los extranjeros (1) en el estado (y por tanto menos probabilidad
de encontrar trabajo frente a los nacionales 0).

Como no hay métricas de tasas de salida proporcionales, no puedo calcular el ratio de proporcionalidad (no hace falta
poner nohr). Sólo calcula un tipo de métrica que es AFT (tiempo que transcurre hasta que sale de ese estado), no la PH.

Hemos estimado un modelo gamma, y ahora hacemos un contraste para saber qué modelo es realmente, porque el
gamma incluye el exponencial y el weibull.

 Cuando k=1 es un modelo weibull, por tanto hago el contraste test [/kappa] = 1

Según este resultado, como la p < 0.05 es significativo y por tanto se rechaza la hipótesis nula (es el modelo de
weibull) y se acepta la alternativa (no es un modelo de weibull).

 Cuando k=0 es un modelo lognormal, por tanto hago el contraste test [/kappa] = 0
Según este resultado, como la p < 0.05 es significativo y por tanto se rechaza la hipótesis nula (es el modelo de
weibull) y se acepta la alternativa (no es un modelo de weibull).

POST-ESTIMACIÓN: PREDICT

Muy útil para poner el promedio.

MODELO DE COX

En este modelo suponemos que hay un riesgo proporcional en todas las variables explicativas pq hombres y mujeres
tienen misma prob de salida.

stcox sex1 nacionalidad grupo2-grupo6, nohr nolog

La hipótesis nula se rechaza en el caso del sexo y del grupo4.


Clase 25/11/19

Cuando estamos estimando estamos maximizando una función de máxima verosimilitud. En los modelos de duración hay
duraciones censuradas por eso aparece función de densidad x función de supervivencia.

Stata aplica logaritmos a esa función para linealizarla. Podemos suponer que la función de densidad y función
supervivencia en función de la distribución se hace una parametrización u otra:

La métrica, cuando estimo mis coeficientes y elijo una métrica u otra, estimo la probabilidad de que se produzca ese
suceso (PH) o el tiempo que transcurre hasta que se produce el suceso (AFT). De esta manera se interpretan los
coeficientes.

La métrica AFT (Accelerated Failure Time)

La variable dependiente no es la tasa de salida, sino:

lnTi = Xiγ + e

(el logaritmo del tiempo = regresores + error)

Interpretamos los parámetros/coeficientes como el efecto positivo o negativo sobre la duración.

Si ponemos el comando “nohr” calcula los coeficientes (necesito que me los reporte en la tabla), y si ponemos “nohr
time” calcula los coeficientes en modelo de salida acelerada (sólo podemos poner time en todos los modelos menos la
Gompertz).

La función de verosimilitud es el producto de las funciones de densidad individuales (estamos maximizando el producto
de todas ellas), teniendo en cuenta las características de cada regresor.

Da igual el modelo que usemos, siempre tenemos que conocer siempre función de densidad y función de supervivencia.
Estas se sustituyen en la función de verosimilitud, maximizándola. Por tanto, si estimamos un modelo exponencial en la
métrica de PH, el coeficiente estimado es lo mismo tanto en PH como en AFT, pero cambia el signo.

Ejemplo: ¿cuál es la tasa de salida de los individuos?

Coeficiente = -5.23  0.05 es la velocidad de salida en la métrica de PH

Coeficiente = 5.23 (si pongo “time” es AFT) = tiempo estimado de supervivencia en media (pq estimamos el
promedio que tiene que estar incluido en los intervalos) es exp(5.2389) = 188.47 días

También podría gustarte