Modelos de Duración
Modelos de Duración
Modelos de Duración
1. INTRODUCCIÓN
Los datos de duración suministran información sobre la medida del tiempo que transcurre entre el inicio y el final de un
suceso, por ejemplo:
La observación de un individuo que sale del estado estudiado en el momento t será una realización de la variable T, es
decir, observamos que T = t. Interpretamos esta observación como que la duración del individuo en el estado estudiado
es igual a t periodos.
a) El tiempo
b) Variable observada
c) Variables explicativas
1.1. La censura
La censura aparece en los datos de duración cuando en el momento en que hacemos la medición, el suceso aún no ha
terminado o ha desaparecido de nuestra vista (normalmente los datos de duración no se observan de forma completa).
Ignorar la censura tiene mismas consecuencias en modelos de duración que en regresión.
Censura por la derecha: No conocemos la duración final, sólo observamos que T > t (la duración de su estancia
en el estado estudiado es mayor que la observada en el momento de abandonar la muestra).
Censura por la izquierda: No conocemos la duración inicial, y por tanto no observamos a los individuos desde el
inicio del suceso.
Período: Es el intervalo temporal entre el inicio de un suceso y su final, es decir, entre el comienzo de un estado y el paso
desde éste a otro estado.
Tránsito: Cuando una o varias características fundamentales del estado se alteran se dice que se ha producido un tránsito
entre estados, que el suceso pasa del estado inicial a un nuevo estado.
Efecto calendario: Las observaciones de datos de duración pueden tener un instante inicial común o pueden comenzar
en instantes distintos del tiempo. La influencia del tiempo en general si es relevante.
Si se representa la duración de un periodo de tiempo mediante la variable aleatoria T. El final del suceso, el tránsito a
otro estado, es un fenómeno dinámico. A medida que el periodo transcurre, siempre en cada momento, existe un riesgo
de que se produzca un tránsito. Describimos T por su función de distribución acumulada que especifica la probabilidad
de que la variable aleatoria T sea menor que algún valor de t.
La función de supervivencia da la probabilidad de que la duración del período de tiempo sea el menos de t:
Es la probabilidad de que el periodo finalice, haya un tránsito, en el momento T=t+t, condicionado a que el individuo
ha sobrevivido hasta t. Su expresión es:
Es decir, mide la velocidad con la que se van completando los periodos de tiempo tras llegar a una duración de t, teniendo
en cuenta que ya ha durado hasta t. Se conoce también como tasa de salida o razón de fallo entre otras denominaciones.
Los métodos en tiempo discreto presentan algunas ventajas como que pueden ser estimados de forma más sencilla
(relacionada con modelos logit).
4. MÉTODOS DE ESTIMACIÓN
Modelos de tipo continuo
Lancaster (1979) desarrolló el MPH, que especifica la tasa de salida o función de riesgo como el producto de tres
componentes:
h(t) = h0 (t)(X,)v
El riesgo básico h0(t) recoge el efecto del tiempo transcurrido sobre la probabilidad de que ocurra un tránsito, bajo el
supuesto que la heterogeneidad observada e inobservada es constante. Si se aplican logaritmos se tiene la relación entre
la tasa de salida y la heterogeneidad observada e inobservada de la siguiente manera.
Las especificaciones más utilizadas por los investigadores para el riesgo básico son las distribuciones paramétricas. Están
sujetas a críticas porque los parámetros de los modelos de duración son sensibles a las distintas especificaciones
paramétricas de la función de riesgo básico.
(X(t),)=exp(`X).
La heterogeneidad inobservada captura el efecto de aspectos inobservados de los individuos o de efectos aleatorios
específicos de los individuos inobservables en los datos como la habilidad, actitud, etc. sobre la probabilidad de tránsito.
Se controla introduciendo:
El método no paramétrico consiste en especificar la distribución de la heterogeneidad F(v) como una función escalón con
J grupos homogéneos. La correspondiente función de distribución de la heterogeneidad será discreta con un número
finito de puntos de soporte conocidos, cuyas localizaciones vi , i=1,...,J también son conocidas y tiene una masa de
probabilidad asociada, pj , j=1,....,J, donde pj=1.
El modelo de tasa de salida analizado hasta ahora es el modelo de tasa de salida mixto (mixed proportional hazard model,
MPH), véase Lancaster (1979), Heckman and Singer (1984a,b). Si se elimina la heterogeneidad inobservada tenemos el
modelo de riesgos proporcionales (proportional hazard, ph), véase Cox (1972).
h(t) = 0 (t)(X,)
h(t) = 0 (t)
Si tenemos una muestra de N individuos (i=1,2,…N) que tienen datos de duración T (t=0,1,….ti ), que comienzan su
duración en el mismo momento del tiempo t=0, y continua hasta el momento del tiempo t i , donde si el suceso se produce
antes de ese momento, la duración será completa (di1=1), en caso contrario censurada o incompleta (di1=0). Entonces
la función de verosimilitud será:
Aplicando logaritmos para linealizarla:
La clave es tener cuál es la tasa de salida f(t), y cuál la función de supervivencia S(t). Las multiplicamos y ya tendríamos la
función de verosimilitud.
𝑙𝑛𝑇𝑖 = 𝑋𝑖𝛾 + 𝜖𝑖
Es un modelo de regresión del log- del tiempo de supervivencia. Se corresponde también con el modelo:
𝑇𝑖 = exp(𝑋𝑖𝛾) ∗ 𝑢𝑖
Donde 𝜖𝑖=ln (𝑢𝑖) sigue una distribución exponencial, así que ϵi se conoce como una distribución de valor estremo(extreme
value distribution) con medio 0 y varianza igual a 1.
EJEMPLO
Se utiliza la base de datos que corresponden a la MCVL (Muestra Continua de Vidas Laborales) utilizada en el artículo:
Arranz, J.M. and García-Serrano (2013), “The effective measure of unemployment benefit duration: data on spells or
individuals”, Applied Economics Letters, vol. 20(14), 1328-1332.
Queremos analizar la tasa de salida de desempleo hacia el empleo de los perceptores de las prestaciones:
log using duración.log = guardo el archivo con el nombre “duración.log” en ese directorio
Organizamos los datos antes de la estimación. Disponemos de 75067 individuos de los cuales un 94,54%
encuentran un empleo (censur=1, duración completa) y el restante 5,46% continúan desempleados al finalizar
el período de análisis (censur=0, duración censurada).
Nos interesa medir el tiempo hasta que encuentran un empleo (time). El máximo valor es 1800 días (60 meses)
en nuestros datos.
Primero. Declaro mis datos de duración: st siempre delante de todos los comandos para modelos de duración. Identificar
que estamos trabajando con este tipo de datos, indicando la censura y la duración:
stset = siempre pongo st delante de todos los comandos para modelos de duración;
durtocur = nombre de la variable que recoge el tiempo;
failure(censu) = variable fija que distingue entre duración completa (no hay censura) o incompleta (censur).
Cuanto más valores tiene, tiene más salida (es decir que tienen mayores tasas de salida al mercado laboral). Se produce
un repunte porque como la prestación tiene un máximo de 2 años, los individuos vuelven a intensificar su búsqueda.
En el primer tramo las prestaciones son por razones de eficiencia, pero en la segunda por razones de equidad (el nivel de
prestación disminuye pero se mantiene).
Si el tiempo no influye, la gráfica sería una línea recta. Los individuos cambian su comportamiento y las características
son diferentes en los modelos de duración.
sts list
Si representamos esta lista en Excel tendría que salir la curva de supervivencia igual que antes.
cuando más a la derecha está la curva de supervivencia, más tarda en salir (está más tiempo en el desempleo).
En la última parte el tiempo prácticamente no influye porque es el fin de la prestación del desempleo. Si metemos más
regresores (edad, ocupación…), se desplazarán hacia la derecha o izquierda (porque estamos recogiendo las
características de la muestra).
Para saber si las dos curvas son iguales, hay que hacer un contraste para responder a si son iguales las tasas de
supervivencia (porque por lo juntas que están las curvas, son casi iguales):
Contraste de igualdad de supervivencia: sts test sexo, logrank (“quiero conocer la variable género si las tasas de salida
son idénticas”)
Si H0 : h1(t) = h2(t) es decir que son idénticas ambas tasas de salida de hombres (1) y mujeres (2), como la rechazo por
ende aceptaría la hipótesis alternativa H1 : h1(t) ≠ h2(t) es decir que son diferentes.
FUNCIÓN DE REGRESIÓN
streg = le estamos indicando que es regresión en un modelo de duración (la variable dependiente ‘tiempo’ no hace falta
ponerla ya porque ya he definido antes mi modelo de duración y al poner streg Stata lo identifica ya)
distribution(@@@@) = indico el tipo de distribución, por ejemplo distribution(exp) para estimar la exponencial
Clase 11/11/19
Si tenemos que elegir cuál es el mejor modelo de duración hay que hacer un contraste.
Criterios de Arkaike: teniendo en cuenta numero parámetros, observaciones y ajuste modelo calculo un indicador que
nos dice cómo de bueno es ese modelo en comparación con otro (el que mejor me ajuste mis datos será el mejor modelo).
El modelo no lineal es negativo por tanto el que mayor valor negativo tenga es el que menos ajusta.
Para saber cuál es el que mejor ajusta hacemos un gráfico y según la forma que veamos en la gráfica deduciremos qué
tipo de modelo es.
Según criterio arkaike gompertz y weibull son los peores modelos. El modelo que mejor ajusta es el gamma generalizado
porque engloba el resto de distribuciones.
En Stata se pueden estimar 6 modelos paramétricos: Exponencial, Weibull, Gompertz, log-normal, log-logístico y el
gamma generalizado. Para estimar cualquier modelo:
Al indicarle nohrel programa proporciona los coeficientes estimados y no ratios de probabilidad, nolog (evita poner las
iteraciones). Es importante en primer lugar la interpretación del coeficiente “p”si es menor que uno (como en nuestro
caso), indica que la función de riesgo es decreciente en el tiempo (al pasar el tiempo disminuye la probabilidad de salida.
En los mod de duración como la variable dep es el tiempo, es un modelo no lineal porque vamos a estimar un modelo
donde función verosimilitud es no lineal (está elevada a una serie de coeficientes), por tanto, hay que aplicarle logaritmos
para linealizarla. Por eso hay que recordar que la variable dependiente es logarítmica.
Si no indicamos al modelo que existe censura y que por tanto es incompleto, el modelo asumirá que la duración es
completa.
MODELO EXPONENCIAL
Modelo de duración donde no recoge el tiempo, es una variable constante o sea una línea recta (el tiempo no influye
en que un individuo encuentre trabajo o no).
Sólo tenemos variables explicativas. En los grupos tengo que omitir el primero porque si pongo todos tendría una
distribución colineal.
Métrica AFT y PH (ver tablita, no todos los modelos usan ambas métricas):
PH: calcular probabilidad de que una persona encuentre un empleo (tasa de salida).
AFT: el tiempo que transcurre hasta que encuentres un empleo (cuánto tiempo tardas hasta que encuentras un
empleo).
Interpretación: Al ser un hazard form, veo que los varones (sex1) tienen mayor probabilidad de encontrar empleo que
las mujeres (sex0). Lo interpreto así porque uso la métrica PH. Además, al ser variables dicotómicas (0 y 1) tenemos que
interpretarlo de tal forma que la variable 1 = B0 + B1 y la variable 0 = B0 (por lo tanto el coeficiente que me sale en la
tabla es la diferencia que existe entre B0 que es la variable 0 o sea la mujer, y la variable B1 que es el hombre, por tanto
el hombre está X coeficiente por encima o por debajo de la mujer).
- Sexo: los hombres (1) tienen 0.1914 más de probabilidad que la mujer (0) de encontrar un empleo.
- Nacionalidad: los extranjeros (1) tienen -0.17826 menos probabilidad de encontrar empleo que nacionales (0).
- Todos tienen menos probabilidad de encontrar empleo que el grupo1 (grupo de referencia). La magnitud
negativa va disminuyendo
Z: distribución normal (cuando N tiende a infinito vemos significatividad). Los contrastes se hacen con una normal en
modelos de duración (en regresión lineal los contrastes son con una t de student o F de Snedecor).
Si quitamos nohr y hacemos de nuevo la regresión nos va a salir el hazard ratio que tiene que darnos lo mismo que el
coeficiente B1 anterior a través de:
Cuando es mayor que 1 tiene efecto positivo, y cuando es menor que 1 tiene efecto negativo.
Cuando son menores que la unidad tienen menos probabilidad (va a la inversa). Es decir en nacionalidad los extranjeros
tienen un 0,17 menos de probabilidad que los nacionales de conseguir empleo (calculo la inversa de 0.8367). el grupo3
por ejemplo diríamos que tiene un 0.20 menos de probabilidad de conseguir trabajo que el grupo1 (que es el grupo de
referencia).
estat ic
En la función del número de obvs que tenemos (75,067) compara la función similitud (-121465.6) con la constante (-
122245.4). Los grados de libertad son 8. El criterio de arkaike es 242947.1.
Cuantas más variables explicativas tenemos, mejor es la bondad de ajuste del modelo.
MODELO WEIBULL
Este modelo engloba el modelo exponencial. Siempre es una función monótona, que crece o decrece. Si estimamos este
modelo, además de las variables explicativas también recogemos:
hay más información: son lo sparámetros que recogen el riesgo básico, en el modelo exponencial no hay porque es
constante.
Los resultados no cambian (el signo) pero las magnitudes sí. Los signos no cambian porque son modelos sensibles,
cambian las magnitudes.
En los datos hay una diferencia de duración negativa: conforme aumenta el tiempo los individuos tienen menos
probabilidad de encontrar un empleo. Tendíamos que multiplicar la p (0.9190132) por cada uno de los individuos porque
es un modelo multiplicativo.
El AIC y el BIC son dos criterios de bondad de ajuste que utilizamos para determinar si mi modelo es el que mejor ajusta.
Por lo tanto, esto tenemos que calcularlo para todos los modelos, y una vez que tenga mis modelos con el estat ic aplicado
utilizo el criterio AIC o el BIC (indiferente) y el que menor valor tenga, mejor ajusta.
Likelihood = función de ajuste del modelo (log likelihood en la fórmula)
display(-2*(-120996.8)+(2*8)) = 242009.6
En la función del número de obvs que tenemos (75,067) compara la función similitud (-121465.6) con la constante (-
122245.4). Los grados de libertad son 8. El criterio de arkaike es 242947.1.
stcurv, hazardsaving(streg2,replace)
Conforme aumenta el tiempo disminuye la probabilidad de encontrar trabajo (teniendo en cuenta las variables
explicativas género, nacionalidad…).
MODELO GAMMA
0.473213 = positivo = más tiempo de permanencia para los extranjeros (1) en el estado (y por tanto menos probabilidad
de encontrar trabajo frente a los nacionales 0).
Como no hay métricas de tasas de salida proporcionales, no puedo calcular el ratio de proporcionalidad (no hace falta
poner nohr). Sólo calcula un tipo de métrica que es AFT (tiempo que transcurre hasta que sale de ese estado), no la PH.
Hemos estimado un modelo gamma, y ahora hacemos un contraste para saber qué modelo es realmente, porque el
gamma incluye el exponencial y el weibull.
Cuando k=1 es un modelo weibull, por tanto hago el contraste test [/kappa] = 1
Según este resultado, como la p < 0.05 es significativo y por tanto se rechaza la hipótesis nula (es el modelo de
weibull) y se acepta la alternativa (no es un modelo de weibull).
Cuando k=0 es un modelo lognormal, por tanto hago el contraste test [/kappa] = 0
Según este resultado, como la p < 0.05 es significativo y por tanto se rechaza la hipótesis nula (es el modelo de
weibull) y se acepta la alternativa (no es un modelo de weibull).
POST-ESTIMACIÓN: PREDICT
MODELO DE COX
En este modelo suponemos que hay un riesgo proporcional en todas las variables explicativas pq hombres y mujeres
tienen misma prob de salida.
Cuando estamos estimando estamos maximizando una función de máxima verosimilitud. En los modelos de duración hay
duraciones censuradas por eso aparece función de densidad x función de supervivencia.
Stata aplica logaritmos a esa función para linealizarla. Podemos suponer que la función de densidad y función
supervivencia en función de la distribución se hace una parametrización u otra:
La métrica, cuando estimo mis coeficientes y elijo una métrica u otra, estimo la probabilidad de que se produzca ese
suceso (PH) o el tiempo que transcurre hasta que se produce el suceso (AFT). De esta manera se interpretan los
coeficientes.
lnTi = Xiγ + e
Si ponemos el comando “nohr” calcula los coeficientes (necesito que me los reporte en la tabla), y si ponemos “nohr
time” calcula los coeficientes en modelo de salida acelerada (sólo podemos poner time en todos los modelos menos la
Gompertz).
La función de verosimilitud es el producto de las funciones de densidad individuales (estamos maximizando el producto
de todas ellas), teniendo en cuenta las características de cada regresor.
Da igual el modelo que usemos, siempre tenemos que conocer siempre función de densidad y función de supervivencia.
Estas se sustituyen en la función de verosimilitud, maximizándola. Por tanto, si estimamos un modelo exponencial en la
métrica de PH, el coeficiente estimado es lo mismo tanto en PH como en AFT, pero cambia el signo.
Coeficiente = 5.23 (si pongo “time” es AFT) = tiempo estimado de supervivencia en media (pq estimamos el
promedio que tiene que estar incluido en los intervalos) es exp(5.2389) = 188.47 días