Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Resumen_Supervivencia

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 38

Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Introducción
En esta sección nos centramos en el problema abordado por el análisis de supervivencia, los objetivos del análisis
de supervivencia, la notación, la terminología, y algunos ejemplos.

El análisis de supervivencia es una colección de procedimientos estadísticos para el análisis de datos para los
cuales la variable de resultado de interés es el tiempo, medido en años, meses, semanas o días hasta que ocurre
un evento.
Por evento, entenderemos:

ˆ La muerte o descompostura de un artefacto.

ˆ La incidencia de la enfermedad.

ˆ La remisión de una enfermedad, entendamos la remisión como la atenuación o desaparición completa en el


paciente de los signos y síntomas de su enfermedad , ya sea como consecuencia del tratamiento o de forma
espontánea.

Alternativamente, el tiempo puede referirse a la edad de un individuo cuando ocurre un evento.

Los siguientes fenómenos se pueden abordar usando análisis de supervivencia:

1. Pacientes con leucemia / tiempo en remisión (semanas)

2. Cohorte sin enfermedad / tiempo hasta enfermedad cardíaca (años)

3. Población adultos mayores (60 años o más) / tiempo hasta la muerte (años)

4. Libertad Condicional (estudio de reincidencia) / tiempo hasta reincidencia (semanas)

5. Trasplantes de corazón / tiempo hasta la muerte (meses)

Notemos que primero se dene al conjunto de individuos a estudiar, después el evento de interés y la escala de
medición del tiempo. El tiempo origen de cada individuo que debe ser denido sin ambigüedad

Censura
La mayoría de los análisis de supervivencia deben considerar un problema clave llamado censura. La censura
ocurre cuando tenemos información parcial sobre el tiempo de supervivencia de algunos individuos del estudio,
es decir no conocemos exactamente el tiempo de supervivencia de estos individuos.

Para ejemplicar la censura de los datos, tomemos el ejemplo de los pacientes con leucemia seguidos hasta que
salgan de la remisión. Para un paciente el estudio termina cuando sale de la remisión. Si el paciente está en
remisión cuando acaba el tiempo del estudio entonces el tiempo de supervivencia se considera censurado. Sólo
sabemos que, para esta persona, el tiempo de supervivencia es al menos tan largo como el período que duró el
estudio; si la persona sale de la remisión después de que el estudio terminó, no sabemos el tiempo exacto de
supervivencia.

Generalmente hay tres razones por las cuales puede ocurrir la censura:

ˆ una persona no experimenta el evento antes de que termine el estudio;

ˆ una persona pierde el seguimiento durante el período de estudio;

1
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

ˆ una persona se retira del estudio debido a la muerte (si la muerte no es el evento de interés) o alguna otra
razón.

Estas grácas ilustran la experiencia de varias personas seguidas en el tiempo, la 'X' denota una persona donde
se obtuvo el evento. En total se estudiaron seis personas, de las cuales dos presentaron el evento (individuo 1 y
6) y cuatro personas tienen información censurada (2, 3, 4 y 5).

El tiempo de origen no necesita ser igual y usualmente no está en el mismo tiempo calendario para cada
individuo. En la mayoría de los estudios se presentan entradas escalonadas.

La información del gráco anterior se puede representar en una tabla que se muestra a continuación.

Falla=1
Individuo t de supervivencia
Censura=0
1 5 1
2 12 0
3 3.5 0
4 8 0
5 6 0
6 3.5 1

Se registra para cada persona el tiempo de supervivencia correspondiente hasta la ocurrencia del evento o hasta
la censura. La última columna es una variable indicadora donde 1 representa el evento falla y 0 censura.

Censura por la derecha


Obsérvese en nuestro ejemplo, las cuatro personas censuradas el tiempo de supervivencia de la persona se vuelve
incompleto en el lado derecho del período de seguimiento, que ocurre cuando el estudio termina o cuando la
persona se pierde para el seguimiento o se retira. Generalmente nos referimos a este tipo de datos como censura
por la derecha.

2
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Terminología y notación
Denotemos por T la variable aleatoria que mide el tiempo de supervivencia de una persona o artefacto. Como
T mide el tiempo, toma valores no negativos; es decir, T puede ser cualquier número igual o mayor que cero.
Por otro lado, t es cualquier valor positivo de interés para la variable aleatoria T.
Ejemplo Si estamos interesados en el evento; una persona sobreviva durante más de 5 años después de someterse
a la terapia contra el cáncer, esto lo podemos escribir como: T > 5, en este caso t es igual a 5.

Denamos a δ como una variable aleatoria que toma únicamente los valores δ=1 si el evento ocurre durante el
período de estudio, o δ=0 si el tiempo de supervivencia es censurado al nal del período de estudio. Un dato
es censurado si δ=0 y esto ocurre si y sólo si ocurre uno de los siguientes casos: una persona sobrevive hasta
que el estudio termina, o la persona se retira durante el período de estudio.

Hay varios tipos de censura, las principales son:

ˆ Por la derecha: hay elementos del conjunto de estudio que su tiempo de vida está por encima de cierto
valor, pero se ignora qué tanto más.

ˆ Por la izquierda: una observación está por debajo de cierto valor, pero se ignora cuánto.

ˆ En un intervalo: se sabe que una observación está entre dos valores extremos, pero no exactamente dónde.

Para identicar de forma apropiada el tipo de censura que presentan los datos, se tiene que conocer la forma en
que han sido obtenidos los datos. Ya que esto inuye en la forma de escribir la función de verosimilitud, que es
la base para hacer inferencia.

Censura por la derecha


Censura tipo I: ocurre cuando se realiza un experimento que termina en un momento determinado (umbral
de censura Cr jo), los individuos del estudio que siguen vivos después del umbral Cr , quedan censurados por
la derecha. El evento falla es observado solamente si éste ocurre antes del umbral Cr , independientemente del
tamaño de muestra.

ˆ Observaciones exactas: Los tiempos de supervivencia registrados durante el periodo de estudio son los
tiempos desde el inicio del estudio hasta su muerte.

ˆ Observaciones censuradas: Los tiempos de supervivencia que pasaron el umbral Cr , no son conocidos
exactamente cuando sucedió el evento falla, pero son registrados como al menos la longitud del estudio.

Para un individuo en el estudio, se supone que éste tiene un tiempo de vida X y un tiempo jo de censura Cr .
Donde las X 's para cada individuo se suponen como v.a.i.i.d con función de densidad fX (x).

ˆ Si el tiempo de vida exacto de un individuo puede ser conocido si y sólo si X ≤ Cr .


ˆ Si su tiempo de vida es X > Cr , entonces es censurado por Cr .

Los datos del estudio se pueden representar por el vector (T, δ), donde δ es una variable indicadora:

1
 si el tiempo de vida X es observado

δ=

0 si el tiempo de vida X es censurado

T =X si el tiempo de vida es observado; y si es censurado, T = min(X, Cr ). Por construcción cada T para


cada individuo es una variable aleatoria.

3
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

La Censura Tipo I generalizada, es cuando los individuos entran al estudio a diferentes tiempos, y el umbral
de censura Cr de estudio predeterminado es el mismo para todos. En este caso, el tiempo de censura para cada
sujeto es conocido en el momento en que entra al estudio, de manera que cada individuo tiene jo y especicado
su propio tiempo de censura.

Censura tipo II: en el mismo contexto de censura por la derecha, ocurre cuando el experimento termina cuando
sólo queda un cierto número de sujetos vivos, que son los que quedan censurados por la derecha. En otras
palabras, todos los individuos en el estudio, n, empiezan al mismo tiempo el estudio. El estudio termina cuando
r de los n individuos (r < n) han presentado el evento de interés, es decir, que hay dependencia del tamaño de
muestra y las fallas que se observen.
r es un número entero positivo menor a n, determinado previamente. Y sean T1 , T2 , . . . , Tn los tiempos de falla
de los n T(1) , T(2) , ..., T(n) sus respectivas estadísticas de orden. Entonces el umbral de censura Cr
individuos y
es aleatorio dado por T (r), la r -ésima estadística de orden. Por tanto, (n − r) observaciones censuradas y r
observaciones exactas menores o iguales al tiempo. T (r)

Censura tipo III o aleatoria: se da cuando los sujetos salen del estudio sin presentar el evento falla, por
razones no controladas. Por ejemplo supongamos que en un estudio donde el evento de falla es la muerte por
una causa especíca, un sujeto puede presentar censura aleatoria si muere por alguna razón ajena al evento
falla, o se pierde acceso al sujeto y éste sale del estudio.

El siguiente ejemplo viene en el libro de Klein & Moeshberger.

Descripción En un ensayo clínico en donde se quería estudiar la efectividad del fármaco 6-MP vs un placebo
en 42 niños con leucemia aguda. El evento de inicio es remisión parcial de la enfermedad después de haber
sido tratados con la droga prednisone. El evento falla es recaída o la muerte. La escala de medición del
tiempo es en meses (tiempo calendario). Algunos niños no presentaron el evento de n al término del estudio.
Estos casos son marcados con un +.

Censura por la izquierda


Un tiempo de vida X asociado con un individuo especíco en el estudio, es considerado censurado por la
izquierda, si éste es menor que un tiempo de censura Cl . Es decir, que el evento de interés le ha ocurrido
al sujeto en estudio, antes de que el sujeto haya sido observado por el investigador al tiempo Cl . Para estos

4
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

individuos, se sabe que han presentado el evento algún tiempo antes de Cl .


Los datos que fueron obtenidos de una muestra censurada por la izquierda puede ser representado por el vector
(T, γ), donde T =X si el tiempo de vida es observado o T = Cl si es censurado y γ es una variable indicadora

1
 si el tiempo de vida X es observado

γ=

0 si el tiempo de vida X es censurado

Si estudiamos en un grupo de personas eltiempo hasta que contrae una enfermedad viral. Se registra el
evento falla cuando un sujeto da positivo en la prueba para detectar el virus.
Sin embargo, es posible que no sepamos exactamente el momento de la primera exposición al virus, por lo
tanto, no sabemos exactamente cuándo ocurrió el evento falla. El tiempo de supervivencia es censurado por
la izquierda, ya que el tiempo de supervivencia real termina en la exposición que es un tiempo menor de la
detección en el seguimiento.

Puede ocurrir que el conjunto de datos del estudio tenga censura por la izquierda y por la derecha , es decir que
los tiempos de vida son considerados doblemente censurados.

Los datos pueden ser representados por el vector de variables (T, δ) donde T = máx {mín {X, Cr } , Cl } es el
tiempo de estudio y δ es una variable indicadora denida de la siguiente manera:



1 si el tiempo de vida X es observado




δ= 0 si el tiempo de vida X es censurado por la derecha






−1 si el tiempo de vida X es censurado por la izquierda

Censura por intervalo


La censura por intervalo ocurre cuando el tiempo de vida se sabe que ocurre solamente dentro de un intervalo.
Este tipo de censura se presenta en estudios observacionales que investigan al mismo grupo de personas de manera
repetida a lo largo de un período de semanas, meses o años. Permitiendo el seguimiento de los mismos individuos
a través del tiempo y de sus generaciones precedentes (estudios longitudinales). Puesto que el seguimiento de
los sujetos se realiza periódicamente, la falla sólo puede conocerse entre dos periodos de revisión, generando un
intervalo de la forma (Li , Ri ) para cada individuo en el estudio.

Truncamiento
Una segunda característica que hace distinto al análisis de supervivencia de otros análisis estadísticos es el
truncamiento.

Truncamiento por la izquierda


Este ocurre cuando los sujetos entran al estudio a una edad particular (no necesariamente el origen del evento
de interés), y son observados desde este "tiempo retrasado de entrada, hasta que el evento ocurra o hasta que el
evento es censurado. Si Y es el momento de ocurrencia del evento que trunca a los sujetos en estudio, entonces
para muestras truncadas por la izquierda, solo los individuos tales que X>Y serán considerados.

Ejemplo de truncamiento por la izquierda. Un estudios de supervivencia de adultos mayores. Supongamos


que un adulto mayor se considera aquel cuya edad es mayor a 60 años. En este caso sólo las edades de muerte

5
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

de las personas con más de 60 años son considerados en el estudio. Aquellos individuos cuya edad de muerte sea
menor a los 60 años no se contemplan en el estudio.

Noten que en la censura por la izquierda, por lo menos se tiene información parcial de individuos que presentan
el evento de interés antes de la edad de entrada al estudio. En el truncamiento por la izquierda, estos individuos
no serán considerados para ser incluidos en el estudio.

Truncamiento por la derecha


Ocurre cuando solo individuos que han presentado el evento falla son incluidos en la muestra y ningún sujeto
que no haya presentado aún el evento falla será considerado.

Ejemplo Estudio sobre el tiempo para presentar SIDA. Solo aquellos individuos que fueron infectados y han
desarrollado SIDA son considerados en el estudio. Aquellos que no han desarrollado SIDA no son considerados
por el investigador.

Lo más común en un estudio de análisis de supervivencia es que se tengan observaciones censuradas por la
derecha y truncadas.

Ejercicio 1
Argumenta a detalle, los tipos de censura o truncamiento que están presentes en los siguientes estudios:

Tiempos de muerte de adultos mayores (60 años o más) residentes de un asilo. Los datos con las edades de
muerte de 462 individuos (97 hombres y 365 mujeres) que estuvieron en la residencia durante el periodo de enero
de 1964 y julio de 1975. Se reportó la edad a la muerte o al momento en que se salían del asilo (en meses) y la
edad a la que los individuos entraron al asilo.

Ejercicio 2
Tiempo al primer uso de marihuana. En este estudio a 191 estudiantes de preparatoria se les preguntó: ¾Cuál
fue la primera vez que probaste la marihuana?. Las respuestas fueron:

La edad exacta a la que la probaron,

Nunca la he probado, y

La probé pero no recuerdo cuando fue la primera vez.

Modelo de Supervivencia
Introducción
Denotemos por T la variable aleatoria que mide el tiempo de supervivencia de una persona. Como T mide el
tiempo, toma valores no negativos; es decir, T puede ser cualquier número igual o mayor que cero. Por otro
lado, t es cualquier valor positivo de interés para la variable aleatoria T. La distribución de la variable aleatoria
puede ser caracterizada por las siguientes 3 funciones básicas:

1 Función de supervivencia S(T )


2 Función de densidad de probabilidad f (t)

6
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

3 Función de riesgo h(T )

Éstas funciones son matemáticamente equivalentes, es decir que si una de ellas está dada, pueden derivarse las
otras tres.

La función de supervivencia, denotada por S(t) como la probabilidad de que una persona sobreviva más de un
tiempo especíco t, es decir, S(t) da la probabilidad de que la variable aleatoria T exceda el tiempo t.

t S(t)
1 S(1) = P (T > 1)
2 S(2) = P (T > 2)
3 S(3) = P (T > 3)
. .
. .
. .
n S(n) = P (T > n)

La función supervivencia es fundamental para el análisis, ya que da las probabilidades de supervivencia para
diferentes valores de t.
Como t puede variar en el intervalo (0, ∞), la función de supervivencia puede representarse grácamente como
una curva suave, donde t está en el eje X.

Las funciones de supervivencia tienen las siguientes propiedades:

1. Son no crecientes; es decir, decrecen hacia cero a medida que aumenta t;


2. En el tiempo t = 0, S(0) = 1; es decir, al comienzo del estudio, la probabilidad de sobrevivir el tiempo 0
es uno;

3. En el tiempo t = ∞, limt→∞ S(t) = 0; es decir, teóricamente, si el período de estudio se lleva acabo una
cantidad de tiempo ilimitado hacia delante, nadie sobreviviría, por lo que la curva de supervivencia irá a
cero eventualmente.

7
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

En la práctica, cuando se utilizan datos reales, obtenemos: Grácas escalonadas, en lugar de curvas suaves.
Además, como el período de estudio es nito y puede uno perder individuos en el estudio por otros riesgos
diferentes a la falla estudiada esto puede generar datos censurados.

Sea T una v.a. no negativa que mide el tiempo de falla, con función de distribución FT (t) y función de densidad
de probabilidad f(t), entonces

S(t) = P(T > t)


= P(un individuo sobrevive más allá del tiempo t).

O equivalentemente

S(t) = 1 − P(T ≤ t) = 1 − FT (t)


= 1 − P(un individuo presente el evento falla antes del tiempo t).

La tasa de decaimiento de las funciones de supervivencia S(t), varía de acuerdo al riesgo de presentar el evento
falla. Eventos más riesgosos presentan una tasa de decaimiento mayor. Las líneas horizontales verdes
representan el primer cuartil, la mediana y el tercer cuartil.

8
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Sea T una v.a. no negativa discreta o continua entonces recordemos que

R t
 0 f (u) du
 si T es continua

FT (t) = P (T ≤t ) =
Pt

u=0 f (u) du si T es discreta.


d
 dt FT (t)
 si T es continua

f (t) =

FT (t) − FT (t−) si T es discreta,

donde FT (t−) es un límite por la izquierda, es decir, FT (t−) = limu→0 FT (t − u) con u ≥ 0.


Sea T una v.a. no negativa discreta con soporte en {t1 < t2 < t3 < ...}, cuya función de masa de probabilidad
esta dada por


P (T = ti )
 con t1 < t2 < t3 < ...
f (t) =

0 c.o.c

Entonces la función de supervivencia se calcula como:

X
S(t) = P(T > t) = f (tj ).
tj >t

9
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Función de densidad
ˆ Si T es una v.a. no negativa continua entonces tenemos que
Z ∞
S(t) = P(T > t) = f (u)du = lim FT (u) − FT (t) = 1 − FT (t).
t u→∞

Y por lo tanto al derivar tenemos

dS(t)
f (t) = − .
dt

ˆ Si T es una v.a. no negativa discreta entonces


f (tj ) = P (T = tj ) .

Función de riesgo
La función de riesgo, denotada por h(t), se calcula de la siguiente forma:

P (t < T ≤ t + ∆t | T > t)
h(t) = lim (1)
∆t→0 ∆t

Una interpretación conceptual de la función de h(t) es la siguente: h(t) es una tasa de cambio instantánea por
unidad de tiempo para que ocurra el evento falla, dado que el individuo ha sobrevivido hasta el tiempo t. La
función de riesgo h(t) registra la tasa de cambio instantánea en el tiempo de que suceda el evento falla, dada la
supervivencia hasta el tiempo t.
Observaciones de la función de riesgo

ˆ El numerador de la función de riesgo, P (t < T ≤ t + ∆t | T > t), es una probabilidad condicional de la


forma "A dado B ". Lo que mide es la probabilidad condicional es el tiempo de supervivencia de una
persona se encuentre en el intervalo de tiempo pequeño (t, t + ∆), dado que el tiempo de supervivencia de
esa persona es mayor o igual que t.
ˆ La función de riesgo es una tasa no una probabilidad, puesto que es el límite de la razón de dos cantidades
positivas; en el numerador una probabilidad condicional y en el denominador, ∆t, que representa un
intervalo de tiempo pequeño. Esta tasa de cambio puede ser algún valor entre (0, ∞).
ˆ Cuando tomamos el límite de la expresión (1), obtenemos una expresión para la probabilidad instantánea
de fallar en el tiempo t por unidad de tiempo, es decir, que es la tasa de fallo condicional o la tasa
instantánea de falla en el tiempo t por unidad de tiempo, dada la supervivencia hasta el tiempo t.

Igual que la función de supervivencia, S(t), la función de riesgo, h(t), se puede representar grácamente. La
gráca de h(t) no tiene que comenzar en 1 como en la función de supervivencia. A continuación mostramos
algunos grácos de diferentes tipos de funciones de riesgo.

10
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

1. La gráca superior izquierda muestra una función de riesgo constante para un estudio de personas sanas,
i.e. una persona que sigue siendo saludable durante todo el período de estudio, su tasa instantánea para
enfermarse en cualquier momento permanece constante durante todo el período de seguimiento. Cuando
la función de riesgo es constante, decimos que el modelo de supervivencia sigue una función exponencial.

2. El gráco de arriba a la derecha muestra una función de riesgo creciente con respecto al tiempo. Ejemplo
el modelo de supervivencias con distribución Weibull con algunas características en los parámetros. El
gráco podría interpretarse como: los pacientes de leucemia que no responden al tratamiento, donde el
evento de interés es la muerte. A medida que aumenta el tiempo de supervivencia para tal paciente, el
pronóstico empeora, la tasa instantánea de morir del paciente aumenta.

3. El gráco de abajo a la izquierda muestra una función de riesgo que disminuye con el tiempo. Ejemplo
de este tipo de gráco se da cuando la función de supervivencia sigue una distribución Weibull. El gráco
podría modelar el siguiente evento: la muerte de personas que se están recuperando después de una cirugía,
ya que la tasa instantánea de morir después de la cirugía generalmente disminuye a medida que aumenta
el tiempo después de la cirugía.

4. La gráca de abajo a la derecha muestra una función de riesgo que aumenta y luego disminuye. Grácos de
este estilo se pueden obtener cuando la función de supervivencia siguie una distribución lognormal. Grácos
es este estilo pueden servir para modelar a pacientes con tuberculosis, puesto que su tasa instantánea de
morir aumenta al principio de la enfermedad y disminuye más adelante.

De las dos funciones vistas, S(t) y h(t), la función supervivencia resulta en primera instancia más atractiva
para el análisis de los datos de supervivencia, porque describe directamente la supervivencia una cohorte de
estudio. Sin embargo, la función de riesgo también es de interés porque: da una tasa instantánea mientras que
una función de supervivencia es una medida acumulativa a lo largo del tiempo; además, la función de riesgo
puede dar una pista de cuál es el modelo matemático adecuado para los datos de supervivencia.

11
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Dos objetivos básicos del análisis de supervivencia son:

ˆ Estimar e interpretar las funciones de supervivencia y/o riesgo a partir de los datos de supervivencia, y

ˆ Comparar funciones de supervivencia y/o riesgo, entre un grupo de tratamiento y un grupo al que se le
aplica un placebo.

De la función de riesgo h(t) tenemos que

P (t < T ≤ t + ∆t | T > t)
h(t) = lim
∆t→0 ∆t
P (t<T ≤t+∆t , T >t)
P (T >t)
= lim
∆t→0 ∆t
1 P (t < T ≤ t + ∆t)
= lim
P (T > t) ∆t→0 ∆t
1 F (t + ∆t) − F (t)
= lim .
S (t) ∆t→0 ∆t

Si T es una v.a. no negativa continua entonces de la expresión anterior tenemos que


f (t) −S 0 (t) d
h(t) = = = − log (S (t)) .
S (t) S (t) dt

A partir de la ecuación anterior denimos la función de riesgo acumulado


Z t Z t
d
H(t) = h(u)du = − log (S (u)) du = − log (S (t)) .
0 0 dt

Multiplicando por -1 y tomando exponencial de ambos lados en la ecuación anterior tenemos que

 Z t 
S(t) = exp {−H(t)} = exp − h(u)du .
0

12
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Caso T es una v.a. discreta

Si T es una v.a. discreta que toma valores en el conjunto {t0 , t1 , t2 , ..., tn , ...} tal que t0 < t1 < t2 < ... < tn < ...
La función de riesgo, h (tj ) para j = 0, 1, 2, ... que mide la probabilidad condicional de falla al tiempo t = tj ,
dado que el individuo estaba vivo antes de tj

P (T = tj ) f (tj ) f (tj )
h (tj ) = P (T = tj |T > tj ) = = = .
P (T > tj ) P (T > tj ) 1 − P (T < tj )

Algunos paramétricos
Algunas familias paramétricas se ilustran en el siguiente cuadro resumen de Klein y Moeshberger (2003), pp. 38.

13
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Percentiles
El percentil de orden p de la variable aleatoria T, denotado por tp es el mínimo valor de t tal que S(t) ≤ 1 − p,
si T es una v.a. continua entonces S(tp ) = 1 − p.

Vida media residual


Otra función que se estudia en el análisis de supervivencia es la vida media residual, denotada por mrl(t).
Esta función mide el tiempo esperado de vida para los individuos de edad t

mrl(t) = E [T − t | T > t] .

Entonces si T es continua
∞ Z ∞
f (u) I[t,∞) (u)
Z
mrl(t) = (u − t) f (u|u > t) du = (u − t) du
0 0 S (t)
Z ∞ R ∞ R ∞
f (u) (u − t) f (u) du S (u) du
= (u − t) du = t = t .
t S (t) S (t) S (t)

Vida media residual, caso discreto


Supongmos que T es discreta con rango en {0 = t0 < t1 < t2 < ...} y sea t ∈ [ti , ti+1 ) para i ∈ {0, 1, 2, ...}
entonces


X
mrl(t) = E [T − t | T > t] = (tj − t) P (T = tj | T > t)
j=0
∞ P∞
P (T = tj , T > t) j=i+1 (tj − t) P (T = tj )
X
= (tj − t) =
j=0
S(t) S(t)
P∞
j=i+1 (tj − t) {S (tj−1 ) − S (tj )}
= .
S(t)

14
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Proposición. Si T es continua, la función de riesgo se puede obtener vía la función de vida media residual
como sigue

d
dt mrl(t) +1
h(t) = .
mrl(t)
d
R∞
Demostración. De la expresión dt mrl(t)+1
mrl(t) sustituyamos en el numerador mrl(t) = t
S(u)dt
S(t) , es decir

R∞
d S(u)du
d t
+1
dt mrl(t)+1 dt S(t)
=
mrl(t) mrl(t)
R∞
d
S(u)du∗S(t)− t∞ S(u)du∗ dt
d
R
S(t)
dt t
S 2 (t) +1
=
mrl(t)
R∞
d
S(u)dt∗S(t)+ t∞ S(u)du∗f (t)
R
dt t
2
S (t) +1
= .
mrl(t)
d
R∞
Por otro lado,
dt t
S (u) du = limv→∞ S (v) − S (t) = −S (t). Sustituyamos esto en la pasada ecuación

d
R∞ R∞
S(u)du∗S(t)+ S(u)du∗f (t)
d dt t t
+1
dt mrl(t) +1 S 2 (t)
=
mrl(t) mrl(t)
−S(t)∗S(t)+ t∞ S(u)du∗f (t) −S 2 (t)+ t∞ S(u)du∗f (t)
R R

S 2 (t) +1 S 2 (t) +1
= =
mrl(t) mrl(t)
R∞
S(u)du f (t)
−1 + t
S(t) S(t) +1 mrl(t) ∗ h(t)
= = = h(t) 
mrl(t) mrl(t)

Corolario 1. Si T es continua, la función de superviviencia


n R o se puede obtener vía la función de vida media
mrl(0) t du
residual como sigue S(t) = mrl(t) exp − 0 mrl(u) .
Demostración. Sabemos que
( Z )
 Z t  t d
dt mrl(v)+1
S(t) = exp − h(v)dv = exp − dv
0 0 mrl(v)
( Z )
t d t
dt mrl(v)
Z
1
= exp − dv −
dv
0 mrl(v)0 mrl(v)
( Z )
t d  Z t 
dt mrl(v) 1
= exp − dv exp − dv
0 mrl(v) 0 mrl(v)
 Z t   Z t 
d 1
= exp − ln (mrl(v)) dv exp − dv
0 dt 0 mrl(v)
 Z t 
1
= exp {ln (mrl(0)) − ln (mrl(t))} exp − dv
0 mrl(v)
 Z t 
mrl(0) 1
= exp − dv 
mrl(t) 0 mrl(v)

Corolario 2. Si T es continua, la función de densidad se puede obtener vía la función de vida media residual
como sigue
   Z t 
d mrl(0) du
f (t) =
dt
mrl(t) + 1 2 exp − .
{mrl(t)} 0 mrl(u)

15
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Demostración. Sabemos que

f (t) = h(t)S(t)
( )
d  Z t 
dt mrl(t) + 1 mrl(0) 1
= exp − dv 
mrl(t) mrl(t) 0 mrl(v)

Relaciones entre las funciones para el análisis de supervivencia


Ahora resumamos todas las relaciones que existen entre las cuatro funciones básicas en supervivencia.

Caso continuo
Z ∞  Z t   Z t 
mrl(0) du
S(t) = f (u)du = e−H(t) = exp − h(v)dv = exp − .
t 0 mrl(t) 0 mrl(u)

   Z t 
d d mrl(0) du
f (t) = − S(t) = h(t)S(t) = mrl(t) + 1 2 exp − .
dt dt {mrl(t)} 0 mrl(u)

d
d f (t) dt mrl(t) +1
h(t) = − ln {S(t)} = = .
dt S(t) mrl(t)
R∞ R∞
t
S (u) du t
(u − t) f (u) du
mrl(t) = = .
S (t) S (t)

Caso discreto
Supongmos que T es discreta con rango en {0 = t0 < t1 < t2 < ...} y sea t ∈ [ti , ti+1 ) para i ∈ {0, 1, 2, ...}
entonces

ˆ S (t)
X
S (t) = P (T ≥ t) = f (tj ) .
tj ≥t

ˆ f (t)
f (tj ) = S (tj−1 ) − S (tj ) . (∗)

ˆ h(t)
h (tj ) = P (T = tj |T ≥ tj )
P (T = tj )
=
P (T ≥ tj )
f (tj )
= (∗∗)
S (tj−1 )
S (tj−1 ) − S (tj )
= por (∗)
S (tj−1 )
S (tj )
=1− .
S (tj−1 )

16
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

De la igualdad anterior tenemos la siguiente expresión recursiva

S (tj ) = [1 − h (tj )] S (tj−1 ) .

j = 1, S (t1 ) = [1 − h (t1 )] S (t0 )


j = 2, S (t2 ) = [1 − h (t2 )] S (t1 ) = [1 − h (t2 )] [1 − h (t1 )]
j = 3, S (t3 ) = [1 − h (t3 )] S (t2 ) = [1 − h (t3 )] [1 − h (t2 )] [1 − h (t1 )]
.
.
.

Por lo tanto
Y
S (t) = [1 − h (tj )] .
tj ≤t

También notemos que de (∗∗)

f (tj ) = S (tj−1 ) h (tj )


j−1
Y
= [1 − h (tk )] h (tj )
k=1
j
h (tj ) Y
= [1 − h (tk )] h (tj ) .
1 − h (tj )
k=1

P∞
j=i+1 (tj − t) {S (tj−1 ) − S (tj )}
mrl(t) = .
S(t)

17
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Función de verosimilitud con datos censurados


En el estudio los tiempos de falla, pueden haber observaciones censuradas y truncadas, y esta información debe
de ser considerado en la formulación de la función de verosimilitud.

Tiempo exacto Ti f (ti )


Censuradas por la derecha Ti > Ci S(Ci )
Censuradas por la izquierda Ti < Ci 1 − S(Ci )
Censuradas por intervalo Li < Ti ≤ Ri P(Li < Ti ≤ Ri ) = S(Li ) − S(Ri )
f (ti )
Truncadas por la izquierda Ti |Ti > Ui P(Ti |Ti > Ui ) = S(U i)
f (ti )
Truncadas por la derecha Ti |Ti < Vi P(Ti |Ti < Vi ) = 1−S(Vi )
Truncadas por intervalo Ti |Ti ∈ (U i, Vi ) P(Ti |Ti ∈ (Ui , Vi )) = S(Uif)−S(V
(ti )
i)

Supongamos que las observaciones son mutuamente independientes, entonces la función de verosimilitud
Y Y Y Y
L= f (ti ) × S(Ci ) × {1 − S(Ci )} × {S(Li ) − S(Ri )} ,
i∈O i∈R i∈L i∈I

donde

ˆ O es el conjunto de los tiempos de fallo observados,

ˆ R, L e I son el conjunto de las observaciones censuradas por la derecha, por la izquierda y por intervalo,
respectivamente.

Si en el diseño existe truncamiento.

 Para observaciones truncadas por la izquierda, se reemplaza f (ti ) por


f (ti )
S(Ui ) y S(Ci ) por
f (ti )
S(Ui ) para
observaciones exactas y censuradas por la derecha, respectivamente.

 Para observaciones truncadas por la derecha, no existen observaciones censuradas, únicamente obser-
f (ti )
vaciones exactas. En este caso, se reemplaza f (ti ) por
1−S(Vi ) .

Verosimilitud con datos censurados por la derecha


Censura tipo I.

Sean T1 , T2 , ..., Tn v.a.i.i.d. donde ti es una observación exacta o a un tiempo de censura por la derecha, para
distingir una de otra usamos las variables (ti , δi ) para i ∈ {1, 2, ..., n}, donde ti = min(Ti , Ci ) y δi = I(Ti ≤Ci )
entonces la función de verosimilitud es de la forma
n
Y δ 1−δi
L= {f (ti )} i {S(ti )} .
i=1

Como f (ti ) = h(ti )S(ti ).


n
Y n
Y
δi 1−δi δ
L= {h(ti )S(ti )} {S(ti )} = {h(ti )} i S(ti ).
i=1 i=1

Censura tipo II.

Sean T1 , T2 , ..., Tn una m.a. donde tenemos r tiempos de falla, t(1) ≤ t(2) ≤ ... ≤ t(r) y n−r datos censurados
por la derecha. Entonces la función de densidad conjunta se escribe como sigue

r
n! Y   n−r
L= f t(i) S t(r) .
(n − r)! i=1

18
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Si usamos la notación (ti , δi ) donde δi = 0 si ti = t(r) entonces la función de verosimilitud la forma

n
Y δ 1−δi
L∝ {f (ti )} i {S(ti )} .
i=1

La verosimilitud anterior es equivalente a la expresión obtenida con censura tipo I.

Inferencia sobre los parámetros suponiendo una distribución


Distribución exponencial
Supongamos que T ∼ Exp(λ), es decir que

 
1 t
f (t; λ) = exp − I[0,∞) (t), con λ > 0,
λ λ

Sea (ti , δi ) con i ∈ {1, ..., n} una m.a. de T, donde pueden haber observaciones censuradas por la derecha.

Entonces la función de verosimilitud es

n
Y δ 1−δi
L= {f (ti )} i {S(ti )}
i=1
n   δi   1−δi
Y 1 ti ti
= exp − exp −
i=1
λ λ λ
n
X
  δi n   δi   1−δi
1 i=1 Y ti ti
= exp − exp −
λ i=1
λ λ
n
X
  δi n   
1 i=1 Y ti
= exp −
λ i=1
λ
n
X
  δi ( n ) n
1 i=1 X ti X
= exp − // tomando r= δi //
λ i=1
λ i=1
 r ( n
)
1 1X
= exp − ti .
λ λ i=1

Entonce la log-verosimilitud queda como sigue

 r ( n
)!
1 1X
l = log(L) = log exp − ti
λ λ i=1
n
1X
= −r log(λ) − ti .
λ i=1

Derivando con respecto a λ e igualndo a cero encontramos el EMV

19
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

n
X
n n
ti
dl r 1 X 1 X r i=1
=− + 2 ti ⇒ 2 ti = ⇒ λ̂ = .
dλ λ λ i=1 λ i=1 λ r

Observa que si r=0 el EMV de no existe.

Para construir intervalos de conanza es necesario conocer la distribución del estimador λ̂, para esto se usarán
resultados de teoría asintótica de los EMV's para para n grande.

Usemos la información de Fisher, puesto que la exponecial satisface las condiciones de regularidad

d2 l
 
I(λ) = −E
dλ2
" n
!#
d r 1 X
= −E − + 2 ti
dλ λ λ i=1
" n
#
r 2 X
=E − 2 + 3 ti .
λ λ i=1

Evaluando I(λ) en λ̂ es la información de Fisher observada

" n
#
r 2 X
I(λ̂) = E − + ti
λ̂2 λ̂3 i=1
" n
#
r 2 X
=E − + ti
λ̂2 λ̂3 i=1
" n
#
r 2 X
= E −1 + ti
λ̂2 rλ̂ i=1
 
 
 
 
 
 
 n 
r  2 X 
= E−1 +  n  ti 
λ̂2 
 X
i=1 

  ti 
  i=1  

 r
 r 
 

   

r r
= E [−1 + 2] = .
λ̂2 λ̂2
Entonces la distribución asintótica es
!
d 1
λ̂ → N λ, .
I(λ̂)

Usando la distribución asintótica anterior, calculamos el intervalos de conanza para λ como sigue
 

λ ∈ λ̂ ± q 2  .
I(λ̂)

20
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Una vez que se obtuvo el intervalo de conanza para λ, aprovechemos para obtengamos un intervalo de conanza
para la función de supervivencia S (t; λ) de la siguiente forma

Li ≤ λ ≤ Ls
1 1 1
− ≤− ≤−
Li λ Ls
t t t
− ≤− ≤−
 Li
 λ  Ls
  
t t t
exp − ≤ exp − ≤ exp −
Li λ Ls
   
t t
exp − ≤ S (t; λ) ≤ exp − .
Li Ls

La aproximación normal asintótica no es muy buena para muestras pequeñas, o cuando el número de observa-
ciones exactas es pequeño.

Otra forma de calcular el intervalo de conanza es usar el cociente de verosimilitudes como cantidad pivotal
  
log L λ̂     
d
Λ(λ) = −2 = −2 log L λ̂ − log (L (λ)) → χ2(1) .
log (L (λ))
n o
Por lo tanto, el intervalo de conanza para alguna λ será: λ : Λ(λ) ≤ χ2(1),α .

Modelos con parámetros de log localización y escala


Parámetros de localización y escala
Supongamos que Y es una v.a. con soporte en los reales. La v.a. tiene parámetros de localización y escala si
la función de supervivencia la podemos escribir de la siguiente forma

 
y−a
S ∗ (y; a, b) = S0∗ ,
b

donde a ∈ R, se lo conoce como el parámetro de localización y b>0 es el parámetro de escala.

Modelos de log localización y escala


Si T es una v.a. que mide el tiempo de falla y proponemos la transformación Y = log(T ), entonces el soporte de
la nueva variable son los reales. Si Y es una distribución con parámetros de localización y escala (a, b), entonces
(α, β) = ea , 1b

T tiene una distribución con parámetros de log localización y escala . Entonces la función de
supervivencia la podemos escribir como

 
log(t) − a
S (t; α, β) = S0∗
b
= S0∗ (β {log(t) − log(α)})
 β !
∗ t
= S0 log .
α

21
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Ejemplos de modelos con parámetros de log localización y log escala son:

Localización y escala Log localización y escala

Weibull Gumbel
Normal log normal
Logística log logística

Función de verosimilitud
Sea una (ti , δi ) con i ∈ {1, 2, ..., n} una m.a. de la v.a. T proveniente de un modelo de log localizacion y escala
Y = log(T ),entonces la función de verosimilitud es de la forma

n
"  δi  1−δi #
Y 1 ∗ yi − a ∗ yi − a
L (a, b) = f × S0 ,
i=1
b 0 b b

dS0∗ (z)
donde yi = log(ti ) y f0∗ (z) = − dz .

Un ejemplo usando el modelo de log localización y escala Gumbel


La función de distribución Weibull se puede parametrizar de las siguiente formas



 αβtα−1 exp {−βtα }
  α−1 n  α o
f (t; α, β) = αβ
t
β exp − βt para α > 0, β > 0 y t ≥ 0.

 α−1 α
αβ (βt) exp {− (βt) }

Supongamos que estamos estudiando el tiempo de vida de N artefactos que se echan a andar al mismo tiempo
hasta que fallan. El tiempo de vida de cada artefacto sigue una distribuciónes F. Además supongamos que
según el diseño del experimento, el artefacto se mantendrá funcionando a lo más un periodo de tiempo C, esto
nos genera dos posibles escenarios:

ˆ Si el artefacto se descompone en un tiempo t ≤ C, entonces sabremos el valor del tiempo de falla .

ˆ Mientras que si el artefacto funciona hasta el tiempo C, el experimento acabará y no sabremos cuánto
tiempo adicional a C hubiera seguido funcionando; lo único que sabremos es que su tiempo de falla es
mayor a C.

Consideremos que podemos obtener N observaciones independientes de tiempos de falla bajo el esquema anterior.

La información proporcionada por la muestra de tamaño N la podemos dividir en:

ˆ los datos observados, que a su vez los podemos agrupar de la siguiente manera {xi }ri=1 ,
ˆ la cantidad de datos censurados que pasaron el umbral C es N − r, puesto que r denota la cantidad total
de observaciones que fueron menores o iguales a C.

Denotemos a L(θ, x) como la función de verosimilitud para θ . Esta función es proporcional a

r
Y
{f (xi ; θ)} × {1 − F (C; θ)}N −r , (2)
i=1

22
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

donde f (·; θ) es la función de desidad de la correspondiente de la función de distribución F (·; θ).

Primero vamos a partir del siguiente supuesto si F̃ sigue una distribución Weibull y le vamos a aplicar una serie
de transformaciones.

Recordemos que si Y se distribuye Weibull con parámetros α, β > 0, entonces su función de distribución está
dada por

  α 
y
F̃ (y; α, β) = 1 − exp − . (3)
β

Y

Si consideramos la transformación X = log C
   
Y
F (x; α, β) = P (X ≤ x) = P log ≤x = P (Y ≤ Cex ) ,
C

al sustituir en (3) tenemos que

α 
C ex
 
F (x; α, β) = 1 − exp −
β
(   )
−α
β xα
= 1 − exp − e
C
n β
o
= 1 − exp −e−α log( C ) exα ,

 
β
sea µ = log C , entonces

1 − exp −e−αµ exα



F (x; α, µ) =
n o
= 1 − exp −eα(x−µ)
n x−µ o
= 1 − exp −e σ .

Esta última expresión se tiene si se dene a α como σ −1 , o equivalentemente

n −1
o
F (x; µ, σ) = 1 − exp −e(x−µ)σ
n − log(σ)
o
= 1 − exp −e(x−µ)e
n −ϕ
o
= 1 − exp −e(x−µ)e , (4)

donde ϕ = log(σ).

23
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Esta última distribución es una distribución de valores extremos conocida en la literatura como Gumbel con
parámetros de localización µ y escala ϕ. Una de las ventajas de esta transformación es que el nuevo umbral de
censura es C0 = 0, esto debido a la transformación propuesta, ya que log(C/C) = log(1) = 0. Por otra parte, la
parametrización localización-escala es adecuada para trabajar con aproximación normal.

De la función de distribución que hemos obtenido en (4)

n −ϕ
o
F (x; µ, ϕ) = 1 − exp −e(x−µ)e ,

al derivar con respecto a x obtenemos la función de densidad

−ϕ
n −ϕ
o
f (x; µ, ϕ) = e−ϕ e(x−µ)e exp −e(x−µ)e . (5)

Usemos este modelo de probabilidad para resolver el problema de datos con censura descrito al inicio.

Entoces la verosimilitud tiene la siguiente forma

r
Y
{f (xi ; θ)} × {1 − F (C; θ)}N −r =
i=1
r n o h n oi
Y −ϕ −ϕ −ϕ
e−ϕ e(xi −µ)e exp −e(xi −µ)e × exp −e(C−µ)e N −r
.
i=1

Supongamos que el parámetro ϕ es conocido. Muestra (Tareita 5) que el EMV para µ es

!
r
µ̂ = −eϕ log Pr .
ee−ϕ xi + (N − r)eCe−ϕ

i=1

Inferencia no paramétrica

Introducción
Supongamos que tenemos un conjunto de datos que consta de n personas que están identicas en la primera
columna de la siguiente tabla:

Variables explicativas
Individuo t δ X1 X2 ... Xp
1 t1 δ1 X11 X12 ... X1p
2 t2 = 3 δ2 = 1 X21 X22 ... X2p
3 t3 = 4 δ3 = 0 X31 X32 ... X3p
. . . . .
. . . . .
. . . . ... .
n tn δn Xn1 Xn2 ... Xnp
Xn
r= δi
i=1

24
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

En la segunda columna se registra el tiempo de supervivencia de cada persona; estas mediciones de tiempo
de supervivencia observado son independientes de si la persona presentó el evento o fue censurada.

Para distinguir a las personas que presentan el evento falla de las que son censuradas, tenemos la tercera
columna, δ , que es una variable dicotómica que indica el estatus de censura, 1 si presentan el evento y 0 si son
censuradas.

El resto de las columnas; X1, X2 , . . . , Xp , son variables explicativas, es decir, cualquier información adicional
como la edad o estado de exposición a un tratamiento, etc. Cualquier información que el investigador desea
considerar para predecir el tiempo de supervivencia.

Ejemplo. Supongamos que tenemos dos grupos de pacientes con leucemia; un grupo de 21 personas que ha
recibido cierto tratamiento y el otro grupo de 21 personas ha recibido un placebo. Los datos provienen de
Freireich et al., Blood, 1963.

Grupo 1 Grupo 2
Tratamiento Placebo
6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8,
11+, 17+, 19+, 20+, 25+, 32+, 32+, 34+, 35+ 8, 11, 11, 12, 12, 15, 17, 22, 23

Los tiempos registrados para cada grupo consisten en el tiempo en semanas en que el paciente está en remisión,
hasta que el paciente salga de la remisión o sea censurado. Aquí, salir de la remisión es el evento falla. Una
persona es censurada si permanece en remisión hasta el nal del estudio, se pierde durante el seguimiento o se
retira antes del nal del estudio. Los datos censurados aquí se indican con un signo (+) junto al tiempo de
supervivencia.

Si hacemos un análisis descriptivo de los datos para cada grupo, podemos ver que la mayoría de los tiempos
del grupo de tratamiento son más grandes que los tiempos del grupo placebo. Si ignoramos los signos (+) que
indican la censura y calculamos el promedio de los 21 tiempos de supervivencia de cada grupo tenemos que
t = 17.1 semanas para el grupo de tratamiento y t = 8.6 semanas para el grupo placebo. Como los tiempos del
grupo de tratamiento son censurados, esto signica que el promedio del grupo 1 es aún mayor que lo que hemos
calculado. Por lo tanto, parece que, con respecto a la supervivencia, el tratamiento es más ecaz que el placebo.

Esta información anterior la presentar como habíamos descrito anteriormente, donde la cuarta columna es la
única variable explicativa que tenemos de momento, y registra 1 para el grupo 1 (tratamiento) y 0 para el grupo
2 (placebo).

25
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

t δ X t δ X
Individuo Individuo
semanas fallo/censura Grupo semanas fallo/censura Grupo
1 6 1 1 22 1 1 0
2 6 1 1 23 1 1 0
3 6 1 1 24 2 1 0
4 7 1 1 25 2 1 0
5 10 1 1 26 3 1 0
6 13 1 1 27 4 1 0
7 16 1 1 28 4 1 0
8 22 1 1 29 5 1 0
9 23 1 1 30 5 1 0
10 6 0 1 31 8 1 0
11 9 0 1 32 8 1 0
12 10 0 1 33 8 1 0
13 11 0 1 34 8 1 0
14 17 0 1 35 11 1 0
15 19 0 1 36 11 1 0
16 20 0 1 37 12 1 0
17 25 0 1 38 12 1 0
18 32 0 1 39 15 1 0
19 32 0 1 40 17 1 0
20 34 0 1 41 22 1 0
21 35 0 1 42 23 1 0

Como se mencionó, el conjunto de datos del grupo 1 parece tener un mejor pronóstico de supervivencia que el
grupo 2, lo que sugiere que el tratamiento es efectivo. Esta conclusión fue apoyada por estadísticas descriptivas
para el promedio de tiempo de supervivencia y tasa de riesgo promedio mostrado. Sin embargo, las estadísticas
descriptivas proporcionan comparaciones generales pero no comparan los dos grupos en diferentes momentos de
seguimiento.

Estimación de la función de supervivencia para datos con censura a la


derecha
Recordemos que la función de supervivencia S(t) es la probabilidad de que un individuo sobreviva un tiempo
mayor o igual a t. Entonces el estimador no parámetrico se la función de supervivencia dado una muestra
t1 , t2 , ..., tn , donde todos son valores observados, es la función de distribución empírica

#ti > t Número de individuos que sobreviven más allá del tiempo t
Ŝ(t) = P̂ (T > t) = = .
n Número total de individuos en el conjunto de datos

1 d
Que es una función escalonada con decrementos
n si todas ti son distintas; o con decrementos n si hay d tiempos
de fallo iguales a t.

26
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Ejemplo En el grupo 2 (placebo) de nuestro ejemplo de pacientes con leucemia

Grupo 2
Placebo
1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8,
8, 11, 11, 12, 12, 15, 17, 22, 23

t(j)
21
0 0 21 21
19
1 2 21 21
17
2 2 19 21
16
3 1 17 21
14
4 2 16 21
12
5 2 14 21
8
8 4 12 21
6
11 2 8 21
4
12 2 6 21
3
15 1 4 21
2
17 1 3 21
1
22 1 2 21
0
23 1 1 21

La probabilidad de sobrevivir a t0 = 0 es 1.

La probabilidad de sobrevivir después del primer tiempo fracaso ordenado t1 = 1 es 19/21, porque 2 personas
fallaron en la semana 1, de modo que 19 personas de los 21 originales sobrevivien más allá de una semana.

La probabilidad superviviencia los sujetos que sobrevivieron más de dos semanas, que es 17/21, debido a que 2
sujetos fallaron en la semana uno y otros 2 sujetos fallaron en la semanas dos, dejando a 17 de los 21 sujetos
originales que sobrevivien más allá de dos semanas.

Tablas de vida o Tabla actuarial de vida


Suponga que el eje del tiempo [0, ∞), lo dividimos en k + 1 intervalos Ij = [aj−1 , aj ) , con j = {1, ..., k + 1},
donde 0 = a0 < a1 < .... < ak = max {t1 , ..., tn } < ak+1 = ∞, con ak el límite superior de las observaciones.
Para cada elemento de una muestra aleatoria de tamaño n, supongamos se tiene un valor observado de fallo T
o un dato censurado por la derecha C .

Denimos las siguientes cantidades:

ˆ nj número de individuos en riesgo (vivos o no censurados) al tiempo aj−1 .

ˆ dj número de fallas en el intervalo Ij = [aj−1 , aj ) .

ˆ cj número de individuos censurados en el intervalo Ij = [aj−1 , aj ) .

El número de individuos sin falla al inicio de Ij es nj , por lo tanto n1 = n; mientras que para j ∈ {2, ..., k + 1}
nj = nj−1 − dj−1 − cj−1 .

Notemos que la función de supervivencia la podemos escribir de la siguiente forma

27
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

S (aj ) = P (T ≥ aj )
= P (T ≥ aj , T ≥ aj−1 )
= P (T ≥ aj |T ≥ aj−1 ) P (T ≥ aj−1 )
.
= ..
= P (T ≥ aj |T ≥ aj−1 ) P (T ≥ aj−1 |T ≥ aj−2 ) · · · P (T ≥ a1 |T ≥ a0 ) P (T ≥ a0 ) .

Denamos lo siguiente

ˆ Sj := S (aj )
ˆ pj := P (T ≥ aj |T ≥ aj−1 )
P(T ∈[aj−1 ,aj )) P(T ∈Ij ) dj
ˆ qj := 1 − pj = P (T < aj |T ≥ aj−1 ) = P(T >aj−1 ) = S(aj−1 ) = Sj−1 ,

para j ∈ {1, 2, ..., k + 1}, donde S0 = 1, Sk+1 = 0, qk+1 = 1.


Por lo tanto

Sj = S (aj ) = pj pj−1 ...p2 p1 .

El objetivo de la tabla de vida es estimar Sj a través de la estimación de pj , usando siguiente algoritmo

( dj
nj si en Ij no hay datos censurados
q̂j = dj
c si en Ij hay datos censurados.
nj − 2j

En el segundo caso de la ecuación anterior, se está suponiendo que las censuras se distribuyen uniformes en el
intervalo Ij y por lo tanto, los individuos censurados estuvieron expuestos la mitad del intervalo.

Finalmente se estima p̂j = 1 − q̂j y Ŝj = p̂j p̂j−1 ...p̂1 . Por lo tanto

j
Y
Ŝ (aj ) = Ŝj = p̂i
i=1
j  
Y dj
= 1− cj .
i=1
nj − 2

Los estimadores q̂j y Ŝj están sujetos a variación muestral. Bajo ciertos supuestos, es posible obtener estimadores
de sus varianzas.

p̂j ∗ q̂j q̂j −q̂j2 q̂j (1 − q̂j )


V ˆar (p̂j ) = c y V ˆar (q̂j ) = c = c .
nj − 2j nj − 2j nj − 2j

Usando el hecho de que los q̂j son asintóticamente no correlacionados, un estimador de la varianza de Ŝj es

j
  X q̂j
V ˆar Ŝj = Ŝj2 cj  .
i=1
p̂j nj − 2

28
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

La tabla de vida es un tabulado como su nombre lo indica, que proporciona estimadores de la función de
supervivencia; además de la siguiente información: nj , dj , cj , q̂j y Ŝj .

 
Ij nj dj cj q̂j p̂j Ŝj V ˆar (p̂j ) V ˆar (q̂j ) V ˆar Ŝj
[a0 , a1 )
[a1 , a2 )
.
.
.
[ak−1 , ak )
[ak , ∞)

 
La distribución asíntotica de Ŝj es una normal con media Sj y varianza V ˆar Ŝj . Usando este hecho es posible

obtener intervalos de conanza para Sj y hacer pruebas de hipótesis.

La tabla de vida es un estimador útil de la función de supervivencia si los datos han sido agrupados en intervalos
o el tamaño de muestra es muy grande, o se usa para una población grande, sin embargo presenta algunos
problemas.

ˆ No es claro el número de intervalos a elegir. Se sugieren de 8 a 10 intervalos.

ˆ No es claro como escoger las divisiones a0 < a1 < .... < ak < ak+1 = ∞ . Se sugiere tomar intervalos del
mismo tamaño, con ak = t(n) (tn el tiempo máximo observado).

ˆ Distintas elecciones de las aj , da lugar a estimadores diferentes de la función de supervivencia.

El siguiente estimador de Kaplan y Meier (1958) para la función de superviviencia es recomendado para muestras
pequeñas y grandes.

Estimador producto límite de Kaplan y Meier


El estimador producto límite propuesto como el estimador máximo verosímil de la función de supervivencia S(t).
En los estudios de supervivencia es común discretizar los tiempos de vida (días, semanas, meses observados),
esto da lugar a empates y por lo tanto es conveniente suponer que T es una v.a. discreta con soporte t1 ≤
t2 ≤ ... ≤ tn . Denotemos por pi a la probabilidad condicional de que un individuo viva más allá de ti dado que
sobrevivió al tiempo ti−1 como

pi = P (T ≥ ti |T ≥ ti−1 ) para i ∈ {1, ..., n} .

Entonces como

Sj = S (tj ) = pj pj−1 ...p2 p1 .

Usaremos el método de máxima verosimilitud para estimar los valores de pi .

k h
Y i
d
L (p1 , ..., pk ) = pni i −di {1 − pi } i
i=1

donde

29
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

n
X
di = I (T = ti , δi = 1) es el número de muertes o fallos observados en el intervale ti .
i=1
n
X
ni = I (T ≥ ti , {δi = 0 ∪ δi = 1}) número de individuos en riesgo. Incluye a todos los tiempos de fallo, o
i=1
censurados, mayores o iguales a ti .

Una vez denida la función de verosimilitud procedemos a maximizarla. Obtenemos primero la log-verosimilitud

k
X
l = log (L (p1 , ..., pk )) = [(ni − di ) log (pi ) + di log (1 − pi )] .
i=1

Si derivamos con respecto a pi

∂l ni − di di
= − , para i ∈ {1, ..., k} .
∂pi pi 1 − pi

Igualando a cero

ni − di di
= , para i ∈ {1, ..., k} .
p̂i 1 − p̂i

Despejando p̂k tenemos que

di
p̂i = 1 − , para i ∈ {1, ..., k} .
ni

Se puede demostrar que E [p̂i ] = pi , es decir, es un estimador insesgado. Finalmente, usando el principio de
invarianza de los EMV's, el EMV de S(t)

i i  
Y Y di
Ŝ (ti ) = p̂j = 1− .
j=1 j=1
ni

El estimador de Kaplan Meier también es válido si T es una v.a. continua. El estimador de la función de
supervivencia S(t) es discreto y toma valores en los puntos {t1 , t2 , ..., tk } que son los tiempos de fallo observados
de forma exacta . En este caso

 
Y dj
Ŝ (t) = 1− ,
nj
{j | t ≤t}
j

donde
n
X
di = I (T = [ti , ti+1 ), δi = 1) es el número de muertes o fallos observados en el intervale [ti , ti+1 ).
i=1

30
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

n
X
ni = I (T ≥ ti , δi = 0 ∪ δi = 1) número de individuos en riesgo. Incluye a todos los tiempos de fallo, o
i=1
censurados, mayores o iguales a ti .

#ti >t
Nótese que a diferencia de la función de supervivencia empírica, Ŝ(t) =
n , el denominador es siempre
constante, mientras que en el estimador producto de KM el denominador va cambiando reconociendo a los
individuos que están en riesgo en cada tiempo.

Ilustrar la forma estimar la función de supervivencia tomando el grupo 1 de los pacientes con leucemia ya que
en este conjunto hay datos censurados

Grupo 1 Grupo 2
Tratamiento Placebo
6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8,
11+, 17+, 19+, 20+, 25+, 32+, 32+, 34+, 35+ 8, 11, 11, 12, 12, 15, 17, 22, 23

t δ X
Id
semanas fallo/censura Grupo
1 6 1 1
2 6 1 1
3 6 1 1
4 7 1 1
5 10 1 1
6 13 1 1
7 16 1 1 tj nj dj cj Ŝ (tj )
8 22 1 1 6 21 3 1 1 ∗ [1 − 3/21] = 0.857
9 23 1 1 =⇒ 7 17 1 1 0.857 ∗ [1 − 1/17] = 0.807
10 6 0 1 10 15 1 2 0.807 ∗ [1 − 1/15] = 0.753
11 9 0 1 13 12 1 0 0.753*[1-1/12]=0.690
12 10 0 1 16 11 1 3 0.690*[1-1/11]=0.628
13 11 0 1 22 7 1 0 0.628*[1-1/7]=0.538
14 17 0 1 23 6 1 5 0.538*[1-1/6]=0.448
15 19 0 1
16 20 0 1
17 25 0 1
18 32 0 1
19 32 0 1
20 34 0 1
21 35 0 1

31
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Ahora si hacemos lo mismo pero con los datos de remisión del grupo 2 notemos que hay un producto telescópico
que nos regresa a que es estimador de la función de supervivencia en este caso es la función de distribución
empírica.

t δ X
Individuo
semanas fallo/censura Grupo
22 1 1 0
23 1 1 0
24 2 1 0
25 2 1 0 tj nj dj cj q̂j 1 − p̂j
26 3 1 0 1 21 2 0 2
21
19
21
27 4 1 0 2 19 2 0 2
19
17
19
28 4 1 0 3 17 1 0 3
17
16
17
29 5 1 0 4 16 2 0 2
16
14
16
30 5 1 0 =⇒ 5 14 2 0 2
14
12
14
31 8 1 0 8 12 4 0 4
12
8
12
32 8 1 0 11 8 2 0 2
8
6
8
33 8 1 0 12 6 2 0 2
6
4
6
34 8 1 0 15 4 1 0 1
4
3
4
35 11 1 0 17 3 1 0 1
3
2
3
36 11 1 0 22 2 1 0 1
2
1
2
37 12 1 0 23 1 1 0 1
1 0
38 12 1 0
39 15 1 0
40 17 1 0
41 22 1 0
42 23 1 0

19 19
Ŝ(1) = 1 ∗ =
21 21
19 17 17
Ŝ(2) = 1 ∗ ∗ =
21 19 21
19 17 16 16
Ŝ(3) = 1 ∗ ∗ ∗ =
21 19 17 21
19 17 16 14 14
Ŝ(4) = 1 ∗ ∗ ∗ ∗ =
21 19 17 16 21

Varianza del estimador producto límite


Para hacer intervalos de conanza del estimación puntual Ŝ(t), es necesario tener al menos una aproximación
de su varianza.

Si

Y   X
Ŝ (t) = {1 − q̂k } entonces ln Ŝ (t) = ln (1 − q̂k ) .

Tomando la varianza de ambos lados en la última igualdad y suponiendo independencia entre q̂k y q̂j con k 6= j

h  i X
V ar ln Ŝ (t) = V ar [ln {1 − q̂k }] .

32
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Vamos a probar que

 
V ar Ŝ (t) 1) P.D. h  i X 2) P.D. X V ar (q̂k )
2 ≈ V ar ln Ŝ (t) = V ar [ln {1 − q̂k }] ≈ 2.
(S(t)) (1 − qk )

Por lo tanto

   2 X V ar (q̂ )
k
V ˆar Ŝ (t) ≈ Ŝ(t) 2.
(1 − q̂k )

Demostración 1)
  h  i
Desarrollando en series de Taylor ln Ŝ (t) al rededor de ln (S (t)) = E ln Ŝ (t) tenemos que

    1
ln Ŝ (t) = ln (S (t)) + Ŝ (t) − S (t) + O(n).
S (t)

O equivalentemente

 2
   2 Ŝ (t) − S (t)
ln Ŝ (t) − ln (S (t)) ≈ 2 .
(S (t))

Tomando esperanza de ambos lados

 2 
 2 
E Ŝ (t) − S (t)
 Ŝ (t) − S (t)
   2 
ln Ŝ (t) − ln (S (t)) ≈ E =

E 2 2
(S (t)) (S (t))

Por último tenemos que

 2   
   E Ŝ (t) − S (t) V ar Ŝ (t)
V ar ln Ŝ (t) ≈ 2 = 2 
(S (t)) (S (t))
 
   V ar Ŝ (t)
V ˆar ln Ŝ (t) ≈  2 Usando el principio de invarianza del EMV.
Ŝ (t)

Demostración 2) Tareita
Sugerencia. Desarrolla en series de Taylor ln {1 − q̂k } al rededor de qk = E [q̂k ].

 
Entonce para estimar V ar Ŝ (t) lo hacemos de la siguiente forma

33
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

   2 X V ˆar (q̂ )
k
V ˆar Ŝ (t) ≈ Ŝ(t) 2,
(1 − q̂k )
q̂k (1−q̂k )
dk
V ˆar (q̂k ) =
Q
donde ya habíamos visto que:q̂k = nk entonces nk y Ŝ (t) = {1 − q̂(tk )}.

   2 X q̂k (1−q̂k )
nk
V ˆar Ŝ (t) ≈ Ŝ(t) 2
(1 − q̂k )
 2 X q̂ (1 − q̂ )
k k
= Ŝ(t) 2
nk (1 − q̂k )
 2 X dk
= Ŝ(t)  nk 
nk 1 − ndkk
 2 X dk
= Ŝ(t)  nk 
nk −dk
nk nk
 2 X dk
= Ŝ(t) .
nk (nk − dk )
   2 P
Al estimador V ˆar Ŝ (t) ≈ Ŝ(t) dk
nk (nk −dk ) , se le conce como el estimador de Greenwood. Como es de
r  
esperarse V ˆar Ŝ (t) es la desviación estándar estimado.

El estimador puntual de S(t) junto con su error estándar pueden ser usados para obtener intervalos de conanza
para la función de supervivencia S(tj ) en el tiempo tj .
Se puede demostrar que Ŝ(t) converge en distribución a una normal

  
d
Ŝ(t) −→ N S(t), V ˆar Ŝ (t) ,

entonces usando este resultado es posible construir un intervalo de conanza para S(t) al (1 − α) × 100% de la
siguiente manera

v
dk
u X
Ŝ(t) ± Z α2 Ŝ(t)t .
u
nk (nk − dk )
{k:tj ≤t}

qP
P dk dk
tj nj dj cj Ŝ (tj ) {k:tj ≤t} nk (nk −dk ) Ŝ (tj ) {k:tj ≤t} nk (nk −dk ) Li Ls
0 21 0 0 1 0 0 1 1
6 21 3 1 0.857 0.0079 0.0764 0.707 1.007
7 17 1 1 0.807 0.0116 0.0869 0.636 0.977
10 15 1 2 0.753 0.0164 0.0963 0.564 0.942
13 12 1 0 0.690 0.0240 0.1068 0.481 0.900
16 11 1 3 0.628 0.0330 0.1141 0.404 0.851
22 7 1 0 0.538 0.0569 0.1282 0.286 0.789
23 6 1 5 0.448 0.0902 0.1346 0.184 0.712

Al intervalo de conanza anterior se le conoce como intervalo lineal. Ese intervalo tiene a desventaja de que no
hay garantía que los límites de conanza (superior e inferior) tomen valores dentro del (0,1).

34
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

Comparación entre curvas de supervivencia


A continuación describimos cómo evaluar si dos curvas de supervivencia (distintas por una variable dicotómica)
son estadísticamente equivalentes. El método de prueba más popular se llama la prueba log-rank.
Cuando armamos que dos curvas de superviviencia son "estadísticamente equivalentes", queremos decir que;
basándonos en una prueba de hipótesis que compara las dos curvas en algún "sentido general", no tenemos
evidencia que indique que las curvas de supervivencia poblacionales son diferente.

La prueba de log-rank es una prueba de hipótesis no paramétrica libre de distribución para muestras grandes
que utiliza como estadística (log-rank). Y se usa la idea de la prueba χ2 vista en estadística II ya que compara
conteos observados vs esperados en un intervalo.

Usemos el ejemplo de los pacientes que entraron en remisión y que padecen leucemia, comparemos las curvas de
supervivencia: grupo 1 tratamiento y placebo grupo 2.

Construyamos la siguiente tabla donde la primera columna están los tiempos de falla ordenados sin
repetición de los dos grupos. Los datos censurados en la tercera y quinta columna, con la idea hacer uso
de la información de datos censurados hasta el momento en que los perdemos la pista, en lugar de no usar la
información de una persona censurada.

tj d1j c1j n1j d2j c2j n2j

1 0 0 21 2 0 21
2 0 0 21 2 0 19
3 0 0 21 1 0 17
4 0 0 21 2 0 16
5 0 0 21 2 0 14
6 3 1 21 0 0 12
7 1 0 17 0 0 12
8 0 1 16 4 0 12
10 1 1 15 0 0 8
11 0 1 13 2 0 8
12 0 0 12 2 0 6
13 1 0 12 0 0 4
15 0 0 11 1 0 4
16 1 0 11 0 0 3
17 0 3 10 1 0 3
22 1 0 7 1 0 2
23 1 5 6 1 0 1

El número esperado por grupo se calcula como:

 
n1j
e1j = ∗ (d1j + d2j ),
n1j + n2j
# de fallos en ambos grupos
| {z }
Prop de conjunto en riesgo
| {z }
 
n2j
e2j = ∗ (d1j + d2j ) .
n1j + n2j

Calculamos la diferencia de los observados menos los estimados

35
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

tj d1j c1j n1j d2j c2j n2j e1j e2j d1j e1j d2j e2j

1 0 0 21 2 0 21
2 0 0 21 2 0 19
3 0 0 21 1 0 17
4 0 0 21 2 0 16
5 0 0 21 2 0 14
6 3 1 21 0 0 12
7 1 0 17 0 0 12
8 0 1 16 4 0 12
10 1 1 15 0 0 8
11 0 1 13 2 0 8
12 0 0 12 2 0 6
13 1 0 12 0 0 4
15 0 0 11 1 0 4
16 1 0 11 0 0 3
17 0 3 10 1 0 3
22 1 0 7 1 0 2
23 1 5 6 1 0 1

17
X
Denamos Oi − Ei = (dij − eij ) ,para i = 1, 2.
j=1

17
X n1j n2j (d1j + d2j ) (n1j + n2j − d1j − d2j )
Y la V ar (Oi − Ei ) = 2 ,para i = 1, 2.
j=1 (n1j + n2j ) (n1j + n2j − 1)
(Oi −Ei )2
Por último, estadístico es el siguiente: log − range = V ar(Oi −Ei ) , que en nuestro ejemplo es log − range =
(Oi −Ei )2 (10.2505)2
V ar(Oi −Ei ) = 6.256961 = 16.79294
H0 : No hay diferencia entre las dos curvas de supervivencia.

36
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

2
Suponiendo H0 cierta, el estadístico log − rank se distribuye aproximadamente como unaχ(1) .

Al obtener la región de rechazo y compararlo con lo que obtuvimos del estadístico log −rank notamos lo siguiente

El estadístico de prueba cae en la región de rechazo y de hecho muy alejado del valor crítico, por lo tanto se
rechaza H0 y a la luz de los datos concluimos que las dos muestras provienen de funciones de superviviencia
distintas.

Modelos de regresión
En el análisis de tiempos de falla, es común suponer que el riesgo de presentar la falla está en función de una
serie de covariables inherentes a cada individuo.

covariables
Individuo t δ X1 X2 ... Xp
1 t1 δ1 X11 X12 ... X1p
2 t2 δ2 X21 X22 ... X2p
3 t3 δ3 X31 X32 ... X3p
. . . . .
. . . . .
. . . . ... .
n tn δn Xn1 Xn2 ... Xnp

Es decir que la población bajo estudio no es homogénea y es necesario tomar en cuenta los factores que diferencian
a los individuos del estudio.

Modelos de riesgos proporcionales


El modelo de riesgos proporcionales de Cox (1972) es el modelo más utilizado en el análisis de tiempos de vida en
presencia de covariables. Este modelo también es conocido como modelo de regresión de riesgos multiplicativos.

Sea ti el tiempo de vida del individuo i y suponga que {X1i , X2i , ..., Xpi } es un vector de p covariables del mismo
individuo i, con i ∈ {1, ..., n}.
El modelo de Cox expresa la función de riesgo del individuo i-ésimo, hi , en función del tiempo t y una combinación
lineal de las covariables de la siguente manera

37
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong

 
Xp
hi (t) = h0 (t) exp  θj Xji  .
j=1

Observaciones

ˆ h0 (t) se lo denomina riesgo base y corresponde al riesgo de muerte cuando todas las covariables tienen
valor 0. Y es la parte de la expresión que depende del tiempo.
 
p
X
ˆ exp  θj Xji  es una función liga que depende de las covariables {X1i , X2i , , Xpi } y los coecientes
j=1
θ1 , ..., θp .
ˆ Notemos que siXji = 0, ∀j ∈ {1, 2, ..., p}, entoces hi (t) = h0 (t) · 1.
Pp
ˆ Notemos que la expresion j=1 θj Xji no tiene intercepto.
P 
p
ˆ Usando la función liga hi (t) = h0 (t) exp j=1 θj Xji , el cociente de la función de riesgo del individuo i
con respecto al riesgo base h0 es

  p
hi (t) X
ln = θj Xji .
h0 (t) j=1

El cual tiene forma lineal en los parámetros.

ˆ El nombre de riesgos proporcionales se debe al siguiente hecho; el cociente de las funciones de riesgo de
dos individuos, i y k,
P 
p
hi (t) h0 (t) exp j=1 θj Xji
= P 
hk (t) h0 (t) exp
p
θ X
j=1 j jk
 
Xp X p
= exp  θj Xji − θj Xjk 
j=1 j=1
 
Xp 
= exp θj (Xji − Xjk ) , (riesgo relativo)
 
j=1

p
X
es una constante en el tiempo cuyo valor depende de θj (Xji − Xjk ) de los dos individuos. En particular,
j=1
si x1i = 1 y x1k = 0 representan tratamiento
 y placebo respectivamente,
 y todas las demás covariables
Xp 
se mantienen constante, entonces exp θj (Xji − Xjk ) = exp {θ1 (x1i − x1k )} = eθ1 es el riesgo de
 
j=1
presentar la falla con el tratamiento relativo a presentar la falla con placebo.

38

También podría gustarte