Resumen_Supervivencia
Resumen_Supervivencia
Resumen_Supervivencia
Introducción
En esta sección nos centramos en el problema abordado por el análisis de supervivencia, los objetivos del análisis
de supervivencia, la notación, la terminología, y algunos ejemplos.
El análisis de supervivencia es una colección de procedimientos estadísticos para el análisis de datos para los
cuales la variable de resultado de interés es el tiempo, medido en años, meses, semanas o días hasta que ocurre
un evento.
Por evento, entenderemos:
La incidencia de la enfermedad.
3. Población adultos mayores (60 años o más) / tiempo hasta la muerte (años)
Notemos que primero se dene al conjunto de individuos a estudiar, después el evento de interés y la escala de
medición del tiempo. El tiempo origen de cada individuo que debe ser denido sin ambigüedad
Censura
La mayoría de los análisis de supervivencia deben considerar un problema clave llamado censura. La censura
ocurre cuando tenemos información parcial sobre el tiempo de supervivencia de algunos individuos del estudio,
es decir no conocemos exactamente el tiempo de supervivencia de estos individuos.
Para ejemplicar la censura de los datos, tomemos el ejemplo de los pacientes con leucemia seguidos hasta que
salgan de la remisión. Para un paciente el estudio termina cuando sale de la remisión. Si el paciente está en
remisión cuando acaba el tiempo del estudio entonces el tiempo de supervivencia se considera censurado. Sólo
sabemos que, para esta persona, el tiempo de supervivencia es al menos tan largo como el período que duró el
estudio; si la persona sale de la remisión después de que el estudio terminó, no sabemos el tiempo exacto de
supervivencia.
Generalmente hay tres razones por las cuales puede ocurrir la censura:
1
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
una persona se retira del estudio debido a la muerte (si la muerte no es el evento de interés) o alguna otra
razón.
Estas grácas ilustran la experiencia de varias personas seguidas en el tiempo, la 'X' denota una persona donde
se obtuvo el evento. En total se estudiaron seis personas, de las cuales dos presentaron el evento (individuo 1 y
6) y cuatro personas tienen información censurada (2, 3, 4 y 5).
El tiempo de origen no necesita ser igual y usualmente no está en el mismo tiempo calendario para cada
individuo. En la mayoría de los estudios se presentan entradas escalonadas.
La información del gráco anterior se puede representar en una tabla que se muestra a continuación.
Falla=1
Individuo t de supervivencia
Censura=0
1 5 1
2 12 0
3 3.5 0
4 8 0
5 6 0
6 3.5 1
Se registra para cada persona el tiempo de supervivencia correspondiente hasta la ocurrencia del evento o hasta
la censura. La última columna es una variable indicadora donde 1 representa el evento falla y 0 censura.
2
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Terminología y notación
Denotemos por T la variable aleatoria que mide el tiempo de supervivencia de una persona o artefacto. Como
T mide el tiempo, toma valores no negativos; es decir, T puede ser cualquier número igual o mayor que cero.
Por otro lado, t es cualquier valor positivo de interés para la variable aleatoria T.
Ejemplo Si estamos interesados en el evento; una persona sobreviva durante más de 5 años después de someterse
a la terapia contra el cáncer, esto lo podemos escribir como: T > 5, en este caso t es igual a 5.
Denamos a δ como una variable aleatoria que toma únicamente los valores δ=1 si el evento ocurre durante el
período de estudio, o δ=0 si el tiempo de supervivencia es censurado al nal del período de estudio. Un dato
es censurado si δ=0 y esto ocurre si y sólo si ocurre uno de los siguientes casos: una persona sobrevive hasta
que el estudio termina, o la persona se retira durante el período de estudio.
Por la derecha: hay elementos del conjunto de estudio que su tiempo de vida está por encima de cierto
valor, pero se ignora qué tanto más.
Por la izquierda: una observación está por debajo de cierto valor, pero se ignora cuánto.
En un intervalo: se sabe que una observación está entre dos valores extremos, pero no exactamente dónde.
Para identicar de forma apropiada el tipo de censura que presentan los datos, se tiene que conocer la forma en
que han sido obtenidos los datos. Ya que esto inuye en la forma de escribir la función de verosimilitud, que es
la base para hacer inferencia.
Observaciones exactas: Los tiempos de supervivencia registrados durante el periodo de estudio son los
tiempos desde el inicio del estudio hasta su muerte.
Observaciones censuradas: Los tiempos de supervivencia que pasaron el umbral Cr , no son conocidos
exactamente cuando sucedió el evento falla, pero son registrados como al menos la longitud del estudio.
Para un individuo en el estudio, se supone que éste tiene un tiempo de vida X y un tiempo jo de censura Cr .
Donde las X 's para cada individuo se suponen como v.a.i.i.d con función de densidad fX (x).
Los datos del estudio se pueden representar por el vector (T, δ), donde δ es una variable indicadora:
1
si el tiempo de vida X es observado
δ=
0 si el tiempo de vida X es censurado
3
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
La Censura Tipo I generalizada, es cuando los individuos entran al estudio a diferentes tiempos, y el umbral
de censura Cr de estudio predeterminado es el mismo para todos. En este caso, el tiempo de censura para cada
sujeto es conocido en el momento en que entra al estudio, de manera que cada individuo tiene jo y especicado
su propio tiempo de censura.
Censura tipo II: en el mismo contexto de censura por la derecha, ocurre cuando el experimento termina cuando
sólo queda un cierto número de sujetos vivos, que son los que quedan censurados por la derecha. En otras
palabras, todos los individuos en el estudio, n, empiezan al mismo tiempo el estudio. El estudio termina cuando
r de los n individuos (r < n) han presentado el evento de interés, es decir, que hay dependencia del tamaño de
muestra y las fallas que se observen.
r es un número entero positivo menor a n, determinado previamente. Y sean T1 , T2 , . . . , Tn los tiempos de falla
de los n T(1) , T(2) , ..., T(n) sus respectivas estadísticas de orden. Entonces el umbral de censura Cr
individuos y
es aleatorio dado por T (r), la r -ésima estadística de orden. Por tanto, (n − r) observaciones censuradas y r
observaciones exactas menores o iguales al tiempo. T (r)
Censura tipo III o aleatoria: se da cuando los sujetos salen del estudio sin presentar el evento falla, por
razones no controladas. Por ejemplo supongamos que en un estudio donde el evento de falla es la muerte por
una causa especíca, un sujeto puede presentar censura aleatoria si muere por alguna razón ajena al evento
falla, o se pierde acceso al sujeto y éste sale del estudio.
Descripción En un ensayo clínico en donde se quería estudiar la efectividad del fármaco 6-MP vs un placebo
en 42 niños con leucemia aguda. El evento de inicio es remisión parcial de la enfermedad después de haber
sido tratados con la droga prednisone. El evento falla es recaída o la muerte. La escala de medición del
tiempo es en meses (tiempo calendario). Algunos niños no presentaron el evento de n al término del estudio.
Estos casos son marcados con un +.
4
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
γ=
0 si el tiempo de vida X es censurado
Si estudiamos en un grupo de personas eltiempo hasta que contrae una enfermedad viral. Se registra el
evento falla cuando un sujeto da positivo en la prueba para detectar el virus.
Sin embargo, es posible que no sepamos exactamente el momento de la primera exposición al virus, por lo
tanto, no sabemos exactamente cuándo ocurrió el evento falla. El tiempo de supervivencia es censurado por
la izquierda, ya que el tiempo de supervivencia real termina en la exposición que es un tiempo menor de la
detección en el seguimiento.
Puede ocurrir que el conjunto de datos del estudio tenga censura por la izquierda y por la derecha , es decir que
los tiempos de vida son considerados doblemente censurados.
Los datos pueden ser representados por el vector de variables (T, δ) donde T = máx {mín {X, Cr } , Cl } es el
tiempo de estudio y δ es una variable indicadora denida de la siguiente manera:
1 si el tiempo de vida X es observado
δ= 0 si el tiempo de vida X es censurado por la derecha
−1 si el tiempo de vida X es censurado por la izquierda
Truncamiento
Una segunda característica que hace distinto al análisis de supervivencia de otros análisis estadísticos es el
truncamiento.
5
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
de las personas con más de 60 años son considerados en el estudio. Aquellos individuos cuya edad de muerte sea
menor a los 60 años no se contemplan en el estudio.
Noten que en la censura por la izquierda, por lo menos se tiene información parcial de individuos que presentan
el evento de interés antes de la edad de entrada al estudio. En el truncamiento por la izquierda, estos individuos
no serán considerados para ser incluidos en el estudio.
Ejemplo Estudio sobre el tiempo para presentar SIDA. Solo aquellos individuos que fueron infectados y han
desarrollado SIDA son considerados en el estudio. Aquellos que no han desarrollado SIDA no son considerados
por el investigador.
Lo más común en un estudio de análisis de supervivencia es que se tengan observaciones censuradas por la
derecha y truncadas.
Ejercicio 1
Argumenta a detalle, los tipos de censura o truncamiento que están presentes en los siguientes estudios:
Tiempos de muerte de adultos mayores (60 años o más) residentes de un asilo. Los datos con las edades de
muerte de 462 individuos (97 hombres y 365 mujeres) que estuvieron en la residencia durante el periodo de enero
de 1964 y julio de 1975. Se reportó la edad a la muerte o al momento en que se salían del asilo (en meses) y la
edad a la que los individuos entraron al asilo.
Ejercicio 2
Tiempo al primer uso de marihuana. En este estudio a 191 estudiantes de preparatoria se les preguntó: ¾Cuál
fue la primera vez que probaste la marihuana?. Las respuestas fueron:
Nunca la he probado, y
Modelo de Supervivencia
Introducción
Denotemos por T la variable aleatoria que mide el tiempo de supervivencia de una persona. Como T mide el
tiempo, toma valores no negativos; es decir, T puede ser cualquier número igual o mayor que cero. Por otro
lado, t es cualquier valor positivo de interés para la variable aleatoria T. La distribución de la variable aleatoria
puede ser caracterizada por las siguientes 3 funciones básicas:
6
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Éstas funciones son matemáticamente equivalentes, es decir que si una de ellas está dada, pueden derivarse las
otras tres.
La función de supervivencia, denotada por S(t) como la probabilidad de que una persona sobreviva más de un
tiempo especíco t, es decir, S(t) da la probabilidad de que la variable aleatoria T exceda el tiempo t.
t S(t)
1 S(1) = P (T > 1)
2 S(2) = P (T > 2)
3 S(3) = P (T > 3)
. .
. .
. .
n S(n) = P (T > n)
La función supervivencia es fundamental para el análisis, ya que da las probabilidades de supervivencia para
diferentes valores de t.
Como t puede variar en el intervalo (0, ∞), la función de supervivencia puede representarse grácamente como
una curva suave, donde t está en el eje X.
3. En el tiempo t = ∞, limt→∞ S(t) = 0; es decir, teóricamente, si el período de estudio se lleva acabo una
cantidad de tiempo ilimitado hacia delante, nadie sobreviviría, por lo que la curva de supervivencia irá a
cero eventualmente.
7
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
En la práctica, cuando se utilizan datos reales, obtenemos: Grácas escalonadas, en lugar de curvas suaves.
Además, como el período de estudio es nito y puede uno perder individuos en el estudio por otros riesgos
diferentes a la falla estudiada esto puede generar datos censurados.
Sea T una v.a. no negativa que mide el tiempo de falla, con función de distribución FT (t) y función de densidad
de probabilidad f(t), entonces
O equivalentemente
La tasa de decaimiento de las funciones de supervivencia S(t), varía de acuerdo al riesgo de presentar el evento
falla. Eventos más riesgosos presentan una tasa de decaimiento mayor. Las líneas horizontales verdes
representan el primer cuartil, la mediana y el tercer cuartil.
8
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
R t
0 f (u) du
si T es continua
FT (t) = P (T ≤t ) =
Pt
u=0 f (u) du si T es discreta.
d
dt FT (t)
si T es continua
f (t) =
FT (t) − FT (t−) si T es discreta,
P (T = ti )
con t1 < t2 < t3 < ...
f (t) =
0 c.o.c
X
S(t) = P(T > t) = f (tj ).
tj >t
9
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Función de densidad
Si T es una v.a. no negativa continua entonces tenemos que
Z ∞
S(t) = P(T > t) = f (u)du = lim FT (u) − FT (t) = 1 − FT (t).
t u→∞
dS(t)
f (t) = − .
dt
Función de riesgo
La función de riesgo, denotada por h(t), se calcula de la siguiente forma:
P (t < T ≤ t + ∆t | T > t)
h(t) = lim (1)
∆t→0 ∆t
Una interpretación conceptual de la función de h(t) es la siguente: h(t) es una tasa de cambio instantánea por
unidad de tiempo para que ocurra el evento falla, dado que el individuo ha sobrevivido hasta el tiempo t. La
función de riesgo h(t) registra la tasa de cambio instantánea en el tiempo de que suceda el evento falla, dada la
supervivencia hasta el tiempo t.
Observaciones de la función de riesgo
Igual que la función de supervivencia, S(t), la función de riesgo, h(t), se puede representar grácamente. La
gráca de h(t) no tiene que comenzar en 1 como en la función de supervivencia. A continuación mostramos
algunos grácos de diferentes tipos de funciones de riesgo.
10
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
1. La gráca superior izquierda muestra una función de riesgo constante para un estudio de personas sanas,
i.e. una persona que sigue siendo saludable durante todo el período de estudio, su tasa instantánea para
enfermarse en cualquier momento permanece constante durante todo el período de seguimiento. Cuando
la función de riesgo es constante, decimos que el modelo de supervivencia sigue una función exponencial.
2. El gráco de arriba a la derecha muestra una función de riesgo creciente con respecto al tiempo. Ejemplo
el modelo de supervivencias con distribución Weibull con algunas características en los parámetros. El
gráco podría interpretarse como: los pacientes de leucemia que no responden al tratamiento, donde el
evento de interés es la muerte. A medida que aumenta el tiempo de supervivencia para tal paciente, el
pronóstico empeora, la tasa instantánea de morir del paciente aumenta.
3. El gráco de abajo a la izquierda muestra una función de riesgo que disminuye con el tiempo. Ejemplo
de este tipo de gráco se da cuando la función de supervivencia sigue una distribución Weibull. El gráco
podría modelar el siguiente evento: la muerte de personas que se están recuperando después de una cirugía,
ya que la tasa instantánea de morir después de la cirugía generalmente disminuye a medida que aumenta
el tiempo después de la cirugía.
4. La gráca de abajo a la derecha muestra una función de riesgo que aumenta y luego disminuye. Grácos de
este estilo se pueden obtener cuando la función de supervivencia siguie una distribución lognormal. Grácos
es este estilo pueden servir para modelar a pacientes con tuberculosis, puesto que su tasa instantánea de
morir aumenta al principio de la enfermedad y disminuye más adelante.
De las dos funciones vistas, S(t) y h(t), la función supervivencia resulta en primera instancia más atractiva
para el análisis de los datos de supervivencia, porque describe directamente la supervivencia una cohorte de
estudio. Sin embargo, la función de riesgo también es de interés porque: da una tasa instantánea mientras que
una función de supervivencia es una medida acumulativa a lo largo del tiempo; además, la función de riesgo
puede dar una pista de cuál es el modelo matemático adecuado para los datos de supervivencia.
11
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Estimar e interpretar las funciones de supervivencia y/o riesgo a partir de los datos de supervivencia, y
Comparar funciones de supervivencia y/o riesgo, entre un grupo de tratamiento y un grupo al que se le
aplica un placebo.
P (t < T ≤ t + ∆t | T > t)
h(t) = lim
∆t→0 ∆t
P (t<T ≤t+∆t , T >t)
P (T >t)
= lim
∆t→0 ∆t
1 P (t < T ≤ t + ∆t)
= lim
P (T > t) ∆t→0 ∆t
1 F (t + ∆t) − F (t)
= lim .
S (t) ∆t→0 ∆t
Multiplicando por -1 y tomando exponencial de ambos lados en la ecuación anterior tenemos que
Z t
S(t) = exp {−H(t)} = exp − h(u)du .
0
12
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Si T es una v.a. discreta que toma valores en el conjunto {t0 , t1 , t2 , ..., tn , ...} tal que t0 < t1 < t2 < ... < tn < ...
La función de riesgo, h (tj ) para j = 0, 1, 2, ... que mide la probabilidad condicional de falla al tiempo t = tj ,
dado que el individuo estaba vivo antes de tj
P (T = tj ) f (tj ) f (tj )
h (tj ) = P (T = tj |T > tj ) = = = .
P (T > tj ) P (T > tj ) 1 − P (T < tj )
Algunos paramétricos
Algunas familias paramétricas se ilustran en el siguiente cuadro resumen de Klein y Moeshberger (2003), pp. 38.
13
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Percentiles
El percentil de orden p de la variable aleatoria T, denotado por tp es el mínimo valor de t tal que S(t) ≤ 1 − p,
si T es una v.a. continua entonces S(tp ) = 1 − p.
mrl(t) = E [T − t | T > t] .
Entonces si T es continua
∞ Z ∞
f (u) I[t,∞) (u)
Z
mrl(t) = (u − t) f (u|u > t) du = (u − t) du
0 0 S (t)
Z ∞ R ∞ R ∞
f (u) (u − t) f (u) du S (u) du
= (u − t) du = t = t .
t S (t) S (t) S (t)
∞
X
mrl(t) = E [T − t | T > t] = (tj − t) P (T = tj | T > t)
j=0
∞ P∞
P (T = tj , T > t) j=i+1 (tj − t) P (T = tj )
X
= (tj − t) =
j=0
S(t) S(t)
P∞
j=i+1 (tj − t) {S (tj−1 ) − S (tj )}
= .
S(t)
14
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Proposición. Si T es continua, la función de riesgo se puede obtener vía la función de vida media residual
como sigue
d
dt mrl(t) +1
h(t) = .
mrl(t)
d
R∞
Demostración. De la expresión dt mrl(t)+1
mrl(t) sustituyamos en el numerador mrl(t) = t
S(u)dt
S(t) , es decir
R∞
d S(u)du
d t
+1
dt mrl(t)+1 dt S(t)
=
mrl(t) mrl(t)
R∞
d
S(u)du∗S(t)− t∞ S(u)du∗ dt
d
R
S(t)
dt t
S 2 (t) +1
=
mrl(t)
R∞
d
S(u)dt∗S(t)+ t∞ S(u)du∗f (t)
R
dt t
2
S (t) +1
= .
mrl(t)
d
R∞
Por otro lado,
dt t
S (u) du = limv→∞ S (v) − S (t) = −S (t). Sustituyamos esto en la pasada ecuación
d
R∞ R∞
S(u)du∗S(t)+ S(u)du∗f (t)
d dt t t
+1
dt mrl(t) +1 S 2 (t)
=
mrl(t) mrl(t)
−S(t)∗S(t)+ t∞ S(u)du∗f (t) −S 2 (t)+ t∞ S(u)du∗f (t)
R R
S 2 (t) +1 S 2 (t) +1
= =
mrl(t) mrl(t)
R∞
S(u)du f (t)
−1 + t
S(t) S(t) +1 mrl(t) ∗ h(t)
= = = h(t)
mrl(t) mrl(t)
Corolario 2. Si T es continua, la función de densidad se puede obtener vía la función de vida media residual
como sigue
Z t
d mrl(0) du
f (t) =
dt
mrl(t) + 1 2 exp − .
{mrl(t)} 0 mrl(u)
15
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
f (t) = h(t)S(t)
( )
d Z t
dt mrl(t) + 1 mrl(0) 1
= exp − dv
mrl(t) mrl(t) 0 mrl(v)
Caso continuo
Z ∞ Z t Z t
mrl(0) du
S(t) = f (u)du = e−H(t) = exp − h(v)dv = exp − .
t 0 mrl(t) 0 mrl(u)
Z t
d d mrl(0) du
f (t) = − S(t) = h(t)S(t) = mrl(t) + 1 2 exp − .
dt dt {mrl(t)} 0 mrl(u)
d
d f (t) dt mrl(t) +1
h(t) = − ln {S(t)} = = .
dt S(t) mrl(t)
R∞ R∞
t
S (u) du t
(u − t) f (u) du
mrl(t) = = .
S (t) S (t)
Caso discreto
Supongmos que T es discreta con rango en {0 = t0 < t1 < t2 < ...} y sea t ∈ [ti , ti+1 ) para i ∈ {0, 1, 2, ...}
entonces
S (t)
X
S (t) = P (T ≥ t) = f (tj ) .
tj ≥t
f (t)
f (tj ) = S (tj−1 ) − S (tj ) . (∗)
h(t)
h (tj ) = P (T = tj |T ≥ tj )
P (T = tj )
=
P (T ≥ tj )
f (tj )
= (∗∗)
S (tj−1 )
S (tj−1 ) − S (tj )
= por (∗)
S (tj−1 )
S (tj )
=1− .
S (tj−1 )
16
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Por lo tanto
Y
S (t) = [1 − h (tj )] .
tj ≤t
P∞
j=i+1 (tj − t) {S (tj−1 ) − S (tj )}
mrl(t) = .
S(t)
17
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Supongamos que las observaciones son mutuamente independientes, entonces la función de verosimilitud
Y Y Y Y
L= f (ti ) × S(Ci ) × {1 − S(Ci )} × {S(Li ) − S(Ri )} ,
i∈O i∈R i∈L i∈I
donde
R, L e I son el conjunto de las observaciones censuradas por la derecha, por la izquierda y por intervalo,
respectivamente.
Para observaciones truncadas por la derecha, no existen observaciones censuradas, únicamente obser-
f (ti )
vaciones exactas. En este caso, se reemplaza f (ti ) por
1−S(Vi ) .
Sean T1 , T2 , ..., Tn v.a.i.i.d. donde ti es una observación exacta o a un tiempo de censura por la derecha, para
distingir una de otra usamos las variables (ti , δi ) para i ∈ {1, 2, ..., n}, donde ti = min(Ti , Ci ) y δi = I(Ti ≤Ci )
entonces la función de verosimilitud es de la forma
n
Y δ 1−δi
L= {f (ti )} i {S(ti )} .
i=1
Sean T1 , T2 , ..., Tn una m.a. donde tenemos r tiempos de falla, t(1) ≤ t(2) ≤ ... ≤ t(r) y n−r datos censurados
por la derecha. Entonces la función de densidad conjunta se escribe como sigue
r
n! Y n−r
L= f t(i) S t(r) .
(n − r)! i=1
18
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
n
Y δ 1−δi
L∝ {f (ti )} i {S(ti )} .
i=1
1 t
f (t; λ) = exp − I[0,∞) (t), con λ > 0,
λ λ
Sea (ti , δi ) con i ∈ {1, ..., n} una m.a. de T, donde pueden haber observaciones censuradas por la derecha.
n
Y δ 1−δi
L= {f (ti )} i {S(ti )}
i=1
n δi 1−δi
Y 1 ti ti
= exp − exp −
i=1
λ λ λ
n
X
δi n δi 1−δi
1 i=1 Y ti ti
= exp − exp −
λ i=1
λ λ
n
X
δi n
1 i=1 Y ti
= exp −
λ i=1
λ
n
X
δi ( n ) n
1 i=1 X ti X
= exp − // tomando r= δi //
λ i=1
λ i=1
r ( n
)
1 1X
= exp − ti .
λ λ i=1
r ( n
)!
1 1X
l = log(L) = log exp − ti
λ λ i=1
n
1X
= −r log(λ) − ti .
λ i=1
19
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
n
X
n n
ti
dl r 1 X 1 X r i=1
=− + 2 ti ⇒ 2 ti = ⇒ λ̂ = .
dλ λ λ i=1 λ i=1 λ r
Para construir intervalos de conanza es necesario conocer la distribución del estimador λ̂, para esto se usarán
resultados de teoría asintótica de los EMV's para para n grande.
Usemos la información de Fisher, puesto que la exponecial satisface las condiciones de regularidad
d2 l
I(λ) = −E
dλ2
" n
!#
d r 1 X
= −E − + 2 ti
dλ λ λ i=1
" n
#
r 2 X
=E − 2 + 3 ti .
λ λ i=1
" n
#
r 2 X
I(λ̂) = E − + ti
λ̂2 λ̂3 i=1
" n
#
r 2 X
=E − + ti
λ̂2 λ̂3 i=1
" n
#
r 2 X
= E −1 + ti
λ̂2 rλ̂ i=1
n
r 2 X
= E−1 + n ti
λ̂2
X
i=1
ti
i=1
r
r
r r
= E [−1 + 2] = .
λ̂2 λ̂2
Entonces la distribución asintótica es
!
d 1
λ̂ → N λ, .
I(λ̂)
Usando la distribución asintótica anterior, calculamos el intervalos de conanza para λ como sigue
Zα
λ ∈ λ̂ ± q 2 .
I(λ̂)
20
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Una vez que se obtuvo el intervalo de conanza para λ, aprovechemos para obtengamos un intervalo de conanza
para la función de supervivencia S (t; λ) de la siguiente forma
Li ≤ λ ≤ Ls
1 1 1
− ≤− ≤−
Li λ Ls
t t t
− ≤− ≤−
Li
λ Ls
t t t
exp − ≤ exp − ≤ exp −
Li λ Ls
t t
exp − ≤ S (t; λ) ≤ exp − .
Li Ls
La aproximación normal asintótica no es muy buena para muestras pequeñas, o cuando el número de observa-
ciones exactas es pequeño.
Otra forma de calcular el intervalo de conanza es usar el cociente de verosimilitudes como cantidad pivotal
log L λ̂
d
Λ(λ) = −2 = −2 log L λ̂ − log (L (λ)) → χ2(1) .
log (L (λ))
n o
Por lo tanto, el intervalo de conanza para alguna λ será: λ : Λ(λ) ≤ χ2(1),α .
y−a
S ∗ (y; a, b) = S0∗ ,
b
log(t) − a
S (t; α, β) = S0∗
b
= S0∗ (β {log(t) − log(α)})
β !
∗ t
= S0 log .
α
21
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Weibull Gumbel
Normal log normal
Logística log logística
Función de verosimilitud
Sea una (ti , δi ) con i ∈ {1, 2, ..., n} una m.a. de la v.a. T proveniente de un modelo de log localizacion y escala
Y = log(T ),entonces la función de verosimilitud es de la forma
n
" δi 1−δi #
Y 1 ∗ yi − a ∗ yi − a
L (a, b) = f × S0 ,
i=1
b 0 b b
dS0∗ (z)
donde yi = log(ti ) y f0∗ (z) = − dz .
αβtα−1 exp {−βtα }
α−1 n α o
f (t; α, β) = αβ
t
β exp − βt para α > 0, β > 0 y t ≥ 0.
α−1 α
αβ (βt) exp {− (βt) }
Supongamos que estamos estudiando el tiempo de vida de N artefactos que se echan a andar al mismo tiempo
hasta que fallan. El tiempo de vida de cada artefacto sigue una distribuciónes F. Además supongamos que
según el diseño del experimento, el artefacto se mantendrá funcionando a lo más un periodo de tiempo C, esto
nos genera dos posibles escenarios:
Mientras que si el artefacto funciona hasta el tiempo C, el experimento acabará y no sabremos cuánto
tiempo adicional a C hubiera seguido funcionando; lo único que sabremos es que su tiempo de falla es
mayor a C.
Consideremos que podemos obtener N observaciones independientes de tiempos de falla bajo el esquema anterior.
los datos observados, que a su vez los podemos agrupar de la siguiente manera {xi }ri=1 ,
la cantidad de datos censurados que pasaron el umbral C es N − r, puesto que r denota la cantidad total
de observaciones que fueron menores o iguales a C.
r
Y
{f (xi ; θ)} × {1 − F (C; θ)}N −r , (2)
i=1
22
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Primero vamos a partir del siguiente supuesto si F̃ sigue una distribución Weibull y le vamos a aplicar una serie
de transformaciones.
Recordemos que si Y se distribuye Weibull con parámetros α, β > 0, entonces su función de distribución está
dada por
α
y
F̃ (y; α, β) = 1 − exp − . (3)
β
Y
Si consideramos la transformación X = log C
Y
F (x; α, β) = P (X ≤ x) = P log ≤x = P (Y ≤ Cex ) ,
C
α
C ex
F (x; α, β) = 1 − exp −
β
( )
−α
β xα
= 1 − exp − e
C
n β
o
= 1 − exp −e−α log( C ) exα ,
β
sea µ = log C , entonces
n −1
o
F (x; µ, σ) = 1 − exp −e(x−µ)σ
n − log(σ)
o
= 1 − exp −e(x−µ)e
n −ϕ
o
= 1 − exp −e(x−µ)e , (4)
donde ϕ = log(σ).
23
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Esta última distribución es una distribución de valores extremos conocida en la literatura como Gumbel con
parámetros de localización µ y escala ϕ. Una de las ventajas de esta transformación es que el nuevo umbral de
censura es C0 = 0, esto debido a la transformación propuesta, ya que log(C/C) = log(1) = 0. Por otra parte, la
parametrización localización-escala es adecuada para trabajar con aproximación normal.
n −ϕ
o
F (x; µ, ϕ) = 1 − exp −e(x−µ)e ,
−ϕ
n −ϕ
o
f (x; µ, ϕ) = e−ϕ e(x−µ)e exp −e(x−µ)e . (5)
Usemos este modelo de probabilidad para resolver el problema de datos con censura descrito al inicio.
r
Y
{f (xi ; θ)} × {1 − F (C; θ)}N −r =
i=1
r n o h n oi
Y −ϕ −ϕ −ϕ
e−ϕ e(xi −µ)e exp −e(xi −µ)e × exp −e(C−µ)e N −r
.
i=1
!
r
µ̂ = −eϕ log Pr .
ee−ϕ xi + (N − r)eCe−ϕ
i=1
Inferencia no paramétrica
Introducción
Supongamos que tenemos un conjunto de datos que consta de n personas que están identicas en la primera
columna de la siguiente tabla:
Variables explicativas
Individuo t δ X1 X2 ... Xp
1 t1 δ1 X11 X12 ... X1p
2 t2 = 3 δ2 = 1 X21 X22 ... X2p
3 t3 = 4 δ3 = 0 X31 X32 ... X3p
. . . . .
. . . . .
. . . . ... .
n tn δn Xn1 Xn2 ... Xnp
Xn
r= δi
i=1
24
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
En la segunda columna se registra el tiempo de supervivencia de cada persona; estas mediciones de tiempo
de supervivencia observado son independientes de si la persona presentó el evento o fue censurada.
Para distinguir a las personas que presentan el evento falla de las que son censuradas, tenemos la tercera
columna, δ , que es una variable dicotómica que indica el estatus de censura, 1 si presentan el evento y 0 si son
censuradas.
El resto de las columnas; X1, X2 , . . . , Xp , son variables explicativas, es decir, cualquier información adicional
como la edad o estado de exposición a un tratamiento, etc. Cualquier información que el investigador desea
considerar para predecir el tiempo de supervivencia.
Ejemplo. Supongamos que tenemos dos grupos de pacientes con leucemia; un grupo de 21 personas que ha
recibido cierto tratamiento y el otro grupo de 21 personas ha recibido un placebo. Los datos provienen de
Freireich et al., Blood, 1963.
Grupo 1 Grupo 2
Tratamiento Placebo
6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8,
11+, 17+, 19+, 20+, 25+, 32+, 32+, 34+, 35+ 8, 11, 11, 12, 12, 15, 17, 22, 23
Los tiempos registrados para cada grupo consisten en el tiempo en semanas en que el paciente está en remisión,
hasta que el paciente salga de la remisión o sea censurado. Aquí, salir de la remisión es el evento falla. Una
persona es censurada si permanece en remisión hasta el nal del estudio, se pierde durante el seguimiento o se
retira antes del nal del estudio. Los datos censurados aquí se indican con un signo (+) junto al tiempo de
supervivencia.
Si hacemos un análisis descriptivo de los datos para cada grupo, podemos ver que la mayoría de los tiempos
del grupo de tratamiento son más grandes que los tiempos del grupo placebo. Si ignoramos los signos (+) que
indican la censura y calculamos el promedio de los 21 tiempos de supervivencia de cada grupo tenemos que
t = 17.1 semanas para el grupo de tratamiento y t = 8.6 semanas para el grupo placebo. Como los tiempos del
grupo de tratamiento son censurados, esto signica que el promedio del grupo 1 es aún mayor que lo que hemos
calculado. Por lo tanto, parece que, con respecto a la supervivencia, el tratamiento es más ecaz que el placebo.
Esta información anterior la presentar como habíamos descrito anteriormente, donde la cuarta columna es la
única variable explicativa que tenemos de momento, y registra 1 para el grupo 1 (tratamiento) y 0 para el grupo
2 (placebo).
25
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
t δ X t δ X
Individuo Individuo
semanas fallo/censura Grupo semanas fallo/censura Grupo
1 6 1 1 22 1 1 0
2 6 1 1 23 1 1 0
3 6 1 1 24 2 1 0
4 7 1 1 25 2 1 0
5 10 1 1 26 3 1 0
6 13 1 1 27 4 1 0
7 16 1 1 28 4 1 0
8 22 1 1 29 5 1 0
9 23 1 1 30 5 1 0
10 6 0 1 31 8 1 0
11 9 0 1 32 8 1 0
12 10 0 1 33 8 1 0
13 11 0 1 34 8 1 0
14 17 0 1 35 11 1 0
15 19 0 1 36 11 1 0
16 20 0 1 37 12 1 0
17 25 0 1 38 12 1 0
18 32 0 1 39 15 1 0
19 32 0 1 40 17 1 0
20 34 0 1 41 22 1 0
21 35 0 1 42 23 1 0
Como se mencionó, el conjunto de datos del grupo 1 parece tener un mejor pronóstico de supervivencia que el
grupo 2, lo que sugiere que el tratamiento es efectivo. Esta conclusión fue apoyada por estadísticas descriptivas
para el promedio de tiempo de supervivencia y tasa de riesgo promedio mostrado. Sin embargo, las estadísticas
descriptivas proporcionan comparaciones generales pero no comparan los dos grupos en diferentes momentos de
seguimiento.
#ti > t Número de individuos que sobreviven más allá del tiempo t
Ŝ(t) = P̂ (T > t) = = .
n Número total de individuos en el conjunto de datos
1 d
Que es una función escalonada con decrementos
n si todas ti son distintas; o con decrementos n si hay d tiempos
de fallo iguales a t.
26
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Grupo 2
Placebo
1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8,
8, 11, 11, 12, 12, 15, 17, 22, 23
t(j)
21
0 0 21 21
19
1 2 21 21
17
2 2 19 21
16
3 1 17 21
14
4 2 16 21
12
5 2 14 21
8
8 4 12 21
6
11 2 8 21
4
12 2 6 21
3
15 1 4 21
2
17 1 3 21
1
22 1 2 21
0
23 1 1 21
La probabilidad de sobrevivir a t0 = 0 es 1.
La probabilidad de sobrevivir después del primer tiempo fracaso ordenado t1 = 1 es 19/21, porque 2 personas
fallaron en la semana 1, de modo que 19 personas de los 21 originales sobrevivien más allá de una semana.
La probabilidad superviviencia los sujetos que sobrevivieron más de dos semanas, que es 17/21, debido a que 2
sujetos fallaron en la semana uno y otros 2 sujetos fallaron en la semanas dos, dejando a 17 de los 21 sujetos
originales que sobrevivien más allá de dos semanas.
El número de individuos sin falla al inicio de Ij es nj , por lo tanto n1 = n; mientras que para j ∈ {2, ..., k + 1}
nj = nj−1 − dj−1 − cj−1 .
27
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
S (aj ) = P (T ≥ aj )
= P (T ≥ aj , T ≥ aj−1 )
= P (T ≥ aj |T ≥ aj−1 ) P (T ≥ aj−1 )
.
= ..
= P (T ≥ aj |T ≥ aj−1 ) P (T ≥ aj−1 |T ≥ aj−2 ) · · · P (T ≥ a1 |T ≥ a0 ) P (T ≥ a0 ) .
Denamos lo siguiente
Sj := S (aj )
pj := P (T ≥ aj |T ≥ aj−1 )
P(T ∈[aj−1 ,aj )) P(T ∈Ij ) dj
qj := 1 − pj = P (T < aj |T ≥ aj−1 ) = P(T >aj−1 ) = S(aj−1 ) = Sj−1 ,
( dj
nj si en Ij no hay datos censurados
q̂j = dj
c si en Ij hay datos censurados.
nj − 2j
En el segundo caso de la ecuación anterior, se está suponiendo que las censuras se distribuyen uniformes en el
intervalo Ij y por lo tanto, los individuos censurados estuvieron expuestos la mitad del intervalo.
Finalmente se estima p̂j = 1 − q̂j y Ŝj = p̂j p̂j−1 ...p̂1 . Por lo tanto
j
Y
Ŝ (aj ) = Ŝj = p̂i
i=1
j
Y dj
= 1− cj .
i=1
nj − 2
Los estimadores q̂j y Ŝj están sujetos a variación muestral. Bajo ciertos supuestos, es posible obtener estimadores
de sus varianzas.
Usando el hecho de que los q̂j son asintóticamente no correlacionados, un estimador de la varianza de Ŝj es
j
X q̂j
V ˆar Ŝj = Ŝj2 cj .
i=1
p̂j nj − 2
28
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
La tabla de vida es un tabulado como su nombre lo indica, que proporciona estimadores de la función de
supervivencia; además de la siguiente información: nj , dj , cj , q̂j y Ŝj .
Ij nj dj cj q̂j p̂j Ŝj V ˆar (p̂j ) V ˆar (q̂j ) V ˆar Ŝj
[a0 , a1 )
[a1 , a2 )
.
.
.
[ak−1 , ak )
[ak , ∞)
La distribución asíntotica de Ŝj es una normal con media Sj y varianza V ˆar Ŝj . Usando este hecho es posible
La tabla de vida es un estimador útil de la función de supervivencia si los datos han sido agrupados en intervalos
o el tamaño de muestra es muy grande, o se usa para una población grande, sin embargo presenta algunos
problemas.
No es claro como escoger las divisiones a0 < a1 < .... < ak < ak+1 = ∞ . Se sugiere tomar intervalos del
mismo tamaño, con ak = t(n) (tn el tiempo máximo observado).
El siguiente estimador de Kaplan y Meier (1958) para la función de superviviencia es recomendado para muestras
pequeñas y grandes.
Entonces como
k h
Y i
d
L (p1 , ..., pk ) = pni i −di {1 − pi } i
i=1
donde
29
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
n
X
di = I (T = ti , δi = 1) es el número de muertes o fallos observados en el intervale ti .
i=1
n
X
ni = I (T ≥ ti , {δi = 0 ∪ δi = 1}) número de individuos en riesgo. Incluye a todos los tiempos de fallo, o
i=1
censurados, mayores o iguales a ti .
Una vez denida la función de verosimilitud procedemos a maximizarla. Obtenemos primero la log-verosimilitud
k
X
l = log (L (p1 , ..., pk )) = [(ni − di ) log (pi ) + di log (1 − pi )] .
i=1
∂l ni − di di
= − , para i ∈ {1, ..., k} .
∂pi pi 1 − pi
Igualando a cero
ni − di di
= , para i ∈ {1, ..., k} .
p̂i 1 − p̂i
di
p̂i = 1 − , para i ∈ {1, ..., k} .
ni
Se puede demostrar que E [p̂i ] = pi , es decir, es un estimador insesgado. Finalmente, usando el principio de
invarianza de los EMV's, el EMV de S(t)
i i
Y Y di
Ŝ (ti ) = p̂j = 1− .
j=1 j=1
ni
El estimador de Kaplan Meier también es válido si T es una v.a. continua. El estimador de la función de
supervivencia S(t) es discreto y toma valores en los puntos {t1 , t2 , ..., tk } que son los tiempos de fallo observados
de forma exacta . En este caso
Y dj
Ŝ (t) = 1− ,
nj
{j | t ≤t}
j
donde
n
X
di = I (T = [ti , ti+1 ), δi = 1) es el número de muertes o fallos observados en el intervale [ti , ti+1 ).
i=1
30
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
n
X
ni = I (T ≥ ti , δi = 0 ∪ δi = 1) número de individuos en riesgo. Incluye a todos los tiempos de fallo, o
i=1
censurados, mayores o iguales a ti .
#ti >t
Nótese que a diferencia de la función de supervivencia empírica, Ŝ(t) =
n , el denominador es siempre
constante, mientras que en el estimador producto de KM el denominador va cambiando reconociendo a los
individuos que están en riesgo en cada tiempo.
Ilustrar la forma estimar la función de supervivencia tomando el grupo 1 de los pacientes con leucemia ya que
en este conjunto hay datos censurados
Grupo 1 Grupo 2
Tratamiento Placebo
6, 6, 6, 7, 10, 13, 16, 22, 23, 6+, 9+, 10+, 1, 1, 2, 2, 3, 4, 4, 5, 5, 8, 8, 8,
11+, 17+, 19+, 20+, 25+, 32+, 32+, 34+, 35+ 8, 11, 11, 12, 12, 15, 17, 22, 23
t δ X
Id
semanas fallo/censura Grupo
1 6 1 1
2 6 1 1
3 6 1 1
4 7 1 1
5 10 1 1
6 13 1 1
7 16 1 1 tj nj dj cj Ŝ (tj )
8 22 1 1 6 21 3 1 1 ∗ [1 − 3/21] = 0.857
9 23 1 1 =⇒ 7 17 1 1 0.857 ∗ [1 − 1/17] = 0.807
10 6 0 1 10 15 1 2 0.807 ∗ [1 − 1/15] = 0.753
11 9 0 1 13 12 1 0 0.753*[1-1/12]=0.690
12 10 0 1 16 11 1 3 0.690*[1-1/11]=0.628
13 11 0 1 22 7 1 0 0.628*[1-1/7]=0.538
14 17 0 1 23 6 1 5 0.538*[1-1/6]=0.448
15 19 0 1
16 20 0 1
17 25 0 1
18 32 0 1
19 32 0 1
20 34 0 1
21 35 0 1
31
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Ahora si hacemos lo mismo pero con los datos de remisión del grupo 2 notemos que hay un producto telescópico
que nos regresa a que es estimador de la función de supervivencia en este caso es la función de distribución
empírica.
t δ X
Individuo
semanas fallo/censura Grupo
22 1 1 0
23 1 1 0
24 2 1 0
25 2 1 0 tj nj dj cj q̂j 1 − p̂j
26 3 1 0 1 21 2 0 2
21
19
21
27 4 1 0 2 19 2 0 2
19
17
19
28 4 1 0 3 17 1 0 3
17
16
17
29 5 1 0 4 16 2 0 2
16
14
16
30 5 1 0 =⇒ 5 14 2 0 2
14
12
14
31 8 1 0 8 12 4 0 4
12
8
12
32 8 1 0 11 8 2 0 2
8
6
8
33 8 1 0 12 6 2 0 2
6
4
6
34 8 1 0 15 4 1 0 1
4
3
4
35 11 1 0 17 3 1 0 1
3
2
3
36 11 1 0 22 2 1 0 1
2
1
2
37 12 1 0 23 1 1 0 1
1 0
38 12 1 0
39 15 1 0
40 17 1 0
41 22 1 0
42 23 1 0
19 19
Ŝ(1) = 1 ∗ =
21 21
19 17 17
Ŝ(2) = 1 ∗ ∗ =
21 19 21
19 17 16 16
Ŝ(3) = 1 ∗ ∗ ∗ =
21 19 17 21
19 17 16 14 14
Ŝ(4) = 1 ∗ ∗ ∗ ∗ =
21 19 17 16 21
Si
Y X
Ŝ (t) = {1 − q̂k } entonces ln Ŝ (t) = ln (1 − q̂k ) .
Tomando la varianza de ambos lados en la última igualdad y suponiendo independencia entre q̂k y q̂j con k 6= j
h i X
V ar ln Ŝ (t) = V ar [ln {1 − q̂k }] .
32
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
V ar Ŝ (t) 1) P.D. h i X 2) P.D. X V ar (q̂k )
2 ≈ V ar ln Ŝ (t) = V ar [ln {1 − q̂k }] ≈ 2.
(S(t)) (1 − qk )
Por lo tanto
2 X V ar (q̂ )
k
V ˆar Ŝ (t) ≈ Ŝ(t) 2.
(1 − q̂k )
Demostración 1)
h i
Desarrollando en series de Taylor ln Ŝ (t) al rededor de ln (S (t)) = E ln Ŝ (t) tenemos que
1
ln Ŝ (t) = ln (S (t)) + Ŝ (t) − S (t) + O(n).
S (t)
O equivalentemente
2
2 Ŝ (t) − S (t)
ln Ŝ (t) − ln (S (t)) ≈ 2 .
(S (t))
2
2
E Ŝ (t) − S (t)
Ŝ (t) − S (t)
2
ln Ŝ (t) − ln (S (t)) ≈ E =
E 2 2
(S (t)) (S (t))
2
E Ŝ (t) − S (t) V ar Ŝ (t)
V ar ln Ŝ (t) ≈ 2 = 2
(S (t)) (S (t))
V ar Ŝ (t)
V ˆar ln Ŝ (t) ≈ 2 Usando el principio de invarianza del EMV.
Ŝ (t)
Demostración 2) Tareita
Sugerencia. Desarrolla en series de Taylor ln {1 − q̂k } al rededor de qk = E [q̂k ].
Entonce para estimar V ar Ŝ (t) lo hacemos de la siguiente forma
33
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
2 X V ˆar (q̂ )
k
V ˆar Ŝ (t) ≈ Ŝ(t) 2,
(1 − q̂k )
q̂k (1−q̂k )
dk
V ˆar (q̂k ) =
Q
donde ya habíamos visto que:q̂k = nk entonces nk y Ŝ (t) = {1 − q̂(tk )}.
2 X q̂k (1−q̂k )
nk
V ˆar Ŝ (t) ≈ Ŝ(t) 2
(1 − q̂k )
2 X q̂ (1 − q̂ )
k k
= Ŝ(t) 2
nk (1 − q̂k )
2 X dk
= Ŝ(t) nk
nk 1 − ndkk
2 X dk
= Ŝ(t) nk
nk −dk
nk nk
2 X dk
= Ŝ(t) .
nk (nk − dk )
2 P
Al estimador V ˆar Ŝ (t) ≈ Ŝ(t) dk
nk (nk −dk ) , se le conce como el estimador de Greenwood. Como es de
r
esperarse V ˆar Ŝ (t) es la desviación estándar estimado.
El estimador puntual de S(t) junto con su error estándar pueden ser usados para obtener intervalos de conanza
para la función de supervivencia S(tj ) en el tiempo tj .
Se puede demostrar que Ŝ(t) converge en distribución a una normal
d
Ŝ(t) −→ N S(t), V ˆar Ŝ (t) ,
entonces usando este resultado es posible construir un intervalo de conanza para S(t) al (1 − α) × 100% de la
siguiente manera
v
dk
u X
Ŝ(t) ± Z α2 Ŝ(t)t .
u
nk (nk − dk )
{k:tj ≤t}
qP
P dk dk
tj nj dj cj Ŝ (tj ) {k:tj ≤t} nk (nk −dk ) Ŝ (tj ) {k:tj ≤t} nk (nk −dk ) Li Ls
0 21 0 0 1 0 0 1 1
6 21 3 1 0.857 0.0079 0.0764 0.707 1.007
7 17 1 1 0.807 0.0116 0.0869 0.636 0.977
10 15 1 2 0.753 0.0164 0.0963 0.564 0.942
13 12 1 0 0.690 0.0240 0.1068 0.481 0.900
16 11 1 3 0.628 0.0330 0.1141 0.404 0.851
22 7 1 0 0.538 0.0569 0.1282 0.286 0.789
23 6 1 5 0.448 0.0902 0.1346 0.184 0.712
Al intervalo de conanza anterior se le conoce como intervalo lineal. Ese intervalo tiene a desventaja de que no
hay garantía que los límites de conanza (superior e inferior) tomen valores dentro del (0,1).
34
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
La prueba de log-rank es una prueba de hipótesis no paramétrica libre de distribución para muestras grandes
que utiliza como estadística (log-rank). Y se usa la idea de la prueba χ2 vista en estadística II ya que compara
conteos observados vs esperados en un intervalo.
Usemos el ejemplo de los pacientes que entraron en remisión y que padecen leucemia, comparemos las curvas de
supervivencia: grupo 1 tratamiento y placebo grupo 2.
Construyamos la siguiente tabla donde la primera columna están los tiempos de falla ordenados sin
repetición de los dos grupos. Los datos censurados en la tercera y quinta columna, con la idea hacer uso
de la información de datos censurados hasta el momento en que los perdemos la pista, en lugar de no usar la
información de una persona censurada.
1 0 0 21 2 0 21
2 0 0 21 2 0 19
3 0 0 21 1 0 17
4 0 0 21 2 0 16
5 0 0 21 2 0 14
6 3 1 21 0 0 12
7 1 0 17 0 0 12
8 0 1 16 4 0 12
10 1 1 15 0 0 8
11 0 1 13 2 0 8
12 0 0 12 2 0 6
13 1 0 12 0 0 4
15 0 0 11 1 0 4
16 1 0 11 0 0 3
17 0 3 10 1 0 3
22 1 0 7 1 0 2
23 1 5 6 1 0 1
n1j
e1j = ∗ (d1j + d2j ),
n1j + n2j
# de fallos en ambos grupos
| {z }
Prop de conjunto en riesgo
| {z }
n2j
e2j = ∗ (d1j + d2j ) .
n1j + n2j
35
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
tj d1j c1j n1j d2j c2j n2j e1j e2j d1j e1j d2j e2j
1 0 0 21 2 0 21
2 0 0 21 2 0 19
3 0 0 21 1 0 17
4 0 0 21 2 0 16
5 0 0 21 2 0 14
6 3 1 21 0 0 12
7 1 0 17 0 0 12
8 0 1 16 4 0 12
10 1 1 15 0 0 8
11 0 1 13 2 0 8
12 0 0 12 2 0 6
13 1 0 12 0 0 4
15 0 0 11 1 0 4
16 1 0 11 0 0 3
17 0 3 10 1 0 3
22 1 0 7 1 0 2
23 1 5 6 1 0 1
17
X
Denamos Oi − Ei = (dij − eij ) ,para i = 1, 2.
j=1
17
X n1j n2j (d1j + d2j ) (n1j + n2j − d1j − d2j )
Y la V ar (Oi − Ei ) = 2 ,para i = 1, 2.
j=1 (n1j + n2j ) (n1j + n2j − 1)
(Oi −Ei )2
Por último, estadístico es el siguiente: log − range = V ar(Oi −Ei ) , que en nuestro ejemplo es log − range =
(Oi −Ei )2 (10.2505)2
V ar(Oi −Ei ) = 6.256961 = 16.79294
H0 : No hay diferencia entre las dos curvas de supervivencia.
36
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
2
Suponiendo H0 cierta, el estadístico log − rank se distribuye aproximadamente como unaχ(1) .
Al obtener la región de rechazo y compararlo con lo que obtuvimos del estadístico log −rank notamos lo siguiente
El estadístico de prueba cae en la región de rechazo y de hecho muy alejado del valor crítico, por lo tanto se
rechaza H0 y a la luz de los datos concluimos que las dos muestras provienen de funciones de superviviencia
distintas.
Modelos de regresión
En el análisis de tiempos de falla, es común suponer que el riesgo de presentar la falla está en función de una
serie de covariables inherentes a cada individuo.
covariables
Individuo t δ X1 X2 ... Xp
1 t1 δ1 X11 X12 ... X1p
2 t2 δ2 X21 X22 ... X2p
3 t3 δ3 X31 X32 ... X3p
. . . . .
. . . . .
. . . . ... .
n tn δn Xn1 Xn2 ... Xnp
Es decir que la población bajo estudio no es homogénea y es necesario tomar en cuenta los factores que diferencian
a los individuos del estudio.
Sea ti el tiempo de vida del individuo i y suponga que {X1i , X2i , ..., Xpi } es un vector de p covariables del mismo
individuo i, con i ∈ {1, ..., n}.
El modelo de Cox expresa la función de riesgo del individuo i-ésimo, hi , en función del tiempo t y una combinación
lineal de las covariables de la siguente manera
37
Facultad de Ciencias, semestre 2022 II- Análisis de supervivencia - UNAM - MChong
Xp
hi (t) = h0 (t) exp θj Xji .
j=1
Observaciones
h0 (t) se lo denomina riesgo base y corresponde al riesgo de muerte cuando todas las covariables tienen
valor 0. Y es la parte de la expresión que depende del tiempo.
p
X
exp θj Xji es una función liga que depende de las covariables {X1i , X2i , , Xpi } y los coecientes
j=1
θ1 , ..., θp .
Notemos que siXji = 0, ∀j ∈ {1, 2, ..., p}, entoces hi (t) = h0 (t) · 1.
Pp
Notemos que la expresion j=1 θj Xji no tiene intercepto.
P
p
Usando la función liga hi (t) = h0 (t) exp j=1 θj Xji , el cociente de la función de riesgo del individuo i
con respecto al riesgo base h0 es
p
hi (t) X
ln = θj Xji .
h0 (t) j=1
El nombre de riesgos proporcionales se debe al siguiente hecho; el cociente de las funciones de riesgo de
dos individuos, i y k,
P
p
hi (t) h0 (t) exp j=1 θj Xji
= P
hk (t) h0 (t) exp
p
θ X
j=1 j jk
Xp X p
= exp θj Xji − θj Xjk
j=1 j=1
Xp
= exp θj (Xji − Xjk ) , (riesgo relativo)
j=1
p
X
es una constante en el tiempo cuyo valor depende de θj (Xji − Xjk ) de los dos individuos. En particular,
j=1
si x1i = 1 y x1k = 0 representan tratamiento
y placebo respectivamente,
y todas las demás covariables
Xp
se mantienen constante, entonces exp θj (Xji − Xjk ) = exp {θ1 (x1i − x1k )} = eθ1 es el riesgo de
j=1
presentar la falla con el tratamiento relativo a presentar la falla con placebo.
38