Travaux Dirig Es: Mod' Eles de Dur Ee S Eance N 2 Du 30 Novembre 2015 - Corrig e

Université Claude Bernard - Lyon 1 Année 2015-2016
ISFA - M2SAF
Quentin Guibert
quentin.guibert@etu.univ-lyon1.fr
Travaux dirigés : modèles de durée

Séance n◦ 2 du 30 Novembre 2015 - Corrigé
Exercice 1 Manipulation de l’estimateur de Kaplan-Meier.
Soit un échantillon de n individus i.i.d. de durée de vie T1 , . . . , Tn . Chaque observation i est

soumise à censure à droite Ci , supposée indépendante et non-informative. On observe (Yi , Di ) pour
chaque i, où Yi = Ti ∧ Ci et Di = 11{Ti ≤Ci } . On note S la fonction de survie de T et G celle de C.
1. En notant H1 (t) = P (Y > t, D = 1) et H (t) = P (Y > t), montrer que

dS (t) dH1 (t)
= .
S (t−) H (t−)
2. Retrouver à partir de cette expression, l’estimateur non-paramétrique de Nelson-Aalen pour

la fonction de hasard cumulée Λ (t).
3. Rappeler l’expression de la fonction de hasard h (t), de la fonction de hasard cumulée Λ (t) et
de la fonction de survie d’une loi discrète. En déduire l’expression de l’estimateur de Kaplan-
Meier de la fonction de survie.
4. En suivant un raisonnement similaire avec H1 (t) = P (Y > t, D = 1|Y > L) et H (t) =
P (L ≤ t < Y |Y > L), donner l’expression de l’estimateur de Kaplan-Meier avec troncature à
gauche L indépendante (T indépendant de (L, C) et C indépendant de L).
5. En utilisant directement l’expression de la première question, exprimer l’estimateur de Kaplan-
Meier sous la forme d’une somme faisant intervenir l’estimateur de G.
Réponse de l’exercice 1.
1. On a
H (t) = P (Y > t) = P (T > t, C > t)

= S (t) G (t) ,
et comme C
|=
T

H1 (t) = E 11{T >t} 11{C≥T }

= E 11{T >t} E 11{C≥T } |T

= E 11{T >t} G (T −)
Z ∞
= G (u−) dF (u).
t
1
On écrit alors
dH1 (t) = −G (t−) dF (t) = G (t−) dS (t) .
D’où le résultat.
2. Par définition,
Z t Z t
dS (t) dH1 (t)
Λ (t) = − =− .
0 S (t−) 0 H (t−)
Puisque les quantités Yi et Di sont observées, les estimateurs empiriques de H1 (t) et H (t)
sont donnés par
n n
b 1 (t) = 1 b (t) = 1
X X
H Di 11{Yi >t} et H 11{Yi >t} .
n n
i=1 i=1
Naturellement, l’estimateur de Nelson-Aalen apparaı̂t en remplaçant H1 (t) et H (t) par leur

estimateur, i.e.
Z t
b (t) = − dHb 1 (t)
Λ
0 Hb (t−)
n
1 X Di 11{Yi ≤t}
=
n Hb (Yi −)
i=1
n
X Di 11{Yi ≤t}
= Pn
i=1 j=1 11{Yj ≥Yi }
n
X Di
= Pn
Yi ≤t j=1 11{Yj ≥Yi }
3. En temps discret, la fonction de hasard est définie par
P (T = t)
h (t) = ,
S (t)
et la fonction de hasard cumulée est

X
Λ (t) = h (s).
s≤t
La fonction de survie s’écrit

Y Y
S (t) = (1 − h (s)) = (1 − ∆Λ (s)).
s≤t s≤t
On retrouve ainsi l’expression de l’estimateur de Kaplan-Meier

Y
Sb (t) = 1 − ∆Λ
b (Ti )
Yi ≤t
!
Y Di
= 1 − Pn .
Yi ≤t j=1 11{Yj ≥Yi }
2
4. On a immédiatement
P (T > t, C > t, L ≤ t)
H (t) = P (L ≤ t < Y |Y > L) =
P (Y > L)
P (L ≤ t)
= S (t) G (t) .
P (Y > L)
En conditionnant par T et par indépendance avec L

E 11{T >t} 11{C≥T } 11{T >L}
H1 (t) =
P (Y > L)

E 11{T >t} G (T −) P (L ≤ T )
=
P (Y > L)
.
On écrit alors
1
dH1 (t) = G (t−) P (L ≤ t) dS (t) .
P (Y > L)
Ainsi, on montre que
dH1 (t) dS (t)
= .
H (t−) S (t−)
En considérant les estimateurs empiriques de H1 (t) et H (t), on en déduit l’estimateur de
Kaplan-Meier en présence de troncature à gauche tel que
!
Y D i
Sb (t) = 1 − Pn .
Yi ≤t j=1 11{Li ≤Yi ≤Yj }
5. On écrit
dH1 (t)
dS (t) = .
G (t−)
Ainsi en intégrant, il est possible d’exprimer l’estimateur de Kaplan-Meier sous la forme
n
1 X Di
Sb (t) = 11
n b (Yi −) {Yi >t}
G i=1
n
X
= Wi,n 11{Yi >t} .
i=1
On remarque que l’estimateur de Kaplan-Meier attribue des poids Wi,n aux observations qui
ne sont pas censurées. On peut montrer que ces poids en présence de censure s’écrivent, en
ordonnant les valeurs de Y , Y(1) ≤ . . . ≤ Y(n) , et avec D[i] la valeur associée à Y(i)
i−1
D[i] Y n−j
W[i],n = .
n−i+1 n−j+1
j=1
Cette expression sous forme de somme est commode car elle permet de fournir un estimateur
pour les quantités du type Ψφ = E [φ (T )] avec φ une fonction intégrable (on parle d’intégrales
Kaplan-Meier)
Xn
Ψ
bφ = Wi,n φ (Yi ).
i=1
3
Exercice 2 Variance de l’estimateur de Kaplan-Meier.
Soit un échantillon de n individus i.i.d. de durée de vie T1 , . . . , Tn . Chaque observation i est

soumise à censure à droite Ci , supposée indépendante et non-informative. On observe (Yi , Di ) pour
chaque i, où Yi = Ti ∧ Ci et Di = 11{Ti ≤Ci } . On note S la fonction de survie de T et G celle de C.
On rappelle que l’estimateur de Kaplan-Meier vérifie
√
L
n Sb − S −−−→ U ,
n→∞
avec U un processus gaussien centrée de variance-covariance

Z s∧t
dS (u)
ρ (s, t) = −S (s) S (t) .
0 S (u)2 G (u)
1. On note H1 (t) = P (Y > t, D = 1) et H (t) = P (Y > t). Puisque
dS (t) dH1 (t)

= ,
S (t−) H (t−)
donner un estimateur de la variance de Sb (t).

2. En notant Y(i) la statistique d’ordre i des Y et D[i] la valeur de D associée, réécrire cet
estimateur de la variance et vérifier qu’il correspond à l’estimateur de Greenwood.
3. Proposer un intervalle de confiance de niveau α pour l’estimateur de Kaplan-Meier.
Sb (t + 1)
4. Déterminer la distribution asymptotique de pbt = , puis en déduire l’estimateur de
Sb (t)
sa variance (de type Greenwood).
1. La variance asymptotique de l’estimateur de Kaplan-Meier s’écrit

Z t

2 dS (u)
Var S (t) = −S (t)
b
0 S (u)2 G (u)
Z t
dH1 (u)
= −S (t)2 .
0 H (u) H (u−)
En remplaçant H1 (t) et H (t) par leur estimateur empirique
n n
b 1 (t) = 1 b (t) = 1
X X
H Di 11{Yi >t} et H 11{Yi >t} ,
n n
i=1 i=1
4
on obtient l’estimateur suivant
b 2Z t
d Sb (t) = − S (t) dH
b 1 (u)
Var
n 0 Hb (u) H b (u−)
n
Sb (t)2 1 X Di 11{Yi ≤t}
=
n n 1 P
n
P
n

i=1 1
1
j=1 {Yj >Yi } 1
1
j=1 {Yj ≥Yi }
n2
n
X Di 11{Yi ≤t}
= Sb (t)2 P P
n n
i=1 1
1
j=1 {Yj >Yi } 11
j=1 {Yj ≥Yi }
2. En notant Y(i) la statistique d’ordre i des Y et D[i] la valeur de D associée, ainsi que r[i] le
nombre d’individus à risque juste avant la date T(i) et d[i] le nombre de décès à cette date, on
obtient
X d[i]
d Sb (t) = Sb (t)2
Var = Sb (t)2 γ (t)2 .
i:T ≤t
r[i] − d [i] r[i]
(i)
On reconnait l’estimateur de Greenwood (qui est consistant).

3. On obtient un intervalle de confiance asymptotique d’ordre α pour l’estimateur de Kaplan-
Meier h α α i
Sb (t) 1 − φ−1 1 − γ (t) , Sb (t) 1 + φ−1 1 − γ (t) ,
2 2
avec φ la fonction de répartition d’un loi normale centrée réduite.
4. En remarquant que
!
d[i]

Y Di Y
pbt = 1 − Pn = 1− ,
i:t<Yi ≤t+1 j=1 11{Yi ≤Yj } i:t<Y(i) ≤t+1
r[i]
on en déduit facilement que

X d[i]
d (b
Var pt ) = pb2t .
i:t<Y(i) ≤t+1
r[i] − d[i] r[i]
Exercice 3 Modèle à risques concurrents.
Soit T la durée de vie d’un individu que l’on suppose soumise à K causes de sortie (ex : causes
de décès). On définit la fonction de hasard spécifique au risque i
1
h(i) (t) = lim P (t < T ≤ t + ∆t, V = i|T > t) ,
∆t→0 ∆t
où V est la variable aléatoire qui désigne la cause de sortie.
1. Donner l’expression de :
– la fonction de hasard h (associée à T ) en fonction des h(i) ;
– la fonction de survie S (associée à T ) en fonction des h(i) ;
5
– la fonction d’incidence cumulée F (i) (t) = P (T ≤ t, V = i) ;
– le taux de décès entre les dates t et t + 1 pour la cause V = i.
2. On introduit les durées de vie latentes par cause T1 , T2 , . . . , TK . Exprimer S (t) en fonc-
tion des fonctions de survie de chacune des lois latentes en faisant l’hypothèse qu’elles sont
indépendantes. Que peut-on en déduire s’agissant de l’expression des taux de hasard de cha-
cune de ces lois latentes ?
3. En notant S(T1 ,...,TK ) (t1 , . . . , tK ) la fonction de survie jointe de T1 , T2 , . . . , TK et sans supposer
que ces lois sont nécessairement indépendantes, montrer que

(i) 1 ∂S(T1 ,...,TK ) (t1 , . . . , tK )
h (t) = − .
S (t) ∂ti
t1 ,...,tK =t
4. Pour K = 2, nous faisons à présent l’hypothèse que les durées de vie latentes sont corrélées
et reliées par la fonction de survie jointe
1
ST1 ,T2 (t1 , t2 ) = (1 + θ (λ1 t1 + λ2 t2 ))− θ ,
avec λ1 , λ2 , θ ≥ 0. Fournir l’expression de la fonction de hasard h(i) (t) pour i = 1, 2, puis
celle de F (i) (t).
5. On se place à présent dans un cadre d’estimation non-paramétrique avec censure à droite
indépendante (C indépendant de T et de V ), similaire à celui de l’exercice 1 (même notation
et par simplicité on utilise désormais la notation Ti pour la loi du durée de l’individu i).
(i)
On souhaite proposer un estimateur non-paramétrique pour F (i) (t). En notant H1 (t) =
P (Y > t, D = 1, V = i) et H (t) = P (Y > t), montrer que
(i)
dF (i) (t) dH (t)
=− 1 .
S (t−) H (t−)
Conclure en suivant des raisonnements similaires à ceux de l’exercice 1.
1. La fonction de hasard s’obtient par

K
X
h (t) = h(i) (t).
i=1
La fonction de survie s’écrit

K Z t
Z t !
X
S (t) = exp − h (u) du = exp − h(i) (u)du .
0 i=1 0
La fonction d’incidence cumulée s’écrit

K Z
Z t Z t !
X u
F (i) (t) = h(i) (u) S (u) du = h(i) (u) exp − h (i)
(s)ds du.
0 0 i=1 0
Le taux de décès est

(i)
1 qt = P (t < T ≤ t + 1, V = i|T > t)
R t+1 (i)
h (u) S (u) du F (i) (t + 1) − F (i) (t)
= t = .
S (t) S (t)
6
2. On a T = mini=1,...,K (Ti ). Par conséquent sous l’hypothèse d’indépendance, la fonction de
survie s’écrit en fonction des fonctions de survie des lois marginales Si (t)
K
Y K
Y
S (t) = P (Ti > t) = Si (t).
i=1 i=1
On montre également sous cette hypothèse que

(i)
F (t) = P Ti ≤ t, Ti ≤ min (Tj )
j6=i
h h ii
= E 11{Ti ≤t} E 11{Ti ≤minj6=i (Tj )} |Ti
Z tY
= Sj (u)fi (u) du ,
0 j6=i
avec fi la densité de Ti .
Dans ces conditions, la fonction de hasard spécifique au risque i s’écrit
1
h(i) (t) = lim P (t < T ≤ t + ∆t, V = i|T > t)
∆t→0 ∆t
1 (i)
= lim ∆t qt
∆t→0 ∆t
1 dF (i) (t) 1 Y
= = Sj (t)fi (t)
S (t) dt S (t)
j6=i
fi (t)
= = hi (t)
Si (t)
avec hi la fonction de hasard de Ti .
3. On écrit que (avec des notations évidentes)

∂S(T1 ,...,TK ) (t1 , . . . , tK )

∂ti
t ,...,t =t
Z ∞ Z ∞ 1 K
= −fi (t) ··· dF(T1 ,...,Ti−1 ,Ti+1 ,...,TK )|Ti (t1 , . . . , ti−1 , ti+1 , . . . , tK |t)
t t
dF (i) (t)
=− .
dt
D’où le résultat.
4. En reprenant le résultat précédent et comme S (t) = S(T1 ,T2 ) (t, t) , on a pour i = 1, 2

(i) 1 ∂S(T1 ,T2 ) (t1 , t2 ) λi
h (t) = − = ,
S (t) ∂ti
t1 ,t2 =t (1 + θt (λ1 + λ2 ))
et
Z t
λi 1
F (i) (t) = (1 + θu (λ1 + λ2 ))− θ du
0 (1 + θu (λ1 + λ2 ))
λi 1

= 1 − (1 + θt (λ1 + λ2 ))− θ .
(λ1 + λ2 )
7
5. On écrit
(i)
H1 (t) = E 11{T >t,V =i} 11{C>T }

= E 11{T >t,V =i} E 11{C>T } |T, V

= E 11{T >t,V =i} G (T −)
Z ∞
= G (u−) dF (i) (u).
t
On a donc directement par les mêmes calculs que l’exercice 1

(i)
dF (i) (t) dH (t)
=− 1 .
S (t−) H (t−)
Un premier résultat (avec les mêmes notations) est que

n
X
Fb(i) (t) = Wi,n 11{V =i} 11{Yi ≤t} .
i=1
On a également
n
b (i) (t) = 1
X
H1 Di 11{Yi >t,V =i} .
n
i=1
Un second résultat s’obtient en considérant l’estimateur de Kaplan-Meier pour S tel que

Z t
dHb (i) (t)
Fb(i) (t) = − Sb (t−) 1
0 H (t−)
b
n
1 X Dj S (Yj −) 11{Yj ≤t,Vj =i}
b
=
n b (Yj −)
H
j=1
n
X Dj Sb (Yj −) 11{Yj ≤t,Vj =i}
= Pn
i=1 k=1 11{Yk ≥Yj }
n
X Dj Sb (Yj −) 11{Vj =i}
= Pn .
Yj ≤t k=1 11{Yk ≥Yj }
En ordonnant sur les valeurs de Yi , on obtient

n
X D[j] 11{V[j] =i}
Fb(i) (t) =

Sb Y[j] − .
n−j+1
Y(j) ≤t

Travaux Dirig Es: Mod' Eles de Dur Ee S Eance N 2 Du 30 Novembre 2015 - Corrig e

Transféré par

Droits d'auteur :

Formats disponibles

Travaux Dirig Es: Mod' Eles de Dur Ee S Eance N 2 Du 30 Novembre 2015 - Corrig e

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Travaux Dirig Es: Mod' Eles de Dur Ee S Eance N 2 Du 30 Novembre 2015 - Corrig e

Transféré par

Droits d'auteur :

Formats disponibles

Université Claude Bernard - Lyon 1 Année 2015-2016

Travaux dirigés : modèles de durée

Exercice 1 Manipulation de l’estimateur de Kaplan-Meier.

Soit un échantillon de n individus i.i.d. de durée de vie T1 , . . . , Tn . Chaque observation i est

1. En notant H1 (t) = P (Y > t, D = 1) et H (t) = P (Y > t), montrer que

2. Retrouver à partir de cette expression, l’estimateur non-paramétrique de Nelson-Aalen pour

H (t) = P (Y > t) = P (T > t, C > t)

Naturellement, l’estimateur de Nelson-Aalen apparaı̂t en remplaçant H1 (t) et H (t) par leur

3. En temps discret, la fonction de hasard est définie par

et la fonction de hasard cumulée est

La fonction de survie s’écrit

On retrouve ainsi l’expression de l’estimateur de Kaplan-Meier

Soit un échantillon de n individus i.i.d. de durée de vie T1 , . . . , Tn . Chaque observation i est

On rappelle que l’estimateur de Kaplan-Meier vérifie

avec U un processus gaussien centrée de variance-covariance

1. On note H1 (t) = P (Y > t, D = 1) et H (t) = P (Y > t). Puisque

dS (t) dH1 (t)

donner un estimateur de la variance de Sb (t).

1. La variance asymptotique de l’estimateur de Kaplan-Meier s’écrit

En remplaçant H1 (t) et H (t) par leur estimateur empirique

On reconnait l’estimateur de Greenwood (qui est consistant).

on en déduit facilement que

Exercice 3 Modèle à risques concurrents.

où V est la variable aléatoire qui désigne la cause de sortie.

1. La fonction de hasard s’obtient par

La fonction de survie s’écrit

La fonction d’incidence cumulée s’écrit

Le taux de décès est

On montre également sous cette hypothèse que

On a donc directement par les mêmes calculs que l’exercice 1

Un premier résultat (avec les mêmes notations) est que

Un second résultat s’obtient en considérant l’estimateur de Kaplan-Meier pour S tel que

En ordonnant sur les valeurs de Yi , on obtient

Vous aimerez peut-être aussi