Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Travaux Dirig Es: Mod' Eles de Dur Ee S Eance N 2 Du 30 Novembre 2015 - Corrig e

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 8

Université Claude Bernard - Lyon 1 Année 2015-2016

ISFA - M2SAF
Quentin Guibert
quentin.guibert@etu.univ-lyon1.fr

Travaux dirigés : modèles de durée


Séance n◦ 2 du 30 Novembre 2015 - Corrigé

Exercice 1 Manipulation de l’estimateur de Kaplan-Meier.

Soit un échantillon de n individus i.i.d. de durée de vie T1 , . . . , Tn . Chaque observation i est


soumise à censure à droite Ci , supposée indépendante et non-informative. On observe (Yi , Di ) pour
chaque i, où Yi = Ti ∧ Ci et Di = 11{Ti ≤Ci } . On note S la fonction de survie de T et G celle de C.

1. En notant H1 (t) = P (Y > t, D = 1) et H (t) = P (Y > t), montrer que


dS (t) dH1 (t)
= .
S (t−) H (t−)

2. Retrouver à partir de cette expression, l’estimateur non-paramétrique de Nelson-Aalen pour


la fonction de hasard cumulée Λ (t).
3. Rappeler l’expression de la fonction de hasard h (t), de la fonction de hasard cumulée Λ (t) et
de la fonction de survie d’une loi discrète. En déduire l’expression de l’estimateur de Kaplan-
Meier de la fonction de survie.
4. En suivant un raisonnement similaire avec H1 (t) = P (Y > t, D = 1|Y > L) et H (t) =
P (L ≤ t < Y |Y > L), donner l’expression de l’estimateur de Kaplan-Meier avec troncature à
gauche L indépendante (T indépendant de (L, C) et C indépendant de L).
5. En utilisant directement l’expression de la première question, exprimer l’estimateur de Kaplan-
Meier sous la forme d’une somme faisant intervenir l’estimateur de G.

Réponse de l’exercice 1.

1. On a

H (t) = P (Y > t) = P (T > t, C > t)


= S (t) G (t) ,

et comme C
|=

T
 
H1 (t) = E 11{T >t} 11{C≥T }
  
= E 11{T >t} E 11{C≥T } |T
 
= E 11{T >t} G (T −)
Z ∞
= G (u−) dF (u).
t

1
On écrit alors
dH1 (t) = −G (t−) dF (t) = G (t−) dS (t) .

D’où le résultat.
2. Par définition,
Z t Z t
dS (t) dH1 (t)
Λ (t) = − =− .
0 S (t−) 0 H (t−)
Puisque les quantités Yi et Di sont observées, les estimateurs empiriques de H1 (t) et H (t)
sont donnés par
n n
b 1 (t) = 1 b (t) = 1
X X
H Di 11{Yi >t} et H 11{Yi >t} .
n n
i=1 i=1

Naturellement, l’estimateur de Nelson-Aalen apparaı̂t en remplaçant H1 (t) et H (t) par leur


estimateur, i.e.
Z t
b (t) = − dHb 1 (t)
Λ
0 Hb (t−)
n
1 X Di 11{Yi ≤t}
=
n Hb (Yi −)
i=1
n
X Di 11{Yi ≤t}
= Pn
i=1 j=1 11{Yj ≥Yi }
n
X Di
= Pn
Yi ≤t j=1 11{Yj ≥Yi }

3. En temps discret, la fonction de hasard est définie par

P (T = t)
h (t) = ,
S (t)

et la fonction de hasard cumulée est


X
Λ (t) = h (s).
s≤t

La fonction de survie s’écrit


Y Y
S (t) = (1 − h (s)) = (1 − ∆Λ (s)).
s≤t s≤t

On retrouve ainsi l’expression de l’estimateur de Kaplan-Meier


Y 
Sb (t) = 1 − ∆Λ
b (Ti )
Yi ≤t
!
Y Di
= 1 − Pn .
Yi ≤t j=1 11{Yj ≥Yi }

2
4. On a immédiatement
P (T > t, C > t, L ≤ t)
H (t) = P (L ≤ t < Y |Y > L) =
P (Y > L)
P (L ≤ t)
= S (t) G (t) .
P (Y > L)
En conditionnant par T et par indépendance avec L
 
E 11{T >t} 11{C≥T } 11{T >L}
H1 (t) =
P (Y > L)
 
E 11{T >t} G (T −) P (L ≤ T )
=
P (Y > L)
.

On écrit alors
1
dH1 (t) = G (t−) P (L ≤ t) dS (t) .
P (Y > L)
Ainsi, on montre que
dH1 (t) dS (t)
= .
H (t−) S (t−)
En considérant les estimateurs empiriques de H1 (t) et H (t), on en déduit l’estimateur de
Kaplan-Meier en présence de troncature à gauche tel que
!
Y D i
Sb (t) = 1 − Pn .
Yi ≤t j=1 11{Li ≤Yi ≤Yj }

5. On écrit
dH1 (t)
dS (t) = .
G (t−)
Ainsi en intégrant, il est possible d’exprimer l’estimateur de Kaplan-Meier sous la forme
n
1 X Di
Sb (t) = 11
n b (Yi −) {Yi >t}
G i=1
n
X
= Wi,n 11{Yi >t} .
i=1

On remarque que l’estimateur de Kaplan-Meier attribue des poids Wi,n aux observations qui
ne sont pas censurées. On peut montrer que ces poids en présence de censure s’écrivent, en
ordonnant les valeurs de Y , Y(1) ≤ . . . ≤ Y(n) , et avec D[i] la valeur associée à Y(i)
i−1
D[i] Y n−j
W[i],n = .
n−i+1 n−j+1
j=1

Cette expression sous forme de somme est commode car elle permet de fournir un estimateur
pour les quantités du type Ψφ = E [φ (T )] avec φ une fonction intégrable (on parle d’intégrales
Kaplan-Meier)
Xn
Ψ
bφ = Wi,n φ (Yi ).
i=1

3
Exercice 2 Variance de l’estimateur de Kaplan-Meier.

Soit un échantillon de n individus i.i.d. de durée de vie T1 , . . . , Tn . Chaque observation i est


soumise à censure à droite Ci , supposée indépendante et non-informative. On observe (Yi , Di ) pour
chaque i, où Yi = Ti ∧ Ci et Di = 11{Ti ≤Ci } . On note S la fonction de survie de T et G celle de C.

On rappelle que l’estimateur de Kaplan-Meier vérifie

√  
L
n Sb − S −−−→ U ,
n→∞

avec U un processus gaussien centrée de variance-covariance


Z s∧t
dS (u)
ρ (s, t) = −S (s) S (t) .
0 S (u)2 G (u)

1. On note H1 (t) = P (Y > t, D = 1) et H (t) = P (Y > t). Puisque

dS (t) dH1 (t)


= ,
S (t−) H (t−)

donner un estimateur de la variance de Sb (t).


2. En notant Y(i) la statistique d’ordre i des Y et D[i] la valeur de D associée, réécrire cet
estimateur de la variance et vérifier qu’il correspond à l’estimateur de Greenwood.
3. Proposer un intervalle de confiance de niveau α pour l’estimateur de Kaplan-Meier.
Sb (t + 1)
4. Déterminer la distribution asymptotique de pbt = , puis en déduire l’estimateur de
Sb (t)
sa variance (de type Greenwood).

Réponse de l’exercice 2.

1. La variance asymptotique de l’estimateur de Kaplan-Meier s’écrit


Z t
 
2 dS (u)
Var S (t) = −S (t)
b
0 S (u)2 G (u)
Z t
dH1 (u)
= −S (t)2 .
0 H (u) H (u−)

En remplaçant H1 (t) et H (t) par leur estimateur empirique

n n
b 1 (t) = 1 b (t) = 1
X X
H Di 11{Yi >t} et H 11{Yi >t} ,
n n
i=1 i=1

4
on obtient l’estimateur suivant
b 2Z t
d Sb (t) = − S (t) dH
  b 1 (u)
Var
n 0 Hb (u) H b (u−)
n
Sb (t)2 1 X Di 11{Yi ≤t}
=
n n 1 P
n
 P
n

i=1 1
1
j=1 {Yj >Yi } 1
1
j=1 {Yj ≥Yi }
n2
n
X Di 11{Yi ≤t}
= Sb (t)2 P  P 
n n
i=1 1
1
j=1 {Yj >Yi } 11
j=1 {Yj ≥Yi }

2. En notant Y(i) la statistique d’ordre i des Y et D[i] la valeur de D associée, ainsi que r[i] le
nombre d’individus à risque juste avant la date T(i) et d[i] le nombre de décès à cette date, on
obtient
  X d[i]
d Sb (t) = Sb (t)2
Var  = Sb (t)2 γ (t)2 .
i:T ≤t
r[i] − d [i] r[i]
(i)

On reconnait l’estimateur de Greenwood (qui est consistant).


3. On obtient un intervalle de confiance asymptotique d’ordre α pour l’estimateur de Kaplan-
Meier h   α    α i
Sb (t) 1 − φ−1 1 − γ (t) , Sb (t) 1 + φ−1 1 − γ (t) ,
2 2
avec φ la fonction de répartition d’un loi normale centrée réduite.
4. En remarquant que
!
d[i]
 
Y Di Y
pbt = 1 − Pn = 1− ,
i:t<Yi ≤t+1 j=1 11{Yi ≤Yj } i:t<Y(i) ≤t+1
r[i]

on en déduit facilement que


X d[i]
d (b
Var pt ) = pb2t  .
i:t<Y(i) ≤t+1
r[i] − d[i] r[i]

Exercice 3 Modèle à risques concurrents.

Soit T la durée de vie d’un individu que l’on suppose soumise à K causes de sortie (ex : causes
de décès). On définit la fonction de hasard spécifique au risque i
1
h(i) (t) = lim P (t < T ≤ t + ∆t, V = i|T > t) ,
∆t→0 ∆t

où V est la variable aléatoire qui désigne la cause de sortie.

1. Donner l’expression de :
– la fonction de hasard h (associée à T ) en fonction des h(i) ;
– la fonction de survie S (associée à T ) en fonction des h(i) ;

5
– la fonction d’incidence cumulée F (i) (t) = P (T ≤ t, V = i) ;
– le taux de décès entre les dates t et t + 1 pour la cause V = i.
2. On introduit les durées de vie latentes par cause T1 , T2 , . . . , TK . Exprimer S (t) en fonc-
tion des fonctions de survie de chacune des lois latentes en faisant l’hypothèse qu’elles sont
indépendantes. Que peut-on en déduire s’agissant de l’expression des taux de hasard de cha-
cune de ces lois latentes ?
3. En notant S(T1 ,...,TK ) (t1 , . . . , tK ) la fonction de survie jointe de T1 , T2 , . . . , TK et sans supposer
que ces lois sont nécessairement indépendantes, montrer que

(i) 1 ∂S(T1 ,...,TK ) (t1 , . . . , tK )
h (t) = − .
S (t) ∂ti
t1 ,...,tK =t

4. Pour K = 2, nous faisons à présent l’hypothèse que les durées de vie latentes sont corrélées
et reliées par la fonction de survie jointe
1
ST1 ,T2 (t1 , t2 ) = (1 + θ (λ1 t1 + λ2 t2 ))− θ ,
avec λ1 , λ2 , θ ≥ 0. Fournir l’expression de la fonction de hasard h(i) (t) pour i = 1, 2, puis
celle de F (i) (t).
5. On se place à présent dans un cadre d’estimation non-paramétrique avec censure à droite
indépendante (C indépendant de T et de V ), similaire à celui de l’exercice 1 (même notation
et par simplicité on utilise désormais la notation Ti pour la loi du durée de l’individu i).
(i)
On souhaite proposer un estimateur non-paramétrique pour F (i) (t). En notant H1 (t) =
P (Y > t, D = 1, V = i) et H (t) = P (Y > t), montrer que
(i)
dF (i) (t) dH (t)
=− 1 .
S (t−) H (t−)
Conclure en suivant des raisonnements similaires à ceux de l’exercice 1.

Réponse de l’exercice 3.

1. La fonction de hasard s’obtient par


K
X
h (t) = h(i) (t).
i=1

La fonction de survie s’écrit


K Z t
 Z t  !
X
S (t) = exp − h (u) du = exp − h(i) (u)du .
0 i=1 0

La fonction d’incidence cumulée s’écrit


K Z
Z t Z t !
X u
F (i) (t) = h(i) (u) S (u) du = h(i) (u) exp − h (i)
(s)ds du.
0 0 i=1 0

Le taux de décès est


(i)
1 qt = P (t < T ≤ t + 1, V = i|T > t)
R t+1 (i)
h (u) S (u) du F (i) (t + 1) − F (i) (t)
= t = .
S (t) S (t)

6
2. On a T = mini=1,...,K (Ti ). Par conséquent sous l’hypothèse d’indépendance, la fonction de
survie s’écrit en fonction des fonctions de survie des lois marginales Si (t)
K
Y K
Y
S (t) = P (Ti > t) = Si (t).
i=1 i=1

On montre également sous cette hypothèse que


 
(i)
F (t) = P Ti ≤ t, Ti ≤ min (Tj )
j6=i
h h ii
= E 11{Ti ≤t} E 11{Ti ≤minj6=i (Tj )} |Ti
Z tY
= Sj (u)fi (u) du ,
0 j6=i

avec fi la densité de Ti .
Dans ces conditions, la fonction de hasard spécifique au risque i s’écrit
1
h(i) (t) = lim P (t < T ≤ t + ∆t, V = i|T > t)
∆t→0 ∆t
1 (i)
= lim ∆t qt
∆t→0 ∆t
1 dF (i) (t) 1 Y
= = Sj (t)fi (t)
S (t) dt S (t)
j6=i
fi (t)
= = hi (t)
Si (t)
avec hi la fonction de hasard de Ti .
3. On écrit que (avec des notations évidentes)

∂S(T1 ,...,TK ) (t1 , . . . , tK )

∂ti
t ,...,t =t
Z ∞ Z ∞ 1 K
= −fi (t) ··· dF(T1 ,...,Ti−1 ,Ti+1 ,...,TK )|Ti (t1 , . . . , ti−1 , ti+1 , . . . , tK |t)
t t
dF (i) (t)
=− .
dt
D’où le résultat.
4. En reprenant le résultat précédent et comme S (t) = S(T1 ,T2 ) (t, t) , on a pour i = 1, 2

(i) 1 ∂S(T1 ,T2 ) (t1 , t2 ) λi
h (t) = − = ,
S (t) ∂ti
t1 ,t2 =t (1 + θt (λ1 + λ2 ))

et
Z t
λi 1
F (i) (t) = (1 + θu (λ1 + λ2 ))− θ du
0 (1 + θu (λ1 + λ2 ))
λi  1

= 1 − (1 + θt (λ1 + λ2 ))− θ .
(λ1 + λ2 )

7
5. On écrit
(i)  
H1 (t) = E 11{T >t,V =i} 11{C>T }
  
= E 11{T >t,V =i} E 11{C>T } |T, V
 
= E 11{T >t,V =i} G (T −)
Z ∞
= G (u−) dF (i) (u).
t

On a donc directement par les mêmes calculs que l’exercice 1


(i)
dF (i) (t) dH (t)
=− 1 .
S (t−) H (t−)

Un premier résultat (avec les mêmes notations) est que


n
X
Fb(i) (t) = Wi,n 11{V =i} 11{Yi ≤t} .
i=1

On a également
n
b (i) (t) = 1
X
H1 Di 11{Yi >t,V =i} .
n
i=1

Un second résultat s’obtient en considérant l’estimateur de Kaplan-Meier pour S tel que


Z t
dHb (i) (t)
Fb(i) (t) = − Sb (t−) 1
0 H (t−)
b
n
1 X Dj S (Yj −) 11{Yj ≤t,Vj =i}
b
=
n b (Yj −)
H
j=1
n
X Dj Sb (Yj −) 11{Yj ≤t,Vj =i}
= Pn
i=1 k=1 11{Yk ≥Yj }
n
X Dj Sb (Yj −) 11{Vj =i}
= Pn .
Yj ≤t k=1 11{Yk ≥Yj }

En ordonnant sur les valeurs de Yi , on obtient


n
X D[j] 11{V[j] =i}
Fb(i) (t) =

Sb Y[j] − .
n−j+1
Y(j) ≤t

Vous aimerez peut-être aussi