4M011 Poly Duquesne
4M011 Poly Duquesne
4M011 Poly Duquesne
Probabilités approfondies :
martingales à temps discret
et
chaînes de Markov à espace d’états dénombrable.
• •
1. Adresse postale : Université P. et M. Curie , LPMA, Case courrier 188, 4 place Jussieu, 75252
Paris Cedex 05 France. Tours 16-26, 2ème étage, bureau 2-17. Email : thomas.duquesne@upmc.fr
2. Adresse postale : idem. Tours 16-26, 2ème étage, bureau 2-08. Email : cedric.boutillier@upmc.fr
3. Adresse postale : idem. Tours 16-26, 1er étage, bureau 1-14. Email : damien.simon@upmc.fr
ii
Table des matières
Avant-propos et bibliographie. v
I Espérance conditionnelle. 1
I.1 Définitions, premières propriétés. . . . . . . . . . . . . . . . . . . . . . . . . . 1
I.2 Convergence sous l’espérance conditionnelle. . . . . . . . . . . . . . . . . . . . 6
I.3 Quelques inégalités. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
I.4 Interprétation et construction géométriques de l’espérance conditionnelle. . . 9
I.4.a Interprétation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
I.4.b Construction géométrique de l’espérance conditionnelle. . . . . . . . . 11
I.5 Conditionnement par une variable aléatoire. . . . . . . . . . . . . . . . . . . . 12
I.6 Exemples de calculs. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
I.7 Indépendance et espérance conditionnelle. . . . . . . . . . . . . . . . . . . . . 16
iii
III.1.d Propriétés de Markov. . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
III.2 Algèbre linéaire pour les matrices de transition. . . . . . . . . . . . . . . . . . 85
III.2.a Notation et calcul matriciel. . . . . . . . . . . . . . . . . . . . . . . . . 86
III.2.b Irréductibilité, période. . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
III.2.c Fonctions harmoniques. . . . . . . . . . . . . . . . . . . . . . . . . . . 93
III.2.d Mesure invariantes, chaînes réversibles. . . . . . . . . . . . . . . . . . . 95
III.3 Asymptotique des chaînes : résultats qualitatifs. . . . . . . . . . . . . . . . . . 99
III.3.a Excursion, états recurrents et transitoires. . . . . . . . . . . . . . . . . 99
III.3.b Classification des états. . . . . . . . . . . . . . . . . . . . . . . . . . . 102
III.4 Asymptotique des chaînes : résultats quantitatifs. . . . . . . . . . . . . . . . . 110
III.4.a Existence de mesures invariantes. . . . . . . . . . . . . . . . . . . . . . 111
III.4.b Théorèmes ergodiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
III.4.c Convergence vers la loi stationnaire. . . . . . . . . . . . . . . . . . . . 121
iv
Avant-propos et bibliographie.
Ces notes ne sont destinées qu’aux étudiants du cours MM011 de l’UPMC ; aucune diffu-
sion autre qu’interne au master n’est autorisée.
Les prérequis de ce cours sont les suivants.
Ce polycopié ne prétend pas à l’originalité : il existe de très nombreux textes sur les
martingales et les chaînes de Markov. L’étudiant est invité à les consulter. Voici une liste
d’ouvrages que j’ai (largement) utilisés et qui me semblent profitables. Que les collègues qui
ne sont pas cités ici me pardonnent.
• Le livre de F. Benaim et N. El Karoui [3] fournit un exposé très concis des chaînes
de Markov et des martingales à temps discret, exposé qui est agrémenté de nombreux
exemples originaux et d’applications significatives (à la simulation et à la finance no-
tamment). Mentionnons que les livres de R. Durrett et P. Billingsley proposent un
exposé classique de la théorie des chaînes de Markov et des martingales (l’ouvrage de
Durrett étant plus complet).
• Sur la théorie des martingale à temps discret, je recommande particulièrement le livre
de J. Neveu [10] en français et le désormais célèbre ouvrage anglophone de D. Williams
[13].
• Sur les chaînes de Markov, on pourra consulter le livre de P. Brémaud [5] qui est très
complet et qui contient de nombreuses applications. L’ouvrage de J. Norris [11] est
sans doute plus concis et mieux adapté à une première lecture. Pour les applications
des chaînes de Markov à la simulation, signalons le cours de O. Häggström [9] qui
v
donne une présentation très agréable et lisible des méthodes de "Monte-Carlo Markov
Chains" et de l’algorithme de Propp-Wilson.
Enfin ceux qui voudraient avoir un stock supplémentaire d’exercices corrigés peuvent
consulter le livre de P. Baldi, L. Mazliak et P. Priouret [1].
Le calendrier prévisionnel du cours est le suivant.
Semaine 1. Rappels de théorie de la mesure (voir l’annexe A) qui incluent le théorème de la
classe monotone et le théorème de Radon-Nikodym. Définition de l’espérance conditionnelle
et premières propriétés.
Semaine 2. Convergence monotone conditionnelle, interversion somme/espérance condition-
nelle (cas positif), Fatou conditionel, interversion somme/espérance conditionnelle (cas inté-
grable). Inégalité de Jensen et de Hölder conditionnelles. Interprétation L2 . Conditionnement
par une variable aléatoire. Trois calculs explicites.
Semaine 3. Indépendance et espérance conditionnelle. Définition des (sur/sous)-martingales.
Décomposition de Doob. Temps d’arrêt. Intégrale stochastique discrète. Nombre de montées
et convergence presque sûre des sous-martingales bornées en norme L1 .
Semaine 4. Convergence des sur-martingales positives. Notion d’uniforme intégrabilité et
quelques propriétés. Théorème de la convergence L1 des martingales. Application. Inégalité
maximale pour les sous-martingales positives. Convergence L des martingales.
p
Le 07 Septembre 2011,
Thomas Duquesne.
vi
Bibliographie
vii
viii
Chapitre I
Espérance conditionnelle.
1
normal car on a intégré sur tous les paramètres qui sont indépendants de R1 et seulement sur
ceux-là.
La notion générale d’espérance conditionnelle fait exactement cela : si X : Ω → R est une
variable aléatoire intégrable qui est F -mesurable et si G est une sous-tribu d’événements de
F , supposés déterminés, alors l’espérance de X conditionnellement à G , qui est notée E[X|G ],
est l’intégrale sur tous les paramètres qui, dans X, sont indépendants de G et seulement sur
ceux-là ; le résultat E[X|G ] doit donc être une variable aléatoires qui ne dépend que de G ,
c’est-à-dire qui est G -mesurable. En quelque sorte l’espérance conditionnelle est une intégrale
à paramètre. Voici une manière de formaliser cette notion.
Pour que l’on puisse définir l’espérance conditionnelle d’une variable, il faut que son es-
pérance soit bien définie, c’est-à-dire que la variable soit intégrable ou à valeurs dans [0, ∞].
Pour simplifier, on dira qu’une variable (ou une fonction) est positive si elle est à valeurs dans
[0, ∞]. On montre d’abord l’unicité P-preque sûre des espérances conditionnelles grâce à la
proposition suivante.
Proposition I.1.1 Soit (Ω, F , P), un espace de probabilité et soit G , une sous-tribu de F .
Soient Y et Y 0 , deux v.a. G -mesurables qui sont soit réelles intégrables, soit positives. On
suppose que
∀B ∈ G , E[Y 1B ] ≤ E[Y 0 1B ] .
Alors Y ≤ Y 0 presque sûrement.
Preuve : pour tous réels a < b, on pose Ca,b = {Y 0 ≤ a < b ≤ Y }. On a bien Ca,b = (Y 0 )−1 ( ]−
∞, a]) ∩ Y −1 ([b, ∞]) ∈ G . On remarque ensuite que Y 0 1Ca,b ≤ a1Ca,b ≤ b1Ca,b ≤ Y 1Ca,b . En
intégrant cette inégalité on a donc E[Y 0 1Ca,b ] ≤ aP(Ca,b ) ≤ bP(Ca,b ) ≤ E[Y 1Ca,b ]. Mais
par hypothèse, E[Y 1Ca,b ] ≤ E[YS 01
Ca,b ]. Cela montre que aP(Ca,b ) = bP(Ca,b ), et donc que
P(Ca,b ) = 0. Or {Y < Y } = a,b∈Q,a<b Ca,b . Comme l’ensemble des couples (a, b) ∈ Q2
0
tel que a < b est dénombrable et comme une union dénombrable de P-négligeables est un
ensemble P-négligeable, on a P(Y 0 < Y ) = 0, ce qu’il fallait démontrer.
2
les versions de l’espérance conditionnelle de X sachant G de la même manière par E[X|G ].
L’existence de l’espérance conditionnelle ne se prouve pas de façon élémentaire. Nous
donnons ici une preuve basée sur le théorème de Radon-Nikodym, preuve qui peut sembler
assez obscure mais qui a le mérite d’être très courte. Une preuve plus intuitive est donnée
plus loin à la section I.4 page 9.
Théorème I.1.3 (Existence de l’espérance conditionnelle) Soit (Ω, F , P), un espace de pro-
babilité et soit G , une sous-tribu de F . Soit X, une v.a. réelle intégrable ou positive. Elle
admet une (version de son) espérance conditionnelle sachant G .
Preuve : on fixe X R : Ω → [0, ∞], une fonction F -mesurable. Pour tout B ∈ G , on pose
ν(B) = E[X1B ] = B X dP. On applique le lemme A.3.9, page 155, à E = Ω, E = G , f = X
et µ = P restreinte à G : cela montre que ν : G → [0, ∞] est une somme de mesures de masse
finie telle que ν P. Le théorème de Radon-Nikodym (théorèmeR A.3.10 156) s’applique et
montre qu’il existe Y : Ω → [0, ∞], G -mesurable telle que ν(B) = B Y dP = E[Y 1B ], ce qui
montre le résultat voulu dans le cas des v.a. positives.
Supposons que X soit une v.a. réelle intégrable : on note X + et X − ses parties positives
et négatives. On note Y + et Y − les v.a. G -mesurables telles que E[X +/− 1B ] = E[Y +/− 1B ],
B ∈ G . Par conséquent, E[Y +/− ] = E[X +/− ] < ∞ et donc p.s. Y +/− < ∞. Sans perte de
généralité on peut supposer les variables Y + et Y − finies partout et on pose Y = Y + − Y − ,
qui est bien (une version de) l’espérance conditionnelle de X sachant G .
Les propriétés élémentaires de l’espérance conditionnelle sont les suivantes.
Proposition I.1.4 Soit (Ω, F , P), un espace de probabilité et soit G , une sous-tribu de F .
Soient X, X1 , X2 , des v.a. réelles intégrables (resp. positives). Les assertions suivantes sont
vérifiées.
(i) Si G = {∅, Ω} (qui est la tribu grossière), alors E[X|G ] = E[X].
(ii) Si X est G -mesurable, E[X|G ] = X.
(iii) Pour tout c ∈ R (resp. tout c ∈ R+ ), E[X1 + cX2 |G ] = E[X1 |G ] + cE[X2 |G ].
(iv) Si X1 ≤ X2 p.s., alors E[X1 |G ] ≤ E[X2 |G ] presque sûrement. Notamment, si X
est positive p.s., E[X|G ] l’est aussi.
(v) (Inégalité triangulaire) E[X | G ] ≤ E |X| G , p.s.
(vi) E E[X|G ] = E[X].
Preuve : on note c = E[X]. La v.a. constante à c est clairement mesurable par rapport à la
tribu grossière. On vérifie ensuite que E[c1∅ ] = 0 = E[X1∅ ] et que E[c1Ω ] = E[X1Ω ]. Donc
c = E[X|G ] si G est la tribu grossière, ce qui prouve (i).
Montrons (ii) : on suppose que X est G -mesurable ; comme E[X1B ] = E[X1B ], pour tout
B ∈ G , on a donc donc E[X|G ] = X.
Montrons (iii) : on pose Y = E[X1 |G ] + cE[X2 |G ]. C’est une v.a. G -mesurable intégrable
(resp positive). Par linéarité de l’espérance et par définition de l’espérance conditionnelle, on
a pour tout B ∈ G ,
E[Y 1B ] = E E[X1 |G ]1B + cE E[X2 |G ]1B
3
= E[X1 1B ] + cE[X2 1B ]
= E (X1 + cX2 )1B ,
Lemme I.1.5 Soit (Ω, F ), un espace mesurable et G une sous-tribu de F . P Soit Z, une
v.a. positive G -mesurable. Alors, Il existe Bn ∈ G , cn ∈ R+ , n ∈ N, tels que Z = n≥0 cn 1Bn .
qui est G -mesurable. On vérifie que 0 ≤ Zp ≤ Zp+1 ≤ p + 1, si bien que Zp+1 − Zp est
une combinaison linéaire positive de fonction indicatrice
P d’événements de G . Par ailleurs
limp Zp = supp Zp = Z. Cela permet d’écrire Z = Z0 + p≥0 Zp+1 − Zp , ce qui implique le
résultat.
Lemme I.1.6 Soit (Ω, F , P), un espace de probabilité et soit G , une sous-tribu de F . Soit
X, une v.a. réelle intégrable (resp. positive). On pose Y = E[X|G ]. Alors, pour toute v.a. Z,
G -mesurable bornée (resp. positive), on a E[ZY ] = E[ZX].
Preuve : on suppose que X est positive. Par croissance de l’espérance conditionnelle (pro-
position I.1.4 (iv)), Y est positive. Soit Z, une v.a. G -mesurable positive. Par le lemme I.1.5,
il existe une suite
P de constantes positive (cn )n≥0 et une suite d’événements Bn ∈ G , n ∈ N,
telles que Z = n≥0 cn 1Bn . Par interversion série/espérance positive (appliquée deux fois) et
par la définition de l’espérance conditionnelle, on a donc
hX i X X hX i
E[ZY ] = E cn 1Bn Y = cn E[1Bn Y ] = cn E[1Bn X] = E cn 1Bn X = E[ZX] ,
n≥0 n≥0 n≥0 n≥0
ce qui montre le résultat voulu pour les v.a. positives. Le cas réel intégrable se traite en
considérant les parties positives et négatives et en se ramenant au cas positif (les détails sont
laissés au lecteur).
4
Proposition I.1.7 Soit (Ω, F , P), un espace de probabilité et soit G , une sous-tribu de F .
Soit X, une v.a. réelle intégrable (resp. positive). Alors, pour toute v.a. Z, G -mesurable bornée
(resp. positive), on a
p.s. E[ZX|G ] = ZE[X|G ] . (I.1)
Cette égalité reste vraie si Z est G -mesurable et si ZX et X sont intégrables.
Preuve : on pose Y = ZE[X|G ], qui est bien G -mesurable. Soit B ∈ G . On observe que 1B Z
est intégrable (resp. positive). Le lemme I.1.6 implique donc que .
E[1 B ZX] = E 1B ZE[X|G ]
Par définition de Y , E 1B ZE[X|G ] = E[1B Y ], donc E[1B ZX] = E[1B Y ], pour tout B ∈ G ,
ce qui implique que Y = E[ZX|G ], et cela prouve (I.1). On suppose que ZX et X sont
intégrables. On montre (I.1) dans ce cas en considérant les parties positives et négatives de
X et de Z et en utilisant le cas positif déjà démontré.
Proposition I.1.8 Soit (Ω, F , P), un espace de probabilité. Soient G1 et G2 , deux sous-tribus
de F . On suppose que G1 ⊂ G2 . Alors pour toute v.a. X, réelle intégrable ou positive, on a
p.s. E E[X|G2 ] |G1 = E[X|G1 ] .
Preuve : on pose Y = E E[X|G2 ] |G1 . C’est une v.a. G1 -mesurable. Soit B ∈ G1 . La pro-
donc
E[1B Y ] = E E E[1B X|G2 ] |G1 = E E[1B X|G2 ] = E[1B X] .
Comme cela est vrai pour tout B ∈ G1 , on a bien Y = E[X|G1 ], qui est le résultat voulu.
Le lecteur est invité à réviser les notions de tribu engendrée (dans l’appendice, définition
A.1.2, page 125), de pi-système et de classe monotone (dans l’appendice, définition A.1.1,
page 125), et de relire le théorème de la classe monotone (dans l’appendice, théorème A.1.3,
page 126).
Proposition I.1.9 Soit (Ω, F , P), un espace de probabilité. Soit Gi , i ∈ I, une famille de
sous-tribus de F . On pose G = σ(Gi , i ∈ I), la tribu engendrée par les Gi , i ∈ I. Soit X, une
v.a. réelle intégrable. Il y a équivalence entre les assertions suivantes.
(i) Y = E[X|G ].
(ii) Y est G -mesurable intégrable (resp. positive) et pour tout sous-ensemble fini d’in-
dices J ⊂ I, pour tous Bj ∈ Gj , j ∈ J, on a
E X1Tj∈J Bj = E Y 1Tj∈J Bj .
Preuve : (i) =⇒T(ii) est trivial. Montrons (ii) =⇒ (i) dans le cas où X est réelle intégrable.
On pose P = { j∈J Bj ; Bj ∈ Gj , J ⊂ I fini}. Il est clair que Ω ∈ P et que P est stable
par intersection finie. C’est donc un pi-système. Par ailleurs, il est clair que P ⊂ G et que
Gi ⊂ P, pour tout i ∈ I. Donc, σ(P) = G . On pose
L = B ∈ G : E[X1B ] = E[Y 1B ] .
5
Le point (ii) signifie que P ⊂ L. Montrons que L est une classe monotone : il est d’abord clair
que Ω ∈ L, car Ω ∈ P. Soient A, B ∈ L tels que A ⊂ B. Comme X et Y sont intégrables,
pour tout C ∈ F , E[X1C ] et E[Y 1C ] sont des réels bien définis et on a bien
ce qui montre que B\A ∈ L. La classe d’événements L est doncS stable par différence propre.
Soient Bn ∈ L, n ≥ 0, tels que Bn ⊂ Bn+1 . On pose B = n≥0 Bn . Il est clair que 1B =
limn 1Bn , et donc X1B = limn X1Bn , Y 1B = limn Y 1Bn . De plus |X1Bn | ≤ |X| et |Y 1Bn | ≤
|Y |, pour tout n ≥ 0. Comme X et Y sont intégrable, le théorème de convergence dominée
s’applique et on a
ce qui montre que B ∈ L. La classe d’événements L est donc stable par union dénombrable
croissante. Cela prouve que L est une classe monotone.
Le théorème de la classe monotone (voit le théorème A.1.3 en appendice) entraîne que
σ(P) ⊂ L. Mais puisque, par définition, L ⊂ G et puisque σ(P) = G , on a donc L = G , ce
qui signifie que pour tout B ∈ G , on a E[X1B ] = E[Y 1B ]. Comme Y est supposée intégrable
et G -mesurable, cela entraîne bien Y = E[X|G ].
Proposition I.2.2 (Convergence dominée) Soit (Ω, F , P), un espace de probabilité. Soit
G , une sous-tribu de F . Soit (Xn )n≥0 , une suite de v.a. réelles. On fait les hypothèses sui-
vantes.
6
• Il existe une v.a. réelle X∞ telle que limn Xn = X∞ p.s.
• Il existe une v.a. positive Z telle que E[Z] < ∞ et |Xn | ≤ Z, pour tout n ≥ 0, p.s.
Alors, X∞ est intégrable, p.s. limn E |Xn − X∞ | G = 0 et limn E[Xn |G ] = E[X∞ |G ].
Preuve : il est clair que p.s. |X∞ | ≤ Z, donc E |X∞ | < ∞. On pose Yn = 2Z − |X∞ − Xn |.
p.s. E[2Z |G ] = E lim inf Yn | G ] ≤ lim inf E[Yn |G ] = E[2Z |G ] − lim sup E |X∞ − Xn | G ,
n→∞ n→∞ n→∞
Corollaire I.2.3 (Interversion L1 ) Soit (Ω, F , P), un espace de P probabilité. Soit G , une
F
sous-tribu
P de . Soit (X )
n n≥0 , une suite de v.a. réelles telle que n≥0 E |X n < ∞. Alors
|
n≥0 Xn est une v.a. intégrable et on a l’égalité presque-sûre suivante
hX i X
E Xn G = E[Xn |G ] .
n≥0 n≥0
Preuve : on pose K = n≥0 |Xn |. On a E[K] = n≥0 E |Xn | < ∞, par interversion
P P
7
Lemme I.3.1 (Jensen conditionnelle) Soit (Ω, F , P), un espace de probabilité et soit G , une
sous-tribu de F . Soit X, une v.a. réelle intégrable. Soit ϕ : R → R, une fonction convexe. On
suppose que X et ϕ(X) sont intégrables. Alors pour toute sous-tribu G de F , on a
p.s. ϕ E[X|G ] ≤ E[ϕ(X)|G ] .
permet de conclure.
Corollaire I.3.2 Soit (Ω, F , P), un espace de probabilité et soit G , une sous-tribu. Soit X,
une v.a. et soit p ∈ [1, ∞[ . Si E[ |X|p ] < ∞, alors E[|X|] < ∞. De plus, p.s. on a
p
ce qui implique que E[X|G ] ∈ L .
Preuve : on remarque que la fonction x 7→ |x|p est convexe.
On montre ensuite l’inégalité de Hölder conditionnelle. On rappelle que deux réels p, q > 1
sont conjugués ssi p1 + 1q = 1.
Proposition I.3.3 (Inégalité de Hölder conditionnelle) Soit 1 < p, q < ∞, deux exposants
conjugués. Soit (Ω, F , P) un espace de probabilité et G , une sous-tribu de F . Soient X, Y ,
deux v.a. positives. Alors,
1 1
p.s. E[XY |G ] ≤ (E[X p |G ]) p (E[Y q |G ] ) q . (I.4)
1 1
Preuve : par convexité, − log( ps + qt ) ≤ − p1 log s − 1q log t et donc s p t q ≤ ps + qt , pour tous
t, s ∈ R∗+ , ce qui s’étend par continuités à tous s, t ∈ R+ . On suppose d’abord qu’il existe
b > a > 0 tels que p.s. X, Y ∈ [a, b]. On applique l’inégalité précèdente à s = X p /E[X p |G ] et
t = Y q /E[Y q |G ] :
X Y Xp Yq
1 1 ≤ + .
(E[X p |G ]) (E[Y q |G ] )
p q pE[X p |G ] qE[Y q |G ]
ce qui montre (I.4) pour des v.a. à valeurs dans [a, b] ⊂ R∗+ . On suppose maintenant que
p.s. X, Y ∈ [0, b] et pour tout n ∈ N, on pose Xn = 2−n ∨X et Yn = 2−n ∨Y . On a limn Xn = X
et limn Yn = Y . Comme les Xn et les Yn sont bornées par b, le théorème de convergence
8
dominée conditionnel s’applique pour passer à la limite sous l’espérance conditionnelle et on
a
1 1 1 1
E[XY |G ] = n→∞ lim (E[Xnp |G ]) p (E[Ynq |G ] ) q = (E[X p |G ]) p (E[Y q |G ] ) q ,
lim E[Xn Yn |G ] ≤ n→∞
ce qui entraîne l’inégalité (I.4) pour des v.a. bornées. On montre le cas général en posant
ensuite Xn = X ∧ n et Yn = Y ∧ n, qui sont bornée et on conclut en appliquant la convergence
monotone conditionnelle.
Remarque I.3.1 Si X est dans L et Y dans L , alors l’inégalité de Hölder usuelle implique
p q
9
Théorème I.4.1 (Théorème de la projection orthogonale) Soit H un espace de Hilbert. Soit
F un sous-espace vectoriel fermé. Pour tout x ∈ H, il existe un point pH (x) ∈ F tel que
Autrement dit pF (x) est l’unique point de F minimisant sa distance à x. Cela entraîne que
pF : H → F est linéaire et que pF (y) = y, pour tout y ∈ F . De plus pour tout x ∈
H, x − pF (x) ∈ F ⊥ , ce qui implique kxk2 = kpF (x)k2 + kx − pF (x)k2 . Par conséquent,
kpF (x)k ≤ kxk et pF est une application linéaire continue. La fonction pF est la projection
orthogonale sur F .
Les espaces L2 sont des exemples d’espaces de Hilbert. Plus précisément, on rappelle
les faits suivants, qui sont prouvés dans un cadre général en appendice chapitre A, section
I.1.f, théorème A.1.33, page 141 : soit (Ω, F , P), un espace de probabilité ; on identifie deux
v.a. réelles F -mesurables si elles sont égales P-presque sûrement et on définit
Proposition I.4.2 Soit (Ω, F , P), un espace de probabilité. Soit G une sous tribu de F . Les
assertions suivantes sont vérifiées.
(i) L2 (Ω, G , P) est un sous-espace fermé de L2 (Ω, F , P).
(ii) E[ · |G ] : L2 (Ω, F , P) → L2 (Ω, G , P) est la projection orthogonale sur L2 (Ω, G , P).
Preuve : supposons que Yn ∈ L2 (Ω, G , P), n ≥ 0, soit une suite convergeant vers Y pour la
norme k·k2 . On a donc E[Y 2 ] < ∞. On rappelle que de toute suite convergeant pour k·k2 , on
extrait une suite qui converge P-presque sûrement vers Y : c’est une application du lemme
A.1.32, page 141. La variable Y est donc la limite p.s. de variable G -mesurable. C’est donc
une variable G -mesurable. On a donc Y ∈ L2 (Ω, G , P), ce qui montre (i).
Le corollaire I.3.2 de l’inégalité de Jensen montre que E[X|G ] ∈ L2 (Ω, G , P), dès que
E[X 2 ] < ∞. Pour simplifier les notations, on pose X ∗ = E[X|G ]. Soit Y ∈ L2 (Ω, G , P). On a
les égalités suivantes :
2
E (X −Y )2 G = E X −X ∗ + X ∗ −Y G
2 2
= E X −X ∗ G + 2E X −X ∗ X ∗ −Y G + E X ∗ −Y G .
Toutes ces égalités ont un sens car, par Cauchy-Schwarz, toutes les variables sous les espérances
conditionnelles sont intégrables. On remarque ensuite que X ∗− Y est G -mesurable. De plus
X−X ∗ est intégrable et par Cauchy-Schwarz X−X ∗ X ∗−Y est intégrable. La proposition
I.1.7 et la linéarité de l’espérance conditionnelle impliquent donc que
E X −X ∗ X ∗ −Y G = X ∗ −Y E X −X ∗ G = X ∗ −Y E[X|G ] − X ∗ = 0.
10
On a donc
2 2
E (X −Y )2 G = E X −X ∗ G + E X ∗ −Y G .
Lemme I.4.3 Soit X ∈ L2 (Ω, F , P). On pose Y = πG (X), le projeté orthogonal de X sur
L2 (Ω, G , P). Alors,
∀Z ∈ L (Ω, G , P), E[ZX] = E[ZY ] . (I.5)
2
Cela montre en particulier que Y est intégrable, G -mesurable, et que E[X1B ] = E[Y 1B ], pour
tout B ∈ G . Par conséquent, Y est une version de l’espérance conditionnelle de X sachant G ,
selon la définition I.1.1.
Preuve : comme X − πG (X) est orthogonal à L2 (Ω, G , P), on a hZ, X − πG (X)i = 0, pour
tout Z ∈ L2 (Ω, G , P), ce qui implique (I.5). Par ailleurs on remarque que Y est G -mesurable
et que E[Y 2 ] < ∞. Par Jensen, Y est donc intégrable. De plus Z = 1B ∈ L2 (Ω, G , P), pour
tout B ∈ G , et (I.5) implique que E[X1B ] = E[Y 1B ], pour tout B ∈ G .
La preuve de l’existence d’une version de l’espérance conditionnelle se poursuit de la
manière suivante. On considère d’abord le cas d’une variable positive X : Ω → [0, ∞],
F -mesurable. Pour tout n ∈ N, on pose Xn = n ∧ X. On a : 0 ≤ Xn2 ≤ n2 , et donc
Xn ∈ L2 (Ω, F , P). Le lemme I.4.3 implique qu’il existe Yn ∈ L2 (Ω, G , P), tel que E[Yn 1B ] =
E[Xn 1B ], pour tout B ∈ G . Comme 0 ≤ Xn ≤ Xn+1 , on a 0 ≤ E[Xn 1B ] ≤ E[Xn+1 1B ] et
donc
∀n ∈ N , ∀B ∈ G , 0 = E[0.1B ] ≤ E[Yn 1B ] ≤ E[Yn+1 1B ] .
La proposition I.1.1 implique que
P-p.s. ∀n ∈ N , 0 ≤ Yn ≤ Yn+1 .
On pose alors Y = supn Yn qui est une variable G -mesurable positive telle que p.s. Y =
limn Yn . On a pour tout B ∈ G , et tout n ∈ N, 0 ≤ Yn 1B ≤ Yn+1 1B et p.s. limn Yn 1B = Y 1B .
Comme X = limn Xn et que 0 ≤ Xn ≤ Xn+1 , pour tout B ∈ G , et tout n ∈ N, on a
également 0 ≤ Xn 1B ≤ Xn+1 1B et p.s. limn Xn 1B = X1B . Le théorème de convergence
monotone implique donc, pour tout B ∈ G ,
11
Cela montre que Y est une version de l’espérance conditionnelle de X sachant G , selon la
définition I.1.1. Cela montre l’existence de l’espérance conditionnelle dans le cas de variables
positives.
Il reste à traiter le cas d’une variable X qui est intégrable. On pose X + = 0 ∨ X, la partie
positive de X et X − = 0 ∨ (−X), la partie négative de X. On a bien X = X + − X − et
|X| = X + + X − . Il est clair que X + et X − sont des variables positives et on a E[X +/− ] ≤
E[ |X| ] < ∞. On a prouvé qu’il existe Y1 et Y2 , deux variables positives G -mesurables telles
que
∀B ∈ G , E[X + 1B ] = E[Y1 1B ] et E[X − 1B ] = E[Y2 1B ] .
Définition I.5.1 Soit (Ei , Ei ), i ∈ I, une famille d’espaces mesurables. Pour tout i ∈ I, on
se donne une fonction Vi : Ω → Ei . La tribu engendrée par la famille de v.a. (Vi )i∈I est la
plus petite tribu G sur Ω telle que pour tout i ∈ I, Vi soit (G , Ei )-mesurable, c’est-à-dire
l’intersection de toutes les tribus G 0 telle que pour tout i ∈ I, Vi soit (G 0 , Ei )-mesurable. Bien
qu’elle dépende des tribu Ei , i ∈ I, on note simplement cette tribu engendrée par σ(Vi , i ∈ I).
Notation. Soit X une v.a. réelle intégrable ou positive. L’espérance conditionnelle de X
sachant les variables (Vi )i∈I est l’espérance conditionnelle sachant σ(Vi , i ∈ I) et on utilise la
notation E[X|Vi , i ∈ I] := E[X|σ(Vi , i ∈ I)].
Lemme I.5.1 Soit (E, E ), un espace mesurable. Soit V : Ω → E, une fonction. Alors,
12
Théorème I.5.2 Soit (E, E ) un espace mesurable. Soit V : Ω → E. Soit X : Ω → R, une
variable σ(V )-mesurable. Alors, il existe ϕ : E → R qui est E -mesurable et telle que
∀ω ∈ Ω , X(ω) = ϕ V (ω) .
Preuve : le lemme I.5.1 qui précède montre que pour tout B ∈ σ(V ), il existe C ∈ E tel que
B = V −1 (C) : pour tout ω ∈ Ω, on a donc 1B (ω) = 1C (V (ω)), ce qui montre le théorème
dans le cas où X = 1B et ϕ = 1C .
On se donne ensuite X : Ω → R+ , une variable σ(V )-mesurable. Le lemme I.1.5 implique
l’existence de Bn ∈ σ(V ) et cn ∈ R+ , n ∈ N tels que X = n≥0 cn 1Bn . Pour tout n ∈ N,
P
le
P lemme I.5.1 montre l’existence de Cn ∈ E tel que Bn = V (Cn ). On pose ensuite ϕ∗ =
−1
n≥0 cn 1Cn . On vérifie alors que ϕ∗ : E → [0, ∞] est E -mesurable telle que X = ϕ∗ (V ).
On pose ensuite ϕ = 1ϕ−1 ∗ (R+ )
ϕ∗ : E → R+ , qui est E -mesurable telle que X = ϕ(V ). Si X
est à valeurs réelles, on note X + sa partie positive et X − sa partie négative. Ce qui précède
montre qu’il existe ϕ+ et ϕ− mesurable tels que X +/− = ϕ+/− (V ). Il suffit alors de poser
ϕ = ϕ+ − ϕ− .
Corollaire I.5.3 Soit (E, E ) un espace mesurable et soit V : Ω → E, une variable que l’on
suppose (F , E )-mesurable. Soit X, une v.a. réelle intégrable (resp. positive) Les assertions
suivantes sont vérifiées.
(i) Il existe ϕ : E → R (resp. [0, ∞]) qui est E -mesurable et telle que p.s. E[X|V ] =
ϕ(V ).
(ii) Soit ϕ : E → R (resp. [0, ∞]), E -mesurable. Alors, E[X|V ] = ϕ(V ) p.s. ssi pour
toute fonction g : E → R, E -mesurable bornée (resp. positive), on a E[g(V )X] =
E[g(V )ϕ(V )].
Preuve : le premier point est une conséquence immédiate du fait que E[X|σ(V )] est une
variable σ(V )-mesurable et du théorème I.5.2. Le second point découle du lemme I.1.6 et
du fait que les v.a. Z qui sont σ(V )-mesurables bornées (resp. positives) sont exactement les
v.a. g(V ), avec g : E → R (resp. [0, ∞]) E -mesurables bornées.
Remarque I.5.1 Pour tout i ∈ {1, . . . , n}, soit (Ei , Ei ), un espace mesurable et Vi : Ω → Ei ,
une v.a. (F , Ei )-mesurable. On pose
E = E1 × . . . × En et V = (V1 , . . . , Vn ) : Ω → E .
E := E1 ⊗ . . . ⊗ En = σ(P) .
13
De plus si ϕ : E1 × . . . × En → R est E1 ⊗ . . . ⊗ En -mesurable, (I.7) a lieu ssi pour toute
fonction g : E1 × . . . × En → R qui est E1 ⊗ . . . ⊗ En -mesurable bornée, on a
E g(V1 , . . . , Vn )X = E g(V1 , . . . , Vn )ϕ(V1 , . . . , Vn ) .
E[g(V )U1 ] = E[g(U2 )U1 1{U2 >U1 } ] + E[g(U1 )U1 1{U2 ≤U1 } ]
Z 1Z 1 Z 1Z 1
= g(y)x1{y>x} dxdy + g(x)x1{y≤x} dxdy
0 0 0 0
Z 1 Z 1 Z 1
1 2 2 3 2
= 2
y g(y)dy + x g(x)dx = 2
x g(x)dx.
0 0 0
R1
Un calcul similaire montre que E[g(V )ϕ(V )] = 0 2xg(x)ϕ(x)dx. Par conséquent, il suffit de
trouver ϕ : [0, 1], Borel-mesurable telle que
Z 1 Z 1
3 2
2
x g(x)dx = 2xg(x)ϕ(x)dx , (I.8)
0 0
On remarque qu’il n’existe pas qu’une seule fonction ϕ mesurable qui satisfasse (I.8) mais
toute autre fonction ϕ̃ qui satisfaisant (I.8) coïncide avec ϕ (Lebesgue)-presque partout, ce
qui entraîne que ϕ(V ) = ϕ̃(V ), p.s. Ici, on a choisi la fonction qui est la plus explicite.
Exemple 2 : conditionnement par une tribu (ou une variable) discrète. Soit Bn ∈ F ,
n ∈ N, des événements formant une partition de Ω, c’est-à-dire que
[
Bn = Ω et ∀m, n ≥ 0 , m 6= n =⇒ Bn ∩ Bm = ∅ .
n∈N
G = σ({Bn , n ∈ N}) .
14
Les tribus engendrées par des partitions dénombrables de Ω sont souvent appelées des tribus
atomiques ou encore des tribus discrètes. On introduit ensuite la v.a. auxiliaire V : Ω → N
donnée par
X
V = n1Bn .
n∈N
nS o
Lemme I.6.1 On a G = σ(V ) =
S
n∈J Bn ; J ⊂ N , avec la convention n∈∅ Bn = ∅.
Preuve : pour tout n ∈ N, comme (Bn )n≥0 est une partition, V (ω) = n ssi ω ∈ Bn et donc
S Bn . Cela implique que G ⊂ σ(V ). On remarque ensuite que pour tout J ⊂ N,
V −1 ({n}) =
V −1 (J) = n∈J Bn ∈ G , et on conclut par le lemme I.5.1.
Lemme I.6.2 Soit Z, une v.a. réelle P (resp. positive) G -mesurable. Alors il existe cn ∈ R
(resp. cn ∈ [0, ∞]), n ≥ 0, tels que Z = n≥0 cn 1Bn .
Preuve : par le lemme I.6.1 précédent, G = σ(V ). Le théorèmePI.5.2 montre donc l’existe de
ϕ : N → R (resp. [0, ∞]) telle que Z = ϕ(V ), c’est-à-dire Z = n≥0 ϕ(n)1Bn , ce qui montre
le résultat avec cn = ϕ(n), n ≥ 0.
Proposition I.6.3 On pose I = {n ∈ N : P(Bn ) > 0}. Soit X, une v.a. réelle intégrable ou
positive. Alors
X E[X1B ]
E[X|G ] = P(B )
n
· 1Bn , (I.9)
n
n∈I
Preuve : le lemme I.6.2 montre l’existence de cn ∈ R ou [0, ∞], P tels que p.s. E[X|G ] =
/ I, alors p.s. 1Bn = 0. Donc, on a p.s. E[X|G ] = n∈I cn 1Bn . Pour tout
n∈N cn 1Bn . Si n ∈
P
n ∈ I, cela implique que p.s. cn 1Bn = 1Bn E[X|G ] et donc
cn P(Bn ) = E 1Bn E[X|G ] = E[1Bn X] ,
Remarque I.6.1 On fixe A ∈ F tel que P(A) > 0. On rappelle que pour tout B ∈ F , la
probabilité conditionnelle de B sachant A est définie par P(B ∩ A)/P(A), et on la notera
pour plus de simplicité par PA (B). On vérifie facilement que PA : F → [0, 1] est une mesure
de probabilité. On note EA , l’espérance associée à PA . On remarque facilement que toute
v.a. réelle P-intégrable X est également PA -intégrable, et que l’on a
avec une formule analogue pour les variables positives. La formule (I.9) se réécrit donc
X
E[X|G ] = EBn [X] · 1Bn . (I.10)
n∈I
15
Les calculs d’espérance conditionnelle par rapport à des tribus atomiques apparaîssent dès
que l’on travaille avec des variables discrètes, qui sont des variables W : Ω → E, telles que E
est en bijection avec N et {W = y} ∈ F , pour tout y ∈ E. On pose alors E = {yn ; n ∈ N},
où les yn sont distincts. Alors {W = yn }, n ∈ N est une partition dénombrable de Ω et
σ(W ) = σ({W = yn }, n ∈ N). Si on pose I = {n ∈ N : P(W = yn ) > 0}, alors on obtient
pour toute v.a. réelle intégrable ou positive
X E[X1{W =y } ] X
n
E[X|W ] = P(W =y )
· 1{W =yn } = E{W =yn } [X] · 1{W =yn } .
n
n∈I n∈I
Exemple 3. Soit (Yn )n≥1 , une suite de variables indépendantes et de même loi. On suppose
également que ces variables sont intégrables. On pose Sn = Y1 + . . . + Yn , n ≥ 1. Par le
corollaire I.5.3, il existe φ : R → R, mesurable telle que E[Y1 |Sn ] = φ(Sn ), ce qui est équivalent
à E[Y1 g(Sn )] = E[φ(Sn )g(Sn )], pour toute fonction g : R → R mesurable bornée. Or pour
toute permutation γ de {1, . . . , n}, on a
(loi)
(Y1 , . . . , Yn ) = (Yγ(1) , . . . , Yγ(n) ) .
En effet ce sont des vecteurs aléatoires de Rn dont les composantes sont indépendantes et
de même loi que Y1 . Pour tout k ∈ {1, . . . , n}, on a donc E[Yk g(Sn )] = E[Y1 g(Sn )] =
E[φ(Sn )g(Sn )], pour toute fonction g : R → R mesurable bornée. Par conséquent, E[Yk | Sn ] =
φ(Sn ), c’est-à-dire
P-p.s. ∀1 ≤ k ≤ n , E[Yk | Sn ] = E[Y1 | Sn ] .
On a donc X
Sn = E[Sn | Sn ] = E[Yk | Sn ] = nE[Y1 | Sn ] .
1≤k≤n
(b) Soit Ri , i ∈ I, une famille de classes de sous-ensembles telles que Ri ⊂ F , pour tout
i ∈ I (on ne suppose rien d’autre sur les Ri ). On dit que les classes Ri , i ∈ I, sont
mutuellement indépendantes sous P ssi toute famille d’événements Ai ∈ Ri , i ∈ I, est
mutuellement indépendante sous P, c’est-à-dire que
\ Y
∀J ⊂ I fini , ∀Aj ∈ Rj , j ∈ J , P Aj = P(Aj ) .
j∈J j∈J
16
(c) Soit (Ei , Ei ), i ∈ I, une famille d’espaces mesurables. Pour tout i ∈ I, soit Vi : Ω → Ei ,
une variable (F , Ei )-mesurable. On dit que les variables Vi , i ∈ I, sont mutuellement
indépendantes sous P ssi les tribus σ(Vi ), i ∈ I, sont mutuellement indépendantes sous
P, c’est-à-dire ssi pour tout sous-ensemble fini d’indices J ⊂ I, pour tous Bj ∈ Ej ,
j ∈ J, on a
\ Y
P {Vj ∈ Bj } = P(Vj ∈ Bj ) .
j∈J j∈J
Remarque I.7.1 On suppose que I = {1, . . . , n}, et que pour tout i ∈ I, Ri ⊂ F est une
classe d’événements telle que Ω ∈ Ri . C’est le cas par exemple lorsque Ri est un pi-système
ou une tribu. On a l’équivalence suivante
En effet l’implication =⇒ est claire. Supposons l’assertion droite : soit J ∈ I, il suffit d’y
prendre Aj = Ω, j ∈ / J, pour en déduire la définition I.7.1 (b).
Théorème I.7.2 Soit Pi ⊂ F , i ∈ I, une famille de pi-systèmes. On suppose que les pi-
systèmes Pi , i ∈ I, sont indépendants. Alors les tribus engendrées σ(Pi ), i ∈ I, le sont
également.
Preuve : au vu de la définition I.7.1 (b), il suffit de prouver le théorème dans le cas où I est
fini. On choisit donc I = {1, . . . , n}. On montre d’abord l’assertion suivante :
• Pour tous pi-systèmes Pi∗ ⊂ F , 1 ≤ i ≤ n, on a l’implication suivante :
17
En effet, on suppose P1∗ , . . . , Pn∗ indépendants, on fixe A2 ∈ P2∗ , . . . , An ∈ Pn∗ et on pose
On a donc P1∗ ⊂ L. On montre facilement que L est une classe monotone (exercice). Le
théorème de la classe monotone implique alors que σ(P1∗ ) ⊂ L et donc que σ(P1∗ ) = L. Donc
pour tout B ∈ σ(P1∗ ), P(B ∩A2 ∩. . .∩An ) = P(B)P(A2 ∩. . .∩An ). Mais comme P2∗ , . . . , Pn∗
sont indépendants, on a P(A2 ∩ . . . ∩ An ) = P(A2 ) . . . P(An ). On a a donc montré que pour
tous B ∈ σ(P1∗ ), A2 ∈ P2∗ , . . ., An ∈ Pn∗ , P(B ∩ A2 ∩ . . . ∩ An ) = P(B)P(A2 ) . . . P(An ). En
vertu de la remarque I.7.1, cela montre que σ(P1∗ ), P2∗ . . . , Pn∗ indépendants.
En appliquant (I.11) à (P1∗ , . . . , Pn∗ ) = (P1 , . . . , Pn ), on montre que σ(P1 ), P2 , . . . , Pn
sont indépendants. On remarque que σ(P1 ) est une tribu donc un pi-système. On applique
alors (I.11) à la suite de pi-systèmes (P1∗ , . . . , Pn∗ ) = (P2 , . . . , Pn , σ(P1 )), ce qui montre
l’indépendance des σ(P2 ), P3 , . . . , Pn , σ(P1 ), et on continue ainsi de suite jusqu’à montrer
que σ(P1 ), . . ., σ(Pn ) sont indépendantes, ce qui termine la preuve.
i∈Ij
Il est facile de voir que Pj est un pi-système tel que σ(Pj ) = Gj . L’indépendance des tribus
Fi , i ∈ I, entraîne facilement celle des Pj , j ∈ J. Le théorème I.7.2 permet de conclure.
La proposition suivante donne plusieurs formulations équivalente de l’indépendance des
variables aléatoires.
Proposition I.7.4 Soit (Ω, F , P), un espace de probabilité. Soit I, un ensemble d’indices.
Pour tout i ∈ I, on se donne un espace mesurable (Ei , Ei ), un pi-système Ci ⊂ Ei tel que
σ(Ci ) = Ei et une variable Vi : Ω → Ei qui est (F , Ei )-mesurable. Les assertions suivantes
sont équivalentes.
(i) Les variables Vi , i ∈ I, sont indépendantes.
(ii) Pour tout J ⊂ I fini, pour tous Bj ∈ Ej , j ∈ J,
\ Y
P {Vj ∈ Bj } = P(Vj ∈ Bj ) .
j∈J j∈J
(iv) Pour tout J = {j1 , . . . , jn } ⊂ I, où les jk sont distincts, la loi de (Vj1 , . . . , Vjn ) est
µj1 ⊗ . . . ⊗ µjn , où pour tout i ∈ I, on a noté µi la loi de Vi sous P.
18
(v) Pour tout J ⊂ I fini, pour toutes hj : Ej → R, Ej -mesurables bornée, j ∈ J,
hY i Y
E hj (Vj ) = E[hj (Vj )] .
j∈J j∈J
Preuve : au vu de la définition I.7.1 (c), il suffit de traiter le cas où I est fini. On prend donc
I = {1, . . . , n}. Par définition, (i) est équivalent à l’indépendance des tribus σ(Vi ), i ∈ I. Or
le lemme I.5.1 montre que σ(Vi ) = {{Vi ∈ A}; A ∈ Ei }, pour tout i ∈ I. Cela montre donc
que (i) ⇐⇒ (ii).
L’implication (ii) =⇒ (iii) est triviale. Supposons (iii) : on pose Pi = {V −1 (C); C ∈ Ci }.
C’est clairement un pi-système tel que σ(Vi ) = σ(Pi ) et (iii) signifie que les pi-systèmes Pi ,
i ∈ I sont indépendants, le théorème I.7.2 implique ensuite que les tribus σ(Pi ), i ∈ I, sont
indépendantes, ce qui implique (i). On a donc montré que (iii) =⇒ (i).
On suppose (ii). On rappelle ensuite que µ1 ⊗ . . . ⊗ µn est l’unique mesure de probabilité
sur E1 ⊗ . . . ⊗ En telle que (µ1 ⊗ . . . ⊗ µn )(B1 × . . . × Bn ) = µ1 (B1 ) . . . µn (Bn ), pour tous
B1 ∈ E1 , . . ., Bn ∈ En . On note µ la loi de V = (V1 , . . . , Vn ). Il est clair que pour tous
B1 ∈ E1 , . . . , Bn ∈ En
\
µ(B1 × . . . × Bn ) = P(V ∈ B1 × . . . × Bn ) = P {Vj ∈ Bj } .
1≤j≤n
Or, par (ii), P( 1≤j≤n {Vj ∈ Bj }) = 1≤j≤n P(Vj ∈ Bj ) = µ1 (B1 ) . . . µn (Bn ). Cela entraîne
T Q
donc µ = µ1 ⊗ . . . ⊗ µn , et donc (iv). Cela montre donc que (ii) =⇒ (iv).
L’implication (iv) =⇒ (v) est une conséquence directe du théorème de Fubini. L’implica-
tion (v) =⇒ (ii) est triviale.
On rappelle également, le résultat suivant.
Lemme I.7.5 Soient X1 , . . . , Xn , des v.a. réelles intégrables indépendantes. Alors le produit
X1 . . . Xn est intégrable et
19
ce qui permet de conclure.
Ici s’arrêtent les rappels. Le résultat le plus important, et aussi le plus simple, de cette
section est le suivant.
Proposition I.7.6 Soit G , une sous-tribu de F . Soit X, v.a. réelle intégrable ou positive
indépendante de G . Alors p.s. E[X|G ] = E[X].
Preuve : on traite le cas réel intégrable, le cas positif étant similaire. On pose c = E[X] et
on fixe B ∈ G . Dire que X est indépendante de G signifie que σ(X) est indépendante de G , et
donc X et 1B sont deux v.a. indépendantes. Par le lemme I.7.5, on a E[1B X] = E[1B ]E[X] =
E[c1B ]. Comme la variable constante c est G -mesurable on en déduit le résultat.
Corollaire I.7.7 Soit G , une sous-tribu de F . Soient X1 , . . . , Xn , des v.a. réelles intégrables.
On les suppose mutuellement indépendantes. On suppose également que le vecteur aléatoire
(X1 , . . . , Xn ) est indépendant de G . Alors
p.s. E X1 . . . Xn |G = E[X1 ] . . . E[Xn ] .
Preuve : par définition, dire que le vecteur (X1 , . . . , Xn ) est indépendant de G signifie que
les tribus σ(X1 , . . . , Xn ) et G sont indépendantes. Comme le produit X := X1 . . . Xn est une
fonction déterministe du vecteur (X1 , . . . , Xn ), il est σ(X1 , . . . , Xn )-mesurable. Cela implique
que X est indépendante de G . Le lemme I.7.5 montre que X est intégrable telle que E[X] =
E[X1 ] . . . E[Xn ] et la proposition I.7.6 précédente montre que E[X|G ] = E[X], ce qui permet
de conclure.
On généralise la proposition I.7.6 de la façon suivante.
Proposition I.7.8 Soient G1 et G1 , deux sous-tribus de F . Soit X, une v.a. réelle intégrable.
On suppose que G2 est indépendante de σ(σ(X), σ(G1 )). Alors, presque sûrement
que
∀B1 ∈ G1 , ∀B2 ∈ G2 , E[X1B1 ∩B2 ] = E E[X|G1 ]1B1 ∩B2 .
20
Chapitre II
Dans tout ce chapitre (Ω, F , P) désigne l’espace de probabilité de référence sur lequel
sont définies toutes les variables considérées (sauf mention explicite du contraire). On rappelle
également la notation R = [−∞, ∞].
(a) Une suite de variables aléatoires (Xn )n≥0 , à valeurs dans R est dite adaptée par rapport
à la filtration (Fn )n≥0 si pour tout n ≥ 0, la variable Xn est Fn -mesurable.
(b) Une suite de variables aléatoires (Xn )n≥0 , à valeurs dans R est dite prévisible par rapport
à la filtration (Fn )n≥0 si la variable X0 est F0 -mesurable et si pour tout n ≥ 1, la
variable Xn est Fn−1 -mesurable.
Définition II.1.3 Soit (Fn )n≥0 , une filtration de (Ω, F ). Soit Xn : Ω → R, n ≥ 0, une suite
de variables (Fn )n≥0 -adaptées et intégrables.
(a) La suite (Xn )n≥0 est une martingale si pour tout n ≥ 0, E[Xn+1 |Fn ] = Xn , p.s.
(b) La suite (Xn )n≥0 est une sur-martingale si pour tout n ≥ 0, E[Xn+1 |Fn ] ≤ Xn , p.s.
(c) La suite (Xn )n≥0 est une sous-martingale si pour tout n ≥ 0, E[Xn+1 |Fn ] ≥ Xn , p.s.
21
Le terme "martingale" provient du monde du jeu de casino. Les martingales sont en effet
des modèles pour les jeux d’argent : Xn représente le gain à l’instant n, Fn , l’information
dont dispose le joueur au temps n. Le fait que (Xn )n≥0 est (Fn )n≥0 -adaptée signifie tout sim-
plement que le joueur ne peut prévoir l’avenir (ou que le joueur ne triche pas). Une martingale
s’interprête comme un jeu neutre (un "jeu à somme nulle"). Une surmartingale est alors un
jeu défavorable et une sous-martingale, un jeu favorable.
On voit qu’une suite de variables est à la fois une sur-martingale et une sous-martingale
ssi c’est une martingale. On voit également que si (Xn )n≥0 est une sur-martingale (resp. une
sous-martingale) alors (−Xn )n≥0 est une sous-martingale (resp. une sur-martingale).
Exemple II.1.1 Soit (Xn )n≥0 , une suite de variables (Fn )n≥0 -adaptées et intégrables. Si
pour tout n ≥ 0, on a Xn ≤ Xn+1 alors (Xn )n≥0 est une sous-martingale relativement
à (Fn )n≥0 . Si pour tout n ≥ 0, on a Xn+1 ≤ Xn alors (Xn )n≥0 est une sur-martingale
relativement à (Fn )n≥0 .
Ces exemples ne présentent pas beaucoup d’intérêt mais montrent qu’en quelques sorte,
les sur-martingales (resp. sous-martingales) sont un sorte d’analogue aléatoire des suites dé-
croissantes (resp. croissantes).
Exemple II.1.2 On suppose que (Un )n≥0 est une suite de variables à valeurs réelles, inté-
grables, indépendantes et de même loi. On pose Fn = σ(U0 , . . . , Un ) et Xn = U0 + . . . + Un ,
pour tout n ≥ 0. On note c = E[U0 ]. On voit facilement que Xn est Fn -mesurable et inté-
grable. De plus,
E[Xn+1 |Fn ] = E[Un+1 |Fn ] + E[Xn |Fn ] = c + Xn
car Un+1 est clairement indépendante de la tribu Fn . On voit donc que (Xn )n≥0 est une
martingale ssi c = 0, une sur-martingale ssi c ≤ 0 et une sous-martingale ssi c ≥ 0.
Exemple II.1.3 Soit (Fn )n≥0 , une filtration de (Ω, F ). Soit Z, une v.a. intégrable. Pour
tout n ∈ N, on pose Xn := E[Z|Fn ]. Par l’inégalité de Jensen conditionnelle appliquée à la
fonction convexe x 7→ |x|, on voit que |Xn | ≤ E[ |Z| |Fn ] et donc que E[ |Xn | ] ≤ E[ |Z| ] < ∞.
Donc Xn est intégrable. Comme Fn ⊂ Fn+1 , on voit également que
E[Xn+1 |Fn ] = E E[Z|Fn+1 ] |Fn = E[Z|Fn ] = Xn .
Par conséquent (Xn )n≥0 est une martingale. On appelle une telle martingale, une martingale
fermée. C’est un type de martingale important sur lequel nous reviendrons plus en détail.
Lemme II.1.1 Soit (Xn )n≥0 , une martingale (resp. sur/sous-martingale) relativement à la
filtration (Fn )n≥0 . Alors, pour tous entiers m, n ∈ N,
22
Lemme II.1.2 Soit (Xn )n≥0 une suite de variables (Fn )n≥0 -adaptées intégrables. Soit ϕ :
R → R, une fonction convexe. Soit ψ : R → R, une fonction concave (c’est-à-dire que −ψ est
convexe). On suppose que ϕ(Xn ) et ψ(Xn ) sont intégrables pour tout n ≥ 0.
(i) Si (Xn )n≥0 est une (Fn )n≥0 -martingale, alors (ϕ(Xn ))n≥0 est une (Fn )n≥0 -sous-
martingale.
(ii) On suppose qu’en plus d’être convexe, ϕ est croissante. Si (Xn )n≥0 est une (Fn )n≥0 -
sous-martingale, alors (ϕ(Xn ))n≥0 est une (Fn )n≥0 -sous-martingale.
(iii) Si (Xn )n≥0 est une (Fn )n≥0 -martingale, alors (ψ(Xn ))n≥0 est une (Fn )n≥0 -sur-
martingale.
(iv) On suppose qu’en plus d’être concave, ψ est croissante. Si (Xn )n≥0 est une (Fn )n≥0 -
sur-martingale, alors (ψ(Xn ))n≥0 est une (Fn )n≥0 -sur-martingale.
Preuve : nous ne prouvons que (iv), les arguments pour les autres points étant similaires.
On suppose ψ concave croissante : Jensen concave conditionnelle implique que
E[ψ(Xn+1 )|Fn ] ≤ ψ E[Xn+1 |Fn ] .
Comme E[Xn+1 |Fn ] ≤ Xn , et comme ψ est croissante, ψ E[Xn+1 |Fn ] ≤ ψ(Xn ), ce qui
entraîne (iv).
Proposition II.1.3 (Décomposition de Doob) Soit (Xn )n≥0 , une suite de variables (Fn )n≥0 -
adaptées qui sont toutes intégrables. Il existe une unique paire de suites (Mn )n≥0 , (Vn )n≥0 ,
qui satisfait les propriétés suivantes.
(i) Xn = X0 + Mn + Vn , n ≥ 0.
(ii) (Mn )n≥0 est une (Fn )n≥0 -martingale.
(iii) (Vn )n≥0 est (Fn )n≥0 -prévisible constituée de variables intégrables et V0 = 0.
De plus,
• (Xn )n≥0 est une martingale ssi (Vn )n≥0 est nul,
• (Xn )n≥0 est une sous-martingale ssi (Vn )n≥0 est croissant,
• (Xn )n≥0 est une sur-martingale ssi (Vn )n≥0 est décroissant.
Preuve : on suppose qu’il existe (Mn )n≥0 , (Vn )n≥0 satisfaisant (i), (ii) et (iii). On remarque
que Vn+1 − Vn est Fn -mesurable car (Vn )n≥0 est (Fn )-prédictible. Pour tout n ≥ 0, on a donc
Cela montre l’unicité. Par ailleurs si on définit M et V par (II.1), on vérifie facilement (i),
(ii) et (iii). Le reste de la proposition est élémentaire.
23
II.1.b Application aux inégalités de Hoeffding.
Les inégalités de Hoeffding sont un outil permettant de montrer des résultats de concen-
tration vers la moyenne.
Théorème II.1.4 (Inégalités de Hoeffding). Soit (Xn )n≥0 , une martingale relativement à la
filtration (Fn )n≥0 (qui ne joue qu’un rôle auxiliaire). On suppose qu’il existe une suite de réels
strictement positifs (cn )n≥1 telle que P(|Xn − Xn−1 | ≤ cn ) = 1. Alors pour tout x ∈ R+ , et
tout n ∈ N, on a . X
1
P |Xn − X0 | ≥ x ≤ 2 exp − 2 x2 c2k .
1≤k≤n
Preuve : on fixe λ > 0 et on observe que y 7→ exp(λy) est convexe. L’équation de la droite
passant par les points du plan de coordonnées (−1, e−λ ) et (1, eλ ) est donnée par
1 1
y 7→ 2 (1 − y)e−λ + 2 (1 + y)eλ .
où on rappelle que cosh(λ) = (eλ + e−λ )/2 et sinh(λ) = (eλ − e−λ )/2.
Pour tout n ≥ 1, on pose ensuite Yn = (Xn − Xn−1 )/cn . Les hypothèses impliquent que
|Yn | ≤ 1, presque sûrement. Comme E[Xn |Fn−1 ] = Xn−1 , on voit que E[Yn |Fn−1 ] = 0. Ces
observations, combinées avec l’inégalité (II.2), impliquent que pour tout λ > 0 et tout n ≥ 1,
on a
Intégrant cette inégalité, on obtient E eλ(Xn −X0 ) ≤ cosh(λcn )E eλ(Xn−1 −X0 ) , ce qui entraîne
Y
E eλ(Xn −X0 ) ] ≤ (II.3)
∀λ > 0 , ∀n ≥ 1 cosh(λck ) .
1≤k≤n
On utilise ensuite l’inégalité évidente (2n)! ≥ 2n n!, pour prouver pour tout θ > 0,
X θ2n X (θ2 /2)n
cosh(θ) = ≤ = exp(θ2 /2).
(2n)! n!
n≥0 n≥0
24
On observe ensuite que le minimum sur R+ de la fonction λ 7→ −λx + 12 sn λ2 est atteint en
λmin = x/sn et vaut − 21 x2 /sn . On a donc
1
∀x ∈ R+ , ∀n ≥ 1 , P Xn − X0 ≥ x ≤ exp − 2 x2 /sn .
En raisonnant avec (−Xn )n≥0 , qui satisfait les mêmes hypothèses que (Xn )n≥0 , on obtient
également, P(X0 − Xn ≥ x) ≤ exp(− 21 x2 /sn ) et donc que
1
P |Xn − X0 | ≥ x ≤ P Xn − X0 ≥ x + P X0 − Xn ≥ x ≤ 2 exp − 2 x2 /sn ,
Exemple II.1.4 On suppose que (Jn )n≥1 sont des variables réelles indépendantes et de même
loi. On suppose qu’il existe une constante c > 0, telle que P(|Jn | ≤ c) = 1. Ces variables sont
donc intégrables. On note m = E[Jn ]. On remarque |m| ≤ c et donc P(|Jn − m| ≤ 2c) = 1.
On pose ensuite X0 = 0 et F0 = {∅, Ω}. Pour tout n ≥ 1, on pose également
On vérifie facilement que (Xn )n≥0 est une (Fn )n≥0 -martingale et que P(|Xn − Xn−1 | ≤ 2c) =
1. L’inégalité de Hoeffding entraîne alors que
2
∀x ∈ R+ , ∀n ≥ 1 , P |J1 + . . . + Jn − nm| ≥ x ≤ 2 exp − 8cx2 n . (II.5)
√
En prenant x = y n, on voit que
1 y2
∀y ∈ R+ , ∀n ≥ 1 , P √ |J1
n
+ . . . + Jn − nm| ≥ y ≤ 2 exp − 8c2 ,
qui donne une majoration (qui n’est pas la meilleure) liée à la vitesse de convergence dans
théorème central-limite.
25
Nous considérons une version aléatoire de ce problème en supposant que la taille des objets
sont des variables (Un )n≥1 indépendantes et uniformément distribuées sur [0, 1]. Pour simplifier
les notations, on pose
Rn = R(U1 , . . . , Un ) .
L’inégalité (II.6) entraîne alors que
1
2
n = E[U1 + . . . + Un ] ≤ E[Rn ] ≤ n , (II.8)
On voit donc que R(Un+1 , . . . , Um+n ) a même loi que Rm . L’inégalité (II.7) implique alors
que
∀n, m ≥ 1 , E[Rm+n ] ≤ E[Rn ] + E[Rm ] . (II.9)
On pose an = E[Rn ], si n ≥ 1, et bien sûr, on pose a0 = 0 (il faut zéro boîte pour ranger zéro
objet). L’inégalité précèdent signifie que la suite (an )n≥0 est sous-additive : an+m ≤ an + am ,
pour tous n, m ∈ N. Un résultat classique sur les suites réelles implique que la suite (an /n)n≥1
converge et même que
1 1
lim n an = ` = inf n an ∈ [0, a1 ] .
n n≥1
Mentionnons que la valeur exacte de ` n’est pas connue (par l’auteur de ces notes de cours en
tout cas).
Grâce à l’inégalité de Hoeffding, nous allons montrer un résultat de convergence bien plus
fort que (II.10). Pour cela on pose F0 = {∅, Ω}, la tribu grossière et pour tout p ∈ {1, . . . , n},
on pose Fp = σ(U1 , . . . , Up ). On introduit la suite finie de variables aléatoire Xp = E[Rn |Fp ],
0 ≤ p ≤ n. Il est clair que (Xp )0≤p≤n est une martingale (finie) relativement à la filtration
(finie) (Fp )0≤p≤n . Comme Rn est une fonction des tailles (U1 , . . . , Un ), Rn est clairement
Fn -mesurable et comme F0 est la tribu grossière, on a
Xn = Rn et X0 = E[Rn ] .
c’est-à-dire le nombre minimal de boîtes nécessaire pour ranger les n objets excepté l’objet
numéro p. Comme un rangement consommant Rn boîtes est minimal, on doit avoir
26
E[Rn(p) |Fp−1 ] ≤ Xp−1 = E[Rn |Fp−1 ] ≤ 1 + E[Rn(p) |Fp−1 ]. (II.12)
(p)
On observe ensuite que comme Up est par définition indépendante de Rn , on a
On voit que n1 Rn se concentre très rapidement vers sa valeur moyenne. En application, mon-
trons que cela implique une convergence presque sûre : si on prend yn = n−1/4 dans (II.13),
on voit que
1 1
X X
P n Rn − n E[Rn ] ≥ n−1/4 ≤ exp(−n1/2 /2) < ∞
n≥1 n≥0
∀n ∈ N , {T = n} ∈ Fn .
Lemme II.1.5 Soit (Fn )n≥0 , une filtration sur (Ω, F ). Soit T : Ω → N ∪ {∞}.
(i) T est un (Fn )n≥0 -temps d’arrêt ssi pour tout n ∈ N, {T ≤ n} ∈ Fn .
(ii) T est un (Fn )n≥0 -temps d’arrêt ssi pour tout n ∈ N, {T > n} ∈ Fn .
Preuve : montrons le premier point. On remarque que {T ≤ n} = 0≤k≤n {T = k}. Si T est
S
un temps d’arrêt, on a {T = k} ∈ Fk ⊂ Fn , pour tout 0 ≤ k ≤ n. Donc {T ≤ n} ∈ Fn .
Réciproquement, supposons que pour tout n ≥ 0, on ait {T ≤ n} ∈ Fn . On observe que pour
tout n ≥ 1, on a
27
Or {T ≤ n−1} ∈ Fn−1 . Comme Fn−1 est une tribu, elle est stable par passage au complémen-
taire et on a Ω\{T ≤ n − 1} ∈ Fn−1 ⊂ Fn , et (II.14) implique facilement que {T = n} ∈ Fn .
On termine la preuve de la réciproque en observant que {T ≤ 0} = {T = 0} ∈ F0 . Le second
point se déduit du premier en remarquant que {T > n} = Ω\{T ≤ n}.
Exemple II.1.6 On fixe n0 ∈ N et pour tout ω ∈ Ω, on pose T (ω) = n0 . Il est clair que T
est un temps d’arrêt (déterministe) par rapport à n’importe quelle filtration car {T = n} est
soit vide, soit tout Ω.
Exemple II.1.7 Soit (Fn )n≥0 , une filtration sur (Ω, F ). Soit (Xn )n∈N une suite de variables
aléatoires à valeurs dans R qui est supposée (Fn )n≥0 -adaptée. Soit B, un Borélien de R. On
pose ensuite
TB = inf{n ∈ N : Xn ∈ B} ,
avec la convention que inf ∅ = ∞, c’est-à-dire que si Xn ∈/ B, pour tout n ≥ 0, alors TB = ∞.
On appelle TB : Ω → N ∪ {∞}, le temps d’atteinte de B de la suite (Xn )n≥0 . Il est facile de
vérifier que TB est un (Fn )n≥0 -temps d’arrêt. En effet, on remarque que pour tout n ∈ N,
\
{TB > n} = {Xk ∈
/ B} .
0≤k≤n
Proposition II.1.6 Soit (Xn )n≥0 , une (Fn )n≥0 -martingale (resp. sous/sur-martingale). Soit
T un temps d’arrêt relativement à (Fn )n≥0 . Alors (Xn∧T )n≥0 est une martingale (resp. sous-
martingale, sur-martingale) relativement à la filtration (Fn )n≥0 .
Comme les v.a. Xk sont intégrables, il en est de même pour X(n+1)∧T . La définition d’un
temps d’arrêt implique que 1{T ≥n+1} = 1{T >n} est une variable Fn -mesurable. Donc
28
Lemme II.1.7 Soit (Fn )n≥0 , une filtration sur (Ω, F ). Soit T : Ω → N ∪ {∞} un (Fn )n≥0 -
temps d’arrêt. On rappelle que F∞ = σ(Fn , n ≥ 0). On définit la classe d’ensembles suivante
FT := A ∈ F∞ : ∀n ∈ N , A ∩ {T = n} ∈ Fn . (II.15)
FT = A ∈ F∞ : ∀n ∈ N , A ∩ {T ≤ n} ∈ Fn
.
ce qui montre bien que p Ap ∈ FT . Cela prouve que FT est une sous-tribu de F∞ . L’autre
S
définition de FT découle facilement des formulations équivalentes de la définition d’un temps
d’arrêt et d’un raisonnement analogue.
Définition II.1.5 Soit T , un (Fn )n≥0 -temps d’arrêt. La tribu FT définie dans le lemme
précédent par (II.15) est appelé tribu des événements antérieurs à T .
Proposition II.1.8 Soit (Fn )n≥0 , une filtration sur (Ω, F ). Soient T , S, Tk , k ≥ 0, des
(Fn )n≥0 -temps d’arrêt.
(i) S ∨ T , S ∧ T et S + T sont des (Fn )n≥0 -temps d’arrêt. De plus
FS∧T = FT ∩ FS .
Preuve : pour montrer que S + T est un temps-d’arrêt, on remarque simplement que pour
tout n ≥ 0, on a
\
{S + T = n} = {S = p} ∩ {T = n − p} ∈ Fn ,
0≤p≤n
29
On voit ensuite que le reste de (i) est une conséquence de (iv), que (ii) et (iii) sont des cas
particuliers de (i). Il suffit donc de montrer (iv). Pour cela, on observe d’abord que
\ [
{T∗ > n} = {Tk > n} et {T ∗ ≤ n} = {Tk ≤ n} ,
k≥0 k≥0
ce qui montre que T∗ et T ∗ sont des (Fn )n≥0 -temps d’arrêt. On pose Sk = 0≤`≤k T` . Une
P
application répétée du point (i) entraîne que Sk est un (Fn )n≥0 -temps d’arrêt. On remarque
ensuite que S ∗ = supk≥0 Sk et on applique ce qui précède.
Il reste à montrer (II.16). On remarque tout d’abord que
[
∀n ∈ N , {T∗ ≤ n} = {Tk ≤ n} .
k≥0
[
∀n ∈ N , A ∩ {T∗ ≤ n} = A ∩ {Tk ≤ n} ∈ Fn .
k≥0
Cela entraîne donc que A ∈ FT∗ . On a donc montré que k≥0 FTk ⊂ FT∗ .
T
Montrons l’inclusion contraire : on fixe A ∈ FT∗ et on fixe n et k. On remarque que Tk ≤ n
entraîne T∗ ≤ n, c’est-à-dire que {Tk ≤ n} ⊂ {T∗ ≤ n}. Par conséquent
A ∩ {Tk = n} = {Tk = n} ∩ (A ∩ {T∗ ≤ n}) .
Or A ∩ {T∗ ≤ n} ∈ Fn car A ∈ FT∗ et {Tk = n} ∈ Fn car Tk est un (Fn )n≥0 -temps d’arrêt.
Donc A ∩ {Tk = n} ∈ Fn , pour tout n ≥ 0. Cela
T entraîne que A ∈ FTk . On a donc montré
que pour tout k ≥ 0, FT
T∗ ⊂ FTk . Donc F T∗ ⊂ k≥0 FTk , ce qui implique, d’après l’inclusion
précédente que FT∗ = k≥0 FTk .
30
• Un temps d’arrêt T∗ ∈ Tn0 satisfaisant (II.17) sera appelé temps d’arrêt optimal.
Nous allons résoudre ce problème en utilisant la notion de martingale. Définissons tout d’abord
l’enveloppe de Snell de la suite finie (Zn )0≤n≤n0 .
Définition II.1.6 Soit (Fn )n≥0 , une filtration sur (Ω, F ). Soit (Zn )n≥0 , une suite de va-
riables intégrables qui est (Fn )n≥0 adaptée. Soit n0 ∈ N∗ , un horizon de temps. On définit la
suite finie de variables aléatoires (Xn )0≤n≤n0 par la récurrence rétrograde suivante :
Xn0 = Zn 0
Xn = max Zn , E[Xn+1 |Fn ] si 0 ≤ n ≤ n0 − 1 .
La suite (Xn )0≤n≤n0 est appelée l’enveloppe de Snell de (Zn )0≤n≤n0 . On montre facilement
par récurrence que (Xn )0≤n≤n0 est (Fn )0≤n≤n0 -adaptée et que pour tout 0 ≤ n ≤ n0 , Xn est
intégrable.
Proposition II.1.9 Soit (Fn )n≥0 , une filtration sur (Ω, F ). Soit (Zn )n≥0 , une suite de va-
riables intégrables (Fn )n≥0 -adaptées. Soit n0 ∈ N∗ , un horizon de temps. On note (Xn )0≤n≤n0
l’enveloppe de Snell de (Zn )0≤n≤n0 .
L’enveloppe de Snell est la plus petite (Fn )0≤n≤n0 -sur-martingale (Xn0 )0≤n≤n0 telle que
Zn ≤ Xn0 , presque sûrement pour tout 0 ≤ n ≤ n0 .
Preuve : on remarque que, par définition, Xn ≥ E[Xn+1 |Fn ]. L’enveloppe de Snell est donc
une sur-martingale. De plus, toujours selon la définition, on a Xn ≥ Zn , 0 ≤ n ≤ n0 . Soit
(Xn0 )0≤n≤n0 , une (Fn )0≤n≤n0 -sur-martingale telle que Zn ≤ Xn0 , pour tout 0 ≤ n ≤ n0 . On a
donc
Xn0 = Zn0 ≤ Xn0 0 .
On fixe n ∈ {0, . . . , n0 − 1} et suppose que pour tout p ∈ {n + 1, . . . , n0 }, on a Xp ≤ Xp0 . On
a notamment Xn+1 ≤ Xn+1 0 . Par conséquent, on a
Xn0 ≥ E[Xn+1
0
|Fn ] ≥ E[Xn+1 |Fn ] . (II.18)
De plus, par hypothèse, on a Xn0 ≥ Zn , ce qui combiné avec (II.18) entraîne que
On a donc démontré par récurrence rétrograde que Xn ≤ Xn0 , pour tout 0 ≤ n ≤ n0 , ce qui
termine la preuve de la proposition.
Le théorème suivant donne la solution du problème d’arrêt optimal.
Théorème II.1.10 Soit (Fn )n≥0 , une filtration sur (Ω, F ). Soit (Zn )n≥0 , une suite de va-
riables intégrables qui est (Fn )n≥0 -adaptée. Soit n0 ∈ N∗ , un horizon de temps. On note
(Xn )0≤n≤n0 l’enveloppe de Snell de (Zn )0≤n≤n0 .
(i) T ∈ Tn0 est optimal ssi d’une part ZT = XT et d’autre part (Xn∧T )0≤n≤n0 est une
martingale relativement à (Fn )0≤n≤n0 .
(ii) On a E[X0 ] = supT ∈Tn0 E[ZT ], qui est l’espérance de gain maximale.
31
(iii) On pose
T∗ = inf{n ∈ {0, . . . , n0 } : Zn = Xn }
Alors T∗ ∈ Tn0 et c’est un temps d’arrêt optimal (c’est même le plus petit temps d’arrêt
optimal).
Preuve : soit T ∈ Tn0 . Par la proposition II.1.6, (Xn∧T )0≤n≤n0 est une sur-martingale rela-
tivement à (Fn )0≤n≤n0 . Le lemme II.1.1 entraîne que E[Xn0 ∧T |F0 ] ≤ X0 . Or n0 ∧ T = T .
Donc E[XT |F0 ] ≤ X0 . Mais on rappelle que Zn ≤ Xn , pour tout 0 ≤ n ≤ n0 . Donc ZT ≤ XT .
Finalement on a montré que pour tout T ∈ Tn0 , on a E[ZT |F0 ] ≤ X0 , ce qui implique
E[ZT ] ≤ E[X0 ]. On a donc
sup E[ZT ] ≤ E[X0 ] (II.19)
T ∈Tn0
Supposons maintenant que T ∈ Tn0 soit tel que (Xn∧T )0≤n≤n0 soit une martingale relative-
ment à (Fn )0≤n≤n0 et tel que XT = ZT . Alors le lemme II.1.1 entraîne que E[Xn0 ∧T |F0 ] = X0 .
Or n0 ∧ T = T . Donc E[XT |F0 ] = X0 mais comme ZT = XT , on a E[ZT |F0 ] = X0 . Cela
implique que E[ZT ] = E[X0 ] et (II.19) implique que T est un temps d’arrêt optimal.
Considérons T∗ comme défini dans le (iii). C’est clairement un temps d’arrêt car
Comme {n < T∗ } ∈ Fn , on a
ce qui entraîne que (Xn∧T∗ )0≤n≤n0 est une martingale relativement à (Fn )0≤n≤n0 , et ce qui
précède montre que T∗ est un temps d’arrêt optimal. Il en existe donc un. Cela entraîne aussi
le point (ii).
Pour terminer la preuve du théorème, il reste à montrer que si T ∈ Tn0 est un temps
d’arrêt optimal, alors d’une part ZT = XT et d’autre part (Xn∧T )0≤n≤n0 est une martingale
relativement à (Fn )0≤n≤n0 . Supposons donc que T ∈ Tn0 est un temps d’arrêt optimal.
Comme, Zn ≤ Xn , pour tout 0 ≤ n ≤ n0 . Donc ZT ≤ XT . Ceci, combiné avec le point (ii)
que l’on a déjà démontré, implique que
Mais on a déjà montré au début de la preuve que (Xn∧T )0≤n≤n0 est une sur-martingale (c’est
la proposition II.1.6) et le lemma II.1.1 entraîne que pour tout 0 ≤ n ≤ n0 ,
32
Donc (II.20) implique que
On pose alors ∆n = E[X(n+1)∧T |Fn ] − Xn∧T . Comme (Xn∧T )0≤n≤n0 est une sur-martingale,
on a ∆n ≤ 0. Mais, par (II.21)
E[∆n ] = E E[X(n+1)∧T |Fn ] − E[Xn∧T ]
= E[X(n+1)∧T ] − E[Xn∧T ]
= E[X0 ] − E[X0 ] = 0.
Comme ∆n ≤ 0, cela implique que ∆n = 0 (presque sûrement) et donc que (Xn∧T )0≤n≤n0 est
une martingale relativement à (Fn )0≤n≤n0 . On rappelle ensuite que ZT ≤ XT mais (II.21),
montre que E[ZT − XT ] = 0, ce qui entraîne facilement que ZT = XT (presque sûrement).
Cela termine la preuve du théorème.
Problème de l’arrêt optimal pour des variables non-adaptées. On se donne une suite
de variables intégrables (Zno )n≥0 . On se donne une filtration (Fn )n≥0 sur (Ω, F ). On ne suppose
plus nécessairement que la suite (Zno )n≥0 est (Fn )n≥0 -adaptée. Le problème de l’arrêt optimal
dans le cas de variables non-adaptées se formule de ma façon suivante : Existe-t-il un temps
d’arrêt T∗ ∈ Tn0 tel que
E[ZTo∗ ] = sup E[ZTo ] , (II.22)
T ∈Tn0
= E[ZT ] .
33
au hasard les cent cartes, la face recto contre table, la face verso (la seule visible) étant vierge
de toute inscription.
Le joueur s’assoit à la table et le jeu se déroule ainsi : il comporte au maximum cent
étapes ; à l’étape 1, le joueur est autorisé à choisir une carte et à la retourner ; le maître de jeu
lui pose alors la question suivante "pensez-vous que ce nombre est le plus grand parmi ceux qui
sont inscrits sur toutes les cartes ?" Si le joueur répond oui, le jeu s’arrête : le joueur gagne
s’il a raison, sinon il perd. Si le joueur répond non, on passe à l’étape 2 : le joueur est autorisé
à retourner une autre carte, la même question lui est posée, le jeu s’arrête si le joueur répond
par l’affirmative, il gagne ssi il a raison ; le jeu continue si le joueur répond par la négative à
la question ... ainsi de suite jusqu’à ce que le joueur réponde par l’affirmative ou bien jusqu’à
ce que toutes les cartes soient retournées : lorsqu’on lui pose une dernière fois la question, le
joueur a toute les informations : si la dernière carte est effectivement la plus grande, il répond
par l’affirmative (il ne peut pas se tromper) et il gagne ; si la dernière carte n’est pas la plus
grande, il a perdu.
La question que l’on se pose est la suivante : " Y-a-t-il une stratégie qui maximise la
probabilité de gagner à ce jeu" ?
Le jeu que l’on a décrit se prête bien à une modélisation mathématique mais il est un peu
artificiel. En effet, si le maître de jeu veut rendre la tâche difficile au joueur, il doit inscrire
des nombres réels absolument quelconques, ce qui n’est pas facile. Mais on supposera que le
maître de jeu est particulièrement doué pour trouver des nombres réels quelconques (dont
l’écriture tient sur une carte en papier).
Nous allons répondre à ces questions en modélisant le problème du meilleur choix par un
problème d’arrêt optimal. Pour cela revenons au jeu initial. Les seules choses que sait le joueur
sont que
1°) les cartes sur la tables sont disposées totalement au hasard ;
2°) les nombres inscrits derrière sont quelconques, il ne pourra qu’effectuer des comparai-
sons.
On prend n0 = 100. Nous allons tout d’abord modéliser l’information connue du joueur à
l’étape n, avec n ≤ n0 : le joueur ne dispose que des rangs relatifs des n nombres réels inscrits
sur les n cartes déjà retournées. On se donne ces rangs relatifs sous la forme d’une permutation
de {1, . . . , n}, notée Σn = (Σn (1), . . . , Σn (n) ), où Σn (k) est le rang du nombre inscrit sur la
carte retournée à l’étape k parmi les n nombres visibles à l’étape n, c’est-à-dire que Σn (k) est
le nombre de cartes parmi les n qui sont retournées et qui portent un réel inférieur ou égal au
nombre inscrit sur la k-ième carte retournée.
Comme les cartes sont mélangées uniformément et que les réels inscrits sont absolument
quelconques, le nombre inscrit sur la (n + 1)-ième carte peut avoir n’importe quel rang parmi
les n nombres déjà connus, cela de façon indépendante de ces nombres déjà connus et avec la
même probabilité. Pour simplifier, on pose Σn (n) = Un , qui donne le rang du nième nombre
dévoilé parmi les n − 1 nombres déjà tirés. De ce qui précède, on voit que
(a) Les variables Un , 1 ≤ n ≤ n0 , sont indépendantes. De plus Un : Ω → {1, . . . , n} est de
loi uniforme.
(b) Les permutations Σn , 0 ≤ n ≤ n0 , s’obtiennent de façon récursive à partir des variables
(Un )0≤n≤n0 de la manière suivante.
• Σ1 (1) = U1 = 1.
• Σn+1 (k) = Σn (k) + 1{Σn (k)≥Un+1 } .
34
On remarque que se donner la suite de permutations (Σm )1≤m≤n équivaut à se donner
la suite (Um )1≤m≤n .
On suppose que le maître de jeu est un peu paresseux (ou amnésique) et qu’il laisse
découvrir au joueur s’il a gagné ou pas, c’est-à-dire que, même si le joueur répond "oui" à
l’étape n, il retourne les n0 − n cartes restantes pour voir s’il a raison. De plus, comme le jeu
s’arrête au bout des n0 étapes, si le joueur n’a pas répondu "oui" lors des n0 − 1 premières
étapes, il est forcé de dire "oui" à la dernière étape. Ces suppositions ne changent rien au jeu.
L’information disponible à l’étape n du jeu est donc la tribu Fn générée par la suite
(Σm )1≤m≤n de permutations et donc Fn = σ(U1 , . . . , Un ). On rajoute une étape 0, avant que
le joueur ne commence le jeu : à l’étape 0 le joueur ne dispose d’aucune information, ce que
l’on modélise par F0 = {∅, Ω}, la tribu grossière. Il est à noter que l’espérance conditionnelle
sachant la tribu grossière est l’espérance tout court : E[Y |F0 ] = E[Y ], pour toute variable
intégrable Y .
On note Gn l’événement "gagner à l’étape n", c’est-à-dire "dire que le nombre tiré à l’étape
n est le plus grand de tous et avoir raison". On voit que Gn = {Σn0 (n) = n0 }. On pose alors
Zno = 1Gn , pour tout 1 ≤ n ≤ n0 et Z0o = 0. Une stratégie pour le joueur correspond à
un instant auquel il décide de répondre "oui" à la question de savoir s’il pense avoir tiré le
plus grand nombre. Comme il ne triche pas, c’est un temps d’arrêt par rapport à la filtration
(Fn )0≤n≤n0 .
Le problème est donc formulé mathématiquement de la manière suivante : "existe-t-il
T∗ ∈ Tn0 , tel que E[ZTo∗ ] = supT ∈Tn0 E[ZTo ] ?" Grâce au théorème II.1.10, nous pouvons
répondre à cette question et trouver une stratégie d’arrêt optimale. Pour cela, quelques calculs
sont nécessaires et nous allons procéder par étapes.
Etape I. Il est clair que les variables (Zno )0≤n≤n0 ne sont pas (Fn )0≤n≤n0 -adaptées. On pose
Zn = E[Zno |Fn ] et nous allons résoudre le problème d’arrêt optimal pour les Zn , ce qui
implique, comme signalé précédemment, la solution au problème de l’arrêt optimal pour les
Zno . Il faut donc calculer Zn . On voit d’abord que Z0 = 0. On fixe 1 ≤ n ≤ n0 ; l’événement
Gn est exactement l’événement suivant : "le n-ième nombre tiré occupe le rang relatif n parmi
les n premiers nombres tirés et tous les nombres tirés ultérieurement n’occupent pas le rang
relatif maximal", c’est-à-dire
\
Gn = {Un = n} ∩ {Um 6= m} .
n+1≤m≤n0
On voit que les (Um )n+1≤m≤n0 sont indépendantes de Fn et que {Un = n} ∈ Fn . Donc
\
Zn = E[1Gn |Fn ] = 1{Un =n} P {Um 6= m}
n+1≤m≤n0
m−1
Y Y
= 1{Un =n} P(Um 6= m) = 1{Un =n} m
n+1≤m≤n0 n+1≤m≤n0
n
= 1
n0 {Un =n}
.
On a donc
n
∀n ∈ {0, . . . , n0 } , Zn = E[Zno |Fn ] = 1
n0 {Un =n}
. (II.24)
35
Etape II. On note (Xn )0≤n≤n0 l’enveloppe de Snell associée à (Zn )0≤n≤n0 que l’on va calculer.
Le calcul, un peu alambiqué, donne pourtant une solution simple. Pour l’énoncer, nous allons
introduire tout d’abord la suite de réels (hn )0≤n≤n0 suivante :
1 1 1
h0 = ∞ , hn0 = 0 et hn = + + ... + , 1 ≤ n ≤ n0 − 1.
n n+1 n0 − 1
On suppose que n0 ≥ 2 et on introduit l’entier n∗ ∈ {1, . . . , n0 − 1}, qui est bien défini par
Lemme II.1.11 L’enveloppe de Snell (Xn )0≤n≤n0 de (Zn )0≤n≤n0 est donnée de la manière
suivante.
n∗ −1
(i) Pour tout 0 ≤ n < n∗ , on a Xn = n0 hn −1
∗ et on a Xn > Zn .
(ii) Pour tout n∗ ≤ n ≤ n0 , on a
n n n
Xn = 1
n0 {Un =n}
+ h 1
n0 n {Un 6=n}
= Zn + h 1
n0 n {Un 6=n}
.
Preuve : ce résultat se prouve par récurrence rétrograde. Comme hn0 = 0, la formule pour
Xn0 est vérifiée immédiatement. Supposons le résultat vrai pour n∗ < n ≤ n0 . Comme Un est
indépendante de Fn−1 , par hypothèse de récurrence, on a
n n
E[Xn |Fn−1 ] = n0
P(Un = n) + h P(Un
n0 n
6= n)
1 n−1 n−1 1
= n0
+ h
n0 n
= n0 n−1
+ hn
n−1
= h
n0 n−1
.
Par conséquent
n−1
Xn−1 = max Zn−1 , E[Xn |Fn−1 ] = n0
max 1{Un−1 =n−1} , hn−1 .
On suppose ensuite que le point (i) est vérifié pour tout n tel que 0 < n ≤ n∗ − 1 (s’il y en
a). On a alors
n∗ −1 n−1 n∗ −1
Xn−1 = max Zn−1 , n0
hn∗ −1 = max 1
n0 {Un−1 =n−1}
, n0 hn∗ −1 .
36
Puisque n < n∗ − 1 et hn∗ −1 > 1, on a
n∗ −1 n−1 n−1
n0
hn∗ −1 > n0
> 1
n0 {Un−1 =n−1}
= Zn−1 ,
n∗ −1
et donc Xn−1 = n0 hn −1
∗ > Zn−1 , ce qui prouve (ii), par récurrence rétrograde.
Etape III. Nous pouvons maintenant répondre au problème du meilleur choix. On introduit
(le plus petit) temps d’arrêt optimal T∗
T∗ = inf n ∈ {0, . . . , n0 } : Xn = Zn } .
Plus précisément, le lemme précédent montre que pour tout n < n∗ , Zn < Xn . Donc T∗
est nécessairement plus grand ou égal à n∗ . De plus, pour tout n∗ ≤ n ≤ n0 , la condition
Xn = Zn , équivaut à 1{Un 6=n} = 0, c’est-à-dire à Un = n. Par ailleurs l’événement {Un = n}
signifie que le nombre de la n-ième carte retournée est plus grand que les n − 1 précédents.
Le temps optimal se réécrit donc
Résultat final. Notre analyse mathématique nous conduit à affirmer la chose suivante. Il
existe une stratégie maximisant la probabilité de gagner au jeu du meilleur choix. Elle consiste
d’abord à attendre n∗ − 1 étapes en répondant par la négative à la question "pensez-vous que
c’est le plus grand nombre", puis à répondre par l’affirmative à cette question dès que l’on tire
un nombre plus grand que les précédents. En agissant selon cette stratégie on a une probabilité
n∗ −1
Probamax = n0
hn∗ −1
37
II.2.a Convergence presque sûre des sous-martingales.
Intégrale stochastique discrète. On introduit la notation suivante : pour toutes suites
(Xn )n≥0 et (Cn )n≥0 de v.a. réelles, définit la suite C • X = ((C • X)n )n≥0 par
X
(C • X)0 = 0 et (C • X)n = Ck (Xk − Xk−1 ) , n≥1.
1≤k≤n
Lemme II.2.1 Soit (Xn )n≥0 , une (Fn )n≥0 -sous-martingale. Soit (Cn )n≥0 un processus pré-
visible relativement à (Fn )n≥0 . On suppose qu’il existe une suite de réels positifs (cn )n≥0
telle que 0 ≤ Cn ≤ cn , p.s. pour tout n ∈ N. Alors C • X est une (Fn )n≥0 -sous-martingale.
Preuve : (C • X)n est clairement Fn -mesurable et on a |(C • X)n | ≤ 1≤k≤n ck |Xk − Xk−1 |,
P
ce qui entraîne que (C • X)n est intégrable. On observe ensuite que
Remarque II.2.1 Tout reste vrai si on remplace le mot sous-martingale par sur-martingale.
L’énoncé reste également vrai si on remplace le mot sous-martingale par martingale, en sup-
posant seulement que |Cn | ≤ cn , pour tout n ≥ 0.
N2p−1 (x) = inf{n > N2p−2 (x) : xn ≤ a} et N2p (x) = inf{n > N2p−1 (x) : xn ≥ b},
avec la convention habituelle que inf ∅ = ∞. Cette convention implique que si Nq (x) = ∞,
alors Nq0 (x) = ∞, pour tout q 0 ≥ q. On pose ensuite
Le nombre βa,b (x) est le nombre de fois où la suite x = (xn )n≥0 franchit l’intervalle [a, b] en
montant : c’est le nombre de traversées montantes de [a, b] par x.
Lemme II.2.2 Soit x = (xn )n≥0 , une suite à valeurs dans R. Elle converge ssi pour tous
a, b ∈ Q, tels que a < b, on a βa,b (x) < ∞.
38
Preuve : on rappelle que x = (xn )n≥0 converge (dans R) ssi lim supn xn = lim inf n xn qui
est alors la limite de x. Supposons que x ne converge pas, c’est-à-dire que lim inf n xn <
lim supn xn . Il existe donc a, b ∈ Q tels que lim inf n xn < a < b < lim supn xn . Cela implique
facilement que βa,b (x) = ∞.
Réciproquement, supposons que la suite x converge. Raisonnons par l’absurde en sup-
posant l’existence d’un couple de rationnels a < b, tel que βa,b (x) = ∞. On aurait alors
Np (x) < ∞, pour tout p ∈ N et donc
lim inf xn ≤ lim inf xN2p+1 (x) ≤ a < b < lim sup xN2p (x) ≤ lim sup xn ,
n p p n
(II.27)
Un (X, [a, b]) = sup p ∈ N : N2p ≤ n ,
qui est le nombre de traversées montantes par X de l’intervalle [a, b] qui sont complètes au
temps n.
Pour toute variable réelle Y , on note Y + = max(0, Y ) et Y − = max(0, −Y ), qui sont
respectivement la partie positive de Y et la partie négative de Y . On rappelle que Y = Y + −Y −
et que |Y | = Y + + Y − .
Proposition II.2.3 (Inégalités de Doob) Soit X = (Xn )n≥0 , une (Fn )n≥0 -sous-martingale
et soient deux réels a < b. Alors,
Donc (Cn )n≥0 est un processus (Fn )n≥0 -prévisible. On pose ensuite
∀n ∈ N , Yn = (Xn − a)+ + a .
On a |Yn | ≤ 2|a| + |Xn |, ce qui montre que Yn est intégrable. Comme la fonction x 7→
(x − a)+ + a est croissante convexe, (Yn )n≥0 est une sous-martingale relativement à (Fn )n≥0 .
On observe que (Yn )n≥0 effectue une traversée montante de [a, b] ssi (Xn )n≥0 effectue une
traversée montante de [a, b]. Informellement, on voit que si N2p < ∞,
Z N2p X Z N2k X X
(C • Y )N2p = CdY = dY = YN2k − YN2k−1 ≥ (b − a) = p(b − a) ,
0 1≤k≤p N2k−1 1≤k≤p 1≤k≤p
39
XX X
= 1{k≤n ; N2p−1 <k≤N2p } (Yk − Yk−1 ) = Yn∧N2p − Yn∧N2p−1 . (II.28)
p≥1 k≥1 p≥1
Les interversions de séries sont justifiées par le fait que les sommes sont, en réalité, toutes
finies. Pour simplifier les notations, on pose Un = Un (X, [a, b]). On fixe p et n et on minore
Yn∧N2p − Yn∧N2p−1 en considérant trois cas.
Cas (1) : si p ≤ Un , alors N2p−1 < N2p ≤ n et donc
Yn∧N2p − Yn∧N2p−1 = Yn − Yn = 0 .
∀n ≥ 1 , (C • Y )n ≥ (b − a)Un . (II.29)
On pose Dn = 1 − Cn ≥ 0, n ≥ 0. Il est clair que (Dn )n≥0 est prévisible bornée. Par
le lemme II.2.1, D • Y est une sous-martingale. Comme les sous-martingales croissent en
espérance, on en déduit que E[(D • Y )n ] ≥ E[(D • Y )0 ] = 0. Or il est facile de voir que
Yn − Y0 = (C • Y )n + (D • Y )n . On déduit donc de (II.29) que
Lemme II.2.4 Soit (Xn )n≥0 , une sous-martingale. Alors la condition supn≥0 E[ |Xn | ] < ∞
est équivalente à la condition supn≥0 E[ Xn+ ] < ∞.
Preuve : on remarque que |Xn | = Xn+ + Xn− ≥ Xn+ . Par conséquent, supn≥0 E[ |Xn | ] < ∞
implique que supn≥0 E[ Xn+ ] < ∞. Réciproquement, on pose c = supn≥0 E[ Xn+ ] et on suppose
que c < ∞. Par le lemme II.1.1, E[Xn ] ≥ E[X0 ]. Donc E[ |Xn | ] = 2E[Xn+ ] − E[Xn ] ≤
2E[Xn+ ] − E[X0 ]. Par conséquent, supn∈N E[ |Xn | ] ≤ 2c − E[X0 ].
Théorème II.2.5 (Conv. p.s. des sous-martingales). Soit (Xn )n≥0 une sous-martingale rela-
tivement à (Fn )n≥0 . On suppose que supn∈N E[Xn+ ] < ∞. Alors, il existe une v.a. réelle X∞ ,
F∞ -mesurable et intégrable telle que limn→∞ Xn = X∞ presque sûrement.
Preuve : le lemme II.2.4 montre que c = supn E[ |Xn | ] < ∞. on remarque que pour tout
a, x ∈ R, (x − a)+ ≤ |x − a| ≤ |x| + |a|. Donc , pour tout n ≥ 0,
40
Pour simplifier les notations, on pose Un = Un (X, [a, b]). Les inégalités de Doob entraînent
donc que supn≥0 E[Un ] < (b−a)−1 (C +|a|) < ∞. Comme βa,b (X) = limn ↑ Un , la convergence
monotone et ce qui précède entraînent que E[βa,b (X)] < ∞, et en particulier P(βa,b = ∞) = 0.
On pose alors
[
A= {βa,b (X) = ∞} .
a,b∈Q
a<b
Ce qui précède montre que P(A) = 0. Pour tout ω ∈ Ω\A, le critère du lemme II.2.2 implique
que la suite (Xn (ω))n≥0 converge dans R. On pose X∞ = lim supn Xn . C’est une variable
F∞ -mesurable et pour tout ω ∈ Ω\A, X∞ (ω) = limn Xn (ω). Autrement dit, il existe donc
une variable X∞ à valeurs dans R qui F∞ -mesurable et telle que limn Xn = X∞ , presque
sûrement. Ensuite, par Fatou, on a
E |X∞ | = E lim inf |Xn | ≤ lim inf E[ |Xn | ] ≤ c < ∞ ,
n→∞ n→∞
ce qui montre que X∞ est intégrable. Sans perte de généralité, on peut supposer X∞ à valeurs
réelles dans ce qui précède, ce qui termine la preuve du théorème.
On prendra garde au fait suivant : si (Xn )n≥0 est une sous-martingale relativement à
(Fn )n≥0 telle que supn∈N E[Xn+ ] < ∞, le théorème précédente montre l’existence de X∞ telle
que E[ |X∞ | ] < ∞ et limn Xn = X∞ presque sûrement. Mais en général, la convergence n’a
pas lieu dans L1 , comme le montre l’exemple suivant.
Exemple II.2.1 Soit (ξn )n≥0 une suite de variables à valeurs dans {0, 2}, indépendantes et
de même loi donnée par P(ξn = 2) = P(ξn = 0) = 1/2. On pose
∀n ∈ N , Xn = ξ0 .ξ1 . . . ξn et Fn = σ(ξ0 , . . . , ξn ).
On a 0 ≤ Xn ≤ 2n+1 . C’est donc une variable intégrable. Comme Xn est une fonction
déterministe de (ξ0 , . . . , ξn ), c’est une variable Fn -mesurable. On voit ensuite que
car ξn+1 est indépendante de Fn et car E[ξn+1 ] = 1. De plus E[Xn ] = E[Xn+ ] = E[ |Xn | ] = 1.
Cela montre que (Xn )n≥0 une martingale relativement à (Fn )n≥0 telle que supn≥0 E[Xn+ ] =
1 < ∞. Le théorème de convergence des (sous)-martingales s’applique et montre l’existence
d’une v.a. X∞ , F∞ -mesurable telle que E[ |X∞ | ] < ∞ et limn Xn = X∞ , presque sûrement.
P On peut calculer explicitement X∞ : on remarque que P(Xn 6= 0) = 2
−n−1 . Donc
n≥0 P(Xn 6= 0) < ∞. Le lemme de Borel-Cantelli implique donc que limn Xn = 0 presque
sûrement et donc que X∞ = 0 presque sûrement.
La convergence n’a certainement pas lieu dans L1 , car si c’était le cas on aurait la conver-
gence des normes L1 : 1 = E[Xn ] → E[X∞ ] = 0, qui est absurde.
Comme déjà mentionné, si (Xn )n≥0 est une (Fn )n≥0 -sur-martingale, alors (−Xn )n≥0 est
une (Fn )n≥0 -sous-martingale. On en déduit le théorème suivant de convergence presque sûre
des sur-martingales.
41
Théorème II.2.6 (Conv. p.s. des sur-martingales). Soit (Xn )n≥0 une sur-martingale relati-
vement à (Fn )n≥0 . On a tout d’abord l’équivalence suivante.
De plus si supn∈N E[Xn− ] < ∞, alors il existe une v.a. réelle X∞ qui est F∞ -mesurable,
intégrable et telle que limn→∞ Xn = X∞ presque sûrement.
Définition II.2.1 Soit Xn : Ω → [0, ∞], n ≥ 0, une suite de variables (Fn )n≥0 -adaptée.
(a) C’est une sur-martingale positive si pour tout n ∈ N, E[Xn+1 |Fn ] ≤ Xn .
(b) C’est une martingale positive si pour tout n ∈ N, E[Xn+1 |Fn ] = Xn .
Si (Xn )n≥0 est une (Fn )n≥0 -sur-martingale positive (resp. martingale positive) on montre
facilement par récurrence que
Le théorème suivant est le résultat principal de cet section : il montre que toute sur-martingale
positive converge presque sûrement dans [0, ∞], ce qui est remarquable.
Théorème II.2.7 (Conv. p.s. des sur-martingales positives) Soit (Xn )n≥0 une (Fn )n≥0 sur-
martingale positive. Il existe une v.a. F∞ -mesurable, notée X∞ , à valeurs dans [0, ∞] et telle
que
P-p.s. lim Xn = X∞ .
n→∞
e−E[p∧Xn+1 | Fn ] ≤ E e−p∧Xn+1 | Fn .
Or E[p ∧ Xn+1 | Fn ] ≤ E[Xn+1 | Fn ] ≤ Xn . Comme exp(− · ) est décroissante sur [0, ∞], on
en déduit que
De plus
0 ≤ e−p∧Xn+1 ≤ 1 et lim e−p∧Xn+1 = e−Xn+1 .
p→∞
42
La convergence dominée conditionnelle s’applique donc et on a bien
∀n ∈ N , e−Xn ≤ E e−Xn+1 | Fn = lim e−p∧Xn+1 | Fn . (II.32)
p→∞
On pose Xn0 = exp(−Xn ) : Ω → [0, 1]. Clairement (Xn0 )n≥0 est une sous-martingale relative-
ment à (Fn )n≥0 qui est positive. On a clairement, supn E[(Xn0 )+ ] = supn E[Xn0 ] ≤ 1 < ∞.
On peut lui appliquer le théorème II.2.5 : il existe donc X∞ 0 , une v.a. à valeurs dans [0, 1],
une v.a. à valeurs dans [0, ∞], F∞ -mesurable et on a bien limn Xn = X∞ presque sûrement,
ce qui montre la convergence presque sûre de toute sur-martingale positive.
Il reste à montrer le dernier point du théorème. On rappelle (II.31) :
P-p.s. ∀m, n ∈ N , E[Xn+m |Fn ] ≤ Xn .
Fatou conditionnel implique ensuite que presque sûrement on a
E X∞ | Fn = E lim inf Xn+m | Fn ≤ lim inf E Xn+m | Fn ≤ Xn ,
m→∞ m→∞
Remarque II.2.2 Si on pose B = n≥0 {Xn < ∞}, alors 1B X∞ < ∞, presque sûrement.
S
En particulier cela implique que si les variables Xn sont finies presque sûrement, il en est de
même pour X∞ .
Lemme II.2.8 Soit (Xi )i∈I , une famille de v.a. réelles intégrables. On suppose que I est fini.
Alors, la famille de variables (Xi )i∈I est uniformément intégrable.
Preuve : on remarque d’abord que si Z est une variable réelle positive, alors p.s. on a
lima→∞ Z1{Z>a} = 0 et pour tout a > 0, 0 ≤ Z1{Z>a} ≤ Z. Si Z est intégrable, le théorème
de convergence dominée entraîne que lima→∞ E[Z1{Z>a} ] = 0. On observe ensuite que
X
sup E |Xi |1{|Xi |>a} ≤ E |Xi |1{|Xi |≥a} −−−→ 0 ,
a→∞
i∈I i∈I
ce qui prouve que la famille de variables (Xi )i∈I est uniformément intégrable.
43
Lemme II.2.9 Soit (Xi )i∈I , une famille de v.a. réelles intégrables. Soit Z, une v.a. réelle
intégrable telle que pour tout i ∈ I, on ait presque sûrement |Xi | ≤ Z. Alors, la famille de
variables (Xi )i∈I est uniformément intégrable.
Preuve : on a
sup E |Xi |1{|Xi |≥a} ≤ E[Z1{Z>a} ] −−−→ 0 ,
a→∞
i∈I
ce qui prouve que la famille de variables (Xi )i∈I est uniformément intégrable.
E[|Xi |1{|Xi |>a} ] = E[g(|Xi |)|Xi |g(|Xi |)−1 1{|Xi |>a} ] ≤ w(a)E g(|Xi |) ≤ cw(a),
Lemme II.2.12 Soit X, une v.a. réelle intégrable. Soit Gi , i ∈ I, une famille de sous-tribus
de F . Pour tout i ∈ I, on pose Xi = E[X|Gi ]. Alors, la famille de variables (Xi )i∈I est
uniformément intégrable.
Preuve : on fixe a > 0. Par Jensen, |Xi | = |E[X|Gi ]| ≤ E[ |X| |Gi ] et donc
(II.33)
E |Xi |1{|Xi |≥a} ≤ E E[ |X| |Gi ].1{E[ |X| |Gi ]≥a} = E |X|1{E[ |X| |Gi ]≥a} ,
On remarque ensuite que E |X|1{|X|>b ; E[ |X| |Gi ]≥a} ≤ E |X|1{|X|>b} , et on obtient finale-
44
Lemme II.2.13 Soit (Xn )n≥0 , une suite de v.a. réelles. Si elle est uniformément intégrable
et si elle converge p.s., alors elle converge également pour la norme L1 vers sa limite p.s.
Preuve : on note X la limite p.s. de la suite (Xn )n≥0 . Pour tout a > 0, on introduit la
fonction de troncature fa : R → [−a, a], en posant fa (x) = x si |x| ≤ a, fa (x) = −a si x ≤ −a
et fa (x) = a si x ≥ a. On observe que fa est continue bornée et
Comme fa est continue bornée par a, limn fa (Xn ) = fa (X) et |fa (Xn )| ≤ a, pour tout n ∈ N.
Le théorème de convergence dominée implique que la suite (fa (Xn ))n≥0 converge pour la
norme L1 vers fa (X). Elle est donc de Cauchy, c’est-à-dire que
Pour tout n ∈ N, (II.34) entraîne que E |Xn − fa (Xn )| ≤ E[ |Xn |1{|Xn |≥a} ], ce qui implique
sup E[ |Xn − Xm | ] ≤ sup E[ |fa (Xn ) − fa (Xm )| ] + 2 sup E[ |Xq |1{|Xq |≥a ].
n,m≥p n,m≥p q≥0
ce qui montre que (Xn )n≥0 est de Cauchy dans L1 , qui est un espace complet. Par conséquent
la suite (Xn )n≥0 converge pour la norme L1 . Comme de toute suite convergente pour la norme
L1 , on extrait une suite presque sûrement convergente, il est clair que la limite dans L1 de
(Xn )n≥0 est la même que sa limite presque sûre.
Bien que cela ne soit pas immédiatement utile, nous énonçons la proposition suivante.
Proposition II.2.14 Soit (Xn )n≥0 , une suite qui converge dans L1 . Alors, elle est uniformé-
ment intégrable.
suite bornée : on pose c = supn≥0 E |Xn | . Pour tous réels a, b > 0, et pour tout n, on a les
inégalités suivantes
|Xn |1{|Xn |>a} ≤ |Xn − X∞ |1{|Xn |>a} + |X∞ |1{|Xn |>a} ≤ |Xn − X∞ | + |X∞ |1{|Xn |>a}
≤ |Xn − X∞ | + |X∞ |1{|X∞ |≤b;|Xn |>a} + |X∞ |1{|X∞ |>b;|Xn |>a}
≤ |Xn − X∞ | + b1{|Xn |>a} + |X∞ |1{|X∞ |>b}
b
≤ |Xn − X∞ | + a |Xn | + |X∞ |1{|X∞ |>b} .
45
√
On prend b = a et on intègre l’inégalité précédente pour obtenir
c
E |Xn |1{|Xn |>a} ≤ E |Xn − X∞ | + √a + E |X∞ |1{|X∞ |>√a} .
X
φ(a) ≤ E |Xk |1{|Xk |>a} + sup E |Xn |1{|Xn |>a}
n≥p
0≤k≤p
C
X
≤ E |Xk |1{|Xk |>a} + E |X∞ |1{|X∞ |>√a} + √
a
+ sup E |Xn − X∞ | .
n≥p
0≤k≤p
On a donc
lim sup φ(a) ≤ sup E |Xn − X∞ | −−−→ 0 ,
p→∞
a→∞ n≥p
ce qui montre que lima→∞ φ(a) = 0, et donc que (Xn )n≥0 est uniformément intégrable.
Théorème II.2.15 Soit (Xn )n≥0 , une (Fn )n≥0 -martingale. Alors, les conditions suivantes
sont équivalentes.
(i) La martingale (Xn )n≥0 converge dans L1 .
(ii) On a supn∈N E[ |Xn | ] < ∞ et
où X∞ désigne la limite presque sûre de (Xn )n≥0 (dont l’existence est garantie par le
théorème II.2.5).
(iii) Il existe une v.a. réelle intégrable X telle que
P-p.s. ∀n ∈ N , E[X|Fn ] = Xn .
Preuve : montrons (i) ⇒ (ii). On note X∞ la limite dans L1 de (Xn )n≥0 . Puisqu’il y a
convergence dans L1 , il y a convergence des normes L1 : limn E[ |Xn | ] = E[ |X∞ | ], ce qui
implique que supn∈N E[ |Xn | ] < ∞. Par le théorème II.2.5, (Xn )n≥0 converge p.s. et comme
de toute suite convergente pour la norme L1 , on extrait une suite convergeant p.s., il est
clair que la limite dans L1 de (Xn )n≥0 est la même que sa limite presque sûre. On a donc
limn Xn = X∞ p.s. et limn E[ |Xn − X∞ | ] = 0. Le lemme II.1.1 implique ensuite que pour
tous m, n ∈ N, on a E[Xn+m |Fn ] = Xn . Cela entraîne que
E |E[X∞ |Fn ] − Xn | = E |E[X∞ − Xn+m |Fn ] |
≤ E E[ |X∞ − Xn+m | |Fn ] = E[ |X∞ − Xn+m | ].
46
L’implication (ii) ⇒ (iii) est immédiate. L’implication (iii) ⇒ (iv) est une conséquence
directe du lemme II.2.12. Montrons que (iv) ⇒ (i) : la propriété d’uniforme intégrabilité
implique que pour un certain a > 0, il existe une constante c, positive et finie telle que pour
tout n ∈ N, on ait E[ |Xn |1{|Xn |≥a} ] ≤ c. Donc pour tout n ∈ N,
On en déduit donc que supn∈N E[ |Xn | < ∞. Par le théorème (II.2.5), la suite (Xn )n∈N
converge presque sûrement, mais comme elle est uniformément intégrable, le lemme II.2.13
implique qu’elle converge dans L1 également, ce qui montre (i).
Définition II.2.3 (Martingale régulière) Si une martingale satisfait l’une des quatre condi-
tions équivalentes du théorème II.2.15, elle est dite régulière.
Exemple II.2.2 On se donne (Xn )n≥0 , une martingale relativement à la filtration (Fn )n≥0 .
• S’il existe une variable Z, intégrable telle que |Xn | ≤ Z, pour tout n ∈ N, alors
par le lemme II.2.9, (Xn )n≥0 est uniformément intégrable. C’est donc une martingale
régulière.
• On suppose qu’il existe 1 < p < ∞, tel que (Xn )n≥0 soit bornée en norme L , c’est-à-
p
dire supn E[ |Xn |p ] < ∞. Le corollaire II.2.10 implique que (Xn )n≥0 est uniformément
intégrable. C’est donc une martingale régulière.
Les résultats qui suivent donnent quelques conséquences utiles du théorème de convergence
L1 des martingales.
Proposition II.2.16 Soit X, une variable intégrable et (Fn )n≥0 , une filtration sur (Ω, F ).
On rappelle que F∞ = σ(Fn , n ≥ 0). Alors
E[X | Fn ] − −→ E[X | F∞ ]
1
−
n→∞
p.s. et dans L .
La proposition I.1.9, page 5, s’applique et permet de conclure. Plus plus de clarté, on répète
l’argument de la preuve de cette proposition : on pose
[
L = {A ∈ F∞ : E[X1A ] = E[X∞ 1A ]} et P = Fp .
p∈N
47
Il est facile de voir que P est un pi-système. On a clairement σ(P) = F∞ . Montrons ensuite
que L est une classe monotone : comme Ω ∈ P, on a Ω ∈ L ; soient A, B ∈ L tels que A ⊂ B.
Comme 1B\A = 1B − 1A , on a donc
E[X1B\A ] = E[X1B ] − E[X1A ] = E[X∞ 1B ] − E[X∞ 1A ] = E[X∞ 1B\A ],
ce
S qui implique que B\A ∈ L. Soient Ak ∈ L, k ≥ 0, tels que Ak ⊂ Ak+1 ; on pose A =
k≥0 Ak ; on a donc 1A = limk 1Ak = supk 1Ak . Donc, presque sûrement
lim X1Ak = X1A , lim X1Ak = X1A , |X1Ak | ≤ |X| et |X∞ 1Ak | ≤ |X∞ | , k ≥ 0,
k→∞ k→∞
ce qui entraîne que A = k≥0 Ak ∈ L. On a bien montré que L est une classe monotone.
S
Le théorème A.1.3 de la classe monotone, page 126, montre que σ(P) ⊂ L, ce qui implique
que L = F∞ . Autrement dit, pour tout A ∈ F∞ , E[X∞ 1A ] = E[X1A ]. Comme X∞ est
F∞ -mesurable, on en déduit que X∞ = E[X|F∞ ] p.s., ce qu’il fallait démontrer.
Corollaire II.2.17 (Loi du 0-1 de Lévy) Soit (Fn )n≥0 , une filtration sur (Ω, F ). On rappelle
que F∞ = σ(Fn , n ≥ 0). Soit A ∈ F∞ . Alors
E[1A | Fn ] −
1
− −→ 1A
n→∞
p.s. et dans L .
p
II.2.d Convergence L , 1 < p < ∞.
1
Soit 1 ≤ p < ∞. Pour toute v.a. réelle on note kXkp = E[ |X|p ] p , sa norme L . On
p
Lemme II.2.19 Soit (Xn )n≥0 , une (Fn )n≥0 -sous-martingale constituée de variables posi-
tives et intégrables. Alors,
∀a ∈ R+ , ∀n ∈ N , a P sup Xm > a ≤ E Xn 1{sup0≤m≤n Xm >a} .
0≤m≤n
48
Preuve : on fixe n ∈ N et a ∈ R+ , et on introduit le temps d’arrêt Ta = inf{n ≥ 0 : Xn > a},
avec la convention habituelle que Ta = ∞ ssi pour tout n ∈ N, on a Xn ≤ a. On remarque
tout d’abord que pour tout 0 ≤ m ≤ n, on a a1{Ta =m} ≤ XTa 1{Ta =m} = Xm 1{Ta =m} . Par
le lemme II.1.1, Xm ≤ E[Xn |Fm ], pour tous n ≥ m ≥ 0. Comme Ta est un temps d’arrêt,
on a {Ta = m} ∈ Fm . Ces deux faits combinés avec l’inégalité précédente impliquent que
a1{Ta =m} ≤ E[Xn 1{Ta =m} |Fm ], 0 ≤ m ≤ n. En intégrant cette inégalité, on obtient
aP(Ta = m) ≤ E E[Xn 1{Ta =m} |Fm ] = E[Xn 1{Ta =m} ].
Proposition II.2.20 Soit 1 < p < ∞. Soit (Xn )n≥0 , une martingale relativement à la filtra-
p
tion (Fn )n≥0 . On suppose qu’elle est bornée en norme L : supn≥0 E[ |Xn |p ] < ∞. Alors,
p p
E sup |Xn |p ≤ p−1 sup E |Xn |p < ∞ , (II.38)
n∈N n∈N
p
c’est-à-dire kSkp ≤ p−1 supn≥0 kXn kp , où on a posé S = supn≥0 |Xn |.
Preuve : comme x 7→ |x| est convexe, (|Xn |)n≥0 est une sous-martingale positive formée de
variables intégrables. On pose Sn = sup0≤m≤n |Xm |, et le lemme maximal II.2.19 entraîne que
Par Fubini-positif, on a
Z ∞ hZ Sn i
p−2
a E[1{Sn >a} ] pa da = E pap−1 da = E[Snp ].
0 0
De même, on a
Z ∞ h Z Sn i
p−2 p
E[ |Xn |1{Sn >a} ] pa da = E |Xn | pap−2 da = p−1
· E[ |Xn |Snp−1 ] .
0 0
49
Théorème II.2.21 (Convergence Lp des martingales) Soit 1 < p < ∞. Soit (Xn )n≥0 , une
martingale relativement à la filtration (Fn )n≥0 . On suppose que supn∈N kXn kp < ∞. Alors, il
p
existe une v.a. X∞ dans L telle que
(i) limn Xn = X∞ presque sûrement ;
p
(ii) (Xn )n≥0 converge vers X∞ dans L : limn E[ |X∞ −Xn |p ] = 0.
(iii) E[X∞ | Fn ] = Xn , n ∈ N.
Preuve : par Jensen, (E[ |Xn | ])p ≤ E[ |Xn |p ], donc supn≥0 E[ |Xn | ] < ∞, et le théorème
II.2.5 implique que (Xn )n≥0 converge p.s. On note X∞ sa limite p.s. et on rappelle la notation
S = supn≥0 |Xn |. On a donc |X∞ | ≤ S. Pour tout n ∈ N, on a |X∞ − Xn | ≤ 2S, et donc
|X∞ −Xn |p ≤ 2p S p . La proposition II.2.20 montre que E[S p ] < ∞, or on a limn |X∞ −Xn |p = 0
p.s. La convergence dominée s’applique et entraîne que limn E[ |X∞ − Xn |p ] = 0. La suite
(Xn )n≥0 converge vers X∞ dans L . Enfin, par Jensen, on a (E[ |X∞−Xn | ])p ≤ E[ |X∞−Xn |p ],
p
donc (Xn )n≥0 converge vers X∞ dans L1 et le théorème II.2.15 entraîne (iii).
Définition II.2.4 Soit ξ = (ξ(k); k ∈ N), une mesure de probabilité sur N. Soit (Xn,j ; n ∈
N, j ∈ N∗ ) une famille de variables indépendantes à valeurs dans N et de loi ξ. On définit
récursivement la suite de variables aléatoires (Zn )n≥0 par Z0 = 1 et pour tout n ≥ 0,
X
Zn+1 = Xn,j si Zn ≥ 1 et Zn+1 = 0 si Zn = 0.
1≤j≤Zn
Si chaque individu n’a qu’un enfant au plus, c’est-à-dire si ξ(0)+ξ(1) = 1, alors le modèle n’est
pas très intéressant. C’est pour cela que nous supposons toujours que la loi de reproduction
n’est pas triviale, ce qui signifie ici que
50
On introduit ensuite la moyenne µ et la fonction génératrice ϕ de ξ, qui jouent un grand rôle
dans les résultats.
X X
µ= kξ(k) ∈ ]0, ∞] et ϕ(r) = ξ(k)rk , r ∈ [0, 1] .
k≥0 k≥0
On observe qu’a priori µ peut-être infinie. On observe que ϕ est positive, croissante et que
ϕ(1) = 1. Donc ϕ([0, 1]) ⊂ [0, 1]. Cela permet de définir les itérées successives de la fonction
ϕ, qui sont notées ϕn , n ≥ 0. Formellement, pour tout r ∈ [0, 1],
ϕ0 (r) = r et ϕn+1 (r) = ϕ(ϕn (r)) = ϕn (ϕ(r)) , n ≥ 0.
Lemme II.2.22 Pour tout n ∈ N, et pour tout r ∈ [0, 1], on a presque sûrement
E rZn+1 | Zn = E rZn+1 | σ(Z0 , . . . , Zn ) = ϕ(r)Zn . (II.42)
Preuve : on pose F0 = {Ω, ∅}, la tribu triviale et pour tout n ≥ 1, on pose Fn = σ(Xp,j ; j ∈
N∗ , 0 ≤ p ≤ n − 1), la tribu incluant l’information généalogique concernant les n premières
générations. Clairement (Zn )n≥0 est adaptée à la filtration (Fn )n≥0 et on a donc
σ(Zn ) ⊂ σ(Z0 , . . . , Zn ) ⊂ Fn . (II.43)
Par la proposition I.2.2, page 6, d’interversion série/espérance conditionnelle positif, p.s. on a
h X Y i
E rZn+1 | Fn = E 1{Zn =0} + rXn,j Fn
1{Zn =k}
k≥1 1≤j≤k
X h Y i
= 1{Zn =0} + 1{Zn =k} E rXn,j Fn . (II.44)
k≥1 1≤j≤k
Or le lemme I.7.3, page 18, montre que σ(Xn,j , j ∈ N∗ ) est indépendante de de Fn . Cela
montre que pour tout k ≥ 1, le vecteur (rXn,1 , . . . , rXn,k ) est indépendant de Fn et le corollaire
I.7.7, page 20, implique que pour tout k ≥ 1, p.s. on a
h Y i Y
rXn,j Fn = E rXn,j .
E
1≤j≤k 1≤j≤k
On remarque ensuite que ϕ(r) = E[rXn,j ], pour tout n et tout j. Ce qui précède montre donc
que pour tout k ≥ 1, p.s. on a
h Y i
E rXn,j Fn = ϕ(r)k ,
1≤j≤k
k≥1
51
Lemme II.2.23 Sous l’hypothèse (II.41) de non-trivialité de ξ, la fonction ϕ est strictement
convexe, c’est-à-dire que ϕ0 est strictement croissante. On en déduit les assertions suivantes.
(i) Si µ ≤ 1, l’équation ϕ(r) = r n’a qu’une seule solution dans [0, 1] qui est r = 1.
(ii) Si µ > 1, l’équation ϕ(r) = r a deux solutions distinctes dans [0, 1], dont r = 1.
On note q la plus petite solution de l’équation ϕ(r) = r dans [0, 1]. Ce qui précède montre
donc que q = 1 si µ ≤ 1 et que q < 1 si µ > 1. De plus, on a
ϕ(r) > r si r ∈ [0, q[ et ϕ(r) < r si r ∈ ]q, 1[ . (II.45)
Par conséquent, (ϕn (0))n≥0 est une suite croissante qui converge vers q.
Preuve : par le théorème de dérivation sous la somme,
X
ϕ00 (r) = k(k − 1)ξ(k)rk−1 , r ∈ [0, 1[ ,
k≥2
et donc (II.41) implique que ϕ00 (r) > 0, pour tout r ∈ [0, 1[ , donc que ϕ0 est strictement
croissante : ϕ est strictement convexe.
On suppose que µ ≤ 1. Le théorème de convergence monotone (pour les séries) implique
que ϕ0 (1−) = limr→1− ϕ0 (r) = µ. La droite d’équation r 7→ 1 + µ(r − 1) est la tangente de
ϕ en 1 : elle est donc sous son graphe : µr + 1 − µ ≤ ϕ(r), pour tout r ∈ [0, 1]. Comme la
fonction ϕ est strictement convexe, on a µr + 1 − µ < ϕ(r), pour tout r ∈ [0, 1[. On remarque
ensuite que r ≤ µr + 1 − µ, ce qui entraîne donc que r < ϕ(r), pour tout r ∈ [0, 1[ . Comme
ϕ(1) = 1, cela prouve (i).
Montrons (ii) : on suppose maintenant que µ > 1. Il est facile de voir que cela entraîne
l’existence de r0 < 1 tel que ϕ(r0 ) < r0 . Or on a ϕ(1) = 1 et ϕ(0) ≥ 0. Le théorème des valeurs
intermédiaires implique qu’il existe au moins deux solutions distinctes à l’équation ϕ(r) = r,
dont l’une est 1. Par ailleurs, on remarque que r 7→ ϕ(r)−r est également strictement convexe :
elle ne peut s’annuler qu’au plus deux fois, ce qui termine la preuve de (ii).
Le point (II.45) est une conséquence des points précédents et de la stricte convexité.
Comme 0 ≤ q, la croissance de ϕ entraîne que ϕ(0) ≤ ϕ(q) = q. Une récurence immédiate
montre que ϕn (0) ≤ q et le point (II.45) implique que ϕn (0) ≤ ϕ(ϕn (0)) = ϕn+1 (0), ce
qui montre que (ϕn (0))n≥0 est une suite croissante. Elle est majorée par q : elle doit donc
converger. Notons ` sa limite : d’une part, 0 ≤ ` ≤ q, d’autre part la continuité de ϕ implique
que ϕ(`) = `, ce qui montre que ` = q.
On introduit le temps d’extinction :
T = inf n ∈ N : Zn = 0 ,
avec la convention que inf ∅ = ∞, c’est-à-dire que {T = ∞} = {∀n ∈ N , Zn ≥ 1}. On
voit donc que {T < ∞} est l’événement de l’extinction de la population et que {T = ∞}
est l’événement de la survie de la population. Par définition, si Zn = 0,S alors Zp = 0, pour
tout p ≥ n. On a donc {Zn = 0} ⊂ {Zn+1 = 0} et {T < ∞} = n∈N {Zn = 0}. Par
conséquent P(T < ∞) = limn→∞ ↑ P(Zn = 0). On rappelle ensuite que E[rZn ] = ϕn (r). Or
E[rZn ] = P(Zn = 0) + E[rZn 1{Zn ≥1} ], donc ϕn (0) = P(Zn = 0). Cela implique que
P(T < ∞) = q et P(T = ∞) = P(∀n ≥ 0 , Zn ≥ 1) = 1 − q. (II.46)
Au vu du lemme II.2.23 et de ce qui précède, on utilise la terminologie suivante
52
• Si µ ≤ 1, la population s’éteint avec probabilité 1. Si µ < 1 on dit qu’on est dans le
cas sous-critique et si µ = 1 on dit qu’on est dans le cas critique.
• Si µ > 1, la population a une probabilité 1 − q > 0, de jamais s’éteindre. On dit qu’on
est dans le cas sur-critique. On observe que µ > 1 implique (II.41), c’est-à-dire que ξ
est non-triviale.
Le lemme suivant détaille dans le cas sur-critique le comportement qualitatif de (Zn )n≥0
lorsque la population survit.
Lemme II.2.24 On se place dans le cas sur-critique : µ > 1. Si la population ne s’éteint pas,
alors elle tend vers ∞ :
Fn = σ(Z0 , . . . , Zn ) et Mn = q Zn ∈ ]0, 1] .
Le lemme II.2.22 montre que E[Mn+1 |Fn ] = E q Zn+1 |Fn = ϕ(q)Zn = q Zn = Mn . Autrement
dit, (Mn )n≥0 est une (Fn )n≥0 -martingale positive qui est constituée de variables bornées par
1. C’est une martingale régulière qui converge donc p.s. et dans L1 vers M∞ ∈ [0, 1]. La
convergence L1 implique le passage à la limite sous l’espérance suivant :
Or 1{T <∞} M∞ = 1{T <∞} et comme P(T < ∞) = q, les égalités précédentes impliquent que
M∞ 1{T =∞} = 0, p.s., c’est-à-dire que limn q Zn 1{T =∞} = 0, presque sûrement. En utilisant la
notation q ∞ = 0, et en posant Y = lim inf n Zn , ce qui précède montre donc que q Y 1{T =∞} = 0
p.s. Cela implique que 1{T =∞} ≤ 1{Y =∞} p.s., c’est-à-dire que 1{T =∞} ≤ 1{limn Zn =∞} p.s.
Par ailleurs, il est évident que 1{limn Zn =∞} ≤ 1{T =∞} , ce qui permet de conclure.
Affinons l’étude de (Zn )n≥0 en montrant que si la population survit, alors elle croît expo-
nentiellement vite.
Théorème II.2.25 On suppose que 1 < µ < ∞ et que k≥0 k 2 ξ(k) < ∞. Pour tout n ∈ N,
P
on pose Fn = σ(Z0 , . . . , Zn ) et Wn = µ−n Zn . Alors, les assertions suivantes sont vérifiées.
(i) (Wn )n≥0 est une (Fn )n≥0 -martingale positive et bornée en norme L2 . Elle converge
p.s. et dans L2 vers une v.a. notée W∞ .
(ii) Presque sûrement, 1{T =∞} = 1{W∞ >0} . Cela montre que Zn ∼ µn W∞ est le rythme
de croissance exact de la suite (Zn )n≥0 .
53
Preuve : comme tout les termesPsont positifs, on a l’interversion série/espérance condi-
tionnelle suivante E[rZn+1 |Fn ] = k≥0 rk E[1{Zn+1 =k} |Fn ]. Puisque c’est une série entière à
coefficients aléatoires mais bornés positifs, on a p.s. pour tout r ∈ [0, 1[ ,
d X
E[rZn+1 |Fn ] = krk−1 E[1{Zn+1 =k} |Fn ] = E[Zn+1 rZn+1 −1 |Fn ] .
dr
k≥1
E[Zn+1 (Zn+1 − 1)rZn+1 −2 |Fn ] = Zn ϕ00 (r)ϕ(r)Zn −1 + Zn (Zn − 1)ϕ0 (r)2 ϕ(r)Zn −2 . (II.48)
On fait tendre r vers 1− dans (II.47), par convergence monotone, on obtient E[Zn+1 | Fn ] =
µZn . Cela implique que (Wn )n≥0 est une (Fn )n≥0 -martingale et que E[Zn ] = µn , n ≥ 0. On
fait tendre r vers 1− dans (II.48) et, par convergence monotone, obtient
où on a posé α = limr→1− ϕ00 (r) = k≥2 k(k − 1)ξ(k), qui est une quantité positive finie. On
P
2 σ 2 −n
∀n ∈ N , E[Wn+1 |Fn ] = Wn2 + µ2
µ Wn .
On pose un = E[Wn2 ] (a priori dans [0, ∞]). En intégrant l’égalité précédente et en utilisant
2
le fait que E[Wn ] = 1, on obtient l’équation un+1 = un + σµ2 µ−n et u0 = 1. Cela entraîne
σ 2 1−µ−n σ2
facilement que un = 1 + µ2 1−µ−1
et donc que limn E[Wn2 ] = 1 + µ(µ−1) , ce qui montre (i).
Pour montrer le point (ii), il suffit de prouver que P(W∞ = 0) = q. En effet, cela implique
que P(W∞ > 0) = 1 − q = P(T = ∞), c’est-à-dire que E[1{T =∞} − 1{W∞ >0} ] = 0 ; or
clairement, on a 1{W∞ >0} ≤ 1{T =∞} , ce qui entraîne bien que 1{W∞ >0} = 1{T =∞} presque
sûrement, qui est le résultat désiré.
Montrons donc P(W∞ = 0) = q. Pour tout λ > 0, on pose L(λ) = E[exp(−λW∞ )]. Le
théorème de convergence dominée implique que L(λ) = limn E[exp(−λWn )]. Or lemme II.2.22
implique que
−n −n−1
ϕ E e−λWn ) = ϕ ϕn (e−λµ ) = ϕn+1 (e−µλµ ) = E e−µλWn+1 ,
ce qui entraîne
∀λ ∈ R+ , ϕ(L(λ)) = L(µλ) . (II.50)
On remarque ensuite que
54
L’égalité fonctionnelle (II.50) implique alors que ϕ(P(W∞ = 0)) = P(W∞ = 0). D’après
le lemme II.2.23, P(W∞ = 0) ∈ {q, 1}. Comme (Wn )n≥0 converge dans L2 , elle converge
également dans L1 et on doit avoir E[W∞ ] = E[W0 ] = 1. Donc on ne peut pas avoir P(W∞ =
0) = 1. On a donc P(W∞ = 0) = q, ce qui permet de conclure.
Remarque II.2.4 Lorsque µ > 1, la loi de W∞ est en général très difficile à estimer explici-
tement, bien que sa transformée de Laplace satisfasse l’équation fonctionnelle (II.50). On ne
la connaît explicitement que pour de rares exemples.
Remarque II.2.5 Pour montrer le résultat (ii), on a supposé que la loi de reproduction
admet un moment d’ordre deux. On a fait cette hypothèse pour obtenir une convergence dans
L2 et donc dans L1 de la martingale (Wn )n ≥0 vers W∞ , ce qui implique que W∞ n’est pas
une variable triviale et que 1{W∞ >0} = 1{T =∞} presque sûrement, grâce à l’inclusion évidente
{W∞ > 0} ⊂ {T = ∞}. L’hypothèse de moment d’ordre deux n’est, bien entendu, pas la
meilleure possible. Citons le théorème de Kesten-Stigum qui répond complétement à cette
question.
La preuve de ce théorème n’est pas très simple. On voit que la seule hypothèse µ > 1 ne suffit
pas à assurer que Zn ∼ µn W∞ soitPun équivalent exact car il existe des lois de reproduction ξ
telles que 1 < µ < ∞ et telles que k≥2 k log(k).ξ(k) = ∞. Pour de telles lois de reproduction,
le théorème de Kesten-Stigum et les arguments du théorème II.2.25 montrent que Zn = o(µn )
p.s. bien que E[Zn ] = µn . En effet on a P(W∞ > 0) < P(T = ∞) = 1 − q. Or P(W∞ = 0) ∈
{q, 1}. Donc P(W∞ = 0) = 1, c’est-à-dire que limn→∞ µ−n Zn = 0 presque-sûrement.
55
On notera bien la différence avec la définition de martingale : comme les tribus Fn , n ≥ 0,
d’une filtration inverse décroissent, les variables Xn sont "de moins en moins aléatoires". Il est
donc normal de s’attendre à ce que les martingales inverses soient plus simples à manipuler.
On remarque par exemple que (Xn )n≥0 est une martingale inverse ssi
∀n ∈ N , E[X0 |Fn ] = Xn . (II.51)
Le lemme suivant fait le lien entre les notions de martingale et martingale inverse. Sa preuve
est immédiate.
Lemme II.3.1 Soit (Fn )n≥0 , une filtration inverse et soit (Xn )n≥0 , une (Fn )n≥0 -martingale
inverse. Pour tout n0 ∈ N, on pose Ynn0 = X(n0 −n)+ et Gnn0 = F(n0 −n)+ , c’est-à-dire
Alors (Gnn0 )n≥0 est une filtration, au sens usuel, et (Ynn0 )n≥0 est martingale relativement à
(Gnn0 )n≥0 , au sens usuel.
On fixe ensuite deux réels a < b, (Fn )n≥0 , une filtration inverse de (Ω, F ) et X = (Xn )n≥0 ,
une (Fn )n≥0 -martingale inverse. On pose ν0 = −1 et pour tout p ≥ 1, on pose
ν2p−1 = inf{n > ν2p−2 : Xn ≥ b} et ν2p = inf{n > ν2p−1 : Xn ≤ a},
avec la convention habituelle que inf ∅ = ∞. Pour tout n ∈ N, on pose ensuite
(II.52)
Dn (X, [a, b]) = sup p ∈ N : ν2p ≤ n ,
qui est le nombre de traversées descendantes par X de l’intervalle [a, b] qui sont complètes
au temps n. On fixe n0 et on utilise les notations du lemme II.3.1 pour Yn0 . On rappelle la
définition (II.52) de Un0 (Yn0 , [a, b]) qui est le nombre de traversées montantes par Yn0 de
l’intervalle [a, b] qui sont complètes au temps n0 . Il est facile de vérifier que
Dn0 (X, [a, b]) = Un0 (Yn0 , [a, b]) .
Le lemme II.3.1 montre que Yn0 est une martingale : on peut lui appliquer les inégalités de
Doob (proposition II.2.3) et on a donc
(b − a)E Un (Yn0 , [a, b]) ≤ E[(Ynn00 − a)+ ] − E[(Y0n0 − a)+ ] .
Proposition II.3.2 Soit (Xn )n≥0 , une martingale inverse. Pour tous réels a < b et tout
n ≥ 0, on a
(b − a)E Dn (X, [a, b]) ≤ E[(X0 − a)+ ] − E[(Xn − a)+ ].
Théorème II.3.3 (Convergence des martingales inverses) Soit (Fn )n≥0 , une filtration inverse
de (Ω, F ). On pose F∞ = n≥0 Fn . Soit X = (Xn )n≥0 une martingale inverse relativement
T
à la filtration inverse (Fn )n≥0 . Alors, il existe une v.a. réelle X∞ qui est F∞ -mesurable,
intégrable et telle que
1
lim Xn = X∞ p.s. et dans L .
n
56
Preuve : soient a et b deux réels positifs tels que a < b. Pour simplifier les notations on
pose Dn = Dn (X, [a, b]). On pose δa,b = sup{p ∈ N : ν2p < ∞} : c’est le nombre total de
traversées descendantes de [a, b] par X. Il est clair que δa,b = supn≥0 Dn . Or la proposition
II.3.2 implique que (b − a)E[Dn ] ≤ E[ |X0 | ] + |a|. Par convergence monotone, on a donc
E[δa,b ] = supn≥0 E[Dn ] < ∞, ce qui implique que P(δa,b = ∞) = 0. On pose ensuite
[
A= δa,b = ∞ .
a,b∈Q
a<b
On voit donc que P(A) = 0. On fixe ω ∈ Ω\A. Alors, pour tous a, b ∈ Q tels que a < b,
on a δa,b (ω) < ∞. En raisonnant comme au lemme II.2.2, on montre que cela implique
lim inf n Xn (ω) = lim supn Xn (ω). On pose alors X∞ = lim supn Xn . Ce qui précède montre
que limn Xn = X∞ presque sûrement. Puisque pour tous n ≥ n0 , Xn est Fn0 -mesurable (car
Fn ⊂ Fn0 ), X∞ est bien Fn0 -mesurable pour tout n0 . Donc X∞ est F∞ -mesurable. Enfin,
puisque Xn = E[X0 |Fn ], le lemme II.2.12 implique que la suite (Xn )n≥0 est uniformément
intégrable. Le lemme II.2.13 implique alors que Xn → X∞ dans L1 .
Application loi des grands nombres. Soit (Yn )n≥0 , une suite de variables indépendantes
et de même loi, toutes intégrables. On note c leur espérance commune. On pose
Sn = Y0 + . . . + Yn et Fn = σ Sn+p , p ≥ 0 .
Il est clair que (Fn )n≥0 est une filtration inverse. Comme Yn+1+p = Sn+p+1 − Sn+p , on voit
que
Fn = σ Sn , Yn+1 , Yn+2 , . . . , Yn+p+1 , . . . .
Or Y0 est indépendante de σ(Yn+p+1 , p ≥ 0). La proposition I.7.8, page 20, implique donc que
E[Y0 |Fn ] = E Y0 σ Sn , σ(Yn+1+p , p ≥ 0) = E[Y0 |Sn ] , n ≥ 0 .
On a montré à l’exemple I.6 page 16, que E[Yk | Sn ] = E[Y0 | Sn ], 0 ≤ k ≤ n. On a donc
X
Sn = E[Sn | Sn ] = E[Yk | Sn ] = (n + 1)E[Y0 | Sn ] .
0≤k≤n
Comme E[Xn ] = c, on a E[X∞ ]T = c. Il est facile de montrer que X∞ est mesurable par rapport
à la tribu asymptotique T∞ = n≥0 σ(Xn+p , p ≥ 0). La loi du 0-1 de Kolmogorov (théorème
II.2.18) implique que pour tout x ∈ R, P(X∞ ≤ x) = 0 ou 1. Il est facile de montrer que
{x ∈ R : P(X∞ ≤ x) = 0} est un intervalle non-vide de R de la forme ] − ∞, x0 ]. On a donc
X∞ = x0 p.s. mais comme E[X∞ ] = c, on doit avoir x0 = c. On a finalement montré la loi
des grands nombres :
Y0 + . . . + Yn
−→ c p.s. et dans L .
1
−−
n+1 n→∞
57
II.4 Problèmes d’arrêt.
II.4.a Formulation du problème. Exemple de la ruine du joueur.
On se donne (Xn )n≥0 , une (Fn )n≥0 -martingale. Il est alors clair que
∀n ∈ N , E[Xn ] = E[X0 ] .
On se donne maintenant T , un (Fn )n≥0 -temps d’arrêt. On se pose les questions suivantes
• Quand la notation XT a-t-elle un sens ?
• Si XT a un sens, est-ce une variable intégrable ?
• Si XT a un sens et est intégrable, a-t-on
Pour faire court, on dira que répondre à ces questions et montrer (II.53), c’est résoudre un
problème d’arrêt. Supposons que P(T < ∞) = 1. Il est alors naturel de poser
X
XT = Xn 1{T =n} ,
n∈N
ce qui définit bien une v.a. F∞ -mesurable. En revanche, si P(T = ∞) > 0, alors le sens de
XT doit être précisé : nous aborderons ce problème à la section II.4.b suivante.
On considère deux exemples : le premier exemple montre que si la variable XT peut être
bien définie, ce n’est pas forcément une variable intégrable. Le deuxième exemple montre que
si XT est bien définie et intégrable, on n’a pas nécessairement E[X0 ] = E[XT ]
Exemple II.4.1 Soit (ξn )n≥1 , une suite de v.a. indépendantes et de même loi donnée par
P(ξn = 1) = P(ξn = −1) = 1/2. On pose S0 = 0, F0 = {Ω, ∅}, et pour tout n ≥ 1,
Sn = ξ1 + . . . + ξn et Fn = σ(ξ1 , . . . , ξn ) .
La suite (Sn )n≥0 est la marche aléatoire simple symétrique sur Z issue de 0. On pose T =
inf{n ≥ 1 : Sn = 0}, avec la convention que T = ∞ ssi Sn 6= 0 pour tout n ≥ 1. C’est le
premier temps de retour de la marche en 0 et c’est un (Fn )n≥0 -temps d’arrêt car pour tout
n ≥ 1, \
{T > n} = {ξ1 + . . . + ξk 6= 0} ∈ Fn .
1≤k≤n
On admet que
p.s. lim sup Sn = ∞ et lim inf Sn = −∞ . (II.54)
n→∞ n→∞
E[T ] = ∞ . (II.55)
On pose alors X
X0 = 0 et Xn = 3k ξk , n≥1.
1≤k≤n
58
Il est clair que Xn est Fn -mesurable. De plus |Xn | ≤ 3 + . . . + 3n : c’est une variable bornée
donc intégrable. Enfin, on a
car ξn+1 est indépendante de Fn et E[ξn+1 ] = 0. On a donc montré que (Xn )n≥0 est une
martingale relativement à la filtration (Fn )n≥0 . Comme T < ∞, p.s., XT est une v.a. bien
définie p.s. mais on remarque que
T −1 −1 1
X
|XT | = 3T + 3k ξT−1 ξk ≥ 3T − (3 + . . . + 3T −1 ) = 3T − 3 3 3−1
≥ 2 3T .
1≤k≤T −1
Or pour tout n ∈ N∗ , 3n ≥ n, donc ce qui précède montre que |XT | ≥ 12 T et (II.55) implique
que XT n’est pas intégrable.
Exemple II.4.2 On reprend l’exemple de la remarque II.2.1, page 41, où (ξn )n≥0 , est une
suite i.i.d. de v.a. à valeurs dans {0, 2} dont la loi est donnée par P(ξn = 0) = P(ξn =
2) = 1/2. On pose Xn = ξ0 . . . ξn et Fn = σ(ξ0 , . . . , ξn ). On a montré que (Xn )n≥0 est
une martingale positive relativement à (Fn )n≥0 , que E[Xn ] = 1, pour tout n ∈ N et que
limn Xn = 0 presque sûrement. Comme cette martingale est à valeurs dans N, cela implique
que P(∃n0 ∈ N : ∀n ≥ n0 , Xn = 0) = 1. On introduit le temps T = inf{n ∈ N : Xn = 0},
avec la convention habituelle que inf ∅ = ∞. Ce qui précède montre que P(T < ∞) = 1. On
vérifie que T est un (Fn )n≥0 -temps d’arrêt. Par définition XT = 0, presque sûrement. C’est
donc une variable intégrable mais E[X0 ] = 1 6= 0 = E[XT ].
Nous donnons une première condition, très simple, sous laquelle la propriété d’arrêt (II.53)
est vraie.
Proposition II.4.1 Soit (Xn )n≥0 , une (Fn )n≥0 -martingale et soit T , un (Fn )n≥0 -temps
d’arrêt. On suppose que T est p.s. borné, c’est-à-dire qu’il existe n0 ∈ N, tel que P(T ≤
n0 ) = 1. Alors, XT est une variable intégrable telle que E[X0 ] = E[XT ].
Preuve : la proposition élémentaire II.1.6, page 28, montre que (Xn∧T )n≥0 , une (Fn )n≥0 -
martingale. Cela implique que pour tout n ∈ N, Xn∧T est intégrable et
Proposition II.4.2 Soit (Xn )n≥0 , une (Fn )n≥0 -martingale et soit T , un (Fn )n≥0 -temps
d’arrêt. On suppose que P(T < ∞) = 1 et on suppose qu’il existe Z, une v.a. positive telle
que
∀n ∈ N , |Xn∧T | ≤ Z et E[Z] < ∞ .
Alors XT est une variable intégrable telle que E[X0 ] = E[XT ].
59
Preuve : comme P(T < ∞) = 1, on a p.s. limn Xn∧T = XT , qui est bien définie. En
appliquant le théorème de convergence dominée, XT est une v.a. intégrable et limn E[Xn∧T ] =
E[XT ]. Or la proposition élémentaire II.1.6, page 28, montre que (Xn∧T )n≥0 , une (Fn )n≥0 -
martingale, donc E[X0 ] = E[X0∧T ] = E[Xn∧T ], ce qui permet de conclure.
Application à la ruine du joueur. Soit (ξn )n≥1 , une suite de variables à valeurs dans
{−1, 1}, indépendantes et de même loi donnée par P(ξn = 1) = p et P(ξn = −1) = q, avec
p + q = 1. On supposera toujours que 0 < p < 1. On pose S0 = 0, F0 = {∅, Ω}, et pour tout
n ≥ 1, on pose
Sn = ξ1 + . . . + ξn et Fn = σ(ξn , . . . , ξn ) .
Pour tout c ∈ Z, on pose Tc = inf{n ∈ N : Sn = c}, avec la convention inf ∅ = ∞, c’est-à-dire
que Tc = ∞ ssi Sn 6= c, pour tout n ∈ N. On a {Tc > n} = {S0 6= c} ∩ . . . ∩ {Sn 6= c} ∈ Fn ,
ce qui implique que Tc est un (Fn )n≥0 -temps d’arrêt. On fixe a, b ∈ N∗ et on pose
avec la convention inf ∅ = ∞. La proposition II.1.8 (i), page 29, implique que T−a,b est un
(Fn )n≥0 -temps d’arrêt. La loi des grands nombres implique que p.s. limn Sn /n = E[ξ1 ] = p−q.
Si p 6= q, cela implique que p.s. limn |Sn | = ∞ et donc que P(T−a,b < ∞) = 1. Si p = q = 1/2,
la suite (Sn )n≥0 est la marche symétrique simple sur Z et on a admis (II.54), qui implique
que P(T−a,b < ∞) = 1. Dans tous les cas, on a
Preuve : on suppose d’abord que p 6= q et on pose x = q/p. Il est facile de vérifier que
px + qx−1 = 1. On pose Xn = xSn . C’est clairement, une variable positive Fn -mesurable
et comme |Sn | ≤ n, on a 0 ≤ Xn ≤ max−n≤k≤n xk . Cela montre que Xn est bornée donc
intégrable. Par ailleurs, on a
E xSn+1 |Fn = E xξn+1 +Sn |Fn = xSn E xξn+1 |Fn = xSn E xξn+1 = xSn ,
car ξn+1 est indépendante de Fn , et que E xξn+1 = px + qx−1 = 1. On a donc montré que
(xSn )n≥0 est une (Fn )n≥0 -martingale. On remarque ensuite que −a ≤ Sn∧T−a,b ≤ b. On en
déduit donc que
∀n ∈ N , 0 ≤ Xn∧T−a,b ≤ max xk .
−a≤k≤b
60
ce qui montre le résultat voulu dans le cas où p 6= q.
Si p = q = 1/2, on observe que (Sn )n≥0 est une (Fn )n≥0 -martingale telle que |Sn∧T−a,b | ≤
max(a, b). La proposition II.4.2 s’applique et montre que 0 = E[S0 ] = E[ST−a,b ] et on a donc
car ξn+1 est indépendante de Fn et E etξn+1 −φ(t) = 1. Cela montre que (Mn (t))n≥0 est une
Si φ(t) ≥ 0, on a 0 < Mn∧T−a,b (t) ≤ exp tSn∧T−a,b ≤ exp |t| max(a, b) . La proposition
II.4.2 s’applique et on a
(II.58)
E exp tST−a,b − T−a,b φ(t) = 1 .
On remarque ensuite que lima→∞ ↑ T−a,b = Tb et lima→∞ 1{ST =b} = 1{Tb <∞} presque
−a,b
sûrement. Donc pour tout t ≥ log x∗ ≥ 0, on a
tST−a,b −T−a,b φ(t)
lim e = lim e−at e−T−a,b φ(t) 1{ST =−a} + ebt e−T−a,b φ(t) 1{ST =b}
a→∞ a→∞ −a,b −a,b
bt−Tb φ(t)
= e 1{Tb <∞} .
tS −T φ(t)
Comme t et φ(t) sont positifs, on a a ∈ N∗ , 0 ≤ e T−a,b −a,b ≤ etb . Par (II.58) et par
convergence dominée on a
tS −T φ(t)
E etb−Tb φ(t) 1{Tb <∞} = lim E e T−a,b −a,b
=1,
a→∞
c’est-à-dire
∀t ≥ log x∗ , E e−φ(t)Tb 1{Tb <∞} = e−bt . (II.59)
61
II.4.b Le théorème d’arrêt de Doob.
Le but de cette section est de montrer que toute martingale régulière et tout temps d’arrêt
satisfont le problème d’arrêt. Avant cela, il est nécessaire d’établir quelques notations.
Notation. Soit (Xn )n∈N∪{∞} , une suite de v.a. à valeurs dans R et soit T : Ω → N ∪ {∞}.
On fixe ω ∈ Ω. Si T (ω) = n ∈ N, on pose XT (ω) = Xn (ω). Si T (ω) = ∞, on pose XT (ω) =
X∞ (ω). Cela définit une fonction XT : Ω → R. On résume cela en écrivant
X X
XT = X∞ 1{T =∞} + Xn 1{T =n} ou encore, XT = Xn 1{T =n}
n∈N n∈N∪{∞}
(iii) Soit (Xn )n≥0 , une suite de v.a. à valeurs dans R qui est (Fn )n≥0 -adaptée. Soit
X∞ , une v.a. à valeurs dans R qui est F∞ -mesurable. Alors XT est FT -mesurable.
(iv) Soit Y , une v.a. qui est réelle intégrable ou positive. Alors, p.s. on a
X
E[Y |FT ] = 1{T =∞} E[Y |F∞ ] + 1{T =n} E[Y |Fn ] . (II.60)
n∈N
62
Le point (iii) est une conséquence évidente du point (i) puisque pour tout n ∈ N,
1{T =n} XT = 1{T =n} Xn , qui est Fn -mesurable.
Montrons (iv) : on suppose d’abord que Y est positive. On note Z, le membre de droite
de (II.60). Le point (iii) entraîne que Z est FT -mesurable. Soit A ∈ FT . En appliquant
l’interversion série/espérance positive, on a
X
E[Z1A ] = E E[Y |F∞ ]1A∩{T =∞} + E E[Y |Fn ]1A∩{T =n} .
n≥0
pour tout n ∈ N. Comme par définition FT ⊂ F∞ , A ∈F∞ et le point (i), implique que
{T = ∞} ∈ F∞ . On a donc E[E[Y |F∞ ]1A∩{T =∞} ] = E Y 1A∩{T =∞} ]. Par conséquent, en
réutilisant l’interversion série/espérance positive, ce qui précède implique que
X h X i
E[Z1A ] = E[Y 1A∩{T =n} ] = E Y 1A 1{T =n} .
n∈N∪{∞} n∈N∪{∞}
Mais n∈N∪{∞} 1{T =n} = 1, donc E[Z1A ] = E[Y 1A ], pour tout A ∈ FT . Cela entraîne que
P
p.s. E[Y |FT ] = Z, qui est le résultat désiré dans le cas où Y est positive. Le cas où Y est à
valeurs réelles intégrable se traite en considérant les parties positive et négative de Y et en
leur appliquant le cas positif.
Théorème II.4.4 (Arrêt de Doob) Soit (Xn )n≥0 , une (Fn )n≥0 -martingale et soient S, T ,
deux (Fn )n≥0 -temps d’arrêt. On suppose que (Xn )n≥0 est régulière. On note X∞ sa limite
presque sûre, qui est aussi sa limite dans L1 . Alors, les assertions suivantes sont vérifiées.
(i) XT est FT -mesurable, intégrable, et XT = E[X∞ | FT ]. On a donc
(ii) (Xn∧T )n≥0 est une (Fn )n≥0 -martingale régulière et elle converge presque sûrement
et dans L1 vers XT
(iii) E[XT |FS ] = E[XS |FT ] = XS∧T .
(iv) Si S ≤ T presque sûrement, alors E[XT |FS ] = XS .
Preuve : on remarque que |E[X∞ |FT ]| ≤ E[ |X∞ | FT ] et donc E[X∞ |FT ] est intégrable.
De plus, la proposition II.4.3 (iv) implique que
X
E[X∞ |FT ] = 1{T =∞} E[X∞ |F∞ ] + 1{T =n} E[X∞ |Fn ] .
n∈N
Comme (Xn )n≥0 est supposée régulière, le théorème II.2.15, page 46, de convergence L1 des
martingales permet de dire que E[X∞ |Fn ] = Xn , pour tout n ∈ N. Par ailleurs, X∞ étant
F∞ -mesurable, il est clair que E[X∞ |F∞ ] = X∞ . Cela implique donc
X
E[X∞ |FT ] = 1{T =∞} X∞ + 1{T =n} Xn = XT .
n∈N
63
ce qui termine la preuve de (i).
Montrons le point (ii). Si T est un temps d’arrêt, alors n ∧ T est également un temps
d’arrêt et le point (i) implique que E[X∞ |Fn∧T ] = Xn∧T , n ≥ 0. Le lemme II.2.12, page
44, implique que la suite (Xn∧T )n≥0 , elle est uniformément intégrable, ce qui montre que
(Xn∧T )n≥0 est régulière. Il est clair par ailleurs que limn 1{T <∞} Xn∧T = 1{T <∞} XT . De plus
comme limn Xn = X∞ p.s., on a limn 1{T =∞} Xn∧T = 1{T =∞} X∞ = 1{T =∞} XT . Finalement,
on a bien limn Xn∧T = XT presque sûrement. Comme c’est une martingale régulière, la
convergence a lieu aussi dans L1 , ce qui prouve (ii).
Pour montrer le point (iii), on applique les points (i) et (ii) à la martingale régulière
Yn := Xn∧T , n ≥ 0. On a bien Y∞ = XT par (ii) et (i) implique alors que
E[XT |FS ] = E[Y∞ |FS ] = YS = XS∧T .
Comme S et T jouent un rôle symétrique dans ce résultat, on a aussi E[XS |FT ] = XS∧T , ce
qui termine la preuve de (iii). Le point (iv) est alors une conséquence immédiate de (iii).
Remarque II.4.1 Si (Xn )n≥0 est une (Fn )n≥0 -martingale régulières alors pour toute suite
(Tn )n≥0 de temps d’arrêts relativement à la même filtration et tels que Tn ≤ Tn+1 , la suite
(XTn )n≥0 est une (FTn )n≥0 -martingale régulière.
Définition II.4.1 (Temps d’arrêt régulier) Soit X = (Xn )n≥0 une (Fn )n≥0 -martingale. Un
temps d’arrêt T relativement à (Fn )n≥0 est dit régulier pour la martingale X si (Xn∧T )n≥0
est une (Fn )n≥0 -martingale régulière (c’est-à-dire qu’elle est uniformément intégrable).
Exemple II.4.3 Si X = (Xn )n≥0 est une (Fn )n≥0 -martingale régulière, alors le théorème
II.4.4 d’arrêt, page 63, montre que tout (Fn )n≥0 -temps d’arrêt est régulier pour X.
Exemple II.4.4 On se place sous les hypothèses de la proposition II.4.2, page 59 : on se donne
X = (Xn )n≥0 , une (Fn )n≥0 -martingale et soit T , un (Fn )n≥0 -temps d’arrêt. On suppose que
P(T < ∞) = 1 et on suppose qu’il existe Z, une v.a. positive telle que
∀n ∈ N , |Xn∧T | ≤ Z et E[Z] < ∞ . (II.61)
Le lemme II.2.9, page 44, implique que la suite (Xn∧T )n≥0 est uniformément intégrable. C’est
une martingale régulière et le temps d’arrêt T est régulier pour X.
64
Proposition II.4.5 Soit X = (Xn )n≥0 , une (Fn )n≥0 -martingale. Soit T , un (Fn )n≥0 -temps
d’arrêt régulier pour la X. Alors, les assertions suivantes sont vérifiées.
(i) Il existe Y , une variable FT -mesurable, intégrable, telle que p.s.limn Xn 1{T =∞} =
Y 1{T =∞} . Si on pose
X
XT = Y 1{T =∞} + Xn 1{T =n} , (II.62)
n≥0
(II.63)
1
Xn∧T −
− −→ XT
n→∞
p.s. et dans L .
(iii) Soit S, un (Fn )n≥0 -temps d’arrêt tel que S ≤ T , presque sûrement. Alors S est
régulier pour X et on a
p.s. E[XT |FS ] = XS .
Par conséquent, si S 0 est un autre (Fn )n≥0 -temps d’arrêt tel que p.s. S 0 ≤ S ≤ T ,
alors p.s. E[XS |FS 0 ] = XS 0 .
Preuve : on pose Yn = Xn∧T , n ≥ 0. Comme c’est une martingale régulière, elle converge
presque sûrement et dans L1 vers Y , qui est FT -mesurable car Xn∧T est Fn∧T -mesurable et
Fn∧T ⊂ FT . On remarque ensuite que p.s. Xn 1{T =∞} = Xn∧T 1{T =∞} → Y 1{T =∞} . Il est
facile ensuite de vérifier que si XT est défini comme (II.62), alors XT = Y et on a donc (II.63),
ce qui montre (i).
Montrons le point (ii) : comme Yn = Xn∧T , n ≥ 0, est une (Fn )n≥0 -martingale régulière
qui tend vers Y = XT , le théorème II.2.15 de convergence L1 des martingales, page 46,
implique que E[XT |Fn ] = E[Y |Fn ] = Yn = Xn∧T , ce qui termine la preuve de (ii).
Soit S, un (Fn )n≥0 -temps d’arrêt tel que p.s. S ≤ T . On applique le théorème II.4.4 (ii)
à la martingale régulière Yn = Xn∧T , n ≥ 0, ce qui montre que Xn∧S = Yn∧S , n ≥ 0, est une
martingle régulière. Par définition, cela implique que S est régulier pour X. De plus, le point
(iii) du théorème II.4.4 appliqué à Yn = Xn∧T , n ≥ 0, implique que E[XT |FS ] = E[Y |FS ] =
YS = XS . Le dernier point est obtenu en appliquant le résultat que l’on vient d’obtenir à
(Yn )n≥0 et en remplaçant T par S et S 0 par S.
En dehors des cas du type de l’exemple II.4.4, il n’est en général pas très simple de montrer
qu’un temps d’arrêt est régulier par rapport à une martingale non régulière. La proposition
suivante fournit un premier critère de régularité pour les temps d’arrêt.
Proposition II.4.6 Soit X = (Xn )n≥0 , une (Fn )n≥0 -martingale. Soit T un (Fn )n≥0 -temps
d’arrêt. Il est régulier pour X ssi les deux conditions suivantes sont satisfaites.
(a) E[ |XT |1{T <∞} ] < ∞
(b) La suite de variables (Xn 1{T >n} )n≥0 est équi-intégrable.
Par ailleurs, si supn≥0 E[ |Xn | ] < ∞, alors XT est intégrable, ce qui implique (a).
65
Preuve : on suppose tout d’abord que T satisfait (a) et (b). On veut d’abord montrer que
(Xn∧T )n≥0 est une suite uniformément intégrable : pour simplifier les notations on pose Zn =
Xn 1{T >n} . La condition (b) signifie donc que la suite (Zn )n≥0 est uniformément intégrable.
Pour tout a > 0, et tout n ∈ N, on observe alors que
E[ |Xn∧T |1{|Xn∧T |>a} ] = E[ |XT |1{T ≤n}∩{|Xn∧T |>a} ] + E[ |Xn |1{T >n}∩{|Xn∧T |>a} ]
= E[ |XT |1{T ≤n}∩{|XT |>a} ] + E[ Zn 1{|Zn |>a} ]
≤ E[ |XT |1{T <∞}∩{|XT |>a} ] + E[ Zn 1{|Zn |>a} ] .
Donc
sup E[ |Xn∧T |1{|Xn∧T |>a} ] ≤ E[ |XT |1{T <∞ ; |XT |>a} ] + sup E[ Zn 1{|Zn |>a} ] (II.64)
n≥0 n≥0
Comme E[ |XT |1{T <∞} ] < ∞, le théorème de convergence dominée entraîne que
Ceci, l’uniforme intégrabilité de la suite (Zn )n≥0 et (II.64), montrent que (Xn∧T )n≥0 est une
suite uniformément intégrable. Par le théorème II.2.15, (Xn∧T )n≥0 est donc régulière et T est
donc régulier pour (Xn )n≥0 .
Montrons la réciproque. On suppose donc que (Xn∧T )n≥0 est uniformément intégrable. Le
théorème II.2.15 de convergence L1 montre que cette martingale converge dans L1 : ses normes
L1 sont donc bornées, c’est-à-dire que c := supn∈N E[ |Xn∧T | ] < ∞. On remarque ensuite que
pour tout n ∈ N, on a |XT |1{T ≤n} ≤ |Xn∧T |. Par convergence monotone on a donc
ce qui prouve (a). Comme |Xn |1{T >n} ≤ |Xn∧T |, on obtient facilement (b).
Il reste à prouver que (a) est vérifiée dès que supn≥0 E[ |Xn | ] < ∞. Cette condition
entraîne qu’il existe X∞ intégrable telle que limn Xn = X∞ presque sûrement, d’après le
théorème II.2.5. On a donc limn Xn∧T = XT presque sûrement et par Fatou
Par ailleurs, on a E[Xn |Fn∧T ] = Xn∧T (le temps d’arrêt n ∧ T est borné). L’inégalité trian-
gulaire pour l’espérance conditionnelle implique que |Xn∧T | ≤ E[ |Xn | |Fn∧T ] et en intégrant
on a E[ |Xn∧T | ] ≤ E[ |Xn | ]. On a donc lim inf n E[ |Xn∧T | ] ≤ supn∈N E[ |Xn | ] < ∞, ce qui,
combiné avec (II.65), montre que XT est intégrable, et donc XT 1{T <∞} également.
Le corollaire suivant est une première application de la proposition II.4.6 précédente.
Corollaire II.4.7 Soit X = (Xn )n≥0 une (Fn )n≥0 -martingale telle que supn≥0 E[ |Xn | ] <
∞. Soit I, un intervalle borné de R. On pose
TI = inf{n ∈ N : Xn ∈
/ I},
avec la convention que inf ∅ = ∞, c’est-à-dire que TI = ∞ ssi Xn ∈ I, pour tout n ∈ N. Alors,
TI est un (Fn )n≥0 -temps d’arrêt qui est régulier pour X.
66
Preuve : on note a et b les extrémités de I. Clairement |Xn |1{TI >n} ≤ max(|a|, |b|). Le lemme
II.2.9, page 44, implique que (Xn 1{TI >n} )n≥0 est uniformément intégrable et la proposition
II.4.6, implique la régularité de TI pour X.
Donnons un critère plus spécifique.
Proposition II.4.8 Soient X = (Xn )n≥0 , une (Fn )n≥0 -martingale et T , un temps d’arrêt
relativement à (Fn )n≥0 . Alors, T est régulier pour X et presque sûrement limn 1{T =∞} Xn = 0
ssi les deux conditions suivantes sont satisfaites.
(a) E[ |XT |1{T <∞} ] < ∞
(b0 ) limn E |Xn |1{T >n} = 0.
Preuve : on suppose (a) et (b0 ). Pour simplifier on pose Zn = Xn 1{T >n} , n ≥ 0. L’hypothèse
(b0 ) signifie que la suite (Zn )n≥0 converge vers 0 dans L1 . Par la proposition II.2.14, page 45,
(Zn )n≥0 est uniformément intégrable. La proposition II.4.6 s’applique et montre que T est
régulier pour la martingale X, ce qui implique que la suite (Xn∧T )n≤0 converge p.s. et dans
L1 . Cela implique que la suite |Xn |1{T =∞} = |Xn∧T |1{T =∞} , n ≥ 0, converge p.s. vers une
variable notée Z. Il suffit donc de montrer que p.s. Z = 0 : pour cela, on observe ensuite que
|Xn |1{T =∞} ≤ |Xn |1{T >n} = |Zn |, n ≥ 0. Par (b0 ) on en déduit que la suite (|Xn |1{T =∞} )n≥0
converge vers 0 dans L1 . Comme de toute suite convergente dans L1 on extrait une suite qui
converge presque sûrement, on en déduit que Z = 0, p.s.
Réciproquement, on suppose que T est régulier et que p.s. limn Xn 1{T =∞} = 0. La pro-
position II.4.6 entraîne la condition (a). Il reste à montrer (b0 ). Pour cela on utilise la pro-
position II.4.5 (i) et (ii), page 65, qui implique l’existence de XT , v.a. intégrable telle que
Xn∧T → XT p.s. et dans L1 . Comme Xn 1{T =∞} = Xn∧T 1{T =∞} , la convergence p.s. implique
que XT 1{T =∞} = 0, p.s. et la convergence L1 entraîne que
E |Xn |1{T =∞} = E |Xn∧T − XT |1{T =∞} ≤ E |Xn∧T − XT | −− −→ 0.
n→∞
Exemple II.4.5 On se donne (ξn )n≥1 , une suite de variables réelles indépendantes qui ont
toutes même loi qu’une variable ξ. On pose F0 = {∅, Ω}, S0 = 0, et pour tout n ≥ 1, on pose
Sn = ξ1 + . . . + ξn et Fn = σ(ξ1 , . . . , ξn ) .
On pose également
I = t ∈ R : φ(t) < ∞ ,
Cet ensemble n’est pas vide car 0 ∈ I. Soient s, t ∈ I, pour tout θ ∈ ]0, 1[ , l’inégalité d’Hölder
pour p = θ−1 et q = (1 − θ)−1 , on a
θ sξ 1−θ
eφ(θt+(1−θ)s) = E eθtξ e(1−θ)sξ ≤ E etξ = eθφ(t)+(1−θ)φ(t) .
E e
67
Cela implique que I est un intervalle contenant 0 et que φ : I → R+ est convexe. On fait les
hypothèses suivantes.
Lemme II.4.9 Sous les hypothèses (II.66), φ est développable en série entière sur l’intérieur
de I et
I , φ0 (t) = E ξetξ−φ(t) .
∀t ∈ ˚ (II.67)
Cela montre que exp ◦φ est développable en série entière. On en déduit que c’est aussi le cas
de φ par composition avec log. De plus le premier coefficient de (II.68) implique (II.67).
Pour tout t ∈ ˚
I, et pour tout n ∈ N, on pose
Mn (t) = exp tSn − nφ(t) .
On montre facilement que (Mn (t))n≥0 est une (Fn )n≥0 -martingale positive. Pour tout b ∈ R+ ,
on pose également,
Tb = inf n ∈ N : Sn ≥ b ,
avec la convention que Tb = ∞ ssi Sn < b, pour tout n ∈ N. On montre que pour tout t ∈ ˚
I
tel que φ0 (t) > 0, Tb est régulier pour (Mn (t))n≥0 , et
(II.69)
E 1{Tb <∞} exp tSTb − Tb φ(t) = 1 .
Preuve : comme Mn (t) est une v.a. positive d’espérance 1, on a supn E[ |Mn (t)| ] = 1 < ∞
et la proposition II.4.6, page 65, implique que E[ |MTb (t)|1{Tb <∞} ] < ∞. Supposons que l’on
ait montré que
(II.70)
lim E Mn (t)1{Tb >n} = 0 ,
n
La proposition II.4.8, page 67, montre que Tb est régulier pour (Mn (t))n≥0 et que presque
sûrement, limn Mn (t)1{Tb =∞} = 0. Par la proposition II.4.5, page 65, on a donc E[MTb (t)] =
E[M0 (t)] = 1. Or MTb (t)1{Tb =∞} = 0 et donc MTb (t) = MTb (t)1{Tb <∞} = 1{Tb <∞} exp(tSTb −
Tb φ(t)), ce qui montre (II.69).
Il suffit donc de montrer (II.70). Pour cela, on note Pn la mesure sur (Ω, F ) admettant
Mn (t) comme densité, c’est-à-dire que Pn (B) = E[Mn (t)1B ], B ∈ F . Comme p.s. Mn (t) > 0
et E[Mn (t)] = 1, Pn est une mesure probabilité. On note En l’espérance associée : pour
68
toute variable Y , positive ou bornée, on a En [Y ] = E[Mn (t)Y ]. Soient h1 , . . . , hn : R → R,
mesurables, bornées. On a
h Y i h Y i
En hk (ξk ) = e−nφ(t) E e−tξk hk (ξk )
1≤k≤n 1≤k≤n
Y Y
E e−tξ1 −φ(t) hk (ξ1 ) =
= E1 hk (ξ1 ) .
1≤k≤n 1≤k≤n
Cela montre que les variables (ξ1 , . . . , ξn ) sous Pn sont indépendantes et qu’elles ont même loi
que ξ1 sous P1 . Soit (Ω0 , F 0 , P0 ), un espace de probabilité sur lequel est définie (ξn0 )n≥1 , une
suite i.i.d. de v.a. réelles de même loi que ξ1 sous P1 . On remarque alors que
E[Mn (t)1{Tb >n} ] = E Mn (t)1{∀1≤k≤n , ξ1 +...+ξk <b}
= Pn ∀1 ≤ k ≤ n , ξ1 + . . . + ξk < b
= P0 ∀1 ≤ k ≤ n , ξ10 + . . . + ξk0 < b . (II.71)
Or E0 [ξ10 ] = E1 [ξ1 ] = E[etξ1 −φ(t) ξ1 ] = φ0 (t) > 0. Ici, on utilise le lemme II.4.9. Par la loi des
grands nombres, P0 -p.s. limn ξ10 +. . . ξn0 = ∞ et donc limn P0 ( ∀1 ≤ k ≤ n , ξ10 +. . .+ξk0 < b) = 0,
ce qui entraîne (II.70) par (II.71).
L’identité (II.69) est une généralisation de (II.59), obtenu pour les marches simples. On
fixe a ∈ R+ . On montre de même que si φ0 (t) < 0, alors le temps d’arrêt
Ta = inf n ∈ N : Sn ≤ −a ,
ce qui généralise une propriété obtenue pour les marches simples sur Z.
69
70
Chapitre III
Chaînes de Markov.
III.1 Introduction.
III.1.a Premières définitions.
Dans tout ce chapitre, E désigne un espace dénombrable non-vide, c’est-à-dire fini ou en
bijection avec N. On considère des suites de variables à valeurs dans un tel espace E qui
est appelé l’espace d’états. On le munit de la tribu de tous ses sous-ensembles, tribu notée
P(E) = {B ⊂ E}. Par conséquent, si (E 0 , E 0 ) est un espace mesurable, toute fonction
g : E → E 0 est (P(E), E 0 )-mesurable. On note les points de E de façon générique par
i, j, k, i0 , i0 , in , . . . etc.
Si f : E → [0, ∞], on pose
X nX o
f (i) = sup f (i) ; F ⊂ E, F fini .
i∈E i∈F
Si E est fini, (i) n’est qu’une sommePfinie. Si E est infini, alors quelle que soit la
P
i∈E fP
bijection γ : N → E, i∈E f (i) vaut la série n≥0 f (γ(n)).
Une autre façon de voir cela est d’introduire la mesure de comptage # sur E donnée pour
tout B ⊂ E par #(B) = n si B compte n éléments et #(B) = ∞ si B est un sous-ensemble
infini. On vérifie facilement
P que # : P(E) → [0, ∞] est une mesure positive. Comme E est
dénombrable, on a # = i∈E δi , où δi désignePla masse de RDirac en i. On note que c’est une
mesure sigma-finie. On vérifie facilement que i∈E f (i) = E f d#.
Si f : E → R est telle que i∈E |f (i)| < ∞, alors, i∈E (f (i))+ < ∞ et i∈E (f (i))− < ∞
P P P
et on pose
X X X
f (i) = (f (i))+ − (f (i))− .
i∈E i∈E i∈E
71
Sans faire explicitement mention de la mesure de comptage #, on lui appliquera, si nécessaire,
les théorèmes de convergence monotone, dominée, le lemme de Fatou et les divers résultats
d’interversion ainsi que Fubini.
Une mesure positive sur l’espace mesurable (E, P(E)) estP simplement donnée par une
fonction µ : E → [0, ∞]. C’est une mesure de probabilité ssi i∈E µ(i) = 1. On note M1 (E)
l’ensemble des mesures de probabilité sur (E, P(E)).
Définition III.1.1 Un tableau de nombres réels indexés par E × E, noté Q = (p(i, j))i,j∈E
est une matrice de transition si
X
∀i, j ∈ E , p(i, j) ≥ 0 et p(i, j) = 1 ,
j∈E
Autrement dit, Q est une matrice de transition si pour tout i ∈ E, p(i, ·) est une mesure de
probabilité sur E.
Soit une fonction f : E → [0, ∞] et soit Q = (p(i, j))i,j∈E , une matrice de transition. On
définit la fonction Q.f : E → [0, ∞] par
X
∀i ∈ E , (Q.f )(i) = p(i, j)f (j) . (III.1)
j∈E
avec la convention 0 × ∞ = 0.
Si f : E → R, Q.f n’est bien définie par (III.1) que si
X
∀i ∈ E , p(i, j)|f (j)| < ∞ .
j∈E
Signalons que le produit f 7→ Q.f préserve les applications bornées. Plus précisément, pour
tout f : E → R, on pose
kf k∞ = sup |f (i)| .
i∈E
Si kf k∞ < ∞, alors Q.f est bien définie, c’est aussi une fonction bornée et on a
kQ.f k∞ ≤ kf k∞ .
En effet, |Q.f (i)| ≤ j∈E p(i, j)|f (j)| ≤ kf k∞ j∈E p(i, j) = kf k∞ , pour tout i ∈ E.
P P
Dans tout ce chapitre (Ω, F ) est l’espace mesurable sur lequel seront définies toutes les
variables aléatoires, sauf si le contraire est explicitement mentionné. Ainsi, une variable aléa-
toire Y à valeurs dans E désignera une fonction Y : Ω → E, telle que {Y = i} ∈ F , pour
tout i ∈ E. La probabilité sur (Ω, F ) sous laquelle on travaille sera en revanche toujours
explicitement spécifiée.
Définition III.1.2 Soit Q une matrice de transition sur E et soit µ ∈ M1 (E). Soit (Fn )n≥0
une filtration sur (Ω, F ). Soit X = (Xn )n≥0 une suite de v.a. à valeurs dans E. Soit P, une
mesure de probabilité sur (Ω, F ). On dit que sous P, X est une chaîne de Markov relativement
à (Fn )n≥0 , de matrice de transition Q et de loi d’entrée µ, si les conditions suivantes sont
satisfaites.
72
• X est (Fn )n≥0 -adaptée.
• ∀i ∈ E, P(X0 = i) = µ(i).
• Pour tout n ∈ N, et toute fonction f : E → R positive ou bornée, on a
Lorsqu’aucune filtration n’est précisée, il est implicitement supposé que la filtration à choisir
dans (III.2) est
FnX := σ(X0 , . . . , Xn ) , n ∈ N ,
qui est la filtration naturelle de X.
Remarque III.1.1 On suppose que X = (Xn )n≥0 est, sous P, une chaîne de Markov rela-
tivement à une filtration (Fn )n≥0 , de matrice de transition Q et de loi d’entrée µ. Comme
la suite de v.a. X est adaptée par rapport à (Fn )n≥0 , on a FnX ⊂ Fn , n ≥ 0. Pour toute
fonction f : E → R positive ou bornée, (III.2) implique donc
car B ∈ FnX ⊂ Fn . On remarque que (Q.f )(Xn ) est FnX -mesurable. Donc (III.3) implique
que
P-p.s. E f (Xn+1 ) FnX = (Q.f )(Xn ) ,
et X = (Xn )n≥0 est donc, sous P, une chaîne de Markov relativement à la filtration (FnX )n≥0 ,
de matrice de transition Q et de loi d’entrée µ.
Par ailleurs, cela montre que E f (Xn+1 ) X0 , . . . , Xn = E f (Xn+1 ) Xn . Autrement
dit, la loi de Xn+1 , conditionnellement à son passé donné par σ(X0 , . . . , Xn ), ne dépend en
fait que de Xn . Les variables d’une chaîne de Markov ne sont pas, en général, indépendantes,
mais leur dépendance est une dépendance en le passé et cette dépendance est en quelque sorte
"faible".
Le lemme suivant peut se voir comme une définition alternative des chaînes de Markov.
Lemme III.1.1 Soit Q = (p(i, j))i,j∈E , une matrice de transition sur E et soit µ ∈ M1 (E).
Soit X = (Xn )n≥0 , une suite de v.a. à valeurs dans E. Soit P, une mesure de probabilité sur
(Ω, F ). Les deux assertions suivantes sont équivalentes
(i) Sous P, X est une chaîne de Markov de matrice de transition Q et de loi d’entrée
µ.
(ii) Pour tout n ∈ N, et pour tous i0 , . . . , in ∈ E, on a
Preuve : on suppose d’abord (i) et on montre (III.4) par récurrence sur n. Par définition de
la loi d’entrée, P(X0 = i0 ) = µ(i0 ), pour tout i0 ∈ E. Supposons que pour tous i0 , . . . , in ∈ E,
(III.4) ait lieu. On fixe i0 , . . . , in , j ∈ E. On rappelle que FnX = σ(X0 , . . . , Xn ). On applique la
définition III.1.2 à f = 1{j} . Pour cela on remarque (facilement) au préalable que (Q.f )(i) =
p(i, j), pour tout i ∈ E. On a donc
E[1{X0 =i0 ;...;Xn =in ;Xn+1 =j} |FnX ] = 1{X0 =i0 ;...;Xn =in } E[1{j} (Xn+1 )|FnX ]
73
= 1{X0 =i0 ;...;Xn =in } (Q.f )(Xn )
= 1{X0 =i0 ;...;Xn =in } p(Xn , j) = 1{X0 =i0 ;...;Xn =in } p(in , j).
E[1{X0 =i0 ;...;Xn =in } 1{Xn+1 =j} ] = µ(i0 )p(i0 , i1 )p(i1 , i2 ) . . . p(in−1 , in )p(in j)
= E[1{X0 =i0 ;...;Xn =in } p(in , j)]
= E[1{X0 =i0 ;...;Xn =in } φj (X0 , . . . , Xn )] (III.5)
Exemple III.1.1 (Marches aléatoires sur Zd ) Dans cet exemple l’espace d’états est Zd . On
fixe une loi de probabilité π sur Zd , que l’on appelle la loi de saut. On suppose que, sur un
espace de probabilité (Ω, F , P), est définie une suite de variables aléatoires ξn : Ω → Zd ,
n ≥ 1, F -mesurables et i.i.d. de loi commune π :
∀n ≥ 1 , ∀i ∈ Zd , P(ξn = i) = π(i) .
74
On se donne également X0 : Ω → Zd , une variable F -mesurable qui est supposée indépendante
de la suite (ξn )n≥1 . On pose
∀n ≥ 1 , Xn = X0 + ξ1 + . . . + ξn .
Alors (Xn )n≥0 est une chaîne de Markov. En effet pour toute fonction f : Zd → R bornée on
a clairement
X
E f (Xn+1 )|X0 , . . . , Xn = f (Xn + i)π(i) ,
i∈Zd
comme le membre de droite ne dépend que de Xn , la suite (Xn )n≥0 satisfait bien la définition
III.1.2 des chaîne de Markov. On note ensuite µ la loi de X0 : µ(i) = P(X0 = i), i ∈ Zd . On
fixe i0 , . . . , in ∈ Zd et on remarque alors que
On vérifie facilement que Q est une matrice de transition sur Zd : (Xn )n≥0 est une chaîne de
Markov (homogène) à valeurs dans Zd de loi initiale µ et de matrice de transition Q. Cette
chaîne de Markov s’appelle la marche aléatoire de loi de saut π.
On note (e1 , . . . , ed ), la base canonique de Rd . Si
1
π(e1 ) = π(−e1 ) = . . . = π(ed ) = π(−ed ) = ,
2d
alors la marche aléatoire de loi de saut π est appelée marche aléatoire simple sur Zd .
Exemple III.1.2 (Processus de naissance et de mort). Une chaîne de Markov à valeurs dans
N et dont la matrice de transition Q = (p(i, j))i,j∈N est telle que p(i, j) = 0 dès que |i − j| ≥ 2,
est appelée processus de naissance et de mort.
Exemple III.1.3 (Marches aléatoires sur les graphes pondérés) Un graphe est la donnée d’un
ensemble de sommets noté S, que l’on supposera toujours dénombrable, et d’un ensemble
d’arêtes reliant éventuellement certains sommets. L’ensemble des arêtes est noté A. En exa-
gérant un peu, on peut dire qu’il y a autant de définitions des graphes que de spécialistes du
sujet. Nous nous restreindrons ici à l’idée la plus simple que l’on puisse s’en faire. Une arête
reliant deux sommets s et s0 est simplement formalisée par le couple non-ordonné {s, s0 }. Le
fait que l’on choisisse un couple non-ordonné signifie que nous n’orientons pas l’arête. Par
ailleurs, nous ne considérons pas les graphes à arêtes multiples, c’est-à-dire les graphes dont
deux sommets peuvent être reliés par plusieurs arêtes. On parlera dans ce cas de graphes
simples. Si {s, s} = {s} est une arête, alors on l’appelle boucle. Il nous arrivera parfois de
considérer des graphes sans boucles (dans ce cas, si {s, s0 } est une arête du graphe, alors
75
s 6= s0 ). L’ensemble des arêtes est simplement un sous-ensemble des paires non-ordonnées de
sommets :
A ⊂ {s, s0 } ; s, s0 ∈ S .
Le graphe est formellement donné par G = (S, A). Les sommets seront notés en général par
les lettres s, s0 , s00 , s1 , sk . . . et les arêtes par a, a0 , a00 , a1 , ak . . .
On dit que deux sommets s, s0 ∈ S sont voisins, ce que l’on note s ∼ s0 , s’ils sont reliés
par une arête : {s, s0 } ∈ A. Le degré d’un sommet s est le nombre de ses voisins. Ce nombre,
qui peut-être nul ou infini en général, est noté deg(s) :
Un système de poids sur les arêtes est la donnée d’une famille de réels strictement positifs
indexés par les arêtes : Ca ∈ ]0, ∞[ , a ∈ A. Le graphe G = (S, A) muni du du système de
poids C = (Ca ; a ∈ A) est appelé graphe pondéré. Le poids d’un sommet s est la somme des
poids des arêtes reliant s à ses voisins. On note cette quantité (qui peut être nulle ou infinie)
par π(s) : X
π(s) = C{s,s0 } ∈ [0, ∞] .
s0 ∼s
On fait l’hypothèse suivante :
si {s, s0 } ∈ A
0 C{s,s0 } /π(s)
p(s, s ) =
0 sinon.
On voit que Q est une matrice de transition sur S. Une chaîne de Markov ayant Q pour
matrice de transition est appelée marche aléatoire sur le graphe pondéré G = (S, A, C) .
Informellement une telle marche correspond au déplacement aléatoire d’une particule qui
saute de sommets voisins en sommets voisins : à chaque étape la particule choisit d’emprunter
une arête avec une probabilité proportionnelle au poids de cette arête.
Lorsque les poids Ca sont constants à un réel strictement positif c, alors π(s) = cdeg(s)
et l’hypothèse (III.6) revient à supposer que tout sommet possède un nombre fini de voisins
au moins égal à un. Dans ce cas, on a p(s, s0 ) = 1/deg(s) et on parle de marche simple sur le
graphe G = (S, A).
76
La suite (Zn )n≥0 est appelée processus de branchement de loi de reproduction ξ issu de Z0
ancêtres. Il a été montré au lemme II.2.22, page 51, que
Nous allons montrer que (Zn )n≥0 est une chaîne de Markov en précisant sa matrice de
transition. Pour cela, il est commode d’introduire, la notion de produit de convolution dans le
cadre très simple des mesures de probabilité sur N : soient µ et ν, deux mesures de probabilité
sur N. On définit la mesure µ ∗ ν par
X
(µ ∗ ν)(i) = µ(j)ν(i − j) , i ∈ N.
0≤j≤i
Il est facile de voir que Q est une matrice de transition. Pour tout n ∈ N, et pour tout
r ∈ [0, 1], on a donc p.s. X
ϕ(r)Zn = p(Zn , j)rj . (III.10)
j∈N
et (III.7) ainsi qu’un argument simple sur l’identification des coefficients aléatoires, on en
déduit que
∀n, j ∈ N , p.s. E[1{Zn+1 =j} |Fn ] = p(Zn , j) ,
ce qui montre facilement que (Zn )n≥0 est une chaîne de Markov de matrice de transition Q
donnée par (III.9).
77
III.1.b Construction comme système dynamique aléatoire.
On fournit ici une construction des chaînes de Markov comme des systèmes dynamiques
aléatoires. Cette construction peut aussi se voir comme une méthode naïve de simulation.
Définition III.1.3 (Fonctions d’échantillonnage) Soit P, une loi de probabilité sur (Ω, F ).
Soit U : Ω → [0, 1[, une v.a. de loi uniforme.
(a) (Echantillonnage d’une loi) Soit µ ∈ M1 (E). Une fonction d’échantillonnage de µ
est une fonction φµ : [0, 1[→ E, mesurable telle que
Z 1
∀i ∈ E , µ(i) = P φµ (U ) = i = 1{φµ (x)=i} dx .
0
(b) (Echantillonnage d’une matrice de transition) Soit Q = (p(i, j))i,j∈E , une matrice
de transition. Une fonction d’échantillonnage de Q est une fonction ΦQ : [0, 1[×E → E,
mesurable telle que
Z 1
∀i, j ∈ E , p(i, j) = P ΦQ (U, i) = j = 1{ΦQ (x,i)=j} dx .
0
Autrement dit ΦQ (·, i) est une fonction d’échantillonnage de la probabilité p(i, ·).
Lemme III.1.2 Toute mesure de probabilité µ sur E, ainsi que toute matrice de transition
Q = (p(i, j))i,j∈E sur E admettent des fonctions d’échantillonnage.
Preuve : on pose N = #E. Si E est fini, N est un entier et on indexe les éléments de E
d’une façon quelconque par i0 , . . . , iN −1 . Si E est infini, alors N = ∞ et E est en bijection
avec les entiers N : on indexe les éléments de E en une suite d’éléments distincts, suite notée
(in )n∈N . Dans les deux
cas, on se donne une indexation des éléments de E par les entiers, qui
est donnée par E = in ; 0 ≤ n < N } où N = #E.
On définit une première fonction φµ : [0, 1[→ E de la manière suivante :
— ∀x ∈ [0, µ(i0 )[ , on pose φµ (x) = i0 ;
— ∀ 0 ≤ n < N , ∀x ∈ [0, 1[ tel que on pose
P P
0≤p≤n µ(ip ) ≤ x < 0≤p≤n+1 µ(ip ),
φµ (x) = in+1 .
On fixe i ∈ E. Il existe un unique entier 0 ≤ n < N tel que i = in .
X X
Si n ≥ 1, P(φµ (U ) = i) = P µ(ip ) ≤ U < µ(ip ) = µ(in ) = µ(i) .
0≤p≤n−1 0≤p≤n
78
En raisonnant de même, on voit que ΦQ est une fonction d’échantillonnage de Q.
La proposition suivante montre que les chaînes de Markov sont, en quelque sorte, une gé-
néralisation des suites définies par récurrence, c’est-à-dire des systèmes dynamiques aléatoires.
Proposition III.1.3 Soit (Ω, F , P), un espace de probabilité sur lequel est définie une suite
Un : Ω → [0, 1[, n ∈ N, de v.a. indépendantes de loi uniforme. Soit µ, une mesure de probabilité
et soit Q, une matrice de transition. Soient φµ et ΦQ , des fonctions d’échantillonnage de µ et
Q. On définit récursivement une suite X = (Xn )n≥0 de v.a. à valeurs dans E en posant
Alors, sous P, X est une chaîne de Markov de loi d’entrée µ et de matrice de transition Q.
Preuve : on remarque tout d’abord que σ(X0 , . . . , Xn ) ⊂ σ(U0 , . . . , Un ) par conséquent Un+1
est indépendante de X0 , . . . , Xn . On en déduit que pour tout j ∈ E, on a
Z 1
E 1{Xn+1 =j} | X0 , . . . , Xn = 1{ΦQ (x,Xn )=j} dx = p(Xn , j) .
0
Proposition III.1.4 Soit Q, une matrice de transition et soit µ, une mesure de probabilité
sur E. Alors il existe un espace de probabilité (Ω, F , P) et une suite Xn : Ω → E, n ∈ N, de
variables F -mesurables telle que sous P, (Xn )n≥0 soit une chaîne de Markov de matrice de
transition Q et de loi d’entrée µ.
E N = {x = (xn )n∈N : xn ∈ E, n ∈ N} .
79
(a) Les sous-ensembles de E N de la forme suivante :
On vérifie que {Xn = j} = i0 ,...,in−1 ∈E {X ∈ Ci0 ,...,in−1 ,j } ∈ F , ce qui entraîne que Xn est
F -mesurable, et ce pour tout n ∈ N.
On fixe une probabilité P sur (Ω, F ) et on se donne une suite aléatoires X = (Xn )n≥0 , à
valeurs dans E. On rappelle que sa loi sous P, notée µX , est une mesure de probabilité sur
l’espace mesurable (E N , P(E)⊗N ) donnée par µX (B) = P(X ∈ B), pour tout B ∈ P(E)⊗N .
On a notamment
Lemme III.1.6 Soient (Ω, F , P) et (Ω0 , F 0 , P0 ), deux espaces de probabilité sur lesquels sont
définies resp. X = (Xn )n≥0 et X0 = (Xn0 )n≥0 , deux suites aléatoires à valeurs dans E. Alors,
les assertions suivantes sont équivalentes.
(i) µX = µX0 .
80
(ii) P(X ∈ B) = P0 (X0 ∈ B), ∀B ∈ P(E)⊗N .
(iii) E F (X) = E0 F (X0 ) , ∀F : E N → R, P(E)⊗N -mesurable bornée (ou positive).
PQ
µ (Ci0 ,...,in ) = µ(i0 )p(i0 , i1 ) . . . p(in−1 , in ) , n ∈ N , i 0 , . . . , in ∈ E . (III.14)
On appelle PQ
µ la loi canonique d’une chaîne de matrice de transition Q et de loi d’entrée µ.
On pose ensuite
Ωo = E N et F o = P(E)⊗N .
Pour tout n ∈ N, et pour toute suite x = (xp )p∈N ∈ E N , on pose Xno (x) = xn . Cela définit
bien une fonction Xno : Ωo → E : c’est simplement la n-ième projection canonique. Même si
c’est un peu ridicule, on pose Xo = (Xno )n∈N , qui est une fonction de Ωo dans E N . On vérifie
immédiatement que pour toute suite x ∈ Ωo = E N , Xo (x) = x. La fonction Xo est donc
l’identité sur Ωo = E N . Elle est donc clairement (F o , P(E)⊗N )-mesurable. Le lemme III.1.5
implique donc que les projections canoniques Xno : Ωo → E sont bien F o -mesurables. On
appelle Xo = (Xno )n≥0 le processus canonique.
On vérifie alors que Ci0 ,...,in = {X0o = i0 ; . . . , Xno = in } : donc, (III.14) et le lemme III.1.1
impliquent que sous PQ o
µ , X est une chaîne de Markov de matrice de transition Q et de loi
d’entrée µ. On introduit la terminologie suivante.
• (Ωo , F o , Xo , PQ
µ ) est appelée la chaîne de Markov canonique de matrice de transition
Q et de loi d’entrée µ.
Cette réalisation particulière sert de référence : soit (Ω0 , F 0 , P0 ), un espace de probabilité et
soit X0 = (Xn0 )n≥0 , une suite aléatoire définie sur cet espace telle que, sous P0 , X0 soit une
chaîne de Markov de matrice de transition Q et de loi d’entrée µ. Alors,
∀B ∈ P(E)⊗N , P0 (X0 ∈ B) = PQ o Q
µ (X ∈ B) = Pµ (B) .
81
Définition "globale" des chaînes. Il arrivera très fréquemment que l’on change la loi d’en-
trée d’une chaîne de Markov. Pour ne pas affronter des problèmes de notation insurmontables,
on ne veut pas changer de suite de variables aléatoires. On préfère fixer l’espace mesurable et
la suite des variables qui y sont définies, et changer les probabilités sur l’espace mesurable sur
lequel on travaille. C’est pour cela que l’on introduit la définition, définitive pour ce cours,
des chaînes de Markov, qui portera temporairement le nom de "définition globale des chaînes
de Markov" . Le terme "global" n’est pas standard et nous l’abandonnerons rapidement.
Définition III.1.5 Une chaîne de Markov globale, de matrice de transition Q, est la donnée
des objets mathématiques suivants :
où on précise que :
• (Ω, F ) est un espace mesurable, (Fn )n≥0 est une filtration sur (Ω, F ), X = (Xn )n≥0
est une suite de variables (Fn )n≥0 -adaptée à valeurs dans E.
• Pour toute mesure de probabilité µ ∈ M1 (E), Pµ est une mesure de probabilité sur
(Ω, F ) telle que, sous Pµ , X est une chaîne de Markov relativement à (Fn )n≥0 , de loi
d’entrée µ et de matrice de transition Q, selon la définition III.1.2.
Pour tout n ∈ N, on note Fno = σ(X0o , . . . , Xno ) : (Fno )n≥0 est la filtration canonique. On
appelle
Ωo ; F o ; (Fno )n≥0 ; Xo = (Xno )n≥0 ; Q ; PQ
µ , µ ∈ M1 (E)
Théorème III.1.7 Pour toute matrice de transition Q, il existe une chaîne de Markov globale
ayant Q pour matrice de transition.
82
Preuve : on remarque que
θn−1
0
(Ci0 ,...,in ) = x = (xk )k∈N ∈ E N : xn0 = i0 ; . . . ; xn0 +n = in
[
= Cj0 ,...,jn0 −1 ,i0 ,...,in ∈ P(E)⊗N .
j0 ,...,jn0 −1 ∈E
par EQµ [F (X )]. Avec ces conventions, le théorème de transfert s’exprime donc Eµ [F (X)] =
o
EQ
µ [F ]. On a donc cinq manières d’écrire la même quantité avec une préférence de notation
pour le premier et le dernier membre de ces égalités :
Z Z
Eµ [F (X)] = F (X(ω))dP(ω) = F dPQ Q o Q
µ = Eµ [F (X )] = Eµ [F ] .
Ω EN
• On fixe i ∈ E. On note δi la masse de Dirac en i, qui est une mesure de probabilité sur E :
δi ∈ M1 (E). On rappelle que δi = (δi (j))j∈E est donnée par δi (j) = 0 si i 6= j et δi (i) = 1.
Pour simplifier les notations, on pose
∀i ∈ E , Pi := Pδi .
Théorème III.1.9 (Propriété de Markov simple) Pour tout n0 ∈ N, pour toute loi d’entrée
µ ∈ M1 (E) et pour toute application F : E N → R qui est P(E)⊗N -mesurable bornée, on a
Ceci résulte de la définition III.1.2 avec P = Pµ , n = m et f = 1{j} , et donc (Q.f )(i) = p(i, j),
pour tout i ∈ E.
83
On fixe ensuite i0 , . . . , in ∈ E et on montre d’abord la propriété de Markov (III.15) pour
F = 1Ci0 ,...,in . On remarque que F (θn0 X) = 1{Xn0 =i0 ;Xn0 +1 =i1 ;...;Xn0 +n−1 =in−1 } 1{Xn0 +n =in } .
Comme X est (Fn )n≥0 -adaptée, on a {Xn0 = i0 ; Xn0 +1 = i1 ; . . . ; Xn0 +n−1 = in−1 } ∈
Fn0 +n−1 et en appliquant (III.16), avec m = n0 + n − 1 et j = in , on voit que
Eµ F (θn0 X)|Fn0 +n−1 = 1{Xn0 =i0 ;Xn0 +1 =i1 ;...;Xn0 +n−1 =in−1 } E 1{Xn0 +n =in } | Fn0 +n−1
(III.17)
Eµ F (θn0 X)|Fn0 = 1{Xn0 =i0 } p(i0 , i1 ) . . . p(in−1 , in ) .
et par (III.17) Eµ F (θn0 X)|Fn0 = PXn0 (X ∈ Ci0 ,...,in ), Pµ -p.s., ce qui montre la propriété
Eµ [F (θn0 X) | Fn0 ] = lim Eµ [Fp (θn0 X) | Fn0 ] = lim EXn0 [Fp (X)] = EXn0 [F (X)] ,
p→∞ p→∞
Corollaire III.1.10 Pour toute fonction F : E N → R,Pqui est P(E)⊗N -mesurable bornée, et
pour toute loi d’entrée µ ∈ M1 (E), on a Eµ [F (X)] = i∈E µ(i)Ei [F (X)].
Propriété de Markov forte. Nous généralisons la propriété de Markov à des temps d’arrêt.
Pour cela on a besoin de préciser les notations suivantes. On fixe i∗ ∈ E, qui ne joue aucun
rôle spécifique. Soit T : Ω → N ∪ {∞}, un temps aléatoire. On pose alors
Xn si T = n θn X = (Xm+n )m≥0 si T = n
XT = et θT X =
i∗ si T = ∞ (i∗ , i∗ , i∗ , i∗ , . . .) si T = ∞.
84
Théorème III.1.11 (Propriété de Markov forte) Soit T , un (Fn )n≥0 -temps d’arrêt. Alors
les assertions suivantes sont vérifiées.
(i) XT : Ω → E est FT -mesurable.
(ii) θT X : Ω → E N est (F , P(E)⊗N )-mesurable.
(iii) Pour toute µ ∈ M1 (E), et toute F : E N → R, P(E)⊗N -mesurable bornée, on a
[
{θT X ∈ C} = A∗ ∩ {T = ∞} ∪ {θk X ∈ C} ∩ {T = k} .
k∈N
Par définition de FT , {T = n} ∩
A ∈ Fn , pour tout La propriétéde Markov
n ∈ N. simple au
temps n implique alors que Eµ 1{T =n}∩A F (θn X) = Eµ 1{T =n}∩A EXn F (X) . On a donc
X
Eµ 1{T <∞}∩A F (θT X) = Eµ 1{T =n}∩A EXn F (X) = Eµ 1{T <∞}∩A EXT F (X) .
n∈N
Comme cette égalité est vraie pour tout A ∈ FT , et comme EXT F (X) est FT -mesurable,
Exemple III.1.5 On se place dans le cas où la chaîne de Markov est une marche aléatoire
sur Zd . Il est facile de voir que la propriété de Markov forte implique le résultat suivant : soit
T , un (Fn )n≥0 -temps d’arrêt et soit µ ∈ M1 (Zd ). On suppose que Pµ (T < ∞) = 1. Alors,
sous Pµ , la suite de v.a. (Xn+T − XT )n≥0 est indépendante de la suite (Xn∧T )n≥0 et elle est
distribuée comme X sous P0 (les détails de cette vérification sont laissés au lecteur).
85
III.2.a Notation et calcul matriciel.
Produit de matrices de transition. On peut définir un produit pour les matrices de
transition comme suit : soient Q = (p(i, j))i,j∈E et Q0 = (p0 (i, j))i,j∈E , deux matrices de
transition ; on définit la matrice produit QQ0 = Q00 = (p00 (i, j))i,j∈E par
X
∀i, j ∈ E , p00 (i, j) = p(i, k)p0 (k, j) ,
k∈E
qui a toujours un sens dans [0, ∞], a priori. On observe que Q00 est elle-même une matrice de
transition : pour tout i ∈ E, on a en effet,
X XX X X X
p00 (i, j) = p(i, k)p0 (k, j) = p(i, k) p0 (k, j) = p(i, k).1 = 1 .
j∈E j∈E k∈E k∈E j∈E k∈E
Action sur les fonctions. Comme déjà expliqué au début de ce cours, une matrice de
transition Q = (p(i, j))i,j∈E agit sur les fonctions
P de E dans R : à une telle fonction f , on
associe la fonction Q.f donnée par (Q.f )(i) = j∈E p(i, j)f (j) qui a bien un sens dès que
X
∀i ∈ E , p(i, j)|f (j)| < ∞ .
j∈E
Cette action préserve les fonctions bornées. Plus précisément on rappelle que kQ.f k∞ ≤ kf k∞
dès que kf k∞ < ∞.
Action sur les mesures. La matrice de transition Q agit également sur les mesures posi-
tives sur E de la façon suivante : si µ est une mesure positive, on définit la mesure µ.Q en
posant X
∀j ∈ E , (µ.Q)(j) = µ(i)p(i, j) ∈ [0, ∞] . (III.20)
i∈E
Il faut bien remarquer que (µ.Q)(j) peut être une quantité infinie. On note hµi =
P
j∈E µ(j)
la masse totale de µ. Notamment µ ∈ M1 (E) ssi hµi = 1. On note
Mf (E) = µ : E → [0, ∞] : hµi < ∞ ,
l’ensemble des mesures de masse finie sur E. L’action de Q sur les mesures de masse finie
préserve leur masse, c’est-à-dire que
∀µ ∈ Mf (E) ,
hµi = hµ.Qi
car hµ.Qi = j∈E µ.Q(j) = i,j∈E µ(i)p(i, j) = i∈E µ(i) j∈E p(i, j) = j∈E µ(i) = hµi.
P P P P P
86
En particulier, on voit que
µ ∈ M1 (E) =⇒ µ.Q ∈ M1 (E) .
Pour toute fonction f : E → R et toute mesure positive µ, on définit
X
hµ, f i = µ(i)f (i)
i∈E
qui a bien un sens si µ(i)|f (i)| < ∞. Si f est bornée et µ ∈ Mf (E), alors |hµ, f i| ≤
P
i∈E
hµikf k∞ .
Lemme III.2.1 Soit µ ∈ M1 (E). La loi de Xn sous Pµ est µ.Qn . Donc, pour toute fonction
f : E → R, bornée,
∀n ∈ N, Eµ [f (Xn )] = hµ.Qn , f i = hµ , Qn .f i.
Preuve : on remarque que (III.19) implique que pour tout j ∈ E, on a
X X
Pµ (Xn = j) = Pµ (X0 = i; . . . ; Xn = j) = µ(i)p(i, i1 )p(i1 , i2 ) . . . p(in−1 , j)
i,i1 ,...,in−1 ∈E i,i1 ,...,in−1 ∈E
X X X
= µ(i) p(i, i1 )p(i1 , i2 ) . . . p(in−1 , j) = µ(i)[Qn ](i, j)
i∈E i1 ,...,in−1 ∈E i∈E
n
= µ.Q (j) .
Cela montre bien que µ.Qn est la loi de Xn sous Pµ .
Un des buts généraux de ce chapitre sera de trouver des hypothèses satisfaisantes sous
lesquelles limn [Qn ](i, j) existe.
Remarque III.2.1 Lorsque l’espace E est fini, ce qui précède se traduit par du "vrai" calcul
matriciel. On peut toujours se ramener à E = {1, . . . , N }, où N = #E. Une fonction est un
vecteur, c’est-à-dire une matrice N × 1, une mesure est un vecteur du dual, c’est-à-dire une
matrice 1 × N .
Exemple III.2.1 On considère une marche aléatoire sur Zd de loi de saut π. La matrice de
transition de la marche Q = (p(i, j))i,j∈Zd est donnée par π(j − i) = p(i, j) (voir l’exemple
III.1.1, page 74). On étend la notion de produit de convolution ∗ introduite à l’exemple III.1.4,
page 76, aux mesures de probabilité sur Zd et on vérifie facilement que
∀n ∈ N , ∀i, j ∈ Zd , [Qn ](i, j) = π ∗n (j − i) .
Les détails sont laissés au lecteur.
Exemple III.2.2 Soit Q = (p(i, j))i,j∈N , une matrice de transition sur N. On dit qu’elle
satisfait la propriété de branchement si la condition suivante est satisfaite :
∀i, i0 ∈ N , p(i, ·) ∗ p(i0 , ·) = p(i + i0 , ·) , (III.21)
où ∗ désigne le produit de convolution introduit à l’exemple III.1.4, page 76. On pose ξ =
p(1, ·). Il est alors facile de voir que p(i, ·) = ξ ∗i et donc que Q est la matrice d’un processus
de branchement de loi de reproduction ξ.
87
III.2.b Irréductibilité, période.
Dans cette section nous étudions les propriétés algèbriques d’une matrice de transition
Q = (p(i, j))i,j∈E .
Exemple III.2.3 On considère la marche aléatoire sur Z de loi de saut π, donnée par
1
π(−2) = π(2) = 2
.
On note Q la matrice de transition d’une telle marche. On voit que l’ensemble 2Z des entiers
pairs est fermé ainsi que l’ensemble 2Z + 1 des entiers impairs. On voit d’ailleurs que l’étude
d’une telle marche se ramène à étudier la marche aléatoire simple sur Z.
Le lemme suivant montre que les parties Q-fermées constituent des pièges pour les chaînes
de matrice de transition Q.
Lemme III.2.3 Si F est Q-fermé, alors pour toute loi d’entrée µ ∈ M1 (E),
(III.22)
Pµ -p.s. ∀n ∈ N , Xn ∈ F ) =⇒ ∀m ∈ N , Xn+m ∈ F .
Supposons que µ(F ) = 1, alors sous Pµ , X est une chaîne de Markov de loi d’entrée µ et de
matrice de transition Q|F .
Preuve : il est facile de montrer que pour tous i ∈ F , tout j ∈ E et tout ` ∈ N, on a
(III.24)
Pµ ∃n, m ∈ N : Xn ∈ F et Xn+m ∈
/F =0.
Or on remarque que
[ [ [
∃n, m ∈ N : Xn ∈ F et Xn+m ∈
/F = {Xn = i; Xn+m = j} ,
n,m∈N i∈F j ∈F
/
Il suffit donc montrer que pour tout n ∈ N, tout m ∈ N∗ , tout i ∈ F et tout j ∈ / F que
Pµ (Xn = i; Xn+m = j) = 0. La propriété de Markov au temps n sous Pµ implique que
Pµ (Xn = i; Xn+m = j) = Pµ (Xn = i)Pi (Xm = j) et (III.23) montre que Pi (Xm = j) = 0,
ce qui prouve donc (III.22). Le dernier point du lemme est une conséquence simple du lemme
III.2.2, dont la preuve est laissée au lecteur.
88
Définition III.2.2 Rappelons que Q = (p(i, j))i,j∈E est une matrice de transition sur E.
(Accessibilité) Soient i, j ∈ E. On dit que j est accessible depuis i, ce qui est noté
i → j, si i = j ou si i 6= j et s’il existe n ≥ 1 et i1 , . . . in−1 ∈ E tels que
On observe que si p(i, j) > 0, alors i → j. D’autre part (III.19) montre que
Remarque III.2.2 (sur le PGCD d’un ensemble infini d’entiers) Soit A ⊂ N un ensemble
non-vide et fini d’entiers ; on note PGCD(A) le plus grand commun diviseur des entiers de
A. On remarque que si A ⊂ A0 ⊂ N, où A0 est fini alors PGCD(A0 ) ≤ PGCD(A). Si on fixe
D un ensemble infini d’entiers, on se donne q0 ∈ D et pour tout q ≥ q0 , on pose d(q) =
PGCD(D ∩ {1, . . . , q}). On voit que q 7→ d(q) ≥ 1 décroît : cette suite d’entiers est donc
stationnaire à sa limite notée d, que l’on définit très naturellement comme PGCD(D).
Exemple III.2.5 On considère la marche aléatoire simple sur Zd . Il est assez facile de voir
qu’elle est irréductible et 2 périodique.
Exemple III.2.6 Pour les processus de branchement de loi de reproduction, l’état 0 est
absorbant : cela découle de la définition.
Exemple III.2.7 Soit G = (S, A), un graphe non-orienté, simple (pas d’arêtes multiples),
et bien sûr, dénombrable (c’est-à-dire que S est dénombrable). On munit G d’un système de
poids (Ca ; a ∈ A) et on suppose toujours que
X
∀s ∈ S , π(s) = C{s,s0 } ∈ R∗+ .
s0 ∼s
89
On note Q = (p(s, s0 ))s,s0 ∈S la matrice de transition de la marche sur G associée aux poids
C = (Ca ; a ∈ A), comme défini à l’exemple III.1.3, page 75.
Soit n ∈ N∗ et soient n + 1 sommets s0 , s1 , . . . , sn ∈ S. Alors on introduit la notion de
chemin comme suit :
On dit alors que γ relie s0 à sn dans G. On définit ensuite le poids d’un chemin γ =
(s0 , s1 , . . . , sn ) comme le produit des poids des arêtes qui le composent :
Cela montre que Q est irréductible ssi pour tous sommets s, s0 , il existe un chemin les reliant
qui est de poids strictement positif. On observe aussi que pour une marche sur un graphe,
s → s0 implique s0 → s et donc que s ↔ s0 , ce qui est une propriété remarquable sur laquelle
nous reviendrons plus loin.
Lorsque l’on considère une marche aléatoire simple sur G, alors les poids sont constants
et on rappelle que p(s, s0 ) = 1/deg(s) si s ∼ s0 et p(s, s0 ) = 0, sinon. On voit alors qu’une
marche aléatoire simple sur un graphe est irréductible ssi pour tous sommets s, s0 ∈ S, il existe
un chemin les reliant et on dit dans ce cas que le graphe est connexe.
Exemple III.2.8 Soit Q = (p(i, j))i,j∈N , la matrice de transition d’un processus de naissance
et de mort, comme défini à l’exemple III.1.2, c’est-à-dire que p(i, j) = 0 dès que |i − j| ≥ 2.
On voit que si p(n, n + 1) = 0, alors F = {0, . . . , n} est un ensemble Q-fermé. De même si
p(n, n − 1) = 0, alors {n, n + 1, . . .} est un ensemble Q-fermé. On suppose que p(n, n + 1)p(n +
1, n) > 0, pour tout n ∈ N. Alors, Q est irréductible. La réciproque est vraie (nous laissons
cela en exercice).
On s’intéressera surtout aux chaînes irréductibles et la plupart des exemples de chaînes
non-irréductibles que nous traiterons seront des chaînes possédant des éléments absorbants.
Examinons ici la notion de période bien qu’elle n’intervienne qu’à la fin de ce cours.
En particulier, si d = 1 (c-à-d si i et j sont apériodiques) alors [Qn ](i, j) > 0, pour tout entier
n assez grand.
Preuve : on pose Di = {n ≥ 1 : [Qn ](i, i) > 0} et Dj = {n ≥ 1 : [Qn ](j, j) > 0}. Puisque
i ↔ j, il existe m0 , n0 ≥ 1 tels que [Qm0 (i, j)] > 0 et [Qn0 ](j, i) > 0. Soit n ∈ Dj . Pour tout
p ≥ 0, on observe que
X
[Qm0 +n0 +pn ](i, i) = [Qm0 ](i, i0 ) · [Qn ](i0 , i1 ) . . . [Qn ](ip−1 , ip ) · [Qn0 ](ip , i)
i0 ,...,ip
90
≥ [Qm0 ](i, j) · ([Qn ](j, j))p · [Qn0 ](j, i) > 0 .
On voit que pour tout n ∈ Dj et tout p ∈ N, on a m0 +n0 +pn ∈ Di . Cela implique notamment
que m0 + n0 ∈ Di et que m0 + n0 + n ∈ Di . Par conséquent di |n, pour tout n ∈ Dj , ce qui
entraîne que di |dj . De même, on montre que dj |di , ce qui montre que di = dj = d.
Soient m, n ∈ Dj . On observe que
X
[Qm+n ](j, j) = [Qm ](j, k) · [Qn ](k, j) ≥ [Qm ](j, j)[Qn ](j, j) > 0 ,
k∈E
ce qui montre que m + n ∈ Dj . Par conséquent, Dj est stable par addition. Il est facile ensuite
de voir qu’il existe n1 , . . . , n` ∈ Dj tels que d = dj = PGCD{n1 , . . . , n` }. Par le théorème de
Bezout, il existe k1 , . . . , k` ∈ Z tels que k1 n1 + . . . + k` n` = d. On pose alors
X X
a= kp np et b = |kp |np .
1≤p≤` 1≤p≤`
kp >0 kp <0
Corollaire III.2.5 Si Q est irréductible, tous les états ont la même période d, qui est appelée
période de Q (ou de la chaîne de Markov associée). Si d = 1, on parle de matrice de transition
(ou de chaîne) apériodique.
Exemple III.2.9 Soit Q = (p(i, j))i,j∈N la matrice de transition d’un processus de naissance
et de mort, comme défini à l’exemple III.1.2, c’est-à-dire que p(i, j) = 0 dès que |i − j| ≥ 2.
On a vu à l’exemple III.2.8 que Q est irréductible ssi
∀n ≥ 0 , p(n, n + 1)p(n + 1, n) > 0 .
On suppose que Q est irréductible et on détermine la période de Q : si p(n, n) > 0, alors il est
clair que n est apériodique. Il est facile de voir que si p(n, n) = 0, pour tout n ∈ N, alors la
période est 2 : en effet, pour revenir en n, il faut monter autant de fois que l’on est descendu
et par ailleurs [Q2 ](n, n) ≥ p(n, n + 1)p(n + 1, n) > 0. Le résultat précédent implique donc
que Q est apériodique ssi il existe n0 ∈ N tel que p(n0 , n0 ) > 0 et que si p(n, n) = 0, pour tout
n ∈ N, alors la période de Q est 2.
91
La proposition suivante montre que l’étude d’une chaîne d-périodique se ramène à l’étude
de d chaînes apériodiques.
où k + 1 est l’unique entier ` ∈ {0, . . . , d−1} tel que d divise k+1−`. De plus, si les ensembles
E0 , . . . , Ed−1 satisfont la condition précédente, alors pour tout 0 ≤ k ≤ d − 1, la matrice
Preuve : on suppose d’abord que Q est d-périodique, avec d ≥ 2. On fixe i0 ∈ E et pour tout
0 ≤ k ≤ d − 1, on pose
Puisque Q est irréductible, il est facile de vérifier que d−1 k=0 Ek = E. On fixe ensuite 0 ≤ k <
S
` ≤ d − 1 et on raisonne par l’absurde en supposant que i ∈ Ek ∩ E` . Il existe donc n1 , n2 ≥ 0,
tels que [Qk+n1 d ](i0 , i) > 0 et [Q`+n2 d ](i0 , i) > 0. D’autre part, puisque Q est irréductible, il
existe n3 ≥ 1,tel que [Qn3 (i, i0 )] > 0. On voit facilement que cela implique que
Cela entraîne que d divise k + n1 d + n3 . Par un argument similaire on montre que d divise
` + dn2 + n3 . Par conséquent, d divise ` − k ∈ {1, . . . , d − 1}, ce qui entraîne une contradiction.
On a donc montré par l’absurde que Ek ∩ E` = ∅ dès que k < `.
Soit k ∈ {0, . . . , d − 1} et soit j ∈ E. On remarque que par définition de Ek et puisque
Qk+1+nd = Qk+nd .Q, on a
X
∀n ∈ N , ∀i ∈ Ek , [Qk+1+nd ](i0 , j) = [Qk+nd ](i0 , i0 ) · p(i0 , j) ≥ [Qk+nd ](i0 , i) · p(i, j) .
i0 ∈Ek
(III.27)
Si i ∈ Ek , alors, par définition il existe n ≥ 0, tel que [Qk+nd ](i0 , i) > 0 et si p(i, j) > 0, (III.27)
implique que [Qk+1+nd ](i0 , j) > 0, c’est-à-dire j ∈ Ek+1 . Si j ∈ Ek+1 , alors par définition,
il existe n ≥ 0 tel que [Qk+1+nd ](i0 , j) > 0 et (III.27) entraîne qu’il existe i0 ∈ Ek tel que
p(i0 , j) > 0. On a donc montré que si Q est irréductible d-périodique, il existe une partition
de E en d sous-ensembles E0 , . . . , Ed−1 qui satisfont (III.26).
Montrons la réciproque ainsi que le dernier point du théorème. Supposons que E est
partitionné en d − 1 ensembles E0 , . . . , Ed−1 qui satisfont (III.26). On fixe i ∈ E0 . Il est facile
de montrer par récurrence que si [Qn ](i, j) > 0, alors j ∈ En . Nous laissons les détails au
lecteur. On en déduit que la période de i, notée di , divise d. Comme Q est irréductible, on a
montré que tous les états ont même période, notée d0 . On a donc montré que d0 |d.
92
Montrons ensuite que Qd|E0 est une matrice de transition qui est irréductible : on se donne
i ∈ E0 et j ∈ E. On a montré que si [Qd ](i, j) > 0, alors j ∈ E0 . On en déduit que
X X
∀i ∈ E0 , [Qd ](i, j) = [Qd ](i, j) = 1 . (III.28)
j∈E0 j∈E
Puisque [Qn ](i, j) > 0, il existe i1 , . . . , iq ∈ E tels que [Qd ](i, i1 ) > 0, ..., [Qd ](iq−1 , iq ) > 0
et [Qr ](iq , j) > 0. Par conséquent i1 , . . . , iq ∈ E0 et puisque j ∈ E0 , on a r = 0. On a donc
prouvé que
ce qui implique bien que Qd|E est irréductible. Rappelons que d0 désigne la période de Q et
0
que d0 |d. On fixe i ∈ E0 . Il existe n1 , ..., n` tels que
Par (III.29), on voit que d divise n1 , ..., n` . Par conséquent d|d0 , et donc d = d0 . On a prouvé
que Q est d-périodique. Ce qui implique que Qd|E est apériodique. On prouve un résultat
0
similaire pour Qd|E , en réindexant les ensembles. Cela termine la preuve du théorème.
k
93
(i) Pour toute µ ∈ M1 (E), sous Pµ , (f (Xn∧T ))n≥0 est une (sur/sous)-martingale po-
sitive relativement à (Fn )n≥0 .
(ii) f est (sur/sous)-harmonique sur F .
Preuve : T est un (Fn )n≥0 -temps d’arrêt car c’est le premier temps d’atteinte de E\F , et
car la suite (Xn )n≥0 est (Fn )n≥0 -adaptée. On traite le cas "harmonique", les autres cas se
prouvant de la même manière. On suppose (i). On fixe i ∈ F . On remarque que Pi -p.s. T ≥ 1
et donc X1∧T = X1 . Donc
f (i) = Ei [f (X0 )] = Ei [f (X0∧T )] = Ei [f (X1∧T )] = Ei [f (X1 )] = (Q.f )(i) ,
qui entraîne bien (ii). Réciproquement, on suppose P (ii) et on remarque que f (X(n+1)∧T ) =
1{T ≤n} f (XT )+1{T >n} f (Xn+1 ). Or 1{T ≤n} f (XT ) = 0≤k≤n 1{T =k} f (Xk ), qui est clairement
Fn -mesurable. De plus {T > n} ∈ Fn car T est un temps d’arrêt. La propriété de Markov
simple au temps n implique alors
Pµ -p.s. Eµ f (X(n+1)∧T )|Fn = 1{T ≤n} f (XT ) + 1{T >n} EXn f (X1 )
Exemple III.2.10 Soit Q = (p(i, j))i,j∈N , la matrice de transition d’un processus de nais-
sance et de mort, comme défini à l’exemple III.1.2, page 75, c’est-à-dire que p(i, j) = 0, dès
que |i − j| ≥ 2. On a vu à l’exemple III.2.8, page 90, que Q est irréductible ssi
∀n ≥ 0 , p(n + 1, n)p(n, n + 1) > 0 .
On suppose que Q est irréductible et on se propose de trouver les fonctions Q-harmoniques
sur N∗ = {1, 2, . . .}. Supposons que f : N → R+ soit une telle fonction, c’est-à-dire que
(Q.f )(n) = f (n), pour tout n ∈ N∗ . Cela est équivalent à dire
f (n) = p(n, n − 1)f (n − 1) + p(n, n)f (n) + p(n, n + 1)f (n + 1) , n≥1.
Comme Q est une matrice de transition, on a p(n, n) = 1−p(n, n−1)−p(n, n+1). Le système
d’équations précédent est donc équivalent à
p(n,n−1)
f (n + 1) − f (n) = p(n,n+1) f (n) − f (n − 1) , n ≥ 1 ,
On voit que f (0) et f (1) peuvent être fixés arbitrairement. On remarque, en raisonnant de la
même façon, que les fonctions Q-harmoniques sur N sont nécessairement constantes.
94
Donnons deux exemples importants. Soit F ⊂ E, non-vide. On adopte la convention
inf ∅ = ∞ et on pose
(1)
TF = inf{n ∈ N : Xn ∈ F } et TF = inf{n ≥ 1 : Xn ∈ F } ,
On suppose que i ∈
/ F . On utilise la notation TF (θ1 X) = inf{n ∈ N : Xn+1 ∈ F } et on vérifie
que {X0 ∈
/ F ; TF < ∞} = {X0 ∈ / F ; TF (θ1 X) < ∞}. La propriété de Markov et le fait que
/ F entraînent que
i∈
et en intégrant, f (i) = Pi (TF < ∞) = Ei [f (X1 )] = (Q. f )(i), pour tout i ∈/ F , ce qui implique
le résultat voulu pour f .
On introduit la notation TF(1) (θ1 X) = inf{n ≥ 1 : Xn+1 ∈ F }, et on vérifie que que
/ } 1{T (1) (θ1 X)<∞} . La propriété de Markov au temps 1, implique
1{T (1) <∞} = 1{X1 ∈F } + 1{X1 ∈F
F F
que Pi -p.s.
(1)
Ei 1{T (1) <∞} |F1 = 1{X1 ∈F } + 1{X1 ∈F / } PX1 TF < ∞
F
∗
= 1{X1 ∈F } + 1{X1 ∈F
/ } f (X1 )
≥ f ∗ (X1 ) ,
95
La mesure µ est dite Q-excessive si elle satisfait (a), (b) et (γ), où la condition (γ) est donnée
comme suit.
(γ) On a µ ≥ µ.Q, c’est-à-dire µ(j) ≥ i∈E µ(i)p(i, j), pour tout j ∈ E.
P
Lorsque la mesure µ est de masse totale 1 et Q-invariante, on parle plutôt de loi Q-invariante.
Lorsqu’il n’y a pas d’ambiguïté, on parle simplement de mesure invariante ou de loi invariante
ou de mesure excessive. Par ailleurs, on emploie également les termes de mesure/loi "station-
naire" ou "d’équilibre", qui sont strictement synonymes de mesure/loi invariante.
Justifions le terme de loi invariante : on suppose que π est une loi Q-invariante. Le lemme
III.2.1 montre que la loi de Xn sous Pπ est π.Qn . Or π.Qn = π. Donc, sous Pπ , toutes les
variables ont la même loi, qui est π.
Remarque III.2.3 Si µ est Q-invariante, il en est de même pour c.µ, où c est n’importe quel
nombre réel strictement positif. Par conséquent, si Q admet un mesure invariante µ, de masse
finie (ce qui n’est pas toujours le cas), la loi π donnée par π(i) = µ(i)/hµi, pour tout i ∈ E,
est une loi invariante.
Exemple III.2.11 Soit Q = (p(i, j))i,j∈N , la matrice de transition d’un processus de nais-
sance et de mort, comme défini à l’exemple III.1.2, c’est-à-dire que p(i, j) = 0 dès que
|i − j| ≥ 2. On a vu à l’exemple III.2.8 (page 90) que Q est irréductible ssi
On suppose que Q est irréductible et on se propose de trouver les mesures Q-invariantes. Une
mesure positive est Q-invariante ssi µ.Q = µ, c’est-à-dire ssi pour tout n ≥ 1, on a
µ(0) = µ(1)p(1, 0) + µ(0)p(0, 0)
µ(n) = µ(n + 1)p(n + 1, n) + µ(n)p(n, n) + µ(n − 1)p(n − 1, n)
On voit que si µ(0) est fixé, il n’y a qu’une seule solution à ce système d’équations : en effet,
on vérifie que Y p(k−1,k)
µ(n) = µ(0) p(k,k−1)
, n ≥ 1,
1≤k≤n
ce qui est équivalent à dire que µ(n + 1)p(n + 1, n) = µ(n)p(n, n + 1), pour tout n ∈ N.
Un processus de vie et de mort n’admet donc qu’une seule mesure Q-invariante, à une
constante multiplicative près. Cela implique le résultat suivant : on pose
X Y p(k−1,k)
S =1+ p(k,k−1)
∈ ]1, ∞] .
n≥1 1≤k≤n
— Si S < ∞, alors il existe une unique mesure de probabilité Q-invariante donnée par
1 1
Y p(k−1,k)
µ(0) = S et µ(n) = S p(k,k−1)
, n≥1.
1≤k≤n
96
Mentionnons que certaines matrices de transition (y compris des matrices irréductibles)
n’admettent pas de mesure invariante. Le problème consistant à trouver une mesure invariante,
n’est en général pas simple. Il y a cependant des chaînes dont la mesure invariante est simple
à trouver : ce sont les chaînes réversibles.
Définition III.2.5 Soit Q = (p(i, j))i,j∈E , une matrice de transition. On dit qu’elle est ré-
versible s’il existe une mesure positive µ sur E, telle que
Lemme III.2.9 Soit Q une matrice de transition réversible et on note µ une mesure de
réversibilité de Q. Alors µ est Q-invariante.
Preuve : pour tout j ∈ E, on a i∈E µ(i)p(i, j) = i∈E µ(j)p(j, i) = µ(j) i∈E p(j, i) =
P P P
µ(j), ce qui montre le lemme.
La proposition suivante explique le terme "réversible".
Proposition III.2.10 Soit Q = (p(i, j))i,j∈E une matrice de transition qui admet une mesure
invariante notée µ. On suppose que µ(i) > 0, pour tout i ∈ E. On définit Q∗ = (p∗ (i, j))i,j∈E
par
∀i, j ∈ E , p∗ (i, j) = p(j, i)µ(j)/µ(i) .
Alors, les assertions suivantes sont vérifiées.
(i) Q∗ est une matrice de transition sur E. C’est la matrice de transition duale de Q.
Elle admet µ comme mesure invariante. De plus, Q∗ = Q ssi Q est réversible de mesure
de réversibilité µ.
(ii) On suppose que µ ∈ M1 (E). On suppose que, sous P, (Xn )n≥0 et (Xn∗ )n≥0 sont
deux chaînes de Markov de loi d’entrée µ et de matrices de transition respectives Q et
Q∗ . Alors pour tout n ∈ N,
(loi)
X0∗ , X1∗ , . . . , Xn−1
∗
, Xn∗ (III.30)
= (Xn , Xn−1 , . . . , X1 , X0 ) .
Par conséquent, Q est réversible de mesure de réversibilité µ, ssi, lorsque X0 est de loi
µ, on a
(loi)
X0 , X1 , . . . , Xn−1 , Xn = (Xn , Xn−1 , . . . , X1 , X0 ) . (III.31)
Preuve : puisque µ est une loi Q-invariante, on voit que pour tout i ∈ E, on a
1
X X
p∗ (i, j) = µ(i) µ(j)p(j, i) = µ(i)/µ(i) = 1 ,
j∈E j∈E
ce qui montre que Q∗ est une matrice de transition. On observe ensuite que pour tout j ∈ E,
on a X X
µ(i)p∗ (i, j) = µ(j) p(j, i) = µ(j) ,
i∈E i∈E
97
ce qui montre que µ est une mesure Q∗ -invariante. Il est par ailleurs immédiat de vérifier que
Q est réversible ssi Q∗ = Q. Cela prouve (i). On fixe ensuite n ∈ N et i0 , . . . , in ∈ E. On a
Y Y µ(ik+1 )
P(X0∗ = i0 , . . . ; Xn∗ = in ) = µ(i0 ) p∗ (ik , ik+1 ) = µ(i0 ) µ(i )
p(ik+1 , ik )
k
0≤k<n 0≤k<n
Y
= µ(in ) p(in−k , in−k−1 )
0≤k<n
= P(X0 = in ; X1 = in−1 ; . . . ; Xn = i0 ) ,
ce qui implique (III.30). On voit donc que (III.31) a lieu ssi Q = Q∗ , et on conclut.
Exemple III.2.12 (Les marches sur les graphes pondérés sont exactement les chaînes réver-
sibles) On se donne G = (S, A), un graphe non-orienté, simple (pas d’arêtes multiples) et
bien sûr, dénombrable (c’est-à-dire que S est dénombrable). On le munit d’un système de
poids C = (Ca ; a ∈ A) (on rappelle que 0 < Ca < ∞, pour toute arête a ∈ A). On suppose
toujours que X
∀s ∈ S , π(s) = C{s,s0 } ∈ R∗+ .
s0 ∼s
On note Q = (p(s, s0 ))s,s0 ∈S ,
la matrice de transition de la marche sur G associée aux poids
C, comme défini à l’exemple III.1.3, page 75 : on rappelle que p(s, s0 ) = C{s,s0 } /π(s) si s ∼ s0
et p(s, s0 ) = 0 sinon. On voit alors que
∀s, s0 ∈ S tels que s ∼ s0 , π(s)p(s, s0 ) = C{s,s0 } = C{s0 ,s} = π(s0 )p(s0 , s) . (III.32)
Si s et s0 ne sont pas voisins alors p(s, s0 ) = p(s0 , s) = 0. Cela implique donc dans tous les cas
que
∀s, s0 ∈ S , π(s)p(s, s0 ) = π(s0 )p(s0 , s) .
On voit donc que π est une mesure de réversibilité pour Q et donc que la matrice de transition
est Q est réversible. Cela implique par la même occasion que π est une mesure Q-invariante.
Si on a une marche simple sur le graphe G = (S, A), alors π(s) = deg(s) est une mesure
Q-invariante.
Réciproquement. Soit Q une matrice de transition sur E qui est rendue réversible par la
mesure µ, c’est-à-dire que µ(i)p(i, j) = µ(j)p(j, i), pour tous i, j ∈ E. On rappelle que la
mesure rendant Q réversible doit satisfaire 0 < µ(i) < ∞, pour tout i ∈ E. On voit donc
que si p(i, j) > 0, alors p(j, i) > 0. Bien qu’on ait le choix pour définir le graphe pondéré
correspondant à la matrice réversible Q, on prend le plus économique qui est donné par
S = E , A = {i, j} ; i, j ∈ E : p(i, j) > 0 et C{i,j} = µ(i)p(i, j) , {i, j} ∈ A .
On voit facilement que la matrice de transition de la marche aléatoire sur les graphe pondéré
ainsi défini, est exactement la matrice réversible Q.
Examinons maintenant le lien entre loi invariante et période.
Proposition III.2.11 Soit Q = (p(i, j))i,j∈E , une matrice de transition que l’on suppose
irréductible et d-périodique avec d ≥ 2. Soit E0 , ... , Ed−1 une partition de E en d sous-
ensembles non-vides qui satisfont la condition (III.26) de la proposition III.2.6. On suppose
que Q admet une loi invariante notée π. Alors les assertions suivantes sont vérifiées.
98
(i) On a π(E0 ) = . . . = π(Ed−1 ) = 1/d.
(ii) Pour tout 0 ≤ k ≤ d − 1, on pose πk = (dπ(i); i ∈ Ek ). Alors πk est une loi
invariante de la matrice de transition Qd|E .
k
Réciproquement, si on se donne π0 = (π0 (i), i ∈ E0 ), une loi Qd|E -invariante, on définit,
0
πk = (πk (j), j ∈ Ek ), pour tout 1 ≤ k ≤ d − 1, par
X
∀j ∈ Ek , πk (j) := π0 (i) [Qk ](i, j) . (III.33)
i∈E0
Alors, πk est une loi Qd|E -invariante. De plus π = d−1 π0 + . . . + d−1 πd−1 est une loi Q-
k
invariante.
Ni (x) est égal au nombre de visites de la suite x en {i} à partir du temps 1. En effet il est
facile de vérifier que X
Ni (x) = 1{xn =i} .
n≥1
Il est facile de montrer par récurrence que pour tout p ≥ 0, Ti(p) est un (Fn )n≥0 -temps d’arrêt.
Nous donnons plus loin un contenu plus parlant à la définition suivante.
Définition III.3.1 Avec les notations introduites ci-dessus, on définit les notions suivantes.
(Etat récurrent) i ∈ E est récurrent si Pi (Ti(1) < ∞) = 1.
(Etat transient) i ∈ E est transient (ou transitoire) ssi Pi (Ti(1) < ∞) < 1.
99
Excursions. On définit ensuite les excursions de la suite x en dehors de l’état {i}. Pour
cela on choisit un point ∂ qui n’est pas dans l’espace d’état E : ∂ ∈/ E. On voit ∂ comme un
point cimetière (ou bien un point à l’infini). On pose E ∗ = E ∪ {∂}, qui reste un ensemble
dénombrable. On note (∂), la suite à valeurs dans E ∗ qui est constante à ∂. Soit x = (xn )n≥0 ∈
E N . On définit la première excursion de x hors de {i} comme la suite E (1) (x) = (En(1) (x))n≥0 ,
à valeurs dans E ∗ donnée par
xn si n < Ti(1) (x)
En (x) =
(1)
∂ si n ≥ Ti(1) (x).
Si Ti(1) (x) = ∞, alors E (1) (x) = x. On définit ensuite les excursions successives E (p) (x), p ≥ 1,
en posant
E si Ti(p) (x) < ∞
( (1)
θT (p) (x) x
E (p+1)
(x) = i
(∂) si Ti(p) (x) = ∞.
Il est facile de voir que pour tout p ≥ 1,
(p)
Ti (x) < ∞ =⇒ E (p+1) (x) = E (p) θT (1) (x) x . (III.34)
i
et si T
i
(p)
(x) < ∞ mais T i
(p+1)
(x) = ∞, alors
Théorème III.3.1 On note E (p) , p ≥ 1, la suite des excursions de X en dehors de l’état {i},
comme définies précédemment. Alors, on a l’alternative suivante.
(1)
(Cas 1) Si i est récurrent, c-à-d si Pi (Ti < ∞) = 1, alors
(p)
Pi -p.s. ∀p ≥ 1 , Ti <∞ et Ni = ∞ .
De plus, sous Pi , les excursions E (p) , p ≥ 1, sont indépendantes et de même loi.
(1)
(Cas 2) Si i est transient, c-à-d si Pi (Ti < ∞) < 1, alors sous Pi , la variable aléatoire Ni
a une loi géométrique. Plus précisément, si on pose ρi := Pi (Ti(1) = ∞) > 0, on a
∀p ≥ 0 , Pi (Ni = p) = ρi (1 − ρi )p .
De plus, sous la probabilité conditionnelle Pi ( · | Ni = p), les assertions suivantes sont vérifiées.
100
• Les excursions E (1) , . . . , E (p+1) sont indépendantes.
• E (1) , . . . , E (p) ont même loi que E (1) sous Pi ( · |Ti(1) < ∞).
• E (p+1) a même loi que E (1) sous Pi ( · |Ti(1) = ∞).
Fp+1 (X) = 1{T (1) <∞} Gp+1 (E (1) )Fp (θT (1) X). (III.35)
i i
On remarque que XT (1) = i sur l’événement {Ti(1) < ∞}. Par conséquent la propriété de
i
Markov forte au temps Ti(1) implique que Pi -p.s. on a
Ei Fp+1 (X)|FT (1) = 1{T (1) <∞} Gp+1 (E (1) )Ei Fp (θT (1) X)|FT (1)
i i i i
(1)
= 1{T (1) <∞} Gp+1 (E )Ei [Fp (X)] ,
i
Ei [Fp+1 (X)] = Ei 1{T (1) <∞} Gp+1 (E (1) ) Ei [Fp (X)] . (III.36)
i
Comme, {Ni ≥ p} = {Ti(p) < ∞}, en prenant G1 = . . . = Gp+1 = 1 dans (III.37), on obtient
(1) p
∀p ≥ 1 , Pi (Ni ≥ p) = Pi Ti <∞ . (III.38)
Si on se place dans le premier cas où P(Ti(1) < ∞) = 1, on voit que (III.37) et (III.38)
impliquent immédiatement les résultats désirés.
On se place dans le second cas où ρi = P(Ti(1) = ∞) > 0. (III.38) implique immédiatement
que Ni sous Pi suit une loi géométrique de paramètre ρi . On déduit ensuite facilement de
(III.37) que
h i
Ei 1{Ni =p} Gp+1 (E (1) ) . . . G2 (E (p) )G1 (E (p+1) )
Y
= Ei [1{T (1) =∞} G1 (E (1) )] Ei [1{T (1) <∞} G`+1 (E (1) )] .
i i
1≤`≤p
Par conséquent
h i
Ei Gp+1 (E (1) ) . . . G2 (E (p) )G1 (E (p+1) ) | Ni = p
101
(1) (1)
Y
= Ei [G1 (E (1) ) | Ti = ∞] Ei [G`+1 (E (1) ) | Ti <∞ ],
1≤`≤p
Par ailleurs si (iii∗ ) est satisfaite, on a Ei [Ni ] = Pi (Ti(1) < ∞)/Pi (Ti(1) = ∞).
Preuve : on remarque d’abord que (i) ⇔ (ii) et que (i∗ ) ⇔ (ii∗ ), d’après le théorème III.3.1.
Ce même théorème implique que ou bien Ni = ∞, Pi -presque sûrement, ou bien Ni suit une
loi géométrique sous Pi . Cela implique que Ei [Ni ] = ∞ ssi Pi (Ni = ∞) = 1 et aussi que
Ei [Ni ] < ∞ ssi Pi (Ni < ∞) = 1, ce qui n’a rien d’évident a priori. On conclut par Fubini
positif qui implique que
hX i X X
Ei [Ni ] = Ei 1{Xn =i} = Pi (Xn = i) = [Qn ](i, i) .
n≥1 n≥1 n≥1
[Qk+`+n ](i, i) ≥ [Qk ](i, j)[Qn ](j, j)[Q` ](j, i) et [Qk+`+n ](j, j) ≥ [Q` ](j, i)[Qn ](i, i)[Qk ](i, j) .
Cela entraîne que les séries n≥1 [Qn ](i, i) et n≥1 [Qn ](j, j) sont de même nature, ce qui
P P
permet de conclure grâce au corollaire III.3.2.
Le lemme suivant montre que, en un certain sens, la récurrence se propage.
102
Lemme III.3.4 On suppose que j est accessible depuis i : i → j. Si i est récurrent, alors
j → i et j est récurrent. De plus on a Pi (Nj = ∞) = 1, et Pj (Ni = ∞) = 1 également.
Preuve : raisonnons par l’absurde en supposant que i n’est pas accessible depuis j. Cela
signifie que pour tout n ∈ N, on a Pj (Xn = i) = [Qn ](j, i) = 0, ce qui implique que Pj (Ti(1) =
∞) = 1. Comme i → j, il existe k ∈ N tel que Pi (Xk = j) = [Qk ](i, j) > 0. En appliquant la
propriété de Markov au temps k, on voit que
(1)
Pi -p.s. Ei 1{X =j}∩{T (1) (θ X)=∞} | Fk = 1{Xk =j} PXk Ti = ∞ = 1{Xk =j} .
k i k
j; Ti(1) (θk X) = ∞} ⊂ {Ni < ∞} et on aurait Pi (Ni < ∞) > 0, ce qui contredit le fait
que i est récurrent (on utilise ici le corollaire III.3.2). Cela montre par l’absurde que j → i.
Comme on a supposé i → j, cela implique que i ↔ j. Le lemma (III.3.3) entraîne alors que j
est récurrent.
Il reste à montrer que Pi (Nj = ∞) = 1 : le théorème III.3.1 montre que sous Pi , les
excursions E (p) , p ≥ 1, de la chaîne
en dehors de l’état {i} sont indépendantes et de même loi.
Pour tout p ≥ 1, on pose Bp = ∃n ∈ N : En(p) = j . Il est clair que les variables de Bernoulli
1Bp , p ≥ 1, sont i.i.d. sous Pi . On pose α = P(B1 ) = Ei [1Bp ]. La loi des grands nombres sous
Pi , implique que
1
X
Pi -p.s. p 1Bq −− −→ α .
p→∞
1≤q≤p
Si α > 0, alors cela entraîne que Pi -p.s. = ∞. Par ailleurs, il est clair que
P
p≥1 1Bp
X
Pi -p.s. Nj ≥ 1Bp .
p≥1
On a donc montré que si α > 0, alors Pi (Nj = ∞) = 1. Il suffit donc de prouver que
α = P(∃n ∈ N : En(1) = j) > 0 . (III.39)
Comme i → j, il existe i1 , . . . , i` tel que p(i, i1 ) . . . p(i` , j) > 0. On note r = max{s ∈
{1, . . . , `} : is = i}. On a donc ir+1 , . . . , i` 6= i et p(i, ir+1 ) . . . p(i` , j) > 0. Cela montre qu’il
existe i∗1 , . . . , i∗m ∈ E\{i} tel que p(i, i∗1 ) . . . p(i∗m , j) > 0. Or on observe que
Pi -p.s. 1{∃n∈N:E (1) =j} ≥ 1{X0 =i;X1 =i∗1 ;...;Xm =i∗m ;Xm+1 =j} .
n
En prenant l’espérance de cette inégalité sous Pi , on a donc α ≥ p(i, i∗1 ) . . . p(i∗m , j) > 0, ce
qui entraîne (III.39) et donc que Pi (Nj = ∞) = 1. On a également, Pj (Ni = ∞) = 1, en
échangeant les rôles de i et j.
Définition III.3.2 On note R l’ensemble des états récurrents et on note T l’ensemble des
états transients. Si R 6= ∅, on note R1 , R2 . . . les classes d’équivalence de R pour la relation
de communication ↔. Les classes R1 , R2 . . . sont appelées les classes de récurrences et on
a la partition suivante de l’espace des états :
E = T ∪ R = T ∪ R1 ∪ R2 ∪ . . . .
On note que T ou R peuvent être vides mais que les deux ne peuvent être vides à la fois car
E est non-vide.
103
Supposons que R ne soit pas vide et soit R` , une classe de récurrence. Si i ∈ R` et si i → j,
alors j est récurrent et i ↔ j, par le lemme de propagation de la récurrence III.3.4. Cela
implique donc que j ∈ R` . On voit donc que c’est une partie Q-fermée. Autrement dit, si la
chaîne visite à un certain temps un état récurrent, elle reste piégée par la suite dans la classe
de récurrence de cet état, d’après le lemme III.2.3 et elle évolue dans cette classe R` comme
une chaîne de matrice de transition Q|R` . Le lemme de propagation de la récurrence III.3.4
indique qu’elle visite alors tous les états de R` une infinité de fois.
La classe des états transients n’est pas nécessairement fermée : une chaîne peut commencer
par ne visiter que des états transients puis à un certain instant, elle visite pour la première fois
un état récurrent ; à partir de cet instant la chaîne reste piégée dans la classe de récurrence
de cet état récurrent et visite une infinité de fois tous les états de cette classe.
Il se peut également que la chaîne ne visite aucun état récurrent. Dans ce cas, elle ne visite
qu’un nombre fini de fois chaque état car si elle visitait une infinité de fois un état, la propriété
de Markov au premier temps d’atteinte de cet état impliquerait que cet état soit récurrent.
Nous énonçons sous forme de théorème cette analyse du comportement d’une chaîne : ce
théorème est appelé théorème de classification des états. Pour l’énoncer, on introduit pour
tout sous-ensemble F ⊂ E, le temps d’arrêt
TF = inf n ∈ N : Xn ∈ F ,
Théorème III.3.5 (Classification des états) Pour toute loi d’entrée µ ∈ M1 (E), les asser-
tions suivantes sont vérifiées Pµ -presque sûrement.
(i) Si R` est une classe de récurrence telle que TR` < ∞, alors :
(a) pour tout n ≥ TR` , Xn ∈ R` ;
(b) pour tout 0 ≤ n ≤ TR` , Xn ∈ T ;
(c) pour tout j ∈ R` , on a Nj = ∞.
(ii) Si TR = ∞, c’est-à-dire si la chaîne n’atteint aucun état récurrent, alors pour tout
j ∈ E, on a Nj < ∞.
Preuve : on suppose qu’il y a au moins un état récurrent. Alors, il existe une ou plusieurs
classes de récurrence comme définies dans l’énoncé. Soit R` , une telle classe. Supposons que
i ∈ R` et que j ∈ E soit tel que p(i, j) > 0. Alors i → j. Le lemme III.3.4 entraîne que i ↔ j
et que j est récurrent. Par conséquent j ∈ R` . Cela montre que R` est une classe fermée.
On fixe ensuite µ ∈ M1 (E). On suppose qu’il y a au moins une classe de récurrence R` .
Comme elle est fermée, pour tout i ∈ R` , et pour tout n ≥ 0, on a Pi (Xn ∈ R` ) = 1 (voir
(III.22). Par conséquent, Pi (∀n ∈ N, Xn ∈ R` ) = 1. La propriété de Markov forte implique
que Pµ -p.s.
Eµ 1{TR <∞} 1{∃n∈N:Xn+T ∈R
`
/ ` } |FTR` = 1{TR <∞} PXTR ∃ n ∈ N : Xn ∈
R` `
/ R` = 0.
`
104
On remarque tout d’abord que le lemme III.3.4 implique que pour tout i, j ∈ R` , on ait
Pi (Nj = ∞) = 1. Par conséquent, pour tout i ∈ R` , on a Pi (∀j ∈ R` , Nj = ∞) = 1. On
remarque ensuite que
{TR` < ∞} ∩ {∃j ∈ R` : Nj < ∞} = {TR` < ∞} ∩ {∃j ∈ R` : Nj (θTR` X) < ∞}. (III.40)
En intégrant, on a donc 0 < Pµ (Ni = ∞) = Pµ (T{i} < ∞)Pi (Ni = ∞). Par conséquent
Pi (Ni = ∞) > 0, et le corollaire III.3.2 entraîne donc que Pi (Ni = ∞) = 1 et que i est
récurrent.
On a donc montré que si Pµ (Ni = ∞) > 0, alors i est récurrent. Autrement dit, si i est
transient, alors Pµ (Ni = ∞) = 0. Cela implique que Pµ (∃i ∈ T : Ni = ∞) = 0. Ensuite on
constate facilement que si TR = ∞, alors Nj = 0, pour tout j ∈ R. Par conséquent
Pµ (TR = ∞ ; ∃i ∈ E : Ni = ∞) ≤ Pµ (∃i ∈ T : Ni = ∞) = 0,
105
(i) Ou bien tous les états sont récurrents et pour toute µ ∈ M1 (E), on a
Pµ -p.s. ∀i ∈ E , Ni = ∞ .
(ii) Ou bien tous les états sont transients et pour toute µ ∈ M1 (E), on a
Pµ -p.s. ∀i ∈ E , Ni < ∞ .
Par conséquent, si tous les états sont transients, E est nécessairement infini et toute chaîne
de Markov irréductible à valeurs dans un espace d’états fini est récurrente.
Preuve : si Q est irréductible et s’il existe un état récurrent, alors le lemme III.3.4 implique
que tous les états sont récurrents. Comme tous les états communiquent, il n’existe qu’une
seule classe de récurrence qui est tout l’espace d’état et le théorème III.3.5 de classification
implique (i). Si tous les états sont transients, on est clairement dans le cas (ii) du théorème
III.3.5 de classification qui implique immédiatement le point (ii) du corollaire.
Supposons ensuite que E P soit un ensemble fini. On constate donc que {∀i ∈ E , Ni <
∞} = { i∈E Ni < ∞}. Or { i∈E Ni < ∞} = ∅ car la chaîne reste indéfiniment dans E.
P
On a donc Pµ (∀i ∈ E , Ni < ∞) = 0. Or si tous les états sont transients, on doit avoir
Pµ (∀i ∈ E , Ni < ∞) = 1, ce qui termine la preuve.
Cela démontre de nouveau le lemme II.2.24, page 53, qui a été prouvé à l’aide de technique
de martingales. On rappelle que q désigne la plus petite racine de ϕ(r) = r (voir le lemme
II.2.23, page 52). Il est facile de déduire des arguments développés dans la section II.2.e (page
50) que
X i
Pµ (∃n ∈ N : Zn+m = 0 , m ≥ 0 ) = Eµ q Z0 = q µ(i) .
i∈E
Cette probabilité (de tomber dans une classe de récurrence) peut, selon les lois de reproduction
ξ, prendre toutes les valeurs réelles entres 0 et 1.
106
Exemple III.3.2 (Le problème de Polya) On s’intéresse à la récurrence ou à la transience
des marches aléatoires simples symétriques dans Zd . On note (e1 , . . . , ed ), la base canonique
de Rd . On définit la mesure de probabilité π sur Zd par π(e1 ) = π(−e1 ) = . . . = π(ed ) =
π(−ed ) = 2d 1
. Pour simplifier, on se place sur (Ω, F , P), sur lequel on suppose définie une
suite i.i.d. de v.a. notée (ξn )n≥1 de loi commune π et on pose X0 = 0 et Xn = ξ1 + . . . + ξn ,
n ≥ 1. Il est facile de montrer que la matrice de transition d’une telle marche est irréductible.
Le corollaire III.3.6 montre l’alternative suivante.
• La marche est récurrente ssi E[N0 ] = n≥1 P(Xn = 0) = ∞.
P
(2n)! n!
P(X2n = 0) ≤ 2−2n · Mn où Mn = max 3−n .
(n!)2 k+`+m=n k!`!m!
107
Supposons que k+`+m = n et que 0 ≤ k ≤ ` ≤ m ≤ n avec k < m. On a k!m!
(k+1)!(m−1)! = n
k+1 ≤
1, ce qui entraîne que n!
k!`!m! ≤ (k+1)!`!(m−1)! .
n!
Cela implique par symétrie, que si kn +`n +mn =
n, alors
n! n n n
= Mn =⇒ kn − , `n − , mn − ≤1.
kn !`n !mn ! 3 3 3
Par la formule de Stirling, il existe une constante C, telle que Mn ≤ C/n. Il existe donc une
constante C ∗ telle que
C∗
P(X2n = 0) ≤ 3/2 .
n
On a donc E[N0 ] = n≥1 P(Xn = 0) < ∞, et la marche est transiente.
P
où Xn1 , . . . , Xnd sont les coordonnées de Xn dans la base canonique (e1 , . . . , ed ). On introduit
également les temps aléatoires τk , k ≥ 0, définis par
Il est facile de voir que les variables (τk+1 − τk )k≥0 sont indépendantes et de loi géométrique :
3 3 m−1
P(τk+1 − τk = m) = d
1− d
, m≥1.
On voit également que (Yτk )k≥0 est une marche aléatoire simple symétrique sur Z3 . Elle est
donc transiente : elle ne visite qu’un nombre fini de fois chaque site, ce qui implique que
limk kYτk k = ∞, P-presque sûrement. Ici k·k désigne la norme euclidienne. Comme Yn est
constante pour tout τk ≤ n < τk−1 , on a donc limn kYn k = ∞, P-presque sûrement. Enfin on
remarque que kYn k2 ≤ kXn k2 , ce qui implique que
P− p.s. limkXn k = ∞ .
n
108
Proposition III.3.7 On suppose Q irréductible. Alors la chaîne est récurrente ssi toute fonc-
tion positive Q-sur-harmonique est constante.
Preuve : on suppose d’abord que la chaîne est récurrente. Soit f : E → R+ telle que
f ≥ Q.f (f est sur-harmonique). On pose Yn = f (Xn ), n ≥ 0. La proposition III.2.7 montre
que pour tout i ∈ E, sous Pi , (Yn )n≥0 est une sur-martingale positive relativement à la
filtration (Fn )n≥0 . Le théorème de convergence des sur-martingales positives implique qu’il
existe Y∞ : Ω → [0, ∞], telle que Pi -p.s. on ait limn Yn = Y∞ . Comme les sur-martingales
décroissent en espérance, on a de plus Ei [Yn ] ≤ Ei [Y0 ] = f (i). Par Fatou, on en déduit que
Ei [Y∞ ] ≤ f (i) < ∞. Cela implique donc que Pi (Y∞ < ∞) = 1. On a donc
Comme la chaîne est supposée récurrente, pour tout j ∈ E, Pi -p.s. l’ensemble des temps
{n ∈ N : Xn = j} est infini. Donc, pour tout j ∈ E, on a Pi (Y∞ = f (j)) = 1, ce qui entraîne
que Pi (∀j ∈ E , Y∞ = f (i) = f (j)) = 1, et donc que f (i) = f (j), pour tout j ∈ E. La fonction
sur-harmonique f est donc constante.
Montrons la réciproque. Pour tout i0 ∈ E, et pour tout i ∈ E, on pose f (i) = Pi (Ti0 < ∞)
et f ∗ (i) = Pi (Ti(1)
0
< ∞), où on rappelle que Ti0 est le premier temps d’atteinte de i0 et Ti(1)
0
est
le premier temps de retour en i0 . Le lemme III.2.8 implique que f et f ∗ sont sur-harmoniques.
Elles sont donc constantes, selon notre hypothèse. Il existe alors deux constantes c, c∗ ≥ 0,
telles que f ≡ c et f ∗ ≡ c∗ . Or f (i0 ) = 1, par définition. Donc c = 1. De plus f (i) = f ∗ (i),
pour tout i 6= i0 , donc c = c∗ = 1. Cela montre que f ∗ (i0 ) = Pi0 (Ti(1)
0
< ∞) = 1 et donc i0
est récurrent. Comme la chaîne est supposée irréductible, tous les états sont récurrents.
Exemple III.3.3 On considère une chaîne de naissance et de mort, c’est-à-dire que sa matrice
de transition Q = (p(i, j))i,j∈N est telle que p(i, j) = 0 dès que |i − j| ≥ 2. On la suppose
irréductible, ce qui est équivalent à supposer que p(i, i + 1)p(i + 1, i) > 0, pour tout i ∈ N.
Pour tout i ∈ N, on pose Ti = inf{n ≥ 0 : Xn = i} avec la convention que Ti = ∞ ssi pour
tout n ∈ N, Xn 6= i. Ti est un (Fn )n≥0 -temps d’arrêt : c’est le premier temps d’atteinte de
l’état i.
Soient i, a ∈ N tels que i ≤ a. Comme la chaîne est irréductible, elle est soit transiente
soit récurrente mais dans les deux cas Pi (Ta < ∞) = 1. Soit f : N → R+ une fonction
Q-harmonique sur N∗ qui n’est pas constante, comme on en a construit à l’exemple III.2.10,
page 94. La proposition III.2.7 page 93 montre que pour toute loi d’entrée µ ∈ M1 (N), sous
Pµ , (Yn )n≥0 = (f (Xn∧T0 ))n≥0 est une (Fn )n≥0 -martingale. La proposition II.1.6, page 28,
implique que sous Pµ , (Yn∧Ta )n≥0 est une (Fn )n≥0 -martingale également. Or on a
109
ce qui implique que
f (a) − f (i)
Pi (T0 < Ta ) = , 0<i<a.
f (a) − f (0)
On observe ensuite que Pi -p.s., Ta ≥ a − i, et donc lima→∞ Ta = ∞. Par conséquent Pi (T0 <
∞) = lima→∞ ↑ Pi (T0 < Ta ). On choisit f (0) = 0 et f (1) = 1. Alors, on pose
X Y p(k, k − 1)
L = lim f (a) = ∈ [0, ∞] .
a→∞ p(k, k + 1)
n≥1 1≤k≤n
Si L = ∞, alors Pi (T0 < ∞) = 1, pour tout i ∈ N∗ . En appliquant Markov fort, cela montre
que
comme d’habitude la chaîne de Markov que l’on considère. Elle sera en général irréductible
récurrente mais cette hypothèse sera spécifiée explicitement à chaque fois que cela sera néces-
saire.
110
III.4.a Existence de mesures invariantes.
Nous avons introduit dans la section III.2.d la notion de mesure invariante, qui joue un rôle
essentiel dans l’étude précise de la récurrence que nous nous proposons de mener. Nous avons
déjà mentionné que certaines chaînes irréductibles ne possèdent pas de mesure invariante.
Le but de cette section est de montrer que toute chaîne irréductible récurrente possède des
mesures invariantes. Nous allons même les construire explicitement et montrer qu’elles sont
uniques à une constante multiplicative près. Pour cela, on rappelle les notations introduites
à la section III.3.a (page 99) sur les temps de retour successifs d’une suite à valeurs dans E :
soit x = (xn )n≥0 ∈ E N , soit i ∈ E, un état fixé ; les temps de retour successifs de la suite x
en i sont définis par Ti(0) (x) = 0 et Ti(p+1) (x) = inf{n > Ti(p) (x) : xn = i} avec la convention
habituelle : inf ∅ = ∞. On introduit également la notation suivante
(j)
X
∀i, j ∈ E , Ni (x) = 1{xn =i} ∈ N ∪ {∞} .
(1)
0≤n<T (x)
j
(j)
Ni (x) est donc le nombre de visites en i de la suite x strictement avant son premier retour
en j. On rappelle également que E (p) (x), p ≥ 1, désigne les excusions successives de x en
dehors de l’état {i}. Pour simplifier les notations, on pose Ti(p) = Ti(p) (X), E (p) = E (p) (X) et
(j) (j)
X
∀i, j ∈ E , Ni := Ni (X) = 1{Xn =i} .
(1)
0≤n<T
j
On rappelle également que si i est récurrent, le théorème III.3.1 implique que Pi (∀p ≥
1 , Ti(p) < ∞) = 1 et que sous Pi , les excursions hors de {i} sont indépendantes et de même
loi. On pose également,
∀i, j ∈ E , ρi,j := Pi Tj(1) < Ti(1) . (III.41)
Proposition III.4.1 Soient i, j ∈ E, deux états distincts. On suppose que i ↔ j et que i (et
donc j) est récurrent. Alors, les assertions suivantes sont vérifiées.
(i) ρi,j ρj,i > 0.
(ii) Pi (Ni(j) = p) = ρi,j (1 − ρi,j )p−1 , pour tout p ≥ 1.
(iii) 0 < Ej [Ni(j) ] < ∞. Plus précisément, on a Ej [Ni(j) ] = ρj,i /ρi,j .
Pi -p.s. 1{T (1) <T (1) } ≥ 1{X0 =i;X1 =i∗1 ;...;Xm =i∗m ;Xm+1 =j} .
j i
111
En intégrant cette inégalité sous Pi , on obtient donc
Comme i et j jouent un rôle symétrique, on prouve de même que ρj,i > 0, ce qui montre (i).
Pour tout p ≥ 1, on pose ξp = 1Bp où Bp = {∀n ≥ 1 : En(p) 6= j}. Comme i est récurrent,
sous Pi , les variables (ξp )p≥1 sont des variables de Bernoulli i.i.d. Or on observe que B1 =
{Ti(1) < Tj(1) }, donc Pi (ξp = 1) = Pi (Bp ) = 1 − ρi,j . On voit ensuite que pour tout p ≥ 1, on
a Pi (Ni(j) = p) = Pi (ξ1 = 1; . . . ; ξp−1 = 1; ξp = 0) = (1 − ρi,j )p−1 ρi,j , ce qui montre (ii). On
a donc Ei [Ni(j) ] = 1/ρi,j , qui est un nombre strictement positif et fini.
Pour montrer le point (iii), on remarque d’abord que
(j) (j)
Pj -p.s. Ni
= 1{T (1) <T (1) } Ni θT (1) X
i j i
et ensuite que pour tout n ∈ N, {Ti(1) < Tj(1) } ∩ {Ti(1) = n} = {n < Tj(1) } ∩ {Ti(1) = n}. Or
{n < Tj(1) } ∈ Fn car Tj(1) est un (Fn )n≥0 -temps d’arrêt. Donc {Ti(1) < Tj(1) } ∈ FT (1) . Comme
i
XT (1) = i, la propriété de Markov entraîne alors que
i
(j) (j)
Pj -p.s. Ej Ni |FT (1) = 1{T (1) <T (1) } Ei Ni
,
i i j
et en intégrant sous Pj cette égalité on obtient que Ej Ni(j) = Pj Ti(1) < Tj(1) Ei Ni(j) =
De plus, νj (j) = 1 et 0 < νj (i) < ∞, pour tout i ∈ E. Enfin, νj est une mesure Q-invariante.
Preuve : les deux premières égalités (III.42) sont une conséquence de la proposition III.4.1
et de la définition de Ni(j) . On remarque ensuite que
h X i
νj (i) = Ej 1{Xn =i}
(1)
0≤n<T
j
hX i
= Ej 1{X (1)
n =i ; Tj >n}
n≥0
X
Pj Xn = i ; Tj(1) > n ,
=
n≥0
112
par interversion série/espérance positive. Le fait que 0 < νj (i) < ∞, est exactement le point
(iii) de la proposition III.4.1. Comme Pj (Nj(j) = 1) = 1, on a bien νj (j) = 1. Il reste
simplement à prouver que pour tout i∗ ∈ E, on a
X
νj (i)p(i, i∗ ) = νj (i∗ ) , (III.43)
i∈E
On obtient alors
X XX
νj (i)p(i, i∗ ) = Pj (Xn = i; Tj(1) > n)p(i, i∗ )
i∈E n≥0 i∈E
XX
= Pj (Xn = i; Xn+1 = i∗ ; Tj(1) > n + 1)
n≥0 i∈E
X h X i
= Pj (Xn+1 = i∗ ; Tj(1) > n + 1) = Ej 1{Xn =i∗ }
n≥0 (1)
1≤n≤T
j
h X i
= Ej 1{Xn =i∗ } = νj (i∗ ) ,
(1)
0≤n<T
j
Pj (Xn = i; Tj(1) > n)p(i, j) = Pj (Xn = i; Xn+1 = j; Tj(1) > n) = Pj (Xn = i; Tj(1) = n + 1).
On en déduit
X XX XX
νj (i)p(i, j) = Pj (Xn = i; Tj(1) > n)p(i, j) = Pj (Xn = i; Tj(1) = n + 1)
i∈E n≥0 i∈E n≥0 i∈E
X
= Pi (Tj(1) = n + 1) = Pi (Tj(1) < ∞) = 1,
n≥0
113
Théorème III.4.3 On suppose la chaîne irréductible et récurrente. Soit ν, une mesure Q-
invariante et soit µ une mesure Q-excessive, c-à-d que µ ≥ µ.Q. Alors les assertions suivantes
sont vraies.
(i) La mesure µ est Q-invariante et il existe 0 < c < ∞, telle que µ(i) = cν(i), pour
tout i ∈ E.
(ii) Si ν ∗ et ν sont deux mesures Q-invariantes, alors il existe 0 < c∗ < ∞ telle que
ν ∗ (i) = c∗ ν(i), pour tout i ∈ E.
(iii) 0 < ν(i) < ∞, pour tout i ∈ E.
(iv) ν(i) = ν(j)νj (i), pour tous i, j ∈ E (ici, νj désigne la mesure définie au théorème
d’existence III.4.2).
(v) Q admet une probabilité invariante ssi elle admet une mesure invariante de masse
finie. Dans ce cas, il n’existe qu’une seule probabilité invariante.
Puisque κ.Q = κ, on en déduit par un calcul simple que Q∗ est une matrice de transition. On
montre facilement par récurrence que
κ(j)
∀n ≥ 1 , ∀i, j ∈ E , [Qn∗ ](i, j) = κ(i)
[Qn ](j, i) . (III.44)
114
Par conséquent f est une fonction Q∗ -sur-harmonique positive. Comme Q∗ est irréductible
récurrente, la proposition III.3.7 implique que f est constante. Comme f n’est pas identi-
quement nulle, il existe une constante 0 < c < ∞ telle que f ≡ c, et on a bien montré
que
∀i ∈ E , µ(i) = c κ(i) = cνj0 (i) .
Soient ν et ν ∗ sont deux mesures Q-invariantes : ce sont des cas particuliers de mesures
Q-excessives. Il existe donc deux réels strictement positifs a et b tels que ν = aνj0 et ν ∗ = bνj0 .
Si on pose c∗ = b/a, on a donc ν ∗ = c∗ ν, ce qui montre le point (ii). Comme on a montré que
0 < νj0 (i) < ∞, pour tout i ∈ E, on en déduit que 0 < ν(i) < ∞, pour tout i ∈ E, ce qui
montre (iii).
On voit que si ν est Q-invariante, pour tout j ∈ E, il existe un réel strictement positif
cj tel que ν = cj νj . On rappelle que, par définition, on a νj (j) = 1. Donc ν(j) = cj , ce qui
implique (iv).
Si Q admet une probabilité invariante π, alors pour toute mesure Q-invariante, il existe
un réel strictement positif c tel que ν = cπ et on a hνi = c < ∞. Réciproquement, si Q
admet une mesure invariante ν de masse totale finie, on voit que π = hνi 1
ν est une mesure de
probabilité invariante. Lorsqu’une probabilité invariante existe, il n’y en a donc qu’une.
Nous allons considérer de plus près l’existence ou non d’une probabilité invariante. Pour
cela, on montre la proposition suivante.
Proposition III.4.4 On suppose que la chaîne est irréductible (seulement). Si Q admet une
mesure de probabilité invariante, alors la chaîne est récurrente.
Preuve : on note π une probabilité Q-invariante. Il existe nécessairement i ∈ E tel que
π(i) > 0. On rappelle que pour toute suite x = (xn )n∈N à valeurs dans E, on note Ni (x) =
n≥1 1{xn =i} le nombre (peut-être infini) de visites de la suite à l’état i. Pour simplifier, on
P
pose Ni := Ni (X). On vérifie immédiatement que
Ni = 1{T (1) <∞} + 1{T (1) <∞} Ni θT (1) X .
i i i
La propriété de Markov sous Pπ et le fait que XT (1) = i si Ti(1) < ∞, impliquent que
i
Pπ − p.s. Eπ Ni |FT (1) = 1{T (1) <∞} + 1{T (1) <∞} Ei [Ni ]
i i i
ces inégalités ayant un sens dans [0, ∞]. Par interversion série/espérance,
X X
Eπ N i = Pπ (Xn = i) = π(i) = ∞ ,
n≥1 n≥1
car π est invariante et car on a choisi i tel que π(i) > 0. Or (III.45) implique que Ei [Ni ] = ∞
et le corollaire III.3.2 implique que i est récurrent. Comme la chaîne est irréductible tous les
états sont récurrents.
115
Remarque III.4.1 On prendra garde qu’il existe des chaînes irréductibles transientes qui
admettent des mesures invariantes. La proposition précédente entraîne simplement que dans ce
cas, elles sont de masse infinie. On se rappelera également qu’il existe des chaînes irréductibles
qui n’admettent pas de mesure invariante. Le théorème d’existence III.4.2 entraîne que dans
ce cas ces chaînes sont transientes.
Rappelons que l’on dit toujours que i est transient si Pi Ti(1) < ∞ < 1.
On voit qu’être récurrent nul est une qualité intermédiaire entre la récurrence positive (où la
chaîne revient vite) et la transience (où la chaîne peut, avec une probabilité non-nulle, ne pas
revenir). Les termes "récurrent positif" et "récurrent nul" seront expliqués par les théorèmes
ergodiques qui affirment qu’une chaîne passe asymptotiquement une fraction strictement po-
sitive de son temps en un état récurrent positif et passe une fraction asymptotiquement nulle
de son temps en un état récurrent nul (bien qu’elle y passe infiniment souvent). Le théorème
suivant donne une première utilisation de ces nouvelles notions.
Théorème III.4.5 On suppose que la chaîne est irréductible (seulement). Alors les assertions
suivantes sont équivalentes.
(i) La chaîne admet une probabilité invariante.
(ii) Tous les états sont récurrents positifs.
(iii) Il existe un état récurrent positif.
Si l’une de ces trois conditions équivalentes est vérifiée, on dit que la chaîne est récurrente
positive. De plus la probabilité invariante, notée π, est unique et on a
1
∀i ∈ E , π(i) = (1)
. (III.46)
Ei [Ti ]
Preuve : on suppose (i). La proposition III.4.4 implique que la chaîne est récurrente. On fixe
j ∈ E et on rappelle la définition de la mesure Q-invariante νj donnée au théorème III.4.2.
En intervertissant série et espérance, on a
X h X X i
1{Xn =i} = Ej Tj(1) . (III.47)
hνj i = νj (i) = Ej
i∈E 0≤n<T
(1) i∈E
j
Or, si Q admet une probabilité invariante le théorème III.4.3 (iv) implique que toutes les
mesures invariantes sont de masse finie et (III.47) entraîne que j est récurrent positif. Comme
on a raisonné avec j quelconque, tous les états sont récurrent positifs. On a donc montré que
(i) ⇒ (ii). L’implication (ii) ⇒ (iii) est triviale. Montrons (iii) ⇒ (i) : on suppose que j est
récurrent positif. Il est donc récurrent. Comme la chaîne est irréductible, tous les états sont
récurrents. Cela permet d’appliquer le théorème d’existence III.4.2. De plus (III.47) implique
que la mesure Q-invariante νj donnée au théorème III.4.2 est de masse finie et le théorème
III.4.3 (iv) implique que Q admet une probabilité invariante. On a donc montré l’équivalence
des trois points.
116
On suppose ensuite que Q admet une probabilité invariante notée π. Le théorème III.4.3
implique qu’il existe un réel strictement positif c tel que νj = cπ et (III.47) implique que
Ej Tj(1) = hνj i = cπ(E) = c. Or on rappelle que, par définition, on a νj (j) = 1. Donc,
Exemple III.4.1 On sait que la marche aléatoire simple symétrique P sur Z est irréductible
récurrente. Il est par ailleurs facile de vérifier que la mesure ν = i∈Z δi est une mesure
invariante. Comme elle est de masse infinie, on en déduit notamment que
E0 T0(1) = ∞ ,
ce qui n’est pas si simple à démontrer "à la main". De plus comme ν0 (0) = 1, on voit que
ν = ν0 et donc
(1)
h T0X−1 i
∀i ∈ Z , E0 1{Xn =i} = 1 ,
n=0
Exemple III.4.2 On considère une chaîne de naissance et de mort, c’est-à-dire que sa matrice
de transition Q = (p(i, j))i,j∈N est telle que p(i, j) = 0 dès que |i − j| ≥ 2. On la suppose
irréductible, ce qui est équivalent à supposer que p(i, i + 1)p(i + 1, i) > 0, pour tout i ∈ N. En
résumé des calculs faits aux exemples III.3.3, page 109, et III.2.11, page 96, on a les critères
suivants.
— Q est récurrente positive si n≥1 1≤k≤n p(k,k−1) p(k,k+1) = ∞ et
p(k−1,k)
P Q P Q
n≥1 1≤k≤n p(k,k−1) <
∞
— Q est récurrente nulle si n≥1 1≤k≤n p(k,k−1)p(k,k+1) = ∞ et
p(k−1,k)
P Q P Q
n≥1 1≤k≤n p(k,k−1) = ∞.
— Q est transiente si n≥1 1≤k≤n p(k,k−1)p(k,k+1) < ∞, mais elle admet une mesure inva-
P Q
riante non-triviale.
Exemple III.4.3 Il existe une matrice de transition irréductible (apériodique) qui n’admet
pas de mesure invariante. Le théorème III.4.2 implique alors qu’elle est nécessairement tran-
siente. On peut construite une telle matrice Q = (p(i, j))i,j∈N , de la façon suivante. On suppose
que
• p(i, j) = 0 si j ∈
/ {0, i + 1}, i, j ∈ N.
117
• p(i, i + 1) = 1 − p(i, 0) := ai ∈ ]0, 1[ .
On suppose que X
(1 − ai ) < ∞ . (III.48)
i∈N
On vérifie facilement que pour tout i, j ∈ N, avec j ≥ 1, on a
ce qui implique que Q est irréductible (et apériodique). Supposons que Q admette une mesure
invariante, c’est-à-dire une mesure µ, non-nulle, telle que 0 ≤ µ(i) < ∞, pour tout i ∈ N et
µ.Q = µ. Si j ≥ 1, l’équation (µ.Q)(j) = µ(j), donne µ(j − 1)p(j − 1, j) = µ(j), donc
X X
µ(i)p(i, 0) = µ(0)(1 − a0 ) + µ(i)p(i, 0)
0≤i≤n 1≤i≤n
X
= µ(0)(1 − a0 ) + µ(0)a0 a1 . . . ai−1 (1 − ai )
1≤i≤n
X X
= µ(0)(1 − a0 ) + µ(0)a0 a1 . . . ai−1 − µ(0)a0 a1 . . . ai
1≤i≤n 1≤i≤n
= µ(0)(1 − a0 ) + µ(0)a0 − µ(0)a0 a1 . . . an = µ(0)(1 − a0 a1 . . . an ).
Comme L > 0, cela implique que µ(0) = 0 mais (III.49) implique que µ(j) = 0, pour tout
j ∈ N, ce qui est une contradiction. La chaîne n’admet donc pas de mesure invariante.
qui est le nombre de visites entre les temps 1 et n de la chaîne en l’état i. On voit facilement
que Ni (n) ≤ n. On rappelle également que Ti(p) est le p-ième temps de retour de la chaîne en
i (avec la convention que Ti(0) = 0). Comme la chaîne est irréductible récurrente, pour toute
µ ∈ M1 (E), et pour tout p ≥ 0, on a Pµ (Ti(p) < ∞) = 1. On voit alors que
(Ni (n)) (Ni (n)+1)
∀n ≥ 0 , Ti ≤ n < Ti . (III.50)
118
On rappelle que E (p) , p ≥ 1, sont les excursions de la chaîne en dehors de l’état {i} :
E (p) = XT (p−1) , XT (p−1) +1 , . . . , XT (p) −1 , ∂, ∂, ∂, . . . .
i i i
D’après le théorème III.3.1, page 100, sous Pi , ces excursions sont i.i.d. On pose ensuite
Dp −1
(p) (p−1)
X
Dp = T i −T i et Vp (f ) = f (XT (p−1) +n )
i
n=0
La variable Dp est la durée de l’excursion E (p) . Sous Pi , la suite (Dp )p≥1 est i.i.d. ainsi que
la suite (Vp (f ))p≥1 . On rappelle la notation νi pour la mesure Q-invariante donnée par le
théorème III.4.2. Si hνi , |f |i < ∞, alors il est facile de vérifier que V1 (f ) est une variable
Pi -intégrable et que
X
∀p ≥ 1 , Ei [Vp (f )] = Ei [V1 (f )] = νi (i0 )f (i0 ) = hνi , f i .
i0 ∈E
Si ν est une mesure Q-invariante, le théorème III.4.3 (iv) implique que ν = ν(i)νi . Par
conséquent, la condition hν, |f |i < ∞ est équivalente à la condition hνi , |f |i < ∞, et on a
1
X
∀p ≥ 1 , Ei [Vp (f )] = Ei [V1 (f )] = νi (i0 )f (i0 ) = ν(i) hν, f i . (III.51)
i0 ∈E
Lorsque la loi d’entrée de la chaîne n’est plus δi , mais une loi quelconque, les propriétés
d’indépendance des excursions sont encore préservées, comme le montre le lemme suivant.
Φ1 (E (1) )Φ2 (E (2) ) . . . Φ` (E (`) ) = Φ1 (E (1) )Φ2 E (1) (θT (1) X) . . . Φ` E (`−1) (θT (1) X) .
i i
et le point (i) s’obtient en intégrant sous Pµ . Par la loi des grands nombres, on a Pµ -p.s.
1 1
lim V1 (f ) + V2 (f ) + . . . + Vp (f ) = lim V2 (f ) + . . . + Vp (f ) = Ei [V1 (f )]
p p p p−1
119
Théorème III.4.8 (Théorème ergodique quotient) On suppose la chaîne irréductible récur-
rente. Soit ν, une mesure Q-invariante et soient f, g : E → R, deux fonctions telles que
et
f (X0 ) + f (X1 ) + . . . + f (Xn ) hν, f i
Pµ -p.s. −−n→∞
−−−→ .
g(X0 ) + g(X1 ) + . . . + g(Xn ) hν, gi
Preuve : on pose Sp (f ) = V2 (f ) + . . . + Vp (f ) si p ≥ 2, et S0 (f ) = S1 (f ) = 0. On pose
également
X X
Un = f (Xk ) et Rn (f ) = f (Xk ) ,
(1) (Ni (n))
0≤k<n∧T T ≤k≤n
i i
si bien que
f (X0 ) + . . . + f (Xn ) = Un (f ) + SNi (n) (f ) + Rn (f ) .
Comme la chaîne est irréductible récurrente, Pµ -p.s. limn Ni (n) = ∞. La loi des grands
nombres établie au lemme III.4.7 (ii) implique que
1
Pµ -p.s. lim SNi (n) (f )/Ni (n) = ν(i)
hν, f i .
n→∞
Il est maintenant facile de voir que Pµ -p.s. limn Un (f ) = V1 (f ), et donc limn Un (f )/Ni (n) = 0.
Enfin, on voit que Pµ -p.s.
1 1 1
R (f )
Ni (n) n
≤ R (|f |)
Ni (n) n
= Ni (n)
SNi (n)+1 (|f |) − SNi (n) (|f |) −−−−−→ 0 ,
n→∞
ce qui, combiné avec les autres limites, implique la première convergence du théorème. La
seconde est une conséquence immédiate de la première.
Corollaire III.4.9 On suppose la chaîne irréductible récurrente. Alors, les assertions sui-
vantes sont vérifiées.
(i) Si la chaîne est récurrente nulle, alors pour toute µ ∈ M1 (E), on a
Ni (n)
Pµ -p.s. ∀i ∈ E , −−n→∞
−−−→ 0 .
n
(ii) Si la chaîne est récurrente positive, alors on note π son unique loi invariante, et
pour toute µ ∈ M1 (E), on a
Ni (n) 1
Pµ -p.s. ∀i ∈ E , −−n→∞
−−−→ π(i) = .
n Ei [Ti(1) ]
120
Preuve : on suppose la chaîne récurrente nulle et on note ν, une mesure invariante. Le
corollaire III.4.6 implique que ν est de masse totale infinie : hνi = ∞. Cela implique clairement
que l’espace d’états estS infini. On se donne une suite de sous-ensembles finis F` ⊂ E, ` ≥ 0,
tel que F` ⊂ F`+1 et ` F` = E. On a donc lim` ν(F` ) = ∞. On fixe i ∈ E et on applique le
théorème ergodique quotient à la fonction f` = 1F` . Il est clair que hν, f i = ν(F` ). De plus,
on a clairement
n 1
∀n ∈ N , ≥ 1F` (X0 ) + . . . + 1F` (Xn ) .
Ni (n) Ni (n)
Pour toute loi d’entrée µ, on a donc Pµ -p.s. lim inf n n/Ni (n) ≥ ν(F` )/ν(i) et en faisant tendre
` vers l’infini, on a donc Pµ (lim inf n n/Ni (n) = ∞) = 1, ce qui implique (i).
On suppose ensuite que la chaîne récurrente positive. On applique le théorème III.4.8
ergodique quotient avec ν = π et à la fonction constante à 1 qui est telle que hπ, 1i = 1. On
a alors pour toute loi d’entrée µ, Pµ -p.s. limn n/Ni (n) = 1/π(i), ce qui implique (ii).
Remarque III.4.2 On voit que Ni (n)/n représente la fraction de temps passé par la chaîne
en l’état i entre les instants 0 et n. Un état est récurrent nul ssi cette fraction tend vers 0 et il
est récurrent positif ssi cette fraction tend vers un nombre strictement positif (la chaîne passe
une fraction strictement positive de son temps en l’état i). Si i est récurrent nul, il n’est en
général pas très facile de trouver un équivalent à Ni (n) (c’est-à-dire qu’il n’y a pas de résultat
√
général donnant un equivalent de Ni (n) à l’aide des fonctions usuelles telles que n/ log n, n
... etc).
Donnons un second corollaire, qui est aussi important que le théorème ergodique quotient :
nous l’appellons théorème ergodique et nous l’énonçons comme un théorème bien qu’il soit
une conséquence immédiate des deux résultats précédents.
1 Ni (n) 1
f (X0 ) + . . . + f (Xn ) = · f (X0 ) + . . . + f (Xn ) .
n n Ni (n)
121
Supposons que la limite dans (III.52) existe. On remarque que 0 ≤ Ni (n)/n ≤ 1. Par le
corollaire III.4.9 et le théorème de convergence dominée, on voit que limn Eµ [Ni (n)/n] = π(i)
et donc Eµ [Ni (n)/n] = n1 Pµ (X0 = i) + . . . + Pµ (Xn = i) → π(i). Si la limite dans (III.52)
existe, par Cesaro, cette limite vaut nécessairement π(i). On peut donc affiner la question de
la convergence en loi en se demandant, pour toute loi d’entrée µ et tout état i, quand-a-t-on
en posant p∗ ( (i, i0 ), (j, j 0 ) ) = p(i, j)p(i0 , j 0 ). On veut montrer que Q∗ est une matrice de
transition irréductible et positive récurente. On remarque tout d’abord que
X X X
p∗ (i, i0 ), (j, j 0 ) = p(i, j) p(i0 , j 0 ) = 1 · 1 = 1 ,
(j,j 0 )∈E 2 j∈E j 0 ∈E
ce qui montre que Q∗ est une matrice de transition sur E 2 . On vérifie facilement par récurrence
que pour tout n ≥ 1, et tous i, i0 , j, j 0 ∈ E, on a
On fixe (i, i0 ), (j, j 0 ) ∈ E 2 . Puisque que Q est irréductible et apériodique, le théorème III.2.4
(ii) implique l’existence de n0 ≥ 1 (qui dépend de i, i0 , j et j 0 ), tel que
Cela montre que Q∗ est irréductible. Signalons que c’est le seul endroit dans la preuve où on
utilise le fait que Q soit apériodique. Pour tout (i, i0 ) ∈ E 2 , on pose π∗ ((i, i0 )) = π(i)π(i0 ). On
122
voit que π∗ est la loi produit π ⊗ π sur E 2 . C’est donc une probabilité sur E 2 . De plus, pour
tous j, j 0 ∈ E, on a
X X X
π∗ (i, i0 ) p∗ (i, i0 ), (j, j 0 ) π(i0 )p(i0 , j 0 )
= π(i)p(i, j)
(i,i0 )∈E 2 i∈E i0 ∈E
ce qui montre que π∗ est une loi Q∗ -invariante. La matrice de transition Q∗ satisfait donc la
condition (i) du théorème III.4.5, qui implique que Q∗ est récurrente positive. Mentionnons
que nous aurons besoin uniquement du fait que Q∗ soit irréductible récurrente.
Pour simplifier les notations, on suppose qu’il est possible de définir une loi de probabilité
P sur (Ω, F ), et deux suites de variables Xn , Xn0 : Ω → E, n ≥ 0, (F -mesurables, bien sûr)
qui remplissent les conditions suivantes.
• Sous P, (Xn )n≥0 est une chaîne de Markov de matrice de transition Q et de loi d’entrée
µ ∈ M1 (E).
• Sous P, (Xn0 )n≥0 est une chaîne de Markov de matrice de transition Q et de loi d’entrée
π, l’unique probabilité invariante de Q.
• Sous P, les deux suites (Xn )n≥0 et (Xn0 )n≥0 sont indépendantes.
Etape 1 : on veut montrer que, sous P, la suite (Xn , Xn0 ) n≥0 est une chaîne de Markov à
point de E 2 et notamment (i, i), ce qui montre que P(T(i,i) < ∞) = 1. Or il est clair que
T ≤ T(i,i) , ce qui permet de conclure.
123
X X
0
= P(T = m; Xm = i)[Qn−m ](i, j)
0≤m≤n i∈E
X X
= P(Xn0 = j; T = m; Xm
0
= i)
0≤m≤n i∈E
= P(Xn0 = j; T ≤ n),
ce qui implique
Comme j∈E P(Xn = j; T > n) = j∈E P(Xn0 = j; T > n) = P(T > n), on a donc
P P
X
∀n ∈ N , P(Xn = j) − P(Xn0 = j) ≤ 2P(T > n).
j∈E
On observe maintenant que P(Xn0 = j) = π(j). Ce qui précède, combiné à l’étape (2), entraîne
X
P(Xn = j) − π(j) ≤ 2P(T > n) −−n→∞ −−−→ 0 ,
j∈E
124
Annexe A
Lemme T A.1.1 Soit (Ei , i ∈ I) est une famille de sigma-algèbres (resp. de classes monotones) sur E.
Alors, i∈I Ei = {A ⊂ E : ∀i ∈ I , A ∈ Ei }. est une tribu (resp. une classe monotone).
Définition A.1.2 (Tribu engendrée, lambda-système engendré.) Soit R ⊂ P(E), une classe quel-
conque de sous-ensembles de E. On définit la sigma-algèbre engendrée par R (resp. le lambda-
système engendré par R) comme la plus petite sigma-algèbre (resp. le plus petit T
lambda-système)
contenant
T R et on la note σ(R) (resp. λ(R)). Plus formellement, on a σ(R) = R ⊂ E tribu E et
λ(R) = R ⊂ E cl. mono. L.
On rappelle que si T est une topologie sur E, la tribu des Boréliens de l’espace topologique est la
tribu engendrée par la classe des ouverts T . On la note souvent B(E) = σ(T ). On rappelle que tout
ouvert de R est union dénombrable d’intervalles ouverts (ses composantes connexes). A l’aide de ce
résultat on montre facilement que si on pose P = {] − ∞, a]; a ∈ R} ∪ {R}, alors P est un pi-système
tel que σ(P) = B(R).
125
Lemme A.1.2 Soit E un ensemble non-vide et L un classe monotone sur E. L est une tribu ssi L
est stable par intersection finie.
Preuve : on suppose que L est un classe monotone stable par intersection. Par définition, E ∈ L.
Puisque L est stable par différence propre, L est stable par passage au complémentaire. Soient A, B ∈
L. On a donc E\A et E\B ∈ L. Comme on suppose L stable par intersection, on a (E\A)∩(E\B) ∈ L.
Comme L est stable par passage au complémentaire, on obtient A ∪ B = E\ ((E\A) ∩ (E\B)) ∈ L
Par conséquent, L est stable par union
S finie. Soit Bn ∈ L, n ∈ N, une suite quelconque d’éléments de
L. Pour tout n ∈ N, on pose An = 0≤p≤n Bp . Comme L est stable par union finie, une récurrence
immédiate entraîne que An ∈ L. Or on remarque
S Sn ⊂ An+1 et comme L est stable par union
que , A
dénombrable croissante, on en déduit que n∈N Bn = n∈N An ∈ L, ce qui montre que L est une
tribu. La réciproque du lemme est triviale.
Théorème A.1.3 (Classe monotone) Soient L une classe monotone sur E et P un pi-système
sur E. On suppose que P ⊂ L. Alors la tribu engendrée par P est contenue dans L : σ(P) ⊂ L.
Preuve : on note E la classe monotone engendrée P : E = λ(P). Autrement dit E est le lambda-
système engendré par P (lemme A.1.1). Pour démontrer le théorème, il suffit de démontrer que E
est une tribu et, d’après le lemme précédent, il suffit de montrer que E , qui une classe monotone, est
stable par intersection finie : pour tout A ⊂ E, on pose LA = {B ⊂ E : A ∩ B ∈ E }. Montrons
d’abord l’implication suivante :
126
Définition A.1.3 Soit E , une tribu sur E. Une application µ : E → [0, ∞] est une mesure positive
= 0 ; (ii) pour toute suite An ∈ E , n ∈ N, formée
S : (i) µ(∅) P
ssi elle satisfait les propriétés suivantes
d’ensembles deux-à-deux disjoints, µ( n∈N An ) = n∈N µ(An ). Cette propriété est appelée propriété
de sigma-additivité.
Cette définition appelle quelques commentaires : on remarque d’abord que la somme dans le membre
de droite de (ii) a toujours un sens dans [0, ∞]. D’autre part, si A, B ∈ E sont tels que A ⊂ B, on a
B = A ∪ (B\A). Donc, la sigma-additivité appliquée à la suite A0 = A, A1 = B\A et An = ∅, n ≥ 2,
implique que µ(B) = µ(A) + µ(B\A). Donc µ(A) ≤ µ(B), dès que A ⊂ B dans E . Cette propriété
élémentaire est appelé croissance des mesures positives.
Proposition A.1.4 Soit E , une tribu sur E et µ, une mesure positive sur E . Soit An ∈ E , n ∈ N
une suite d’ensembles mesurables. Les assertions suivantes sont vérifiées.
S
(i) Si An ⊂ An+1 , n ∈ N, alors limn ↑ µ(An ) = µ (A), où An = A.
T
(ii) Si An+1 ⊂ An , n ∈ N et si µ(A0 ) < ∞ alors limn ↓ µ(An ) = µ (B), où An = B.
S P
(iii) La mesure µ est sigma-sous-additive : µ ( An ) ≤ µ(An ).
Preuve : on suppose tout d’abord que la suite (An , n ∈ N) est croissante pour l’inclusion et on
prouve (i). On pose B0 = S A0 et Bn = An \An−1 S pour tout n ≥ 1. Il est clair que les Bn sont deux-
à-deux disjoints. De plus, P0≤k≤n Bk = AnP et n∈N Bk = A. La sigma-additivité de µ entraîne alors
n
limn→∞ µ(An ) = limn→∞ k=0 µ(Bk ) = n∈N µ(Bn ) = µ(A), ce qui prouve (i). Le point (ii) se
déduit de (i) par passage au complémentaire : on pose A0n = A0 \An pour tout n ≥ 1. Comme la
suite (An , n ∈ N) est décroissante, la suite des A0n est croissante pour l’inclusion. Par ailleurs, puisque
0
µ(A0 ) < ∞, il en est de même pour les quantités µ(An ) et on S a0 : µ(A0n ) = µ(A0 ) − µ(An ). Par (i),
0 0 0
limn→∞ µ(An ) = µ(A0 )−limn→∞ µ(An ) = µ(A0 )−µ(A ), où An = A . Il suffit ensuite de remarquer
que A0 = A0 \A et donc que µ(A) = µ(A0 ) − µ(A0 ). Il reste a démontrer (iii). Pour cela on remarque
tout d’abord que pour tous B, C ∈ E , on a B ∪ C = B ∪ (C ∩ (E\B)) et que B et C ∩ (E\B) sont
disjoints. Donc
µ(B ∪ C) = µ(B) + µ(C ∩ (E\B)) ≤ µ(B) + µ(C) ,
car C ∩ (E\B)S⊂ C qui entraîne
P µ(C ∩ (E\B)) ≤ µ(C). En appliquant S de façon répétée cette inégalité
0≤k≤n Ak ) ≤
on voit que µ( S 0≤k≤n µ(Ak ). Or la suite d’ensembles 0≤k≤n Ak est croissante donc (i)
Sn Pn
implique que µ( n∈N An ) = limn→∞ µ( k=0 Ak ) ≤ limn→∞ k=0 µ(Ak ), qui entraîne bien le résultat
désiré.
On adopte la terminologie suivante. Un espace mesurable (E, E ) muni d’une mesure positive est
appelé un espace mesuré. Lorsque µ(E) = 1, µ est appelée loi de probabilité où mesure de probabilité.
On parle alors d’espace de probabilité ou d’espace probabilisé. Lorsque µ(E) < ∞, on dit que µ est de
masse finie, la quantité µ(E) étant la masse de µ. On fait souvent l’hypothèse que µ est une mesure
positive sigma-finie, suivant la définition suivante.
127
Théorème A.1.6 (Unicité de prolongement des mesures) Soit (E, E ) un espace mesurable. Soit
P, un pi-système engendrant E . Soient µ1 et µ2 deux mesures positives sigma-finies. On fait les deux
hypothèses suivantes.
(i) Pour tout A ∈ P, µ1 (A) = µ2 (A).
(ii) Il existe En ∈ P, n ∈ N tels que E =
S
En , En ⊂ En+1 et µ1 (En ) = µ2 (En ) < ∞.
Alors, pour tout B ∈ E , on a µ1 (B) = µ2 (B), c’est-à-dire µ1 = µ2 .
Preuve : supposons que µ1 (E) = µ2 (E) < ∞. On pose L = {B ∈ E : µ1 (B) = µ2 (B)}. Par hypothèse,
on a P ⊂ L. Montrons ensuite que L est une classe monotone : on a clairement E ∈ L ; soient
B, C ∈ L tels que B ⊂ C. Comme µ1 et µ2 sont de masse finie, on a µ1 (C\B) = µ1 (C) − µ1 (B) =
µ2 (C) − µ2 (B) = µ2 (C\B), ce qui entraîne bien que C\B ∈ LS ; soient Bn ∈ L, n ∈ N, des ensembles
telsSque Bn ⊂ Bn+1 . La proposition
S A.1.4 (i) implique que µ 1 ( Bn ) = limn µ1 (Bn ) = limn µ2 (Bn ) =
µ2 ( Bn ), ce qui montre que Bn ∈ L. La classe L est donc une classe monotone. Le théorème A.1.3
de la classe monotone entraîne que E = σ(P) ⊂ L ⊂ E . Donc L = E , qui achève la preuve du
théorème dans le cas où les mesures µ1 et µ2 ont même masse finie.
On déduit le cas général du cas précédent comme suit. Soient En les ensembles satisfaisant les
conditions du point (ii) du théorème. Pour tout i ∈ {1, 2}, on pose µi,n (B) = µi (B ∩ En ), B ∈ E .
On déduit de la proposition A.1.5 (iii) que µi,n est une mesure. Soit A ∈ P. Comme En ∈ P, on
a A ∩ En ∈ P et l’hypothèse (i) du théorème entraîne que µ1,n (A) = µ2,n (A), pour tout A ∈ P et
µ1,n (E) = µ2,n (E) < ∞. Ce qui S précède implique que µ1,n = µ2,n . On fixe B ∈ E et on remarque
ensuite que B∩En ⊂ B∩En+1 , et B∩En = B. Par la proposition (i), on a µ1 (B) = limn µ1 (B∩En ) =
limn µ1,n (B) = limn µ2,n (B) = limn µ2 (B ∩ En ) = µ2 (B), ce qui termine la preuve.
Corollaire A.1.7 Soit (E, E ) un espace mesurable. Soit P un pi-système engendrant E . Soient µ1
et µ2 deux mesures de probabilités : µ1 (E) = µ2 (E) = 1. On suppose que pour tout A ∈ P, µ1 (A) =
µ2 (A). Alors µ1 = µ2 .
Convention : lorsque f est une fonction numérique, c’est-à-dire à valeurs dans un intervalle I de la
droite numérique achevée R, on dit simplement que f est E -mesurable en sous-entendant qu’elle est
(E , B(I))-mesurable, où B(I) désigne les Boréliens de l’intervalle I.
Proposition A.1.8 Soient (E, E ) et (F, F ) deux espaces mesurables. Soit C ⊂ F telle que σ(C ) =
F . Soit f : E → F . Alors, f est (E , F )-mesurable ssi f −1 (C) ∈ E pour tout C ∈ C .
128
Proposition A.1.9 Soient (E, E ), (F, F ) et (G, G ) trois espaces mesurables. Soit f : E → F et
g : F → G qui sont supposées respectivement (E , F )-mesurable et (F , G )-mesurable. Alors g ◦ f est
(E , G )-mesurable.
Proposition A.1.10 Soit (E, E ) un espace mesurable. Soient f, g : E → R des application E mesu-
rables. Soit fn : E → R, n ∈ N, une suite d’applications E -mesurables. Soit c ∈ R.
(i) Alors f + g, f g et cf sont E -mesurables.
(ii) max(f, g) (noté aussi f ∨ g) et min(f, g) (noté aussi f ∧ g) sont E -mesurables. Par consé-
quent la partie positive (resp. négative) de f définie par f+ = max(0, f ) (resp. par f− =
max(0, −f )) est E -mesurable.
(iii) inf fn et sup fn sont E -mesurables. Par conséquent, lim inf fn et lim sup fn sont également
E -mesurables. Si on suppose que pour tout x ∈ E, limn→∞ fn (x) = f∞ (x) existe dans R, alors
f∞ est E -mesurable.
Preuve : on prouve (i) en utilisant le fait suivant. Si g et f sont à valeurs réelles E -mesurables
alors l’application h := (f, g) : E → R2 qui à x ∈ E associe h(x) = (f (x), g(x)) ∈ R2 est
(E , B(R2 ))-mesurables, en rappelant que B(R2 ) désigne la tribu des Boréliens de R2 équipé de
la topologie habituelle (d’espace vectoriel). En effet, on fixe un ouvert U de R2 . Il est facile de
voir que U Sest une union Sdénombrable de rectangles ouverts Rn =]an , bn [×]cn , dn [, n ∈ N. Donc
h−1 (U ) = h−1 (Rn ) = f −1 (]an , bn [) ∩ g −1 (]cn , dn [) ∈ E . On remarque ensuite que l’addition
Add ou la multiplication Mul sont deux applications continues de R2 dans R. Par conséquent, elles
sont toutes les deux (B(R2 ), B(R))-mesurables. Il suffit ensuite d’observer que Add ◦ h = f + g et
Mul ◦ h = f g. et la proposition A.1.9 entraine le premier point
Comme (iii) implique (ii),Ton prouve (iii). On pose g = supn fn et on remarque que pour tout
a ∈ R, on a g −1 ([−∞, a]) = fn−1 ([−∞, a]) ∈ E . Donc supn fn est E -mesurable. Les autres cas
en découlent. En effet, on traite inf fn en considérant la suite de fonctions −fn , n ∈ N ; on traite
lim sup fn en remarquant que lim sup fn = inf n supp≥n fp (lim inf fn se traitant de façon similaire) ;
lorsque la limite existe on a f∞ = lim sup fn = lim inf n fn .
Pour tout A ⊂ E, on note 1A : E → {0, 1}, la fonction indicatrice de A, donnée par 1A (x) = 1 si
x ∈ A et 1A (x) = 0 si x ∈ / A. Si E est une tribu sur E, il est clair que 1A est E -mesurable ssi A ∈ E.
Une fonction s : E → R est dite simple (ou encore étagée) ssi il existe A1 , . . . , An , des sous-
ensembles de E et c1 , . . . , cn ∈ R tels que
X
s= ck 1Ak . (A.4)
1≤k≤n
Autrement dit, une fonction simple est une combinaison linéaire de fonctions indicatrices. On voit aussi
qu’une fonction simple est une fonction qui ne prend qu’un nombre fini de valeurs. Il est clair qu’une
fonction simple s donnée admet plusieurs représentations de la forme (A.4). Soit E , une tribu de E. Une
fonction simple s est mesurable ssi elle admet une représentation du type (A.4) avec A1 , . . . , An ∈ E .
En effet, on note c1 , . . . , cn les valeurs de s et on pose Ak = s−1 ({ck }) = {x ∈ E : s(x) = ck }, pour
tout 1 ≤ k ≤ n. Il est clair que s est E -mesurable ssi les Ak ainsi définis sont dans E . Il est ensuite
facile de vérifier que (A.4) a bien lieu. On remarque que dans ce choix de la représentation (A.4), les
Ak sont disjoints deux-à-deux.
Approximation des fonctions positives par des fonctions simples. Soit (E, E ), un espace
mesurable ; soit f : E → [0, ∞], une fonction E -mesurable. Pour tout n ∈ N, on pose
X
sn = k2−n 1f −1 ( [k2−n ,(k+1)2−n [ ) . (A.5)
0≤k≤n2n
129
On vérifie facilement que sn est simple E -mesurable et que
Lemme A.1.11 Soit Soit (E, E ), un espace mesurable ; soit f : E → [0, ∞], une fonction E -
mesurable. Il existe une suite d’ensembles Bn ∈ E , n ∈ N et une suite cn ∈ R∗+ , n ∈ N, telles
que X
f= cn 1Bn .
n∈N
Théorème A.1.12 (Classe monotone fonctionnelle) Soit (E, E ) un espace mesurable. Soit P, un
pi-système sur E tel que σ(P) = E . Soit H un ensemble d’applications de E dans R. On fait les
hypothèses suivantes.
(i) H est un R-espace vectoriel (il contient donc la fonction nulle).
(ii) Pour tout C ∈ P, on a 1C ∈ H.
(iii) Soit fn ∈ H, n ∈ N, une suite de H telle qu’il existe une constante c ∈ R+ telle que
0 ≤ fn ≤ fn+1 ≤ c, n ∈ N. Alors supn∈N fn ∈ H.
Alors H contient toutes les fonctions réelles E -mesurables bornées.
Preuve : on pose L = {B ⊂ E : 1B ∈ H}. Les propriétés (i), (ii) et (iii) permettent facilement de
vérifier que L est une classe monotone qui contient P. Le théorème du A.1.3 de la classe monotone
implique que E = σ(P) ⊂ L. Donc pour tout B ∈ E , 1B ∈ H. Soit f : E → [0, c], unePfonction E -
P qu’il existe cn ∈ R+ et Bn ∈ E , n ∈ N, tels que f = n∈N cn 1Bn .
∗
mesurable. Le lemme A.1.11 implique
Pour tout n ∈ N, on pose fn = 0≤k≤n ck 1Bk . Comme H est un espace vectoriel, fn ∈ H, pour tout
n ∈ N. De plus on a 0 ≤ fn ≤ fn+1 ≤ c. Donc f = supn∈N fn ∈ H. L’espace vectoriel H contient
donc toutes les fonctions E -mesurables positives bornées. Si f : E → R est E -mesurable bornée, alors
f+ = max(0, f ) et f− = max(0, −f ) sont E -mesurables positives bornées donc dans H et puisque H
est un espace vectoriel f = f+ − f− est dans H.
On fixe A ∈ E . Il est naturel de définir l’intégrale de s contre µ sur A par la quantité suivante
Z n
X
s dµ = ck µ(A ∩ Ak ) , (A.8)
A k=0
130
qui a bien un sens dans [0, ∞] avec les convention c × ∞ = ∞, si c > 0 et 0 × ∞ = 0. Il est assez facile
R vérifie aisément que même si s ∈ S+ peut
de voir que cette définition est cohérente, c’est-à-dire qu’on
avoir plusieurs écritures sous la forme (A.7), la valeur de A s dµ ne dépend pas de ces représentation
mais uniquement de s et de A et de µ. Nous laissons cette vérification au lecteur ;
(iii) pour tout s ∈ S+ , on pose ν(A) = A s dµ, A ∈ E . Alors, ν est une mesure positive sur
R
(E, E ).
Preuve : les points (i) et (ii) sont R des vérifications algébriques élémentaires laissées au lecteur.
Montrons (iii) : clairement ν(∅) = ∅ s dµ = 0. Soit Bn ∈ E , n ∈ N, une suite d’ensembles Pp deux-à-
deux disjoints. Soit A0 , . . . , Ap ∈ E , des
S ensembles deux-à-deux disjoints tels que s = k=0 ck 1Ak ,
avec ck ∈ R+ , 0 ≤ k ≤ p. On pose B = Bn . On a les égalités suivantes.
Z p
X p
X [ p X
X
s dµ = ck µ(Ak ∩ B) = ck µ (Ak ∩ Bn ) = ck µ(Ak ∩ Bn )
B k=0 k=0 n∈N k=0 n∈N
p
XX XZ
= ck µ(Ak ∩ Bn ) = s dµ .
n∈N k=0 n∈N Bn
On remarque que cette définition étend bien l’intégrale des fonctions simples positives.
comme cela est vrai pour toute fonction s ∈ S+ telle que s ≤ f sur A dès que µ(A) = 0, cela entraîne
facilement (iii). Le point (iv) est une conséquence immédiate de la proposition A.1.13 (ii) et du fait
que s ≤ f sur A ssi 1A s ≤ f sur E. Le point (v) est une conséquence immédiate de la proposition
131
A.1.13 (i) avec s1 = 0 et du fait que s ≤ f sur A ssi cs ≤ cf sur A dès que c > 0. Le cas c = 0 est
trivial.
On montre ensuite le théorème de convergence monotone qui est la clef de la théorie de l’intégration
abstraite.
Théorème A.1.15 (Convergence monotone) Soit fn : E → [0, ∞], n ∈ N, une suite d’applica-
tions E -mesurables qui sont croissantes, c’est-à-dire que fn (x) ≤ fn+1 (x), x ∈ E, n ∈ N. On pose
f = supn∈N fn , qui est une application bien définie à valeurs dans [0, ∞] et E -mesurable. On a alors
Z Z
f dµ = lim ↑ fn dµ .
E n→∞ E
R
Preuve : par le point (i) de la proposition A.1.14, il est clair que la suite n 7→ E fn dµ est Rcroissante.
R plus fn ≤ f . En utilisant
De R la même propriété
R de croissance
R de l’intégrale, on en déduit que E fn dµ ≤
E
f dµ et donc lim n ↑ f
E n
dµ = supn E nf dµ ≤ E
f dµ
Montrons l’inégalité contraire. Pour cela on se fixe a ∈]0, 1[ et s ∈ S+ telle que s ≤ f . Pour tout
entier n ≥ 1, on pose En = {x ∈ E : fnS(x) ≥ as(x)}. On a En = (fn − as)−1 ([0, ∞]) ∈ E . On voit
également que En ⊂ En+1 et que E = n∈N En . On remarque ensuite que pour tout x ∈ E, on a
fn (x) ≥ 1En (x)fn (x) ≥ 1En (x)as(x). Donc, la proposition A.1.14 implique que
Z Z
fn dµ ≥ a s dµ . (A.10)
E En
Preuve : on procède par approximation. Posons sn = 0≤k≤n2n k2−n 1f −1 ([k2−n ,(k+1)2−n [) et s0n =
P
−n
1g−1 ([k2−n ,(k+1)2−n [) , pour tout n ∈ N. Il est facile de voir que sn , s0n ∈ S+ , sn ≤
P
0≤k≤n2n k2
sn+1 ≤ f et sn ≤ s0n+1R ≤ g pour tout n. RDe plus supRn sn = f et supn s0n = g. D’après le point (i) de
0
Proposition
R P P R Soit fn : E → [0, ∞], n ∈ N, une suite d’applications E -mesurables. Alors,
A.1.17
E
( f n ) dµ = f dµ .
E n
Pn P
Preuve : on pose gn = Rk=0 fk . On P a doncR 0 ≤ gn ≤ gn+1 et supn gn = n∈N fn . Par ailleurs le
n
lemme A.1.16 montre que E gn dµ = k=0 E fk dµ Le théorème de convergence monotone permet
de passer à limite dans cette expression et implique le résultat voulu.
Théorème A.1.18 (Lemme de Fatou) Soit fn R: E → [0, ∞], n ∈ N, une suite d’applications
E -mesurables. Alors, E (lim inf n fn ) dµ ≤ lim inf n E fn dµ.
R
132
Etape III. Soit f : E → R, une application E -mesurable. On dit que f est µ-intégrable si E |f | dµ <
R
Prouvons le troisième point. On observe d’abord que |f + cg| ≤ |f | + |c| · |g|. Le point (i) de la
proposition A.1.14 combiné au lemme A.1.16 implique que f + cg est µ-intégrable. On considère
d’abord le cas c = 1. On pose h = f + g, ce qui se réécrit par h+ − h− = f+ − f− + g+ − g− . Donc on
a : h+ + f− + g− = h− + f+ + g+ et par le lemme A.1.16 :
Z Z Z Z Z Z
h+ dµ + f− dµ + g− dµ = h− dµ + f+ dµ + g+ dµ .
E E E E E E
133
R R
ce R que lim supn→∞
R qui implique E
|f − fn | dµ ≤ 0. Cela prouve (ii), qui implique (iii) car | E
f dµ −
f
E n
dµ| ≤ E
|f − fn | dµ.
Mesure image. Soit (E, E , µ) un espace mesuré et (F, F ) un espace mesurable. Soit f : E → F , une
application (E , F )-mesurable. Pour tout B ∈ F , on pose ν(B) = µ(f −1 (B)). Il est facile de vérifier
que ν est une mesure positive sur (F, F ). Elle est appelée la mesure image de µ par f .
Preuve : soit Bn ∈ F , n ∈ N une suite d’ensembles deux-à-deux disjoints. On remarque que les en-
sembles f −1 (Bn ), n ∈ N sont également deux-à-deux disjoints dans E et que f −1 ( Bn ) = f −1 (Bn ).
S S
La sigma-additivité de µ entraîne alors
[ [ [ X X
ν Bn = µ f −1 Bn = µ f −1 (Bn ) = µ f −1 (Bn ) = ν(Bn ) .
Donc ν est sigma-addtive et il est clair que ν(∅) = µ(f −1 (∅)) = µ(∅) = 0. Cela montre bien que ν est
une mesure positive.
Le théorème de transfert (parfois aussi appelé théorème de changement de variable abstrait)
s’énonce comme suit.
Proposition A.1.21 (Transfert) Soit (E, E , µ) un espace mesuré et (E, F ) un espace mesurable.
Soit f : E → F , une application (E , F )-mesurable. On note ν la mesure image de µ par f . Alors pour
toute fonction h : F → R qui est F -mesurable et qui est soit positive, soit ν-intégrable, on a
Z Z
h dν = h ◦ f dµ . (A.12)
F E
Preuve : on prend h = 1B , où B ∈ F . Alors on remarque que 1B ◦ f = 1f −1 (B) , ce qui entraîne bien
(A.12) pour les fonctions indicatrices. Soit h : F → [0, ∞], F P-mesurable. Le lemme A.1.11 implique
l’existence
R de B
P R n ∈ F , et cn ∈ R+,
P R n ∈ N, tels queR h = cn 1Bn . Par la proposition A.1.17, on
a F h dν = cn F 1Bn dν = cn E 1Bn ◦ f dµ = E h ◦ f dµ, ce qui montre (A.12) dans les cas
positifs. On passe au cas des fonctions réelles ν-intégrables en considérant leur partie positive et leur
partie négative.
134
I.1.e Ensembles négligeables.
Un sous-ensemble N de E est dit µ-négligeable ssi il existe B ∈ E tel que
N ⊂B et µ(B) = 0 .
On note Nµ l’ensemble de tous les µ-négligeables de E. On dit que l’espace mesuré (E, E , µ) est
complet ssi E contient tous les µ-négligeables, c’est-à-dire Nµ ⊂ E .
S
Proposition A.1.22 Soient Nn ∈ Nµ , n ∈ N. Alors, Nn est également µ-négligeable.
Proposition A.1.23 Soit (E, E , µ) un espace mesuré. Soit f : E → R, une application E -mesurable.
Les assertions suivantes sont vraies.
(i) Si E |f | dµ = 0 alors f −1 (R\{0}) est ensemble un µ-négligeable (qui est dans E ). Cela
R
Preuve : pour tout entier n ≥ 1, on pose EnR= {x ∈ E : |f (x)| ≥ 1/n} = |f |−1 ([1/n, ∞]). On a donc
|f | ≥ 1En |f | ≥ n1 1En Par conséquent : 0 = E |fS
| dµ ≥ µ(En )/n. Donc, µ(En ) = 0 pour tout n ≥ 1.
Or En ⊂ En+1 et f −1 (R\{0}) = |f |−1 (]0, ∞]) = n∈N En , ce qui permet de conclure. Le second point
se montre de manière similaire : la preuve est laissée au lecteur.
Le thèorème suivant qui permet de simplifier, d’un point de vue théorique, l’usage des négligeables.
La compréhension de sa preuve, un peu longue, n’est pas absolument essentielle pour la suite.
Théorème A.1.24 Soit (E, E , µ) un espace mesuré. On note Nµ les µ-négligeables de E. On rappelle
que σ(E , Nµ ) désigne la tribu engendrée par E et Nµ . Les assertions suivantes sont vraies.
(i) Si B ∈ σ(E , Nµ ), alors il existe A ∈ E tel que A ⊂ B et B\A ∈ Nµ .
(ii) Il existe une unique mesure positive µ sur σ(E , Nµ ) prolongeant µ.
(iii) Les µ-négligeables sont les µ-négligeables : (E, σ(E , Nµ ), µ) est donc complet.
135
Montrons ensuite la stabilité par passage au complémentaire : on se donne B ∈ F . Il existe donc
A ∈ E tel que A ⊂ B et N := B\A ∈ Nµ ; on a B = A ∪ N . Par définition des µ-négligeables, il existe
N0 ∈ E tel que N ⊂ N0 et µ(N0 ) = 0. On remarque alors que :
ce qui montre bien la sigma-additivité de µ. Il reste ensuite à démontrer l’unicité : supposons que ν
soit une mesure positive sur l’espace mesurable (E, σ(E , Nµ )) telle que µ(A) = ν(A), pour tout A ∈ E .
Soit B ∈ σ(E , Nµ ). Le point (i) implique l’existence de A ∈ E et de N ∈ Nµ tels que B = A ∪ N . Par
définition des µ-négligeables, il existe N0 ∈ E tel que N ⊂ N0 et µ(N0 ) = 0. On remarque alors que
A ⊂ B ⊂ A ∪ N0 et que (A ∪ N0 )\A ⊂ N0 . Par conséquent
µ(A ∪ N0 ) = µ(A) + µ((A ∪ N0 )\A) = µ(A) et ν(A ∪ N0 ) = ν(A) + ν((A ∪ N0 )\A) = ν(A)
136
La définition de l’intégrale contre une mesure positive implique immédiatement le résultat suivant :
si g : E → R est une application E -mesurable qui est soit µ-intégrable soit à valeurs dans [0, ∞], alors :
Z Z
g dµ = g dµ . (A.13)
E E
Le théorème suivant discute des liens plus précis entre les fonctions E -mesurables et les fonctions
E µ -mesurables ainsi que de leurs intégrales éventuelles contre respectivement µ et µ.
Théorème A.1.25 Soit (E, E , µ), un espace mesuré et (E, E µ , µ) son complété. Alors les assertions
suivantes sont vraies.
(i) Pour tout B ∈ E µ , il exite A1 , A2 ∈ E tels que
(ii) Soit h : E → [0, ∞], une application E µ -mesurable Il existe h1 , h2 : E → [0, ∞], deux
applications E -mesurables telles que h1 ≤ h ≤ h2 et telles que
Z Z Z
h1 dµ = h dµ = h2 dµ et µ({x ∈ E : h1 (x) < h2 (x)}) = 0 .
E E E
Preuve : montrons (i). Pour cela on se donne B ∈ E µ . On sait qu’il existe A ∈ E et N ∈ Nµ tels
que A ∪ N = B. Comme N est µ-négligeable, il existe N0 ∈ E tel que N ⊂ N0 et µ(N0 ) = 0. On pose
alors A1 = A et A2 = A ∪ N0 qui satisfont bien les propriétés désirées.
P Montrons (ii) : le lemme A.1.11 implique qu’il existe cn ∈ R+ , Bn ∈ E µ , n ∈ N tels que h =
PE tels que An ⊂ B ⊂ An , µ(An ) = µ(Bn ) =
1 2 1 2 1
n∈N cn 1Bn . Le point (i) implique qu’il existe An , An ∈
µ(An ) et µ(A2 \A1 ) = 0. Pour i = 1 et 2, on pose hi = n∈N cn 1Ain , qui est E -mesurable. On a bien
2
h1 ≤ h ≤ h2 . De plus {x ∈ E : h1 (x) < h2 (x)} ⊂ n∈N A2n \A1n , donc µ({x ∈ E : h1 (x) < h2 (x)}) = 0.
S
Pour i = 1 et 2, la proposition A.1.17 implique
Z X X Z
hi dµ = cn µ(Ain ) = cn µ(Bn ) = hdµ ,
E n∈N n∈N E
ce qui montre le point (ii). Le point (iii) se déduit facilement en appliquant (ii) à la partie positive
et négative de la fonction h : E → R.
Corollaire A.1.26 Soit (E, E , µ) une espace mesuré et soit (E, E µ , µ) son complété. Soit h : E → I,
une application E µ -mesurable, où I désigne R ou C. Alors il existe, h∗ , g : E → I tellesRque h = h∗ +g,
avec h∗ , E -mesurable et g nulle µ-p.p. (donc E µ -mesurable). Par ailleurs si l’intégrale E h dµ est bien
Rdéfinie (soit que h soitR positive, Rsoit que h soit µ-intégrable), alors il en est de meme pour l’intégrale
∗
E
h dµ et on a bien E h dµ = E h∗ dµ.
137
Définition A.1.6 Soit (E, E , µ) une espace mesuré ; I désigne R ou C. Une fonction h définie µ-
presque partout est la restriction d’une fonction f : E → I qui est E -mesurable à un ensemble du type
E\N , où N est un µ-négligeable.
Cette définition appelle quelques commentaires : on choisit une extension quelconque de h à E tout
entier et on note h0 cette extension. Il est clair que h0 est E µ -mesurable car {x ∈ E : f (x) 6= h0 }R⊂ N ∈
E µ et car f est E -mesurable (donc E µ -mesurable). De plus, le corollaire A.1.26 R implique que E f dµ
est bien définie (soit que f soit positive, soit que f soit µ-intégrable) ssi R E h0 dµ est R bien définie
(soit que h0 soit positive, soit que h0 soit µ-intégrable) et dans ce cas on a E f dµ = E h0 dµ. Pour
simplifier les notations, on commet systématiquement l’abusRqui consiste à confondre R h avec n’importe
quelle extension h0 de h à l’espace E tout entier, et à écrire E h dµ à la place de E h0 dµ. Cet abus de
notation évite d’une part l’usage répétif (et souvent inutile) de l’espace complété (E, E µ , µ). D’autre
part, de nombreux énoncés et résultats ne requièrent que des conditions ou des propriétés valables
à un µ-négligeable près et les fonctions qui interviennent dans ces énoncés n’ont pas besoin d’être
définies partout de façon pertinente mais µ-presque partout, seulement. A l’aide du corollaire A.1.26,
il est facile de déduire les énoncés (définitifs) du théorème de convergence monotone, du lemme de
Fatou et du théorème de convergence dominée de Lebesgue.
Théorème A.1.27 Soit (E, E , µ) une espace mesuré. Soient fn , n ∈ N, une suite d’applications
définies µ-p.p. à valeurs dans R ou C. Les assertions suivantes sont vraies.
(Convergence monotone) Si pour tout n ∈ N, on a : 0 ≤ fn ≤ fn+1 µ-p.p., alors d’une part
supn fn = f est bien définie µ-p.p. et positive µ-p.p. D’autre part, on a
Z Z
lim ↑ fn dµ = f dµ .
n→∞ E E
(Lemme de Fatou) Si pour tout n ∈ N, on a fn ≥ 0 µ-p.p., alors lim inf n fn = f est bien
définie µ-p.p. et positive µ-p.p. et
Z Z
f dµ ≤ lim inf fn dµ .
E n→∞ E
(Convergence dominée) On suppose qu’il existe une application f définie µ-p.p. à valeurs
complexes telle que limn fn = f , µ-presque partout. On suppose qu’il existe une application
g définie positive µ-p.p., intégrable telle que |fn | ≤ g, µ-p.p. pour tout n ∈ N. Alors, f est
µ-intégrable et Z
lim |f − fn | dµ = 0 ,
n→∞ E
R R
ce qui entraîne que limn→∞ f dµ =
E n E
f dµ.
En application du théorème de convergence dominée de Lebesgue, on ajoute le théorème suivant
d’interversion série/intégrale qui en est une conséquence, ainsi que deux théorèmes concernant la
régularité des intégrales à paramètres.
Théorème A.1.28 Soit (E, E , µ) une espace mesuré. P RSoit fn , n ∈ N, une suite d’applications définies
µ-p.p. à valeurs dans R ou C. On suppose que n∈N E |fn | dµ < ∞. Alors, les assertions suivantes
sont vraies.
P
(i) Pour µ-presque tout x, la série fk (x) est absolument convergente, ce qui définit une
application h, µ-presque partout.
R
(ii) On a limn E |h − (f0 + . . . + fn )| dµ = 0.
R P R
(iii) La fonction h est µ-intégrable et E h dµ = n∈N E fn dµ.
138
Preuve : d’après le corollaire A.1.26 et le point (ii) de A.1.23, il suffit de considérer le cas où les
P fonctions" (définies partout), à valeurs dans R ou C, E -mesurables et µ-
fonctions fn sont de "vraies
intégrables. On pose g = n∈N |fn | qui est E -mesurable à valeurs dans [0, ∞]. D’après les hypothèses
et le théorème A.1.17, g est µ-intégrable. Le point (ii) de A.1.23 implique que µ(g −1 ({∞})) = 0.
Donc pour tout x ∈ g −1 ([0, ∞[), la série de terme général fn (x) est absolument convergente et donc
convergente : on note h(x) sa limite. On prend h nulle sur g −1 ({∞}), ce qui permet de définir h sur
tout E. On a donc
Xn Xn
µ−p.p. ∀n ∈ N, fk ≤ g et lim fk = h .
n→∞
k=0 k=0
Le théorème de convergence dominée (dans sa version µ-presque partout) s’applique et on obtient bien
les points (ii) et (iii).
p
I.1.f Espaces L .
On commence par montrer les inégalités de Hölder et de Minkowski. On rappelle que deux réels
p, q > 1 sont conjugués ssi p1 + 1q = 1.
Proposition A.1.29 (Hölder) Soient p, q, conjugés. Soient f, g : E → [0, ∞], deux applications
E -mesurables. On a alors :
Z Z p1 Z q1
p
f g dµ ≤ f dµ g q dµ ,
E E E
l’inégalitéR est trivialement vérifiée. On suppose que ce n’est pas le cas et on pose c = ( f p dµ)1/p
R
Proposition A.1.30 (( Minkowski)) Soit p ∈ [1, ∞[ et soient f, g : E → [0, ∞], deux applications
E -mesurables. On a alors :
Z p1 Z p1 Z p1
p p
(f + g) dµ ≤ f dµ + g p dµ
E E E
et Z Z p1 Z q1
p−1 p
g(f + g) dµ ≤ g dµ (f + g)q(p−1) dµ .
E E E
139
qui implique le résultat désiré si E (f +g)p dµ est une quantité finie. Supposons que E (f +g)p dµ = ∞.
R R
−p −1 p
Comme x 7→ xp est convexe, on p p
R a p2 (f +R g) p≤ 2 (f + g ) et en intégrant cette inégalité, on voit
que l’une des deux intégrales E f dµ ou E g dµ doit être infinie : dans ce cas l’inégalité recherchée
est trivialement vraie.
Soit f : E → R, une application E -mesurable. Pour tout p ∈ [1, ∞[, on pose
Z p1
kf kp := |f |p dµ .
E
Il est facile de voir que |f (x)| ≤ kf k∞ pour µ-presque tout x ∈ E et plus précisément, |f | ≤ a µ-p.p. ssi
kf k∞ ≤ a. On définit alors les espaces de fonctions suivants
Par abus de langage on dit que p = 1 (resp. p = ∞) est conjugué à l’exposant q = ∞ (resp. p = 1).
La proposition suivante détaille les propriétés des espaces Lp (E, E , µ).
et donc N (E, E , µ) est un K-sous-espace vectoriel de Lp (E, E , µ). On introduit une relation ∼ sur
Lp (E, E , µ) en posant
f ∼ g ⇐⇒ f − g ∈ N (E, E , µ) .
Il est facile de voir que c’est une relation d’équivalence. On note L (E, E , µ) l’ensembles des ∼-classes
p
d’équivalences de Lp (E, E , µ). Comme N (E, E , µ) est un sous-espace vectoriel, l’ensemble L (E, E , µ)
p
hérite d’une structure d’espace vectoriel : c’est l’espace vectoriel quotient L (E, E , µ)/N (E, E , µ). Par
p
ailleurs si f ∼ g, alors kf kp = kgkp et k·kp est définie de façon cohérente sur L (E, E , µ) : c’est une
p
vraie norme.
140
Définition A.1.7 Pour tout p ∈ [1, ∞], on définit le K-espace vectoriel L (E, E , µ) comme l’espace
p
vectoriel quotient Lp (E, E , µ)/N (E, E , µ), sur lequel la pseudonorme k·kp induit une vraie norme
également notée k·kp .
Bien qu’un élément f de L (E, E , µ) ne soit pas une fonction mais plutôt un ensemble de fonctions
p
de Lp (E, E , µ) (qui sont µ-p.p. égales deux-à-deux), on traite les éléments de L (E, E , µ) comme des
p
fonctions : on les note de façon générique par f , g ... etc. et dans les calculs, on remplace un élément
f de L (E, E , µ) par un de ses représentant quelconque dans Lp (E, E , µ), que l’on note également f .
p
Ce léger, mais indispensable, laxisme ne cause aucun problème tant que l’on effectue qu’une quantité
dénombrable d’opérations.
p
On montre que les espaces L sont complets en prouvant d’abord le lemme suivant.
Lemme A.1.32 Soit p ∈ [1, ∞] et soit fn ∈ L (E, E , µ), n ∈ N, une suite de Cauchy. Alors il existe
p
Preuve : on traite d’abord les cas où p 6= ∞. Comme la suite (fn , n ∈ N) est de Cauchy, pour tout
ε > 0, il existe n(ε) ∈ N tel que kfm − fn kp ≤ ε, dès que n, m ≥ n(ε). Pour tout k ∈ N, on pose
nk = k + max0≤i≤k n(2−i ), si bien que (nk , k ∈ N) est strictement croissante et que
kfnk+1 − fnk kp ≤ 2−k , k ∈ N .
P P
Pour tout k ∈ N, on pose gk = 0≤i≤k |fni+1 − fni | et g = i≥0 |fni+1 − fni |. Il est clair que les gk
et g sont E -mesurables. L’inégalité de Minkowski implique que
kgk kp ≤ 1 + 2−1 + . . . + 2−k < 2 .
Par conséquent E gkp dµ ≤ 2p . Par définition on a lim
R
R k gk (x) = g(x) pour tout x ∈ E. En appliquant
Fatou (les fonctions gk sont positives) on obtient E g p dµ ≤ 2p et donc kgkp < 2. Cela montre en
particulier que g(x) < ∞ pour µ-presque tout x ∈ E et en revenant à la définition de g, on voit que
la série X
fn0 (x) + fni+1 (x) − fni (x) , (A.17)
i≥0
est absolument convergente, et donc convergente, pour µ-presque tout x ∈ E. La somme (A.17) est une
fonction définie µ-presque partout notée f . On a clairement |f | ≤ |fn0 | + |g|. On a rappelle que x 7→ xp
est convexe dès que p ≥ 1, donc |f |p ≤ 2p−1 (|fn0 |p + |g|p ). Comme g et fn0 sont dans L (E, E , µ), il
p
Pk
en est de même pour f . De plus fn0 + 0≤i<k fni+1 − fni = fnk , pour tout k ∈ N. On a donc montré
que µ-p.p. limk fnk = f , ce qui achève la preuve du théorème dans le cas où p 6= ∞.
Supposons p = ∞. Comme (fn , n ∈ N) est de Cauchy, M = kf0 k∞ + supm,n kfn − fm k∞ < ∞ et
on voit facilement que kfn k∞ ≤ M pour tout n ∈ N. On note ensuite An l’ensemble des x ∈ E tels
que |fn (x)| > kfn k∞ et Bn,m l’ensemble des x ∈ E tels que |fn (x) − fm (x)| > kfn − fm k∞ . Comme
les An et les Bn,m sont des ensembles µ-négligeables (par définition du suprémum essentiel), il en est
de même pour leur réunion notée N . Il est facile de voir que pour tout x ∈ E\N et pour tout n ∈ N,
on a |fn (x)| ≤ 2M ; de plus, les restrictions à E\N des fonctions (fn , n ∈ N) sont de Cauchy pour
la norme du sup : elles convergent donc vers une fonction f : E\N → R et on a donc limn fn = f
µ-p.p. et même limn kfn − f k∞ = 0.
Théorème A.1.33 Pour tout p ∈ [1, ∞], L (E, E , µ) muni de la norme k·kp est complet.
p
Preuve : le cas p = ∞ a déjà été traité à la fin de la preuve du lemme A.1.32. On suppose donc que
p < ∞. On se donne une suite de Cauchy fn ∈ L (E, E , R), n ∈ N. Soit (nk , k ∈ N) la suite d’indices
p
strictement croissante come dans le lemmeR A.1.32. Pour tous k, ` R≥ 0 et tout n ≥ nk , on a donc
−pk
p p
lim inf ` E |fnk+` − fn |p dµ ≤ 2−pk . Cela
R
|f
E nk+`
− f |
nR dµ ≤ 2 et par Fatou, E
|f − f n | dµ ≤
p
implique limn E |f − fn | dµ = 0, et donc limn kf − fn kp = 0, ce qui achève la preuve du théorème.
141
A.2 Construction de mesures.
I.2.a Mesures extérieure. Théorème de Carathéodory.
Définition A.2.1 Soit E un ensemble non-vide. Une fonction µ∗ : P(E) → [0, ∞] est appelée
∗
mesure extérieure ssi elle satisfait les conditions suivantes : (1) µP (∅) = 0 ; (2) pour tous B ⊂ C, alors
∗ ∗ ∗ ∗
S
µ (B) ≤ µ (C) ; (3) pour tous Bn ⊂ E, n ∈ N, µ n∈N Bn ≤ n∈N µ (Bn ) (sigma-sous-additivité).
On observe qu’une mesure extérieure est définie pour tous les sous-ensembles de E. Contrairement à
ce que son nom peut suggérer, une mesure extérieure µ∗ n’est pas, en général, une mesure positive.
Définition A.2.2 (Ensembles mesurables) Soit E un ensemble non-vide et µ∗ , une mesure extérieure.
Un sous-ensemble B de E est dit µ∗ -mesurable ssi il satisfait la propriété suivante :
∀X ⊂ E , µ∗ (X) = µ∗ (X ∩ B) + µ∗ (X ∩ (E\B)) .
La classe des ensembles µ∗ -mesurables est notée E (µ∗ ).
Théorème A.2.1 Soit E, un ensemble non-vide et µ∗ : P(E) → [0, ∞], une mesure extérieure.
(i) E (µ∗ ) est une tribu contenant les ensembles N ⊂ E tels que µ∗ (N ) = 0.
(ii) La restriction de µ∗ à E (µ∗ ) est une mesure positive.
Preuve : soit N ⊂ E tel que µ∗ (N ) = 0 et soit X ⊂ E, quelconque. La sigma-additivité de µ∗
implique la sous-additivité de µ∗ , ce qui entraîne que µ∗ (X) ≤ µ∗ (X ∩ N ) + µ∗ (X ∩ (E\N )). Pour
montrer que N est µ∗ -mesurable, il suffit donc de montrer que µ∗ (X ∩N )+µ∗ (X ∩(E\N )) ≤ µ∗ (X), ce
qui est clair car la croissance de µ∗ implique que µ∗ (X ∩ N ) ≤ µ∗ (N ) = 0 et µ∗ (X ∩ (E\N )) ≤ µ∗ (X).
Montrons ensuite que E (µ∗ ) est une algèbre. La définition des ensembles µ∗ -mesurables implique
que E (µ∗ ) est stable par passage au complémentaire et comme ∅ ∈ E (µ∗ ), on a E ∈ E (µ∗ ). Il suffit
donc de montrer la stabilité par réunion. Pour cela, on se donne B et C dans E (µ∗ ) et X ⊂ E,
quelconque. La sous-additivité de µ∗ implique que µ∗ (X) ≤ µ∗ (X ∩ (E\(B ∪ C))) + µ∗ (X ∩ (B ∪ C)).
Si µ∗ (X) = ∞, alors on a bien µ∗ (X) = µ∗ (X ∩ (E\(B ∪ C))) + µ∗ (X ∩ (B ∪ C)). Supposons que
µ∗ (X) < ∞. Le fait que B et C soient µ∗ -mesurables implique les égalités suivantes :
µ∗ (X) = µ(X ∩ B) + µ∗ (X ∩ (E\B))
= µ(X ∩ B) + µ∗ (X ∩ (E\B) ∩ C) + µ∗ (X ∩ (E\B) ∩ (E\C))
= µ(X ∩ B) + µ∗ (X ∩ (E\B) ∩ C) + µ∗ (X ∩ (E\(B ∪ C))). (A.18)
Or X ∩ B = X ∩ (B ∪ C) ∩ B et X ∩ (B ∪ C) ∩ (E\B) = X ∩ C ∩ (E\B) et comme B est µ∗ -mesurable,
on a donc
µ∗ (X ∩ (B ∪ C)) = µ∗ (X ∩ B) + µ∗ (X ∩ C ∩ (E\B)) . (A.19)
Puisque X ∩ B ⊂ X, et puisqu’on suppose que µ∗ (X) < ∞, on a µ∗ (X ∩ B) < ∞ et (A.19) se réécrit :
µ∗ (X ∩ (E\B) ∩ C) = µ∗ (X ∩ (B ∪ C)) − µ∗ (X ∩ B) . (A.20)
∗ ∗ ∗
L’égalité (A.18) implique que µ (X) = µ (X ∩ (E\(B ∪ C))) + µ (X ∩ (B ∪ C)), et donc que B ∪ C ∈
E (µ∗ ), ce qui termine la preuve du fait que E (µ∗ ) est une algèbre. On remarque ensuite la propriété
suivante qui découle directement de la définition des ensembles µ∗ -mesurables :
∀X ⊂ E, ∀B, C ∈ E (µ∗ ) tels que B ∩ C = ∅, µ∗(X ∩ (B ∪ C)) = µ∗(X ∩ B) + µ∗ (X ∩ C) (A.21)
Si on choisit X = B ∪ C, cela montre que µ est additive sur E (µ ), c’est-à-dire que pour tous
∗ ∗
142
Comme on a montréSque E (µ∗ ) est une algèbre, les Bn sont des
S éléments deux-à-deux disjoints de
E (µ∗ ). On pose B = n∈N Bn et on observe facilement que B = n∈N Cn . On a les inégalités suivantes :
[ [
µ∗ (X) = µ∗ X ∩ Bk + µ∗ X ∩ E\ Bk
0≤k≤n 0≤k≤n
[
∗ ∗
≥ µ X∩ Bk + µ (X ∩ (E\B))
0≤k≤n
X
≥ µ∗ (X ∩ Bk ) + µ∗ (X ∩ (E\B)).
0≤k≤n
Sn
En effet, la première égalité a lieu car k=0 Bk ∈ E (µ∗ ) ; la seconde inégalité est une conséquence de
la croissante de µ∗ ; la troisième inégalité découle simplement de l’application répétée de (A.21). En
faisant tendre n vers l’infini, on a donc
X
µ∗ (X) ≥ µ∗ (X ∩ Bn ) + µ∗ (X ∩ (E\B)) ≥ µ∗ (X ∩ B) + µ∗ (X ∩ (E\B)), (A.22)
n∈N
Extension d’une pré-mesure. Soit une algèbre A sur un ensemble E ; on suppose que les ensembles
de A sont bien connus, c’est-à-dire descriptibles de manière simple ; supposons que l’on connaisse
une fonction µ0 : A → [0, ∞] telle que µ0 (∅) = 0 et telle qu’elle soit additive, c’est-à-dire que
µ0 (A ∪ B) = µ(A) + µ0 (B), pour tous A, B ∈ A , disjoints. Peut-on étendre µ0 en une fonction µ sur
la tribu σ(A ) par une fonction sigma-additive, c’est-à-dire une mesure positive ?
Supposons que cela soit possibleSet supposons que les An ∈ A , n ∈ N, soient des ensembles
deux-à-deux disjoints tels que A := n∈N An ∈ A , ce qui n’est a priori P pas toujoursP le cas puique
A simplement une algèbre. Alors, nécessairement, µ0 (A) = µ(A) = n∈N µ(An ) = n∈N µ0 (An ).
Autrement dit, si µ0 est prolongeable en une mesure, elle doit nécessairement vérifier la condition de
sigma-additivité toutes les fois que cela a un sens sur A . Nous allons voir que cette condition nécessaire
au prolongement de µ0 est aussi une condition suffisante ce qui motive les définitions suivantes.
(c) Une pré-mesure µ0 est sigma-finie s’il existe une suite En ∈ A , n ∈ N telle que E = n∈N En
S
et µ0 (En ) < ∞, pour tout n ∈ N.
Il est facile de vérifier que si µ0 est une fonction additive d’ensembles, elle est croissante pour
l’inclusion : pour tous A, B ∈ A tels que A ⊂ B, µ0 (A) ≤ µ0 (B). On voit ensuite qu’une pré-mesure
est une fonction additive d’ensemble. Enfin, si une pré-mesure est sigma-additive, on peut toujours
imposer aux ensembles En ∈ A , n ∈ N, de la définition d’être croissants pour l’inclusion, ou encore
d’être disjoints deux-à-deux.
143
Proposition A.2.2 Soit E, un ensemble non-vide, A une algèbre sur E et µ0 : A → R+ , une
fonction additive d’ensemble de masse finie : µ0 (E) < ∞. Alors il y a équivalence entre les deux
assertions suivantes
(i) µ0 est une pré-mesure.
(ii) Pour tous An ∈ A , n ∈ N, tels que An+1 ⊂ An et
T
n∈N An = ∅, on a limn µ0 (An ) = 0.
Preuve : supposons que µ0 soit une pré-mesure et que les ensembles An soient comme dans (ii).
On pose Bn = An \An+1 S , pour tout n ∈ N. Il est clair quePles Bn sont dans A et sont disjoints
deux-à-deux. De plus p≥n Bp = An ∈ A . Donc µ0 (An ) = p≥n µ0 (Bp ), qui est le reste d’ordre n
de la série convergente de terme général µ(Bp ), ce qui implique que limn µ0 (An ) = 0.
Montrons que (ii) implique (i) : on suppose que µ0 est une fonction S additive de masse finie
satisfaisant (ii). Soit Bn ∈ A , n ∈ N, deux-à-deux disjoints tels que B := n∈N Bn ∈ A . On pose
An = B\(B0 ∪ . . . ∪ Bn ). Comme B ∈ A , on a An ∈ A . On voit de plus que An+1 ⊂ An et
T
n∈N An = ∅. Donc limn µ0 (An ) = 0. Comme µ0 est masse finie, µ0 (B) < ∞ et
X
µ0 (An ) = µ(B) − µ0 (B0 ∪ . . . ∪ Bn ) = µ0 (B) − µ0 (Bk ) ,
0≤k≤n
P P
On a donc µ0 (B) = limn 0≤k≤n µ0 (Bk ) = n∈N µ0 (Bn ), et µ0 est une pré-mesure.
Proposition A.2.3 Soit E, un ensemble non-vide, A une algèbre sur E et µ0 : A → [0, ∞] est une
pré-mesure. Pour tout X ⊂ E, on pose
nX [ o
µ∗ (X) = inf µ0 (An ) ; An ∈ A , n ∈ N : X ⊂ An . (A.23)
n∈N n∈N
Preuve : on vérifie immédiatement que µ∗ (∅) = 0 et que pour tous B ⊂ C ⊂ E, on a bien µ∗ (B) ≤
µ∗ (C). On fixe ensuite Bn ⊂ E, n ∈ N. Par ∗
P µ , pour tout δ >
S définition de 0, il existe des ensembles
An,p ∈ A , n, p ∈ N, tels qu’onSait Bn ⊂ Sp∈N An,p et p∈N µ0 (Ap,n ) ≤ µ∗ (Bn ) + δ2−n−1 , pour tout
n ∈ N. On constate donc que n∈N Bn ⊂ p,n∈N Ap,n et donc que
[ X X
µ∗ µ∗ (Bn ) + δ
Bn ≤ µ0 (Ap,n ) ≤
n∈N p,n∈N n∈N
Comme δ peut être pris arbitrairement petit, on a µ∗ ( n∈N Bn ) ≤ n∈N µ∗ (Bn ), ce qui montre que
S P
µ∗ est sigma-sous-additive. Cela termine la preuve de (i).
Montrons (ii). On fixe A ∈ A . La définition de µ∗ implique ∗
S que µ (A) ≤ µ0 (A). Montrons
l’inégalité contraire : on se donne An ∈ A , n ∈ N, tels que A ⊂ n∈N An . Pour tout n ∈ N, on pose
n
[
Bn = A ∩ Ak , C 0 = B0 et Cn+1 = Bn+1 \Bn n∈N.
k=0
Il est clair que les Bn et les Cn appartiennent à A . De plus les Cn sont deux-à-deux disjoints. On a
également Cn ⊂ A ∩ An ⊂ An et n∈N Cn = A ∈ A . Comme µ0 est une pré-mesure, on a donc
S
X X X
µ0 (A) = µ0 (Cn ) ≤ µ0 (A ∩ An ) ≤ µ0 (An ) .
n∈N n∈N n∈N
144
Cette inégalité étant vraie pour toute suite An ∈ A , n ∈ N, telle que A ⊂ n∈N An , on en déduit que
S
µ(A) ≤ µ∗ (A), ce qui achève la preuve de (ii).
Montrons (iii). On fixe A ∈ A et X ⊂ E. La sous-additivité implique que µ∗ (X) ≤ µ∗ (X ∩ A) +
∗
µ (XS∩ (E\A)). Montrons l’inégalité contraire : pour tout δ > 0, il existe Bn ∈ A , n ∈ N, tels que
X ⊂ n∈N Bn et δ + µ∗ (X) ≥ n∈N µ0 (Bn ). On a donc
P
X X
δ + µ∗ (X) ≥ µ0 (Bn ∩ A) + µ0 (Bn ∩ (E\An )) ≥ µ∗ (X ∩ A) + µ∗ (X ∩ (E\A)) ,
n∈N n∈N
ce qui entraîne bien le résultat voulu car δ > 0 peut être choisi arbitrairement petit. On a donc montré
que tout ensemble de A est µ∗ -mesurable, ce qui prouve (iii).
On fixe X ⊂ E. Il existe Ap,n ∈ A , p, n ∈ N, tels que X ⊂ n∈N Ap,n := Bp et
S
Montrons (iv).
2−p + µ∗ (X) ≥ n∈N µ0 (Ap,n ). Or par (i) et (ii), on a
P
X X
µ0 (Ap,n ) = µ∗ (Ap,n ) ≥ µ∗ (Bp ) .
n∈N n∈N
T
Il est clair que Bp ∈ σ(A ) et donc B := p∈N Bp ∈ σ(A ). De plus, X ⊂ B. Enfin, pour tout p ∈ N,
on a B ⊂ Bp et donc µ∗ (B) ≤ µ∗ (Bp ) ≤ µ∗ (X) + 2−p ≤ µ∗ (B) + 2−p ,et donc µ∗ (B) = µ∗ (X).
Preuve : par la proposition A.2.3 (i), µ∗ est une mesure extérieure. Le théorème A.2.1 implique que
E (µ∗ ) est une tribu et que la restriction de µ∗ à E (µ∗ ) est une mesure positive. La proposition A.2.3
(iii) implique que σ(A ) ⊂ E (µ∗ ) et le point (ii) de la même proposition dit que µ∗ et µ0 coincident
sur A . Si on note µ la restriction de µ∗ à σ(A ), alors c’est une mesure prolongeant µ0 . Si µ0 est
sigma-finie, comme l’algèbre A est un pi-système, le théorème d’unicité du prolongement des mesures
A.1.6 s’applique et µ est l’unique prolongement de µ0 à σ(A ).
Définition A.2.4 Cette mesure est appelée la mesure deStieltjes associée à F et elle est souvent
notée dF . F (x) = x, x ∈ R, implique l’existence de la mesure de Lebesgue, c’est-à-dire l’existence
d’une unique mesure ` : B(R) → [0, ∞] telle que `( ]a, b]) = b − a, pour tous réels a et b tels que a < b.
145
Si I =]a, b], on pose ν0 (I) = F (b) − F (a). Si A ∈ A , il est toujours possible de trouver I1 , . . . , In ,
intervalles du type (*), disjoints deux-à-deux tels que A = I1 ∪ . . . ∪ In . On pose alors ν0 (A) =
ν0 (I1 ) + . . . + ν0 (In ). On vérifie que si A = J1 ∪ . . . ∪ Jm avec J1 , . . . , Jm , intervalles du type (*),
disjoints deux-à-deux alors ν0 (J1 ) + . . . + ν0 (Jm ) = ν0 (I1 ) + . . . + ν0 (In ) (ce petit travail est laissé au
lecteur). Cela montre la cohérence de la définition de ν0 sur A . On vérifie immédiatement que c’est une
fonction additive de masse finie. Par le théorème de Caratheodory A.2.4, il suffit simplement de vérifier
que ν0 est une pré-mesure et par la proposition A.2.2 il suffit de vérifier que ν0 satisfait la condition
(ii) de cette proposition. Pour cela, on commence par fixer A ∈ A , non-vide. Il est nécessairement
de la forme A =]a1 , b1 ] ∪ . . . ∪]an , bn ], avec c ≤ a1 < b1 < a2 ≤ . . . < bn < d. Comme F est continue
à droite, pour tout ε > 0, et pour tout ai , il existe a0i > ai , tel que 0 ≤ F (a0i ) − F (ai ) ≤ ε/n. On
pose a∗i = min(a0i , bi ). On a donc aussi 0 ≤ F (a∗i ) − F (ai ) ≤ ε/n et ai < a∗i ≤ bi . On pose alors
A(ε) =]a∗1 , b1 ] ∪ . . . ∪]a∗n , bn ] et A(ε) = [a∗1 , b1 ] ∪ . . . ∪ [a∗n , bn ]. On voit donc que pour tout A ∈ A et
pour tout ε > 0, on peut trouver A(ε) dans l’algèbre A et A(ε) compact, tels que
T
On remarque ensuite que n≥0 A(εn ) = ∅. Comme les A(εn ) sont compacts, il existe n0 tel que pour
T T
tout n ≥ n0 , 0≤k≤n Ak (εk ) = ∅ et donc 0≤k≤n Ak (εk ) = ∅ ; (A.24) implique que pour tout ε > 0, il
existe n0 tel que pour tout n ≥ n0 , ν0 (An ) < ε, ce qui signifie que limn ν0 (An ) = 0. On a donc montré
que ν0 satisfait l’hypothèse (ii) de la proposition A.2.2 ce qui termine la preuve de (a).
Définition A.2.5 (Tribu produit) Soient (E1 , E1 ) et (E2 , E2 ) deux espaces mesurables.
(a) (Rectangles élémentaires) On pose P = {A × B ; A ∈ E1 , B ∈ E2 }. P est la classe des
P 0
rectangles mesurables de E 1 × E2 . On remarque que est un pi-système car A × B ∩ A ×
0 0 0
B = A∩A × B∩B .
(b) (Tribu produit) On note ensuite E1 ⊗ E2 la tribu engendrée par P sur E1 × E2 :
E1 ⊗ E2 = σ(P) .
146
Lemme A.2.5 Soient (E1 , E1 ) et (E2 , E2 ) deux espaces mesurables. On note π1 et π2 les projections
canoniques de E1 × E2 sur resp. E1 et E2 . Alors la tribu produit est la plus petite tribu G sur E1 × E2
qui rende (G , E1 )-mesurable la projection π1 et qui rende (G , E2 )-mesurable la projection π2 . Autrement
dit, E1 ⊗ E2 est la tribu engendrée par π1 et π2 :
σ {π1 , π2 } = E1 ⊗ E2 .
Preuve : pour tout A ∈ E1 , on a π1−1 (A) = A × E2 qui est un rectangle élémentaire donc dans
E1 ⊗ E2 . Cela montre que π1 est (E1 ⊗ E2 , E1 )-mesurable. De même π2 est (E1 ⊗ E2 , E2 )-mesurable. Cela
montre que la tribu engendrée par π1 et π2 est contenue dans E1 ⊗ E2 . Montrons l’inclusion inverse :
on rappelle que σ {π1 , π2 } = σ π1−1 (A), π2−1 (B) ; A ∈ E1 , B ∈ E2 . Or pour tout A ∈ E1 et tout
B ∈ E2 , on a
A × B = (A × E2 ) ∩ (E1 × B) = π1−1 (A) ∩ π2−1 (B) ∈ σ {π1 , π2 } .
Donc P ⊂ σ {π1 , π2 } , ce qui entraîne que E1 ⊗ E2 = σ(P) ⊂ σ {π1 , π2 } . Cela termine la preuve
du lemme.
On adopte les notations suivantes : pour tout C ⊂ E1 × E2 et tout (x, y) ∈ E1 × E2 , on pose :
On dit que Cx1 est la section de C en la première coordonnée x et Cy2 est la section de C en la seconde
coordonnée y.
Théorème A.2.6 (Existence de la mesure produit) Soient (E1 , E1 , µ1 ) et (E2 , E2 , µ2 ), deux espaces
mesurés. Soit C ∈ E1 ⊗ E2 . Les assertions suivantes sont vraies.
(i) Pour tout (x, y) ∈ E1 × E2 , on a : Cx1 ∈ E2 et Cy2 ∈ E1 .
(ii) On suppose que µ1 et µ2 sont sigma-finies. Alors les applications
G = C ∈ E1 ⊗ E2 : Cx1 ∈ E2 et Cy2 ∈ E1
.
147
ce qui entraîne facilement que E1 × E2 \C ∈ G . La classe G est donc stable par passage au complé-
mentaire. Montrons qu’elle est stable par union
S dénombrable : pour cela on se donne Cn ∈ G , n ∈ N.
Pour simplifier les notations, on pose C = n∈N Cn . On observe alors que
[ [
Cx1 = (Cn )1x et Cy2 = (Cn )2y , (A.26)
n∈N n∈N
ce qui implique donc que C ∈ G . On a donc prouvé que G est une sigma-algèbre. Par conséquent, on
a σ(P) ⊂ G ⊂ E1 ⊗ E2 , ce qui implique que G = E1 ⊗ E2 . Comme ce raisonnement peut être fait pour
tout (x, y) ∈ E1 × E2 , on en déduit le premier point du théorème.
Pour prouver le point (ii), on définit tout d’abord la classe d’ensembles suivante :
Par conséquent, x 7→ µ2 (Cx1 ) est limite simple d’applications E1 -mesurables : c’est donc une fonction
E1 -mesurable, ce qui implique que C ∈ L. Il reste à montrer que L est stable par différence propre.
C’est ici que l’on utilise le fait que µ1 et µ2 sont sigma-finies. On commence par supposer que µ2 est
de masse finie. On se donne D, C ∈ L tels que C ⊂ D. On remarque que pour tout x ∈ E1 , on a
(D\C)1x = Dx1 \Cx1 et puisque µ2 est de masse finie, on peut donc écrire :
Cela implique que x 7→ µ2 ((D\C)1x ) est la différence de deux fonctions E1 -mesurables bornées, elle est
donc elle-même E1 -mesurable et D\C ∈ L. Sous l’hypothèse que µ2 est de masse finie, on a montré
que la classe L est un lambda-système qui contient le pi-système P. En appliquant le théorème du
lambda-pi système de Dynkin, on en déduit que σ(P) ⊂ L et donc que L = E1 ⊗ E2 . On a montré
que si µ2 est de masse finie, alors pour tout C ∈ E1 ⊗ E2 , l’application x 7→ µ2 (Cx1 ) est E1 -mesurable.
Supposons seulement que µ2 soit sigma-finie : on peut alors trouver une suite d’ensembles En,2 ∈
E2 , n ∈ N, que l’on peut toujours choisir disjoints deux-à-deux tels que E2 = n∈N En,2 et µ2 (En,2 ) <
S
∞. Pour tout n ∈ N et tout B ∈ E2 , on pose µn,2 (B)P = µ2 (En,2 ∩ B). Cela définit une suite de mesures
positives de masse finie sur E2 telles que µ2 (B) = n∈N µn,2 (B), B ∈ E2 . D’après ce qui précède, pour
tout C ∈ E1 ⊗ E2 , l’application x 7→ µn,2 (Cx1 ) est E1 -mesurable. Or, pour tout x ∈ E1 , on
tout n ∈ N et P
a : µ2 (Cx ) = n∈N µn,2 (Cn1 ), ce qui montre que x 7→ µ2 (Cx1 ) est E1 -mesurable pour tout C ∈ E1 ⊗ E2
1
lorsque µ2 est sigma-finie. On raisonne de même avec l’autre coordonnée. Cela termine la preuve du
point (ii).
On montre le point (iii) en utilisant encore la notion de lambda-système. On pose
Z Z
L0 = C ∈ E1 ⊗ E2 : µ2 (Cx1 ) µ1 (dx) = µ1 (Cy2 ) µ2 (dy) .
E1 E2
148
Montrons tout d’abord que P ⊂ L0 . Pour cela on se donne A × B ∈ P. On rappelle que pour tout
(x, y) ∈ E1 × E2 , on a
Par conséquent
Z Z
µ2 ((A × B)1x ) µ1 (dx) = µ1 (A)µ2 (B) = µ1 ((A × B)2y ) µ2 (dy) ,
E1 E2
Par ailleurs ces fonctions en x et y sont bornées donc intégrables contre n’importe quelle mesure de
masse finie. En intégrant ces relations on obtient alors
Z Z Z
µ2 ((D\C)1x ) µ1 (dx) = µ2 (Dx1 ) µ1 (dx) − µ2 (Cx1 ) µ1 (dx)
E1 E1 E1
Z Z
= µ1 (Dy2 ) µ2 (dy) − µ1 (Cy2 ) µ2 (dy)
E2 E2
Z
= µ1 ((D\C)2y ) µ2 (dy) ,
E2
ce qui implique que D\C ∈ L0 . Par conséquent, si µ1 et µ2 sont de masse finie, on a montré que L0
est un lambda-système contenant P. En appliquant le théorème du lambda-pi-système, on en déduit
que L0 = E1 ⊗ E2 . On a montré que si µ1 et µ2 sont de masse finie, alors l’égalité (A.25) est vérifiée
pour tout C ∈ E1 ⊗ E2 .
Considérons le cas où µ1 et µ2 sont seulement supposées sigma-finies. Pour tout i ∈ {1, 2}, il existe
S d’ensembles En,i ∈ Ei , n ∈ N que l’on peut toujours choisir disjoints deux-à-deux tels que
une suite
Ei = n∈N En,i et µi (En,i ) < ∞. On définit également les mesures finies µn,i = µi ( · ∩ En,i ). Montrons
que pour toute fonction g : Ei → [0, ∞], Ei -mesurable, on a
Z XZ
g dµ = gdµn,i (A.27)
Ei n∈N Ei
XZ XZ Z X
Z
gdµn,i = g1En,i dµi = g1En,i dµi = g dµi .
n∈N Ei n∈N Ei Ei n∈N Ei
149
Comme on a prouvéR (iii) dans le cas de mesures finies, on peut affirmer que pour tout p, n ∈ N et
tout C ∈ E1 ⊗ E2 , on a E1 µp,2 (Cx1 ) µn,1 (dx) = E2 µn,1 (Cy2 ) µp,2 (dy). On a donc les égalités suivantes
R
P
se qui se réécrit µ1 ⊗ µ2 (C) = n∈N µ1 ⊗ µ2 (Cn ). Ceci montre que µ1 ⊗ µ2 est une mesure positive
sur E1 ⊗ E2 .
On rappelle les notations En,i ∈ Ei , n ∈ N, i ∈ {1, 2}, introduites précédemment. Alors clairement
les ensembles En,1 × Ep,2 ∈ P, n, p ∈ N, sont tels que
[
En,1 × Ep,2 = E1 × E2 et µ1 ⊗ µ2 (En,1 × Ep,2 ) < ∞ , n, p ∈ N .
n,p∈N
Cela montre que µ1 ⊗ µ2 est sigma-finie. Montrons enfin l’unicité : supposons que ν soit une mesure
positive sur E1 × E2 telle que ν(A × B) = µ1 (A)µ2 (B) = µ1 ⊗ µ2 (A × B), pour tout A ∈ E1 et tout
B ∈ E2 . Cela montre que ν et µ1 ⊗ µ2 coincident sur le pi-système P générant E1 ⊗ E2 . De plus, on a
µ1 ⊗ µ2 (En,1 × Ep,2 ) = ν(En,1 × Ep,2 ) < ∞, pour tous p, n ∈ N. Les hypothèses du théorème d’unicité
du prolongement des mesure A.1.6 sont donc satisfaites et on peut affirmer que µ1 ⊗ µ2 et ν coincident
sur E1 ⊗ E2 .
(E1 × E2 × E3 , E1 ⊗ E2 ⊗ E3 , µ1 ⊗ µ2 ⊗ µ3 ) ,
150
Plus généralement, soit (Ek , Ek , µk ), 1 ≤ k ≤ n, n-espaces mesurés, on définit ainsi facilement (récur-
sivement) l’espace produit
(E1 × . . . × En , E1 ⊗ . . . ⊗ En , µ1 ⊗ . . . ⊗ µn ) . (A.28)
Proposition A.2.7 Soient (Ek , Ek , µk ), 1 ≤ k ≤ n, n-espaces mesurés. Alors les assertions suivantes
sont vraies.
(i) La classe des pavés P est un pi-système générant E1 ⊗ . . . ⊗ En : σ(P) = E1 ⊗ . . . ⊗ En . De
plus E1 ⊗ . . . ⊗En est la plus petite tribu rendant les projections mesurables : E1 ⊗ . . . ⊗ En =
σ {π1 , . . . , πn } .
(ii) On suppose que les mesures µ1 , . . . , µn sont sigma-finies. La mesure ν = µ1 ⊗ . . . ⊗ µn est
l’unique mesure sur E1 ⊗ . . . ⊗ En telle que
Preuve : le résultat découle d’une récurrence immédiate qui est une conséquence de la définition
récursive (A.28) du produit de n espaces et du théorème A.2.6.
On signale que B(Rn ) = B(R)⊗n . La mesure de Lebesgue `n en dimension n est définie sur B(Rn )
par `n = `⊗n .
Théorème de Fubini.
Lemme A.2.8 Soient (E1 , E1 ) et (E2 , E2 ), deux espaces mesurables et soit f : E1 × E2 → R ou C une
application E1 ⊗ E2 -mesurable. Alors pour tout (x, y) ∈ E1 × E2 , l’application partielle f (x, ·) : E2 → R
(ou C) est E2 -mesurable ; de même l’application partielle f (·, y) : E1 → R (ou C) est E1 -mesurable.
Preuve : pour tout Borélien C de R ou C, ona (f (x, ·))−1 (C) = {y ∈ E2 : f (x, y) ∈ C} = (f −1 (C))1x ,
ce qui montre bien que (f (x, ·))−1 (C) ∈ E2 d’après le point (i) du théorème A.2.6. Cela entraîne le
résultat désiré pour f (x, ·). On raisonne de même pour f (·, y).
Théorème A.2.9 Soient (E1 , E1 , µ1 ) et (E2 , E2 , µ2 ), deux espaces mesurés. On suppose que µ1 et µ2
sont sigma-finies. Soit f : E1 × E2 → R ou C, une application E1 ⊗ E2 -mesurable. Les assertions
suivantes sont vérifiées.
(i) Si f : E1 × E2 → [0, ∞], la fonctions y ∈ E2 7→ E1 f (x, y) dµ1 (dx) est bien définie et E2 -
R
mesurable. De même, la fonction x ∈ E1 7→ E2 f (x, y) dµ2 (dy) est bien définie et E2 -mesurable
R
151
R
(ii) Soit f : E1 × E2 → R ou C, telle que E1 ×E2 |f | dµ1 ⊗ µ2 < ∞. Alors, pour µ2 -presque
Rtout y ∈ E2 , l’application partielle f (·, y) est µ1 -intégrable. De plus, l’application y ∈ E2 7→
E1
f (x, y) dµ1 (dx), qui est définie µ2 -p.p., est µ2 -intégrable. Un résultat analogue est vérifié
en l’autre coordonnée et (A.29) a lieu.
Preuve : soit f : E1 × E2 → [0, ∞], une fonction E1 ⊗ E2 . Le lemme A.1.11 implique l’existence de
∈ E1 ⊗E2 , n ∈ N, tels que f = n∈N cn 1Cn . On remarque que pour tout (x, y) ∈ E1 ×E2 ,
P
cn ∈ R+ et Cn P
on a f (x, y) = n∈N cn 1(Cn )2y (x) et la proposition A.1.17 d’interversion intégrale/série positive montre
que E1 f (x, y) dµ1 (dx) = n∈N cn µ1 ((Cn )2y ). Or chaque fonction y 7→ µ1 ((Cn )2y ) est E2 -mesurable par
R P
le théorème A.2.6. Cela montre bien que y ∈ E2 7→ E1 f (x, y) dµ1 (dx) est E2 -mesurable. Le théorème
R
A.2.6 et la proposition A.1.17 d’interversion intégrale/série positive entraînent les égalités suivantes :
Z X X Z
µ1 (Cn )2y µ2 (dy)
f d µ1 ⊗ µ2 = cn (µ1 ⊗ µ2 )(Cn ) = cn
E1 ×E2 n∈N n∈N E2
Z ! Z Z
X
cn µ1 (Cn )2y
= µ2 (dy) = f (x, y)dµ1 (dx) dµ2 (dy) .
E2 n∈N E2 E1
A.3 Radon-Nikodym.
I.3.a Mesures signées.
Définition A.3.1 Soit (E, E ) un ensemble mesurable. Soit µ : E :→ R. On dit quePµ est une mesure
signée
S si pour
P toute suite A n ∈ E , n ∈ N, d’ensembles deux-à-deux disjoints, |µ(An )| < ∞ et
µ( An ) = µ(An ).
Lemme A.3.1 Soit (E, E ) un ensemble mesurable et soit µ : E :→ R, une mesure signée.
(i) On a µ(∅) = 0.
(ii) Si A, B ∈ E sont disjoints, µ(A ∪ B) = µ(A) + µ(B). De plus pour tout C ∈ E , µ(E\C) =
µ(E) − µ(C).
Preuve : si on prend An = ∅, n ∈ N, dans la définition précédente, la série de terme général de terme
constant µ(∅) est convergente donc µ(∅) = 0. Montrons (ii) : on prend A, B ∈ E disjoints et on pose
A0 = A, A1 = B, et An = ∅, dès que n ≥ 2, si bien que (??) entraîne µ(A ∪ B) = µ(A) + µ(B),
car µ(∅) = 0. Soit C ∈ E . On pose A = C et B = E\C : ce sont des ensembles disjoints et on a
µ(E) = µ(C) + µ(E\C).
Le lemme suivant est l’équivalent de la proposition A.1.4).
Lemme A.3.2 Soit µ une mesure signée sur (E, E ). Soit An ∈ E , n ∈ N, une suite d’ensembles.
S
(i) On suppose que An ⊂ An+1 . Alors, µ n∈N An = limn µ(An ).
T
(ii) On suppose que An+1 ⊂ An . Alors, µ n∈N An = limn µ(An ).
152
Preuve : (b) se déduit de (a) par passage au complémentaire. Il suffit donc de montrer (a) : on pose
B0 = S
A0 et Bn = AS n \An−1 ,Spour tout n ≥ 1. On voit que les Bn sont disjoints deux-à-deux, que
An = 0≤k≤n Bk et Bn = An . On a alors les égalités suivantes :
[ X X
µ An = µ(Bn ) = lim µ(Bk ) = lim µ(An ) ,
n n
n∈N n∈N 0≤k≤n
Théorème A.3.3 (Décomposition de Jordan) Soit µ une mesure signée sur l’espace mesurable
(E, E ). Il existe deux ensembles A+ et A− dans E tels que A+ ∩ A− = ∅, A+ ∪ A− = E et tels que si
pour tout B ∈ E , on pose µ+ (B) = µ(A+ ∩ B) et µ− (B) = −µ(A− ∩ B), alors µ+ et µ− sont deux
mesures positives de masse finie ayant les propriétés suivantes.
(i) µ = µ+ − µ− et pour tout B ∈ E ,
(ii) (µ+ , µ− ) est l’unique couple de mesures positives de masse finie tel que si µ1 , µ2 : E → R+
sont deux mesures de masse finie telles que µ = µ2 − µ1 , alors
Par définition de M , il existe des ensembles An ∈ E , n ∈ N, tels que limn µ(An ) = MT. On pose
A = An et pour tout n, on note Pn la classe de tous les ensembles non-vides de la forme 0≤k≤n A0k
S
où pour chaque 0 ≤ k ≤ n, l’ensemble A0k peut être soit Ak , soit A\Ak . On note N (n) le cardinal de
Pn , et on observe que N (n) ≤ 2n+1 . De plus, on observe que les éléments non-vides de Pn forment
une partition de A. On indexe Pn par {Bn,i ; 1 ≤ i ≤ N (n)}. De plus chaque Bn−1,j ∈ Pn−1 est
réunion d’éléments Bn,i de Pn :
[
Bn−1,j = Bn,i ; i ∈ {0, . . . , N (n)} : Bn,i ⊂ Bn−1,j ,
Soit m < n. Comme Pn est une partition plus fine que Pm , alors (Cm ∪ . . . ∪ Cn )\(Cm ∪ . . . ∪ Cn−1 )
est la réunion de certains Bn,i tels que µ(Bn,i ) ≥ 0. On en déduit alors que µ(Cm ∪ . . . ∪ Cn ) ≥
µ(Cm ∪ . . . ∪ Cn−1 ). Et en répétant cet argument, par (A.32), on obtient
lemme A.3.2 (b) entraîne que limm µ(Dm ) = µ(A+ ) et l’inégalité précédente implique alors : M =
limn µ(Am ) ≤ limm µ(Dm ) = µ(A+ ), ce qui prouve (A.31), par définition de M .
Soit B ∈ E tel que B ⊂ A+ . Si µ(B) < 0, alors M = µ(A+ ) = µ(B) + µ(A+ \B) < µ(A+ \B), ce
qui contredit la définition de M . On pose A− = E\A+ et de même, si B ⊂ A− est tel que µ(B) > 0,
153
comme B ∩ A+ = ∅, on a µ(A+ ∪ B) = µ(A+ ) + µ(B) > µ(A+ ) = M , ce qui contredit la définition de
M . On en déduit que
On définit ensuite µ+ et µ− comme dans le théorème. Il est clair que ce sont des fonctions sigma-
additives d’ensembles, par ailleurs elles sont positives : ce sont donc des mesures positives sur E . De
plus comme A+ et A− forment une partition de E, on a bien µ = µ+ − µ− . Enfin, pour tous B, C ∈ E
tels que C ⊂ B, on a
Théorème A.3.4 Soit (E, E ) un espace mesurable. Soit P un pi-système engendrant E . Si deux
mesures signées coïncident sur P, alors elle sont égales.
Preuve : Soient µ et ν deux mesures signées coïncidant sur P. On reprend la preuve du théorème
d’unicité du prolongement des mesures positives en posant L = {B ∈ E : µ(B) = ν(B)}. On a supposé
que P ⊂ L. La monotonie séquentielle des mesures signée établie au lemme A.3.2 et des arguments
simples montrent que L est lambda-système. Le théorème de la classe monotone A.1.3 implique alors
que σ(P) ⊂ L ; comme L ⊂ E , on a donc L = E , qui est bien équivalent à µ = ν.
∀A ∈ E ,
µ(A) = 0 =⇒ ν(A) = 0 .
On note cela ν µ.
(b) Soit A ∈ E . On dit que ν est concentrée sur A (ou encore supportée sur A) ssi ν(B) =
ν(A ∩ B), pour tout B ∈ E , ce qui est équivalent à
∀C ∈ E ,
C ∩ A = ∅ =⇒ ν(C) = 0 .
(c) On dit que deux ν1 et ν2 , positives ou signées, sont mutuellement singulières (ou aussi
mutuellement étrangères) s’il existe A, A0 ∈ E tels que A ∩ A0 = ∅, tels que ν1 soit concentrée
sur A et ν2 soit concentrée sur A0 . On note cela ν1 ⊥ ν2 .
Lemme A.3.5 Si ν est une mesure positive, elle est concentrée sur A ssi ν(E\A) = 0.
Preuve : si ν est concentrée sur A, comme (E\A) ∩ A = ∅, la définition implique que ν(E\A) = 0.
Réciproquement, supposons que ν(E\A) = 0. Pour tout C ∈ E tel que C ∩ A = ∅, on a C ⊂ E\A.
Comme ν est une mesure positive elle est croissante pour l’inclusion et on a 0 ≤ ν(C) ≤ ν(E\A) = 0,
donc ν(C) = 0, ce qui implique que ν est supportée par A.
154
Lemme A.3.6 Soient µ et ν deux mesures positives non-nulles de masse finie sur l’espace mesuré
(E, E ). Si µ et ν ne sont pas mutuellement singulières, alors il existe A ∈ E et η > 0 tels que
1
∀B ∈ E , n0
µ(B ∩ A+ +
n0 ) ≤ ν(B ∩ An0 ) ,
Définition A.3.3 Soient (E, E ), un espace mesurable et ν : E → [0, ∞], une mesure positive. On dit
que ν estPune série de mesures finies, s’il existe des mesures positives de masse finie νn , n ∈ N, telles
que ν = n∈N νn .
Lemme A.3.7 Une mesure positive sigma-finie est une série de mesures finies.
Preuve : supposons que ν : E → [0, ∞] soit Sune mesure sigma-finie. Il existe donc En ∈ E , n ∈ N,
< ∞ et n∈N En = E. On pose alors νn = ν(· ∩ En ). C’est une
deux-à-deux disjoints tels que ν(En ) P
mesure de masse finie. De plus, on a n∈N νn = ν.
Lemme A.3.8 Soient (E, E ), un espace mesurable et µn : E → [0, ∞],Pn ∈ N, une suite de mesures
positives. Soit f : E → [0, ∞], une fonction E -mesurable. On pose µ = n∈N µn . Alors
Z XZ
f dµ = f dµn .
E n∈N E
R P P R
Preuve : par définition de µ, pour tout A ∈ E, E 1A dµ = µ(A) = n∈N µn (A) P = n∈N E 1A dµn .
Le lemme A.1.11 implique l’existence de cp ∈ R+ et Ap ∈ E, p ∈ N, tels que f = p∈N cp 1Ap . Par le
théorème d’interversion série/intégrale, on a
Z X X XX XZ
f dµ = cp µ(Ap ) = cp µn (Ap ) = cp µn (Ap ) = f dµn ,
E p∈N p,n∈N n∈N p∈N n∈N E
Lemme A.3.9 Soient (E, E ), un espace mesurable, µ : E →R[0, ∞], une mesure et f : E → [0, ∞],
une fonction E -mesurable. Pour tout A ∈ E , on pose ν(A) = A f dµ. Alors, les assertions suivantes
sont vérifiées.
(i) ν est une mesure positive telle que ν µ.
(ii) Pour toute g : E → [0, ∞], E -mesurable, E g dν = E gf dµ.
R R
(iii) Si µ est une série de mesures finies, alors il en est de même pour ν.
155
Preuve : il est clair que ν(∅) = 0. Soit An ∈ E , n ∈ NSune suite d’ensembles mesurables deux-à-deux
P les notations, on pose A = An . Comme les ensembles sont deux-à-deux
disjoints. Pour simplifier
disjoints on a 1A = n∈N 1An . Par la proposition A.1.17, on a
Z Z X XZ X
ν(A) = f 1A dµ = f 1An dµ = f 1An dµ = ν(An ),
E E n∈N n∈N E n∈N
ce qui montre (i). SoitP g comme dans (ii) : le lemme A.1.11 montre l’existence de Bn R∈ E , et
cPn ∈ R
R+ tels que g
P R cn 1Bn . ParR la proposition A.1.17 d’interversion série/intégrale on a g dν =
=
cn g1Bn dν = g1Bn f dµ = gf dµ, ce qui prouve (ii).
On montre (iii). Pour tout q ∈ N, on pose fq = min(q, f ) : E → [0, q]. C’est une fonction E -
mesurable bornée. De plus, on a limq ↑ fq = supq∈N fq = f . On pose g0 = f0 et gq+1 = fq+1 − fq , pour
tout q ∈ N. Alors les gq sont E -mesurables positives bornées car à valeur dans [0, q], et on a
X X
gq = lim ↑ gk = lim ↑ fq = f .
q q
q∈N 0≤k≤q
Comme µPest une série de mesures finies, il existe des mesures positives de masse finieR µp , p ∈ N, telles
que µ = p∈N µp . Pour tous p, q ∈ N, on note ν(p,q) la mesure telle que ν(p,q)P(A) = A gq dµp , A ∈ E .
C’est une mesure de masse finie car ν(p,q) (E) ≤ aµp (E) < ∞. On pose µ0 = p,q∈N ν(p,q) : c’est donc
une série de mesures finies et pour tout A ∈ E , le théorème d’interversion série/intégrale et (A.3.8)
impliquent les égalités suivantes.
X XXZ XZ Z X Z
µ0 (A) =
νp,q (A) = gq 1A dµp = gq 1A dµ = gq 1A dµ = f 1A dµ
p,q∈N q∈N p∈N E q∈N E E q∈N E
Théorème A.3.10 (Radon-Nikodym) Soit (E, E ) un espace mesurable. Soit µ et ν deux mesures
positives sur E . On suppose que µ est sigma-finie et que ν est une série de mesures finies. On suppose
également que ν µ, alors il existe f : E → [0, ∞], E -mesurable, telle que ν(A) = A f dµ, A ∈ E .
R
La classe de fonctions G n’est pas vide car la fonction nulle s’y trouve. Soient g, h ∈ G ; on pose
C = {x ∈ E : g(x) < h(x)} et D = {x ∈ E : g(x) ≥ h(x)}, qui est le complémentaire de C. Pour
tout B ∈ E , on a
Z Z Z
max(g, h) dµ = h dµ + g dµ ≤ ν(B ∩ C) + ν(B ∩ D) = ν(B) .
B B∩C B∩D
Cela montre que G est stable par max. Soient gn ∈ G , n ∈ N, telles que gn ≤R gn+1 . On pose
g = supn gn . La convergence monotone entraîne que pour tout B ∈ E , B g dµ =Rlimn B gn dµ ≤ ν(B).
R
Donc G est stable par limite de fonctions croissantes. On pose ensuite M = sup{ E gRdµ ; g ∈ G }. On a
clairement M ≤ ν(E) < ∞. Par définition de M , il existe gn ∈ G , n ∈ N∗ , telle que E gn dµ > M − n1 .
On pose fn = max(g1 , . . . , gn ). On a fn ∈ G et fn ≤ fn+1 . On pose alors f = supn fRn . Ce qui
G
R
précède
R montre que f ∈ . La
R convergence monotone implique ensuite que E
f dµ = limn E fn dµ ≥
limn E gn dµ = M , et donc E f dµ = M , par définition de M .
156
A l’aide de f , on définit alors deux fonctions sur E , notées νabs et νsing , en posant νabs (B) = B f dµ
R
et νsing (B) = ν(B) − νabs (B), pour tout B ∈ E . On voit que dνabs = f dµ, est une mesure positive
de masse M et que νsing est une mesure signée. Or νsing (B) ≥ 0, car f ∈ G . C’est donc une mesure
positive de masse ν(E) − M < ∞. De plus on a ν = νabs + νsing .
Supposons que νsing ne soit pas singulière avec µ. Alors le lemme A.3.6 entraîne l’existence de
A ∈ E et de η > 0 tels que µ(A) > 0 et ηµ(B ∩ A) ≤ νsing (B ∩ A), pour tout B ∈ E , et donc
Z Z Z
(f + η1A ) dµ = f dµ + ηµ(B ∩ A) ≤ f dµ + νsing (B ∩ A)
B
ZB B
Z
≤ f dµ + νsing (B ∩ A) + f dµ
B∩A B∩(E\A)
Z
≤ ν(B ∩ A) + f dµ ≤ ν(B ∩ A) + ν(B ∩ (E\A)) = ν(B).
B∩(E\A)
157
158
Annexe B
B.1 Définitions.
Définition B.1.1 (Produits scalaires) Soit H un espace vectoriel réel (resp. complexe). Un produit
scalaire est une application de H × H dans R ou C (on parle alors de produit scalaire Hermitien), que
l’on note h·, ·i et qui satisfait les conditions suivantes.
(a) Pour tous x, y ∈ H, hx, yi = hx, yi qui est le complexe conjugué de hy, xi.
(b) Pour tous x, y, z ∈ H et pour tout λ ∈ R, on a hx + λ.y, zi = hx, zi + λhy, zi
(c) Pour tout x ∈ H, hx, xi ≥ 0 et hx, xi = 0 implique x = 0.
On remarque que h0, yi = hy, 0i = 0. Si h·, ·i est Hermitien, alors (a) combiné avec (b) donne
hx, λ.yi = λhx, yi. Qu’il s’agisse d’un produit scalaire réel ou Hermitien, on pose
p
kxk = hx, xi , x ∈ H .
Si h·, ·i est un produit scalaire réel, il est facile de vérifier l’identité de polarisation
1
kx + yk2 − kx − yk2 .
hx, yi = 4
Proposition B.1.1 Soit H un K-espace vectoriel (K = R ou C). Soit h·, ·i un produit scalaire Her-
mitien. Alors les assertions suivantes sont vraies.
(i) (Cauchy-Schwarz) Pour tous x, y ∈ H on a |hx, yi| ≤ kxk.kyk.
(ii) (Inégalité triangulaire) Pour tous x, y ∈ H on a kx + yk ≤ kxk + kyk, qui entraîne
facilement que
kx − zk ≤ kx − yk + ky − zk , x, y, z ∈ H .
(iii) L’application k·k : H → R+ est une norme.
(iv) (Identité du parallélogramme) Pour tous x, y ∈ H on a
1
kx + yk2 + kx − yk2 = kxk2 + kyk2 .
2
159
Preuve : nous faisons la preuve dans le cas d’un espace vectoriel complexe et d’un produit scalaire
Hermitien. On fixe x, y ∈ H, r ∈ R et λ ∈ C un complexe de module 1 : |λ| = 1 ; on pose P (r) =
kx − rλ.yk2 . On observe que P (r) ≥ 0 pour tout r ∈ R. On remarque ensuite que
On choisit λ tel que λhy, xi = |hy, xi|, si bien que P est un polynôme de degré au plus 2, à coefficients
réels : P (r) = kxk2 − 2r|hy, xi| + r2 kyk2 . Si kyk2 = 0, alors P est un polynôme de degré au plus 1 qui
doit être positif, ce qui implique nécessairement qu’il est constant et donc que |hy, xi| = 0. Dans ce
cas l’inégalité de Cauchy-Schwarz est trivialement vérifiée. Supposons que kyk2 > 0. Alors P est un
polynôme de degré exactement 2, à coefficients réels : sa forme canonique est donc
|hy,xi| 2 |hy,xi|2
P (r) = rkyk − kyk
+ kxk2 − kyk2
.
2
cela implique que kxk2 − |hy,xi|
kyk2 ≥ 0, ce qui entraîne l’inégalité voulue. L’inégalité triangulaire est une
conséquence de Cauchy-Schwarz. En effet, on a
On remarque ensuite que pour tout λ ∈ C et tout x ∈ H, on a kλ.xk2 = hλ.x, λ.xi = λλhx, xi =
|λ|2 kxk2 . ce qui entraîne que kλ.xk = |λ|.kxk. Cette égalité, combinée avec l’inégalité triangulaire et
la condition (c) de la définition du produit Hermitien, montre que k·k est une norme. Montrons (d) :
on observe que
kx + yk2 = kxk2 + 2Re(hx, yi) + kyk2 et kx − yk2 = kxk2 − 2Re(hx, yi) + kyk2 .
où xi (resp. yi ) est la i-ème coordonée de x (resp. y). C’est clairement un espace Hermitien.
Exemple B.1.2 Soient f, g deux fonctions du C-espace vectoriel L (E, E , µ). L’inégalité de Hölder
2
Il est facile de voir que h·, ·i est un produit scalaire Hermitien et la norme associée à ce produit
Hermitien est la norme k·k2 . Il a été montré au chapitre précédent que (L (E, E , µ), k·k2 ) est complet.
2
160
B.2 Le théorème de la projection orthogonale.
Rappelons les résultats de continuité suivants (qui d’ailleurs sont vrais dans n’importe quel espace
vectoriel normé) : soient xn , yn ∈ H, n ∈ N deux suites à valeurs dans H qui convergent vers resp. x
et y et soit λn ∈ K une suite de scalaires qui converge vers le scalaire λ. Alors
xn + λn .yn −→ x + λ.y .
n→∞
Lemme B.2.1 Soit (H, h·, ·i), un espace de Hilbert. On fixe y0 ∈ H. Alors h·, y0 i : H → K est est
une forme linéaire continue, donc et l’application hy0 , ·i est également continue (si K = C, c’est une
forme anti-linéaire).
Définition B.2.1 Soit (H, h · , · i), un espace de Hilbert. Soit C ⊂ H. On dit que C est convexe ssi
θ.x + (1 − θ).y ∈ C pour tous x, y ∈ C et tout θ ∈ [0, 1].
Il est clair que tout sous-espace vectoriel de H est un convexe. Par ailleurs, la notion d’ensemble
convexe ne nécessite l’existence d’aucune norme : elle a un sens dans tout espace vectoriel réel ou
complexe. Le théorème suivant est le résultat fondamental d’analyse dans les espaces de Hilbert.
Théorème B.2.2 Soit (H, h · , · i) un espace de Hilbert. Soit C un convexe fermé non-vide de H. Il
existe un unique x0 ∈ C qui a une norme minimale : kx0 k = inf x∈C kxk.
Preuve : on suppose l’existence et on prouve d’abord l’unicité. On note r la quantité inf x∈C kxk. On
suppose qu’il existe x0 , x1 ∈ C tels que kx0 k = kx1 k = r. L’identité du parallèlogramme entraîne que
1 1
kx0 − x1 k2 = 2kx0 k2 + 2kx1 k2 − 4k 2 .(x0 + x1 )k2 = 4r2 − 4k 2 .(x0 + x1 )k2 .
Cela implique que (yn , n ∈ N) est de Cauchy car limn kyn k2 = r2 . Comme H est supposé complet,
c’est une suite convergente et on note x0 sa limite. Comme C est fermé, x0 ∈ C. Comme la norme est
continue, on voit que kx0 k = limn kyn k = r, ce qui termine la preuve du théorème.
Soit x ∈ H, alors il est facile de voir {x}⊥ = y ∈ H : hy, xi = 0 est le noyau de la forme
T linéaire
continue h·, xi : c’est un sous-espace fermé de H. Or pour tout sous-ensemble A ⊂ H, A⊥ = x∈A {x}⊥ .
Comme une intersection quelconque de sous-espaces vectoriels fermés est un sous-espace vectoriel
fermé, on en déduit
161
Théorème B.2.3 (Théorème de la projection orthogonale) Soit (H, h · , · i) un espace de Hilbert.
Soit F ⊂ H un sous-espace vectoriel fermé. Alors les assertions suivantes sont vraies.
(i) Pour tout x ∈ H, il existe une unique décomposition x = pF (x) + pF ⊥ (x), où pF (x) ∈ F et
pF ⊥ (x) ∈ F ⊥ .
(ii) Pour tout point z ∈ F distinct de pF (x), on a kx − pF (x)k < kx − zk. Autrement dit pF (x)
est l’unique point de F minimisant sa distance à x.
(iii) pF : H → F est une application linéaire telle que pF (x) = x pour tout x ∈ F . De même
pF ⊥ est une application linéaire telle que pF ⊥ (x) = x pour tout x ∈ F ⊥ .
(iv) Pour tout x ∈ H, on a : kxk2 = kpF (x)k2 + kpF ⊥ (x)k2 , qui est l’égalité de Pythagore. Cela
implique que pF et pF ⊥ sont deux continues.
Ensuite, on pose pF ⊥ (x) = x − pF (x). Pour tout y ∈ F et tout λ ∈ K, ce qui précéde implique que
On a
kpF ⊥ (x)k2 ≤ kpF ⊥ (x) − λ.yk2 = kpF ⊥ (x)k2 −λhpF ⊥ (x), yi − λhy, pF ⊥ (x)i + |λ|2 kyk2 ,
et donc 0 ≤ −λhpF ⊥ (x), yi − λhy, pF ⊥ (x)i + |λ|2 kyk2 . On choisit λ = hpF ⊥ (x), yi.kyk et y non-nul ;
ce qui précède donne −|λ|2 kyk2 ≥ 0, donc λ = 0 et on a hpF ⊥ (x), yi = 0. Comme cela est vrai pour
tout y ∈ F , on a bien montré que pF ⊥ (x) ∈ F ⊥ , pour tout x ∈ H. On a notament pF (x) ⊥ pF ⊥ (x)
or, par définition, on a x = pF (x) + pF ⊥ (x). Cela entraîne l’égalité de Pythagore du (iv).
Montrons ensuite l’unicité de la décomposition du (i) : on fixe x ∈ H. Supposons qu’il existe z ∈ F
et z0 ∈ F ⊥ tel que x = z+z0 . Alors pF (x)−z ∈ F , z0 −pF ⊥ (x) ∈ F ⊥ et pF (x)−z = z0 −pF ⊥ (x). Or un
vecteur qui est a la fois dans F et F ⊥ est orthogonal à lui-même, donc de norme nulle : c’est le vecteur
nul ; on a donc pF (x) − z = 0 et pF ⊥ (x) − z0 = 0, ce qui montre bien l’unicité de la décomposition.
Montrons que pF et pF ⊥ sont des applications linéaires : soient x, x0 ∈ H et λ ∈ K. On remarque
que z = pF (x) + λ.pF (x0 ) ∈ F et que z0 = pF ⊥ (x) + λ.pF ⊥ (x0 ) ∈ F ⊥ , car F et F ⊥ sont des espaces
vectoriels. De plus on a x + λ.x0 = z + z0 . L’unicité de la décomposition du (i) entraîne alors que
Remarque B.2.1 Soit F un sous-espace vectoriel d’un espace de Hilbert (H, h · , · i). On suppose que
F est de dimension finie et donc (F, k ·k) est un espace vectoriel de dimension finie. Il est nécessairement
complet, ce qui implique que F est fermé dans H. Le théorème de la projection montre alors qu’il
existe une projection orthogonale sur tout sous-espace de dimension finie.
Théorème B.2.4 (Représentation des formes linéaires continues sur un Hilbert) Soit (H, h · , · i)
un espace de Hilbert. Soit Λ : H → K une forme linéaire continue. Alors il existe un unique y ∈ H
tel que Λ(x) = hx, yi, pour tout x ∈ H.
162
Preuve : on note F = {x ∈ H : Λ(x) = 0} qui est le noyau de Λ. C’est un sous-espace vectoriel fermé
car Λ est continue. Si Λ est la forme linéaire nulle, alors y = 0, convient et le théorème est trivialement
vrai. On suppose maintenant que Λ est une forme linéaire non-nulle. Il existe donc x0 ∈ H\{0} tel
que Λ(x0 ) 6= 0. F est donc un sous-espace vectoriel fermé distinct de H : on pose pF ⊥ (x0 ) = z qui est
non-nul car x0 est non-nul. On peut alors définir z0 = kzk 1
.z. On a donc z0 ∈ F ⊥ et kz0 k = 1. Pour
tout x ∈ H, on pose ensuite v = (Λ(x)).z0 − (Λ(z0 )).x. On voit que Λ(v) = 0, donc v ∈ F et donc
hv, z0 i = 0, ce qui implique en développant, que 0 = hv, z0 i = Λ(x) − (Λ(z0 ))hx, z0 i. Par conséquent,
Λ(x) = hx, (Λ(z0 )).z0 i, pour tout x ∈ H, ce qui montre le théorème avec y = (Λ(z0 )).z0 .
Le lemme suivant donne une condition nécessaire et suffisante sur une famille de vecteurs orthonormée
pour être complète.
Lemme B.3.1 Soit (H, h · , · i) un espace de Hilbert. Soit A ⊂ H, un ensemble quelconque de vecteurs.
Alors, Vect(A) = H, ssi A⊥ = {0}.
Preuve : soit x tel que hx, ei = 0, pour tout e ∈ A. Comme Vect(A) est l’ensemble des combinaisons
linéaires de vecteurs de A, on en déduit que hy, xi = 0, pour tout y ∈ Vect(A). Comme h · , xi est
continue (lemme B.2.1), on a hy, xi = 0, pour tout y ∈ Vect(A). Si Vect(A) = H, cela implique
notamment hx, xi = 0 et donc x = 0 et A⊥ = {0}.
Si Vect(A) 6= H, il existe z ∈/ Vect(A). Pour simplifier les notation on pose F = Vect(A). Les
projections orthogonales pF et pF ⊥ existent et on remarque que z 6= pF (z) puisque z ∈/ F . On pose
x = z − pF (z) = pF ⊥ (z). Ce qui vient d’être dit montre que x 6= 0 ; or x ∈ F ⊥ , donc notamment
x ∈ A⊥ . Donc A⊥ 6= {0}.
Il existe un procédé simple pour obtenir une famille orthormée de n vecteurs à partir d’une famille
libre de n vecteurs. Ce procédé est appelé procédé d’orthonormalisation de Gram-Schmidt et se définit
comme suit : soit (xj , 1 ≤ j ≤ n) une famille libre de n vecteurs d’un espace de Hilbert (H, h · , · i).
On définit par récurrence une famille de vecteurs (ej , 1 ≤ j ≤ n) et une suite finie de réels positifs
(aj , 1 ≤ j ≤ n) de la manière suivante.
(a) On pose a1 = kx1 k et e1 = 1
a1 .x1 .
(b) On suppose que (ej , 1 ≤ k ≤ j) et (aj , 1 ≤ k ≤ j) sont définis et que j < n. On pose alors
1
X X
aj+1 = kxj+1 − hek , xj+1 i.ek k et ej+1 = aj+1 . xj+1 − hek , xj+1 i.ek .
1≤k≤j 1≤k≤j
On remarque que ak+1 > 0 car ak+1 = 0 implique que la famille (xj , 1 ≤ j ≤ n) est liée.
163
Pour tout 1 ≤ j ≤ n, on pose Fj = Vect({x1 , . . . , xj }). Il est alors facile de voir que (ej , 1 ≤ j ≤ n)
est orthonormée et que Fj = Vect({e1 , . . . , ej }), pour tout 1 ≤ j ≤ n. Par ailleurs, les nombres
(aj , 1 ≤ j ≤ n) s’interprêtent de la manière suivante : on suppose que j < n ; comme Fj est de
dimension j finie, c’est un sous-espace vectoriel fermé de H ; les projections orthogonales pFj et pFj⊥
P
existent et il est facile de voit que yj+1 = 1≤k≤jhek , xj+1 i.ek est dans Fj et que xj+1 − yj+1 est
orthogonal à Fj ; par unicité de la décomposition sur Fj et Fj⊥ , on en déduit que
X
pFj (xj+1 ) = yj+1 = hek , xj+1 i.ek .
1≤k≤j
On voit donc que aj+1 = inf y∈Fj kxj+1 − yk et donc que aj+1 est la distance de xj+1 à Fj . Pour
tout 1 ≤ j ≤ n on note Mj = (hxk , x` i)1≤k,`≤j qui est une matrice de taille j × j. Il est facile de
montrer que son déterminant n’est pas nul car la famille (xj , 1 ≤ j ≤ n) est libre. On montre alors
par récurrence que
det(Mj+1 )
∀1 ≤ j < n, aj+1 = inf kxj+1 − yk2 = . (B.3)
y∈Fj det(Mj )
Le procédé de Gram-Schmidt peut être utilisé pour montrer qu’un espace de Hilbert de dimension finie
possède une base orthonormée. Mais plus généralement, grâce à ce procédé on peut montrer qu’un
espace de Hilbert séparable possède une famille orthonormée complète (on rappelle qu’un espace
vectoriel normé est dit séparable ssi il admet une suite de vecteurs qui est dense).
X
hx, yi = cn (x)cn (y) .
n∈N
P
(ii) Pour tout x ∈ H, limN kx − 1≤n≤N cn (x).en k = 0, ce que l’on note
X
x= cn (x).en dans H.
n∈N
164
Comme F o = Vect({en ; n ∈ N}) est dense dans H, il existe yk ∈ F o , k ∈ N telle que limk kx − yk k = 0.
Par définition de F o , il existe une suite strictement croissante d’entiers (Nk , k ∈ N) telle que yk ∈ FNk .
On a donc kx − pFNk (x)k ≤ kx − yk k et comme (B.4) implique que N 7→ kx − pFN (x)k est une suite
décroissante, on voit que limn kx − pFN (x)k = 0, ce qui montre (ii) et le premier point du (i). Pour
montrer le second point du (i), on observe que La forme linéaire h·, yi est continue et donc que
X X
hx, yi = limhpFN (x), yi = lim cn (x)hen , yi = lim cn (x)cn (y),
N N N
0≤n≤N 0≤n≤N
Corollaire B.3.4 Tout K-espace de Hilbert séparable de dimensions infinie est isométriques au K-
espace de suites `2 (N).
Preuve : avec les notations de Riesz-Fisher, chaque x 7→ (cn x, n ∈ N) ∈ `2 (N) est une isométrie
bijective linéaire.
165