Markov2016 PDF
Markov2016 PDF
Markov2016 PDF
Raphael Lachieze-Rey∗
26 janvier 2017
M1 Paris Descartes.
2 Temps d’absorption 13
2.1 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Probabilités et temps d’absorptions . . . . . . . . . . . . . . . . . 16
4 Distributions invariantes 27
4.1 Convergence à l’équilibre . . . . . . . . . . . . . . . . . . . . . . . 37
4.2 Théorème ergodique . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Arithmétique et chaîne de Markov . . . . . . . . . . . . . . . . . 45
4.4 Marche aléatoire sur un graphe. . . . . . . . . . . . . . . . . . . . 48
1
7 Modèles de Markov cachés 59
7.1 Estimation par maximum de vraisemblance . . . . . . . . . . . . 60
7.2 Algorithme EM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
7.2.1 Condition de Doeblin . . . . . . . . . . . . . . . . . . . . 63
8 Sujet d’examen 63
8.1 Juin 2011 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
2
Ressource d’exercices en ligne :
http://wims.unice.fr/wims/fr_U2~proba~oefmarkov.fr.html
En noir : l’essentiel
En magenta : exemples, explications, exercices...
Rappels
0.1 Espérances et probas conditionnelles
On rappelle la formule de probabilités conditionnelles : P(A|B) = P(A ∩
B)/P(B), pour P(B) 6= 0. On note parfois PB (A) = P(A|B), rappelons que
PB (·) est une mesure de probabilités à part entière.
Autrement dit,
“P(A|B|C)00 = P(A|B ∩ C)
E(X|Y ) = ϕ(Y )
est une variable aléatoire qui est entièrement déterminée par Y . Par exemple,
si X, Y sont des variables de Bernoulli de paramètre 1/2 indépendantes,
1
E((X + Y )2 |Y ) = E(X 2 |Y ) + 2E(XY |Y ) + E(Y 2 |Y ) = EX 2 + 2Y EX + Y 2 = + Y + Y 2 = ϕ(Y ).
2
Z
|f (x)|µ(dx) < ∞
Ω
3
est défini sans ambiguité. De même, étant donné une série (an ; n ∈ N),
∞
X
an
n=0
Pour ce qui est de l’interversion, le théorème de Fubini nous dit que pour une
fonction bi-mesurable f (x, y) sur un produit d’espaces mesurés Ω × Ω0 ,
Z Z Z Z
f (x, y)µ(dx) µ0 (dy) = f (x, y)µ0 (dy) µ(dx)
Ω Ω0 Ω0 Ω
Les fonctions positives peuvent être intégrées dans l’ordre qu’on veut. Si µ est
une mesure de probabilité, Ω0 = N et µ0 est la mesure de comptage, ça nous
donne
X X
E f (ω, n) = Ef (ω, n)
n∈N n∈N
4
Exercice 1.
Parmi les exemples suivants, lesquels correspondent a une chaîne de Markov ?
— Les records du monde du 100m
— La population mondiale
— La position d’une voiture (car le passé nous renseigne sur sa vitesse, et
donc sur sa position future)
— Le nombre de personnes dans une file d’attente
— Un marcheur aléatoire qui ne revient jamais sur ses pas.
— Le couple (position, vitesse) d’une voiture de course
— une marche aléatoire
Cette propriété des chaînes de Markov est aussi connue comme propriété
de Markov.
Exemple 1. Modélisation
— Séquence d’ADN : ACGGTAACTC... peut-être vue en première approxi-
mation comme une chaine de Markov
— Evolution de population : Chaque jour, un individu nait ou un individu
meurt
— Généalogie/Epidémiologie : Chaque jour, un individu donne naissance
(ou contamine) un nombre aléatoire d’individu, ou meurt (guérit)
— Intelligence artificielle : Le programme Alpha Go modélise le jeu de go
comme une chaîne de Markov, et évalue les probabilités de jeu de son
adversaire, en explorant plus les branches les plus probables (Markov
tree).
— Simulation. Exemple : jeu de cartes mélangé. On part d’un jeu de cartes
(fictif) dans l’ordre, et à chaque coup on applique l’interversion de 2
cartes tirées au hasard. La “loi” du jeu de cartes converge vers la loi d’un
jeu de cartes mélangé selon une permutation uniforme
Les questions auxquelles on va tenter de répondre dans ce cours :
— Conaissant la loi de X0 , quelle est la loi de Xn , n ∈ N ? La loi de Xn
converge-t-elle ?
— Partant d’un certain x ∈ E, et pour y ∈ E, quelle est la proba que la
chaine passe par y, i.e. qu’il existe un temps T < ∞, aléatoire, pour que
XT = y ? Quel est l’espérance de T ?
— ...
Exercice 2. Soit Rn , n ≥ 0 des variables
Qn indépendantes à valeurs dans E = N.
P n
Montrer que Sn = i=1 Ri et Pn = i=1 Ri sont des chaînes de Markov.
5
Une chaîne de Markov peut ê̂tre vue comme un système dynamique, ce
qui veut dire que Xn+1 = fn (Xn ), ou fn est une “transformation aléatoire”
indépendante du passé. Dans l’exemple précédent, fn (Xn ) est la somme (ou le
produit) de Xn avec Rn+1 .
Comme les probabilités ne dépendent pas de n, il semble que l’on tienne le bon
bout pour avoir une chaîne de Markov homogène. Si c’est le cas, on peut écrire
6
une partie de la matrice de transition :
? ? ? ? ? 0
1/2 0 1/2 0 0 0
0 1/2 0 1/2 0 0
Q= 0
0 1/2 0 1/2 0
0 0 0 1/2 0 1/2
? ? ? ? ? ?
(encore une fois cela ne dépend pas de l’instant n). Si la grenouille est à l’état
0, elle ne peut que passer à l’état 1. La première ligne de la matrice est donc
(0, 1, 0, 0, 0).
Xn est donc bien une chaîne de Markov homogène, avec matrice de transition
Q.
Exercice 3. Introduisons un facteur de fatigue f ∈ (0, 1), et imaginons qu’à
chaque instant la grenouille reste à son état actuel avec probabilité f . Xn est
toujours une chaîne de Markov ? Si oui, quelle est sa matrice de transition ?
Imaginons désormais que le facteur de fatigue f = fn dépend du temps. Que
cela change-t-il ?
Si désormais le facteur de fatigue dépend de tout le chemin parcouru par
la grenouille (nombre de barreaux montés et descendus), a-t-on toujours une
chaîne de Markov ?
Exercice 4. Le nombre d’individus d’une population évolue de la manière sui-
vante : A chaque instant, un individu nait avec la probabilité p ∈ (0, 1), ou
meurt avec la probabilité q = 1 − p.
Ecrire la matrice de transition.
Ecrire la chaîne de Markov en termes des variables introduites à l’exemple
2.
Comment corriger la matrice de transition pour qu’il n’y ait pas un nombre
négatif d’individus ?
7
Remarque 2. Les coefficients d’une matrice stochastique sont dans [0, 1], ils
peuvent donc représenter une probabilité...
Plus formellement,
X X
P(X1 = y | X0 = x) = E(1X1 =y |X0 = x)
y y
X
= E( 1X1 =y |X0 = x)
y∈E
Or
X
1X1 =y = 1
y∈E
8
Mesure et notations Toutes les mesures que l’on va voir dans ce cours sont
sur un espace fini ou dénombrable E. Cela veut dire qu’elles sont uniquement
déterminées par leurs valeurs sur les singletons : Pour A ⊂ E,
X
µ(A) = µ({x}).
x∈A
µ = (µ(x))x∈E .
µ0 = (1/2, 1/2).
P(X0 = x0 , X1 = x1 ,X2 = x2 , . . . , Xn = xn )
=µ0 (x0 )Q(x0 , x1 )Q(x1 , x2 ) . . . Q(xn−1 , xn ).
P(X0 = x0 , X1 = x1 , X2 = x2 , . . . , Xn = xn )
=P(Xn = xn , . . . , X1 = x1 | X0 = 0)P(X0 = x0 )
=P(Xn = xn , . . . , X1 = x1 | X0 = 0)µ0 (x0 )
=P(Xn = xn , . . . , X2 = x2 | X1 = x1 , X0 = 0)P(X1 = x1 |X0 = x0 )µ0 (x0 )
=P(Xn = xn , . . . , X2 = x2 | X1 = x1 , X0 = 0)Q(x0 , x1 )µ0 (x0 )
=P(Xn = xn , . . . , X2 = x2 | X1 = x1 )Q(x0 , x1 )µ0 (x0 )
Pour une même chaîne X, on considère souvent plusieurs lois initiales diffé-
rentes. Dans ce cas on précise la loi utilisée en notant
P = Pµ
9
dans chaque calcul de probabilité, et l’espérance est alors notée Ex . Si la loi est
un “Dirac” µ = δx pour un certain x ∈ E (ce qui veut dire X0 = x p.s.), alors
on note plus simplement Pδx = Px , Eδx = Ex .
Exemple 3. Pour reprendre l’exemple de la grenouille,
P0 (X1 = 1) = 1,
P0 (X1 = 3) = 0,
P2 (X1 = 3) = 1/2,
P0 (X3 = 3)= (1/2)3 = 1/8,
P0 (X3 = 4) = 0,
...
10
Notation 1. Pour une mesure µ0 et une matrice Q, on note la mesure
X
(µ0 Q)(y) = µ0 (x)Q(x, y).
x∈E
Démonstration. Soit y ∈ E.
X
P(X1 = y) = P(X1 = y, X0 = x)
x
X X
= P(X1 = y|X0 = x)P(X0 = x) = µ(x)Q(x, y) = (µQ)(y)
x x
11
P
ou 1 = (1, 1, ..., 1), et ∗ est le produit matriciel (Q ∗ 1(x) = y 1Q(x, y) = 1).
Cela veut dire que 1 est vecteur propre associé à la valeur propre 1.
Comme la matrice Q est symétrique, elle est diagonalisable. La première
valeur propre est 1, et la trace est
T r(Q) = 2a.
i.e u = −v. Le vecteur propre (1; −1) correspond donc à la valeur propre λ.
On décompose le vecteur µ0 = (1, 0) suivant la base de vecteurs propres :
1
(1, 0) = [(1, 1) + (1, −1)]
2
Donc
1 1 1 1
Q (1, 0) = [Qn (1, 1) + Qn (1, −1)] = [(1, 1) + λn (1, −1)] =
n n n
+ λ /2, − λ /2 .
2 2 2 2
12
Démonstration. Par la propriété de Markov,
2 Temps d’absorption
Dans ce chapitre on se pose la question suivante : Etant donné une chaîne
X et x dans l’espace d’états E, quel est le temps moyen (éventuellement infini)
que met X à arriver au temps x.
Ce temps dépend évidemment de la loi initiale µ0 : Si µ0 = δx , le temps
d’attente est en moyenne 0. Si la chaîne n’est pas trop compliquée, il est possible
de mener des calculs explicites pour trouver ce temps moyen.
Tx = min{n ≥ 0 : Xn = x},
C’est bien un évènement qui est entièrement déterminé si on connait les valeurs
de X1 , . . . , Xn .
13
2. Par contre on ne peut pas le remplacer par (T < n). Montrez que Sx =
Tx − 1 est un contre-exemple.
On peut donc donner une autre preuve que Tx est un temps d’arrêt :
et Xn leur somme. Soit T le premier temps ou la chaîne est passé deux fois par
l’état 10 :
X
P(XTx +1 = y|XTx = x) = P(XTx +1 = y|XTx = x, Tx = n)P(Tx = n). (1)
n
P(XTx +1 = y|XTx = x, Tx = n)
= P(Xn+1 = y|Xn = x; X0 6= x, X1 6= x, . . . , Xn−1 6= x)
= P(Xn+1 = y|Xn = x) = Q(x, y)
14
Exercice 10. Traiter le cas où T est un temps d’arrêt quelconque.
Si T est un temps d’arrêt quelconque, il faut juste remarquer que l’on peut
toujours écrire
P(Xn+1 = y|Xn = x, T = n) = P(Xn+1 = y|Xn = x),
car T = n ne dépend que du passé (incarné par les variable X1 , . . . , Xn ), et la
propriété de Markov nous dit que connaître le passé est équivalent à connaître
la valeur de Xn : Xn = x.
Exercice 11. Soit Xn des variables aléatoires iid positives de même loi qu’une
variable X telle que
E(|X|) < +∞.
On sait que
n
X
Sn = Xk
k=1
est une chaîne de Markov. Soit T un temps d’arrêt. Montrer que
T
X
E( Xk ) = E(T )E(X).
k=1
P∞
(Indice : le terme de gauche est égal à E k=1 Xk 1{T >k−1} )
On pourra utiliser la formulation suivante de la propriété de Markov.
Proposition 7. Une autre manière de formuler la propriété de Markov est la
suivante : Pour tout temps d’arrêt T , la chaîne
X 0 = (X00 = XT , X10 = XT +1 , . . . )
est une chaîne de Markov dont la matrice de transition est Q et la loi initiale
est XT . De plus, la loi de X 0 est indépendante de (X0 , . . . , XT −1 ) conditionnel-
lement à XT .
= Q(xn , xn+1 )
15
2.2 Probabilités et temps d’absorptions
Avec le langage introduit dans la section précédente, on s’intéresse pour
A ⊂ E aux quantités
hA
x = Px (TA < ∞) Probabilité d’arriver un jour en A en partant de x ,
kxA = Ex (TA ) Temps moyen pour y arriver.
Si x ∈ A, hA A
x est trivialement 1, et Tx est trivialement 0. Si A = {y} est
{y} {y}
constitué d’un unique point, on note hx = hyx , kx = kxy .
16
3
X 1 2 2
k21 = 1 + Q(2, j)kj1 = 1 + k11 + 0 + k31 = 1 + k31 .
j=1
3 3 3
3
X 2 1 1
k31 = 1 + Q(3, j)kj1 = 1 + k11 + k21 + 0 = 1 + k21 .
j=1
3 3 3
X
hA
x = P(∃n ≥ 1, Xn ∈ A|X0 = x) = P(∃n ≥ 1, Xn ∈ A|X1 = y, X0 = x)P(X1 = y|X0 = x)
y∈E
X
= P(∃n ≥ 1, Xn ∈ A|X1 = y)Q(x, y)
y∈E
X
= Q(x, y)hA
y.
y∈E
X X X
kxA = nPx (TA = n|X0 = x) = n P(TA = n|X1 = y)P(X1 = y|X0 = x)
n n y∈E
X
= Q(x, y)E(TA |X1 = y)
y
X X
kxA = Q(x, y)(1 + kyA ) = 1 + Q(x, y)kyA
y y
17
car Q est une matrice de transition .
On admet la minimalité dans ce cours.
Un = (α + βn)xn1 .
U0 = 1,
Un = qUn−1 + pUn+1 .
x1 = 1,
x2 = q/p.
18
La solution est donc de la forme
(
Un = α1n + β(q/p)n si p 6= 1/2,
Un = (α + βn)1n si p = 1/2.
pour α, β à déterminer.
3. En utilisant le fait que h0n ∈ [0, 1], montrer que si p ≤ 1/2, β = 0. Qu’en
déduisez-vous pour la population ? Si p ≤ 1/2, comme x2 > 1, le terme
xn2 explose, ce qui contredit Un ∈ (0, 1), donc β = 0 et Un = U0 = 1 et la
population est sure de s’éteindre.
4. Donner la probabilité d’extinction en partant de n si p > 1/2. si p > 1/2,
la probabilité de s’éteindre est de
Un = α + β(q/p)n .
hextinction
n = (q/p)n .
19
Exercice 15. Pour la population de l’exercice 12, on souhaite calculer la dis-
tribution du temps d’extinction T0 en partant de 1 individu. On note plus gé-
néralement Tj le premier temps de passage à j.
La méthode la plus efficace consiste à considérer la fonction caractéristique
X
ϕ(s) = E1 (sT0 ) = sn P1 (T0 = n), 0 ≤ s < 1.
n≥0
1. Montrer que
E2 (sT0 ) = E2 (sT1 )2 = ϕ(s)2 .
2. Montrer que
E1 (sT0 |X1 = 2) = E2 (s1+T0 ).
3. En déduire que pour tout s ϕ(s) vérifie la relation
psϕ(s)2 − ϕ(s) + qs = 0.
4. Montrer que
E1 (T0 ) = lim ϕ0 (s).
s↑1
En déduire la valeur du temps moyen d’extinction (on peut utiliser les ré-
sultats de l’exercice 12).
5*. Indiquer comment calculer P1 (T0 = k), k ≥ 1. En déduire P1 (T0 < ∞).
Que remarquez-vous ?
On pourra utiliser la Proposition 7.
Exercice 16. Similaire au précédent : ex. 1.4.1 du Norris, p. 23.
20
6
4 1
Px (∃n ≥ 0, Xn = y) > 0.
La probabilité de passer par y après être passée par x est non-nulle. On note
dans ce cas
x y.
Si x y et y x, on note
x!y
et on dit que x et y communiquent.
Exemple 7. Dans l’exemple d’une population, en général, pour tout n ≥ 1,
n 0, mais 0 n pour aucun n excepté 0. On a aussi n ! m pour tous
n, m > 0.
On dit que {0} est un état absorbant.
il est facile de voir que x y ssi il existe une suite d’états x0 = x, x1 , . . . , xk =
y qui “mène” de x à y et telle que Q(xm , xm+1 ) > 0. On appelle un tel chemin
un chemin probable. La probabilité
Y
P(x → ... → y) ≥ P(x → x1 → x2 → · · · → xk = y) = Q(xm , xm++1 ) > 0.
m
E = ∪x∈E Cx
avec Cx = Cy si x ! y, et Cx ∩ Cy = ∅ sinon.
21
Démonstration. Prouvons que si deux états x et y ne communiquent pas, alors
Cx ∩ Cy = ∅. En effet, s’il existe z ∈ Cx ∩ Cy , alors il existe un chemin de x à z
car x z et il existe un chemin de z à y. En mettant ces chemins bout a bout,
on obtient un chemin x z. En raisonnant en partant de y, on trouve aussi un
chemin y x ; on a donc x ! y, contradiction.
22
(1)
Remarque : Tx 6= Tx = 0 si X0 = x.
(r)
Montrons que Tx , r ≥ 0, est un temps d’arrêt :
(r)
Proposition 8. Pour tous x ∈ E, r ≥ 0, Tx est un temps d’arrêt.
et voilà !
On pouvait le montrer par récurrence en remarquant
(Tx(r) = n) = ∪0≤k<n (Tx(r−1) = k; Xm 6= x, k < m < n; Xn = x).
(r)
est est une chaîne de Markov de matrice de transition Q qui démarre de X0 =x
(donc de loi initial µ0 = δx ).
On peut considérer simultanément plusieurs évènements du futur :
P(XT (r) +1 = y1 , XT (r) +2 = y2 , . . . , XT (r) +k = yk |XT (r) = x) = Px (X1 = y1 , . . . , Xk = yk ).
x x x x
23
Une autre manière de voir les choses est de considérer le nombre de visites
en un point x après 0 sachant X0 = x :
∞
X
Vx = #{n ≥ 1 : Xn = x} = 1Xn =x .
n=1
Qn (x, x) < ∞.
P
En particulier, cela implique que Vx < ∞ p.s. si n
Vx = ∞ p.s.
ssi X
Qn (x, x) = ∞.
n≥0
24
Comme p1 est la probabilité de retour en x, on voit que Vx est p.s. infini ssi
p1 = 1, c’est-à-dire ssi x est récurrent.
On a déjà montré que si n Qn (x, x) < ∞, alors Vx < ∞ p.s. et donc x est
P
transient.
Pour la réciproque, supposons x transient : alors p1 < 1. On utilise un
lemme :
Lemme 1. Soit V une variable aléatoire à valeurs dans N. Alors
X
E(V ) = P(V ≥ r).
r∈N
Démonstration.
X X
E(V ) = rP(V = r) = r(P(V ≥ r) − P(V ≥ r + 1))
r≥1 r≥1
X X
= rP(V ≥ r) − rP(V ≥ r + 1)
r≥1 r≥1
X X
= rP(V ≥ r) − (r − 1)P(V ≥ r)
r≥1 r≥2( ou 1)
X X
= (r − (r − 1))P(V ≥ r) = P(V ≥ r).
r≥1 r≥1
Donc X X
E(Vx ) = P(Vx ≥ r) − 1 = pr1 < ∞ car p1 < 1.
r r
25
1. a)Montrer que pour tout x, x est récurrent ssi 0 est récurrent.
b)Utiliser les résultats de l’exercice 12 pour montrer que la chaîne est récur-
rente. (Utiliser P0 (Xn = 0) = (1/2)P1 (Xn = 0) + (1/2)P−1 (Xn = 0).)
P(Xn = (−1, 0)) = P(Xn = (1, 0)) = P(Xn = (0, 1)) = P(Xn = (0, −1)) = 1/4,
26
Proposition 11. Au sein d’une même classe d’équivalence, les états sont soit
tous récurrents, soit tous transients. On parle alors de classe récurrente ou de
classe transiente.
Pour r ≥ 0, on a
Donc X 1 X
Qr (y, y)≤ Qr (x, x) < ∞.
r
Qm (x, y)Qn (y, x) r
4 Distributions invariantes
Analyse asymptotique d’une chaîne de Markov :
1. Découper les états en classes.
2. On analyse chaque classe séparément :
— Si la classe est transiente, la chaîne s’échappe “à l’infini”, donc asymp-
totiquement elle n’est nulle part en particulier (ex : Marche aléatoire
asymétrique sur Z)...(ou alors elle est passée dans une classe récur-
rente et ne reviendra plus)
27
— Si la chaîne est récurrente, elle visite les états les uns après les autres,
en revenant sur ses pas (C’est notamment le cas lorsque la classe est
finie). On se pose alors les questions suivantes :
• Combien de temps passe-t-elle en moyenne dans chaque état ?
• Y’a-t-il convergence (pour chaque x, y de la classe) de Px (Xn = y) ?
Si oui, la limite dépend-elle de x ?
Pour simplifier, on considère qu’il n’y a qu’une seule classe (quand il y en
a plusieurs, on peut utiliser les résultats de la partie 2 pour savoir dans quelle
classe on finira et avec quelle probabilité)
Que se passe-t-il quand la chaine est transiente ? Soit x ∈ E. D’après la
Proposition 10, le nombre de visites en x est p.s. fini. Soit Sx le dernier temps
passé en x :
Sx = max{n : Xn = x}.
Alors,
Px (Sn = x) → 0.
C’est d’autant plus vrai en partant d’un autre état y : Pour tous états x, y
Py (Xn = x) → 0.
Définition 8. Soit µ une mesure sur E. On dit que µ est invariante pour la
chaîne de Markov X de matrice de transition Q si µQ = µ.
28
µ est une mesure invariante ssi pour tout x ∈ E
X
µ(x) = Q(y, x)µ(y).
y∈E
29
Démonstration. Soit y ∈ E. Alors on conditionne par la valeur de Xn
X
π(y) = lim Px (Xn+1 = y) = lim Px (Xn = z, Xn+1 = y)
n n
z∈E
X
= lim Px (Xn = z)Px (Xn+1 = y|Xn = z)
n
z∈E
X
= lim Px (Xn = z)Q(z, y)
n
z∈E
X
= π(z)Q(z, y) = (πQ)(y).
z
ou λ = (2a−1) ∈ (−1, 1). donc µ = (1/2)δ1 + (1/2)δ2 est une mesure invariante.
(On pouvait aussi faire le calcul directement...)
Exercice 22. Donner toutes les mesures invariantes, et les probabilités inva-
riantes, en fonction de a.
Remarquons aussi que si µ est une mesure invariante, et t > 0, alors tµ aussi
est invariante :
Q(tµ) = t(Qµ) = tµ.
En particulier, si la masse totale de µ, c’est-a-dire µ(E), est finie,
µ(x)
π(x) :=
µ(E)
est une probabilité invariante.
30
Théorème 4 (Admis). Toute chaîne de Markov irréductible récurrente admet
au plus une mesure invariante à une constante multiplicative près (et donc au
plus une probabilité invariante).
Aucun point n’est “oublié” par une mesure invariante :
Exercice 23. Soit µ une distribution invariante. Alors µ(x) 6= 0 pour tout
x ∈ E. P
Correction : Comme y∈E µ(y) = 1, il existe y ∈ E pour lequel µ(y) 6= 0.
Comme la chaîne est irréductible, ∃n ≥ 0 tel que Qn (y, x) > 0. Or
X
µ(x) = µ(z)Qn (z, x) ≥ µ(y)Qn (y, x) > 0.
z∈E
Tx(1)
X
µx (y) = Ex ( 1Xn =y ), y ∈ E
n=1
31
Soit y ∈ E.
X
µx (y) = Ex ( 1Xn =y et n≤T (1) )
x
n≥1
X
=( Px (Xn = y et n ≤ Tx(1) ))
n≥1
XX
= Px (Xn = y, Xn−1 = z, Tx(1) ≥ n)
n≥1 z∈E
XX
= Px (Xn = y|Xn−1 = z, Tx(1) ≥ n)Px (Xn−1 = z, Tx(1) ≥ n) on conditionne par la valeur de Xn−1
n≥1 z∈E
XX
= Px (Xn = y|Xn−1 = z)Px (Xn−1 = z, Tx(1) ≥ n)
n≥1 z∈E
Tx(1) −1
X X
= Q(z, y)Ex ( 1Xn =z )
z∈E k=0
X
= Q(z, y)µx (z)
z∈E
De manière similaire,
X
1 = µx (x) = Qm (z, x)µx (z) > Qm (y, x)µx (y),
z∈E
32
On a
Tx(1) Tx(1) Tx(1)
X X XX X
µx (E) = Ex 1Xn =y = Ex 1Xn =y = Ex 1 = Ex Tx(1) .
y∈E n=1 n=1 y n=1
On en déduit
µx (y)
π(y) = (1)
Ex Tx
Avec x = y, ça nous donne notamment une relation entre la valeur de la distri-
bution invariante en x et le temps de retour moyen :
1
π(x) = (1)
Ex Tx
(1)
Même si c’est théoriquement intéressant, Ex Tx (ou πx (y)) est dur à calculer
en pratique : Il faut résoudre un systèmes de |E| équations a |E| inconnues.
Voici un outil plus pratique :
Proposition 15. On dit qu’une distribution µ est réversible si
Démonstration.
X X X
Pµ (X1 = x) = µ(y)Q(y, x) = µ(x)Q(x, y) = µ(x) Q(x, y) = µ(x),
y y y
c’est-à-dire µQ = µ.
33
Pour être en présence d’une distribution, il faut que la masse totale fasse 1,
c’est-à-dire
N
X
k
µ(0) CN = µ(0)(1 + 1)N = 1,
k=0
E0 (T0 ) = ∞
qui caractérisent les mesures invariantes, sont a ne pas confondre avec les équa-
tions
X
ax = Q(x, y)ay ,
y∈E
34
Théorème 5. Soit X une chaîne de Markov irréductible. Alors on a les équi-
valences suivantes :
(i)X admet une distribution invariante unique, définie par
1
π(x) = (1)
Ex (Tx )
(1)
Démonstration. On suppose X0 = x p.s., donc Tx = Tx .
D’après la proposition 14, µx est une mesure invariante qui vérifie
X Tx
X Tx X
X
µx (E) = Ex 1Xn =y = Ex 1Xn =y
y n=1 n=1 y
Tx
X
=E 1 = Ex Tx ,
n=1
(iii) ⇒ (i)
Donc si Ex (Tx ) < ∞, Exµ(Tx x ) est une distribution invariante . Comme il existe
au plus une distribution invariante (à constante près), tout autre distribution
invariante π 0 vérifie π 0 = Cπ pour une certaine constante C, mais la contrainte
0
P P
x∈E π(x) = x∈E π (x) = 1 impose C = 1. Donc π = 1.
35
Exercice 25. On considère une particule qui saute de sommets en sommets sur
un cube en trois dimensions. Elle ne peut sauter que sur un sommet adjacent,
c’est-à-dire relié par une arête. Elle n’a pas de préférence de direction.
1. Pourquoi y’a-t-il une unique distribution invariante ? Quelle est-elle ?
2. Quel est le temps moyen de retour en un sommet donné ?
3. Soit x et y deux sommets du cubes. En moyenne, combien de temps la
puce passe-t-elle en x entre deux passages en y ?
4. * Soit x et y deux sommets opposés du cube (c’est-à-dire pas sur la même
face). Quel est le temps moyen pour aller de x à y ?
A RENDRE : Ne rendre que les questions 1 et 2.
Exercice 26 (Remplacement de machines). On modélise le cycle de renouvel-
lement d’une machine par une chaîne de Markov. Au temps 0 on affecte une
machine à une certaine fonction. La machine a une probabilité pi ∈ (0, 1) de
passer de la i-ème à la i + 1-ème année, et si elle flanche, elle est remplacée par
une machine neuve identique.
1. Ecrire le graphe de la chaine de Markov.
2. a) Montrer qu’il existe une mesure invariante µ telle que µ(0) = 1 ssi
N
Y
vN := pk → 0 quand N → ∞.
k=0
b)En utilisant
P le rappel sur les produits infinis, vérifier que cette condition
est vérifiée ssi k≥1 (1 −Ppk ) = ∞.
c)En déduire que si k≥0 (1 − pk ) < ∞, E(temps de remplacement) = ∞.
3. On suppose qu’il n’y a pas de vieillissement : la probabilité de passer
de l’année i à l’année i + 1 est la même pour tout i. On note p ∈ (0, 1) cette
probabilité. Quel est le temps moyen de remplacement ? Qu’en déduit-on pour
une machine qui vieillit normalement ?
avec X
l=0⇔ (1 − pk ) = ∞.
k≥0
Preuve :
On pose
n
Y
Πn = pk ,
k=1
36
on s’intéresse à la convergence de la suite Πn . On a Πn > 0 et
n
X
log(Πn ) = log(pk )
k=1
Définition 9. Une chaîne irréductible est dite apériodique ssi pour tout x ∈ E
Qn (x, x) > 0 pour n suffisamment grand.
A l’inverse, pour une chaine périodique, il existe un entier p > 1 minimal,
appelée période, tel que pour un certain x ∈ E et un certain entier k, pour tout
n ≥ 1,
Qk+np (x, x) = 0.
(admis)
Théorème 8. Une chaine est apériodique si pour un x ∈ E le pgcd de tous les
temps n tels que Qn (x, x) > 0 est 1 .
Démonstration. Si ce n’est pas le cas, soit p > 1 le pgcd. Pour k > 0, posons
n = kp + 1. Alors, comme p ne divise pas n, on a Qn (x, x) = 0. Il y a une infinité
de n comme ca, donc la chaine a une période de p.
37
Montrons que si la propriété est vérifiée par un x, alors elle l’est par tous les
0
éléments de E. Soit y ∈ E. Soit m, m0 > 0 tel que Qm (x, y) > 0, Qm (y, x) > 0.
k+np m+k+np+m0
Si Q (y, y) > 0, on a Q (x, x) > 0, ce qui est faux. Donc y n’est
pas périodique.
Px (Xn = y) → π(y).
Xn = (Xn , Yn ).
“Le futur ne dépend que du présent”, donc X est une chaîne de Markov .
Elle est de plus irréductible car pour aller d’un état (x, x0 ) à un état (y, y 0 )
q q0
on choisit q > q 0 tels que P(x → y) > 0 et P(x0 → y 0 ) > 0. On sait de plus que
n n
pour tout n ≥ n0 , P(x → x) > 0 et P(x0 → x0 ) > 0. On a alors pour la chaîne
X :
n q !
x →0 x →y
P n0 +q−q 0 0 q0 >0
x0 → x → y0
c’est-à-dire
n0 +q
P((x, x0 ) → (y, y 0 )) > 0,
donc X est irréductible.
De plus la distribution Π(x, y) = π(x)π(y) est invariante pour X car
T est un temps d’arrêt car c’est le temps de retour en (x, x). Comme X est
irréductible récurrente, T < ∞ p.s..
On pose (
Xn si n ≤ T
Zn =
Yn si n > T .
On utilise une astuce pour montrer que Z = (Zn )n≥0 est une chaîne de
Markov de même matrice de transition que X et Y et de loi initiale (Z0 = X0 =
x).
38
Comme T est un temps d’arrêt, d’après la Propriété de Markov forte,
(XT +n )n>0
est une chaîne de Markov de même matrice de transition que X , de loi initiale
(x, x), et indépendante de (Xn , n 6 T ).
Soit X 0 = (Y, X) obtenue en échangeant les coordonnées de X . Pour les
mêmes raisons, (XT0 +n , n > 0) a la même loi que (Xn0 , n > 0), et est indépendante
de (Xn0 , n 6 T ), et donc de (Xn , n 6 T ). Remarquons que (Xn , n 6 T ) et
(Xn0 , n 6 T ).
Donc, X 00 , qu’on construit en collant (Xn , n 6 T ), et (Xn0 , T + n, n > 0), a
la même loi que X . En regardant la 1re coordonnée de cette égalité en loi, on
en déduit que Z a la même loi que X.
Donc pour tout n, Zn a la même loi que Xn (c’est-à-dire Px (Zn = y) =
Qn (x, y)). Comme π est invariante et est la loi de Y0 , c’est aussi la loi de Yn et
on a
Conclusion : Une “bonne” chaîne de Markov est une chaîne de Markov IRPA ;
car elle admet automatiquement une distribution invariante.
Exercice 28. Soit X une chaîne de Markov IRP. On suppose que X0 ∼ π suit
la loi invariante. On pose
τ = min{n ≥ 1 : Xn = X0 }.
1.Montrer que E(τ ) = |E| est le nombre d’états possibles (en particulier
E(τ ) = ∞ si il y a une infinité d’états). Est-ce en contradiction avec le fait que
(1) 1
pour tout x ∈ E, Ex (Tx ) = π(x) < ∞?
2. En déduire que si E est infini, “de nombreux états ont un grand temps de
retour”, c’est-à-dire que pour chaque M > 0, il y a une infinité de x ∈ E tels
que Ex (Tx ) ≥ M . (En lien avec π(x) = Ex (Tx )−1 , ce sont les états les “moins
probables” qui ont les plus grands temps de retour).
39
Exercice 29 (Moteur de recherche). Le concepteur d’un moteur de recherches
souhaite classer les pages internet du web W (au nombre de N ) dans l’ordre
d’importance, afin qu’après une requête les pages les plus importantes arrivent
en premier.
Il s’agit donc de définir la notion d’importance. On note x → y si une page x
pointe vers une page y, et on appelle crédit accordé par une page x à une page
y la valeur
1x→y
cx→y =
#liens dans la page x
On décide qu’on appellera “importance” une grandeur Ix qui vérifie
X
Iy = cx→y Ix ,
x→y
autrement dit l’importance d’une page est la somme des importances des pages
qui pointent vers elle, pondérées par le crédit que chacune de ces pages apporte
à y.
On suppose qu’il existe toujours une suite de liens qui mène d’une page vers
une autre.
1. Montrer qu’il existe bien une telle grandeur Ix , x ∈ W , et l’écrire comme
la distribution stationnaire d’une chaîne de Markov .
2. Donner un exemple (simpliste) ou cette chaîne est périodique. Montrer
que si une des pages pointe vers elle-même, alors la chaîne est apériodique.
L’hypothèse d’apériodicité est donc plausible...Donnez un autre exemple simple
où la chaine est apériodique.
3. Un surfeur surfe le web en cliquant au hasard sur les liens de chaque page.
On suppose que n pages x1 , . . . , xn ont chacune un unique lien qui pointe vers
une page y. Montrer que
1 X 1
(1)
= (1)
.
Ey (Ty ) i Exi (Txi )
En quoi cela justifie-t-il dans ce cas particulier l’assertion que une page importante
sera visitée plus souvent qu’une page moins importante ? (on suppose la chaine
apériodique).
40
Exercice 30. Soit X une chaîne de Markov à espace d’états E fini, avec des
classes récurrentes R1 , R2 , R3 , . . . et des classes transientes T1 , T2 , T3 , . . . .
1. Montrer que toute mesure invariante µ vérifie µ(Ti ) = 0 pour tout i.
2. Comme les classes récurrentes sont fermées (on ne peut pas passer d’une
classe récurrente à une autre classe), on peut considérer la chaîne de Markov
sur chaque classe séparément. On note µi une mesure invariante pour la classe
Ri .
41
Théorème 11. Si Un → l, alors Mn → l.
Par contre la réciproque est fausse. Par exemple, la suite Un = (−1)n
converge en moyenne vers 0, alors que Un ne converge pas. La théorème er-
godique est un résultat de convergence en moyenne, plus faible que le résultat
de convergence à l’équilibre (par contre, il demande moins d’hypothèses).
Pour les chaines de Markov on a le même phénomène :
Théorème 12 (Théorème ergodique). Soit X une chaîne de Markov irréduc-
tible de distribution initiale une probabilité µ0 . Pour n ≥ 1, on note Vx (n) le
nombre de visites en x avant le temps n
n
X
Vx (n) = 1Xk =x .
k=1
42
Exercice 31. A l’aide du théorème ergodique, démontrer la proposition ci-
dessous.
Proposition 16. Soit X une chaîne de Markov irréductible récurrente positive
de loi stationnaire π.
Soit f une fonction bornée de E 7→ R. On appelle
X
f¯ = f (x)π(x)
x
et donc
µ(0) 1−p
π(0) = =
s 1 − pL−1
µ(L) pL−1 (1 − p)
π(L) = = ,
s 1 − pL−1
43
et donc le cout moyen est
Cn 1−p
bpL−1 + (b − a)
γ(L) = = L−1
n 1−p
44
4.3 Arithmétique et chaîne de Markov
On jette un dé à 6 faces n fois, et on appelle Xn la somme de tous les résultats
obtenus. On veut calculer
Calculer
lim P(Yn est un multiple de 10).
n
4
b) Etudier Yn le reste de la division euclidienne de Xn par 4. Calculer
45
Comme chaque point x à 6 antécédents x − 1, . . . , x − 6 et 6 destinations
équiprobables (x + 1, . . . , x + 6), on montre facilement que la distribution
1
uniforme π(x) = 13 est la distribution stationnaire.
Pour montrer qu’elle est apériodique, on considère x ∈ E. Comme on
peut faire six 1 de suite avec probabilité > 0, Q6 (x, x) > 0. Si on fait
un 2 puis quatre 1, on retombe sur x, et on a donc Q5 (x, x) > 0. On a
donc Qn0 (x, x) > 0 et Qn0 +1 (x, x) > 0 avec n0 = 5, et la chaîne est donc
apériodique. En utilisant le théorème de convergence à l’équilibre, on en
déduit
13 1
lim P(Xn est un multiple de 13) = lim P(Xn = 0) → π(0) = .
n n 13
3. La situation est un peu plus compliquée car on fait des sauts de 5 en 5
(modulo 13), on a le graphe suivant
0 → 5 → 10 → 15 = 2 → 7 → 12 → 17 = 4 → 9 → 14 = 1 → 6 → 11 → 16 = 3 → 8 → 0 → etc...
On peut encore aller de n’importe quel point à n’importe quel autre point
en faisant suffisamment de 1 de suite, la chaîne est donc irréductible, et
donc récurrente positive. La distribution stationnaire est encore π(x) =
1/13.
L’apériodicité se traite comme dans le cas précédent : En considérant
deux chemins allant d’un point x à lui-meme, l’un ne comportant que des
1, et l’autre comportant un 2 et que des 1, on montre que la chaîne est
apériodique. On a donc la même conclusion qu’à la question précédente.
10
Si on s’intéresse désormais à la chaîne Xn , la situation n’est pas la
même. On ne peut effectuer que des transitions du type
0 → 5 → 10 = 0 → 5 → 10...
1 → 2 → 4 → 8 → 16 = 3 → 6 → 12 → 24 = 11 → 22 = 9 → 18 = 5 → 10 → 20 = 7 → 14 = 1
46
La distribution stationnaire est encore π(x) = 1/12, et on a pour 1 comme
pour un autre état non-nul
1
P(Xn = 1[13]) → .
12
b) Cette fois on considère la valeur de Yn modulo 4. On a
0→0
1 → 1, 2, 3, 0
2 → 2, 0
3 → 3, 2, 0.
Donc {0} est une classe récurrente, et comme tout autre état mène à 0,
les autres états sont transients. On en déduit que la chaîne passera par
0 et qu’elle y restera constamment, donc
lim Pn (Xn = 0[4]) = 1.
n
47
4.4 Marche aléatoire sur un graphe.
On appelle graphe un ensemble de points E, et un ensemble d’arêtes A qui
à chaque paire de points x, y associe a(x, y) qui vaut 0 ou 1. Si a(x, y) = 1, on
dit que x et y sont connectés, ou voisins, et on note x ∼ y. On appelle degré de
x et on note d(x) le nombre de voisins de x.
On considère la chaîne de Markov Xn qui se déplace aléatoirement en sautant
d’un point à un autre, sachant que :
1. D’un point x, on ne peut aller que sur un voisin de x,
2. Tous les voisins de x ont la même probabilité d’être choisis.
1. Introduction. Donner une expression de Q(x, y), la matrice de transition.
2. Irréductibilité.
On dit que deux points x et y sont reliés dans le graphe si il existe une suite
de points x0 = x, x1 , . . . , xk = y tels que xi ∼ xi+1 . On dit que le graphe est
connexe si tous les points sont reliés.
Donner un exemple de graphe qui n’est pas connexe. Donner une condition
nécessaire et suffisante pour que la chaîne soit irréductible.
On suppose dans la suite que le graphe est connexe.
3. récurrence.
a) On suppose que E est fini. Montrer que la chaîne est irréductible récur-
rente positive.
b) Donner des exemples de graphes ou la chaîne est récurrente mais pas
récurrente positive, et ou la chaîne de Markov n’est même pas récurrente. (On
pourra utiliser les résultats sur la marche aléatoire dans Zd ).
Calculer d(x) pour la marche aléatoire symétrique sur Zd . 4. mesures in-
variantes On définit la mesure suivante sur le graphe :
µ(x) = d(x).
d(x)
P(Xn = x) → .
2#A
48
En déduire la vraie réponse à la question b).
6. Théorème ergodique. Déterminer le temps moyen passé par la chaîne
en un point x.
7. Application aux échecs.
a) On considère une tour que l’on déplace aléatoirement sur un échiquier
(8x8 cases). Chacune des cases qui lui sont accessibles ont même probabilité à
chaque coup. On rappelle qu’une tour ne peut faire qu’un mouvement horizontal
ou vertical à chaque coup. Quel est le temps moyen de retour au point de départ ?
(en fonction du point de départ ?). Quelle est la période ?
b) même question pour un cavalier (mouvements autorisés : 2 cases dans une
direction puis 1 case dans l’autre direction).
c) même question pour un fou (mouvement uniquement diagonaux).
correction : 1.
1xvoisin de y
Q(x, y) = .
d(x)
2. La chaîne est irréductible si pour tous points x, y il existe des états x1 =
x, . . . , xq = y tels que chaque transition Q(xi , xi+1 ) soit > 0, c’est-à-dire si le
graphe est connexe.
3.a) Toute chaîne de Markov irréductible finie est récurrente positive.
b)On a vu dans l’exo correspondant que la marche aléatoire sur Z2 était
récurrente, mais pas récurrente positive. La marche aléatoire sur Zd , d ≥ 3 n’est
même pas récurrente. Pourtant ces chaîne de Markov ont bien une structure de
graphe, les voisins d’un point x étant tous les points reliés à x dans la grille Zd
(on a d’ailleurs dans ce cas d(x) = 2d).
4. a) Soit x, y. On a
1x∼y
µ(x)Q(x, y) = d(x) = 1x∼y = µ(y)Q(y, x),
d(x)
donc la mesure est réversible.
b) Comme la chaîne est IRP il existe une unique distribution stationnaire π.
Comme µ est réversible, elle est invariante, et comme elle a une masse finie et
est invariante, on a
µ(x)
π(x) = .
µ(E)
On a X X X
µ(E) = µ(x) = d(x) = 1x∼y = 2#A,
x∈E x∈E x∈E,y∈E
le facteur 2 dans la somme précédente venant du fait que chaque couple (x, y)
est compté 2 fois ((x, y) et (y, x)).
On a donc
d(x)
π(x) = .
2#A
d) Supposons que E soit l’union disjointe de sous-ensembles E1 , E2 , . . . ,
chaque sous-ensemble Ei étant connexe pour la structure d’arêtes A. Sur chaque
49
Ei , on note πi l’unique distribution invariante correspondante, donnée d’après
c) par
d(x)
πi (x) = , x ∈ Ei ,
#Ai
Ai étant le nombre d’arêtes impliquant des points de Ei .
Soit α1 , α2 , . . . des nombres positifs tels que
X
αi = 1.
i
On pose n
π(x) = αi πi (x) si x ∈ Ei .
50
car π est invariante pour X. La troisième inégalité provient du fait que si X1 ∈
Ei , comme les Ei sont non-connectés, alors X0 est aussi nécessairement dans
Ei . On en déduit que απi est une distribution stationnaire pour X (i) , elle est
donc égale à l’unique distribution stationnaire πi sur Ei . On a donc
π(x) = αi πi (x), x ∈ Ei
Vn (x) d(x)
→ π(x) = .
x 2#A
7)a) Chaque case de l’échiquier est connectée avec 7 autres cases horizonta-
lement, et 7 autres cases verticalement. On a donc pour tout x d(x) = 14. La
chaîne est irréductible (la tour peut aller n’importe ou en 2 coups), et donc IRP.
La distribution invariante est
d(x) 14 1
π(x) = P = = ,
x∈E 64 ∗ 14 64
51
P de type 6, au nombre de n6 = 4, ont chacun v6 = 2 voisins.
Enfin les coins,
On a bien i ni =16+16+16+4+8+4=64 cases.
Pour calculer la distribution de retour, il faut connaître le nombre total
d’arêtes,
X 1X 1 16
d(x) = ni vi = (16(8+6+4)+4∗4+8∗3+4∗2) = (19+2) = 8∗21 = 168.
x
2 i 2 2
Le temps de retour en partant d’une case x qui est de type i est donc
vi
Ex (Tx(1) ) = .
168
Nous allons montrer que la période est de 2. Etant donné une case x sur la
i-ème ligne et la j-ème colonne, on pose
nx − ny = i − i0 + j − j 0 = 2 + 1 = 1[2].
52
Lebesgue d-dimensionnelle. On rappelle qu’une variable uniforme sur A a la loi
λ(dx)
µA (dx) = .
λ(A)
Pour certains ensembles A, les méthodes accept-or-reject sont très peu efficaces,
typiquement lorsque A est très “mince”, ou que la dimension d est très grande.
Les chaines de Markov peuvent fournir une alternative.
Pour simplifier et parce qu’on travaille dans un cadre discret, on suppose ici
que A est un sous-ensemble fini de Z2 . On suppose de plus que A est connexe,
où un point est relié à un autre ssi ils sont reliés par une arête de Z2 .
On considère la suite de variables aléatoires au comportement suivant :
— X0 ∈ A.
— A chaque temps n, on choisit avec probabilité 1/2 la ligne sur laquelle se
situe Xn ou la colonne sur laquelle se situe Xn .
— On tire uniformément Xn+1 ∈ A sur cette ligne ou cette colonne.
1. Identifier la matrice de transition Q et les propriétés de la chaîne de
Markov .
2. Montrer que la distribution uniforme sur A est invariante.
3. En déduire une manière de simuler approximativement une variable uni-
forme sur A. Quelle convergence a-t-on ?
4. Comment pourrait-on généraliser cette méthode dans le cadre continu
(informel) ?
On suppose sans perte de généralité que π(x) > 0 sur E (autrement il suffit
d’ôter de E les points où π s’annule). Une manière pour approximer π de cette
manière est de trouver une matrice stochastique Q(x, y) telle que la chaine de
Markov correspondante soit IRPA et π est invariante pour Q. L’algorithme de
Metropolis consiste en les étapes suivantes :
— Construire matrice de transition P (x, y) quelconque telle que la chaîne
de Markov correspondante qui vit dans le bon espace d’états E soit ir-
réductible apériodique. Il faut de plus que P soit symétrique : P (x, y) =
P (y, x). Pour le bon fonctionnement de l’algorithme de simulation, il faut
que la chaine de Markov correspondante soit facile à simuler, c’est-à-dire
que la loi P (x, ·) doit être facile à calculer.
— Tirer X1 suivant une loi quelconque µ (typiquement µ = δx pour une
certaine configuration x ∈ E)
53
— Pour chaque n, tirer Yn+1 suivant la loi P (Xn , ·) (c’est-à-dire tirer Yn+1
comme si (Xn , Yn+1 , . . . ) était une chaîne de Markov de matrice de tran-
sition P (x, y))
— Tirer Un une variable de loi uniforme sur [0, 1] indépendamment de (Xn )
et (Yn ).
— Si π(Yn+1 )/π(Xn ) > Un , poser Xn+1 = Yn+1
— Sinon, garder Xn+1 = Xn .
En d’autre termes, on fait évoluer X = (Xn ) comme une chaîne de Markov
normale de matrice de transition P , à la différence qu’à chaque itération on
ne garde la nouvelle valeur Xn+1 que si le nouveau ratio π(Xn+1 )/π(Xn ) est
suffisamment élevé, autrement on laisse l’ancienne valeur Xn+1 = Xn .
Exercice 34. Pourquoi (Xn ) est une chaîne de Markov (homogène) ? Quelle est
sa matrice de transition ? Montrer qu’elle est irréductible et réversible. Qu’en
déduisez-vous sur la limite de Xn ? Par quel type plus général de condition
peut-on remplacer
π(Yn+1 )
Un ≤ ?
π(Xn )
π(Yn+1 )
Un ≤
π(Xn ) + π(Yn+1 )
Exercice 35. Proposer une chaine de Markov pour approximer une variable de
Poisson de paramètre θ > 0. Quelle est la matrice de transition correspondante
si l’on utilise la règle de Barker ?
54
6 Chaînes de Markov en temps continu, proces-
sus de Poisson
6.1 Lois sans mémoire
On s’intéresse a la file d’attente qui se forme a l’entrée d’un bureau de
Poste. Comme vu précédemment, le nombre de personnes présents dans la file
après n évènements (évènement=une personne part ou une personne arrive) est
une chaîne de Markov homogène. Les clients arrivent cependant a des temps
aléatoires, on peut donc se demander : Au temps t, quel est le nombre Z(t) de
clients ayant franchi la porte d’entrée, où t est un nombre réel positif ?
Pour cela il faut modéliser le temps aléatoire entre deux évènements. A priori,
on peut choisir ce qu’on veut, mais la réalité nous impose un certain modèle.
Faisons les hypothèses suivantes :
— Les temps qui s’écoulent entre les évènements sont des variables aléatoires
IID.
— Le temps T qui s’écoule entre deux évènement satisfait au principe sui-
vant : Si après une durée t > 0, il ne s’est toujours rien passé, la probabi-
lité qu’il se passe quelque chose dans la prochaine minute (ou n’importe
quelle durée) est la même probabilité qu’il ne se passe rien dans la pre-
mière minute d’attente.
Comment modéliser la seconde propriété ?
Pour t, s > 0,
55
6.2 Processus de Poisson
Le processus décrit précédemment est appelé le processus de Poisson. For-
mellement, on le définit ainsi :
— Soit λ > 0.
— Soit Ti , i > 1, une famille de variables aléatoires IID exponentielles de
paramètre P λ.
n
— Soit Sn = k=1 Tk , n > 0 (avec S0 = 0),
— Pour t > 0, on pose
∞
X
X(t) = max{n : Sn 6 t} = min{n : Sn+1 > t} = 1{Sk 6t} .
k=1
Proposition 17. Pour t > 0, soit Nt une variable de Poisson de paramètre λt.
Pour le processus de Poisson,
et en déduire le résultat.
56
6.3 Générateur infinitésimal
Plutôt que la matrice de transition, avec un processus de Markov Xt en temps
continu, on préfère travailler avec le générateur infinitésimal du processus, défini
de la manière suivante : Soit f une fonction bornée et dérivable. On pose
E [f (Xt+ε ) − f (Xt )]
Lf (x) = lim
ε→0 ε
en supposant que la limite existe. Remarquons que si le processus est homogène,
la limite ne dépend pas de t.
Si de plus le processus est à accroissements stationnaires, comme c’est le
cas pour le processus de Poisson, cet opérateur ne dépend pas de t : En effet,
(d)
Xt+ε − Xε = Xε − X0 pour tous t, ε > 0.
Dans ce cas, l’opérateur L transforme une fonction en une autre fonction,
qui dénote la manière dont f (Xt ) varie au voisinage de 0 si X0 = x.
Dans le cas Poissonien, Xε − X0 est une variable de Poisson de paramètre
λε. Pour ε petit, on a
P(Xε = 0) = exp(−ελ),
λε
P(Xε = 1) = exp(−ελ)
1!
∞ −λε ∞ ∞
X e X 1 X λk
P(Xε > 2) = (λε)k 6 (λε)k+2 6 ε2 .
k! (k + 2)! (k + 2)!
k=2 k=0 k=0
| {z }
<∞
Donc
E[f (Xε ) − f (X0 )|X0 = x] = (f (x + 0) − f (x)) ∗ exp(−λε) + (f (x + 1) − f (x))λε exp(−λε) + 2kf k∞ o(ε)
Lf (x) = λ(f (x + 1) − f (x))
— On dit que Xt est un processus de sauts, car il ne peut varier que par
discontinuités.
— Dans ce cas, Xt est un processus de saut à taux constant λ : λ est
l’intensité avec laquelle le processus saute, sous-entendu la répartition
des sauts est Poissonnienne, c’est-à-dire que les sauts sont séparés par
des variables exponentielles IID.
57
On introduit une loi de probabilité µ sur R, qui représente la variable aléa-
toire de la quantité d’argent déposée par un client.
Par exemple, si un client a une probabilité 1/2 de retirer de l’argent, cela
nous donne µ(] − ∞, 0[) = 12 , et µ(]0, ∞[) = 21 . On suppose qu’il n’y a pas de
client qui vient pour ne rien faire (ou plutôt, on ne les comptabilise pas).
Pour modéliser la quantité d’argent déposée à un instant t > 0, on intro-
duit une suite de variables iid Yk , k > 1, indépendants de µt , avec comme loi
commune µ, et on suppose que le i-ème client a apporté une quantité d’argent
Yk ∈ R.
En appelant Xt le processus de Poisson défini au chapitre précédent (avec
paramètre d’intensité λ > 0), la quantité d’argent déposée à l’instant t est donc
∞
X
Zt = Yk 1{Xt >k} ,
k=1
en gros, on comptabilise les sommes de tous les clients qui sont effectivement
déjà passés à l’instant t.
En utilisant le fait que Xt est une variable de Poisson de paramètre λt, et
que les Yi sont IID de loi µ, on peut déterminer la loi de Zt , via la fonction
caractéristique.
Rappel sur les fonctions caractéristiques Pour toute variable aléatoire
Y ∈ R, on introduit sa fonction caractéristique (ou transformée de Fourier)
Z
ψY (θ) = E[exp(iθY )] = eiθy µ(dy),
R
— |ψY (θ)| 6 1
(d)
— ψY caractérise la loi de Y , dans le sens où ψY = ψY 0 implique Y = Y 0 .
Donc, déterminer la loi de Y revient à déterminer sa fonction caractéristique.
De plus, si E[|Y |] < ∞, on peut calculer l’espérance de Y avec sa fonction
caractéristique
d
E[Y ] = −iψY0 (0) = −i |θ=0 ψY (θ).
dθ
Si E[Y 2 ] < ∞, on peut calculer son moment d’ordre 2,
d2
E[Y 2 ] = −ψY00 (0) = − |θ=0 ψY (θ).
dθ2
Théorème 13. Avec les notations précédentes, pour t > 0, la fonction caracté-
ristique de Zt est
58
Démonstration.
∞ ∞
" ! #
X X
E[exp(iθZt )] = P(Xt = n)E exp iθ 1{Xt 6k} Yk |Xt = n
n=0 k=1
∞
" n
!#
n
X (λt) X
= e−λt E exp iθ Yk
n=0
n!
k=1
∞
X (λt)n
= e−λt E[exp(iθY1 )]n grâce à l’indépendance entre les Yk
n=0
n!
= e−λt exp(λtE[exp(iθY1 )])
Exercice 40. Supposons que la quantité d’argent déposée par chaque client
soit le produit de 10 par une variable de Poisson de paramètre 2. Déterminer la
fonction caractéristique, l’espérance, et la variance, de Zt pour t > 0.
59
On propose dans ce chapitre le modèle simplifié suivant : Chaque nucléotide
est représentée par un couple (s, y), où s ∈ I = {1 (codant) , −1 (non-codant)},
et y ∈ A = {A, C, G, T }. La séquence de nucléotides est une suite de variables
aléatoires Xk = (Sk , Yk )k≥1 . On suppose qu’à chaque transition k → k + 1 la
probabilité de passer d’une séquence codante à une séquence non-codante est
ε > 0 et la probabilité de passer d’une séquence non-codante à une séquence
codante est ε0 > 0. La loi de Yk ne dépend que de la valeur de Sk . On appelle
µ+ la loi de Yk si Sk = 1, et µ− la loi de Yk si S− = {−}.
On observe uniquement les variables Yk . Le problème biologique est le sui-
vant :
— Identifier les parties codantes.
— Estimer les paramètres ε, ε0 , µ+ , µ− .
Schéma :
Exercice 41. 1. Ecrire la matrice de transition de Sk . La suite (Yk )k est-
elle une chaîne de Markov ? La suite (Sk , Yk )k est-elle une chaîne de
Markov ? Ecrire la matrice de transition correspondante.
2. En vue d’estimer le paramètre θ = (ε, ε0 , µ− , µ+ ), définir l’espace des
paramètres Θ.
60
pour tout θ ∈ Θ. Dans notre cas,
N
(
Y θ si Xk = 1 P P
µN (X, θ) = =θ Xk
(1 − θ)N − Xk
k=1
1 − θ si Xk = 0
Il est utile en pratique d’observer que, comme la fonction log est monotone,
trouver le maximum de la fonction θ 7→ p(x, θ) est pareil à trouver le maximum
de la fonction θ 7→ L(x, θ) := log(p(x, θ)). Dans notre cas,
X X
L(X, θ) = Xk log(θ) + (N − Xk ) log(1 − θ).
k
où m = N1
P
Xk , on en déduit que la dérivée s’annule pour θ = m. Une rapide
étude nous montre que le maximum est en effet atteint en m, ce qui nous indique
que dans ce cas l’EMV est bien l’estimateur
EM V 1 X
θ̂N := m = Xk = θ̂N
N
proposé naturellement.
Exercice 42. Soit X1 , . . . , XN N variables iid de Poisson de paramètre λ > 0.
1. Ecrire L(X, λ) la log-vraisemblance.
2. Dériver par rapport à λ.
3. Déterminer λ̂EM
N
V
. Que remarquez-vous ?
7.2 Algorithme EM
Nous allons tenter d’applique l’EMV pour estimer les paramètres du MMC.
On appelle µ0 la loi de S0 . Commençons par calculer la vraisemblance. Soit
θ ∈ Θ, et soit une observation
x = ((s1 , y1 ), . . . , (sN , yN ))
61
Le problème est qu’on le ne dispose pas de toute l’observation x, mais uni-
quement de l’observation y = (y1 , . . . , yN ). Il faut donc calculer la vraisem-
blance du modèle caché, en conditionnant par toutes les valeurs possibles de
s = (s1 , . . . , sN ) ∈ I N :
X
pcN (y, θ) = pN ((s, y), θ).
s∈I N
Calculons la log-vraisemblance :
X
log(pcN ) = log( pN ((s, y), θ))
s∈I N
µ0 (x) µ0 (x)
d’où l’inégalité demandée. Il n’y a égalité que si il y a log µ(x) = µ(x) −1
0
pour tout x, ce qui implique µ (x) = µ(x) pour tout x ∈ E.
62
On note Pθ la probabilité du modèle sous l’hypothèse que la vraie valeur du
paramètre est θ ∈ Θ : On applique ce lemme d’entropie aux distributions
Pθ (S = s, Y = y, ) pN (s, θ, y)
py,θ (s) = Pθ (S = s|Y = y) = = c
Pθ (Y = y) pN (θ, y)
et py,θ0 (s) et on a
Hpy,θ (py,θ ) ≤ H(py,θ0 )
X X 0
py,θ (s) log(py,θ0 (s)) ≤ py,θ0 (s) log(py,θ0 (s))
s s
8 Sujet d’examen
8.1 Juin 2011
Exercice 45. On considère une chaîne de Markov (Xn ) dans E = {1, 2, 3} avec
matrice de transition
0 1/2 1/2
Q = 1/2 0 1/2
1 0 0
63
1. Quelles sont les classes de récurrence/transience ?
2. Calculer une mesure de probabilité invariante. Est-elle unique ? Est-elle
réversible ?
(1)
3. Calculer pour tout x ∈ E le temps moyen de retour à x, E(Tx ). Calculer
la période de tout x ∈ E. Quelle est la limite des probabilités
Qn (x, y) = Px (Xn = y)
quand n → ∞.
4. Calculer le temps moyen de trajet entre 1 et 3
E1 (T3 ).
64
5. On définit la mesure sur N
∞
X
λ(x) = f (y), x ∈ N.
y=x+1
65