Controle17

Introduction à l'optimisation continue
Contrôle
(9 janvier 2018)
Exercice I
On rappelle que pour une fonction convexe f : X → R ∪ {+∞},
1
proxτ f (x) = arg min f (y) + ky − xk2 .
y 2τ
Calculer proxτ f (x) pour τ > 0, et
1. X = Rn , f (x) = kxk2 /2 ;
2. X = Rn , f (x) = kxk∞ = maxi=1,...,n |xi | :
(a) Montrer d'abord que
1 1
min kyk∞ + ky − xk2 = min t + min ky − xk2 .
y 2τ t≥0 y:|yi |≤t ∀i 2τ
(b) Déduire que
n
1 1 X
min kyk∞ + ky − xk2 = min t + [(|xi | − t)+ ]2
y 2τ t≥0 2τ i=1
où pour s ∈ R, s+ := max{s, 0}. En déduire un algorithme pour

trouver y.
Exercice II
On considère dans E = Rn×n ensemble des matrices n×n la fonction
(
− log det X si X est symétrique dénie positive,
f (X) =
+∞ sinon.
1. Montrer que le domaine de f est un ensemble convexe.
2. Soit X une matrice symétrique dénie positive (X ∈ dom f ). Montrer que

si H est une matrice symétrique et t est assez petit,
f (X + tH) = f (X) − t X −1 , H + O(t)
où hA, Bi = Tr (AT B) (= Tr (AB) bien entendu lorsque A, B sont symétriques.

On rappelle que c'est un produit scalaire Euclidien, vériant notamment l'in-
égalité de Cauchy-Schwartz).
On a
− log det(X + tH) = − log[det(X) det(I + tX −1 H)]

= − log det X−log[1+tTr (X −1 H)+O(t2 )] = − log det X−tTr (X −1 H)+o(t).
Donc ∇f (X) = −X −1 .
1
3. Montrer que si X, Y sont des matrices symétriques dénies positives,
1 −1
) + Tr (X −1 Y ) .

n≤ Tr (XY
2
(Indication : on partira de l'identité I = X 1/2 Y −1/2 Y 1/2 X −1/2 .)
On écrit
D E
n = Tr (I) = Tr X 1/2 Y −1/2 Y 1/2 X −1/2 = X 1/2 Y −1/2 , X −1/2 Y 1/2
1 1
≤ kX 1/2 Y −1/2 kkX −1/2 Y 1/2 k ≤ kX 1/2 Y −1/2 k2 + kX −1/2 Y 1/2 k2 .
2 2
On remarque ensuite que
kX 1/2 Y −1/2 k2 = Tr (X 1/2 Y −1/2 Y −1/2 X 1/2 ) = Tr (XY −1 )
et on conclut.
4. En déduire que f est une fonction convexe. On montrera (en se restrei-

gnant aux matrice symétriques dénies positives) que ∇f (X) est un opérateur
monotone.
On voit que
h∇f (X) − ∇f (Y ), X − Y i = −Tr ((X −1 − Y −1 )(X − Y ))

= −Tr (2I − X −1 Y − Y −1 X) ≥ 0
d'après la question précédente.
5. Calculer Y = proxτ f (X).

On écrit pour X une matrice et X̄ = (X + X T )/2 sa projection sur les
matrice symétriques que Y doit minimiser
1
min f (Y ) + (kY − X̄k2 + kX̄ − Xk2 ).
Y s.d.p. 2τ
Donc Y est solution de
−τ Y −1 + Y − X̄ = 0 ⇔ −τ + Y 2 − X̄Y = 0.
On résout cette équation facilement en diagonalisant X̄ (de valeurs propres

(µ̄i )ni=1 ∈ Rn ) et en cherchant Y comme matrice diagonale dans la même base :
les valeurs propres (µi ) de Y doivent vérier
−τ + µ2i − µ̄i µi = 0
et être positives, elles sont donc données par
p
µ̄i + µ̄2i + 4τ
µi = .
2
2
Exercice III (Descente de gradient stochastique).
On note x = (xi )ni=1 Rn , n ≥ 2. On considère f :

un point générique de
n 2 2
R → R une fonction convexe de classe C avec |∂i,i f | ≤ Li pour i = 1, . . . , n.
(En d'autres termes, ∂i f est Li -Lipschitz par rapport à xi .)
On introduit les opérateurs de descente suivants, pour tout i :
 
x1
.
.
 
 . 
 
 x i−1

Tτi x = 
 
x
 i − τ ∂ i f (x) .


 x i+1


.
.
 
 . 
xn
1. Montrer que si y = Tτi x
f (y) ≤ f (x) − τ2 (2 − τ Li )|∂i f (x)|2 .
On écrit un développement de Taylor :
Z 1
f (y) = f (x) + ∇f (x + s(y − x)) · (y − x)ds
0
Z 1
= f (x) + ∇f (x) · (y − x) + [∇f (x + s(y − x)) − ∇f (x)] · (y − x)ds
0
Si y − x = −τ ∂i f (x)ei , on déduit
Z 1
f (y) ≤ f (x) − τ |∂i f (x)|2 + Li sky − xk2 ds ≤ f (x) − τ2 (1 − τ Li )|∂i f (x)|2 .
0
On considère maintenant l'algorithme stochastique suivant : lorsque

P xk est
calculé, on choisit l'indice i avec probabilité pi (pi > 0, i pi = 1) et on pose
xk+1 = Tτii xk où τi = θ/Li , θ ∈]0, 2[ xé.
On rappelle que l'espérance de g(xk+1 ) sachant xk est donnée par
n
X
Ek (g(xk+1 )) = pi [valeur de g(xk+1 ) si i est choisi],
i=1
pour n'importe quelle fonction g.
2. Montrer que
θ(2 − θ)
Ek (f (xk+1 )) ≤ f (xk ) − k∇f (xk )k2M
2
où M est la matrice diagonale telle que mii = pi /Li et
X
kξkM := hM ξ, ξi = mii |ξi |2 .
i
3
3. Montrer que si x∗ est un minimiseur de f, pour tout x ∈ Rn ,
f (x) − f (x∗ ) ≤ − h∇f (x), x∗ − xi ≤ k∇f (x)kM kx∗ − xkM −1 .
En déduire que
θ(2 − θ)
Ek (f (xk+1 ) − f (x∗ )) ≤ f (xk ) − f (x∗ ) − (f (xk ) − f (x∗ ))2 .
2kx∗ − xk k2M −1
4. On suppose qu'on sache trouver une constante C > 0 telle que kxk −
∗
x kM −1 ≤ C pour tout k (et tous les tirages aléatoires possibles). En déduire,
en prenant l'espérance sur tous les xk possibles, que
θ(2 − θ) 2
∆k+1 ≤ ∆k − ∆k
2C 2
où l'on a noté ∆k = E(f (xk ) − f (x∗ )).
5. En déduire que
2C 2 1
∆k ≤ .
θ(2 − θ) k + 1
Conclure.
6. Quel avantage peut-on trouver par rapport à un algorithme de descente de

gradient déterministe (notamment dans le choix du pas de descente) ? Y a-t-il
a priori un choix des (pi )i meilleur qu'un autre ?
Exercice IV
On considère, pour x ∈ Rn , K : Rn → Rm (n, m ≥ 1) opérateur linéaire
continu et f : Rm → [0, +∞], g : Rn → [0, +∞] fonctions convexes, semi-
continues inférieurement, le problème :
min f (Kx) + g(x) = min sup hKx, yi − f ∗ (y) + g(x).

x x y
On choisit M ∈ Rn×n , N ∈ Rm×m des métriques, c'est à dire des matrices

symétriques dénies positives dénissant des normes Euclidiennes
kxk2M := hM x, xi , kyk2N := hM y, yi .
0. Montrer que si A est un opérateur (maximal) monotone dans Rn , alors

M −1 A est un opérateur (maximal) monotone dans Rn muni de la norme Eucli-
dienne k·kM . Que déduit-on alors du théorème de Minty ?
On suppose maintenant qu'on sait résoudre les problèmes
1
min kx − x̄k2M + g(x),
x 2
1
min ky − ȳk2N + f ∗ (y).
y 2
4
On dénit alors l'algorithme (xk , y k ) 7→ (xk+1 , y k+1 ) par le calcul
−K ∗ K∗
k+1
− xk ∂g(xk+1 )
k+1
M x 0 x
+ + 3 0Rn+m .
−K N y k+1 − y k ∂f ∗ (y k+1 ) −K 0 y k+1
(1)
1. Montrer que la matrice

−K ∗

M
−K N
est dénie positive si et seulement si kN −1/2 KM −1/2 k < 1. Que se passe-t-il si
−1/2 −1/2
kN KM k = 1?
2. Montrer que si kN −1/2 KM −1/2 k < 1, (1) dénit un algorithme de point

proximal associé à un opérateur maximal monotone, et montrer qu'il est eec-
tivement implémentable (c'est-à-dire qu'on peut calculer, connaissant (xk , y k ),
k+1
le point (x , y k+1 )).
Pour simplier les notations, on écrit l'algorithme
P (ξ k+1 − ξ k ) + Cξ k+1 3 0
où P est symétrique, dénie positive et C un opérateur maximal monotone

(dans Rn+m , donc). On suppose qu'il existe ξ∗ avec 0 ∈ Cξ ∗ . On rappelle que
2 hP ξ, ηi = kξk2P + kηk2P − kξ − ηk2P .
3.a. Montrer que pour tout k ≥ 0,

(
kξ k+1 − ξ ∗ k2P + kξ k+1 − ξ k k2P ≤ kξ k − ξ ∗ k2P ,
(2)
kξ k+2 − ξ k+1 k2P + kξ k+2 − 2ξ k+1 + ξ k k2P ≤ kξ k+1 − ξ k k2P .
En déduire que η k := P (ξ k−1 − ξ k ) ∈ Cξ k vérie
kξ 0 − ξ ∗ k2P
kη k k2P −1 ≤ ,
k
puis que (ξ k ) a des sous-suite qui convergent vers des solutions de Cξ 3 0.
3.b. Déduire ensuite de (2) que toute la suite (ξ k ) converge (vers une solution).
4. Que peut-on encore dire si P ≥ 0 ? (P positive non dénie).

On a encore Cξ k → 0. Si (ξ k ) a une sous-suite convergente on peut encore
déduire que la limite est une solution.
On s'intéresse maintenant au cas où K = I , n = m, M = N −1 (et donc

kN −1/2 KM −1/2 k = 1). Pour simplier on note A = ∂g , B = ∂f et l'algorithme
s'écrit donc
−1 k+1
− xk Axk+1
k+1
N −I x 0 I x
+ + 3 0R2n . (3)
−I N y k+1 − y k B −1 y k+1 −I 0 y k+1
5
5. Montrer que si
N (ŷ − ȳ) + B −1 ȳ 3 0
alors
−1
N ŷ = N ȳ − (I + N B) (N ȳ).
6. En déduire que le point v k = xk − N y k suit une itération de type Douglas-

Rachford, que l'on précisera. Que peut-on conclure ?

Controle17

Transféré par

Informations du documentcliquez pour développer les informations du document

Informations du documentcliquez pour développer les informations du document

Droits d'auteur :

Formats disponibles

Controle17

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Controle17

Transféré par

Droits d'auteur :

Formats disponibles

Introduction à l'optimisation continue

(a) Montrer d'abord que

(b) Déduire que

où pour s ∈ R, s+ := max{s, 0}. En déduire un algorithme pour

1. Montrer que le domaine de f est un ensemble convexe.

2. Soit X une matrice symétrique dénie positive (X ∈ dom f ). Montrer que

f (X + tH) = f (X) − t X −1 , H + O(t)

où hA, Bi = Tr (AT B) (= Tr (AB) bien entendu lorsque A, B sont symétriques.

− log det(X + tH) = − log[det(X) det(I + tX −1 H)]

kX 1/2 Y −1/2 k2 = Tr (X 1/2 Y −1/2 Y −1/2 X 1/2 ) = Tr (XY −1 )

4. En déduire que f est une fonction convexe. On montrera (en se restrei-

h∇f (X) − ∇f (Y ), X − Y i = −Tr ((X −1 − Y −1 )(X − Y ))

d'après la question précédente.

5. Calculer Y = proxτ f (X).

On résout cette équation facilement en diagonalisant X̄ (de valeurs propres

et être positives, elles sont donc données par

On note x = (xi )ni=1 Rn , n ≥ 2. On considère f :

1. Montrer que si y = Tτi x

f (y) ≤ f (x) − τ2 (2 − τ Li )|∂i f (x)|2 .

On écrit un développement de Taylor :

On considère maintenant l'algorithme stochastique suivant : lorsque

pour n'importe quelle fonction g.

f (x) − f (x∗ ) ≤ − h∇f (x), x∗ − xi ≤ k∇f (x)kM kx∗ − xkM −1 .

6. Quel avantage peut-on trouver par rapport à un algorithme de descente de

min f (Kx) + g(x) = min sup hKx, yi − f ∗ (y) + g(x).

On choisit M ∈ Rn×n , N ∈ Rm×m des métriques, c'est à dire des matrices

0. Montrer que si A est un opérateur (maximal) monotone dans Rn , alors

On suppose maintenant qu'on sait résoudre les problèmes

1. Montrer que la matrice

2. Montrer que si kN −1/2 KM −1/2 k < 1, (1) dénit un algorithme de point

Pour simplier les notations, on écrit l'algorithme

où P est symétrique, dénie positive et C un opérateur maximal monotone

2 hP ξ, ηi = kξk2P + kηk2P − kξ − ηk2P .

3.a. Montrer que pour tout k ≥ 0,

En déduire que η k := P (ξ k−1 − ξ k ) ∈ Cξ k vérie

4. Que peut-on encore dire si P ≥ 0 ? (P positive non dénie).

On s'intéresse maintenant au cas où K = I , n = m, M = N −1 (et donc

6. En déduire que le point v k = xk − N y k suit une itération de type Douglas-

Vous aimerez peut-être aussi

2. Soit X une matrice symétrique dénie positive (X ∈ dom f ). Montrer que

On considère maintenant l'algorithme stochastique suivant : lorsque

On choisit M ∈ Rn×n , N ∈ Rm×m des métriques, c'est à dire des matrices

2. Montrer que si kN −1/2 KM −1/2 k < 1, (1) dénit un algorithme de point

Pour simplier les notations, on écrit l'algorithme

où P est symétrique, dénie positive et C un opérateur maximal monotone

En déduire que η k := P (ξ k−1 − ξ k ) ∈ Cξ k vérie

4. Que peut-on encore dire si P ≥ 0 ? (P positive non dénie).

6. En déduire que le point v k = xk − N y k suit une itération de type Douglas-