Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Controle17

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 6

Introduction à l'optimisation continue

Contrôle
(9 janvier 2018)

Exercice I
On rappelle que pour une fonction convexe f : X → R ∪ {+∞},
1
proxτ f (x) = arg min f (y) + ky − xk2 .
y 2τ
Calculer proxτ f (x) pour τ > 0, et
1. X = Rn , f (x) = kxk2 /2 ;
2. X = Rn , f (x) = kxk∞ = maxi=1,...,n |xi | :

(a) Montrer d'abord que

1 1
min kyk∞ + ky − xk2 = min t + min ky − xk2 .
y 2τ t≥0 y:|yi |≤t ∀i 2τ

(b) Déduire que

n
1 1 X
min kyk∞ + ky − xk2 = min t + [(|xi | − t)+ ]2
y 2τ t≥0 2τ i=1

où pour s ∈ R, s+ := max{s, 0}. En déduire un algorithme pour


trouver y.

Exercice II
On considère dans E = Rn×n ensemble des matrices n×n la fonction
(
− log det X si X est symétrique dénie positive,
f (X) =
+∞ sinon.

1. Montrer que le domaine de f est un ensemble convexe.

2. Soit X une matrice symétrique dénie positive (X ∈ dom f ). Montrer que


si H est une matrice symétrique et t est assez petit,

f (X + tH) = f (X) − t X −1 , H + O(t)

où hA, Bi = Tr (AT B) (= Tr (AB) bien entendu lorsque A, B sont symétriques.


On rappelle que c'est un produit scalaire Euclidien, vériant notamment l'in-
égalité de Cauchy-Schwartz).
On a

− log det(X + tH) = − log[det(X) det(I + tX −1 H)]


= − log det X−log[1+tTr (X −1 H)+O(t2 )] = − log det X−tTr (X −1 H)+o(t).

Donc ∇f (X) = −X −1 .

1
3. Montrer que si X, Y sont des matrices symétriques dénies positives,

1 −1
) + Tr (X −1 Y ) .

n≤ Tr (XY
2
(Indication : on partira de l'identité I = X 1/2 Y −1/2 Y 1/2 X −1/2 .)
On écrit

D E
n = Tr (I) = Tr X 1/2 Y −1/2 Y 1/2 X −1/2 = X 1/2 Y −1/2 , X −1/2 Y 1/2
1 1
≤ kX 1/2 Y −1/2 kkX −1/2 Y 1/2 k ≤ kX 1/2 Y −1/2 k2 + kX −1/2 Y 1/2 k2 .
2 2
On remarque ensuite que

kX 1/2 Y −1/2 k2 = Tr (X 1/2 Y −1/2 Y −1/2 X 1/2 ) = Tr (XY −1 )

et on conclut.

4. En déduire que f est une fonction convexe. On montrera (en se restrei-


gnant aux matrice symétriques dénies positives) que ∇f (X) est un opérateur
monotone.
On voit que

h∇f (X) − ∇f (Y ), X − Y i = −Tr ((X −1 − Y −1 )(X − Y ))


= −Tr (2I − X −1 Y − Y −1 X) ≥ 0

d'après la question précédente.

5. Calculer Y = proxτ f (X).


On écrit pour X une matrice et X̄ = (X + X T )/2 sa projection sur les
matrice symétriques que Y doit minimiser

1
min f (Y ) + (kY − X̄k2 + kX̄ − Xk2 ).
Y s.d.p. 2τ
Donc Y est solution de

−τ Y −1 + Y − X̄ = 0 ⇔ −τ + Y 2 − X̄Y = 0.

On résout cette équation facilement en diagonalisant X̄ (de valeurs propres


(µ̄i )ni=1 ∈ Rn ) et en cherchant Y comme matrice diagonale dans la même base :
les valeurs propres (µi ) de Y doivent vérier

−τ + µ2i − µ̄i µi = 0

et être positives, elles sont donc données par

p
µ̄i + µ̄2i + 4τ
µi = .
2

2
Exercice III (Descente de gradient stochastique).

On note x = (xi )ni=1 Rn , n ≥ 2. On considère f :


un point générique de
n 2 2
R → R une fonction convexe de classe C avec |∂i,i f | ≤ Li pour i = 1, . . . , n.
(En d'autres termes, ∂i f est Li -Lipschitz par rapport à xi .)
On introduit les opérateurs de descente suivants, pour tout i :
 
x1
.
.
 
 . 
 
 x i−1

Tτi x = 
 
x
 i − τ ∂ i f (x) .


 x i+1


.
.
 
 . 
xn

1. Montrer que si y = Tτi x

f (y) ≤ f (x) − τ2 (2 − τ Li )|∂i f (x)|2 .

On écrit un développement de Taylor :

Z 1
f (y) = f (x) + ∇f (x + s(y − x)) · (y − x)ds
0
Z 1
= f (x) + ∇f (x) · (y − x) + [∇f (x + s(y − x)) − ∇f (x)] · (y − x)ds
0

Si y − x = −τ ∂i f (x)ei , on déduit

Z 1
f (y) ≤ f (x) − τ |∂i f (x)|2 + Li sky − xk2 ds ≤ f (x) − τ2 (1 − τ Li )|∂i f (x)|2 .
0

On considère maintenant l'algorithme stochastique suivant : lorsque


P xk est
calculé, on choisit l'indice i avec probabilité pi (pi > 0, i pi = 1) et on pose
xk+1 = Tτii xk où τi = θ/Li , θ ∈]0, 2[ xé.
On rappelle que l'espérance de g(xk+1 ) sachant xk est donnée par

n
X
Ek (g(xk+1 )) = pi [valeur de g(xk+1 ) si i est choisi],
i=1

pour n'importe quelle fonction g.

2. Montrer que

θ(2 − θ)
Ek (f (xk+1 )) ≤ f (xk ) − k∇f (xk )k2M
2
où M est la matrice diagonale telle que mii = pi /Li et
X
kξkM := hM ξ, ξi = mii |ξi |2 .
i

3
3. Montrer que si x∗ est un minimiseur de f, pour tout x ∈ Rn ,

f (x) − f (x∗ ) ≤ − h∇f (x), x∗ − xi ≤ k∇f (x)kM kx∗ − xkM −1 .

En déduire que

θ(2 − θ)
Ek (f (xk+1 ) − f (x∗ )) ≤ f (xk ) − f (x∗ ) − (f (xk ) − f (x∗ ))2 .
2kx∗ − xk k2M −1

4. On suppose qu'on sache trouver une constante C > 0 telle que kxk −

x kM −1 ≤ C pour tout k (et tous les tirages aléatoires possibles). En déduire,
en prenant l'espérance sur tous les xk possibles, que

θ(2 − θ) 2
∆k+1 ≤ ∆k − ∆k
2C 2
où l'on a noté ∆k = E(f (xk ) − f (x∗ )).

5. En déduire que
2C 2 1
∆k ≤ .
θ(2 − θ) k + 1
Conclure.

6. Quel avantage peut-on trouver par rapport à un algorithme de descente de


gradient déterministe (notamment dans le choix du pas de descente) ? Y a-t-il
a priori un choix des (pi )i meilleur qu'un autre ?

Exercice IV
On considère, pour x ∈ Rn , K : Rn → Rm (n, m ≥ 1) opérateur linéaire
continu et f : Rm → [0, +∞], g : Rn → [0, +∞] fonctions convexes, semi-
continues inférieurement, le problème :

min f (Kx) + g(x) = min sup hKx, yi − f ∗ (y) + g(x).


x x y

On choisit M ∈ Rn×n , N ∈ Rm×m des métriques, c'est à dire des matrices


symétriques dénies positives dénissant des normes Euclidiennes

kxk2M := hM x, xi , kyk2N := hM y, yi .

0. Montrer que si A est un opérateur (maximal) monotone dans Rn , alors


M −1 A est un opérateur (maximal) monotone dans Rn muni de la norme Eucli-
dienne k·kM . Que déduit-on alors du théorème de Minty ?

On suppose maintenant qu'on sait résoudre les problèmes

1
min kx − x̄k2M + g(x),
x 2

1
min ky − ȳk2N + f ∗ (y).
y 2

4
On dénit alors l'algorithme (xk , y k ) 7→ (xk+1 , y k+1 ) par le calcul

−K ∗ K∗
  k+1
− xk ∂g(xk+1 )
       k+1 
M x 0 x
+ + 3 0Rn+m .
−K N y k+1 − y k ∂f ∗ (y k+1 ) −K 0 y k+1
(1)

1. Montrer que la matrice


−K ∗
 
M
−K N
est dénie positive si et seulement si kN −1/2 KM −1/2 k < 1. Que se passe-t-il si
−1/2 −1/2
kN KM k = 1?

2. Montrer que si kN −1/2 KM −1/2 k < 1, (1) dénit un algorithme de point


proximal associé à un opérateur maximal monotone, et montrer qu'il est eec-
tivement implémentable (c'est-à-dire qu'on peut calculer, connaissant (xk , y k ),
k+1
le point (x , y k+1 )).

Pour simplier les notations, on écrit l'algorithme

P (ξ k+1 − ξ k ) + Cξ k+1 3 0

où P est symétrique, dénie positive et C un opérateur maximal monotone


(dans Rn+m , donc). On suppose qu'il existe ξ∗ avec 0 ∈ Cξ ∗ . On rappelle que

2 hP ξ, ηi = kξk2P + kηk2P − kξ − ηk2P .

3.a. Montrer que pour tout k ≥ 0,


(
kξ k+1 − ξ ∗ k2P + kξ k+1 − ξ k k2P ≤ kξ k − ξ ∗ k2P ,
(2)
kξ k+2 − ξ k+1 k2P + kξ k+2 − 2ξ k+1 + ξ k k2P ≤ kξ k+1 − ξ k k2P .

En déduire que η k := P (ξ k−1 − ξ k ) ∈ Cξ k vérie

kξ 0 − ξ ∗ k2P
kη k k2P −1 ≤ ,
k
puis que (ξ k ) a des sous-suite qui convergent vers des solutions de Cξ 3 0.

3.b. Déduire ensuite de (2) que toute la suite (ξ k ) converge (vers une solution).

4. Que peut-on encore dire si P ≥ 0 ? (P positive non dénie).


On a encore Cξ k → 0. Si (ξ k ) a une sous-suite convergente on peut encore
déduire que la limite est une solution.

On s'intéresse maintenant au cas où K = I , n = m, M = N −1 (et donc


kN −1/2 KM −1/2 k = 1). Pour simplier on note A = ∂g , B = ∂f et l'algorithme
s'écrit donc
 −1   k+1
− xk Axk+1
      k+1 
N −I x 0 I x
+ + 3 0R2n . (3)
−I N y k+1 − y k B −1 y k+1 −I 0 y k+1

5
5. Montrer que si
N (ŷ − ȳ) + B −1 ȳ 3 0
alors
−1
N ŷ = N ȳ − (I + N B) (N ȳ).

6. En déduire que le point v k = xk − N y k suit une itération de type Douglas-


Rachford, que l'on précisera. Que peut-on conclure ?

Vous aimerez peut-être aussi