Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
0% ont trouvé ce document utile (0 vote)
11 vues6 pages

Controle17

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1/ 6

Introduction à l'optimisation continue

Contrôle
(9 janvier 2018)

Exercice I
On rappelle que pour une fonction convexe f : X → R ∪ {+∞},
1
proxτ f (x) = arg min f (y) + ky − xk2 .
y 2τ
Calculer proxτ f (x) pour τ > 0, et
1. X = Rn , f (x) = kxk2 /2 ;
2. X = Rn , f (x) = kxk∞ = maxi=1,...,n |xi | :

(a) Montrer d'abord que

1 1
min kyk∞ + ky − xk2 = min t + min ky − xk2 .
y 2τ t≥0 y:|yi |≤t ∀i 2τ

(b) Déduire que

n
1 1 X
min kyk∞ + ky − xk2 = min t + [(|xi | − t)+ ]2
y 2τ t≥0 2τ i=1

où pour s ∈ R, s+ := max{s, 0}. En déduire un algorithme pour


trouver y.

Exercice II
On considère dans E = Rn×n ensemble des matrices n×n la fonction
(
− log det X si X est symétrique dénie positive,
f (X) =
+∞ sinon.

1. Montrer que le domaine de f est un ensemble convexe.

2. Soit X une matrice symétrique dénie positive (X ∈ dom f ). Montrer que


si H est une matrice symétrique et t est assez petit,

f (X + tH) = f (X) − t X −1 , H + O(t)

où hA, Bi = Tr (AT B) (= Tr (AB) bien entendu lorsque A, B sont symétriques.


On rappelle que c'est un produit scalaire Euclidien, vériant notamment l'in-
égalité de Cauchy-Schwartz).
On a

− log det(X + tH) = − log[det(X) det(I + tX −1 H)]


= − log det X−log[1+tTr (X −1 H)+O(t2 )] = − log det X−tTr (X −1 H)+o(t).

Donc ∇f (X) = −X −1 .

1
3. Montrer que si X, Y sont des matrices symétriques dénies positives,

1 −1
) + Tr (X −1 Y ) .

n≤ Tr (XY
2
(Indication : on partira de l'identité I = X 1/2 Y −1/2 Y 1/2 X −1/2 .)
On écrit

D E
n = Tr (I) = Tr X 1/2 Y −1/2 Y 1/2 X −1/2 = X 1/2 Y −1/2 , X −1/2 Y 1/2
1 1
≤ kX 1/2 Y −1/2 kkX −1/2 Y 1/2 k ≤ kX 1/2 Y −1/2 k2 + kX −1/2 Y 1/2 k2 .
2 2
On remarque ensuite que

kX 1/2 Y −1/2 k2 = Tr (X 1/2 Y −1/2 Y −1/2 X 1/2 ) = Tr (XY −1 )

et on conclut.

4. En déduire que f est une fonction convexe. On montrera (en se restrei-


gnant aux matrice symétriques dénies positives) que ∇f (X) est un opérateur
monotone.
On voit que

h∇f (X) − ∇f (Y ), X − Y i = −Tr ((X −1 − Y −1 )(X − Y ))


= −Tr (2I − X −1 Y − Y −1 X) ≥ 0

d'après la question précédente.

5. Calculer Y = proxτ f (X).


On écrit pour X une matrice et X̄ = (X + X T )/2 sa projection sur les
matrice symétriques que Y doit minimiser

1
min f (Y ) + (kY − X̄k2 + kX̄ − Xk2 ).
Y s.d.p. 2τ
Donc Y est solution de

−τ Y −1 + Y − X̄ = 0 ⇔ −τ + Y 2 − X̄Y = 0.

On résout cette équation facilement en diagonalisant X̄ (de valeurs propres


(µ̄i )ni=1 ∈ Rn ) et en cherchant Y comme matrice diagonale dans la même base :
les valeurs propres (µi ) de Y doivent vérier

−τ + µ2i − µ̄i µi = 0

et être positives, elles sont donc données par

p
µ̄i + µ̄2i + 4τ
µi = .
2

2
Exercice III (Descente de gradient stochastique).

On note x = (xi )ni=1 Rn , n ≥ 2. On considère f :


un point générique de
n 2 2
R → R une fonction convexe de classe C avec |∂i,i f | ≤ Li pour i = 1, . . . , n.
(En d'autres termes, ∂i f est Li -Lipschitz par rapport à xi .)
On introduit les opérateurs de descente suivants, pour tout i :
 
x1
.
.
 
 . 
 
 x i−1

Tτi x = 
 
x
 i − τ ∂ i f (x) .


 x i+1


.
.
 
 . 
xn

1. Montrer que si y = Tτi x

f (y) ≤ f (x) − τ2 (2 − τ Li )|∂i f (x)|2 .

On écrit un développement de Taylor :

Z 1
f (y) = f (x) + ∇f (x + s(y − x)) · (y − x)ds
0
Z 1
= f (x) + ∇f (x) · (y − x) + [∇f (x + s(y − x)) − ∇f (x)] · (y − x)ds
0

Si y − x = −τ ∂i f (x)ei , on déduit

Z 1
f (y) ≤ f (x) − τ |∂i f (x)|2 + Li sky − xk2 ds ≤ f (x) − τ2 (1 − τ Li )|∂i f (x)|2 .
0

On considère maintenant l'algorithme stochastique suivant : lorsque


P xk est
calculé, on choisit l'indice i avec probabilité pi (pi > 0, i pi = 1) et on pose
xk+1 = Tτii xk où τi = θ/Li , θ ∈]0, 2[ xé.
On rappelle que l'espérance de g(xk+1 ) sachant xk est donnée par

n
X
Ek (g(xk+1 )) = pi [valeur de g(xk+1 ) si i est choisi],
i=1

pour n'importe quelle fonction g.

2. Montrer que

θ(2 − θ)
Ek (f (xk+1 )) ≤ f (xk ) − k∇f (xk )k2M
2
où M est la matrice diagonale telle que mii = pi /Li et
X
kξkM := hM ξ, ξi = mii |ξi |2 .
i

3
3. Montrer que si x∗ est un minimiseur de f, pour tout x ∈ Rn ,

f (x) − f (x∗ ) ≤ − h∇f (x), x∗ − xi ≤ k∇f (x)kM kx∗ − xkM −1 .

En déduire que

θ(2 − θ)
Ek (f (xk+1 ) − f (x∗ )) ≤ f (xk ) − f (x∗ ) − (f (xk ) − f (x∗ ))2 .
2kx∗ − xk k2M −1

4. On suppose qu'on sache trouver une constante C > 0 telle que kxk −

x kM −1 ≤ C pour tout k (et tous les tirages aléatoires possibles). En déduire,
en prenant l'espérance sur tous les xk possibles, que

θ(2 − θ) 2
∆k+1 ≤ ∆k − ∆k
2C 2
où l'on a noté ∆k = E(f (xk ) − f (x∗ )).

5. En déduire que
2C 2 1
∆k ≤ .
θ(2 − θ) k + 1
Conclure.

6. Quel avantage peut-on trouver par rapport à un algorithme de descente de


gradient déterministe (notamment dans le choix du pas de descente) ? Y a-t-il
a priori un choix des (pi )i meilleur qu'un autre ?

Exercice IV
On considère, pour x ∈ Rn , K : Rn → Rm (n, m ≥ 1) opérateur linéaire
continu et f : Rm → [0, +∞], g : Rn → [0, +∞] fonctions convexes, semi-
continues inférieurement, le problème :

min f (Kx) + g(x) = min sup hKx, yi − f ∗ (y) + g(x).


x x y

On choisit M ∈ Rn×n , N ∈ Rm×m des métriques, c'est à dire des matrices


symétriques dénies positives dénissant des normes Euclidiennes

kxk2M := hM x, xi , kyk2N := hM y, yi .

0. Montrer que si A est un opérateur (maximal) monotone dans Rn , alors


M −1 A est un opérateur (maximal) monotone dans Rn muni de la norme Eucli-
dienne k·kM . Que déduit-on alors du théorème de Minty ?

On suppose maintenant qu'on sait résoudre les problèmes

1
min kx − x̄k2M + g(x),
x 2

1
min ky − ȳk2N + f ∗ (y).
y 2

4
On dénit alors l'algorithme (xk , y k ) 7→ (xk+1 , y k+1 ) par le calcul

−K ∗ K∗
  k+1
− xk ∂g(xk+1 )
       k+1 
M x 0 x
+ + 3 0Rn+m .
−K N y k+1 − y k ∂f ∗ (y k+1 ) −K 0 y k+1
(1)

1. Montrer que la matrice


−K ∗
 
M
−K N
est dénie positive si et seulement si kN −1/2 KM −1/2 k < 1. Que se passe-t-il si
−1/2 −1/2
kN KM k = 1?

2. Montrer que si kN −1/2 KM −1/2 k < 1, (1) dénit un algorithme de point


proximal associé à un opérateur maximal monotone, et montrer qu'il est eec-
tivement implémentable (c'est-à-dire qu'on peut calculer, connaissant (xk , y k ),
k+1
le point (x , y k+1 )).

Pour simplier les notations, on écrit l'algorithme

P (ξ k+1 − ξ k ) + Cξ k+1 3 0

où P est symétrique, dénie positive et C un opérateur maximal monotone


(dans Rn+m , donc). On suppose qu'il existe ξ∗ avec 0 ∈ Cξ ∗ . On rappelle que

2 hP ξ, ηi = kξk2P + kηk2P − kξ − ηk2P .

3.a. Montrer que pour tout k ≥ 0,


(
kξ k+1 − ξ ∗ k2P + kξ k+1 − ξ k k2P ≤ kξ k − ξ ∗ k2P ,
(2)
kξ k+2 − ξ k+1 k2P + kξ k+2 − 2ξ k+1 + ξ k k2P ≤ kξ k+1 − ξ k k2P .

En déduire que η k := P (ξ k−1 − ξ k ) ∈ Cξ k vérie

kξ 0 − ξ ∗ k2P
kη k k2P −1 ≤ ,
k
puis que (ξ k ) a des sous-suite qui convergent vers des solutions de Cξ 3 0.

3.b. Déduire ensuite de (2) que toute la suite (ξ k ) converge (vers une solution).

4. Que peut-on encore dire si P ≥ 0 ? (P positive non dénie).


On a encore Cξ k → 0. Si (ξ k ) a une sous-suite convergente on peut encore
déduire que la limite est une solution.

On s'intéresse maintenant au cas où K = I , n = m, M = N −1 (et donc


kN −1/2 KM −1/2 k = 1). Pour simplier on note A = ∂g , B = ∂f et l'algorithme
s'écrit donc
 −1   k+1
− xk Axk+1
      k+1 
N −I x 0 I x
+ + 3 0R2n . (3)
−I N y k+1 − y k B −1 y k+1 −I 0 y k+1

5
5. Montrer que si
N (ŷ − ȳ) + B −1 ȳ 3 0
alors
−1
N ŷ = N ȳ − (I + N B) (N ȳ).

6. En déduire que le point v k = xk − N y k suit une itération de type Douglas-


Rachford, que l'on précisera. Que peut-on conclure ?

Vous aimerez peut-être aussi