Transp Optim 2018

Optimisation
thierry.chonavel@imt-atlantique.fr
IMT-Atlantique - Rennes I
Automne 2018
7 février 2019 1 / 37
Sommaire
1 Rappels
Rappels de topologie et de calcul différentiel
Convexité
2 Optimisation
Généralités
Optimalité
3 Algorithmes d’optimisation sans contraintes
4 Optimisation sous contraintes d’égalité
Généralités
Conditions d’optimalité
5 Optimisation sous contraintes d’inégalité
Généralités
6 Algorithmes d’optimisation avec contraintes
7 février 2019 2 / 37
Introduction
Rappels de calcul différentiel.

Convexité et optimisation.
Optimisation sous contraintes d’égalité
→ multiplicateurs de Lagrange.
Optimisation sous contraintes d’inégalité
→ conditions de Khun et Tucker.
Exemples.
7 février 2019 3 / 37
Objectifs du cours
Préparer à l’examen de master SISEA.

Connaı̂tre des notions de base de l’optimisation continue
I différentiation, convexité, points réguliers
I multiplicateurs de Lagrange
I équations de Khun-Tucker.
Savoir résoudre rapidement des problèmes d’optimisation sous
contraintes d’égalité et d’inégalité du type de ceux posés à l’examen de
master.
7 février 2019 4 / 37
Sommaire
1 Rappels
Convexité
2 Optimisation
Généralités
Optimalité
Généralités
Généralités
7 février 2019 5 / 37
Sommaire
1 Rappels
Convexité
2 Optimisation
7 février 2019 6 / 37
Rappels de topologie
Pn 1/p
Norme Lp : x ∈ Rn , k x kp = i=1 xpi
Ensemble ouvert, point intérieur, voisinage d’un point, adhérence d’un ensemble,
ensemble fermé
Ensemble compact
Théorème (de Weierstrass)

Soit une fonction continue f : K ⊂ Rn → R avec K compact. Alors, il existe xm et xM de
K tels que minx∈K f (x) = f (xm ) et maxx∈K f (x) = f (xM ).
Corrolaire
Si f est continue sur Rn et limkxk→∞ f (x) = +∞, alors f (R) = [m, ∞[ et il existe xm de
Rn tel que m = minx∈R f (x) = f (xm ).
7 février 2019 7 / 37
Rappels de calcul différentiel
Pour f : U ⊂ Rn → Rm , on dit que f est dérivable en x ∈ U si
∃f 0 (x) ∈ Rm×n , ∀h, x + h ∈ U, f(x + h) = f(x) + f 0 (x)h+ k h k ε(h)

(1)
avec limh→0 ε(h) = 0.
On note ∇f(x) = [f 0 (x)]T . ∇f(x) est appelé le jacobien de x :
∂fj (x)
[∇f(x)]ij = (2)
∂xi
∂f (x) ∂f (x) T
Pour m = 1, ∇f (x) = [ ,..., ]
∂x1 ∂xn
7 février 2019 8 / 37
Matrice hessienne
Développement de Taylor au second ordre : f : Rn → R

1
f(x + h) = f(x) + ∇f(x)T h + hT ∇2 f(x)h+ k h k2 ν(h) (3)
2
où limh→0 ν(h) = 0 et ∇2 f(x) ∈ Rn×n avec
∂ 2 f(x)
[∇2 f(x)]ij = . (4)
∂xi ∂xj
7 février 2019 9 / 37
Convexité
Ensemble convexe : A ⊂ Rn est convexe si
∀x, y ∈ A, [x, y] ⊂ A, c.Γ

a.d. ∀λ ∈ [0, 1], λx + (1 − λ)y ∈ A. (5)
Fonction convexe : la fonction f : A ⊂ Rn → R avec A ensemble

convexe, est convexe si
∀x, y ∈ A, ∀λ ∈ [0, 1], f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y). (6)
si f ∈ C 1 (A), f est convexe ssi
∀x, y ∈ A, f (y) ≥ f (x) + ∇f (x)T (y − x) (7)
si f ∈ C 2 (A), f est convexe ssi
∀x, y ∈ A, (y − x)T ∇2 f (x)(y − x) ≥ 0 (8)
7 février 2019 10 / 37
Sommaire
1 Rappels
2 Optimisation
Généralités
Optimalité
7 février 2019 11 / 37
Optimisation : généralités
Notions de minimum local, global, strict.

Direction admissible. Soit f : A ⊂ Rn → R et x ∈ A. On dit que d est
une direction admissible en x si
∃α > 0, ∀λ ∈ [0, α], x + λd ∈ A (9)
Direction de descente : une direction admissible d est une direction de

descente en x si
∃β > 0, ∀λ ∈ [0, β], f (x + λd) ≤ f (x). (10)
7 février 2019 12 / 37
Conditions nécessaires du premier ordre Si f ∈ C 1 (A) admet un

minimum local en x, pour tout vecteur d direction admissible en x,
[∇f (x)]T d ≥ 0 (inégalité d’Euler).
En particulier, si x ∈ Int(A), ∇f (x) = 0.
Conditions nécessaires du second ordre Si f ∈ C 2 (A) admet un
minimum local en x, pour tout vecteur d direction admissible en x,
soit [∇f (x)]T d ≥ 0,

(11)
soit [∇f (x)]T d = 0 et dT ∇2 f (x)d ≥ 0
Conditions suffisantes du second ordre Si x ∈ Int(A), avec ∇f (x) = 0

et ∇2 f (x) > 0, alors x est un minimum local strict de f .
7 février 2019 13 / 37
Minimisation : cas convexe
Si f est convexe, alors

1 Tout minimum local est un minimum global
2 x est un minimum global si et seulement si
∀y ∈ A, [∇f (x)]T (y − x) ≥ 0. (12)
7 février 2019 14 / 37
Sommaire
1 Rappels
2 Optimisation
7 février 2019 15 / 37
Critères quadratiques et elliptiques
fonctions quadratiques :
f (x) = xT Ax + xT b + c. Minimisation et convexité
Extension : fonctions elliptiques
I définition : ∃α > 0, (∇f (y) − ∇f (x))T (y − x) ≥ α k y − x k2
I propriétés : si f est elliptique, elle est strictement convexe et
α
f (y) − f (x) ≥ ∇f (x)T (y − x) + k y − x k2 .
2
I f ∈ C 2 est elliptique si et seulement si dT ∇2 f (x)d ≥ α k d k2 .
7 février 2019 16 / 37
Méthode de relaxation
La plupart des méthodes de minimisation classiques procèdent en

cherchant à minimiser f (x) dans des directions successives :
xk+1 = xk + ρk dk
Si on optimise cycliquement la fonction vis à vis des axes de
coordonnées (dk = ek ) on obtient la méthode dite de relaxation et on
note
f (xk,l ) = min f (xk,l−1 + ρel )
ρ
où xk,l = [x1k+1 , . . . , xlk+1 , xl+1

k , . . . , x k ]T .
n
Convergence de la méthode de relaxation

La méthode de relaxation converge pour les fonctions elliptiques
Importance de l’hypothèse de dérivabilité
7 février 2019 17 / 37
Algorithme du gradient (pas optimal)
xk+1 = xk + ρk dk . Idée : choisir la direction de décroissance la plus

rapide de f (x)
Algorithme du gradient → dk ∝ ∇f (xk )
algorithme du gradient à pas optimal :
xk+1 = xk − ρk ∇f (xk )
avec ρk = arg minρ f (xk − ρk ∇f (xk )).
Convergence de la méthode du gradient à pas optimal

La méthode du gradient à pas optimal converge pour les fonctions elliptiques
Exemple : cas des fonctions quadratiques
7 février 2019 18 / 37
Algorithme du gradient (pas constant et pas variable)
gradient à pas fixe et variable :
xk+1 = xk − ρ∇f (xk ) et xk+1 = xk − ρk ∇k f (xk ).
Convergence des méthodes du gradient : cas elliptique

Si f est elliptique de coefficient α et qu’il existe M > 0 tel que
k ∇f (y) − ∇f (x) k≤ M k y − x k, et si 0 < a ≤ ρk ≤ b < 2α/M, la
méthode du gradient converge. La convergence est géométrique :
k xk − x ∗ k≤ β k k x0 − x ∗ k, avec β = (max{τ (a), τ (b)}) et
τ (ρ) = 1 − 2αρ + M 2 ρ2
Cas quadratique
f (xk )
Méthodes du gradient à pas normalisé : xk+1 = xk − ρk ∇ ,
P k ∇f (xk ) k
avec limk→∞ ρk = 0 et k ρk = ∞.
7 février 2019 19 / 37
Méthodes de directions conjuguées
1
minx f (x) = xT Ax − bT x, A ∈ Rn×n , A > 0
2
Directions conjuguées d0 , . . . , dn−1 avec dT
i Adj = 0 pour i 6= j.
d0 , . . . , dn−1 forme une base de R n
Pn−1 dT k b
x∗ solution ⇒ x∗ = k=0 T
dk
dk Adk
Théorème
dT
k [Axk − b]
Pour x0 ∈ Rn et xk+1 = xk − dk , on a xn = x∗
dT
k Ad k
7 février 2019 20 / 37
Algorithme du gradient conjugué
Initialisation : x0 ∈ Rn , d0 = −g0 = b − Ax0 ,
Itérations :
xk+1 = xk + αk dk , où αk = arg minα f (xk + αdk ) :
gT dk
αk = − Tk et gk = Axk − b(= ∇f (xk ))
dk Adk
(13)
dk+1 = −gk+1 + βk dk
gT Adk T (g
gk+1 k+1 − gk )
T g
gk+1 k+1
βk = k+1 (= = )
dTk Ad k g Tg
k k g Tg
k k
7 février 2019 21 / 37
Extension non quadratique du gradient conjugué
On prend gk = ∇f (xk )
On calcule αk en minimisant directement f (xk + αdk )
On prend dk+1 = −gk+1 + βk dk
On peut choisir
T
gk+1 gk+1
I βk = T
(Fletcher-Reeves).
gk gk
(gk+1 − gk )T gk+1
I βk = (Polak-Ribière).
gkT gk
7 février 2019 21 / 37
Algorithmes de Newton
xk+1 = xk − ρk [∇2 f (xk )]−1 ∇f (xk )

Choix de ρk : optimum ou dichotomie sur [0, 1]
Problème lorsqu’on n’a pas ∇2 f (xk ) > 0 → perturbation ∇2 f (xk ) + εI
Perturbations de rang faible.
7 février 2019 22 / 37
Sommaire
1 Rappels
2 Optimisation

Généralités
7 février 2019 23 / 37
Optimisation sous contraintes d’égalité
Problème :
minx f (x)
(14)
h(x) = 0
avec h = [h1 , . . . , hm ]T : Rn → Rm (m < n).
Définitions
On dit que V = {x ∈ Rn ; hi (x) = 0, i = 1, . . . , m} est une variété de
Rn .
Si les fonctions hi sont différentiables, on dit que V est une variété
différentiable.
x est un point régulier si ∇h(x) est de rang m.
7 février 2019 24 / 37
Espace tangent
Définition
L’espace tangent à V en un point x régulier, noté T (x), est l’espace
engendré par les vecteurs tangents à V en x.
Théorème
Si x est un point régulier,
T (x) = {y ∈ Rn ; [∇h(x)]T y = 0} (15)
7 février 2019 25 / 37
Espace tangent (preuve)
CN : Si y ∈ T (x), alors [∇h(x)]T y = 0

CS : théorème des fonctions implicites
Théorème des fonctions implicites

(i) g ∈ C 1 : O ⊂ Rn−m × Rm → Rm , (x1 , x2 ) 7→ g (x1 , x2 )
(ii) g (a1 , a2 ) = b, et ∇x2 g (a1 , a2 ) ∈ Rm×m inversible
Alors, il existe un voisinage ouvert O1 × O2 de (a1 , a2 ) et h : Rn−m → Rm
t.q.
{(x1 , x2 ) ∈ O1 × O2 ; g (x1 , x2 ) = b} = {(x1 , h(x1 )); x1 ∈ O1 } . (16)
et ∇x1 h(a1 ) = −∇x1 g (a1 , a2 )[∇x2 g (a1 , a2 )]−1 .
7 février 2019 26 / 37
Conditions d’optimalité (contraintes d’égalité)
Théorème (CN1)
Si x est un point régulier de V. Si f est minimum en x,
∃λ ∈ Rm , ∇x f (x) + ∇x h(x)λ = 0. (17)
λ : vecteur de multiplicateurs de Lagrange

L(x, λ) = f (x) + λT h(x) : lagrangien du problème d’optimisation
7 février 2019 27 / 37
Conditions d’optimalité (contraintes d’égalité)
Théorème (CN2)
Si x est un point régulier de V. Si f est minimum en x, alors il existe
λ ∈ Rm tel que
∇x L(x, λ) = ∇x f (x) + ∇h(x)λ = 0 (I )

(18)
∇2x L(x, λ) est semi-définie positive sur T (x) (II )
Théorème (CS2)
Si x est un point régulier de V. Si il existe λ ∈ Rm tel que (I ) soit vérifiée
et ∇2x L(x, λ) est définie positive sur T (x), alors f a un minimum local strict
en x.
7 février 2019 28 / 37
Sommaire
1 Rappels
2 Optimisation

Généralités
7 février 2019 29 / 37
Optimisation sous contraintes d’inégalité

minx f (x)
(19)
h(x) ≤ 0
U = {x ∈ Rn ; hi (x) ≤ 0, i = 1, . . . , m}
On dit que la contrainte hi (x) ≤ 0 est active en x si hi (x) = 0.
Notation :
I I(x) = {i; hi (x) = 0, i = 1, . . . , m},
I V(x) = {y ∈ Rn ; hi (y) = 0, i ∈ I(x)}.
On notera T (x) l’espace tangent à V(x)
On dit que x est un point régulier si {∇hi (x); i ∈ I(x)} forme une
famille libre.
7 février 2019 30 / 37
Conditions d’optimalité (contraintes d’inégalité)
Théorème (CN1 - conditions de Khun et Tucker)

Si x est un point régulier de V et si f est minimum en x, alors il existe
µ ∈ Rm+ tel que
∇x f (x) + ∇h(x)µ = 0
(20)
µi hi (x) = 0, i = 1, . . . , m.
Dans le cas convexe, ces conditions sont nécessaires et suffisantes.
7 février 2019 31 / 37
Conditions d’optimalité (contraintes d’inégalité)
Théorème (CN2)
Si x est un point régulier de V. Si f est minimum en x, alors il existe
µ ∈ Rm+ tel que
∇x L(x, µ) = ∇x f (x) + ∇h(x)µ = 0 (I )

µT h(x) = 0 (II )
∇2x L(x, µ) est semi-définie positive sur T (x) (III )
Théorème (CS2)
Si x est un point régulier de V et si il existe µ ∈ Rm + tel que (I ) et (II )
2
soient vérifiées et ∇x L(x, λ) est définie positive sur T (x), alors f a un
minimum local strict en x.
7 février 2019 32 / 37
Sommaire
1 Rappels
2 Optimisation
7 février 2019 33 / 37
Dualité

minx f (x)
(21)
h(x) = 0
Solution (x∗ , λ∗ ) : on a ∇L(x∗ , λ∗ ) = 0 et ∇2 L(x∗ , λ∗ ) ≥ 0

Si ∇2 L(x∗ , λ∗ ) > 0 sur T (x∗ ), x∗ est solution de minx L(x, λ∗ )
Pour λ ∈ Vλ∗ , on note xλ = arg minx L(x, λ)
Fonction duale : φ(λ) = minx L(x, λ)
7 février 2019 34 / 37
Dualité
Lemme
∇λ φ(λ) = h(xλ ), ∇2λ φ(λ) = −[∇x h(xλ )]T ∇2x L(xλ , λ)∇x h(xλ )
φ est concave au voisinage de x∗
Théorème
Si (x∗ , λ∗ ) est solution avec x∗ régulier et ∇2x L(x∗ , λ∗ ) > 0,
maxλ φ(λ) = φ(λ∗ ) = f (x∗ ) et xλ∗ = x∗ .
Donc f (x∗ ) = maxλ minx L(x, λ) → algorithme d’Uzawa :
xk+1 = xk − ρk ∇x L(x, λk )
(22)
λk+1 = λk + ρk h(xk )
7 février 2019 35 / 37
Lagrangien augmenté : contraintes d’égalité
1
(
minx f (x) minx f (x) + c k h(x) k2
(I ) ⇔ (II ) 2 (23)
h(x) = 0 h(x) = 0

1 1
φII (λ) = minx LI (x, λ) + c k h(x) k2 = LI (xλ , λ) + c k h(xλ ) k2 .
2 2
∇λ φII (λ) = ch(xλ ) et si ∇2λ φII (λ) < 0 sur Vλ∗ on peut actualiser λ par
λ → λ + ch(xλ ). D’où l’algorithme
1
xk+1 = arg minx LI (x, λ) + k h(x) k2
2 (24)
λk+1 = λk + ch(xk )
7 février 2019 36 / 37
Lagrangien augmenté : contrainte d’inégalité
1
(
minx f (x) minx f (x) + c k h(x) + v k2
(I ) ⇔ (II ) 2 (25)
h(x) ≤ 0 h(x) + v = 0, v ≥ 0
1
φII (µ) = minx,v≥0 (f (x) + µT (h(x) + v) + c k h(x) + v k2 )
2
v = max[0, −h(x) − µ/c] et
1 Pm
φII (µ) = minx (f (x) + (max[0, µk + chk (x)])2 − µ2k
2c k=1
Algorithme :
1 Pm
xk+1 = arg minx (f (x) + (max[0, µk + chk (x)])2 − µ2k
2c k=1 (26)
µk+1 = µk + c(h(xk ) + max[0, −h(xk+1 ) − µk /c])
7 février 2019 37 / 37

Transp Optim 2018

Transféré par

Droits d'auteur :

Formats disponibles

Transp Optim 2018

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Transp Optim 2018

Transféré par

Droits d'auteur :

Formats disponibles

Optimisation

Rappels de calcul différentiel.

Préparer à l’examen de master SISEA.

3 Algorithmes d’optimisation sans contraintes

4 Optimisation sous contraintes d’égalité

5 Optimisation sous contraintes d’inégalité

6 Algorithmes d’optimisation avec contraintes

Théorème (de Weierstrass)

Pour f : U ⊂ Rn → Rm , on dit que f est dérivable en x ∈ U si

∃f 0 (x) ∈ Rm×n , ∀h, x + h ∈ U, f(x + h) = f(x) + f 0 (x)h+ k h k ε(h)

Développement de Taylor au second ordre : f : Rn → R

∀x, y ∈ A, [x, y] ⊂ A, c.Γ

Fonction convexe : la fonction f : A ⊂ Rn → R avec A ensemble

∀x, y ∈ A, ∀λ ∈ [0, 1], f (λx + (1 − λ)y) ≤ λf (x) + (1 − λ)f (y). (6)

si f ∈ C 1 (A), f est convexe ssi

∀x, y ∈ A, f (y) ≥ f (x) + ∇f (x)T (y − x) (7)

si f ∈ C 2 (A), f est convexe ssi

∀x, y ∈ A, (y − x)T ∇2 f (x)(y − x) ≥ 0 (8)

3 Algorithmes d’optimisation sans contraintes

4 Optimisation sous contraintes d’égalité

5 Optimisation sous contraintes d’inégalité

6 Algorithmes d’optimisation avec contraintes

Notions de minimum local, global, strict.

∃α > 0, ∀λ ∈ [0, α], x + λd ∈ A (9)

Direction de descente : une direction admissible d est une direction de

∃β > 0, ∀λ ∈ [0, β], f (x + λd) ≤ f (x). (10)

Conditions nécessaires du premier ordre Si f ∈ C 1 (A) admet un

soit [∇f (x)]T d ≥ 0,

Conditions suffisantes du second ordre Si x ∈ Int(A), avec ∇f (x) = 0

Si f est convexe, alors

∀y ∈ A, [∇f (x)]T (y − x) ≥ 0. (12)

3 Algorithmes d’optimisation sans contraintes

4 Optimisation sous contraintes d’égalité

5 Optimisation sous contraintes d’inégalité

6 Algorithmes d’optimisation avec contraintes

La plupart des méthodes de minimisation classiques procèdent en

où xk,l = [x1k+1 , . . . , xlk+1 , xl+1

Convergence de la méthode de relaxation

Importance de l’hypothèse de dérivabilité

xk+1 = xk + ρk dk . Idée : choisir la direction de décroissance la plus

avec ρk = arg minρ f (xk − ρk ∇f (xk )).

Convergence de la méthode du gradient à pas optimal

Exemple : cas des fonctions quadratiques

xk+1 = xk − ρ∇f (xk ) et xk+1 = xk − ρk ∇k f (xk ).

Convergence des méthodes du gradient : cas elliptique

xk+1 = xk − ρk [∇2 f (xk )]−1 ∇f (xk )

3 Algorithmes d’optimisation sans contraintes

4 Optimisation sous contraintes d’égalité

5 Optimisation sous contraintes d’inégalité

6 Algorithmes d’optimisation avec contraintes

T (x) = {y ∈ Rn ; [∇h(x)]T y = 0} (15)

CN : Si y ∈ T (x), alors [∇h(x)]T y = 0

Théorème des fonctions implicites

{(x1 , x2 ) ∈ O1 × O2 ; g (x1 , x2 ) = b} = {(x1 , h(x1 )); x1 ∈ O1 } . (16)

et ∇x1 h(a1 ) = −∇x1 g (a1 , a2 )[∇x2 g (a1 , a2 )]−1 .

∃λ ∈ Rm , ∇x f (x) + ∇x h(x)λ = 0. (17)

λ : vecteur de multiplicateurs de Lagrange

∇x L(x, λ) = ∇x f (x) + ∇h(x)λ = 0 (I )

3 Algorithmes d’optimisation sans contraintes