Analyse Numérisue Et Opt
Analyse Numérisue Et Opt
Analyse Numérisue Et Opt
com
et d'optimisation continue.
TELECOM BRETAGNE
Thierry CHONAVEL
thierry.chonavel@telecom-bretagne.eu
Mai 2011
HSCTDOC.blogspot.com
1 Introduction 8
2 Un exemple introductif 13
3.5.1 Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1
HSCTDOC.blogspot.com
3.6.2 Conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
II Introduction
aux oprateurs linaires 55
8 Introduction 56
9 Espaces de Hilbert 57
9.1 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
9.4.2 Projection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
9.4.3 Isomtrie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
10 Oprateurs linaires 62
10.1 Norme d'un oprateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
11 Interpolation et intgration 68
HSCTDOC.blogspot.com
11.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
IV Optimisation 76
12 Introduction 77
13.3 Drivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
14.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
14.1.1 Optimalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
14.4.1 Dnitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
15.4.1 Principe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
15.4.4 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
A Master SISEA
Corrig des examens
sessions de janvier 2006 2010 122
HSCTDOC.blogspot.com
Chapitre 1
Introduction
Une fois la mise en forme d'un problme eectue et les techniques gnrales pour le rsoudre connues,
il peut tre utile, pour des implmentations spciques qui peuvent concerner par exemple la mise
en oeuvre sur des processeurs de traitement de signal ou pour des adaptations des algorithmes
dans le cadre d'activits de R&D, d'tre capable de 'dcortiquer' le fonctionnement d'un algo-
rithme, ce qui suppose un minimum de familiarit avec les principes sur lesquels ils reposent.
Aussi, mme si l'essentiel des algorithmes n'est pas dtaill en cours ou n'est que rapidement test
lors des travaux pratiques, un certain nombre de mthodes standard est prcis dans le polycopi. Les
codes fournis visent en particulier montrer que souvent l'implmentation informatique conduit un
code simple et concis.
Ce cours vise d'abord rappeler quelques notions lmentaires d'analyse numrique matricielle
et d'optimisation et donner les grandes lignes de mthodes classiques importantes pour les
problmes d'ingnierie courants. La partie relative aux matrices est complte par une partie
d'introduction aux oprateurs linaires qui tendent naturellement en dimension innie les no-
tions de fonctions linaires et de matrice. Cette dernire partie est encore incomplte et sera
dveloppe dans les versions ultrieures du polycopi.
On prsente galement ici quelques notions de base sur l'interpolation polynomiale des fonctions
et leur intgration numrique qui constituent des outils standards d'ingnierie. Pour l'analyse
8
HSCTDOC.blogspot.com
CHAPITRE 1. INTRODUCTION 9
numrique matricielle, on envisagera surtout les outils classiques de rsolution des systmes
d'quations linaires et on donnera quelques indications sur la diagonalisation des matrices.
Pour ce qui concerne l'optimisation, on indiquera les mthodes de recherche d'optima utiliser
selon les proprits des critres optimiser et la nature des contraintes.
Prcisons maintenant un peu plus la nature des problmes que l'on va envisager.
Commenons par reproduire ici la dnition de l'analyse numrique fournie par l'encyclopdie
en ligne Wikipedia :
l'analyse numrique est l'tude des algorithmes permettant de rsoudre les problmes de math-
matiques continues (distingues des mathmatiques discrtes). Cela signie qu'elle s'occupe
principalement de rpondre numriquement des questions variable relle ou complexe comme
l'algbre linaire numrique sur les champs rels ou complexes, la recherche de solution numrique
d'quations direntielles et d'autres problmes lis survenant dans les sciences physiques et
l'ingnierie.
Comme on l'a dj indiqu plus haut, on se limite essentiellement ici l'analyse numrique
matricielle. Le premier but de ce cours est de mettre en vidence l'intrt de la mise en forme
matricielle de problmes classiques rencontrs en traitement statistique de l'information. L'-
tude de la rsolution exacte ou approche des systmes linaires d'quations sera l'occasion de
prsenter un certain nombre de rsultats sur la dcomposition des matrices, utiles l'tude de
nombreux problmes. On distinguera, comme c'est gnralement le cas dans ce genre d'expos les
mthodes directes qui fournissent une solution au prix d'un nombre limit x d'oprations des
mthodes itratives qui fournissent une solution approche chaque itration, la solution exacte
n'tant gnralement obtenue qu'asymptotiquement. On s'intressera galement au problme de
la dcomposition en valeurs propres des matrices, qui n'a pas de solution numrique exacte en
gnral puisqu'il s'apparente au problme de recherche des racines d'un polynme (en l'occurence
le polynme caractristique de la matrice).
Notons ici que la recherche de la solution d'un problme d'optimisation d'un critre fonction d'une
variable vectorielle peut souvent faire appel aux outils de l'analyse numrique matricielle. Consid-
HSCTDOC.blogspot.com
CHAPITRE 1. INTRODUCTION 10
rons en eet l'exemple simple suivant : en l'absence de contrainte, un problme d' optimisation
quadratique du type f (x) =k Ax b k, o k x k2 =
xT x est la norme euclidienne, le minimum
T T
du critre est donn par la rsolution du systme d'quations linaires (A A)x = A b. La
recherche du vecteur x par ce critre fournit une approximation du vecteur b sous la forme Ax
et est connue sous le nom de mthode des moindres carrs.
Cependant, tous les problmes d'optimisation ne se ramnent pas des problmes d'analyse
numrique matricielle et la thorie de l'optimisation mathmatique recense des classes de prob-
lmes importants pour lesquels on sera en mesure de fournir des rsultats thoriques en terme
de conditions ncessaires et/ou susantes sur l'existence de solutions ainsi que des algorithmes
pratiques performants permettant de les calculer.
Ce cours est donc essentiellement constitu de deux parties, traitant respectivement de d'anal-
yse numrique matricielle (et plus particulirement de la rsolution des systmes d'quations
linaires) et d'optimisation, avec un accent particulier mis sur l'optimisation convexe dont on a
voqu l'importance ci dessus. Pour ce qui concerne les prrequis, ce cours suppose acquis un
niveau de mathmatiques gnrales bac+2. Par ailleurs, des connaissances de bases en probabil-
its et en statistiques seront ncessaires pour apprhender certains des exemples prsents.
Les rsultats sont souvent justis de manire succinte et on pourra trouver des complments
utiles dans la littrature et sur le WEB. Chacune des parties analyse numrique et optimisation
possde sa propre bibliographie. Aussi, les numros de rfrence correspondent t'ils la bibli-
ographie de la partie concerne. Pour ce qui concerne la partie relative l'analyse numrique, la
rfrence [2] constitue une bonne rfrence en franais dans laquelle les principaux algorithmes
d'analyse numrique matricielle sont expliqus. La rfrence [3] constitue un outil trs utile pour
l'ingnieur qui doit implmenter des algorithmes. De nombreuses mthodes sont dtailles et les
implmentations en pseudo-code sont fournies. Notons que la rfrence [2] constitue une bonne
introduction l'analyse numrique de mme qu' l'optimisation, tout comme la rfrence [1].
Tout comme pour l'analyse numrique, il existe de nombreux ouvrages gnralistes et d'excel-
lente qualit sur l'optimisation, tels que [7], [8] ou [9]. Pour le cas important de l'optimisation
convexe, on pourra par exemple se rfrer [3], [4] ou [5].
HSCTDOC.blogspot.com
CHAPITRE 1. INTRODUCTION 11
Notations et Abrviations
[v]i , [M]ij lment d'indices i, ou (i, j), d'un vecteur ou d'une matrice
CHAPITRE 1. INTRODUCTION 12
O ensemble ouvert
Vx voisinage du point x
vect{(Xi )iI } espace vectoriel engendr par les combinaisons linaires nies des Xi
Chapitre 2
Un exemple introductif
Dans ce chapitre, on prsente un exemple introductif qui illustre un certain nombre de notions
sur lesquelles on reviendra dans les chapitres suivants. On y prsente, sous la forme d'un exercice
un exemple d'application qui met en oeuvre un certain nombre de concepts d'analyse numrique
matricielle et d'optimisation dans le cadre du traitement dterministe ou statistiques de signaux.
On suppose dans un premier temps que le ltre h est connu mais que le signal x est inconnu.
On cherche retrouver les valeurs de xn , . . . , xn+N partir de l'observation de y sur le mme
intervalle de temps, c'est dire l'observation de yn , . . . , yn+N .
Question 1 Ecrivez la relation matricielle qui lie le vecteur observ y = [yn , . . . , yn+N ]T
l'entre x et vriez que du fait de l'talement temporel introduit par le ltrage, elle fait intervenir
le vecteur [xnL , . . . , xn , . . . , xn+N ]T . Cette relation matricielle est dite sous-dtermine car elle
fait intervenir plus d'inconnues que d'quations. Indiquez la forme gnrale de l'ensemble des
solutions pour x = [xn , . . . , xn+N ]T en montrant qu'on peut la paramtrer par xnL , . . . , xn .
(Il s'agit d'un cas particulier d'un rsultat plus gnral connu sous le nom de thorme des
fonctions implicites.)
Rponse Les relations de convolution s'crivent
X
yn+k = hj xn+ki ,
j=0,L
13
HSCTDOC.blogspot.com
y = A1 x1 + A2 x2 .
hL hL1 . . . h1
0 hL . . . h2
yn
.. ..
xnL
yn+1 . . hL . . .
.
.. = 0 0 hL ..
.
0 xn1
yn+N
.. .
.
. .
0 ... 0
(2.2)
h0 0 ... 0
h1 h0 0 ... 0
..
xn
.
.
hL hL1 . . . h0
+ 0 ... 0 ..
0 h h . . . h 0 . . .
L L1 0 xn+N
..
. 0
0 ... 0 hL hL1 . . . h0
xnL
y = H0 ... + Hx, (2.3)
xn1
xnL
x = H1 [y H0 ... ]. (2.4)
xn1
intervenir une matrice triangulaire. Montrez que ce systme se rsoud simplement avec un faible
cot de calcul.
Rponse Lorsque xnL = . . . = xn1 = 0, la reprsentation (2.3) prend la forme plus simple
y = Hx, avec
h0 0 ... 0
h1 h0 0 ... 0
..
.
H = hL hL1 . . . h0
0 ... 0
0 hL hL1 . . . h0 0 . . .
..
. 0
0 ... 0 hL hL1 . . . h0
On voit alors que les systme d'quations se rsoud simplement de faon itrative puisqu'on a
alors
xn = yn /h0 ,
xn+1 = [yn+1 h1 xn ]/h0 ,
. (2.5)
.
.
Pmax{k,L}
xn+k = [yn+k i=1 hi xn+ki ]/h0 , pour k = 1, . . . , N.
On voit que le calcul de x rclame ici de l'ordre de 1 + 2 + 3 . . . + (N + 1) multiplications, soit
environ N 2 /2 oprations.
Question 3 Plus gnralement, on verra dans le cours qu'une matrice carre A inversible peut
s'crire sous la forme A = LU, o L et U sont respectivement triangulaire infrieure et trian-
gulaire suprieure. Vriez que A est inversible si et seulement si les diagonales de L et de U ne
contiennent pas de termes nuls. Dans ce cas, si L et U sont connues, indiquez comment on peut
rsoudre le systme d'quations y = Ax et donnez un ordre de grandeur du nombre d'oprations
que requiert cette rsolution. En fait, on verra que c'est la mise en forme LU de A qui reprsente
le cot de calcul prpondrant (de l'ordre de N 3 oprations).
Rponse |A| = |L| |U| = i=1,N Lii Uii . A est inversible si et seulement si |A| =
6 0, c'est
dire si les termes diagonaux de L et de U sont non nuls.
Si y = Ax et A = LU, alors y = L(Ux) et on voit en posant z = Ux que x peut tre calcul
en rsolvant successivement les deux systmes d'quations triangulaires y = Lz puis z = Ux, ce
qui demandera environ N2 oprations (en ne comptant que les multiplications).
Question 4 Reprenons notre problme de dpart et supposons que le signal x est constitu d'un
prambule, qui reproduit les derniers symboles de la squence xn , . . . , xn+N , c'est dire que l'on
HSCTDOC.blogspot.com
a
(xnL , . . . , xn1 ) = (xn+N L+1 , . . . , xn+N ). (2.6)
Ce genre de technique est utilise dans certaines mthodes de transmissions numriques, telle
l'OFDM (Orthogonal Frequency Division Multiplexing). Reformulez le problme sous forme ma-
tricielle et montrez que maintenant les inconnues xn , . . . , xn+N sont lies y par une relation
qui fait intervenir une matrice circulante, c'est dire que chaque ligne de la matrice se dduit
de la prcdente par une permutation circulaire. Montrez que les vecteurs propres d'une matrice
circulante sont les vecteurs de la transforme de Fourier discrte, c'est dire de la forme
Wk = [1, e2ik/(N +1) , e2i2k/(N +1) , . . . , e2iN k/(N +1) ]T /sqrtN + 1. (2.7)
On observe que C est une matrice circulante : on passe d'une ligne l'autre de la matrice par
permutation circulaire vers la droite de ses coecients.
En remarquant que e2ink/(N +1)P= e2i(nN 1)k/(N +1) , on vrie facilement que la tme com-
posante du vecteur CWk vaut [ p=0,L hp e2ipk/(N +1) ]e2itk/(N +1) . Finalement, on voit que
X
CWk = [ hp e2ipk/(N +1) ]Wk . (2.8)
p=0,L
CW = Wdiag(h),
HSCTDOC.blogspot.com
Ces relations ne font qu'exprimer le fait qu'en passant dans le domaine de Fourier l'opration de
convolution devient une simple multiplication.
Question 5 Supposons maintenant que le signal x soit connu et que l'on observe
L
X
ym = hk xmk + vm , m = n, n + 1, . . . , n + N, (2.10)
k=0
o les coecients du ltre h sont maintenant inconnus, et v est un bruit d'observation. Exprimez
la relation matricielle qui lie l'observation y au vecteur h = [h0 , . . . , hL ]T sous la forme y =
Xh + v.
Rponse On a clairement
yn xn xn1 . . . xnL vn
yn+1 xn+1 h0
xn . . . xn+1L
.. vn+1
= + , (2.11)
.. .
. . .
..
. .
hL
yn+N xn+N L xn+N L+1 . . . xn+N vn+N
Question 6 Supposons que N > L. Le systme comporte alors plus d'quations que d'inconnues ;
Il est dit sur-dtermin. Lorsque v est nul, il est clair que l'on obtient un systme d'quations
redondantes mais il n'est cependant pas vident de savoir a priori pour un systme sur-dtermin
quelles quations liminer pour se ramener un systme carr inversible (en supposant que la
matrice intervenant dans la relation initiale soit de rang plein). De plus, lorsque v 6= 0, le systme
y = Xh n'aura pas de solution en gnral du fait de la prsence de bruit qui introduit une erreur
de modlisation dans la description de y comme un lment de l'espace image de la matrice X.
HSCTDOC.blogspot.com
A dfaut d'une solution exacte, on cherche une solution approche et un critre naturel consiste
chercher la valeur de h pour laquelle le modle y = Xh est, en un certain sens, le moins
erron possible. Dans de nombreuses situations, on cherche minimiser la norme de l'erreur de
modlisation, c'est dire qu'on choisi pour h la grandeur
= yT y hT XT y yT Xh + hT XT Xh (2.13)
Rappelons maintenant que la minimisation d'une fonction drivable f d'une variable vectorielle
u Rn peut tre envisage en considrant la condition ncessaire fournie par l'annulation du
gradient de f au point o la fonction prend sa valeur minimale. Rappelons aussi que le gradient
de f est dni par
f f T
f = [ ,..., ] .
u1 up
La condition d'annulation du gradient de J(h) est donc donne par (XT X)h XT y = 0, soit
Les quations (XT X)h = XT y sont appeles les quations normales du critre des moindres
carrs k Xh y k2 .
HSCTDOC.blogspot.com
Remarque Une faon plus directe d'aboutir au rsultat consiste utiliser le thorme de pro-
jection qui indique en particulier que dans Rn la dirence entre un vecteur et sa projection or-
thogonale sur un sous espace vectoriel quelconque est orthogonale tous les lments de l'espace
sur lequel la projection est eectue. Ici, XhM C VX engendr
reprsente le vecteur de l'espace
par les colonnes de la matrice X qui est le plus proche de y. En d'autres termes XhM C est
la projection orthogonale de y sur VX . L'orthogonalit de y XhM C et de VX se traduit par
l'orthogonalit de y XhM C et des colonnes de X, qui forment une base de VX . Cela se traduit
par
XT [y XhM C ] = 0
et conduit directement la relation (2.15).
Question 7 Supposons maintenant que v soit un vecteur de loi connue : v N (0, v ). Donnez
la loi du vecteury et calculez l'estimateur du maximum de vraisemblance de h. Montrez l'intrt
de cet estimateur par rapport hM C dans le cas particulier o la matrice v est diagonale.
Que se passe t'il si v est proportionnelle la matrice identit ? Dduisez en une interprtation
statistique de hM C .
Rponse
hM V = (XT 1 1 T 1
v X) X v y. (2.16)
Question 8 Supposons enn que h n'est plus dcrit comme un paramtre inconnu mais comme
une variable alatoire de loi connue, appele loi a priori. On se place donc ici dans le cadre des
mthodes dites d'estimation bayesienne. On suppose que h N (0, h ). Calculez, en utilisant
la formule de Bayes, la densit de probabilitp(h|y), appele densit de probabilit de la loi a
posteriori, et donnez l'expression de l'estimateur du maximum de vraisemblance a posteriori
de h dni par
hM AP = arg max p(h|y). (2.17)
h
Rponse
1 1 T 1
hM V = (XT 1
v X + h ) X v y. (2.18)
HSCTDOC.blogspot.com
Premire partie
20
HSCTDOC.blogspot.com
Chapitre 3
Revenons rapidement sur les origines de la notion de matrice. On se limite ici au cas des espaces
vectoriels de type Rn , mme si l'extension de la prsentation Cn est immdiate.
Soit f une application de Rm dans Rn . Soient (ei )i=1,m une base de Rm et (ki )i=1,n une base de
Rn . On suppose que f est linaire, c'est dire que pour tous x1 , x2 Rm et a1 , a2 R,
Si on note X
f (ej ) = Aij ki ,
i=1,n
et que l'on reprsente les coecients Aij dans un tableau not A, de taille nm et appel
matrice, dont le terme qui se trouve l'intersection de la ime ligne et de la j
me colonne est
X X
x= xj ej et y= yi ki ,
j=1,m i=1,n
21
HSCTDOC.blogspot.com
P
f (x) = f ( j=1,m xj ej )
P
= j=1,m xj f (ej )
(3.1)
P P
= j=1,m xj [ i=1,n Aij ki ]
P P
= i=1,n [ j=1,m Aij xj ]ki .
P
Comme la reprsentation de y = f (x) sous la forme y= i=1,n yi ki est unique, la relation
X X X
y= yi ki = [ Aij xj ]ki
i=1,n i=1,n j=1,m
entrane que
X
yi = Aij xj , pour i = 1, . . . , n. (3.2)
j=1,m
On voit que yi s'exprime comme le produit scalaire des vecteurs [Ai1 , Ai2 , . . . , Aim ]T et x, ce qui
s'exprime classiquement par l'criture
x1
x2
yi = Ai1 Ai2 . . . Aim . . (3.3)
..
xm
Notons que souvent, lorsqu'il n'y a pas d'ambiguit sur les bases choisies on identie les vecteurs
x et y avec leurs reprsentations
x1 y1
x2 y2
et (3.5)
.. ..
. .
xm yn
dans ces bases et on note la relation (3.4) sous la forme compacte
y = Ax. (3.6)
HSCTDOC.blogspot.com
On a vu que la matrice A caractrise une application linaire f pour des bases xes des espaces
de dpart et d'arrive. On peut se demander comment l'expression de A se trouve modie lors
d'un changement de base.
Limitons nous ici au cas d'une application f de Rn dans Rn et supposons que A reprsente la
matrice de A n
pour la base (ei )i=1,n de R . Considrons une autre base de Rn , note (e0i )i=1,n et
0
notons A la reprsentation matricielle de f dans cette nouvelle base.
On va voir que la relation entre A et A0 peut tre exprime en fonction des relations de passage
de la base (ei )i=1,n la base (e0i )i=1,n . Posons
X
e0j = Pij ei . (3.7)
i=1,n
Dans la matrice P, de terme gnral Pij , la jme colonne contient donc les coecients du vecteur
e0j exprim dans la base (ei )i=1,n .
(3.8)
0 0
P P
v = i=1,n yi ei = i=1,n yi ei .
0 0
P P
i=1,n xi ei = j=1,n xj ej
0
P P
= j=1,n xj [ i=1,n Pij ei ] (3.9)
0
P P
= i=1,n [ i=1,n Pij xj ]ei .
0 x = Px0 .
P
Ainsi, xi =i=1,n Pij xj pour i = 1, . . . , n et donc De faon tout fait identique, on
peut tablir que y = Py .
0
Les reprsentations matricielles de la relation v = f (u) dans les deux bases s'crivent y = Ax
et y 0 = A 0 x0 . Mais la relation y = Ax associe aux relations x = Px0 et y = Py0 conduit
Py0 = APx0 ,
A0 = P1 AP.
Dans le cadre de la rsolution des systmes d'quations linaires, notons que le systme d'qua-
tions y0 = A0 x0 , o x0 est inconnue, peut tre plus simple rsoudre que le systme d'quations
HSCTDOC.blogspot.com
initial y = Ax. Comme on le verra plus loin, l'ide consistant mettre en vidence une reprsen-
tation quivalente d'un systme d'quations linaires pour laquelle la matrice mise en jeu est
simple (typiquement triangulaire ou diagonale) est la base de nombreuses mthodes d'analyse
numrique matricielle.
Exercice On considre l'application linaire donne dans la base canonique de R3 (repre or-
thonorm orient dans le sens direct), note (e1 , e2 , e3 ) par
1 2 0
A = 0 1 0 . (3.10)
2 3 1
On considre maintenant la nouvelle base de R3 dnie par e01 = e3 , e02 = e1 et e03 = e2 . Calculez
la matrice de passage P de la premire la seconde base et vriez que dans la nouvelle base on
obtient une matrice A0 triangulaire. Dduisez en l'expression du vecteur x tel que Ax = y pour
y = [1, 1, 1]T .
Etant donne une matrice A de coecients rels ou complexes, de terme gnral d'indice (i, j)
not Aij , on notera A = (Aij ). La transpose et conjugue hermitienne ou transpose-
conjugue de A sont dnies respectivement par
AT = (Aji ), et AH = (Aji ). (3.11)
Pour une matrice carre A, de taille n, rappelons maintenant la dnition de quelques matrices
particulires importantes
Les matrices hermitiennes et unitaires peuvent tre vues comme les analogues valeurs com-
plexe des matrices symtriques et orthogonales respectivement. Les matrices orthogonales (resp.
unitaires) sont celles dont les colonnes (ai )i=1,n forment une base orthonorme, c'est dire que
aTi aj = i,j (resp. aH
i aj = i,j , o i,j = 1 si i = j , et 0 sinon).
Notons que les matrices symtriques relles et complexes hermitiennes constituent des cas par-
ticuliers de matrices normales. De plus, les matrices symtriques (resp. hermitiennes) jouent un
rle important dans de nombreuses situations, en particulier en probabilit et en statistiques
puisque la matrice de covariance d'un vecteur alatoire rel X (resp. complexe), dnie par
RX = E[XXT ] E[X]E[X]T (resp. RX = E[XXH ] E[X]E[X]H ) est clairement symtrique
(resp. hermitienne).
HSCTDOC.blogspot.com
X
|A| = A(1),1 . . . A(n),n , (3.13)
Gn
o Gn reprsente l'ensemble des permutations de l'ensemble {1, . . . , n} dans lui mme, et la sig-
nature de la permutation , qui vaut +1 ou -1 selon que le nombre de permutations lmentaires
de deux coecients successifs qu'il faut raliser pour passer du vecteur (1, 2, . . . , n) au vecteur
((1), (2), . . . , (n)) est pair ou impair. Notons une proprit importante du dterminant :
AA1 = A1 A = I, (3.15)
Arrtons nous un instant sur cette formule. Pour calculer A1 , il faut multiplier n 1 termes
pour chacune des (n 1)! permutations de chacun des n2 termes de Com(A). Au total, on
2
obtient de l'ordre de n n! multiplications. Rappelons de plus que d'aprs la formule de Stierling,
n
n! = n e n 2n(1+(n)), avec limn (n) = 0. On dit que la complexit algorithmique du
calcul de l'inverse est exponentielle, c'est dire que le cot de calcul crot exponentiellement avec
la taille n du problme. En pratique, cela signie que pour des problmes mme de taille rduite
(pour n de l'ordre de quelques dizaines), un ordinateur puissant serait dans l'impossibilit de
complexit
calculer l'inverse d'une matrice en un temps raisonable. En fait, les algorithmes de
exponentielle sont considrs comme irralisables en pratique et on cherche gnralement des
algorithmes de complexit polynomiale. On verra qu'il est possible de raliser l'inversion
matricielle au moyen d'algorithmes dont la complexit est de l'ordre de n3 .
N 1 xn xTn
P
Appliquez cette formule au calcul itratif de l'inverse de la matrice n=1,N qui
reprsente l'estimateur empirique de la matrice de covariance d'un vecteur alatoire centr X,
associe une squence de vecteurs d'observation (xn )n=1,N . xn sont des ralisations in-
Si les
dpendantes de la matrice de covariance d'un vecteur alatoire X = au + B, o u est un vecteur
HSCTDOC.blogspot.com
connu,
2 I, calculez
a une amplitude inconnue, et B un vecteur de bruit de matrice de covariance B
lorsque N varie la formule itrative de l'estimateur du maximum de vraisemblance de a, not
a
N .
Un autre oprateur qui apparat souvent en calcul matriciel est l'oprateur de trace, dni par
X
T r(A) = Aii . (3.18)
i
Les valeurs propres de la matrice A sont les racines du polynme caractristique de A dni par
P (A) = |A I|. L'ensemble des valeurs propres de A dnit le spectre de la matrice A,
not [
Sp(A) = {i (A)} C. (3.19)
i=1,n
Comme on l'a vu au paragraphe 3.2, si A est une matrice carre de taille n, correspondant
l'expression d'une application linaire dans une base B = (x1 , . . . , xn ) et siB2 = (y1 , . . . , yn )
HSCTDOC.blogspot.com
reprsente une autre base, avec [y1 , . . . , yn ] = P [x1 , . . . , xn ], alors, l'expression de la transforma-
tion linaire dans la base B2 est A2 = P
1 AP. Le changement de base conduit donc factoriser
En analyse numrique, il est souvent utile de factoriser une matrice A sous la forme d'un produit
de matrices an d'obtenir des problmes plus simples rsoudre. C'est en particulier le cas,
comme on le verra, pour la rsolution des systmes d'quations linaires. Le paragraphe suivant
liste les principales factorisations de matrices utilises pour la rsolution des systmes d'quations
linaires, ou la dcomposition en valeurs propres.
Le thorme de Schur montre que pour une matrice A il est toujours possible de trouver un
changement de base unitaire, c'est dire pour lequel la matrice de changement de base P est
unitaire, tel que dans la nouvelle base la matrice soit triangulaire.
Notons dj qu'un des avantages des changements de base unitaires est que le facteur P1 qui
apparat dans la transformation se ramne simplement P
1 = PH , ce qui fournit sans calcul
l'inverse de P.
Thorme 1 (thorme de Schur) Soit A une matrice carre. Alors, il existe une matrice uni-
taire U telle que UH AU soit une matrice triangulaire.
Corollaire 1 Soit A une matrice normale. Alors, il existe une matrice unitaire U telle que
UH AU soit une matrice diagonale.
Lorsque A est une matrice non normale ou non carre, on peut cependant toujours trouver une
factorisation de A avec des matrices unitaires et une matrice diagonale. Simplement les facteurs
unitaires de droite et de gauche ne sont plus conjugus l'un de l'autre. L'obtention de cette d-
composition, appele dcomposition en valeurs singulires, provient du fait que les matrices
AAH et AH A sont hermitiennes. Elles admettent donc respectivement des dcompositions en
valeurs propres de la forme UDU
H et VD0 VH et on peut tablir que D = D0 et A = UDVH .
H
dcomposition QR : A = QR, Q Q = I, R triangulaire
HSCTDOC.blogspot.com
H
forme Schur : Q AQ = T (T triangulaire suprieure)
H
forme Hessenberg : Q AQ = T+ sous diagonale (T(i + k, i) = 0 pour k 2)
Notons que la forme Hessenberg constitue une forme particulire qui peut tre obtenue par
un calcul direct et sert l'initialisation des techniques itratives qui permettent de calculer la
dcomposition de Schur. On reviendra au chapitre IV sur les dcompositions LU , de Cholesky
et QR et sur les autres au chapitre VI.
Dans Rn , x et y par
on dnit le produit scalaire des vecteurs
X
< x, y >= yT x = xk y k . (3.23)
k=1,n
A ces produits scalaires, on peut associer le normes scalaires quadratiques et de Frobnius re-
spectivement, dnies par
q
k x k22 = xT x, et k A k2F = T r(AT A). (3.26)
X
k u kp = ( |ui |p )1/p (0 < p < ). (3.27)
On pourra vrier l'ingalit triangulaire pour la norme (encore appele ici ingalit de Minkowski)
titre d'exercice. Rappelons galement au passage l' ingalit de Hlder, qui gnralise l'in-
galit de Cauchy Schwarz : si p1 + q 1 = 1,
|yH x| k x kp k y kq . (3.28)
Pour les matrices, de taille n m, o Rm (resp. Cm ) est muni de la norme la et Rn resp. Cn ) est
muni de la norme lb on peut dnir des normes matricielles sous la forme
k Ax k2b
k A kab = sup = sup k Ax k2b (3.29)
x k x k2a x,kxka =1
HSCTDOC.blogspot.com
On notera simplement la norme k . kaa par k . ka . Bien sr, toutes ces normes sont quivalentes
puisqu'en dimension nie toutes les normes sont quivalentes (rappelons que deux normes sont
quivalentes si un facteur prs la premire est toujours infrieure la deuxime, et rciproque-
ment).
Pour des matrices carres, k.k dsignant une norme oprateur quelconque, on peut vrier que
k AB ka k A ka k B ka . (3.30)
Indiquons maintenant la forme prise par quelques unes des normes matricielles.
P
k A k1 = maxj i |Aij |
P
k A k = maxi j |Aij |.
3.5.1 Projection
Etant donn un sous espace vectoriel de Cn dont une base est donne par les vecteurs {A1 , . . . , Am },
la matrice de projection sur ce sous-espace s'exprime partir de la matrice A = [A1 , . . . , Am ]
par
A = A(AH A)1 AH . (3.32)
I A reprsente clairement le projecteur sur l'espace orthogonal celui engendr par les
colonnes deA, de sorte que tout vecteur x se dcompose sous la forme x = x A + x
A, avec
xA = A x Im(A) et x
A = (I A )x Im(A) .
La complexit d'un algorithme est dnie comme le terme dominant de la formule qui exprime
le nombre d'oprations raliser lorsque la dimension caractristique (par exemple la taille de la
matrice) du problme croit. Pour un problme de dimension n, on pourra dnir cette complexit
comme une grandeur (n) telle que
3.6.2 Conditionnement
Un problme sera dit bien conditionn lorsque sa solution variera peu lors d'une faible perturba-
tion de ses paramtres. Considrons plus particulirement le cas simple et qui nous intresse ici
des systmes d'quations linaires et prenons l'exemple des deux systmes dquations suivants
2x1 + 6x2 = 8 2x1 + 6x2 = 8
et (3.35)
2x1 + (6 + 10 5)x2 = 8 + 105 2x1 + (6 10 5)x2 = 8 + 2.105 .
On voit bien que la variation relative des paramtres entre ces deux systmes est trs faible
(infrieure 105 ) et que malgr cela les solutions obtenues sont trs loignes.
Exercice Expliquez gomtriquement pourquoi les solutions des deux systmes sont trs dif-
frentes.
(A + F)x() = b + f . (3.36)
On voit donc que la solution sera d'autant plus insensible aux erreurs relatives sur les paramtres
A et b que le paramtre K(A) =k A kk A1 k appel paramtre de conditionnement, ou
simplement conditionnement du systme sera faible. Notons que la valeur de K(A) dpend
de la norme choisie. Cependant, si on note K2 (A) la valeur du conditionnement obtenue pour la
norme k . k2 , on peut vrier que l'on a toujours K(A) K2 (A) 1.
Lorsque K(A) est grand, on dit que le systme est mal conditionn.
Exercice Vriez l'quation (3.38) et montrez que pour une matrice A hermitienne, K2 (A) =
max (A)/min (A).
HSCTDOC.blogspot.com
Chapitre 4
Dans ce chapitre, on reviend rapidement sur les notions de systmes d'quations sur-dtermins
et sous-dtermins, dj envisages au chapitre 2.
Par opposition un systme dit rgulier d'quations linaires Ax = b pour lequel la matrice
A est carre et inversible, auquel cas on a clairement x = A1 b, les systmes sur-dtermins et
les systmes sous-dtermins qui comportent plus de lignes que de colonnes ou au contraire plus
d'inconnues que d'quations ne permettent pas de trouver une solution exacte, ou au contraire
fournissent tout un sous espace vectoriel de solutions. On rappelle ici brivement les approches
classiques retenues dans ce genre de stuation. On se limite ici au cas rel. Le cas complexe se
traite de faon analogue et pourra tre envisag titre d'exercice.
Notons que la recherche des solutions envisage ici met en oeuvre quelques notions d'optimisation.
Ces notions seront dtailles dans la seconde partie du cours. Pour l'instant, il sut de savoir
qu'une condition d'optimalit ncessaire pour une fonction drivable d'une variable vectorielle
f (x) est fournie par l'annulation de son gradient f (x) aux points ou elle prend sa valeur
optimale. On pourra ici justier du caractre susant du critre d'optimalit f (x) = 0 en
invoquant le thorme de projection qui assure qu' tout vecteur v (resp. tout point M) de
Rn correspond un vecteur (resp. un point) unique de tout sous-espace vectoriel (resp. de tout
sous-espace ane) dont la distance v (resp. M) est minimale parmi l'ensemble des points du
sous-espace.
32
HSCTDOC.blogspot.com
est gnralement de rang plein, c'est dire ici de rang n. Compte tenu notament des erreurs de
mesures ou des imperfections du modle linaire utilis il est rare que les quations du systme
soient compatibles. En d'autres termes le systme d'quations Ax = b n'admet pas de solution.
An d'accder une valeur approche de x un critre naturel consiste rechercher le vecteur x
tel que la norme de l'erreur de reconstruction de b sous la forme Ax soit la plus faible possible.
En gnral, on considre la norme l2 qui a l'avantage de pouvoir tre interprte physiquement
comme une nergie, mais surtout qui conduit une solution qui se formule trs simplement. En
eet la solution de
min k Ax b k22 (4.1)
x
Finalement la solution fournie par la mthode des moindres carrs est donne par
Notons que mme lorsque les quations du systme ne sont pas incompatibles, la recherche de la
solution des moindres carrs reste utile pour caractriser la solution du systme lorsque m > n et
que A est de rang plein, car il n'est pas ncessaire ici de rechercher quelles quations redondantes
peuvent tre limines du systme pour se ramener un systme carr inversible.
Exercice Montrez que la solution des moindres carrs fournit l'estimateur du maximum de
vraisemblance de x pour un modle d'observation de la forme b = Ax+w, o w est un vecteur
alatoire gaussien dont les composantes sont dcorlles et de mme variance.
A1 x1 + A2 x2 = b, (4.4)
soitx1 = A1 1
1 b A1 A2 x2 . on voit donc que l'ensemble des solutions est l'espace ane de
dimension n m dni par
1
A1
n A1 b 1 A2 nm
E = u R |u = + y, y R . (4.5)
0 I
HSCTDOC.blogspot.com
Parmi toutes ces solutions, on est souvent amen choisir une solution particulire. On choisit
alors souvent de considrer la solution de norme minimale. On peut montrer que la solution du
systme Ax = b dont la norme quadratique est minimale est donne par
x = AT (AAT )1 b, (4.6)
Notons que la solution (4.6) est celle du problme d'optimisation sous contraintes
minx xT x
(4.7)
Ax = b.
Dans le cas gnral la matrice A du systme Ax = b n'est pas forcment de rang plein. On peut
se ramener un systme de rang plein de diverses faons. Ainsi, par exemple, la dcomposition
en valeurs singulires de A s'crit A = UDVH , o les matrices unitaires U et V sont de tailles
respectives m et n. Si A n'est pas de rang plein, certains des termes diagonaux de la matrice D
H
sont nuls. Considrons le systme quivalent DV x = UH b. La matrice D de taille mn se
rcrit sous la forme
D1 D1 0
D = D1 , D= , D = D1 0 , ouD = , (4.8)
0 0 0
o D1 est une matrice diagonale inversible de taille p. La matrice A est de rang plein si p =
min{m, n} ce qui correspond aux trois premirs cs de gure dcrits par les relations (4.8). En
notant U1 et V1 les matrices constitues des p premires colonnes de U et de V respectivement,
on voit clairement que les solutions des moindres carrs vrient
D1 V1H x = UH
1 b. (4.9)
Si n = p, x est dni de faon unique. Sinon, parmi les valeurs de x solutions de (4.9), on peut
montrer que l'approximation de norme minimale est donne par
x = V1 D1 H
1 U1 b. (4.10)
Exercice Vriez que la solution des moindres carrs de norme minimale est bien donne par
(4.10).
HSCTDOC.blogspot.com
On considre la matrice
A11 A12
A= . (4.11)
A21 A22
avec A11 inversible. On vrie facilement que
I A1
I 0 A11 0 11 A12
A= 1 . (4.12)
A21 A11 I 0 A22 A21 A1
11 A12 0 In
On suppose maintenant de plus que A22 est inversible. Le lemme d'inversion matricielle appliqu
au complment de Schur conduit
I A1
A1 = 11 A12
0 I
A1
11 0 I 0
.
0 A1 1 1 1 1
22 + A22 A21 (A11 A12 A22 A21 ) A12 A22 A21 A1
11 I
(4.14)
On peut galement vrier que Ces formules sont connues sous le nom de lemme d'inversion
matriciel.
Il peut arriver que dans un problme on cherche rsoudre partiellement un systme d'quations
linaires. Ainsi, si on considre le systme d'quations
A11 A12 x1 b1
= , (4.15)
A21 A22 x2 b2
et que l'on cherche simplement la solution pour x1 . On vriera titre d'exercice que
x1 = (A11 A12 A1 1 1
22 A21 ) (b1 A12 A22 b2 ). (4.16)
HSCTDOC.blogspot.com
Chapitre 5
for k=n:-1:1,
x(k) = (b(k)-T(k,k+1:n)*x(k+1:n))/T(k,k);
end;
On distingue deux types de mthodes directes : celles qui conduisent une factorisation de A sous
la forme A = LU, o les matrices L et U sont respectivement triangulaire infrieure et triangu-
laire suprieure (de l'anglais L comme 'lower' et U comme 'upper'), et celles de type A = QR
pour lesquelles la matrice Q est orthogonale (unitaire dans le cas complexe) et R est triangu-
laire suprieure. On vrie aisment qu'une telle criture constitue une orthogonalisation de
Gram-Schmidt des colonnes de A. En eet,
Dans la suite, on va dtailler les algorithmes qui permettent d'obtenir les dcompositions LU et
36
HSCTDOC.blogspot.com
QR
for k=1:n-1,
for l=k+1:n,
A(l,k:n) = A(l,k:n) - (A(l,k)/A(k,k))*A(k,k:n);
b(l) = b(l) - (A(l,k)/A(k,k))*b(k);
end
end
Notons que la k me boucle de l'algorithme revient multiplier gauche les deux membres du
systme courant par la matrice Mk qui possde des 1 sur sa diagonale et des zros partout
(k) (k)
ailleurs, sauf pour ses termes d'indice (k, l), lorsque l > k, pour lesquels [Mk ]kl = Alk /Akk .
On construit ainsi la suite de matrices
= 0 si k < l
Lkl = = 1 si k = l (5.3)
(k) (k)
= Alk /Akk si k > l,
HSCTDOC.blogspot.com
soit,
1 0 0 0
(1) (1) .. .
A21 /A11 . .
1 .
L=
. . .
(5.4)
. . ..
. . 0
(1) (1) (2) (2)
An1 /A11 An2 /A22 1
On a donc bien ralis la dcomposition LU de la matrice A, avec L triangulaire infrieure et
U triangulaire suprieure.
Comme on l'a vu prcdemment, la mthode de Gauss ne vaut que s'il n'y a pas de division par
(k)
0, c'est dire si la squence des coecients (Akk )k=1,n1 n'a pas de terme nul. En pratique,
(k)
si Akk a une valeur non nulle mais proche de 0, cela peut entraner des erreurs numriques qui
aectent de faon importante la solution obtenue.
o U est triangulaire suprieure. En fait, cette stratgie est appele pivot total, par opposition
une mthode plus simple, dite de pivot partiel, qui consiste simplement permuter les
lignes k n de la matrice pour venir remplacer la ligne k par la ligne j, avec j k, pour
(k)
laquelle le coecient |Alk | est maximum. Cette stratgie moins performante vis vis des erreurs
numriques est galement moins coteuse puisque le nombre de comparaisons entre coecients
eectuer est nettement plus faible.
procdure dont le cot de calcul est (n) = n3 /6. Notons de plus que la positivit de la matrice
A assure la stabilit de la mthode.
L = zeros(n,n);
L(1,1) = sqrt(A(1,1));
for k=1:n-1,
L(k+1:n,k) = (A(k+1:n,k) - L(k+1:n,1:k-1)*(L(k,1:k-1))')/L(k,k);
L(k+1,k+1) = sqrt(A(k+1,k+1)-L(k+1,1:k)*L(k+1,1:k)');
end;
La factorisation LDLT relativement proche permet d'viter la division par L2jj et les ventuels
problmes de stabibilit associs cette division. Elle s'crit
L1 aT1 d1 aT1
d1 1 0 d1 0
A= = (5.10)
L1 a1 An1 a1 I 0 An1 d1 a1 aT1 0 I
HSCTDOC.blogspot.com
Le conditionnement du systme Ax = b n'est donc pas aect par une transformation orthogo-
nale et il ne sera pas ncessaire de prendre de prcautions telles que la mthode du pivot vue dans
le cadre de la factorisation LU lorsqu'on triangularise le systme. On va maintenant indiquer
deux techniques importantes de triangularisation par orthonormalisation.
Hu x = k x k e1 , (5.13)
o [ek ]i = i,k et =k x k x k e1 k1
Ik1 0
Hk = k , (5.14)
0 H
o Ik1 est la matrice identit de taille k
k 1, et H une matrice de Householder de taille nk +1
qui annule les nk derniers termes de la colonne k de la matrice A
(k) . Ainsi,
(Hn1 . . . H1 )A = QT A = R, (5.15)
Au lieu d'essayer de construire des matrices qui liminent une sous colonne d'une matrice comme
s'tait le cas avec la mthode de Householder, on se limite ici l'limination d'un unique coef-
cient de la matrice chaque opration grce une rotation dans un sous espace de dimension
deux, appele rotation de Givens. L'avantage de cette approche rside dans le fait que pour
des matrices A creuses, c'est dire des matrices prsentant un grand nombre de coecients
nuls, le cot de calcul de la triangularisation de A peut devenir nettement plus faible que pour la
mthode de Householder. Pour un vecteur u (ui , uj ) dans le sous espace dni
de composantes
par les indices i et j , on considre la rotation Gij () qui agit dans ce sous espace et dont l'angle
est choisi de sorte annuler la composante de u selon la direction j . Le vecteur transform
v = Gij ()u est tel que
vi = cui suj
vj = Gij ()ui : vj = sui + cuj (5.16)
vk = xk k 6= i, j.
q
avec c = cos et s = sin . Pour tan = uj /ui , on aura vi = u2i + u2j et vj = 0.
(n) = 4n3 /3 2
P
On peut vrier facilement que la complexit de la mthode est de ( k (n k) ).
Q = eye(n,n);
R = A;
for k1=1:n-1,
for k2=n-1:-1:k1,
x = R(k2,k1);
y = R(k2+1,k1);
if y~=0 then
rho = sqrt(x^2+y^2);
Cos = x/rho;
Sin = y/rho;
R(k2,k1) = rho;
HSCTDOC.blogspot.com
R(k2+1,k1) = 0.0;
for u=k1+1:n,
R_aux = Cos*R(k2,u) + Sin*R(k2+1,u);
R(k2+1,u) = -Sin*R(k2,u) + Cos*R(k2+1,u);
R(k2,u) = R_aux;
end;
for v=1:n,
Q_aux = Cos*Q(v,k2) + Sin*Q(v,k2+1);
Q(v,k2+1) = -Sin*Q(v,k2) + Cos*Q(v,k2+1);
Q(v,k2) = Q_aux;
end;
end;
end;
end;
Dans cette procdure, chaque itration, on a A = QR avec la matrice R qui devient pro-
gressivement triangulaire, les rotations gauche appliques chaque tape la matrice R tant
cmpenses par des rotations droite en sens inverse appliques Q.
H
P
Pour comprendre cette procdure, notons que Zk = (I i=1,k1 Qi Qi )Ak . On pourra aisment
I i=1,k1 Qi QH
P
vrier que i est la matrice de projection sur l'orthogonal de l'espace engen-
dr par {Q1 , . . . , Qk1 }. Donc, comme vect{Q1 , . . . , Qk1 } = vect{A1 , . . . , Ak1 }, Zk apparat
comme la projection de Ak sur l'othogonal de vect{A1 , . . . , Ak1 }. De plus, Qk est simplement
une version normalise du vecteur Zk .
Notons pour nir que cette approche n'est pas trs stable numriquement et on lui prfre
gnralement une mthode de Gram-Schmidt modie [3].
HSCTDOC.blogspot.com
Chapitre 6
Les mthodes de rsolution itrative des systmes d'quations linaires consistent reprsenter
le systme d'quations sous la forme d'une quation matricielle rcurrente qui permet, partir
d'un vecteur initial x de construire une suite de vecteurs dont on espre qu'elle converge vers
la solution du systme. Plus prcisemment, pour le systme linaire d'quations Ax = b, si on
dcompose A sous la forme A = M N, il apparat que la solution x de Ax = b est galement
solution de Mx = Nx + b. En d'autres termes, x est un point xe de l'quation de rcurrence
pour laquelle x(0) est une valeur initiale xe quelconque. Bien sr, pour trouver x(t) connaissant
x(t1) , il serait souhaitable que l'inversion de M soit simple, ce qui conduit souvent choisir M
gale la partie diagonale ou la partie triangulaire, par exemple infrieure, de A. Ces choix
conduisent respectivement aux mthodes de Jacobi et de Gauss-Siedel.
Notons que si l'algorithme converge, la convergence on doit avoir Mx = Nx + b, et donc, par
dirence avec l'quation (6.1)
On voit donc que la convergence se traduit par le fait que les valeurs propres de la matrice
M1 N sont de modules infrieurs un. Cela permet d'obtenir les conditions de convergence
suivantes pour les algorithmes itratifs en gnral et les algorithmes de Jacobi et de Gauss Siedel
en particulier [2] :
l'algorithme (6.1) converge vers la solution de Ax = b si et seulement si les valeurs propres
de M1 N sont de modules infrieurs un.
Si k M
1 N k< 1, alors l'algorithme (6.1) converge vers la solution de Ax = b.
P
Si |Aii | > | j6=i |Aij |, i, la mthode de Jacobi converge.
T
Si A est symtrique dnie positive (A = A et A > 0), la mthode de Gauss-Siedel converge.
En pratique, la mthode de Jacobi peut prendre la forme du code suivant :
x = zeros(n,1);
43
HSCTDOC.blogspot.com
dA = diag(A);
A_ = -A+diag(dA);
for nb=1:nb_iter,
x = (A_*x +b)./dA;
end;
La mthode de Gauss-Siedel, quant elle, peut tre programme sous la forme suivante :
x = zeros(n,1);
for nb=1:nb_iter,
for k=1:nb_symb,
x(k) = x(k) + (-A(k,:)*x+b(k))/A(k,k);
end;
end;
Il est possible d'acclerer l'algorithme de Gauss-Siedel au moyen d'une technique dite de sur-
relaxation dont le fonctionnement gnral est dcrit ci dessous :
(t+1) P (t+1) P (t)
i
x = j<i Aij xj j>i Aij xj + bi
(6.3)
(t+1) (t+1) (t)
xi =
xi + (1 )xi
On peut montrer que si A est symtrique dnie positive la convergence est assure pour 0 <
< 2 et que la vitesse de convergence est optimale pour une valeur de comprise en un et deux.
HSCTDOC.blogspot.com
Chapitre 7
On s'intresse ici au problme du calcul pratique des valeurs propres d'une matrice. On verra
que le problme de la dcomposition en valeurs singulires est troitement li au prcdent. Il
n'existe pas en gnral de formule qui permette de calculer de faon exacte les valeurs pro-
pres d'une matrice puisque ce sont les racines de son polynme caractristique et que pour des
degrs suprieur 4 les racines quations polynmiales n'admettent pas en gnral de forme
explicite. Il faut donc mettre en oeuvre des techniques itratives pour obtenir la dcomposi-
tion en valeurs propre des matrices. Notons ici qu'en gnral on ne cherche pas les racines du
polynme caractristique pour trouver les valeurs propres d'une matrice mais qu'on travaillera
plutt sur la recherche d'un changement de base permettant d'obtenir une forme diagonale de
la matrice, ou du moins triangulaire (dcomposition de Schur). Pour justier de l'quivalence
entre les racines d'un polynme et les valeurs propres d'une matrice, notons que les racines du
polynme P (x) = a0 + a1 x + a2 x2 + . . . + an1 xn1 + xn concident avec les valeurs propres de
sa matrice companion, dnie par :
an1 an2 . . . a0
1 0 ... 0
0 1 0 ... 0
. (7.1)
..
.
0 ... 0 1 0
Exercice Vrier que les valeurs propres de la matrice (7.1) concident bien avec les racines de
P (x) = a0 + a1 x + a2 x2 + . . . + an1 xn1 + xn .
45
HSCTDOC.blogspot.com
On se limitera ci dessous au cas de matrices symtriques valeurs rlles. L'extension au cas des
matrices hermitiennes suppose la prise en compte d'un terme exponentiel complexe supplmen-
taire dans les matrices de rotation de Givens qui ne modie pas le principe de la dmarche.
La mthode repose sur l'emploi des rotations de Givens, dj rencontres dans le paragraphe sur
la dcomposition QR des matrices. Commenons par considrer une matrice symtrique 22
A11 A12
A= . (7.2)
A21 A22
et, en appliquant les notations du paragraphe 5.2.2, appliquons la rotation G12 () gauche de
A et G12 ()T = G12 () droite de A, on obtient, en prenant en compte la relation A12 = A21 ,
A11 A22
2 2 (7.3)
A11 cos () + A22 sin () A12 sin(2) A12 cos(2) +
2
sin(2)
A11 A22 .
A12 cos(2) + sin(2) A11 sin2 () + A22 cos2 () + A12 sin(2)
2
On voit donc que la matrice obtenue est diagonale ds lors que
A22 A11
cot(2) = . (7.4)
2A12
Exercice An de construire la matrice de rotation prcdente, montrer que cos() = (1 + t2 )1/2
et sin() = t(1+t2 )1/2 , o t est la racine de module infrieur ou gal 1 de t2 +( A22AA
12
11
)t1 = 0.
Plus gnralement, pour une matrice A de taille n on pourra appliquer successivement des
rotations droite et gauche dans les sous-espaces d'indice(i, j) an d'annuler les termes d'indice
(i, j) de la matrice. On vrie facilement que dans cette opration, la somme des carrs des termes
diagonaux est augmente de deux fois le carr du terme prcdemment situ en position (i, j).
Comme la norme de Frobenius de la matrice reste invariante par les transformations orthogonales
que sont les rotations de Givens, il apparat qu' chaque itration l'nergie hors diagonale dans
la matrice dcroit et que l'nergie de la diagonale crot d'autant.
On peut soit chaque itration chercher annuler le terme hors diagonal le plus grand (mthode
de Jacobi classique), soit balayer successivement chaque composante hors diagonale (mthode de
jacobi cyclique), par exemple colonne par colonne. En pratique, on n'excute la rotation que si
l'amplitude du terme diagonal considr reste suprieure un certain seuil. On peut tablir la
convergence de la mthode de Jacobi [2].
while test>seuil,
[test,ind] = max(abs(D-diag(diag(D))));
p = ind(1); // (p,q): indices du terme hors diagonal \`a \'eliminer
q = ind(2);
coef = (D(q,q)-D(p,p))/(2*D(p,q));
t = - coef + sqrt(coef^2+1);
Cos = 1/sqrt(1+t^2);
Sin = t*Cos;
// rotation a gauche sur D
Daux = D(p,:);
D(p,:) = Cos*D(p,:) - Sin*D(q,:);
D(q,:) = Sin*Daux + Cos*D(q,:);
// rotation a droite sur D
Daux = D(:,p);
D(:,p) = Cos*D(:,p) - Sin*D(:,q);
D(:,q) = Sin*Daux + Cos*D(:,q);
// rotation a droite sur V
Vaux = V(:,p);
V(:,p) = Cos*V(:,p) - Sin*V(:,q);
V(:,q) = Sin*Vaux + Cos*V(:,q);
end;
On va voir qu'il est particulirement intressant, pour calculer les valeurs propres d'une matrice
A de se ramener la forme Hessenberg de la matrice qui consiste appliquer un changement de
base orthonorme de telle sorte que la nouvelle matrice, note H soit tridiagonale, c'est dire
telle que [H]ij = 0 pour |i j| > 1. La factorisation de Hessenberg est obtenue simplement
en appliquant une suite de rotations de Givens droite et gauche de la matrice A.
Cette dcomposition s'applique aussi bien aux matrices symtriques qu'aux matrices carres
quelconques. On obtient nalement une reprsentation de A sous la forme A = UTriVT , o
Tri est une matrice tridiagonale. Dans le cas o A est symtrique, cette reprsentation devient
simplement A = UTriUT .
Voici un exemple de programme permettant d'obtenir la forme Hessenberg dans le cas d'une
matrice carre quelconque par la mthode des rotations de Givens. Dans le cas symtrique, la
HSCTDOC.blogspot.com
procdure se simplie du fait que U=V et la matrice Tri est galement symtrique.
U = eye(n,n);
V = eye(n,n);
Tri = A;
for p=1:n-2
for q=n:-1:p+2
// traitement de la partie sous-diagonale
if abs(Tri(q,p))>0,
rho = sqrt(Tri(q-1,p)^2+Tri(q,p)^2);
Cos = Tri(q-1,p)/rho;
Sin = -Tri(q,p)/rho;
// rotation a gauche sur Tri
Taux = Tri(q-1,:);
Tri(q-1,:) = Cos*Tri(q-1,:) - Sin*Tri(q,:);
Tri(q,:) = Sin*Taux + Cos*Tri(q,:);
// rotation a droite sur U
Uaux = U(:,q-1);
U(:,q-1) = Cos*U(:,q-1) - Sin*U(:,q);
U(:,q) = Sin*Uaux + Cos*U(:,q);
end;
// traitement de la partie sur-diagonale
if abs(Tri(p,q))>0,
rho = sqrt(Tri(p,q-1)^2+Tri(p,q)^2);
Cos = Tri(p,q-1)/rho;
Sin = -Tri(p,q)/rho;
// rotation a droite sur Tri
Taux = Tri(:,q-1);
Tri(:,q-1) = Cos*Tri(:,q-1) - Sin*Tri(:,q);
Tri(:,q) = Sin*Taux + Cos*Tri(:,q);
// rotation a droite sur V (a gauche sur V')
Vaux = V(:,q-1);
V(:,q-1) = Cos*V(:,q-1) - Sin*V(:,q);
V(:,q) = Sin*Vaux + Cos*V(:,q);
end;
end;
end;
Tri = Tri.*(abs(Tri)>1.0e-10);
Exercice Dans le cas o la matrice A est symtrique, Simplier le programme scilab prcdent.
Il existe plusieurs situations o il est utile d'exploiter la forme Hessenberg de la matrice A, en
particulier pour la ralisation des dcompositionsen valeurs propres. Ainsi, pour une matrice
symtrique, la forme Hessenberg peut tre exploite pour calculer plus rapidement les valeurs
propres de la matrice A par la mthode de Jacobi. Dans le cas gnral, la forme Hessenberg
permet d'initialiser la mthode itrative base sur la dcomposition QR prsente ci dessous
pour le calcul de la dcomposition de Schur de la matrice.
HSCTDOC.blogspot.com
Soit A une matrice diagonalisable. La mthode des puissances permet de calculer un vecteur
propre associ la valeur propre de module le plus lev de faon itrative : partir d'un vecteur
initial u0 , on construit itrativement la suite de vecteurs
Aun
un+1 = , (7.5)
k Aun k
qui converge vers un vecteur propre associ la valeur propre de module le plus lev. On peut
s'en convaincre en exprimant Aun en fonction de la dcomposition en valeurs propres de A.
En fait, cette mthode peut se gnraliser pour construire une matrice de vecteurs propres comme
limite asymptotique d'une suite de matrice. La procdure itrative est rsume ci dessous :
Zn+1 = AQn
(7.6)
Qn+1 Rn+1 = Zn+1 ( dcomposition QR).
QHn AQn converge vers la dcomposition de Schur de A. Cet algorithme ncessite de l'ordre de
n3 oprations par itration.
Cependant, ce cot de calcul peut tre rduit en utilisant la forme Hessenberg H de la matrice A
dcrite plus haut. Une fois la forme Hessenberg obtenue la complexit numrique des itrations
la dcomposition de Schur se trouve rduite. La proccdure s'crit ainsi
= QH
H0 0 AQ0 (initialisation : forme Hessenberg )
Hk1 I = Qk Rk (dcomposition QR ) , (7.7)
Hk = Rk Qk + I
(k)
o est un coecient qui permet d'acclerer la vitesse de convergence. En eet, si on note i
la ime valeur propre obtenue l'itration k , alors on peut montrer que
i+1 () k
(k)
|(i ) i | . (7.8)
i ()
La suite des formes Hessenberg calcules converge vers la matrice triangulaire T de la forme
2
Schur. Le cot de calcul de chaque itration est maintenant de l'ordre de n oprations dans le
cas gnral et de seulement n oprations si A est symtrique ou hermitienne car alors H0 est
alors une matrice tridiagonale.
Pour une matrice carre A, il existe une matrice orthogonale Q telle que QH AQ = T avec T
triangulaire suprieure. La reprsentation de A sous la forme QTQH est appele dcomposition
HSCTDOC.blogspot.com
Une mme valeur propre peut dnir plusieurs matrices blocs Jk . Notons que le nombre d'oc-
curences d'une valeur propres dans J correspond son degr comme solution du polynme
caractristique de A. Donc, si les valeurs propres sont distinctes A est diagonalisable puisque les
blocs dgnrent alors en matrices de taille 1.
Exercice Montrez que si A est normale, alors elle est diagonalisable dans une base orthonorme.
Rappelons que pour la matrice A, il existe toujeours deux matrices unitaires, U et V telles que
H
la matrice U AV soit diagonale et valeurs positive. Les valeurs diagonales de A sont appelees
valeurs singulires de A.
Notons que si A = UDVH , alors
On voit donc que les valeurs singulires de A sont les racines carres des valeurs propres de
AAH (et de AH A). De plus, U et V sont les matrices de vecteurs propres de AAH et de AH A
respectivement.
Ainsi, on peut par exemple dcrire facilement le projecteur sur un espace vectoriel S = vect{x1 , ., xp }
HSCTDOC.blogspot.com
Comme on l'a vu, on peut galement formuler aisment la rsolution des systmes linaires
d'quations sur-dtermins et sous-dtermins partir de la dcomposition en valeurs singulires
de la matrice A.
Autre intrt de la dcomposition en valeurs singulires, elle peut tre employe pour approximer
une matrice par une matrice de rang plus faible. Ce type d'approximation peut tre exploite,
par exemple, en traitement d'images. Etant donne une matrice A on cherche la matrice B de
rang r0 , infrieur au rang de A telle que k A B k2F = T r[(A B)(A B)H ] soit minimale. La
solution est fournie par le rsultat suivant :
Matrices symtriques
Pour une matrice symtrique positive, la dcomposition en valeurs singulires est quivalente
et pour une matrice symtrique non positive, on passe trs facilement d'une forme l'autre (le
vrier titre d'exercice). Dans le cas d'une matrice symtrique, on pourra chercher acclerer
la vitesse de convergence de la mthode de Jacobi en commenant par se ramener forme
Hessenberg et en exploitant les spcicits du cas symtrique dans la dmarche prsente ci
dessous pour le cas de matrices carres quelconques.
Matrices quelconques
Notons d'abord qu'on pourrait obtenir la dcomposition en valeurs singulires d'une matrice A
T
quelconque en ralisant les dcompositions en valeurs propres des matrices symtriques AA et
T
A A. On peut cependant procder de faon plus directe, comme on va le voir.
rotations de Givens transforme la matrice en une matrice triangulaire suprieure qui possde des
termes non nuls sur les deux premires sur-diagonales. On reviend une matrice tridiagonale
en liminant la deuxime sur-diagonale (termes d'indices (i, i + 2)) par une squence de n2
rotations de Givens appliques droite. On applique alors de mme une technique d'limination
de la premire sur-diagonale de A par une squence de n1 rotations de Givens appliques
droite suivie de l'limination des termes de la deuxime sous-diagonale au moyen de n2
rotations de Givens.
En partant de la forme Hessenberg A = UTriVT , cela peut se traduire par un code de la forme
suivante :
D = Tri;
while max(abs(D-diag(diag(D))))>1.0e-15,
// Reduction de la 1ere // sous-diagonale
for p=1:n-1,
if abs(D(p+1,p))>1.0e-15,
rho = sqrt(D(p,p)^2+D(p+1,p)^2);
Cos = D(p,p)/rho;
Sin = -D(p+1,p)/rho;
// rotation a gauche sur D
Daux = D(p,:);
D(p,:) = Cos*D(p,:) - Sin*D(p+1,:);
D(p+1,:) = Sin*Daux + Cos*D(p+1,:);
// rotation a droite sur U
Uaux = U(:,p);
U(:,p) = Cos*U(:,p) - Sin*U(:,p+1);
U(:,p+1) = Sin*Uaux + Cos*U(:,p+1);
end;
end;
// traitement de la 2eme // sur-diagonale
for p=1:n-2,
if abs(D(p,p+2))>1.0e-15,
rho = sqrt(D(p,p+1)^2+D(p,p+2)^2);
Cos = D(p,p+1)/rho;
Sin = -D(p,p+2)/rho;
// rotation a droite sur D
Daux = D(:,p+1);
D(:,p+1) = Cos*D(:,p+1) - Sin*D(:,p+2);
D(:,p+2) = Sin*Daux + Cos*D(:,p+2);
// rotation a droite sur V (a gauche sur V')
Vaux = V(:,p+1);
V(:,p+1) = Cos*V(:,p+1) - Sin*V(:,p+2);
V(:,p+2) = Sin*Vaux + Cos*V(:,p+2);
end;
end;
// traitement de la 1ere // sur-diagonale
for p=1:n-1,
HSCTDOC.blogspot.com
if abs(D(p,p+1))>1.0e-15,
rho = sqrt(D(p,p)^2+D(p,p+1)^2);
Cos = D(p,p)/rho;
Sin = -D(p,p+1)/rho;
// rotation a droite sur D
Daux = D(:,p);
D(:,p) = Cos*D(:,p) - Sin*D(:,p+1);
D(:,p+1) = Sin*Daux + Cos*D(:,p+1);
// rotation a droite sur V (a gauche sur V')
Vaux = V(:,p);
V(:,p) = Cos*V(:,p) - Sin*V(:,p+1);
V(:,p+1) = Sin*Vaux + Cos*V(:,p+1);
end;
end;
// traitement de la 2eme // sous-diagonale
for p=1:n-2,
if abs(D(p+2,p))>1.0e-15,
rho = sqrt(D(p+1,p)^2+D(p+2,p)^2);
Cos = D(p+1,p)/rho;
Sin = -D(p+2,p)/rho;
// rotation a gauche sur D
Daux = D(p+1,:);
D(p+1,:) = Cos*D(p+1,:) - Sin*D(p+2,:);
D(p+2,:) = Sin*Daux + Cos*D(p+2,:);
// rotation a droite sur U
Uaux = U(:,p+1);
U(:,p+1) = Cos*U(:,p+1) - Sin*U(:,p+2);
U(:,p+2) = Sin*Uaux + Cos*U(:,p+2);
end;
end;
end;
D = D.*(abs(D)>1.0e-15);
On pourrait bien sr rduire la longueur de ce code en ralisant par exemple les rotations dans
une fonction spcique, mais les appels cette fonction peuvent rduire la vitesse d'execution.
Notons galement qu'on a suppos ici que la matrice A est carre. On peut toujours se ramener
ce cas, au besoin en compltant la matrice A par des lignes ou des colonnes nulles, mme si
d'un point de vue pratique, il vaut mieux aner l'criture de l'algorithme pour viter d'alourdir
les calculs et de stockage entrans une telle compltion de la matrice A par des 0.
HSCTDOC.blogspot.com
Bibliographie
[3] G.H. Golub, C.F. Van Loan, Matrix Computation, The John Hopkins University Press, 1989.
[4] S.A. Teulkoski,W.T. Vetterling,B.P. Flannery, Numerical Recipes in C : the Art of Scientic
Computing, W.H.Press, Cambridge University Press.
54
HSCTDOC.blogspot.com
Deuxime partie
Introduction
aux oprateurs linaires
55
HSCTDOC.blogspot.com
Chapitre 8
Introduction
L'objectif de cette partie est d'tendre la notion de matrice au cas de transformations linaires
sur des espaces de dimension innie. Lorsqu'on considre des fonctions dnies sur des espaces
vectoriels de dimension innie (c'est dire qui admettent des familles innies de vecteurs linaire-
ment indpendants), on parle d' oprateur plutt que de fonction, mme s'il s'agit au fond de
la mme chose ; simplement, il est un peu plus commode de parler d'un oprateur dni sur un
espace de fonctions que d'une fonction dnie sur un espace de fonctions.
On se limite ici une prsentation des oprateurs sur des espaces de Hilbert. Les espaces
de Hilbert gnralisent la notion d' espace hermitien, un espace hermitien tant un espace
vectoriel de dimension nie sur le corps des complexes muni d'un produit scalaire. Les espaces
hermitiens constituent eux mme une gnralisation au cas complexe des espaces euclidiens
qui eux sont dnis sur le corps des rels. Un des intrts des espaces de Hilbert rside dans le fait
que les proprits gomtriques usuelles des espaces euclidiens ou hermitiens s'y transposent, ce
qui contribue faciliter la rsolution de nombreux problmes et en fournir une interprtation
gomtrique simple.
56
HSCTDOC.blogspot.com
Chapitre 9
Espaces de Hilbert
9.1 Dnition
Rappelons tout d'abord qu'un produit scalaire hermitien x, y < x, y > sur un espace
vectoriel E sur le corps des nombres complexes est une application de E E dans C caractrise
par les proprits suivantes qui gnralisent celles du produit scalaire euclidien :
d(x, y) =k x y k= < x y, x y >. (9.1)
Un espace de Hilbert est un espace vectoriel norm H, complet et muni d'un produit scalaire
hermitien qui induit la norme de H. Rappelons ici que par dnition H est complet si toute suite
de Cauchy (xn )nN de H, c'est dire telle que limm,n k xm xn k= 0, est convergente.
Exemples
l2 2
P
(i) L'espace des suites x = (xk )kN telles que kN |xk | < est un espace de Hilbert pour
le produit scalaire hermitien dni par
X
< x, y >= xk yk . (9.2)
kN
57
HSCTDOC.blogspot.com
ds lors que l'on identie les fonctions gales presque partout par rapport la mesure de Lebesgue,
c'est dire gales partout sauf ventuellement sur un ensemble de mesure nulle par rapport la
mesure de Lebesgue, car < f, f >= 0 f = 0 p.p.
On retrouve pour le produit scalaire dans les espaces de Hilbert des proprits analogues
celles du produit scalaire classique. Ainsi, le thorme de projection se gnralise aux espaces de
Hilbert :
Thorme 2 Si K est un sous ensemble convexe ferm d'un espace de Hilbert H, alors
x H, !y K, k x y k= inf k x z k . (9.4)
zM
Z
2 2
L (PY ) = h; h(Y ) (, A, P ), |h(y)| PY (dy) < (9.6)
Dnition 1 Une famille F = (k )kK de H, avec K ni ou dnombrable, est dite libre si toute
sous famille de taille nie de F est une famille libre. F est une famille orthonorme de H si ses
lments vrient
< k , l >= k,l . (9.9)
3. k ck k converge si et seulement si
2
P P
k |ck | <
4. Si x = k ck k , alors ck =< x, k >.
P
Preuve (1)(5)P: Si x =
P P
k=1 xk P
k et y = k=1 yk k , la continuit du produit scalaire donne,
n n
en notant x
n = x
k=1 k k et y
n = y
k=1 k k :
n
X
< x, y >= lim < x
n , yn >= lim xk yk , (9.10)
n n
k=1
Pn Pn
(4)(3) : k x k=1 < x, k > k k=k x k k=1 | < x, k > |2 et le terme de droite de
l'galit tend vers 0.
Pn Pn
(3)(2) : k=1 < x, k > k x et k=1 < x, k > k = 0, donc x = 0.
P P
(2)(1) : i, < x k < x, k > k , i >= 0 x = k < x, k > k .
Exercice Montrer que si (n )nN et (n )nN sont des bases de L2 ([a, b]), alors les fonctions
(mn )m,nN , avec mn = m n forment une base de L2 ([a, b] [a, b]).
Un espace de Hilbert H est dit sparable s'il possde une famille nie ou dnombrable d'lments
qui est dense dans H.
Notons que tous les espaces de Hilbert ne sont pas sparables. Ainsi, les fonctions dnies sur
R par t 7 eit , avec R forment une famille orthonorme non dnombrable pour le produit
scalaire Z T
1
< f, g >= lim f (t)g(t) dt (9.12)
T 2T T
et engendrent donc un espace de Hilbert non sparable. Comme en gnral on s'intresse cepen-
dant essentiellement aux espaces de Hilbert sparables, les bases mises en oeuvre seront nies ou
dnombrables.
9.4.2 Projection
9.4.3 Isomtrie
Notons en particulier que tout espace de Hilbert sparable de dimension innie est isomtrique
l2 A : H l2 x=
P
: l'application associe k=1 < x, k > k la suite (< x, k >)kN de ses
coecients. Notons que les coecients < x, k > sont appels coecients de Fourier de x
associs la base (k )k .
Remarque Parfois, on utilise plutt l'isomtrie de H avec l2 (Z), l'ensemble des suite indices
par Z dont les carrs sont absolument sommables. Ceci est utile en particulier pour identier les
R
fonctions x de L2 ([1/2, 1/2]) la suite de leurs coecients de Fourier xk = x(t)e2ikt dt,
avec k Z.
HSCTDOC.blogspot.com
Chapitre 10
Oprateurs linaires
k Ax k
k A k= sup = sup k Ax k . (10.1)
kxk kxk kxk1
Notons que la norme d'un oprateur ainsi dnie dnit eectivement une norme sur l'espace
vectoriel L(H1 , H2 ) des oprateurs linaires de H1 dans H2 .
Si k A k< , l'oprateur est dit born. Comme en dimension nie, la linarit entrane une
quivalence entre le caractre born d'un oprateur et son caractre continu :
62
HSCTDOC.blogspot.com
Les espaces de Hilbert sparables de dimension innie tant isomtriques, on peut les identier.
Considrons donc maintenant un oprateur born A de H dans lui mme. Comme
P
Ax = j < x, j > Aj
(10.2)
P P
= j < x, j > ( i < Aj , i > i )
on a X
[Ax]i = < Aj , i >< x, j > . (10.3)
j
On voit donc que l'oprateur A peut tre reprsent par la matrice de taille innie de coecient
gnral (i, j) gal < Aj , i >. Notons que selon que la base est indice par N ou par Z, on
obtiendra respectivement une matrice "innie vers la droite et vers la gauche" ou "doublement
innie".
Exemple On considre Z b
Ax = k(t, s)x(s)ds, (10.4)
a
dni sur L2 ([a, b]). En utilisant l'ingalit de Cauchy Schwarz, il apparat que
Z
k A k |k(t, s)|2 dsdt. (10.5)
[a,b][a,b]
A est donc born ds lors que k L2 ([a, b]2 ). Dans ce cas, la matrice associe A est de terme
gnral Z
aij = |k(t, s)|2 i (s)j (t) dsdt =< k, ji >, (10.6)
[a,b][a,b]
o ij (s, t) = i (s)j (t) , est parfaitement dnie. Comme (ij )ij est une base de L2 ([a, b]2 ), il
est clair que les coecients aij sont de carrs absolument sommables :
X X
|aij |2 = | < k, ji > |2 =k k k2 < (10.7)
ij ij
Les notions d'image et de noyau d'un oprateur linaire sont dnies exactement comme en
dimension nie. Lorsque Im(A) est un espace de dimension n nie, on dit que A est de rang n.
Exemple
P Si 1 , . . . , n et 1 , . . . , n sont des familles de H1 et de H2 respectivement, l'oprateur
n
x 7 k=1 < x, k > k est de rang ni, au plus gal n. Rciproquement, on a le rsultat suivant :
Thorme 9 (Riesz) Toute forme linaire borne : H C est caractrise par un unique
lment y H tel que
(x) =< x, y >, x H (10.9)
De plus, k k=k y k.
(x) (x)
x=y + (x y ), (10.10)
(y) (y)
car la relationy = v(v) / k v k2 entrane que (y) =k y k2 . L'unicit de y provient du fait que
0 0 0
si y vrie galement (x) =< x, y > pour tout x, alors < x, y y >= 0 en particulier pour
0 0 0
x = y y . Par suite k y y k= 0 et y = y . Enn, k k=k y k d'aprs l'ingalit de Cauchy
Schwarz, ce qui achve la dmonstration du thorme de reprsentation de Riesz.
Comme k : x 7< Ax, k > est une forme linaire borne, on peut encore crire d'aprs le
thorme de reprsentation de Riesz que k (x) =< x, k > pour un certain lment k de H1 ,
d'o le rsultat.
Z
y(t ) = x(s)gt (s + ) ds. (10.15)
R
Bibliographie
[3] I. Gohberg, S. Golberg, M. A. Kaashoek, Basic classes of linear operators, Birkhuser, 2003.
66
HSCTDOC.blogspot.com
Troisime partie
Interpolation et intgration
67
HSCTDOC.blogspot.com
Chapitre 11
Interpolation et intgration
11.1 Introduction
En gnral, l'intgrale sur un intervalle [a, b] d'une fonction g(x) est approche en considrant
l'intgration exacte d'un approximant polynomial de cette fonction. Aussi, nous allons envisager
ici quelques aspects classiques de l'interpolation polynomiale et de l'intgration. Notons qu'en
posant f (x) = g( a+b ba
2 + 2 x), avec x [1, 1] on transfert le problme de l'interpolation ou de
l'intgration sur [a, b] en un problme analogue sur l'intervalle [1, 1]. Ainsi, dans la suite, on se
restreindra sans perte de gnralits des fonctions dnies sur [1, 1].
Les formules de quadrature classiques sont connues pour assurer l'intgration exacte des fonctions
polynomiales jusqu' un degr au moins gal ` n 1, o n reprsente le nombre de points,
ou noeuds, de la quadrature. Nous allons montrer qu'en d'autres termes cela signie que la
quadrature
Z n
X
f (x)dx wk f (xk ) (11.1)
[1,1] k=1
est dnie de sorte assurer l'intgration exacte de l'interpolant de Lagrange de f aux points
xk .
An de prciser les choses, commenons par rappeler ici la notion d'interpolant polynomial de
Lagrange d'une fonction. Etant donns n points xk (k = 1, . . . , n) on dnit les polynmes
68
HSCTDOC.blogspot.com
suivants :
w(x) = k=1,n (x xk )
wk (x)
lk (x) = wk (xk )
Il est clair que lk (xk ) =1 et lk (xj ) =0 pour xj 6= xk : lk (xj ) = k,j .
Etant donne une fonction f (x) dnie sur [1, 1] il est alors clair que le polynme de degr n
qui passe par les points (xk , f (xk ))k=1,n est donn par
n
X
fn (x) = lk (x)f (xk ). (11.3)
k=1
Dans ces conditions, il apparat que l'emploi d'un interpolant polynomial de Lagrange calcul
sur des points rgulirement espacs pour approcher l'intgrale d'une fonction f via l'intgration
de cet interpolant ne conduit pas de bons rsultats.
Cela ne signie cependant pas qu'on ne puisse pas utiliser d'approximant polynomial pour in-
tgrer une fonction de faon prcise. En eet, le thorme de Weierstrass indique que pour
toute fonction f continue sur [1, 1], si Pn reprsente l'ensemble des polynmes de degr infrieur
ou gal n, alors il existe une squence (qn )nN , avec qn Pn , telle que [7]
Une faon d'obtenir une telle suite de polynmes consiste considrer des interpolants de La-
grange de f (x) xk irrgulirement espacs. Plus prcisemment, si on choisit
dnis en des points
(n)
pour n x des points (xk )k=1,n tels que lorsque n augmente ces points soient asymptotiquement
distribus dans [1, 1] selon la densit suivante [2]
1
(x) = , (11.5)
1 x2
alors, la suite correspondante des interpolants de Lagrange converge uniformment vers f sur
[1, 1].
HSCTDOC.blogspot.com
Z 1 Z 1 n Z
X 1
f (x)dx fn (x)dx = lk (x)dx fn (xk ). (11.6)
1 1 k=1 1
Pn
Comme fn (xk ) = f (xk ), les poids de la quadrature k=1 wk f (xk ) qui assurent une quadrature
exacte de l'interpolant de Lagrange sont donns par
Z 1
wk = lk (x)dx. (11.7)
1
Z 1 n
X
xm dx = wk xm
k , m = 0, . . . , n 1, (11.8)
1 k=1
soit
1 1 ... 1 w1 a1
x1 x 2 ... x n
w2 a 2
.. = .. , (11.9)
.. .
.
.
.
. . . . .
xn1
1 x n1
2 ... x n1
n wn an
avec
1
1 (1)k
Z
ak = xk1 dx = . (11.10)
1 k
On vrie que pour des points xk rgulirement espacs la matrice prcdente est mal condi-
tionne et que l'amplitude des coecients wk est trs uctuante. L'amplitude des oscillations
des coecients wk augmente d'ailleurs exponentiellement avec n [2]. Ce mauvais comportement
numrique limite l'ordre de quadrature envisageable pour la mthode de Newton-Cotes et en pra-
tique, on la met souvent en oeuvre en dcoupant l'intervalle [1, 1] en plusieurs sous-intervalles
et en appliquant la quadrature de Newton Cotes avec un petit nombre de noeuds sur chacun
d'eux. De plus, compte tenu de la mauvaise qualit de l'approximation fournie par l'interpola-
tion polynomiale pour un chantillonnage rgulier (phnomne de Runge), on comprend que la
quadrature de Newton-Cotes qui est base sur cette approximation fournisse des rsultats assez
mdiocres. On donne ci dessous un programme Matlab simple pour raliser la quadrature de
Newton-Cotes. On pourra y vrier l'inuence de la valeur de n sur les poids
x = linspace(-1,1,n); % noeuds
M = flipud(vander(x)'); % matrice de VanderMonde de calcul des poids
w = inv(M)*((1-(-1).^(1:n))./(1:n))'; % poids
I = f(x)*w % calcul de l'intgrale par la mthode
% de Newton Cotes
On peut chercher corriger les eets du phnomne de Runge associ au choix de noeuds rgulire-
ment espacs pour le polynme d'interpolation de Lagrange d'une fonction en considrant une
rpartition irrgulire des noeuds xk . Les mthodes de Gauss, bases sur le choix de noeuds de
quadrature gaux aux zros de polynmes orthogonaux constituent un choix appropri. On se
limitera ici au cas des polynmes orthonorms sur [1, 1] dnis par
Z 1
pn (x)pm (x)dx = m,n , (11.11)
1
avec pn de degr n, et qui dnissent les polynmes de Legendre. Ceux ci se caractrisent de
diverses manires [10]. On peut en particulier dnir les versions non normaliss de ces polynmes
au moyen de la rcurrence trois termes suivante :
p0 (x) =1
p1 (x) =x (11.12)
Preuve Comme les paramtres de la quadrature satisfont aux quations (11.9), il apparat qu'elle
est exacte pour tout polynme de degr infrieur ou gal n 1. Maintenant, tout polynme
q(x) de degr infrieur ou gal 2n 1 pourra s'crire
X X
q(x) = ak xk + pn (x)( bl xk ). (11.13)
k=0,n1 l=0,n1
puisque les xj sont les zros de pn . Donc, la quadrature de Gauss-Legendre est encore exacte
pour la seconde intgrale du terme de droite de l'galit (11.14), ce qui termine la dmonstration.
Indiquons ici qu'une valuation approche des poids peut tre obtenue partir de la formule
suivante ([4] p.89)
4(n k) 1 n1 4(n k) 1 1
xk = cos + cot( ) + o( ) , k = 1, . . . , n. (11.16)
4n + 2 8n3 4n + 2 n4
Ces valeurs des noeuds peuvent ventuellement tre amliores par un algorithme de Newton de
recherche des zros de pn (x) et initialis successivement par chacune des valeurs xk de la relation
(11.16).
Le programme suivant utilise l'approximation prcdente et pourra tre employ pour mettre en
vidence le meileur comportement de la mthode de Gauss-Legendre compar la mthode de
Newton-Cotes.
Il s'agit cependant ici d'une criture sous-optimale du programme objectif purement pda-
gogique. Ainsi, on vriera que lorsque n augmente, le conditionnement de la matrice M se
dgrade, ce que l'on peut tester avec la commande Matlab 'cond(M)'.
Il est tabli dans la littrature que la rcurrence (11.12) permet d'obtenir les noeuds et les poids
comme solution d'un problme de valeurs propres d'une matrice tridiagonale [6], pour un cot
HSCTDOC.blogspot.com
de calcul de l'ordre de O(n2 ) oprations. Sans entrer dans le dtail de cet algorithme, indiquons
que sa mise en oeuvre conduit au code suivant propos dans [8] et dont on pourra comparer la
bonne robustesse celle du programme prcdent :
On pourra vrier qu' la dirence de ce que l'on observe avec la mthode de Newton-Cotes la
dispersion des valeurs des poids crot lentement avec n. Avec ce code, on vrie que l'erreur de
quadrature dcroit rapidement vers le bruit de calcul lorsque n augmente.
Notons enn que la mthode de Gauss Legendre se gnralise pour des intgrales sur des in-
tervalles semi-innis au moyen des polynmes de Laguerre et pour des intgrales sur R au
moyen des polynmes d'Hermite [1].
nk
xk = cos( ), k = 1, . . . , n. (11.17)
n1
On notera, pour n grand, la ressemblance des poids de Gauss-Legendre (Eq. (11.16)) avec ceux
de Clenshaw-Curtis. Gentleman [5] a montr que les poids peuvent tre obtenus par transforme
de Fourier rapide, et donc avec un cot de calcul de O(n.log2 (n)), contre O(n2 ) oprations pour
calculer les paramtres de Gauss-Legendre [6]. Ceci explique l'intrt port la mthode de
Clenshaw-Curtis qui fournit donc pour un cot de calcul nettement moindre une quadrature de
HSCTDOC.blogspot.com
prcision souvent comparable celle de Gauss-Legendre. Le code Matlab suivant, propos dans
[8] implmente la mthode de calcul des poids de [5].
Indiquons pour terminer que pour les mthodes prcdentes il est possible d'exprimer de faon
prcise l'erreur lie la quadrature. Pour une quadrature sur n points qui est exacte pour les
polynmes de degr infrieur ou gal M et une fonction f, au moins m fois continuement
drivable, avec m M, on peut montrer que la fonction d'erreur de quadrature, note E(f ), est
donne par ([4], p. 218)
R1 Pn
E(f ) = 1 f (x)dx k=1 wk f (xk )
(11.18)
R1 (m+1) (x)K (x)dx,
= 1 f m
Bibliographie
[1] M. Abramowitz and I.A. Stegun. Handbook of Mathematical Functions with Formulas,
Graphs, and Mathematical Tables. Dover, New York, ninth dover printing, tenth gpo printing
edition, 1964.
[2] J.P. Berrut and L.N. Trefethen. Barycentric lagrange interpolation. SIAM rev., pages 501
517, 2004.
[3] A.R. Curtis C.W. Clenshaw. A method for numerical integration on an automatic computer.
Numer. Math. 2, pages 197205, 1960.
[4] P.J. Davis and P. Rabinowitz. Methods of Numerical Integration. N.Y. : Academic Press,
1975.
[5] W.M. Gentleman. Implementing clenshaw-curtis quadrature, i- computing the cosine trans-
formation. Communications of the ACM, 15(5) :337342, Feb. 1972.
[6] G.H. Golub and J.H. Welsch. Calculation of gauss quadrature rules. Math. Comp., 23 :221
230, 1969.
[8] L.N. Trefethen. Is gauss quadrature better than clenshaw-curtis ? SIAM Rev., Society for
Industrial and Applied Mathematics, 50(1) :6787, 2008.
75
HSCTDOC.blogspot.com
Quatrime partie
Optimisation
76
HSCTDOC.blogspot.com
Chapitre 12
Introduction
Lorsqu'on cherche rsoudre un problme de la forme inf vUad f (v), on parlera de problme
d'optimisation contraint lorsque U est un sous ensemble particulier inclu dans le domaine de
dnition de f . Si Uad concide avec le plus grand domaine sur lequel on peut dnir f on parlera
de problme d'optimisation non contraint.
On s'intresse dans cette partie des problmes d'optimisation continue, variables relles ou
complexes, de forme gnrale
minx f (x)
(12.1)
fi (x) 0 i = 1, . . . , m.
Le problme (12.1) consiste rechercher les valeurs de x qui minimisent f (x) dans l'ensemble
des contraintes U = {x; fi (x) 0 i = 1, . . . , m}. Notons qu'une contrainte d'galit de la forme
fi (x) = bi peut toujours se reformuler dans ce contexte par les ingalits fi (x) bi 0 et
fi (x) + bi 0. Dans la suite, on sera cependant souvent amen distinguer les situations de
contraintes de type ingalit et de type galit.
minx 21 xT Qx + xT r
Ax = b (12.3)
Gx h
o Q est une matrice symtrique positive et u v signie que uk vk pour chaque composante
des vecteurs u et v, sont appels programmes quadratiques. En prsence de contraintes
d'ingalit, l'obtention de la solution est gnralement moins directe qu'avec les seules contraintes
d'galit. Dans ce dernier cas on dispose d'une forme analytique directe du problme tandis que
dans le premier il faut faire appel des algorithmes itratifs d'optimisation.
77
HSCTDOC.blogspot.com
Lorsque les fonctions f et (fi )i=1,m sont linaires, le problme est appel problme de program-
mation linaire. Il existe des algorithmes performants pour rsoudre ce genre de problme,
mme si le nombre d'oprations raliser n'est pas bien matris en gnral. Notons galement
qu'il peut tre un peu plus dlicat d'identier un problme de programmation linaire qu'un
problme d'optimisation quadratique. Ainsi, la minimization de la norme l1 de
P Ax b, dnie
par f (x) =k Ax b k1 = i |Ai x bi |, o Ai reprsente ici la i-me ligne de la matrice A peut
se reformuler sous la forme du programme linaire suivant :
P
mint i ti
ti 0 i = 1, . . . , m
(12.4)
A x bi ti 0 i = 1, . . . , m
i
Ai x + bi ti 0 i = 1, . . . , m.
Pour un problme pour lequel le critre f ou certaines des contraintes (fi )i=1,m ne sont pas
linaires, on parlera d'un problme de programmation non linaire. Une dicult essentielle
du problme d'optimisation (12.1) dans le cas non linaire rside dans fait que des conditions
ncessaires bien connues d'optimalit telles que l'annulation de la drive (du gradient dans le
cas d'une fonction de plusieurs variables) ne permettent gnralement que d'tablir l'optimalit
locale d'une solution.
Il existe une exception remarquable ce fait qui est celui de l' optimisation convexe pour
lequel les fonction f et (fi )i=1,m sont convexes. Dans ce cas, non seulement on est en mesure de
caractriser la nature globale d'optima locaux, mais de plus, il existe des algorithmes performants
de recherche de telles solutions. En particulier, les mthodes de point intrieur, galement
utilises en programmation linaire, ou les mthodes de plans scants, orent une solution
performante pour l'optimisation de problmes d'optimisation convexe. En fait, la dicult essen-
tielle des problmes d'optimisation convexe rside souvent dans la dicult que l'on peut avoir
identier le problme tudi comme un problme convexe.
Si, comme on l'a indiqu, pour un problme d'optimisation non convexe il est souvent facile de
caractriser des optima locaux ds lors que l'on dispose d'hypothses de rgularit, telle que la
direntiabilit, sur les fonctions mises en jeux, on ne pourra pas en gnral trouver d'algorithme
qui assure la convergence vers un optimum global. On verra cependant que l'utilisation des
rsultats de l'optimisation convexe peuvent tre utiliss pour fournir des approximations souvent
intressantes de la solution.
Pour le problme minuU f (u) Les conditions d'optimalit dpendent de la nature de U. Pour
les conditions ncessaires, on peut citer les conditions suivantes qui seront dveloppes dans les
chapitres suivants :
quations d'Euler : f 0 (u) = 0
0
inquations d'Euler : f (u)(v u) 0
multiplicateurs de Lagrange lorsque U = {v; fk (v) = 0, k = 1, m}
conditions de Kuhn et Tucker lorsque U = {v; fk (v) 0, k = 1, m}.
Les conditions susantes font souvent appel la convexit de f pour l'optimalit globale et plus
simplement au comportement de la drive seconde de f au voisinage de u pour l'optimalit
locale.
Outre l'tude des conditions d'optimalit on se penchera sur les aspects algorithmiques de la
HSCTDOC.blogspot.com
recherche d'optima. Pour les problmes sans contraintes, on considrera en particulier les algo-
rithmes de relaxation, de Newton, du gradient ou du gradient conjugu. Pour les problmes avec
contraintes, on envisagera la possibilit d'extension des mthodes sans contraintes ainsi que des
algorithmes gnralistes tels que les mthodes d'Uzawa, les mthodes de plans scants ou encore
les mthodes de points intrieurs. L'algorithme du simplexe important pour le cas particulier de
la programmation linaire sera galement prsent.
Le chapitre 9 prsente quelques rappels de calcul direntiel sur lesquels reposent les conditions
d'optimalit dveloppes par la suite. Le chapitre 10 traite des conditions d'optimalit pour les
problmes non contraints et le chapitre 11 des algorithmes classiques pour traiter ce type de
problmes. Le chapitre 12 traite des conditions d'optimalit pour les problmes contraints et le
chapitre 13 des algorithmes correspondants. Le cas particulier de la programmation linaire est
abord au chapitre 14.
Les version antrieures de ces notes de cours s'inspiraient en particulier de [6] o l'optimisation
est aborde sous un angle trs gnral. Pour l'optimisation avec contraintes, la version actuelle
emprunte plus la prsentation de [8] qui traite de faon allge, quoi que rigoureuse, la thorie
pour des problmes dans les espaces de type Rn . Pour les algorithmes, [9] et [4] constituent
galement des rfrences intressantes. Les autres rfrences indiques constituent galement
des sources d'information enrichissantes. Les notes de cours [5] ou le livre [10] constituent des
rfrences plus approfondies sur la notion de convexit.
HSCTDOC.blogspot.com
Chapitre 13
13.1 Introduction
Les conditions d'existence d'optima locaux pour les problmes contraints ou non contraints font
intervenir les drives d'ordres un et deux de la fonction optimiser. Ainsi, la condition de drive
nulle est la base d'une mthode importante, la mthode de Newton, qui sera tudie plus loin.
On fait ici quelques rappels concernant la drivation dans des espaces gnraux car la variable
vis vis de laquelle on eectue l'optimisation peut tre une fonction. C'est le cas par exemple
lorsqu'on cherche la surface d'aire minimale qui s'appuye sur un contour x de R3 , auquel
cas la variable recherche est la fonction qui dcrit cette surface. Dans ce chapitre, on va donc
dvelopper un formalisme gnral pour la notion de drivation. Pour xer les ides, le lecteur
pourra considrer le cas particulier d'espaces X et Y tels que X = Rn et Y = Rm . On se limitera
d'ailleurs ce cadre dans les chapitres suivants.
k Ax kY
A L(X, Y ), k A k= sup = sup k Ax kY . (13.1)
xX k x kX xX, kxkX 1
L(X, Y ) est complet si Y est complet. Dans l'ensemble L2 (X, Y ) des applications bilinaires
continues de X X dans Y, la norme est dnie par
k A(x1 , x2 ) kY
A L2 (X, Y ), k A k= sup . (13.2)
x1 ,x2 X k x1 kX k x2 kX
80
HSCTDOC.blogspot.com
13.3 Drivation
Soit a O. La drive en a, lorsqu'elle existe, est dnie par f 0 (a) L(X, Y ) telle que
Si f 0 (a) existe, elle est unique. Remarquons que f 0 (a)h est une notation simplie pour f 0 (a)(h),
0
c'est dire la valeur prise par l'application linaire f (a) en h.
Exercices.
1) Si f (x) = B(x, x), o B est bilinaire et continue, monrer que
2) Calculez le gradient de f dnie sur Rn par f (x) = xT Ax. Que devient cette formule lorsque
A est symtrique ?
Si
f : O X Y = Y1 . . . Ym ; x 7 f (x) = [f1 (x), . . . , fm (x)]T , (13.7)
f : O X = X1 . . . Xn Y ; x 7 f (x) (13.9)
X
f 0 (a)h = k f (a)hk , (13.11)
k=1,n
HSCTDOC.blogspot.com
X
j hi (a) = k gi (b)j fk (a) i = 1, m j = 1, n, (13.17)
k=1,m
ou encore h = f g .
Notons que les espaces L(X, L(X, Y )) et L(X X, Y ), encore not L2 (X, Y ), sont isomorphes,
c'est dire que l'on peut passer de l'un l'autre au moyen d'une transformation linaire bijective.
f 00 (a) dnit donc une application bilinaire continue de X X dans Y . On montre de plus que
cette application bilinaire est symtrique, c'est dire que f 00 (a)(k, h) = f 00 (a)(h, k). Pour
le calcul pratique des drives secondes, remarquons
00
que f (a)(h, k) est la drive en a de
x f 0 (x)k, applique au point h.
Pn
f 00 (a)(h, k) = i,j=1 hi kj f
00 (a)(e , e )
i j
(13.20)
Pn
= i,j=1 hi kj i,j f (a).
Les vecteurs ei de la base canonique sont dnis par [ei ]k = i,k . La matrice 2 f , de terme
2
gnral [ f (a)]ij = ij f (a) est appele matrice hessienne, ou hessien de f au point a.
Ainsi,
f 00 (a)(h, k) = kT 2 f (a)h. (13.21)
Les formules de Taylor qui permettent d'obtenir des approximations polynomiales locales des
fonctions exprimes partir de leurs drives successives et sont utiles pour justier certaines
conditions d'optimalit prsentes au chapitre suivant. Mme si les preuves des conditions d'op-
timalit ne seront pas dveloppes pour la plupart il est intressant de comprendre les notions
auxquelles elles se rattachent, ce qui motive ce paragraphe. On pourra par exemple trouver la
dmonstration des formules de Taylor dans [2, 6]
La gnralisation aux dimensions suprieures n'est pas directe. Pour s'en convaincre on peut par
exemple considrer la fonctionf (t) = [cos t, sin t]T , sur [0, 2].
HSCTDOC.blogspot.com
Soit
f :O X Y, avec [a, a + h] O. (13.23)
Chapitre 14
Des critres portant sur les drives premire et seconde ou la convexit de f permettent d'obtenir
des conditions ncessaires mais aussi des conditions susantes d'optimalit et de prciser le
caractre minimum ou maximum d'un extremum, voir mme de prciser si c'est un optimum
conditions
global. Les conditions portant sur la drive premire sont classiquement appeles
du premier ordre et celles portant sur les drives secondes conditions du second ordre.
14.1 Dnitions
14.1.1 Optimalit
Si v U , f (u) f (v), on parlera alors de minimum global. Un extremum local est encore
appel extremum relatif et un extremum global est encore appel extremum strict.
Lorsque sur un voisinage point Vu {u} de u on a f (u) < f (v), v Vu {u}, on dit que u
est un minimum local strict de f.
85
HSCTDOC.blogspot.com
Fonctions continues
Pour des fonctions dont la valeur tend vers l'inni lorsque k u k , et dnies sur Rn tout
entier on a un rsultat analogue :
Fonctions drivables
Pour les fonctions drivables, on peut prciser une condition ncessaire pour qu'un point donn
de U soit un optimum local.
Dmonstration Supposons par exemple que f est un minimum en un point u. Soit h un vecteur
x et g(t) = f (u + th). g doit tre minimale en 0. Donc, pour t > 0, (g(t) g(0))/t > 0 et
g(t) g(0)
lim = g 0 (0) > 0, (14.4)
t0 h
et de mme, pour t < 0, (g(t) g(0))/t < 0 et
g(t) g(0)
lim = g 0 (0) < 0. (14.5)
t0 h
Donc nalement, f 0 (u)h = g 0 (0) = 0. Cette relation tant vrie pour tout h x, on a f 0 (u) = 0.
Dans le cas o le domaine de dnition de f n'est pas forcment un ouvert, on a une condition
ncessaire d'optimalit plus gnrale :
[f (u )]T d 0. (14.6)
De la mme faon que le dveloppement de Taylor au premier ordre permet d'exprimer une con-
dition ncessaire d'optimalit, le dveloppement de Taylor au second ordre permet de complter
ce rsultat pour les fonctions deux fois drivables, en prcisant le caractre minimal ou maximal
de l'optimum considr.
2. [f (u )]T d = 0 et dT 2 f (u )d 0.
Notons que la condition ncessaire du thorme 16 n'est pas susante, comme on peut le voir
par exemple pour la fonction f : R R, f (v) = v 3 au point v = 0.
HSCTDOC.blogspot.com
d Rn , dT [2 f (v)]d 0, (14.8)
Remarque On voit que la deuxime partie de l'nonc est rendue ncessaire car la condition
(14.7) n'est plus valable pour = 0. En eet, il sut pour s'en convaincre de considrer la
fonction f : R R, f (v) = v 4 en 0.
L'objectif est ici de rappeler les dnitions et proprits de base associes la convexit et montrer
qu'elles permettent de prciser le caractre global d'un optimum. Ce caractre global d'optimaux
locaux constitue probablement la proprit la plus remarquable des fonctions convexes.
14.4.1 Dnitions
Dnition 3 On dit qu'un ensemble U est convexe si pour x, y U le segment [x, y] est dans
U , c'est dire que
x, y U, [0, 1], x + (1 )y U. (14.9)
Les sous espaces vectoriels et les boules ouvertes ou fermes sont des exemples d'ensembles
convexes.
HSCTDOC.blogspot.com
Notons que la dnition de la convexit d'une fonction est gnralement associe (comme s'est
ici le cas pour notre dnition) la convexit de son ensemble de dnition. C'est en eet dans
ce cadre que les proprits des fonctions convexes sont les plus riches.
On dit que f est concave si f est convexe. Les rsultats suivants permettent de caractriser la
convexit pour des fonctions une ou deux fois drivables.
Les thormes suivant permettent de caractriser la convexit des fonctions partir de proprits
de leurs drives premire et seconde.
Ce thorme indique que le graphe d'une fonction convexe se trouve au dessus des tangeantes en
chacun de ses points.
Notons que la rciproque de la dernire implication est fauss, comme on l'a vu dans l'exemple de
la remarque la n du paragraphe 14.3 (prendre par exemple f : R R, f (v) = v4 , en v = 0).
Les diverses proprites des fonctions convexes nonces plus haut permettent de vrier la con-
vexit d'une fonction donne. Notons qu'il n'est pas toujours ais de vrier qu'une fonction est
eectivement convexe. On pourra dmontrer la convexit des fonctions suivantes titre d'exer-
cice.
X
f (x) = Ax + b avec A 0, k x k, max xi , log( xi ), (i=1,n xi ). (14.13)
i=1,n
i=1,n
Dans le cas des fonctions convexes, l'ingalit d'Euler f 0 (u)d 0, pour toute direction admissible
d devient simplement
f 0 (u)(v u) 0, v U. (14.14)
De plus, le thorme suivant montre le fait remarquable que dans le cas convexe le caractre nces-
saire de cette condition d'optimalit est galement susant. Le caractre susant ne ncessite
pas ici de faire intervenir explicitement de condition du second ordre. Cela est bien comprhen-
sible car les conditions susantes d'optimalit du second ordre dcrites au pagraphe 14.3 sont
implicitement satisfaites par la convexit de la fonction f d'aprs le thorme (19). Le caractre
global des optima locaux dans le cas convexe est galement mis en vidence par le thorme
suivant :
Si f est strictement convexe, elle admet un minimum au plus, et c'est alors un minimum strict.
u comme minimum du critre des moindre carrs tudi dans le cadre de l'analyse numrique
matricielle.
On va maintenant s'intresser des fonctions convexes particulires que sont les fonctions quadra-
tiques coercive et leurs extensions que constituent les fonctions elliptiques. Les fonctions ellip-
tiques prsentent l'avantage de pouvoir tre optimises aux moyens d'algorithmes d'optimisation
itratifs gnraux qui seront dcrits au chapitre suivant.
Fonctions quadratiques
Soitf (v) = (1/2)vT Av vT b, avec A est dnie positive, c 'est dire que > 0, A I.
2
Alors, il est clair que f est strictement convexe puisque f = A > 0. f admet donc un minimum
global unique.
Fonctions elliptiques
Dnition 5 Une fonction f : U R, avec U convexe, est dite elliptique si f est continuement
drivable
> 0, u, v U, (f (v) f (u))T (v u) k v u k2 . (14.15)
Bien entendu, la fonction quadratique f (v) = (1/2)vT Av vT b, avec A > 0 est elliptique.
Notons que parfois cette dnition ne suppose pas la convexit de U, que l'on rajoute alors
comme hypothse dans le thorme suivant qui montre que l'ellipticit est une proprit trs
forte, impliquant en particulier la convexit :
Thorme 21 1. Si f est elliptique, elle est strictement convexe et coercive, avec de plus
, u, v U, f (v) f (u) + f (u)T (v u) + k v u k2 . (14.16)
2
HSCTDOC.blogspot.com
2. Si U est non vide et ferm, et f elliptique, le problme f admet une solution unique.
3. f , deux fois drivable, est elliptique si et seulement si
Bien entendu, du fait de sa convexit une fonction elliptique bbcie en particulier de toutes
les proprits dvellopes au paragraphe 14.4. Notons de plus que la proprit (14.16) est une
proprit quivalente la proprit de convexit forte[5] qui est dnie par
, u, v U, [0, 1] f (u+(1)v) f (u)+(1)f (v)+ (1) k vu k2 . (14.18)
2
HSCTDOC.blogspot.com
Chapitre 15
15.1 Introduction
uk+1 = uk + k dk , (15.1)
Les dirents algorithmes prsents ci dessous seront essentiellement caractriss par leur direc-
tion de descente.
93
HSCTDOC.blogspot.com
Face au problme du choix d'une direction de descente, une stratgie simple consiste considrer
itrativement chaque axe de coordonnes comme direction de dplacement. On cherche alors
minimiser la fonction vis vis de chacune de ses composantes itrativement puis rpter la
procdure jusqu' la convergence de l'algorithme qui est obtenue lorsque la valeur du critre f
n'volue plus.
Ainsi, l'itration k , partant d'un point courant uk = (uk,1 , . . . , uk,n ), on calcul successivement
uk+1,1 = arg minv f (v, u0,2 , . . . , u0,n ), uk+1,2 = arg minv f (uk+1,1 v, u0,3 , . . . , u0,n ),. . . , uk+1,n =
arg minv f (uk+1,1 , . . . , uk+1,n1 , v). On ritre ensuite l'opration en partant de uk+1 = (uk+1,1 , . . . , uk+1,n ).
On verra dans le cadre de l'optimisation sous contraintes que si U 6= Rn , ce rsultat n'est plus
vrai en gnral.
Dans le cas d'un critre f quadratique la mthode de relaxation conduit simplement la rso-
lution d'un systme linaire par la mthode de Gauss-Seidel, prsente dans le cadre de la
rsolution des systmes d'quations linaires. Aussi, la mthode de relaxation est encore parfois
appele mthode de Gauss-Seidel, mme quand f n'est pas une fonction quadratique.
On suppose ici que f est drivable. Le dveloppement au premier ordre de f conduit donc
T
f (uk + w) = f (uk ) + f (uk ) w+ k w k (w), (15.3)
avec limw0 (w) = 0. Il apparat donc qu'en posant w = k f (uk ), avec k w k susamment
petit et k > 0, on a f (uk + w) f (uk ), et f (uk ) est bien une direction de descente. Ainsi,
on obtient la forme gnrale de l'algorithme du gradient qui s'crit :
Pas optimal
k Auk b k2
k = . (15.6)
(Auk b)T A(Auk b)
Quel peut tre l'intrt de l'algorithme du gadient par rapport une inversion directe des qua-
tions normales ?
D'autres stratgies, moins couteuses, mais conduisant gnralement un plus grand nombre
d'itrations, consistent choisir un pas constant ou un pas dcroissant.
Lorsqu'on norme le gradient chaque itration, on dispose d'un rsultat de convergence intres-
sant (voir par exemple [9]) :
Thorme 24 Pour un algorithme du gradient dont la suite des pas k dcroit vers 0, avec
X
lim k = 0, et k = +, (15.7)
k
k=0,
Convergence
Notons que la premire condition n'est autre que la condition d'ellipticit, tandis que la seconde
nonce la caractre Lipshtzien
1 du gradient f qui indique que le gradient ne doit pas varier
trop rapidement.
f = @(x,y) 50*(y-x^2)^2+(1-x)^2;
grad_f = @(x,y)[-200*x*(y-x^2)-2*(1-x); 100*(y-x^2)];
pt = [-2; 9]; % initialisation
pt_min = [1; 1]; % point o le critre est minimum
nb_iter = 1000;
err = norm(pt-pt_min);
for k=1:10000,
x = pt(1);
y = pt(2);
g = [-200*x*(y-x^2)-2*(1-x); 100*(y-x^2)]; % gradient du critre
pas = 1/k^0.5;
pt = pt - pas*g/(norm(g)+eps);
err = [err norm(pt-pt_min)];
end;
plot(err)
15.4.1 Principe
1
f (v) = f (u) + f (u)T (v u) + (v u)T [2 f (u)]T (v u)+ k v u k2 (v u), (15.11)
2
avec limw0 (w) = 0, l'approximation quadratique
1
f(v) = f (u) + f (u)T (v u) + (v u)T [2 f (u)]T (v u), (15.12)
2
sera optimale au point v tel que f(v) = 0, c'est dire pour f (u) + 2 f (u)T (v u) = 0. En
posant uk = u et uk+1 = v, on obtient l'expression de l'algorithme de Ne wton :
Pour rester dans les conditions de validit de l'approximation quadratique, c'est dire pour
assurer que k uk+1 uk k reste petit, on utilise souvent l'algorithme sous la forme uk+1 = uk
k [2 f (u)]1 f (u), avec 0 < k < 1. Notons que pour pouvoir mettre en oeuvre l'algorithme
2
de Newton, il faut que f soit deux fois drivable et que f (u) soit inversible.
f = @(x,y) 50*(y-x.^2).^2+(1-x).^2;
grad_f = @(x,y)[-200*x*(y-x^2)-2*(1-x); 100*(y-x^2)];
hess_f = @(x,y)[-200*(y-x^2)+400*x^2+2 -200*x; -200*x 100];
pt = [-2; 9]; % initialisation
pt_min = [1; 1]; % point o le critre est minimum
err = norm(pt-pt_min);
nb_iter = 10;
for k=1:nb_iter,
x = pt(1);
y = pt(2);
pt = pt - inv(hess_f(x,y))*grad_f(x,y);
err = [err norm(pt-pt_min)];
end;
plot(err)
Exemple [6] Pour g(x) = x2 1/4, la convergence de la mthode des approximations successives
n'est assure que pour x0 [1/2, 3/2]. Plus prcismment, ] 1/2, 3/2[ reprsente le bassin
d'attraction de la racine 1/2 et {1/2, 3/2} le domaine d'attraction de la racine 1/2.
Des conditions de convergence de l'algorithme (15.14) portant sur la squence des matrices
(Ak )k0 pourront tre trouves par exemple dans [6].
15.4.4 Convergence
Pour dcrire la convergence les diverses variantes de la mthode de newton dans un mme for-
malisme, on considre des algorithmes de la forme
avec Ak (x) inversible x O. On indique ici des conditions susantes de convergence d'un tel
algorithme.
k
k xk a k k x1 x 0 k . (15.16)
1
xk+1 = xk A1
k f (xk ) (15.18)
soit contenue dans B(a, r) et converge vers a. De plus, a est la seule racine de f = 0 dans
B(a, r). La convergence est gomtrique :
< 1, k xk a k k k x0 a k . (15.19)
f (xk+1 ) = f (xk ) T f (xk )[Ak (xk0 )]1 f (xk )+ k xk+1 xk k (xk+1 xk ), (15.20)
avec limx0 (x) = 0. On voit donc que si on peut ngliger les termes du second ordre, [Ak ]1
f (xk ) est une direction de descente ds lors que T f (xk )[Ak ]1 f (xk ) > 0. Il sut pour cela
2
que la matrice Ak soit positive. Or, outre le cot de calcul de f , la matrice hessienne peut,
dans le cas gnral, ne pas tre positive chaque itration. Une faon pratique de corriger ce
problme consiste remplacer 2 f (xk ) par 2 f (xk )+k I, avec k > 0 tel que 2 f (xk )+k I > 0.
Pour tester la positivit de
2
la matrice Ak = f (xk ) + k I, on peut augmenter k tant que la
factorisation de Choleski ne peut pas tre calcule. On a vu en eet dans la premire partie,
consacre l'analyse numrique, que cette factorisatin n'tait dnie que pour des matrices
2 f (xk ) + k I = LLT , avec L triangulaire
positives. De plus, la connaissance de la factorisation
permet le calcul ais de la direction de descente dk = [Ak ]
1 f (x ), car il sut alors de
k
T
rsoudre le double systme triangulaire d'quations linaires LL dk = f (xk ).
On considre pour terminer ce chapitre une technique populaire de minimisation qui consiste
utiliser plus d'information sur f pour calculer la direction de descente qu'avec la mthode du
gradient, sans pour autant tre conduit au cot lev de la mthode de Newton, qui ncessite
le calcul du hessien et son inversion. A partir du point courant uk , on cherche ici uk+1 tel que
f (uk+1 ) = minvGk f (uk + v), avec
X
Gk = { i f (ui ); 1 , . . . , k R}. (15.21)
i=1,k
Pour une fonction quadratique elliptique f (v) = (1/2)vT Av bT v, on peut vrier que uk+1 =
uk k dk , avec
dTk f (uk )
k =
dTk Adk
(15.22)
k f (uk ) k2
et dk = f (uk ) + dk1 .
k f (uk1 ) k2
Dans le cas gnral, pour une fonction f non ncesairement quadratique, on prfre souvent
utiliser la mthode de gradient conjugu de Polak et Ribire pour laquelle
Chapitre 16
Le thorme des fonctions implicites [2, 6] joue un rle important dans la justication
de l'introduction du Lagrangien qui sera prsent un peu plus loin et constitue un outil de
base pour l'tude des conditions ncessaires et susantes des problmes d'optimisation sous
contraintes d'galit ou d'ingalit.
Soit g : Rn Rm . On cherche ici savoir si tant donn un point a = (a1 , a2 ), avec f (a1 , a2 ) = b,
il existe un voisinage Va1 Va2 de ce point tel que la courbe de niveau g(x1 , x2 ) = b sur ce
voisinage soit paramtre par une fonction h telle que x2 = h(x1 ) ; C'est dire que pour tous les
couples (x1 , x2 ) de ce voisinage tels que g(x1 , x2 ) = b, on ait x2 = h(x1 ).
On considre dans la suite deux ensembles de fonctions drivables {f1 , . . . , fm } et {fm+1 , . . . , fm+p }
et on notera f e = (f1 , . . . , fm )T et f i = (fm+1 , . . . , fm+p )T les vecteurs de fonctions associs re-
100
HSCTDOC.blogspot.com
L'ensemble V = {x; f1 (x) = 0, . . . , fm (x) = 0}, o les fonctions fk sont de classe C1 est appel
varit direntielle. et on dnira la notion de point rgulier comme suit
Dnition 7 L'espace tangent V au point u est l'espace engendr par les tangentes en u aux
courbes drivables de V passant par u.
Preuve Soit v un vecteur du plan tangent au point u. Il existe une courbe x(t), t R telle que
x(0) = u et x0 (0) = v. Comme f e (x(t)) = 0, [f e (x(t))]0 = (f e )0 (x(t))x0 (t) = 0. En particulier,
e 0 e 0
pour t = 0, on obtient (f ) (u)v = 0, soit v Ker((f ) (u)).
e 0
Rciproquement, soit v Ker((f ) (u)). Montrons que v appartient au plan tangent V en u.
Soit
g : R Rm Rm ; t w 7 g(t, w) = f e (u + tv + f e (u)w). (16.4)
Notons que g(0, 0) = f e (u) et que w g(t, w)|(t,w)=(0,0) = [f e (u)]T f e (u). Comme u est un
e T e
point rgulier, la matrice [f (u)] f (u) est inversible. On peut donc appliquer le thorme
des fonctions implicites : il existe une fonction w(t) dnie sur un voisinage de 0, sur lequel on
a g(t, w(t)) = g(0, 0) = 0.
Posons maintenant
u(t) = u + tv + f e (u)w(t). (16.5)
d e
f (u(t))|t=0 = [f e (u)]T [v + f e (u)w(0)]
= 0. (16.6)
dt
Donc,
w(0) = [(f e (u))T f e (u)]1 [f e (u)]T v. Mais, comme v Ker((f e )0 (u)), [f e (u)]T v =
0 et donc w(0)
= 0. Par suite, u(t)(0) = v, ce qui montre que v appartient au plan tangent V
en u puisque u(t) est une courbe de V drivable sur un voisinage de u(0) = u.
HSCTDOC.blogspot.com
des indices des contraintes d'ingalit actives. La rgularit d'un point est alors dnie comme
suit
Dnition 8 On dira qu'un point u {x; f e (x) = 0, f i (x) 0} est un point rgulier si
l'ensemble des vecteurs {fi (u); i {1, . . . , m} A(u)} est une famille libre.
Un rsultat important rside dans le fait que si un point u estune solution du problme (16.8),
alors le gradient de f en ce point doit tre orthogonal au plan tangent. Cela ce traduit par le
thorme suivant :
Il est clair que la condition du premier ordre (16.9) prcdente associe aux contraintes du
problme (16.8) s'exprime comme l'annulation du gradient du Lagrangien vis vis de u et de
respectivement :
v L(u, ) = 0,
(16.11)
L(u, ) = 0.
Les coecients (i (u))i=1,m introduit ci dessus sont appels multiplicateurs de Lagrange associs
l'extremum u.
Preuve Considrons le plan tangent V au point rgulier u. Pour tout vecteur v de cet hyper-
plan, on peut construire sur V une courbe y(t) de tangente v au point u. La condition d'opti-
d T
malit
dt f (y(t))|t=0 = f (u) v = 0 montre que f (u) est orthogonal l'hyperplan tangent,
e
et donc appartient l'espace engendr par les vecteurs colonnes de f (u), d'aprs le thorme
e
30. Puisque f (u) est dans l'espace image de la matrice f (u), il existe une vecteur d R
m
e e
tel que f (u) = f (u)d et en posant = d, on obtient nalement f (u) + f (u) = 0.
(16.12)
U = {v Rn ; Cv = d},
A CT
u b
= . (16.13)
C 0 d
Rm , u L(u, ) = 0
(16.15)
v Ker((f e )0 (u)), vT [2u L(u, )]v 0.
Preuve Soit x(t) une courbe de V = {v, ; f e (v) = 0}, avec x(0) = u et = x(0)
= v. La condition
ncessaire du second ordre pour l'optimisation sans contrainte montre que l'on doit avoir
d2 d T
2
[f (x(t))]t=0 = [(x(t)) f (x(t))]t=0 = vT 2 f (u)v + [
x(0)]T f (u) 0. (16.16)
dt dt
En drivant par ailleurs deux fois la relation T f e (x(t)) en 0, on obtient
d2 T e d dx T e T
X
2 d2 xT
[ f (x(t))]t=0 = [( ) f (x(t))]t=0 = v f
i i (u) + (0)f e (u) 0.
dt2 dt dt dt2
i=1,m
(16.17)
En additionnant les relations (16.16) et (16.17) et en prenant en compte la relation u L(u, ) =
0, dj tablie dans le thorme 31, on obtient directement la relation vT [2u L(u, )]v 0.
Comme pour le cas non contraint, la condition ncessaire de positivit de la matrice hessienne
devient l encore une condition susante ds lors qu'on peut en assurer la positivit stricte. Ici
comme pour la condition ncessaire ce dessus il s'agit de la positivit du hessien du lagrangien
restreinte au sous espace tangent.
Preuve On va faire une dmonstration par l'absurde. Si u satisfait aux hypothses du thorme
mais n'est pas un optimum local strict, il existe une suite (uk )k1 de V qui converge vers u et
telle que f (uk ) f (u). On pose uk = u + k dk , avec k dk k= 1. La suite (dk )k1 tant borne,
elle admet une sous suite convergente. Pour simplier les critures et sans perte de gnralit,
on pourra supposer ici que la suite (dk )k1 est elle mme convergente vers une certaine valeur,
note d. On considre ici les formules de Taylor du second ordre appliques aux fonctions f et
(fi )i=1,m et donnes par
2k T 2
0 = fi (uk ) fi (u) = k fi (u)T dk + d [ fi (u)]dk + 2k i (k )
2 k
(16.19)
2k
0 f (uk ) f (u) = k f (u)T dk + dTk [2 f (u)]dk + 2k (k )
2
HSCTDOC.blogspot.com
avec lim0 i () pour i = 0, 1, . . . , m. En multipliant les premires relations par les coecients
i correspondants, en les additionnant la dernire relation, et en prenant enP compte la relation
u L(u, ) = 0, il vient que dTk 2u L(u, )dk + (k ) 0, avec () = 0 () + i=1,m i i (). En
T 2 T 2
passant la limite, il vient que limk dk u L(u, )dk + (k ) = d u L(u, )d 0.
Remarque En pratique, la proprit v Ker((f e )0 (u)), vT [2u L(u, )]v > 0 peut tre vrie
en considrant une base {v1 , . . . , vnm } de l'espace tangent V au point u et en construisant la
T 2
matrice V = [v1 , . . . , vnm ] puis la matrice V u L(u, )V dont il sut alors de tester la positiv-
it des valeurs propres. En eet, l'espace tangent s'crit encore {V; R
nm } et la positivit
2
de la restriction de u L(u, ) cet espace s'crit donc R
nm {0}, VT 2u L(u, )V > 0,
T 2
soit V u L(u, )V > 0.
De plus, soit il est facile de construire de faon directe une telle base V de l'orthogonal de
l'espace engendr par {f1 (u), . . . fm (u)}, soit on peut en construire une par un procd sys-
tmatique par exemple partir de la matrice de projection sur Ker((f ) (u)). Rappelons ici
e 0
que la matrice de projection sur l'espace engendr par les colonnes d'une certaine matrice M
s'crit M(M M)
T 1 MT (voir Eq. (3.32) de la premire partie de ce document). par suite, la ma-
e 0 e 0 e 0 T e 0
1 e 0
trice de projection sur Ker((f ) (u)) est I (f ) (u) [(f ) (u)] (f ) (u) [(f ) (u)]T . On peut
e 0
en dduire une base de Ker((f ) (u)) en extrayant par exemple une famille libre de dimension
maximale (n m) de la famille des vecteurs
1 e 0
vk = I (f e )0 (u) [(f e )0 (u)]T (f e )0 (u) [(f ) (u)]T ek
1 (16.20)
= ek (f e )0 (u) [(f e )0 (u)]T (f e )0 (u) fke (u),
Exemple
min(x,y) x2 + y 2 xy
(16.21)
x2 + y 2 4x 4y + 6 = 0
2(1 + )x y 4
(x,y) L(x, y, ) = = 0. (16.22)
2(1 + )y x 4
Les solutions des conditions du premier ordre sont donc (x, y, ) = (1, 1, 1/2), (x, y, ) =
(3, 3, 1/2) et (x, y, ) = (3, 3, 3/2). La matrice hessienne s'crit pour = 1/2
2 2(1 + ) 1 1 1
(x,y) L(x, y, ) = = (16.23)
1 2(1 + ) 1 1
qui est positive, les valeurs propres valant 0 et 2. Le gradient de la fonction de contrainte vaut
(2x 4, 2y 4)T . Il est donc colinaire (1, 1)T pour x = y et l'espace tangent est engendr
T T
par le vecteur (1, 1) .Comme (1, 1) est le vecteur propre associ la valeur propre nulle, la
condition susante du second ordre n'est pas vrie ici. De mme, pour = 3/2, la matrice
hessienne a tous ses termes gaux -1 et ses valeurs propres sont 0 et -2 ; Les conditions susantes
du second ordre ne sont donc pas vries ici non plus.
Finalement, il apparat que les conditions ncessaires du premier ordre sont satisfaites pour (x, y)
gal (1, 1), (3, 3) ou (3, 3). Pour ces trois couples, le critre optimiser vaut respectivement
1, 9 et 27. Donc seul le point (1, 1) peut reprsenter le minimum global du problme. (1, 1) est
eectivement la solution du problme d'aprs le thorme de Weierstrass (le critre est continu
et la contrainte qui est une ellipse est bien un ensemble compact).
Preuve Pour les contraintes inactives, on a fk (u) < 0 et on xe k = 0. Ainsi, on a bien
f i (u) = 0. D'aprs le thorme 31, on a alors galement
Il reste vrier la positivit des composantes de k pour k A(u). Eectuons une dmon-
stration par l'absurde en supposant qu'il existe k A(u) tel que k < 0, Notons Vk (u) =
{v; f e (v) = 0, j A(u) {k} fji (v) = 0}. Comme u est un point rgulier, fk (u) n'ap-
partient pas l'espace normal au plan tangent au point u la varit Vk (u), dni par
{v; [fj (u)]T v = 0, j {1, . . . , m} (A(u) {k})}. Il existe donc un vecteur v de ce plan
T T
tangent tel que fk (u) v < 0. Comme fj (u) v = 0 pour j {1, . . . , m} (A(u) {k}) et
j = 0 pour j / A(u), on trouve que
Condition ncessaire
D'aprs le paragraphe prcdent, il est clair que le thorme de condition ncessaire du second
ordre prsent dans le cas de contraintes d'galit s'tend directement au cas de contraintes d'in-
galit en intgrant la condition les contraintes d'ingalit actives, ce qui conduit au thorme
suivant :
f i (u) = 0.
(16.28)
Ici, le lagrangien L(u, , ) est dni par L(u, , ) = f (u) + f e (u)T + f i (u)T , et son hessien
est donn par
X X
2u L(u, , ) = 2u f (u) + k 2u fke (u) + k 2u fki (u). (16.29)
k=1,m k=1,p
HSCTDOC.blogspot.com
Remarques
i) Il se peut que pour une solution (u, , ) des conditions de Khun et Tucker une contrainte
d'ingalit fk (u) 0 fk (u) = 0, et que simultanment on ait k = 0.
soit active, c'est dire que
ii) Pour traduire la positivit de la matrice 2 L(u, , ) pour les vecteurs de l'espace E(u) =
u
v fk (u)T v = 0, k {1, . . . , m} A(u) , il sut de dnir une base {v1 , . . . , vl } de cet espace
et la matrice V dont les colonnes sont constitues de ces vecteurs : V = [v1 . . . vl ]. On pourra alors
2
montrer titre d'exercice que la positivit (resp. la positivit stricte) de u L(u, , ) restreinte
E(u) est quivalente la positivit (resp. la positivit stricte) de la matrice VT [2u L(u, , )]V.
Cette proprit est utile en pratique pour vrier la condition susante nonce ci dessous.
Condition susante
f i (u) = 0.
(16.30)
alors u est un minimum local strict du problme (16.24).
Preuve On pourra faire la dmonstration titre d'exercice en reprenant, avec des notations
analogues, la dmonstration par l'absurde du thorme 33.
Considrons le problme
min f (x)
(P ) (16.31)
f i (x) 0.
Le lagrangien L(u, ) est une fonction de Rn Rp dans R. On dit que (u, ) est un point selle
de L si v L(v, ) a un minimum en u et si L(u, ) a un maximum en .
appartient l'ensemble U = {v; fki (v) 0} et reprsente une solution du problme (16.31).
2. Si f et (fki )i=1,p sont convexes et drivables en un point rgulier u qui est un minimum
local du problme (16.31), alors Rp+ , (u, ) est un point selle de L.
(D) Rp+ , G() = sup G(), avec G() = inf L(v, ). (16.34)
Rp+ v
Exemple. f (v) = 1 T
2 v Av v T b, et U = {v; Cv d}, C Rm Rn . On a les relations
suivantes
L(v, ) = 21 vT Av vT (b CT ) T d
u = A1 (b CT )
(16.35)
G() = 12 (b CT )A1 (b CT ) T d
CA1 CT 0.
Donc G() admet un minimum, unique si C est de rang p, qui annule
Chapitre 17
Ce chapitre, en cours de rdaction, prsente quelques techniques d'optimisation pour les prob-
lmes contraints.
Une premire ide consiste, pour les problmes contraints, chercher gnraliser les techniques
dveloppes pour les problmes non contraints.
L'extension du thorme des ensembles plus gnraux n'est pas immdiate (considrer par
exemple le cas o f (v) = v12 + v22 , et U = {(v1 , v2 ); v1 + v2 2}).
Le thorme de projection est un outil d'usage courant pour l'optimisation dans les espaces de
Hilbert. Rappelons qu'un espace de Hilbert H est un espace vectoriel norm complet (c'est
dire tel que toute suite de Cauchy y est convergente) muni d'un produit scalaire. Dans un tel
espace, on a le rsultat fondamental suivant appel thorme de projection. On en donne ici
un nonc{e retreint Rn .
110
HSCTDOC.blogspot.com
y U, yT (xP x) = 0. (17.3)
(f (y) f (x))T (y x) k y x k2
(17.4)
k f (y) f (x) k M k y x k,
et a, b > 0 tels que 0 < a < k b < (2/M 2 ), la mthode du gradient projet converge et
< 1, k uk u k k k u0 u k . (17.5)
Les mthodes de point intrieur visent remplacer les contraintes du critre par un terme additif
qui tend vers l'inni la frontire du domaine des contraintes lorsqu'on augmente un paramtre
de rglage d'adquation aux contraintes que l'on notera ici t. Ainsi, au problme
minx f (x)
(17.6)
f i (x) 0, i = 1, . . . , p,
1 X
f (x) + (f i (x)), (17.7)
t
i=1,p
o (z) est une fonction dcroissante sur R+ qui prsente une divergence en 0. En pratique,
on cherchera minimiser itrativement cette fonction tout en faisasnt crotre la valeur de t.
Typiquement, on prendra (z) = log z .
La mthode de point intrieur constitue une technique de pnalisation interne qui conduit
des algorithmes itratifs qui doivent tre initialiss l'intrieur du domaine des contraintes.
HSCTDOC.blogspot.com
On peut aussi envisager des mthodes de pnalisation externe qui consistent remplacer
les contraintes d'ingalit par une fonction nulle dans le domaine des contraintes et strictement
positive l'extrieur. Indiquons ici un rsultat de convergence pour une telle mthode.
Notons qu' la dirences des mthodes de points intrieur, la construction pratique de la fonction
peut s'avrer dlicate pour une pnalisation externe.
minx f (x)
(17.9)
f i (x) 0, i = 1, . . . , p.
u = arg minv [f (v) + i=1,p i f i (v)]. La mthode d'Uzawa consiste calculer itra-
P
Notons
tivement, partir de 0 x, uk = uk , puis k+1 par la relation (17.10). On remplace ainsi le
problme contraint par une suite de problmes non contraints.
k+1 = P+ (k + G(k ))
(17.11)
= P+ (k + (CA1 (b f C T k ) d))
= P+ (k + (Cuk d)).
HSCTDOC.blogspot.com
Chapitre 18
Programmation linaire
18.1 Le problme
On cherche rsoudre le problme d'estimation d'une fonction linaire sous des contraintes
linaires de type galit ou ingalit :
P P
max
P j=1,n cj xj max
P j=1,n+m cj xj
(I) j=1,n Aij xj bi , i = 1, m j=1,n+m Aij xj = bi , i = 1, m
i 0 i = 1, n xi 0 i = 1, n + m
x
(18.1)
max z = cx
maxxU z = cx
Ax = b
U = {x Rm+n ; Ax = b, x 0}
x0
o on a pos, pourj > 0 Aij = i,n+i . U est un polytope convexe, c'est dire un sous ensemble
convexe de R
m+n dont la frontire est dnie par un nombre ni d'hyperplans. U a un nombre
ni de points extrmes, c'est dire de points qui ne se trouvent pas sur un segment ]a, b[ o a
et b appartiennent U.
Thorme 45 Si U est non vide et born, minxU cx est atteint en au moins un point extrme
de U . Si le minimum est atteint en plusieurs points extrmes, le convexe qu'ils engendrent est un
ensemble de solutions du problme.
On peut supposer que A est de rang m (sinon le systme Ax = b n'a pas de solution ou est
redondant, auquel cas on peut liminer les quations redondantes). On appelle base une sous ma-
trice AB de de taille m extraite de A et inversible. On note xB les composantes correspondantes
de x. On a alors
z = cB xB + cB xB et Ax = AB xB + AB xB = b (18.2)
114
HSCTDOC.blogspot.com
Le problme (I) se ramne donc celui de la recherche des solutions de base ralisables optimales.
Notons A = [AB AB ] = [A1 , . . . , Am , Am+1 , . . . , Am+n ].
xB + (A1 1
B AB )xB = AB b, (18.3)
donc
z = cB [A1 1
B b (AB AB )xB ] + cB xB
(18.4)
cB A1 1
P
= B b jB [cB AB Aj cj ]xj .
Notons j = cB A1
B Aj . On a alors le rsultat suivant :
Thorme 47
A1
[i B, j cj 0] B b est une solution optimale. (18.5)
0
0
x
AB Ar B0 = b. (18.7)
xr
HSCTDOC.blogspot.com
x0B
A1 0 = A1 0 1 0 1
I B Ar xr B b xs + [(AB Ar )s xr ] = (AB b)s (18.8)
Comme la base B est ralisable et que x0s = 0 est nulle pour la nouvelle solution de base,
x0r = (A1 1 1
B Ar )s (AB b)s . (18.9)
Donc,
x0i = (A1 1 0
B b)i (AB Ar )i xr , i 6= r. (18.11)
et il apparat que le facteur de droite de lgalit prcdente est positif. De plus, xi = (A1
B b)i 0.
POur le choix de s retenu, on assure bien la positivit de du vecteur de
0
base x .
Pour la valeur de s xe comme prcdemment, cherchons r telle que B0 soit meilleure que B.
B 0 est meilleure que B si r cr > 0 (r = cB (A1
B Ar )). En eet, d'aprs (18.4), la solution x0
dans la nouvelle base vrie
cx = = cB A1 1
cj ]x0j
P
B b jB 0 [cB AB Aj
(18.13)
= cB A1
B b (r cr )xr ,
c'est dire que z(x0 ) = z(x) (r cr )xr . On voit donc que la dcroissance du crtre est assure
si r cr > 0. An de favoriser une d{ecroissance forte du critre, on cherchera une valeur
positive minimale de r cr .
Notons que tous les xi de la solution de base sont alors positifs chaque itration.
HSCTDOC.blogspot.com
Considrons le programme
min cT x
Ax = b (18.14)
x0
On voit que l'existence d'un point selle (x, ) se traduit par le fait que pour xi > 0 on doit avoir
(cT T A)i 0, car sinon l'augmentation de xi se traduirait par la diminution du critre ce
qui est incompatible avec la dnition du point selle.
max bT x
AT c (18.16)
x0
Dans la suite, on va tablir les proprits de dualit pour les progralmes linaires qui ont servi
la dmonstration du thorme (31). Mais auparavant, on va indiquer les liens existants entre
problme primal et problme dual.
min cT x
max bT x
(P ) : Ax = b (D) : (18.17)
AT c
x0
Proposition 4 L'ensemble des problmes primaux concide avec l'ensemble des problmes duaux
HSCTDOC.blogspot.com
Preuve Considrons le problme (P ), et notons que Ax = b peut se reformular comme les deux
ingalits Ax b et Ax b. Donc(P ) se reformule comme le programme dual suivant :
T
max c
x
A b
(18.19)
A x b
I 0
T T
T b T b 0
min
A A =c
I (18.20)
x 0,
qui est bien la forme d'un programme primal. Donc l'ensemble des programmes primaux concide
avec l'ensemble des programmes duaux.
Montrons enn que le dual du programme (D) est le programme (P ). Le dual du programme
dual (D) rcrit sous la forme (18.20) est
max cT u
A b
(18.21)
A u b .
I 0
Notons maintenant que si x et sont des valeurs ralisables (c'est dire satisfaisant qux
contraintes) pour les problmes (P ) et (D) respectivement, alors les conditions Ax = b, AT c
et x0 conduisent aux relations
T b = T Ax cT x. (18.22)
Proposition 5 L'ensemble des points ralisables du dual conduit des valeurs du critre dual
infrieures l'ensemble des valeurs prises par le critre primal pour ses points ralisables. En
termes mathmatiques, on a donc :
Cette propritt permet d'tabir le thorme suivant qui montre l'quivalence des problmes (P )
et (D).
Thorme 48 Si l'un des problmes (P ) ou (D) admet une solution, il en est de mme pour
l'autre et les valeurs de l'optimum sont identiques. Inversement (P ) n'est pas born infrieurement
ou (D) n'est pas born suprieurement, alors l'autre problme n'admet pas de valeur ralisable.
Supposons donc que le problme primal admet une solution et notons z la valeur de l'optimum.
L'existence d'une valeur ralisable optimale pour le problme dual (D) qui conduirait un
optimum gal z peut se reformuler sous la forme
Pour montrer (18.24), notons que cette proprit se rcrit encore comme
H = (, ) Rm+1 ; s + T = 0
(18.27)
Sans perte de gnralit, on pourra choisir s = 1 et, compte tenu de la dnition de C , l'ingalit
de droite de (18.28) correspond alors prcisemment la relation (18.25) que l'on cherche tablir.
Il nous reste donc vrier que (1, 0)
/ C.
1. Thorme de sparation de Han-Banach : tant donn deux ensembles convexes ferms, C1 et C2 , il existe un
hyperplan qui spare strictement C1 et C2 , c'est dire que C1 et C2 se trouvent de part et d'autre de cet hyperplan
(sparation) et que l'un au plus de ces ensembles admet des points communs avec l'hyperplan (sparation stricte).
De plus, lorsque comme ici un des deux convexes est un cne, on peut choisir un hyperplan passant par l'origine
HSCTDOC.blogspot.com
ce qui est contradictoire avec la valeur optimale nie z de (P ). On a donc bien (1, 0)
/ C.
Il apparat donc, en considrant les contraintes de ce problme, qu'il existe Rm tel que
Annexe A
Master SISEA
Corrig des examens
sessions de janvier 2006 2010
122
HSCTDOC.blogspot.com
Janvier 2010
I On veut construire une boite rectangulaire ouverte avec une surface de 192cm2 de carton.
i) Si la base doit tre carre, quelles dimensions donnent le plus grand volume ?
V = a2 h
max
(A.1)
a2 + 4ah = 192cm2
a 0, h 0
Les conditions ncessaires du premier ordre conduisent donc la solution (a, h, ) = (8, 4, 2).
Cette condition est susante car on cherche ici maximiserV = a2 h qui est une fonction continue
2
sur le domaine de contraintes ferm et born {a +4ah = 192, a 0, h 0}. D'aprs le thorme
de Weierstrass le problme admet donc une solution qui ne peut donc tre que (a, h) = (8, 4).
L encore le maximum est atteint lorsque les contraintes d'ingalit sont inactives. Le lagrangien
s'crit L(a, h, ) = abh + (ab + 2(a + b)h 192) et son gradient
bh + (b + 2h)
(a,h) L(a, h, ) = = 0. (A.4)
ah + (a + 2h)ab + 2(a + b)
HSCTDOC.blogspot.com
Les deux premires contraintes se rcrivent x 1y/2 et y x1. Donc, x 1(x1)/2, soit
x 1. La dernire contrainte est donc redondante avec les deux premires et peut tre carte.
Le lagrangien s'crit
1
L(x, y, ) = x2 + y 2 + 1 (2 2x y) + 2 (x y 1)
2
avec i 0 (i = 1, 2), et les conditions de Khun et Tucker sont donnes par
x 21 + 2
=0
2y 1 2
(A.6)
(2 2x y) =0
1
2 (x y 1) =0
Le point (x, y) = (8/9, 2/9) est donc le point qui parmi ceux qui assurent les conditions nces-
saires de Khun et Tucker conduit la valeur minimale du critre. La condition ncessaire est ici
susante car en tout point
2 1 0
L= > 0. (A.7)
0 2
III Trouvez l'optimum du problme suivant en passant par les conditions de Khun et Tucker :
Pn
miny i=1 yi
(A.8)
n y = 1
i=1 i
yi 0 i = 1, . . . , n.
HSCTDOC.blogspot.com
Notons que les contraintes yi 0 ne peuvent pas tre actives puisqu'on doit avoir ni=1 yi = 1.
On va donc chercher simplement rsoudre le problme sans les contraintes d'ingalit en se
restreignant ensuite aux solutions positives. Le lagrangien s'crit alors
Il apparat donc que l'on doit avoir tous les yi gaux ni=1 yi . ni=1 yi = yin = 1
La contrainte
donne alors yi = 1, i {1, . . . , n}, compte tenu de la contrainte de positivit. Par suite, = 1.
Notons de plus que la matrice hessienne du lagrangien vaut alors
2y L = (ni=1 yi ) 2 2
[1/y1 , . . . , 1/yn ]T [1/y1 , . . . , 1/yn ] = I 1I1IT
diag(1/y1 , . . . , 1/yn ) (A.11)
Le gradient de ni=1 yi 1 au point (1, . . . , 1) est le vecteur 1I et tout vecteur v de l'espace tangent
T T 2 T T
la contrainte en ce point vrie donc v 1I = 0. Il en rsulte que v (y L)v = v (I 1I1I )v =k
v k2 . La restriction du hessien du lagrangien au point (1, . . . , 1) est donc strictement positive,
ce qui tablit que la condition ncessaire d'annulation du lagrangien en ce point est galement
Pn
susante. Finalement, la valeur du minimum est i=1 = n.
L'ingalit est clairement vrie si un des xi est nul. Maintenant, si tous les xi sont non nuls, en
posant
Pn yi = xi /(nj=1 xj )1/n , comme ni=1 yi = 1, il est clair d'aprs la question prcdente que
La contrainte d'galit ne pourrait pas tre satisfaite si un des nombres x, y ou z tait nul.
HSCTDOC.blogspot.com
ii) Trouver la solution en passant par la mthode des multiplicateurs de Lagrange et justiez
votre rponse.
Puisque les contraintes de positivit ne sont pas actives, le problme se rsume la recherche
des solutions positives parmi les solutions du problme d'optimisation sous la seule contrainte
d'galit. Le lagrangien s'crit alors
a b c
L(x, y, z, ) = x + y + z + ( + + 1) (A.14)
x y z
et son gradient est
xyz L(x, y, z, ) = 1I [a/x2 , b/y 2 , c/z 2 ]T . (A.15)
La condition susante est donc galement satisfaite et la solution du problme est obtenue en
(x, y, z) = ( a + b + c)( a, b, c) (A.17)
et en ce point, le critre vaut x + y + z = ( a + b + c)2 .
HSCTDOC.blogspot.com
Janvier 2009
I Trouver la solution de
(x + y z 1)2 + (x + y)2 + 5x2
min
(A.18)
2x + z = 0
Le gradient de f est
15x + 4y 3
f (x, y) = 2 . (A.20)
4x + 2y 1
L'annulation du gradient conduit (x, y) = (1/7, 3/14). De plus, la matrice hessienne de f vaut
2 15 4
f (x, y) = 2 . (A.21)
4 2
La trace et le dterminant de cette matrice valent respectivement 17 et 14 et correspondent la
somme et au produit de ses valeurs propres, qui sont donc positives. Donc la matrice 2 f (x, y)
est positive en tout point (x, y) etf est convexe. (x, y) = (1/7, 3/14) ralise donc le minimum
(global strict) de f. On en dduit z = 2x = 2/7.
Le lagrangien s'crit
En tout point, le gradient de 2x + z est u = [2, 0, 1]T . Donc l'espace tangent la contrainte
est engendr par les vecteurs v = [0, 1, 0]T et w = [1, 0, 2]T . Pour vrier que la restiction de
2xyz L(x, y, z, ) l'espace tangent la contrainte est positive, il est quivalent de montrer que la
matrice
7 2 1 0 1
T 2 0 1 0 2 4
[v w] xyz L(x, y, z, )[v w] = 2 2 1 . 1 0
= (A.25)
1 0 2 4 15
1 1 1 0 2
est positive, ce qui est le cas d'aprs la question prcdente (trace=17, dterminant=14). Le
minimum est donc atteint (x, y, z) = (1/7, 3/14, 2/7) et c'est un minimum global strict.
ii) Montrer que (0, 0, 0) et (1, 1, 1) sont des points stationnaires de f et indiquer pour chacun
d'eux s'il s'agit d'un minimum local, d'un maximum local ou ni l'un ni l'autre.
x yz
f (x, y, z) = 2 y xz (A.26)
z xy
f est nul en (0, 0, 0) et (1, 1, 1). Ce sont donc des points stationnaires.
0 z y
2 f (x, y, z) = 2(I z 0 x) (A.27)
y x 0
En (0, 0, 0), 2 f = 2I. Donc (0, 0, 0) est un minimum local de f. En (1, 1, 1), le dveloppement
au second ordre de f s'crit
f (1 + x , 1 + y , 1 + z ) = [x y z ]2 f (1, 1, 1)[x y z ]T
(A.28)
= x2 + y2 + z2 2(x y + x z + y z ) + o(k k2 ).
C'est la courbe en rouge ci dessous. Le point(1,0) n'est pas rgulier car la courbe de contrainte
n'y est pas drivable (point de rebroussement).
ii) Montrer qu'aucun point ne satisfait les conditions ncessaires du premier ordre.
Le lagrangien s'crit
L(x, y, ) = x2 + y 2 + ((x 1)3 y 2 ) (A.30)
ii) Trouver le (les) point qui satisfait les conditions ncessaires du premier ordre. En reformulant
le problme comme un problme de minimisation de (x2 + 4xy + y 2 ) le lagrangien s'crit
avec i 0, i = 1, 2, 3, 4.
2x 4y + 1 2 3
xy L(x, y, ) = =0
4x 2y + 1 + 22 4
1 (x + y 8) =0
(A.34)
2 (x + 2y 4) =0
3 x =0
4 y = 0.
Considrons les dirents cas possibles concernant les contraintes actives, directement observables
sur la gure :
5. 1 > 0, 2 > 0 et 3 = 4 = 0 : 2x 4y + 1 2 = 0, 4x 2y + 1 + 22 , x + y 8 = 0
et x + 2y 4 = 0. On trouve (x, y, 1 , 2 ) = (4, 4, 24, 0) comme prcdemment.
6. 2 > 0 et 1 = 3 = 4 = 0 : 2x 4y 2 = 0, 4x 2y + 22 = 0 et x + 2y 4 = 0.
On trouve (x, y, 2 ) = (20/13, 16/13, 24/13), ce qui est impossible.
7. 2 > 0, 3 > 0 et 1 = 4 = 0 : 2x4y 2 3 = 0, 4x2y +22 = 0 x+2y 4 = 0
et x = 0. Alors (x, y, 2 , 4 ) = (0, 2, 2, 10), ce qui est impossible.
iii) Le point retenu satisfait-il les conditions susantes du second ordre ? Conclure.
Comme on optimise ici une fonction continue sur un ferm born le problme admet un point qui
ralise le minimum et un point qui ralise le maximum. Les conditions ncessaires d'optimalit
sont donc ici galement des conditions susantes, le minimum tant ralis en (0, 0) o le critre
vaut 0 et le maximum en (4, 4) o le critre vaut 96.
HSCTDOC.blogspot.com
Janvier 2008
Le lagrangien s'crit :
L(x, y, ) = x y 2 + (x2 + y 2 1). (A.37)
1 + 2x
(x,y) L(x, y, ) = =0
2( 1)y (A.38)
(x2 + y 2 1) = 0, 0
et
2 1 0 2 0
L=2 = . (A.39)
0 1 0 0
2 1 0
L= (A.40)
0 2(1 1)
HSCTDOC.blogspot.com
Dans les deux cas, l'espace tangent la contrainte est engendr par le vecteur v = [0 1]T . Si x = 1,
vT [2 L]v = 4 < 0 et on a un maximum local en P3 = (1, 0) et si x = 1, vT [2 L]v = 0
auquel cas on ne peut pas conclure directement pour le point P4 = (1, 0).
II Montrer que tous les points du domaine caractris par les 3 contraintes
2
x + y2 1
(A.41)
y 1/2
y 1/2
Les points intrieurs au domaine (en marron sur la gure) sont rguliers. De plus, les gradients
pour les trois contraintes sont respectivement engendrs par v1 = [y x]T , v2 = [1 0]T et
v3 = [1 0]T . Notons que si une seule contrainte est active on obtient un vecteur non nul (en
2 2
particulier v1 6= 0 car x + y = 1 lorsque la premire contrainte est active). Lorsque deux
contraintes sont actives ce sont soit la premire et la seconde, soit la premire et la troisime, car
les frontires des contraintes 1 et 3 n'ont pas de point commun. Comme |y| = 1/2 |x| = 3/2
dans ces deux situations, il est alors clair que (v1 , v2 ) et (v1 , v3 ) forment des familles libres et les
points pour lesquels deux contraintes sont satisfaites sont rguliers. Enn, comme on l'a vu les
trois contraintes ne peuvent pas tre satisfaites simultanment. Donc, tous les points du domaine
sont rguliers.
HSCTDOC.blogspot.com
Comme on cherche minimiser une fonction continue sur un ensemble ferm born, le problme
admet une solution (thorme de Weierstrass).
On cherche le point de la courbe de contrainte le plus proche du point (2, 2) au sens de la norme
L1 (k M N k1 = |Mx Nx |+|My Ny |). Ce point est clairement dans le quart de plan R+ R+ ,
ce que l'on vriera plus loin. Dans ces conditions, le problme se rcrit
min(2 x) + (2 y)
(A.43)
x2 + y 2 = 1
x y2 0
(x, y) =
Si seule la premire contrainte est active, les conditions de Khun et Tucker conduisent
(1/ 2, 1/ 2) et si les deux contraintes sont actives, le point du quart de plan suprieur qui
2 2
vrie x = y et x + y
2 = 1 est donn par la solution positive de x2 + x 1 = 0, soit
q
(x, y) = ((1+ 5)/2, (1 + 5)/2). De ces deux points, le point (x, y) = (1/ 2, 1/ 2) ralise
le minimum. C'est donc ncessairement le minimum du problme, dont on a tabli l'existence
prcdemment.
Notons enn que |1/ 2 2| + |1/ 2 2| = 4 2 2 et que les points de la courbe situs dans
R+ R vrient |x 2| + |y 2| > |1 2| + |0 2| = 3 > 4 2 2 et ne peuvent donc pas tre
solution du problme.
HSCTDOC.blogspot.com
IV Un importateur dispose de Q units d'un produit qu'il propose de vendre dans n magasins.
Chaque magasin i propose d'acheter di units un prix pi . L'importateur maximise son revenu
j pj xj en jouant sur
P la quantit xi qu'il vend au magasin i, avec 0 xi di . On suppose que
P
i, di > 0, pi > 0, di > Q et pour simplier que p1 > p2 > . . . > pn1 > pn .
x1 = min(d1 , Q)
x2 = min(d2 , Q x1 )
. (A.44)
.
.
Pn1
xn = min(dn , Q k=1 xk ).
2) Dmontrer que la procdure prcdente est optimale en indiquant les valeurs donner aux
3n + 1 inconnues Pxi , i , i , pour i = 1, . . . , n, et 0 , o i est associ la contrainte xi 0, i
xi di 0 et 0 xi = Q, dans les conditions ncessaires et susantes d'optimalit.
On cherche maximiser une fonction linaire sur un ensemble convexe born non vide (puisque
P P
l'hyperplan xi = Q < di a une intersection non vide avec le pav i [0, di ]). Le problme
admet donc une solution (thorme de Weierstrass) et comme on a un problme quivalent
un problme de programmation convexe, les conditions de Khun et Tucker sont ncessaires et
susantes.
X X X X
L= p i xi + 0 ( xi Q) i xi + i (xi di ) (A.45)
x L = p + 0 1In + = 0
i xi =0
i x i = i di (A.46)
i 0
i 0
qui correspond la solution fournie par la procdure dcrite dans la question prcdente.
De plus, on notera que le problme tudi consiste minimiser une fonction linaire sur un
ensemble convexe (c'est mme un problme de programmation linaire) qui de plus est ferm, ce
qui tablit que les conditions ncessaires du premier ordre sont galement susantes.
HSCTDOC.blogspot.com
janvier 2007
I On considre le problme
opt 2xy
(A.48)
x2 + y 2 = 1.
Le lagrangien s'crit :
L(x, y, ) = 2xy + (x2 + y 2 1). (A.49)
2y + 2x 0
(x,y) L = = (A.50)
2x + 2y 0
1 1 1 1 1 1 1 1
(x, y, ) ( , , 1), ( , , 1), ( , , 1), ( , , 1) . (A.51)
2 2 2 2 2 2 2 2
2) Avec les conditions du second ordre, trouver la nature des points prcdents.
1
2(x,y) L = 2 (A.52)
1
Si = 1, comme l'espace tangent au domaine des contraintes aux points ( 12 , 12 ) est engendr
par t = (1, 1), la restriction de la matrice hessienne cet espace tangent en ces points est donne
par
1 1
2 1 1 = 4( 1) = 8 < 0.
1 1
Donc en ( 12 , 12 ) et en ( 12 , 12 ) le problme possde un maximum local (qui est global
Si = 1, comme l'espace tangent au domaine des contraintes aux points ( 12 , 12 ) est engendr
par t = (1, 1), la restriction de la matrice hessienne cet espace tangent en ces points est donne
par
1 1
2 1 1 = 4( + 1) = 8 > 0.
1 1
Donc en ( 12 , 12 ) et en ( 12 , 12 ) le problme possde un minimum local (qui est global
1 (x + y 6) = 2 (x2 y) = 3 x = 4 y = 0.
i 0, i = 1, . . . , 4.
2(x 94 ) + 2x2
0
(x,y) L(x, y, (0, 2 , 0, 0)) = = .
2(y 2) 2 0
Pour (x, y, 1 , 2 , 3 , 4 ) = ( 32 , 94 , 0, 21 , 0, 0), les conditions ncessaires du premier ordre sont ef-
fectivement satisfaites.
Graphiquement, on voit qu'au point (3/2, 9/4) la courbe y = x2 est tangente la courbe de
9 2
niveau la fonction (x, y) (x + (y 2)2 qui passe par ce point, c'est dire au cercle
4)
9 9
centr sur ( , 2) qui passe par (3/2, 9/4). En d'autre termes, (3/2, 9/4) est la projection de ( , 2)
4 4
sur l'ensemble convexe ferm dni par les contraintes. On sait que cette projection existe et est
unique. Enn, le problme tudi est celui de la minimisation d'une fonction strictement convexe
sur un ensemble de contraintes convexes, ce qui tablit ici le caractre susant de la solution
trouve partir des conditions ncessaires.
Pour 2 = 1/2,
1 + 22 0
2(x,y) L(x, y, (i )i=1,4 ) = = 2I > 0,
0 2
donc la condition susante du second ordre est galement vrie en (3/2, 9/4).
IV Soit le problme
max(1/3) i=1,n x3i
P
P (A.56)
xi = 0
Pi=1,n 2
i=1,n xi = n
On a
x21
.
Lx (x, , ) = . + 1I + 2x
.
x2n
= (1, . . . , 1)T . Comme i=1,n xi = 0, on en dduit que 1IT Lx (x, , ) = n + n = 0,
P
avec 1I
x2i + 2xi 1 = 0.
p
xiP= + i 2 + 1, avec = 1. Comme les xi 2
P
On trouve ainsi dnis vrient i xi =n
ds lors que i=1,n xi = 0, le problme se rcrit nalement
min p
xi = + i 2 + 1
(A.57)
i = 1
P
i=1,n xi = 0
p
1 + 2 )1pqui peut prendre les valeurs entires
P
Les contraintes conduisent i i = n(
n, nP
+ 2, np+ 4, . . .P
, n. Comme la fonction n( 1P + 2 )1 est croissante et que vaut
2 2
= ( i i )/ n ( i i ) et n'est donc dni
p que pour i i {n+2, n+4, . . . , n2}, le
minimum possible pour est atteint pour n( 2 1
1 + ) = n+2, soit = (n2)/(2 n 1).
p
2 + 1 = (n)/(2 n) = 1/ n 1
Alors, n1 des coecients xi sont gaux
p
et le coecient restant est gal + 2 + 1 = n 1.
janvier 2006
max xy(x y)
x+y =8 (A.58)
x 0
y0
Notons que, par exemple, (x, y) = (5, 3) est un point admissible pour lequel xy(x y) > 0. Donc
l'optimum les contraintes d'ingalit ne sont pas actives (on aurait sinon xy(x y) = 0). Il
sut donc d'tudier les conditions ncessaires du premier ordre sans les contraintes de positivit.
Dans ces conditions, le lagrangien s'crit,
2xy y 2 +
xy L(x, y, ) = = 0. (A.60)
x2 2xy +
La solution pour laquelle x>0 et y>0 est (x, y, ) = (4(1 + 1/ 3), 4(1 1/ 3), 32/ 3).
Etudier la rgularit des points suivants : X1 = (0, 0), X2 = (0, 1), X3 = (0, 2)
HSCTDOC.blogspot.com
2x 0 1 1
= et = . (A.62)
6(y 1) 6 (4/3)(2y 1) 4/3
Ces deux vecteurs forment une famille libre donc le point est rgulier.
X2 est un point intrieur du domaine des contraintes o toutes les contraintes sont inactives.
Donc X2 est un point rgulier.
2x 0 2x 0
= et = . (A.63)
2y 4 6(y 1) 6
Ces deux vecteurs forment une famille lie, donc le point n'est pas rgulier.
max y
(3 x)3 (y 2) 0 (A.64)
3x + y 9
2x 3y 0
Ecrivez les conditions de Khun et Tucker et trouvez le point qui les satisfait en faisant le bon
choix des contraintes actives et inactives
Le lagrangien s'crit
avec i 0 (i = 1, 2, 3).
HSCTDOC.blogspot.com
L'tude graphique conduit choisir les contraintes 1 et 3 actives et la deuxime inactive. Les
conditions de Khun et Tucker s'crivent alors
31 (3 x)2 + 33
xy L(x, y, ) = =0
1 1 33
(3 x)3 (y 2) = 0 (A.66)
=0
2
2x 3y = 0
La solution des conditions ncessaires du premier ordre est donne par (x, y, ) = (3, 2, 1, 0, 0).
Le domaine des contraintes tant compact et le critre continu, on sait que le problme admet une
solution. De plus, en posant y = x 3 les contraintes 1 et 3 deviennent respectivement y 2 + u3
et y 2 (2/3)u. On notera que la premire condition entrane y 2 pour u 0 et la seconde
y 2 pour u 0. On a donc ncessairement y 2 dans tout le domaine des contraintes, ce qui
tablit que (x, y) = (3, 2) fournit bien la valeur maximale de y dans le domaine des contraintes.
3) Rptez l'analyse en enlevant la dernire contrainte. Cherchez explicitement tous les points
satisfaisant les conditions ncessaires du premier ordre. Commentez.
Ici le domaine n'est pas born. Ainsi, par exemple, les points de coordonnes (x = 3 y/3, y)
appartiennent tous au domaine pour y > 3 (il est alors clair que (3x)3 (y2) (y/3)3 y+2 >
0). Donc le critre n'est pas suprieurement born et le problme n'a pas de solution nie.
Le lagrangien s'crit
31 (3 x)2 + 32
xy L(x, y, ) = =0
1 1 + 2
(A.68)
((3 x)3 (y 2)) = 0
1
2 (3x + y 9) = 0
Les deux contraintes sont simultanment actives en (x, y, 1 , 2 ) = (5, 6, 1/5, 6/5). Ce point
reprsente le minimum global du critre. En (x, y, 1 , 2 ) = (3, 2, 1, 0) seule la premire contrainte
est active On ne peut pas avoir une seule contrainte active en un autre point car alors les quations
xy L(x, y, ) = 0 sont incompatibles entre elles. Le point (x, y) = (2, 3) est singulier mais ne
correspond pas une solution du problme comme on l'a vu. Les points intrieurs du domaine ne
satisfont pas aux conditions de Khun et Tucker.
IV Soit
1
C(x, h) = (ax b)2 + h|x|, h0 (A.69)
2
o a et b sont des rels positifs. On demande de trouver x (h) le minimum de C(x, h) en fonction
de h
Pour x 6= 0,
d
C 0 (x, h) = C(x, h) = a(ax b) + hsign(x). (A.70)
dx
Sur R on a toujours
C 0 (x, h) = a(ax b) h < 0. (A.71)
Comme C(x, h) est continue, il apparat donc que le minimum est obtenu en 0 si ab < h et en
abh
x= a2
siab > h.
HSCTDOC.blogspot.com
Bibliographie
[3] D.P. Bertsekas, Nonlinear programming, Athena Scientic, 2nd nedition, 2003.
[8] D.G. Luenberger, Linear and nonlinear programming, 2nd edition, Kluwer, 2003.
146
HSCTDOC.blogspot.com
Index
galit ensemble
de Parseval, 60 convexe, 88
equation
algorithme d'Euler, 86
de Newton, 93 equations
du gradient, 93 normales, 18
du gradient conjugu, 99 espace
complet, 57
base orthonorme, 59
de Hilbert, 56
comatrice, 25 hermitien, 56
complexit algorithmique, 25
factorisation
complexit exponentielle, 25
de Hessenberg, 47
complexit polynomiale, 25
de Choleski, 99
condition
fonction
ncessaire du second ordre, 108
coercive, 86
susante du second ordre, 109
convexe, 88, 89
du premier ordre, 85
elliptique, 91
du second ordre, 85
fortement convexe, 92
condition ncessaire
implicite, 101
du premier ordre, 86, 87, 103
Lipschitzienne, 96
du second ordre, 87
quadratique, 91
condition susante
formule
du second ordre, 88, 105
de Stierling, 25
conditionnement, 31
de Taylor, 83
conditions
de Khun et Tucker, 107 gradient, 81
conjugue hermitienne, 24 gradient projet, 111
contraintes
actives, 103 hessien, 83
satures, 103
image, 26
dcomposition ingalit
de Jordan, 50 d'Euler, 87
de Schur, 50 de Bessel, 59
dcomposition en valeurs singulires, 27 de Hlder, 28
direction de Minkowski, 28
admissible, 86 interpolation de Lagrange, 68
de descente, 86, 93 isomtrie, 61
147
HSCTDOC.blogspot.com
INDEX 148
tridiagonale, 47 systme
minimum sous-dtermin, 13
pnalisation valeur
externe, 113 ralisable, 119
HSCTDOC.blogspot.com
INDEX 149
singulire, 50
varit direntielle, 102
variables d'cart, 119