Cours de Culture Mathematique Jean Feydy
Cours de Culture Mathematique Jean Feydy
Cours de Culture Mathematique Jean Feydy
Jean Feydy
2017–2018
Contact :
— Adresses mail : jean.feydy@ens.fr, jean.feydy@gmail.com (utilisez les deux).
— Bureau : sur les toits du DMA, sous la verrière, les lundis et mercredis à coup sûr.
— Page web du cours : www.math.ens.fr/~feydy/Teaching/index.html
Inutile d’imprimer ce polycopié, qui est encore loin d’être terminé : j’apporterai à chaque
séance une version définitive du chapitre étudié.
L’horaire des séances reste à déterminer. La validation se fera à la présence – huit séances
sur douze au minimum – et sur la réponse à un questionnaire en ligne hebdomadaire.
Conseils de lecture On pourra bien entendu lire le présent manuel de bout en bout : c’est ce
que nous ferons en classe. Un lecteur pressé pourra toutefois piocher, au gré de ses envies, dans
les nombreux sujets abordés. Les chapitres 1, 2 et 4 pourront se lire sans aucun pré-requis ; le
chapitre 3 est essentiellement motivé par les résultats de logique énoncés au chapitre 2. Enfin, les
parties d’Analyse et de Géométrie sont indépendantes l’une de l’autre, et seront accessibles à tout
lecteur disposant d’un solide bagage de terminale S (nombres complexes, dérivation, intégration).
Remerciements Le présent manuel est un florilège des quatre années que j’ai eu le bonheur
de passer à l’École Normale Supérieure (2012-2016). Mes premiers remerciements iront donc
tout naturellement à mes professeurs. Blandine Samson (flûte), Martin Hils (logique), Wendelin
Werner (analyse complexe), Stéphane Mallat (analyse de Fourier), Ma Xiaoguang (méthode
des éléments finis), Haïm Brézis (manuel d’analyse fonctionnelle), Étienne Ghys (manuels de
géométrie Riemannienne), Alain Trouvé (espaces de formes) : tous m’ont fait découvrir avec
enthousiasme les merveilles d’ingéniosité que je voudrais maintenant partager avec vous.
À Vincent Thouard, Serge Dupont et Olivier Biquard qui, depuis le début, ont su me faire
confiance en m’attribuant des tâches d’enseignement toujours plus excitantes : mille mercis !
Enfin, tout ma gratitude va vers Anna Song qui par ses conseils et son regard acéré me pousse
chaque jour à aller de l’avant !
4
Table des matières
1 Introduction 9 Séance 1
1.1 Le jeu de taquin : les étapes du raisonnement mathématique . . . . . . . . . . . . 11 Le plan a changé !
1.1.1 Règles et problème de Loyd . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.2 Formalisation des règles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.3 Signature d’une permutation . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.2 Pour aller plus loin : plan du cours . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5
6 Table des matières
Appendices 241
A Arithmétique 243
Introduction
Séance 1
Le plan a changé !
Que sont les mathématiques ?
À en croire certains manuels scolaires, une simple collection de faits, de recettes sûres qu’il
convient de mémoriser afin de “se préparer pour l’année prochaine”. À l’opposé, certains auteurs
soutiennent qu’il s’agit d’un art pur, peut-être le plus élevé d’entre tous – on lira avec plaisir
l’excellent “A Mathematician’s Lament” de Paul Lockhart... Sans tomber dans ces deux extrêmes,
je tâcherai ici de vous faire découvrir la richesse, la profondeur d’une science bien trop méconnue
du public.
a2
c2
b2
9
Séance 1 10 Chapitre 1. Introduction
Le plan a changé !
Figure 1.2 – Le dessin n’est pas qu’un moyen de brider la créativité des enfants, ou un outil de
production industrielle...
(a) Melencolia I de Dürer. Cent inter- (b) La grande vague d’Hokusai : la nature en majesté.
prétations pour une seule gravure.
Figure 1.3 – C’est aussi – avant tout ! – un art, un moyen de communication qui donne du sens
au monde en le “simplifiant”. Il en va de même des mathématiques, et ce cours est là pour vous
le faire découvrir. Au delà des “calculs”, un monde d’analogies porteuses de sens.
1.1. Le jeu de taquin : les étapes du raisonnement mathématique 11
« Existe-t-il des configurations de départ qui ne permettent pas au joueur de résoudre le puzzle
sans tricher – i.e. sans soulever de tuile ? »
« Tout réarrangement des tuiles est-il accessible par simples glissements à partir de la
configuration de départ “ordonnée” ? »
Numération Plutôt que de parler de tête, mains, bouche du petit bonhomme de la figure 1.4.a,
on représentera notre jeu par un tableau de tuiles numérotées suivant un ordre arbitraire. Une
configuration sera alors la donnée d’un remplissage du tableau de 16 cases ; on en dénombre
exactement 16! = 16 × 15 × 14 × · · · ' 2 × 1013 – il y a 16 choix dans {1, 2, . . . , 15, } pour la
4 3 2 1
5 6 7 8
12 11 10 9
13 14 15
(a) Jeu de taquin en bois, tiré (b) Schéma en 3D isométrique, (c) La même situation de dé-
de www.jeuxpicards.org/. tiré de Wikipédia. part, avec une numérotation
adaptée à la résolution du pro-
blème de Loyd.
4 3 2 1 4 3 2 1 4 3 2 1 4 3 2 1
5 6 7 8 h12,11i
5 6 7 8 h11,10i
5 6 7 8 h10,9i
5 6 7 8
←− −−→ ←− −−→ ←− −→
12 11 10 h11,12i
12 11 10 h10,11i
12 11 10 h9,10i
12 11 10
13 14 15 9 13 14 15 9 13 14 15 9 13 14 15 9
x
? ? ? h16,9iyh9,16i
4 3 2 1 4 3 2 1 4 3 2 1 4 3 2 1
5 6 7 8 h13,14i
5 6 7 8 h14,15i
5 6 7 8 h15,16i
5 6 7 8
←− −−→ ←− −−→ ←− −−→
12 11 10 9 h14,13i
12 11 10 9 h15,14i
12 11 10 9 h16,15i
12 11 10 9
13 14 15 13 14 15 13 14 15 13 14 15
Figure 1.5 – Règles du jeu de taquin : les règles hi, ji qui permettent de faire glisser la case vide
de la ie à la je position sont ici illustrées à partir de la configuration de départ, en bas à droite.
Notez la non-commutativité du procédé : aucune règle ne permet de passer directement des trois
configurations en haut à gauche à celles du bas.
première case, puis 15 pour la deuxième (qui ne peut prendre la même valeur que la première),
14 pour la troisième, etc. On dit que l’ensemble des configurations C a 16! éléments, et pour
toute configuration c de C et tout indice i, « c(i) » dénotera la valeur de la tuile associée par c
à la position i.
Une configuration étant modélisée par une permutation des tuiles du tableau, les règles sont
alors données par un jeu de relations hi, ji définies sur notre ensemble C : celles-ci encodent le
glissement de la tuile vide « » de la case i à la case voisine j.
Formellement, on définit les ensembles de déplacements horizontaux et verticaux
qu’il convient de symétriser – la case vide glisse aussi bien en avant qu’en arrière –
sym
Dhor = { (i, j) | (i, j) ∈ Dhor ou (j, i) ∈ Dhor }, (1.9)
sym
Dver = { (i, j) | (i, j) ∈ Dver ou (j, i) ∈ Dver }. (1.10)
La construction verbeuse ci-dessus nous a permis d’écrire noir sur blanc quels déplacements
sont autorisés ou interdits par les règles du taquin. Pour tout déplacement admissible (i, j) de
D, on définit alors l’application de glissement
qui associe simplement à une configuration c (donnée avec la case vide en ie position) la configu-
ration gi→j (c) obtenue en faisant glisser le carré vide sur la je case – un véritable joueur ferait
plutôt glisser la tuile de la je à la ie case, mais l’écrire ainsi rendrait le suivi de l’espace libre assez
fastidieux.
On peut alors définir la relation hi, ji par
hi,ji
c −−−−→ d ⇔ d = gi→j (c). (1.13)
et on dira que deux configurations c et d sont joignables, ce que l’on note « c ↔ d », s’il existe
un chemin de déplacements admissibles (i1 , j1 ), . . . , (in , jn ) tel que
hi1 ,j1 i hi2 ,j2 i hin ,jn i
c −−−−−→ gi1 →j1 (c) −−−−−→ · · · · · · −−−−−→ d. (1.14)
Problème de Loyd Le fastidieux travail du paragraphe précédent avait pour but de montrer
qu’il est possible d’encoder le problème de Loyd en un énoncé mathématique bien formulé :
« Toute configuration est-elle joignable à la configuration ordonnée ? »
En pratique, cette triviale étape d’encodage est souvent expédiée en quelques lignes : le
véritable raisonnement mathématique n’est pas là, mais dans les pages qui suivent.
Choix d’une représentation Le premier pas, peut-être le plus important, est de passer d’un
simple encodage à une véritable représentation de haut niveau adaptée au problème. Raisonner
sur les glissements gi→j est en effet difficile : à cause de la condition sur la case vide, impossible
par exemple de composer deux glissements quelconques, comme (1, 2) et (3, 4)... Tenter d’étudier
directement un jeu de relations aussi hétéroclite que celui deshi, ji, c’est la garantie de s’empêtrer
dans les cas particuliers sans faire émerger d’idée forte.
11 2 3 11 2 3 11 2 3 11 2 3
5 7 8 9 h3,4i
5 7 8 9 h2,3i
5 7 8 9 h1,2i
5 7 8 9
←−
−→ ←−
−→ ←−
−→
13 15 1 12 h4,3i
13 15 1 12 h3,2i
13 15 1 12 h2,1i
13 15 1 12
14 4 6 10 14 4 6 10 14 4 6 10 14 4 6 10
x
h5,4iyh4,5i
5 11 2 3 5 11 2 3 5 11 2 3 5 11 2 3
7 8 9 h5,6i
7 8 9 h6,7i
7 8 9 h7,8i
7 8 9
←−
−→ ←−
−→ ←−
−→
13 15 1 12 h6,5i
13 15 1 12 h7,6i
13 15 1 12 h8,7i
13 15 1 12
14 4 6 10 14 4 6 10 14 4 6 10 14 4 6 10
x
h9,8iyh8,9i
5 11 2 3 5 11 2 3 5 11 2 3 5 11 2 3
7 8 9 12 h11,12i
7 8 9 12 h10,11i
7 8 9 12 h9,10i
7 8 9 12
←− −−→ ←− −−→ ←−−→
13 15 1 h12,11i
13 15 1 h11,10i
13 15 1 h10,9i
13 15 1
14 4 6 10 14 4 6 10 14 4 6 10 14 4 6 10
x
h13,12iyh12,13i
5 11 2 3 5 11 2 3 5 11 2 3 5 11 2 3
7 8 9 12 h13,14i
7 8 9 12 h14,15i
7 8 9 12 h15,16i
7 8 9 12
←− −−→ ←− −−→ ←− −−→
14 13 15 1 h14,13i
14 13 15 1 h15,14i
14 13 15 1 h16,15i
14 13 15 1
4 6 10 4 6 10 4 6 10 4 6 10
3 2 11 5 7 8 9 12 1 15 13 14 4 6 10
Figure 1.6 – Exemple d’utilisation des relations hi, i ± 1i. Toutes les configurations affichées ici
sont identifiées à la permutation [3, 2, 11, 5, 7, 8, 9, 12, 1, 15, 13, 14, 4, 6, 10].
1.1. Le jeu de taquin : les étapes du raisonnement mathématique 15
5 11 2 3 5 11 2 3 5 11 2 3 5 11 2 3
7 8 9 12 h12,13i
7 8 9 12 h13,14i
7 8 9 12 h14,15i
7 8 9 12
←− −−→ ←− −−→ ←− −−→
13 15 1 h13,12i
14 13 15 1 h14,13i
14 13 15 1 h15,14i
14 13 15 1
14 4 6 10 4 6 10 4 6 10 4 6 10
(σ, 12) (σ, 13) (σ, 14) (σ, 15)
Action triviale des relations (i, i ± 1) dans la factorisation donnée équation (1.15).
On a ici σ = [3, 2, 11, 5, 7, 8, 9, 12, 1, 15, 13, 14, 4, 6, 10].
Action des déplacements non-triviaux Les 2x9 déplacements restants ont une action plus
intéressante : non-contents de faire varier la position c d’un nombre pair, ils agissent aussi sur
σc par “sauts de moutons”. La règle h3, 6i permet par exemple de faire passer la 5e tuile en 3e
position, en sautant par-dessus les deux tuiles qui la précédent :
11 2 3
5 7 8 9
3 2 11 5 7 8 9 12 1 15 13 14 4 6 10
13 15 1 12
14 4 6 10
x
h6,3iyh3,6i
11 7 2 3
5 8 9
3 2 7 11 5 8 9 12 1 15 13 14 4 6 10
13 15 1 12
14 4 6 10
Séance 1 16 Chapitre 1. Introduction
Le plan a changé !
On peut ainsi établir le catalogue exhaustif des actions sur la première composante σ, dont
les inverses se déduisent immédiatement et qui sont concaténables à envie – puisque les règles
triviales permettent de faire bouger la case vide où on le souhaite sur le plateau :
h3, 6i : avance la 5e tuile en 3e position, en sautant par dessus les 2 tuiles qui la précèdent,
h2, 7i : avance la 6e tuile en 2e position, en sautant par dessus les 4 tuiles qui la précèdent,
h1, 8i : avance la 7e tuile en 1re position, en sautant par dessus les 6 tuiles qui la précèdent,
h7, 10i : avance la 9e tuile en 7e position, en sautant par dessus les 2 tuiles qui la précèdent,
h6, 11i : avance la 10e tuile en 6e position, en sautant par dessus les 4 tuiles qui la précèdent,
h5, 12i : avance la 11e tuile en 5e position, en sautant par dessus les 6 tuiles qui la précèdent,
h11, 14i : avance la 13e tuile en 11e position, en sautant par dessus les 2 tuiles qui la précèdent,
h10, 15i : avance la 14e tuile en 10e position, en sautant par dessus les 4 tuiles qui la précèdent,
h9, 16i : avance la 15e tuile en 9e position, en sautant par dessus les 6 tuiles qui la précèdent.
« Tout couple (σc , c ) est-il joignable à la configuration ordonnée donnée par le couple
([1, 2, . . . , 15], 16) ? »
Les règles triviales permettant de modifier la deuxième coordonnée de nos couples à loisir,
cette question se restreint au seul problème sur la première coordonnée σ :
« Toute permutation σ ∈ S15 est-elle joignable à la permutation ordonnée [1, 2, . . . , 15] via
l’action des règles non-triviales ? »
Réponse à la question de Loyd Surtout, l’écriture des règles non-triviales a permis de faire
émerger une propriété remarquable, qui ne sautait pas aux yeux équation (1.12) : le nombre de
tuiles “sautées” par l’application d’une règle du jeu de taquin est toujours pair. Autrement dit,
s’il est possible de dépasser 2, 4, ou 6 tuiles, aucune règle ne permet de permuter deux tuiles
consécutives. Ce constat est au cœur du théorème suivant :
Théorème 1.1. (Johnson, 1879) La réponse au problème de Loyd est négative : il est impossible
de joindre la configuration ordonnée à la configuration “impaire” où les tuiles 1 et 2 ont été
échangées.
Si l’intuition est correcte, il reste évidemment à en tirer une démonstration : après tout,
comment assurer qu’une combinaison astucieuse des sauts-de-moutons ne nous amènera pas par
des voies détournées à une configuration “impaire” ? L’outil de preuve le plus élégant sera ici la
notion d’invariant.
1.1. Le jeu de taquin : les étapes du raisonnement mathématique 17
4 3 2 1
5 6 7 8
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
12 11 10 9
13 14 15
x
y Impossible
4 3 1 2
5 6 7 8
2 1 3 4 5 6 7 8 9 10 11 12 13 14 15
12 11 10 9
13 14 15
Dominos et damiers En théorie des jeux, un invariant est une quantité – calculable à partir
de toute configuration du plateau – qui reste constante quelque soit le mouvement choisi par
le joueur. Considérons par exemple le problème de pavage du damier 8x8 par des dominos. Il
n’est pas difficile de trouver une solution dans le cas où le damier est complet. Par contre, si un
des coins est rogné, l’impossibilité de résoudre le puzzle saute aux yeux : un jeu de dominos ne
peut recouvrir un nombre impair de cases ! Mais alors, quid du cas où les deux coins blancs sont
rognés ?
(a) Damier 8x8. (b) Avec un coin blanc tronqué. (c) Avec les deux coins blancs
tronqués.
À forces d’essais, on peut se convaincre que ce problème est lui aussi insoluble ; mais il est
difficile de s’en assurer : un raisonnement par récurrence/induction ad hoc est voué à s’enliser
dans les cas particuliers. Non, la bonne manière de procéder est de considérer la quantité :
I(p) = nbre. cases noires visibles − nbre. cases blanches visibles. (1.20)
On sait que pour un damier pavé, I(p) = 0 − 0 = 0, et on calcule sans peine que
I(« deux coins blancs tronqués ») = 32 − 30 = 2. Or I est un invariant du jeu de pavage, car
poser un domino sur le damier cache toujours exactement une case blanche et une case noire :
c’est donc que le pavage du damier tronqué par des dominos est impossible ; Cqfd.
Séance 1 18 Chapitre 1. Introduction
Le plan a changé !
Nombre d’inversions Trouver un invariant au problème de Loyd est autrement plus difficile
que d’effectuer une simple soustraction. Il s’agit d’obtenir une formule suffisamment lâche pour
être invariante par toutes les règles du jeu de taquin, et suffisamment fine pour discriminer les
deux configurations du théorème 1.1.
La quantité qui va nous tirer d’affaire est la suivante :
Définition 1.1 (Nombre d’inversions). Si σ ∈ S15 , on définit son nombre d’inversions I(σ)
comme le nombre de couples (i, j) ∈ {1, . . . , 15} × {1, . . . , 15} tels que :
On calcule aisément les nombres d’inversions associés aux permutations du théorème 1.1 :
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2 1 3 4 5 6 7 8 9 10 11 12 13 14 15
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
(a) Permutation ordonnée : aucune inversion. (b) Ici par contre, une inversion : (1, 2).
Lemme 1.1. La parité du nombre d’inversions de σ est invariante par application des règles du
jeu de taquin.
Preuve Soit σ ∈ S15 une permutation de {1, . . . , 15}, et considérons l’opération de “saute-
mouton”, ou transposition, qui échange la ke tuile avec sa voisine pour la mettre en position
k − 1. On note τ la permutation obtenue à partir de σ.
Pour tout couple (i, j) ∈ {1, . . . , 15} × {1, . . . , 15} avec i et j tous deux différents de k et
k − 1,
(i, j) est une inversion pour σ ⇔ (i < j) et σ(i) < σ(j) (1.22)
⇔ (i < j) et τ (i) < τ (j) (1.23)
⇔ (i, j) est une inversion pour τ (1.24)
puisque τ (i) = σ(i) et τ (j) = σ(j). Par contre, si (k − 1, k) était une inversion pour σ, alors elle
ne l’est plus pour τ – qui a remis σ(k − 1) et σ(k) dans le bon ordre –, et réciproquement : si
(k − 1, k) n’était pas une inversion pour σ, alors elle le devient pour τ – qui renverse σ(k − 1) et
1.1. Le jeu de taquin : les étapes du raisonnement mathématique 19
(i, k) est une inversion pour σ ⇔ (i, k − 1) est une inversion pour τ (1.25)
(k, i) est une inversion pour σ ⇔ (k − 1, i) est une inversion pour τ (1.26)
(i, k − 1) est une inversion pour σ ⇔ (i, k) est une inversion pour τ (1.27)
(k − 1, i) est une inversion pour σ ⇔ (k, i) est une inversion pour τ (1.28)
(1.29)
3 2 1 5 4 3 2 5 1 4 3 2 5 1 4 3 5 2 1 4
1 2 3 4 5 1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
(a) 4 inversions : (b) 5 inversions : i.e. (c) 6 inversions :
— (1, 2), — (1, 2), — (1, 4), — (1, 4),
— (1, 4), (2, 4), — (1, 2), (2, 4)
— (1, 3), (2, 3), — (1, 3), (3, 4),
— (3, 5), — (3, 4), (3, 5).
— (4, 5). — (3, 4). — (2, 4), (2, 5),
— (2, 3).
Figure 1.9 – Un saut de mouton change la parité du nombre d’inversions, un double saut la
conserve : de (a) à (b), k = 4 ; de (b) = (c), k = 3.
Séance 1 20 Chapitre 1. Introduction
Le plan a changé !
Objectifs du cours Comme illustré Figure 1.10, les mathématiques sont aujourd’hui subdi-
visées en de nombreux domaines plus ou moins appliqués, plus ou moins “formels”... Chaque
branche correspond en fait à l’étude d’une notion, d’une structure “abstraite” et des questions
qui en découlent naturellement. La topologie s’intéressera par exemple à la notion de continuité
et la logique, à celle de preuve formelle.
Proposer un cours de “culture mathématique” est bien ambitieux : depuis le début du XXe
siècle, le nombre de mathématiciens – et avec lui celui des domaines – a explosé. Au vu de la crois-
sance exponentielle du nombre d’articles publiés depuis 1850, on admet d’ailleurs généralement
qu’Henri Poincaré – mort en 1912 – fut le dernier homme à pouvoir contribuer effectivement à
tous les domaines de son temps. Impossible, donc, d’aborder en un cours l’ensemble des domaines
étudiés par les mathématiciens aujourd’hui.
Face à cette difficulté, on peut faire le choix d’une coupe transversale Algèbre–Probas–
Géométries, survolant l’équivalent d’un programme de licence de maths : c’est une approche
parfaitement légitime, qui permet aux élèves de goûter à toutes les grandes familles de sujets de
recherche, d’esprits mathématiques ; mais ce n’est pas celle que nous suivrons ici.
Plutôt que de vous présenter des sujets, je voudrais en effet vous proposer une vision du
monde. Celle des mathématiciens, qui géométrisent les photos souvenirs et probabilisent les ré-
seaux de neurones ; pour qui musique et chaleur ne sont que les deux faces d’une même pièce... On
n’y parlera donc pas des éternelles marottes de la vulgarisation mathématique que sont les hôtels
de Cantor, les ensembles fractals ou la suite de Fibonacci. Ces sujets sont aux mathématiques
ce que les trous noirs sont à la physique : des problèmes intéressants, curieux mais relativement
annexes, loin d’être au cœur des préoccupations de la communauté des chercheurs – en dépit
d’une large couverture médiatique.
À l’opposé, on optera pour un plan “vertical”, qui seul permet de présenter ce qui est pour
moi l’essence de cette discipline : la rencontre entre la rigueur de la logique formelle, qui définit
proprement les objets du discours mathématique, et la capacité d’abstraction, qui identifie dans
une multitude de phénomènes disparates une même structure sous-jacente.
Traitement
Mathématiques Mécanique d’images,
Mécanique
du vivant des fluides relativiste Mécanique
anatomie
quantique,
Cryptographie
Analyse harmonique Informatique
Ingénierie
EDP,
Mécanique Géométrie différentielle, Géométrie
systèmes classique
Statistiques
dynamiques riemannienne algébrique
1.2. Pour aller plus loin : plan du cours
Probabilités Corps
Algèbre Informatique
Anneaux héorique
Analyse linéaire
Théorie des modèles
Groupes
Topologie
Jeux de l’esprit
Figure 1.10 – Quelques branches des mathématiques : les domaines du haut reposent naturellement sur les outils développés aux
21
échelons les plus fondamentaux. On suivra le chemin en gras, des briques les plus fondamentales aux applications médicales.
Séance 1 22 Chapitre 1. Introduction
Le plan a changé !
Outils conceptuels modernes Plutôt que d’aborder les questions algébriques, on préférera
poursuivre sur la voie de l’analyse et de la géométrie. On commencera donc par étudier les
fonctions de manière rigoureuse : théorie de la continuité – sous une forme étonnamment générale
–, suivie d’un aparté historique sur le calcul différentiel, qui nous permettra de bien mettre en
perspective ce qui est sans doute l’idée la plus féconde de toute l’Histoire des sciences.
Pour terminer cette revue des outils essentiels aux mathématiques modernes, nous parlerons
enfin de probabilités sous trois angles complémentaires : définition axiomatique, liens avec les
statistiques, aide à la modélisation de phénomènes déterministes chaotiques.
Les mathématiques aujourd’hui Les fondations posées, et les outils de base présentés, on
pourra alors s’attaquer aux concepts de plus haut niveau. Après une introduction aux géométries
non-euclidiennes qui sera l’occasion de vous initier au plaisir de la lecture d’une très belle preuve,
nous consacrerons une séance à l’analyse harmonique sous toutes ses formes : Épicycles de Pto-
lémée, diffusion de la chaleur, musique et traitement d’images seront unifiées dans une même
théorie géométrique dont une application directe se trouve être... Le format d’images JPEG,
aujourd’hui présent sur tous les appareils mobiles !
1.2. Pour aller plus loin : plan du cours 23
Toutes les cartes en mains, nous terminerons alors notre voyage par la présentation d’un
domaine de recherche actuel en mathématiques appliquées : le mien. Au confluent des statistiques,
de la mécanique des fluides et de la géométrie riemannienne, l’anatomie computationnelle a pour
objet l’étude quantitative d’une population de formes anatomiques : “courbes de croissance”
cardiaques, aide au diagnostic de la maladie d’Alzheimer ou comparaisons de fossiles d’hominidés
seront donc au rendez-vous.
Références
Je tiens à remercier mon prédécesseur, Jeremy Daniel, qui m’a donné l’idée d’aborder le jeu de
taquin pour cette leçon inaugurale. Si la démonstration historique est due à W. Johnson (Notes on
the “15” puzzle, 1879 : archive.org/details/jstor-2369492), j’ai privilégié l’approche suivie
par Michel Coste dans l’article publié sur le site de vulgarisation Images des Mathématiques – en
la simplifiant un peu : images.math.cnrs.fr/Le-jeu-de-taquin-du-cote-de-chez-Galois.
html. Démontrer l’insolubilité du problème de Loyd sans utiliser le vocabulaire des groupes de
permutation était une gageure !
Au lecteur curieux, je souhaiterais conseiller la lecture de l’excellent article Les to-
nalités musicales vues par un mathématicien (disponible à l’adresse culturemath.ens.
fr/content/les-tonalit%C3%A9s-musicales-vues-par-un-math%C3%A9maticien). Écrit par
Michel Broué, éminent algébriste et directeur du département de 1986 à 1993, ce petit texte est
pour moi une référence de ce que doit être un texte de vulgarisation mathématique : clair, honnête
et précis.
Séance 1 24 Chapitre 1. Introduction
Le plan a changé !
Première partie
25
Chapitre 2
Il est maintenant temps de clore cette première partie du cours consacrée aux fondements
des mathématiques. Au chapitre précédent, nous avons construit les ensembles de nombres du
collège qui permettent de compter, de calculer, de passer au continu. Reste donc, enfin, à aborder
le “sommet” du lycée : le corps des nombres complexes.
Dans un premier temps, nous reverrons en douceur les notions algébriques les plus simples, en
reprenant la belle exposition du film Dimensions. Les fondamentaux révisés, nous n’enchaînerons
alors pas immédiatement sur les applications, qui attendront le chapitre 3 consacré à l’analyse
harmonique. Pour terminer dignement cette introduction aux mathématiques modernes, je vous
propose plutôt de nous intéresser à la notion de preuve : Au travers de l’étude du théorème
fondamental de l’algèbre, nous verrons qu’en mathématiques, la preuve nous apporte bien plus
qu’un simple résultat.
Le présentateur
Les nombres complexes constituent l’un des plus beaux chapitres des mathématiques et sont
devenus essentiels dans la science. Le chemin de leur découverte n’a pas été aisé et la terminologie
employée témoigne de cette difficulté ; on a parlé de nombres impossibles, imaginaires, et le mot
“complexe” laisse entendre qu’il n’est pas facile de les comprendre. Heureusement ce n’est plus le
cas aujourd’hui : nous pouvons maintenant les présenter d’une manière relativement élémentaire.
Adrien Douady est le présentateur de ces chapitres. Mathématicien exceptionnel, ses contri-
butions sont très variées, et il aimait dire que toutes ses recherches tournaient autour des nombres
complexes. Il est en particulier l’un de ceux qui ont fait revivre la théorie des systèmes dynamiques
complexes dont nous dirons quelques mots plus loin.
L’une des caractéristiques de cette théorie est qu’elle engendre de très jolis ensembles fractals
qu’on peut aujourd’hui représenter grâce aux ordinateurs. Adrien Douady fait partie de ceux qui
27
Séance 2 28 Chapitre 2. Le corps des nombres complexes
ont résolument encouragé la production de ce type d’images, à la fois pour aider le mathématicien
dans son travail de recherche et pour populariser les mathématiques dans la société.
On lui doit également un film d’animation mathématique intitulé La dynamique du lapin :
il aimait baptiser les objets mathématiques de noms étonnants : lapin, avion, shadok etc. Sa
disparition récente a profondément attristé la communauté des mathématiciens.
Il est clair que même Adrien Douady ne peut pas expliquer toute la théorie des nombres
complexes en deux chapitres de 13 minutes... Ces chapitres ne peuvent pas se substituer au cours
d’un professeur, à un livre, ou à une exposition détaillée. Il faut considérer ces chapitres comme
des compléments ou des illustrations qui encouragent à en savoir plus ou des rappels pour ceux
qui auraient oublié de lointaines leçons passées. Bien sûr, le film cherche avant tout à mettre en
évidence le côté géométrique de ces nombres complexes.
Nombres et transformations
Nous avons vu que la droite est de dimension 1 puisqu’on peut se repérer sur une droite avec
un nombre, positif à droite de l’origine et négatif à gauche. Les points sont des êtres géométriques
et les nombres sont des êtres algébriques. L’idée de penser à des nombres comme des points ou
à des points comme des nombres, c’est-à-dire de mélanger l’algèbre et la géométrie, est l’une des
idées les plus fécondes des mathématiques. Comme toujours, il n’est pas facile de l’attribuer à un
seul homme mais c’est en général à Descartes qu’on attribue cette méthode puissante d’étude de
la géométrie par l’algèbre : c’est la naissance de la géométrie algébrique. Si les points d’une droite
sont des nombres, on doit pouvoir comprendre géométriquement la signification des opérations
élémentaires entre nombres : l’addition et la multiplication. La clé de cette compréhension est
dans l’idée de transformation.
Par exemple, soustraire 1 à un nombre x, c’est-à-dire la transformation x − 1, est vue géo-
métriquement comme une translation : tous les points sont translatés de 1 vers la gauche. De la
même manière, la multiplication par 2 est pensée comme une dilatation.
La multiplication par −1 qui envoie chaque point x sur −x est pensée comme une symétrie :
chaque point est transformé en son symétrique par rapport à l’origine. La multiplication par −2
est quant à elle la composition des deux opérations précédentes. Multiplier deux nombres revient
à composer les transformations qui leur sont associées. Par exemple, la transformation associée
à la multiplication par −1 est une symétrie et lorsque l’on effectue cette opération deux fois de
suite, on revient au point de départ, si bien que le produit de −1 avec lui-même est +1. Le carré
de −1 est +1.
Le carré de −2 est +4 pour la même raison. Il résulte de tout cela que le carré de tout nombre
est toujours positif. Il n’y a pas de nombre dont le carré soit égal à −1.
Autrement dit, −1 n’a pas de racine carrée.
La racine carrée de -1
Pendant longtemps, l’impossibilité de trouver une racine carrée pour −1 était un dogme dont
on ne pouvait pas discuter. Mais à l’époque
√ de la Renaissance, certains esprits inventifs osèrent
rompre le tabou√ ! Si l’on ose écrire −1, alors on peut aussi écrire des nombres comme par
exemple 2 + 3 −1 et on peut également jouer avec ces nombres de manière formelle, sans trop
essayer de comprendre leurs significations. Ces pionniers ont alors constaté de manière en quelque
sorte expérimentale que calculer avec ces nombres impossibles ne semblait pas mener à des contra-
dictions si bien que ces nouveaux nombres furent peu à peu acceptés par les mathématiciens,
sans de véritables justifications.
2.1. Retour sur les nombres complexes vus au lycée 29
(a) Adrien Douady, par François Tis- (b) L’un des premiers traités où apparut l’interpré-
seyre — Photo prise à l’IHP. tation géométrique des nombres complexes.
Figure 2.2 – Interpréter les nombres comme des similitudes de la droite réelle (dilatations +
rotations) permet de nous ouvrir l’esprit : la multiplication n’est plus que la composition des
fonctions.
(a) Les racines carrées de −1 (la rotation de (b) Tout point du plan peut être associé à une
180◦ ) sont alors toutes trouvées : ce sont les unique similitude.
rotations d’angles 90◦ et 270◦ , que l’on note
respectivement +i et −i.
Figure 2.3 – Penser un point (x, y) comme “l’unique similitude qui envoie (1, 0) sur (x, y)”
permet de munir le plan d’une structure multiplicative. Miracle : celle-ci est compatible avec
l’addition vectorielle, introduite au collège.
Séance 2 30 Chapitre 2. Le corps des nombres complexes
L’histoire de ces nouveaux nombres est bien longue et il n’est pas dans notre intention de
décrire les étapes qui ont conduit à des bases solides. Il suffira de dire, pour simplifier à l’extrême,
qu’au tournant du dix-neuvième siècle, quelques mathématiciens, dont Gauss, Wessel et Argand,
ont pris conscience du caractère géométrique de ces nombres imaginaires. Le film montre une
présentation simplifiée d’une idée très simple d’Argand.
Le nombre −1 est associé à la symétrie par rapport à l’origine sur la droite, c’est-à-dire à une
rotation d’un demi-tour. Chercher une racine carrée pour −1, c’est chercher une transformation
qui, effectuée deux fois de suite, serait une rotation d’un demi-tour. Argand déclare donc que la
racine carrée de −1 doit être associée à la rotation d’un quart de tour, tout simplement. Faire
deux rotations d’un quart de tour, c’est faire une rotation d’un demi-tour, c’est-à-dire multiplier
par −1.
Si on part de cette idée, on a envie de dire que la racine carrée de −1 est obtenue à partir
de 1 en tournant d’un quart de tour. Bien sûr, l’image de 1 par une rotation d’un quart de tour
n’est pas sur la droite et nous venons de décider que la racine carrée de −1 est un point qui n’est
pas sur la droite mais dans le plan !
L’idée est simple et jolie : considérer les points du plan comme des nombres. Alors bien sûr,
ce ne sont plus les mêmes nombres que ceux auxquels nous sommes habitués. Pour cette raison,
on dit que les nombres “traditionnels” sont les nombres réels, et les nombres que nous sommes
en train de définir, associés aux points du plan, sont les nombres complexes.
Si nous repérons un point du plan par ses deux coordonnées (x, y), qui sont des nombres
réels, la droite dont nous sommes partis est la droite d’équation y = 0, et le point qui est l’image
de (1, 0) par la rotation d’un quart de tour est (0, 1). C’est donc ce point qu’Argand considère
comme la racine carrée de −1. Les mathématiciens, toujours étonnés par ce “tour de passe passe”,
appellent ce point i, comme “imaginaire”. Puisque nous voulons des nombres qu’on peut ajouter
entre eux, on peut considérer le nombre x + iy : il lui correspond le point du plan de coordonnées
(x, y).
En résumé, Argand nous incite à considérer les points (x, y) du plan non pas comme deux
nombres (réels) mais plutôt comme un seul nombre (complexe). Cela peut sembler très étonnant
et peut-être artificiel mais nous verrons que cette idée est très puissante.
Arithmétique complexe
La suite n’est pas difficile. Après toutes ces spéculations, on définit un nombre complexe z
comme étant la donnée de deux nombres réels (x, y), c’est-à-dire un point du plan, et on le note
z = x + iy. Il s’agit ensuite de montrer qu’on peut ajouter ces nombres complexes, les multiplier,
et aussi que toutes les propriétés du calcul auxquelles nous sommes habitués sont encore valides.
Par exemple, il faut s’assurer que la somme des nombres complexes est la même quelle que soit
l’ordre dans lequel on les ajoute. Tout cela peut être fait rigoureusement mais ce n’est bien sûr
pas le but du film...
Pour l’addition c’est facile : on a la formule
(x + iy) + (x0 + iy 0 ) = (x + x0 ) + i(y + y 0 ), (2.1)
si bien qu’ajouter des nombres complexes revient à ajouter des vecteurs. Pour la multiplication,
c’est un peu plus difficile :
(x + iy) · (x0 + iy 0 ) = xx0 + ixy 0 + iyx0 + i2yy 0 (2.2)
= (xx0 − yy 0 ) + i(xy 0 + x0 y), (2.3)
mais ici, c’est par un petit miracle que cette formule est satisfaisante. Par exemple, il n’est pas
du tout évident avec cette formule qu’on peut multiplier trois nombres complexes dans n’importe
2.1. Retour sur les nombres complexes vus au lycée 31
(a) Additionner deux complexes, c’est procéder (b) Multiplier deux complexes, c’est faire le
à une somme coordonnées à coordonnées. (x1 + produit des modules et la somme des argu-
iy1 ) + (x2 + iy2 ) = (x1 + x2 ) + i(y1 + y2 ). ments. r1 eiθ1 · r2 eiθ2 = r1 r2 ei(θ1 +θ2 ) .
Figure 2.4 – Le “plan” complexe C est muni d’une structure additive, donnée par l’addition
des vecteurs, et d’une structure multiplicative, donnée par la composition des similitudes. Fait
remarquable : cette structure géométrique donne l’unique loi × qui soit compatible avec + (i.e.
associative, distributive, commutative), étendant celle de R avec un élément symbolique i de
carré −1. Elle avait été découverte, comme un simple jeu formel, par les mathématiciens du
XVIe siècle.
quel ordre pour trouver le même résultat, ou encore qu’on peut toujours diviser par un nombre
non nul. Ce petit miracle n’est pas expliqué dans le film... cela nous aurait mené trop loin !
Deux notions seront utiles pour la suite :
Le module d’un nombre complexe z = x+iy est simplement la distance du pointp correspondant
(x, y) à l’origine. On le note |z| et il est égal, d’après le théorème
√ de Pythagore à x2 + y 2 . Par
exemple, le module de i est égal à 1 et celui de 1 + i à 2.
L’argument indique la direction de z. On le note Arg(z) et ce n’est rien d’autre que l’angle
entre l’axe des abscisses et la droite joignant l’origine à (x, y). Cet argument n’est défini que si
z est non nul. Par exemple, l’argument de i est de 90 degrés, celui de 1 est nul, celui de −1 de
180 degrés, et celui de 1 + i de 45 degrés.
Les mathématiciens ont longtemps essayé de faire la même chose dans l’espace de dimen-
sion 3 : comment multiplier des points dans l’espace ? Il leur a fallu attendre longtemps avant de
comprendre que ce n’est pas possible. Dans l’espace de dimension 4, ils ont découvert que c’était
partiellement possible, à condition d’abandonner l’idée que le multiplication vérifie ab = ba ! et
ils ont fini par découvrir qu’en dimension 8, c’est encore possible, à condition d’abandonner l’idée
que (ab)c = a(bc), avant de comprendre, au milieu du vingtième siècle, que dans les dimensions
autres que 1,2,4 et 8, il n’y a vraiment aucun moyen de multiplier les points ! Pour comprendre
quelque chose aux phrases mystérieuses qui précèdent, on pourra lire les articles Wikipédia sur
les nombres hypercomplexes, les quaternions et les octonions.
En résumé, les points du plan sont définis par un seul nombre... complexe. Le plan que
nous avions dit être de dimension 2 est maintenant de dimension 1 ! Il n’y a bien sûr pas de
contradiction : le plan est de dimension 2 réelle mais c’est une droite de dimension 1 complexe.
Plan réel, droite complexe... Dimension 2 réelle, dimension 1 complexe. Jeu de mots ?
Séance 2 32 Chapitre 2. Le corps des nombres complexes
(a) La projection stéréographique définit une (b) La sphère est une droite projective com-
bijection entre la sphère et le plan, avec un plexe, compacte.
“point à l’infini” associé au pôle Nord.
Transformations
Le chapitre 6 du film propose de donner un peu d’intuition sur les nombres complexes à
travers certaines transformations de la droite complexe.
Une transformation T est une opération qui associe à chaque nombre complexe z, c’est-à-
dire à chaque point du plan, un autre point T (z). Pour l’illustrer, on place le portrait d’Adrien
Douady dans le plan et on montre ensuite son image par la transformation : chaque pixel qui
constitue le portrait est transformé par T .
Adrien choisit plusieurs exemples de transformation T :
T(z) = z/2 Chaque nombre est divisé par deux. Bien sûr, l’image est réduite deux fois : un zoom
arrière ! On appelle cela une homothétie.
T(z) = iz Il s’agit simplement d’une rotation d’un quart de tour, par définition de i...
√
T(z) = (1 + i)z Puisque le module de 1 + i est 2 et son argument est√45 degrés, il s’agit de
composer une rotation de 45 degrés et une homothétie d’un facteur 2. On appelle cela une
similitude. C’est l’un des grands avantages des nombres complexes : ils permettent d’écrire
très simplement les similitudes comme des multiplications.
T(z) = z2 Voilà notre première transformation non linéaire. En plaçant la photo en deux endroits
différents, on peut prendre conscience de l’effet du passage au carré dans la droite complexe :
les modules sont élevés au carré et les arguments sont doublés.
T(z) = −1/z Il s’agit d’une transformation proche de celle qu’on appelle d’ordinaire l’inversion.
Bien sûr, l’origine qui correspond au nombre 0, ne peut pas être transformée mais on
convient de dire qu’elle est envoyée à l’infini. La raison est très simple : si un nombre
complexe z s’approche de 0, c’est-à-dire si son module tend vers 0, son transformé −1/z a
un module qui est l’inverse de celui de z et qui tend donc vers l’infini. La transformation a
donc la propriété d’“exploser”, c’est-à-dire de transporter très loin les petits voisinages de
l’origine, jusqu’à sortir hors de l’écran... Réciproquement, les points qui sont très éloignés
de l’origine sont “écrasés” très près de l’origine.
Pendant très longtemps, les manuels scolaires donnaient une très grande importance à l’in-
version qui permet de démontrer de bien jolis théorèmes. La propriété principale de l’inversion
est qu’elle transforme les cercles en des cercles ou des droites. Les artistes utilisent souvent ce
genre de transformations et leur donnent le nom d’anamorphose.
Plus généralement, si on choisit quatre nombres complexes a,b,c,d, on peut considérer la
transformation
az + b
T (z) = . (2.4)
cz + d
Ces transformations portent plusieurs noms en mathématiques : transformations de Moebius,
homographies, transformations projectives, mais leur propriété principale est d’envoyer les cercles
Séance 2 34 Chapitre 2. Le corps des nombres complexes
sur des cercles ou des droites. Ce groupe de transformations est celui d’une magnifique géométrie
appelée circulaire, proche de la géométrie non euclidienne, mais c’est une autre histoire – qui
sera détaillée au chapitre 4 de notre polycopié !
Dans le film, on s’intéresse à la transformation
k
T (z) = z + . (2.5)
z
Cette transformation a été étudiée par Joukovski dans ses études sur l’aérodynamique des ailes
d’avions ! Mais Adrien Douady aurait pu choisir d’autres transformations, en particulier qui lui
donnent une ligne plus fine que celle-ci ! Le but de cette illustration est de montrer une propriété
fondamentale de ce type de transformations. Bien sûr, elles ne transforment plus les cercles en
cercles, seules les transformations de Moebius le font ; mais cela est vrai au niveau infinitésimal.
Si on prend un petit cercle et on considère la courbe transformée, elle n’est pas un cercle mais
elle est très proche d’un cercle, d’autant plus proche que le cercle initial est petit. Une autre
manière d’exprimer la même chose est de dire que les transformations en question se comportent
comme des similitudes au niveau infinitésimal. Ces transformations sont appelées holomorphes
ou conformes. Les racines grecque et latine “holo” et “con” signifient “même”, et morphe signifie
bien sûr “forme” : autrement dit ces transformations préservent les formes. L’étude des fonctions
holomorphes est l’un des chapitres les plus importants des mathématiques, comme nous aurons
l’occasion de le voir à la fin du chapitre.
2.1. Retour sur les nombres complexes vus au lycée 35
(a) État initial. (b) Première... (c) Deuxième... (d) Troisième... (e) Julia.
Figure 2.9 – L’ensemble de Julia associé au monôme z 7→ z 2 + 0 est le disque unité. On applique
le polynôme une fois, deux fois, trois fois... À la limite, seuls les points de module |z| 6 1
conservent une orbite bornée.
(a) z 7→ z 2 + .25 (b) z 7→ z 2 − .74 + .12i (c) z 7→ z 2 − .75 − .03i (d) z 7→ z 2 + .37 − .28i
Figure 2.10 – Lorsque la constante c est non nulle, la dynamique se complexifie, ce qui est reflété
dans l’ensemble de Julia associé.
Dynamique holomorphe
Dans la deuxième partie du chapitre 6, Adrien Douady propose une initiation à un magnifique
sujet d’étude auquel il a apporté des contributions majeures. Il s’agit de l’étude des ensembles
de Julia, qui outre leur intérêt mathématique fondamental ont une beauté extraordinaire (et les
deux choses sont bien sûr liées). Il est rare qu’une théorie mathématique puisse être illustrée
d’une manière si belle et de nombreux artistes se sont inspirés de ces images.
L’idée de départ est très simple : on choisit un nombre complexe c quelconque. Puis, on
considère la transformation Tc (z) = z 2 + c. Il s’agit donc dans un premier temps d’élever au carré
un nombre puis de le translater en lui ajoutant c. Partant d’un point initial z, son transformé est
un point z1 = Tc (z), puis on considère le transformé du transformé z2 = Tc (z1 ) et on continue
à l’infini en produisant une suite de nombres complexes zn dont chacun est le transformé du
précédent. On dit que la suite zn est l’orbite du point initial z par la transformation Tc . Etudier
le comportement de cette suite zn , c’est comprendre la dynamique de Tc . Il s’agit bien sûr
d’un exemple très simple, mais cet exemple est suffisamment riche pour engendrer de très belles
mathématiques.
Considérons d’abord le cas où c = 0. Il s’agit alors d’effectuer de manière répétée la transfor-
mation Tc (z) = z 2 . Le module de chaque zn est donc le carré du précédent. Si le module de z
est inférieur à 1, c’est-à-dire si z est à l’intérieur du disque de rayon 1 centré sur l’origine, tous
les zn vont rester dans ce disque. Par contre si le module de z est strictement supérieur à 1, les
modules des zn vont croître sans cesse et même tendre vers l’infini : l’orbite de z va finir par
quitter l’écran !
Dans le premier cas, on dit que l’orbite est stable : elle reste dans une zone limitée du plan.
Dans le second cas, elle est instable : elle fuit vers l’infini. L’ensemble des points z dont l’orbite
est stable est donc le disque.
De manière générale, pour chaque valeur de c, on peut aussi distinguer deux sortes de points z.
Séance 2 36 Chapitre 2. Le corps des nombres complexes
Figure 2.11 – Un point c (en noir) est dans l’ensemble de Mandelbrot (en rouge) si le Julia
associé à z 7→ z 2 + c (en bleu) est connexe, visible à l’écran. C’est le cas pour les trois premières
images, mais pas pour la quatrième.
L’orbite de z par Tc peut être stable, si elle reste dans une partie limitée du plan, ou instable dans
le cas contraire. L’ensemble des z dont l’orbite est stable est appelé l’ensemble de Julia rempli de
la transformation Tc . Comprendre la structure de ces ensembles de Julia et la manière dont ils
varient lorsque c varie est un enjeu majeur de la théorie des systèmes dynamiques holomorphes.
Dans un premier temps, Adrien Douady nous montre quelques exemples d’ensembles de Julia
pour diverses valeurs de c. Certains portent des noms exotiques, comme par exemple le lapin
(voyez-vous ses oreilles ?) pour c = −0.12 + 0.77i.
On sait depuis le début du vingtième siècle que l’ensemble de Julia rempli peut être de deux
types. Il peut être, comme dans les exemples montrés précédemment, d’un seul tenant, connexe
comme on dit en mathématiques, ou bien il peut être totalement discontinu, constitué d’une
infinité de morceaux éclatés, chacun d’entre eux étant d’intérieur vide, ce qui veut dire en clair
qu’on ne les voit pas sur un dessin ! Par conséquent, il y a des valeurs de c pour lesquelles
on voit l’ensemble de Julia et d’autres pour lesquelles on ne le voit pas (même si bien sûr il est
présent). L’ensemble des valeurs de c pour lesquelles on voit bien l’ensemble de Julia (pour lesquels
l’ensemble de Julia est connexe) est appelé l’ensemble de Mandelbrot, pour rendre hommage à
Benoît Mandelbrot, son inventeur. Adrien Douady a beaucoup travaillé pour comprendre cet
ensemble ; il a par exemple contribué à montrer qu’il est lui-même connexe et il aurait bien aimé
(comme beaucoup d’autres) montrer qu’il est localement connexe...
La fin du chapitre est consacrée à une plongée dans l’ensemble de Mandelbrot, plongée pro-
fonde puisque le facteur de dilatation est de l’ordre de deux cent milliards ! On peut observer cette
scène de deux manières. On peut la regarder et l’admirer tout simplement : c’est suffisamment
joli pour cela ! Mais on peut aussi se poser quelques questions...
Par exemple, quelle est la signification des couleurs ? Un ancien théorème affirme que l’en-
semble de Julia de Tc n’est pas connexe, autrement dit que c n’est pas dans l’ensemble de
Mandelbrot, si et seulement si l’orbite de 0 par Tc est instable. Pour une valeur de c donnée, on
peut donc prendre l’orbite de z = 0 par Tc et observer son comportement pour les grandes valeurs
de n. Si zn devient très grand rapidement, c’est que c n’est pas dans l’ensemble de Mandelbrot
et même qu’il en est assez éloigné. Si la suite zn tend vers l’infini mais plus lentement, le point c
n’est toujours pas dans l’ensemble de Mandelbrot mais il en est en quelque sorte plus proche. La
couleur avec laquelle on colorie le point c dépend de la vitesse de fuite vers l’infini de l’orbite zn ,
montrant ainsi la “proximité” à l’ensemble de Mandelbrot. Si par contre zn reste dans une zone
limitée, alors c est dans l’ensemble de Mandelbrot et on le colorie en noir.
L’ensemble de Mandelbrot sur la figure ci-dessus à été colorié de cette façon, mais il existe des
dizaines de méthodes. Dans le film, on a utilisé la méthode dite “Inégalité du triangle” : lorsque le
module de zn devient plus grand qu’une certaine valeur, on calcule les modules A = |zn − zn−2 |,
B = |zn − zn−1 | et C = |zn−1 − zn−2 |. A/(B + C) donne toujours un résultat entre 0 et 1, et on
utilise ce résultat pour indiquer la position sur une palette de couleurs.
2.1. Retour sur les nombres complexes vus au lycée 37
Pourquoi à certains moments a-t-on l’impression de voir apparaître de nouvelles petites copies
noires de l’ensemble de Mandelbrot ? C’est beaucoup plus difficile à expliquer et c’est l’une des
découvertes importantes d’Adrien Douady : l’ensemble de Mandelbrot possède des propriétés
d’autosimilarité : une caractéristique fréquente des ensembles fractals.
Séance 2 38 Chapitre 2. Le corps des nombres complexes
Polynômes complexes On s’en souvient : les “polynômes de degré 1 et 2” occupent une place
importante dans les programmes du secondaire... Mais qu’est-ce, au juste, qu’un polynôme P ?
Très simplement : une somme pondérée d’applications “puissances”, i.e. la donnée d’une suite
finie de coefficient pd , . . ., p0 dans C, avec
d
X
P (z) = pk z k = pd z d + · · · + p2 z d + p1 z 1 + p0 z 0 . (2.6)
k=0
On appellera degré du polynôme P le plus grand indice associé à un coefficient non nul. Un
polynôme de degré 0 sera donc simplement identifié à une constante p0 , tandis qu’un polynôme
de degré 1 correspondra à une application linéaire, et un polynôme de degré 2, à une application
quadratique :
P (z) = p2 z 2 + p1 z + p0 (2.7)
2
= az + bz + c avec les notations du lycée. (2.8)
Les polynômes sont donc, en un sens, les expressions algébriques les plus simples ; les géné-
ralisations immédiates des problèmes linéaires que nous avions étudié au chapitre précédent. Le
théorème que je vous propose d’étudier est alors le suivant :
Théorème 2.1 (D’Alembert, Gauss). Soit P un polynôme complexe non constant – i.e. de degré
supérieur ou égal à 1. Alors l’équation
P (z) = 0 (2.9)
admet au moins une solution dans C.
Intérêt Ce “théorème fondamental de l’algèbre” mérite bien son nom. En garantissant l’exis-
tence d’une solution complexe pour toute équation polynomiale, il justifie la construction de C :
envisagé au départ comme une simple extension de R, C devient en fait le cadre privilégié pour
faire des calculs algébriques.
Notez que ce résultat est a priori surprenant : en ajoutant les seules racines ±i du polynôme
X 2 + 1 – et leurs multiples/sommes avec des réels – nous avons résolu le problème des solutions
pour toute équation polynomiale.
La propriété qu’a C d’être algébriquement clos est en fait comparable à la complétude de
R dont nous avions discuté au chapitre précédent. Rappelez-vous : en garantissant la propriété
des valeurs intermédiaires, la complétude de la droite réelle nous avait permis de donner une
solution à tout problème d’intersection de courbes, de trajectoires. Si l’instant de rencontre entre
une balle et le sol était impossible à définir comme un rationnel, il était par contre tout à fait
légitime en tant que nombre réel : c’est donc que R est le cadre naturel pour faire de la mécanique
classique, le cadre où on peut appeler un instant par son nom sans périphrases encombrantes.
2.2. Polynômes et théorème fondamental de l’algèbre 39
Pour les nombres complexes, c’est la même chose. Le théorème 2.1 assure simplement que si
l’on étudie des équations polynomiales – elles apparaissent naturellement en physique, en géomé-
trie, en électronique ou partout ailleurs – alors il n’y a pas de mauvaise surprise à craindre. Les
solutions de nos équations seront peut-être complexes, et éventuellement impossibles à atteindre
physiquement√; mais au moins, nous pourrons en parler, les étudier, les cataloguer. L’instant du
choc tchoc = 2 s était irrationnel à la page 200 ? C’est donc qu’il est impossible de le “prendre
en photo” à la bonne fraction de seconde ; mais cela ne devrait pas nous empêcher d’en parler.
J’espère vous avoir convaincu de la pertinence de ce résultat. Plutôt que de m’appesantir sur
les propriétés des nombres complexes et leurs applications à la vie courante – ce que nous ferons
au chapitre 3 – je voudrais consacrer la deuxième moitié de ce chapitre à une discussion autour
de la notion de théorème.
Variété des approches Plus que le résultat en lui-même, connu et démontré depuis la fin du
XVIIIe siècle, ce sont ses preuves qui intéressent le mathématicien moderne. Mais à quoi bon
vérifier, re-vérifier et re-revérifier un énoncé si célèbre ? C’est que contrairement à ce que l’on
croit souvent, le rôle fondamental du mathématicien n’est pas de vérifier, mais de comprendre.
Bien connaître le travail du mathématicien, c’est réaliser que plus qu’une liste de théorèmes
à utiliser comme boîtes noires, un (bon) article de recherche est la proposition d’un nouveau
point de vue sur une question, ouverte ou non. Bien sûr, les “grands problèmes”, les “grandes
conjectures” ont toujours attiré les mathématiciens ingénieux. Mais loin des images de trésors
enfouis au petit bonheur sous le sable d’une plage, il faut se les représenter comme perchés à des
hauteurs si élevées qu’elles semblent inaccessibles : seul arrivera à décrocher la Lune celui qui
construira la première fusée, ouvrant ainsi la voie à une nouvelle ère de découvertes.
Prenez par exemple le problème de Syracuse. Partant d’un entier n quelconque, il s’agit de
lui appliquer itérativement la règle suivante :
« S’il est pair, divisez-le par deux. Sinon, multipliez-le par trois, et ajoutez 1. » (2.10)
On peut ainsi construire les “parties” :
n = 1 → 4 → 2 → 1 → ··· (2.11)
n = 3 → 10 → 5 → 16 → 8 → 4 → 2 → 1 → · · · (2.12)
n = 7 → 22 → 11 → 34 → 17 → 52 → 26 → 13 → 40 → 20 → 10 → 5 → 16 → 8 → 4 → 2 → 1 → · · ·
(2.13)
En fait, pour tout choix de l’entier initial n, on finit par boucler sur le cycle élémentaire
1 → 4 → 2 → 1 → · · · – ç’a été testé jusqu’à cinq milliards de milliards... Mais aussi
incroyable que celui puisse paraître, depuis que cette petite propriété a été remarquée en 1928,
personne n’a jamais réussi à la démontrer. Et attention, ce n’est pas faute d’efforts : dans les
années 60, tant d’énergie avait été dépensée à ce sujet qu’on en arrivait même à dire en plaisan-
tant que le problème n’était autre... qu’une invention soviétique destinée à détourner l’effort de
recherche capitaliste !
Non, si aucune preuve de la “conjecture 3x + 1” n’a pu être trouvée, c’est bien, d’après le
grand Paul Erdös, parce que « les mathématiques ne sont pas encore prêtes pour ce genre de
problèmes ». Alors, quelle gloire pour celui qui saura faire avancer la science jusqu’à ce point !
Preuves du théorème fondamental de l’algèbre Pour la question qui nous intéresse ici,
les honneurs sont traditionnellement partagés entre Jean le Rond D’Alembert – celui de l’ency-
clopédie – qui en proposa une preuve incomplète en 1746, et Carl Friedrich Gauss qui en trouva
pas moins de quatre au cours de sa vie, de sa thèse de doctorat en 1799 à un travail tardif en
1849 – six ans avant sa mort.
Séance 2 40 Chapitre 2. Le corps des nombres complexes
Exposition du plan Dans les pages qui suivent, nous allons voir que chaque preuve originale
du théorème repose sur une nouvelle propriété, une nouvelle manière de comprendre la notion de
“polynôme”. Sans plus attendre, je vous propose donc d’attaquer notre programme par une preuve
élémentaire, directe. Peu à peu, au fil des pages, une intuition claire de ce qu’est un polynôme
complexe devrait se former dans votre esprit : espérons donc que le voyage vous plaira !
Preuve directe
|P | atteint son minimum Soit P un polynôme complexe de degré supérieur ou égal à 1. On
commence par remarquer deux choses :
1. P est continu de C dans C, i.e.
h→0
P (z0 + h) −−−−−→ P (z0 ), (2.14)
|P | : z 7→ |P |(z), (2.17)
Preuve par l’absurde Supposons donc maintenant que P n’a pas de racine, qu’il n’existe pas
de racine complexe z de P telle que P (z) = 0. En particulier, on a
P (z) = pd z d + · · · + p2 z 2 + p1 z + 1, (2.21)
P est localement surjectif On sait par hypothèse sur P (degré d non nul) qu’au moins un
des coefficients pk de l’écriture (2.21) est non nul : on va raisonner sur l’indice du plus petit
d’entre eux, noté n, entier compris entre 1 et d, et on écrit simplement
P (z) = 1 + z n · pn + pn+1 z + · · · + pd z d−n . (2.23)
En notant θ un argument de pn dans [−π, π] tel que pn = ρeiθ (avec ρ > 0), et
zt = t ei(π−θ)/n , (2.24)
Figure 2.13 – Un polynôme P non constant explose à l’infini, et reste continu : son module
atteint donc son minimum. Supposer par l’absurde que ce minimum est non nul, c’est supposer
qu’il existe un disque D centré en 0 rayon m tel que P (z) reste toujours en dehors de D, avec
toutefois un certain P (a) sur le bord du disque. Quitte à renormaliser, on peut supposer que
a = 0, m = 1, P (a) = P (0) = 1. Mais alors, il est facile de trouver une direction, un angle
0
θ0 = (π − θ)/n tel que P (teiθ ) approche P (0) = 1 par la gauche, quand t tend vers 0. Pour
t suffisamment petit, on trouve donc un bon P (zt ) dans le disque D, ce qui contredit notre
hypothèse.
Séance 2 42 Chapitre 2. Le corps des nombres complexes
Premières définitions Avant d’arriver à notre théorème, définissons un lacet comme une
application continue du cercle S 1 dans le plan complexe privé du point 0 – voir Figure 2.14.
On dira que deux lacets l et m sont homotopes, ou joignables par une déformation continue,
s’il existe une fonction continue
telle que
Autrement dit, un chemin F entre l et m est la donnée d’une collection continue de lacets
Ft = F (t, ·) telle que F0 = l et FT = m : ceux-ci sont par exemple représentés Figure 2.15a.
Il n’est pas difficile de se convaincre que la relation d’homotopie est bien celle qui correspond à
l’idée d’une déformation “sans déchirures” : deux lacets l et m sont homotopes si et seulement si on
peut déformer l’un en l’autre continûment, le chemin F jouant alors le rôle de “film cinématique”
avec une image Ft par instant t de [0, T ] donné.
Comme pour le jeu de taquin, la question essentielle est la suivante :
« Tous les lacets sont-ils joignables entre eux ? »
Cas du plan Dans le plan complexe “tout entier”, la réponse est affirmative : tout lacet l est
joignable au lacet constant égal à 0. Il suffit pour cela de considérer l’homotopie de rétraction
F : [0, 1] × S 1 → C (2.31)
(t, s) 7→ (1 − t) l(s) (2.32)
qui réduit uniformément l sur le point origine du repère. Elle se trouve représentée Figure 2.15.
Cas du plan épointé Dans le cadre qui nous intéresse ici, celui de C\{0}, la réponse est plus
difficile à trouver. Il semble en effet impossible de passer du lacet identité à un lacet constant :
le point 0 étant infranchissable, notre expérience du monde nous dit bien qu’à moins de déchirer
notre lacet, il restera toujours solidement enroulé autour de l’origine du repère. Si l’on admet
disposer d’une définition générale du nombre d’enroulement, ou nombre de tours que fait un lacet
autour du point 0, le résultat suivant nous tire d’affaire :
Théorème 2.2. Le nombre d’enroulements est un invariant d’homotopie sur les lacets de C\{0}.
Autrement dit : il est impossible d’enrouler un bracelet élastique autour d’une barre de métro.
Attention : tout intuitif qu’il soit, le théorème 2.2 est un résultat difficile. Définir proprement le
nombre d’enroulement d’un lacet quelconque est déjà beaucoup trop technique pour un simple
cours de vulgarisation... Tandis que démontrer son invariance par homotopie demande des heures
de travail à vos camarades qui suivent le cours de Topologie Algébrique !
2.2. Polynômes et théorème fondamental de l’algèbre 43
2i 2i
1i 1i
0i l
0i
−−−−−−−−−−−→
-1 i -1 i
-2 i -2 i
−2 −1 0 1 2 −2 −1 0 1 2
Figure 2.14 – Exemple de lacet : le cercle unité est envoyé continûment dans le plan complexe.
2 i 2i 2i
1 i 1i 1i
0 i 0i 0i
-1 i -1 i -1 i
-2 i -2 i -2 i
−2−1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
(a) Exemple d’homotopie entre (b) Tout lacet du plan peut être (c) En composant les défor-
le lacet identité et un lacet bis- rétracté sur le point 0... mations, on peut donc joindre
cornu. deux lacets quelconques sur C.
Figure 2.15 – La relation d’homotopie illustrée dans le plan complet C. On représente ici les
étapes intermédiaires de la déformation pour t = 0, 0.1, 0.2, . . . , 1.
2i 2i 2i
1i 1i 1i
0i 0i 0i
-1 i -1 i -1 i
-2 i -2 i -2 i
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
(a) Nombre d’enroulements : 0. (b) Nombre d’enroulements : 1. (c) Nombre d’enroulements : 2.
Figure 2.16 – Le nombre d’enroulements étant invariant par homotopie dans le plan épointé,
aucun de ces trois lacets ne peut-être relié à un des deux autres dans C\{0}.
Séance 2 44 Chapitre 2. Le corps des nombres complexes
Il est en effet impossible d’utiliser ici un schéma de preuve “exhaustif”, en vérifiant pour
chaque règle sa conservation de l’invariant : contrairement au jeu de taquin – 48 mouvements
possibles – le “jeu de l’élastique” a une infinité de degrés de liberté ; une théorie neuve – celle des
revêtements – doit donc être construite de toutes pièces. Pour ce cours, nous nous contenterons
d’admettre cette propriété : il est impossible de joindre continûment deux lacets dont le nombre
d’enroulements diffère.
Preuve du lemme Comme pour la preuve “directe”, il suffit de prendre un rayon R tel que le terme
de plus haut degré domine sur les autres : si on écrit
P (x) = pd xd + · · · + p1 x + p0 (2.33)
avec pd 6= 0, il suffira de choisir R supérieur à 1 et à (|pd−1 | + · · · + |p0 |)/|pd | pour obtenir pour tout
angle θ la domination
qui fait exactement d tours autour de 0. Plus formellement, on écrira simplement que
est une homotopie bien définie de lR vers md , qui ne s’annule pas grâce à l’équation (2.35) : en passant
par le théorème 2.2, on obtient donc une preuve rigoureuse du fait que le nombre d’enroulements de lR
est égal au degré de P ; Cqfd.
est une homotopie du lacet constant égal à P (0) vers le lacet lR , comme illustré Figure 2.19. Or
on a vu qu’il était impossible de faire passer le nombre d’enroulement d’un lacet de 0 au degré
de P sans passer par le point 0 : c’est donc que notre hypothèse d’absence de racine pour P était
absurde ; Cqfd.
2.2. Polynômes et théorème fondamental de l’algèbre 45
4i 4i 4i 4i
2i 2i 2i 2i
0i 0i 0i 0i
-2 i -2 i -2 i -2 i
-4 i -4 i -4 i -4 i
−4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4 −4 −2 0 2 4
2π 2π 2π 2π
π π π π
0 0 0 0
4i 4i 4i 4i
2i 2i 2i 2i
0i 0i 0i 0i
-2 i 2 4 -2 i 2 4 -2 i 2 4 -2 i 2 4
-4 i −4 −2 0 -4 i −4 −2 0 -4 i −4 −2 0 -4 i −4 −2 0
z 7→ z z 7→ z 4/3 z 7→ z 5/3 z 7→ z 2
2i 2i 2i
1i 1i 1i
0i 0i 0i
-1 i -1 i -1 i
-2 i -2 i -2 i
−2 −1 0 1 2 −2 −1 0 1 2 −2 −1 0 1 2
(a) P (z) = (1 + i)z − 1
2
, R = 1. (b) P (z) = 3
z − 13 z+ 16 ,
i 2
R = 2. (c) P (z) = z − 3 i 2
5
z − 1
2
z + i
10
,
R = 1.
2i 2i
1i 1i
0i P 0i
−−−−→
-1 i -1 i
-2 i -2 i
−2 −1 0 1 2 −2 −1 0 1 2
Définition 2.1 (Application holomorphe). Une application f de C dans C est dite holomorphe,
ou dérivable au sens complexe, s’il existe une application dérivée f 0 de C dans C telle que :
f (z + h) − f (z) h→0
∀ z ∈ C, −−−−−→ f 0 (z), (2.41)
h
ce que l’on préférera souvent noter
En tout point z, f est donc localement, à l’ordre 1, donnée par une similitude composée de la
translation de vecteur f (z), de l’homothétie de rapport |f 0 (z)| et de la rotation d’angle Arg(f 0 (z)).
d−1
X
0
P : z 7→ (k + 1)pk+1 z k . (2.43)
k=0
Démonstration. Par linéarité de la limite, il suffit de le montrer pour les applications monomiales
de la forme z 7→ z d . Or on a (formule de Pascal) :
d
X d
∀ z ∈ C, ∀ h ∈ C, (z + h)d = z d−k hk (2.44)
k
k=0
= z d + d z d−1 h + h2 · ··· , (2.45)
ce qui se comprend très bien : en développant le produit de d termes “(z + h)”, on fera apparaître
un terme “z d ” (qui correspond au choix du z dans chacune des parenthèses), d termes “z d−1 h”
(qui correspondent aux d choix possibles du type “je prends h dans une parenthèse, et z dans les
autres”), ainsi que des termes d’ordre 2 et plus en h (qui correspondent aux choix ou l’on prend
h dans plus d’une parenthèse). Résultat :
(z + h)d − z d z d + d z d−1 h + h2 · · · · − z d h→0
= = d z d−1 + h · · · · −−−−−→ d z d−1 . (2.46)
h h
2.2. Polynômes et théorème fondamental de l’algèbre 47
Un polynôme non-constant n’a qu’un nombre fini de point critiques La dérivé d’un
polynôme P de degré d est donc donnée par un polynôme P 0 de degré d − 1.
Si P était constant, alors P 0 = 0.
Sinon, on sait que P 0 ne peut avoir plus de d − 1 racines : on peut en effet montrer, par un
argument de division euclidienne, qu’un polynôme Q de racines z1 , . . ., zk peut être factorisé par
le polynôme (z − z1 ) · · · (z − zk ), ce qui est impossible dès que k dépasse le degré de Q, à moins
que Q soit nul.
Ainsi, en dehors d’un nombre fini de points (qu’on appelle les points critiques de P ), notre
polynôme P non-constant est localement donné par une similitude inversible :
1
à h 7→ P (z) + P 0 (z) · h on peut opposer s 7→ (s − P (z)) . (2.47)
P 0 (z)
2i 2i
1i 1i
0i 0i
-1 i -1 i
-2 i -2 i
−2 −1 0 1 2 −2 −1 0 1 2
(a) Espace des antécédents. Les cercles blanc (b) Espace des images. Les images des points
représentent les racines de P ; les croix noires, critiques, ou valeurs critiques sont représentées
les racines de P 0 , ou points critiques de P . par des croix noires ; le disque bleu désigne ici
l’image par P du point 0.
Figure 2.20 – Relèvement d’un chemin de l’espace image vers celui des antécédents pour le
polynôme P (z) = 18 z 4 + 81 z 3 − 2+i 2
8 z −
3+8i
8 z + 8 . Dans l’espace image (à droite), il est
5−5i
possible de trouver un chemin continu γt entre P (z0 ) et 0 qui évite les quelques valeurs critiques
de P – segment arc-en-ciel.
Séance 2 48 Chapitre 2. Le corps des nombres complexes
Alors, quelle valeur accorder au travail des mathématiciens ? À l’aube du XXIe siècle,
le temps des controverses philosophiques semble bien révolu. Rares sont maintenant ceux qui
prétendent apporter une contribution d’ordre métaphysique au travers d’une recherche sur les
nombres entiers ou les décimales de π... Par son travail, le mathématicien moderne cherchera
avant tout à proposer un point de vue “qui fait sens” sur une question “pertinente”.
Sans échelle de valeur absolue (une preuve de l’existence de Dieu par eiπ + 1 = 0 étant
maintenant jugée inaccessible), les critères de pertinence d’une question varient d’un domaine à
l’autre. En mathématiques appliquées, il suffira d’éclairer un problème concret ; de fournir aux
ingénieurs des méthodes robustes, performantes et bien comprises. En mathématiques fonda-
mentales, faire le consensus peut paraître plus difficile à mesure que s’éloignent les retombées
pratiques... À la croisée de multiples domaines et spécialités, les “grandes conjectures” permettent
aux mathématiciens de mesurer leurs progrès sur des échelles communes.
On a déjà parlé de la résolution des équations de Navier-Stokes (en analyse fonctionnelle),
de l’hypothèse du continu (en théorie des ensembles) ou de la conjecture de Syracuse (en arith-
métique), mais il ne s’agit là que des plus connues : chaque sous-domaine possède une liste de
“questions ouvertes”, étudiées depuis de longues années par des spécialistes passionnés. Au delà
de leurs intérêts propres, les grandes questions fascinent par leurs histoires, les difficultés qui
leur sont associées – on pense par exemple à la conjecture de Fermat. Les plus fameuses se re-
marquent par les connexions, les liens profonds qu’elles forcent à tisser entre des domaines a priori
étrangers. On a discuté des multiples preuves du théorème fondamental de l’algèbre, des milles
façons de parler des polynômes complexes. Tout en haut de l’échelle se trouve l’Hypothèse de
Riemann, ouverte depuis 1859 : avec ses centaines de reformulations, c’est sans conteste l’Everest
des mathématiques modernes.
La simple vérification de théorèmes “vrais” n’est donc pas une fin en soi. Ici comme ailleurs,
l’arbitre des élégances restera le comité d’attribution des postes universitaires, INRIA, et CNRS :
exigence d’excellence scientifique jugée par les pairs, mais aussi adéquation des thèmes de re-
cherche avec les grands enjeux du moment. Préservation du rayonnement de l’école française
d’algèbre, soutien à l’industrie aéronautique par un effort appuyé en mécanique des fluides, lan-
cement du “plan Alzheimer” ou positionnement dans le monde des Big Data... Autant de questions
qui orientent les intérêts, et façonnent la pensée mathématique de demain.
Chapitre 3
Au chapitre précédent, nous avons appris à penser les fonctions non plus comme des graphes,
mais comme des vecteurs en dimension infinie. Chaque valeur f (x) devenant une coordonnée
associée à un point x, on peut bien penser à munir les espaces de fonctions de repères, orthonormés
ou non, avec une infinité de directions. Rappelons-le : en dimension finie, on peut écrire un vecteur
x ∈ Rd sous la forme
d
X
x = xi · ei , avec une somme discrète, (3.1)
i=1
où ei est le vecteur dont toutes les coordonnées sont nulles, sauf la ie qui vaut 1. On dit que
(ei )i∈[[1,d]] est la base canonique de Rd , et que les xi sont les coordonnées de x dans celle-ci. Eh
bien, de manière analogue, si f est une fonction de R dans R, on pourra dire que
Z +∞
f = f (x) · δx dx, avec une somme continue, (3.2)
−∞
par linéarité du crochet de dualité – pour peu que f vérifie quelques hypothèses techniques. En un
sens, la famille des diracs (δx )x∈R forme donc la base canonique de l’espace des fonctions définies
sur R. Représenter f comme la donnée de ses valeurs f (x) c’est donc, simplement, expliciter ses
coordonnées dans la base canonique. Eh bien maintenant, pourquoi ne pas changer de base ?
y
z
e2 Figure 3.1 – Jeu de données dans le plan, un ensemble
ee1 de points (xi , yi ) dans R2 – en vert. Se focaliser sur ces
coordonnées, c’est manquer l’évidence : un paramètre
x
e1 réel z associé au vecteur ee1 suffit à décrire complètement
la distribution de points.
Séances 3 et 4 50 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Compression
On l’aura compris, un appareil photo génère un flot de données conséquent : près de 3 ×
3648 × 2736 ' 30 Mégaoctets pour une simple photo souvenir. Sur un réseau 3G à 384 ko/s
(en zone urbaine), transmettre la moindre photo au format bitmap brut prend donc plus d’une
minute. Or on le sait bien, une telle connexion permet “normalement” de regarder des vidéos en
direct, sans altération notable de la qualité... C’est qu’un algorithme particulièrement efficace
travaille en coulisses !
Pour libérer toutes les potentialités du réseau internet, le rôle du mathématicien est essentiel :
il aura à comprimer les fichiers images de manière efficace, c’est à dire à les réduire en des fichiers
de petites tailles, peu redondants, qui contiendront l’essentiel de l’information utile. Le résultat
obtenu sera à l’image originale ce que le jus d’orange déshydraté est au Tropicana : un succédané
sans finesse, mais bien moins encombrant.
Dans ce cours d’introduction, nous illustrerons nos idées sur l’image de référence la plus célèbre
du signal processing, excellent exemple d’image dite “naturelle” : Lena, une photo 256x256 en
niveaux de gris qui présente un visage lisse et de beaux dégradés, un plumeau particulièrement
travaillé et de nombreuses plages texturées.
Une méthode naïve, la quantification Une fois la photo prise, comment en réduire le poids
sur notre disque dur ? À l’état brut, il s’agit rappelons-le d’une liste de 2562 ' 65 000 entiers
encodés comme des nombres binaires à 8 chiffres :
En mémoire, l’image est encodée par ce gros tableau binaire de taille 65536×8. Supprimer des
lignes revient à oublier la couleur de certains pixels, et donc à rogner certaines parties de l’image
ou à sous-échantillonner notre fichier. C’est, bien sûr, une possibilité présentée Figure 3.2.
De manière plus intéressante, on peut essayer de supprimer les colonnes de droite du ta-
bleau, qui encodent les bits de poids faibles. Ce procédé qu’on appelle quantification est illustré
Figure 3.3 : il offre de piteuses performances.
Figure 3.2 – Effets du sous-échantillonnage sur le visage de Lena. À gauche, l’image originale,
progressivement dégradée par l’oubli, sur le tableau bitmap de 3 lignes sur 4, 7 lignes sur 8
puis 15 lignes sur 16. La compression est brutale, avec un artefact de blocking immédiatement
perceptible. Il est heureusement possible d’être plus efficace !
Image tirée du site de Ruye Wang, fourier.eng.hmc.edu/e161/lectures/digital_image/
node3.html.
Figure 3.3 – Effets de la quantification binaire sur le visage de Lena. De gauche à droite et de
haut en bas, on observe la même image de base encodée sur 256, 128, 64, 32, 16, 8, 4 et 2 niveaux
de gris. Ces images correspondent respectivement à des indices de quantification de 1, 2, 4, 8,
16, 32, 64 et 128, et sont obtenues en “oubliant” 0, 1, 2, 3, 4, 5, 6 ou 7 des 8 colonnes à droite
du tableau bitmap. Les niveaux de compression sont médiocres (1, 7/8, 6/8, 5/8, 4/8, 3/8, 2/8
et 1/8), au prix d’une dégradation considérable de la qualité de l’image : tous les dégradés sont
remplacés par des aplats, et aucun a priori sur la structure de l’image n’est mis à profit.
Image tirée du site de Ruye Wang, fourier.eng.hmc.edu/e161/lectures/digital_image/
node2.html.
Séances 3 et 4 52 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Format PNG et codages entropiques Pour aller plus loin, on peut chercher à repérer les
séquences récurrentes dans notre tableau bitmap. Ainsi, si le code 00010111 (couleur 23/255,
gris foncé) revient très souvent, on peut essayer de lui associer un code plus court (disons, 110)
quitte à donner un code un plus long à une couleur rarement utilisée. À la limite, on peut même
appliquer cette idée à des blocs de pixels contigus récurrents, par exemple des aplats de couleur
uniformes.
Trouver un encodage optimal pour une suite numérique arbitraire relève plus de l’informa-
tique (la science de l’information) que des mathématiques. Nous ne détaillerons donc pas ici les
algorithmes optimaux, qui reposent sur la théorie des encodages entropiques dont les plus célèbres
sont le code de Huffman voire l’algorithme Lempel–Ziv–Welch. Utilisés par le format d’archivage
.zip comme par le format d’images .png, cette théorie fournit des algorithmes de codage sans
perte, qui peuvent être optimaux au sens où ils sont asymptotiquement plus performants que
tout code reposant sur une table de correspondance (ou dictionnaire) finie.
Illustrées Figure 3.4, les performances de cet algorithme sont satisfaisantes sur les images
simples, les dessins, les scans de bandes dessinées ou de textes... Mais, sans critères bien posés de
perte acceptable ou de régularité, il se retrouve à la peine pour comprimer des images naturelles
comme des photos, où les séquences peuvent se ressembler sans être jamais identiques d’un
endroit à un autre. Sur internet vont donc coexister deux formats d’images dominants : le .png,
qui repose sur la théorie de l’information et est particulièrement adapté aux dessins et schémas ;
le .jpg, adapté spécifiquement à la compression de photos naturelles, que nous allons maintenant
présenter. En utilisant à fond un a priori de régularité sur l’image à comprimer, il fournira un
parfait exemple d’application des idées de la géométrie euclidienne aux problèmes industriels
modernes.
(a) Image originale présentant un mélange (b) Coût en bit de chaque pixel : les zones co-
d’aplats, de dégradés, de détails fins et de ré- lorées en rouge sont chères, le bleu correspond
gions texturées. aux régions comprimées de manière efficace.
Figure 3.4 – Illustration de l’algorithme de compression utilisé par le format .png, qui repose
sur un pré-traitement ad hoc et un codage de Huffman ligne par ligne. Les aplats uniformes sont
très fortement comprimés, tandis que l’essentiel du coût se concentre dans les régions détaillées
de l’image, les petits villages. On remarquera que la pile de bananes – obtenue par “copier-coller”
d’une unique image – est ici parfaitement interprétée : si la banane du haut est encodée avec
difficultés, les extrémités suivantes sont identifiées comme étant de simples copies et les codes
mis au point pour la première banane sont réutilisés.
Image tirée de Wikipédia, par Pink kitty111.
3.1. Un problème pratique : la compression d’images 53
Pixels et base canonique Penser les images comme une juxtaposition de pixels est devenu
naturel aux enfants des années 90 que nous sommes : MS Paint, Mario et le pixel art sont passés
par là ! Mais qu’est-ce au juste qu’un tableau bitmap ? Mathématiquement, rien d’autre que
l’écriture de notre vecteur “image” dans la base canonique associée à la grille d’échantillonnage.
Pour (i, j) ∈ I × J = [[0, 255]] ×[[0, 255]] un indice arbitraire, on peut en effet définir l’image dite
“de Dirac” δi,j par : (
1 si u = i et v = j
δi,j (u, v) = . (3.4)
0 sinon
C’est l’analogue bidimensionnel des vecteurs ei de la base canonique, utilisés dans l’équation (3.1).
Une image x quelconque s’écrira alors :
X
x = xi,j · δi,j , (3.5)
i,j
Une base de calques adaptée aux images naturelles Pour comprimer nos données, nous
sommes à la recherche d’un système d’écriture compact. On peut comprendre cette problématique
par une petite analogie postale : si chaque octet d’information transmis correspondait à un calque
d’un gramme, transmettre les 65 536 pixels de l’image Lena reviendrait à envoyer un classeur de
transparents par la poste... pour un poids total de 65kg et une addition salée.
Or, en regardant de plus près nos transparents xi,j ·δi,j , on remarquerait que ceux-ci sont vides
presque partout avec une seule position colorée (i, j). Quel gâchis ! Au cœur de la compression
JPEG, se trouve une idée fondamentale : l’utilisation d’une nouvelle famille de calques de base,
les fi,j présentés Figure 3.6 et 3.7, définis sur des blocs 8x8 par
iπ 1 jπ 1
fi,j (u, v) = cos u+ · cos v+ (3.6)
8 2 8 2
pour i, j, u et v dans [[0, 7]] – on commence à compter les indices à partir de 0, pour des raisons
pratiques. Par définition, fi,j sera donc une image 8x8 à valeurs dans [−1, 1] présentant i rayures
sur la première direction et j sur la seconde. Après un calcul qui peut être effectué à moindre
coût sur des puces électroniques dédiées, on obtient pour toute image x une décomposition sur
la base fi,j en coefficients ci,j , et on écrira :
X X
x = xi,j · δi,j = ci,j · fi,j . (3.7)
i,j i,j
Séances 3 et 4 54 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Parcimonie Un constat s’impose : pour reformer la joue ou l’épaule de Lena, les grandes
rayures suffisent... et il n’est guère utile d’avoir à disposition des calques de damiers ! Si l’image
x est régulière, tirée d’une image naturelle, alors la transformée ci,j présente un profil dont nous
allons pouvoir tirer parti : les coefficients ci,j correspondant à des nombres de rayures élevés (i
ou j supérieurs à 3) sont très petits.
En première approximation, on peut donc se contenter d’envoyer par la poste les 6, 10 ou
15 coefficients ci,j correspondant aux petites valeurs de i + j, comme illustré Figure 3.10. En
n’envoyant que les 10 calques “les plus importants” pour chaque bloc de 8x8 pixels, on diviserait
par 6 le poids du colis en altérant peu le rendu final. La solution finalement retenue par les
chercheurs est encore plus astucieuse : en utilisant un tableau de quantification fixé à l’avance
– voir Figure 3.8 –, on restreint le nombre de bits alloués aux fortes valeurs de i + j sans les
éliminer tout à fait, ce qui permet une transition moins brutale entre coefficients “conservés” et
coefficients “oubliés”.
Tous comptes faits, la décomposition dans une base de cosinus adaptée aux images naturelles
permet à notre algorithme de filtrer simplement les composantes peu utiles de notre image, celles
qui correspondent aux motifs en damier hautes fréquences. Nettement plus adapté aux données
réelles qu’un algorithme de sous-échantillonnage naïf, le format JPEG sera donc très performant
sur les photos naturelles. Simple à comprendre et à implémenter, il aura le succès que l’on connaît.
Sur les figures qui suivent, je vous propose de découvrir pas à pas les détails d’un algorithme qui
est au cœur de l’imagerie numérique grand public.
Figure 3.5 – Première étape de la compression JPEG : une découpe en blocs de 8x8 pixels qui
seront traités indépendamment – modulo la couleur moyenne.
Image tirée du site web www.dspguide.com.
3.1. Un problème pratique : la compression d’images 55
(a) Famille des diracs δi,j . (b) Famille des cosinus discrets fi,j .
Figure 3.6 – Représentation synthétique des deux familles utilisées pour l’encodage de blocs
d’images 8x8 : à droite, la famille des diracs ou base canonique utilisée par les capteurs et for-
mat des données bitmap brutes ; à gauche, la famille des cosinus discrets employée par le format
JPEG. Affichés sur fond jaune, ces deux groupes de 8 × 8 images de taille 8x8 forment des bases
de l’espace R8×8 des images 8x8 : ici, le blanc correspond à une coordonnée de 1, le noir au −1
et le gris 128/255 au 0.
En admettant que ce dernier correspond à la “transparence”, une image 8x8 peut être vue comme
la superposition de 64 filtres dont les intensités sont modulées par des coefficients notés xi,j dans
le cas de la base des diracs, et ci,j dans le cas de la base des cosinus discrets.
La donnée des coefficients xi,j , c’est un tableau bitmap difficile à comprimer. Le bloc 8x8 des co-
efficients ci,j constitue quand à lui la transformée en cosinus discrets du bloc, qui sera nettement
plus facile à manipuler que le tableau bitmap initial.
Figure 3.7 – Deuxième étape de la compression JPEG : la transformée en cosinus discrète sur
l’espace des images de taille 8x8. Il s’agit d’un analogue immédiat de la transformée de Fourier
décrite plus loin, optimisé pour le traitement de signaux réels non-périodiques. Un élément fi,j
de la base est caractérisé par ses coefficients i et j entre 0 et 7, qui quantifient le nombre de
ses oscillations : i dans la direction verticale, j en horizontale. D’une représentation point-par-
point de notre image, on passe donc à une représentation fréquentielle, avec les basses fréquences
stockées en haut à gauche de chaque “bloc”.
Image tirée du site web www.dspguide.com.
Séances 3 et 4 56 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Figure 3.8 – Troisième étape de la compression JPEG : les coefficients de la transformée sont
quantifiés par l’oubli d’un nombre arbitraire de bits de poids faible, comme dans la Figure 3.3.
Ces indices de quantification dépendent de la fréquence et du niveau de compression choisie :
deux exemples de tables sont donnés ici. Attention : il ne s’agit pas ici d’images 8x8, mais bien
de tableaux de coefficients d’échantillonnage, qui indiquent le degré d’imprécision sur chaque
fréquence (i, j) dans le fichier final. C’est la seule étape destructive de la compression JPEG.
On remarquera que la moyenne, ou fréquence (0, 0), est toujours préservée – indice de quanti-
fication égal à 1. Par contre, en compression élevée, les hautes fréquences sont affectées à des
indices de quantification élevés : 64, 128 voire 256, soit une conservation de 2, 1 ou 0 chiffres de
l’écriture binaire des coefficients.
Image adaptée du site web www.dspguide.com.
Figure 3.9 – Quatrième étape de la compression JPEG : on tire parti du grand nombre de zéros
dans les hautes fréquences par un codage astucieux. Les coefficients de la transformée quantifiée
sont d’abord mis en ligne, des basses aux hautes fréquences – le sens de lecture sur le bloc des
indices (i, j) est donné par la figure ci-dessus. Une suite typique serait par exemple
. (52, 32, 22, 4, 4, 8, 8, 8, 8, 8, 0, 0, 0, . . . ).
On pourra alors la coder efficacement par un algorithme en “longueur de suite”, qui la transfor-
mera par exemple en “1-52, 1-32, 1-22, 2-4, 5-8, 54-0”, nouvelle suite compacte qui sera encodée
(de manière efficace) sous forme de suite binaire : le fichier “.jpg” final.
Image tirée du site web www.dspguide.com.
3.1. Un problème pratique : la compression d’images 57
Figure 3.10 – Lecture du format JPEG, par reconstruction de chaque bloc d’image à l’aide des
quelques coefficients stockés dans le fichier. Le bloc original se trouve à droite, et est vu ici “en
3D” – et non comme un tableau 8x8 de niveaux de gris ou de valeurs entières entre 0 et 255.
Après transformée en cosinus, conservation des seuls n plus gros coefficients et reconstruction,
on constate sans surprise une dégradation du signal. Heureusement, et c’est là tout l’intérêt
du format JPEG, un résultat satisfaisant est tout de même obtenu avec une conservation de
seulement 15 des 64 coefficients originaux : on est donc en droit d’espérer une perte en qualité
négligeable pour des taux de compression de 4 : 1. Image tirée du site web www.dspguide.com.
Figure 3.11 – Compression d’une photo de visage par l’algorithme JPEG. Celui-ci commence
par découper l’image en blocs de 8x8 pixels, puis effectue sur chacun d’eux une transformée
en cosinus ; il en élimine ensuite les petits coefficients. L’image étant généralement lisse sur
chacun des blocs, le résultat net d’une forte compression est l’annihilation des hautes fréquences,
phénomène particulièrement visible sur l’image de droite.
Le produit scalaire est une mesure réelle de la corrélation entre deux vecteurs, définie au
travers de leurs coordonnées dans la base canonique. Il sera positif si les xi et yi sont souvent
de même signe, négatif s’ils restent plutôt en opposition et nul si les deux suites de nombres
sont totalement décorrélées. La positivité de ( x | y ) est donc une indication du fait que “x et y
pointent dans la même direction”, ce qui est formalisé par la proposition suivante.
Proposition 3.1 (Inégalité de Cauchy-Schwarz, angle entre deux vecteurs). Soient x =
(x1 , . . . , xn ) et y = (y1 , . . . , yn ) deux vecteurs de Rn . On remarque que
p
kxk2 = ( x | x ), (3.9)
et on dira que θ est l’angle géométrique entre x et y. Le produit scalaire suffit donc à définir
l’angle entre deux vecteurs quelconques de Rn , à orientation près.
Démonstration. On définit le binôme
2
P (t) = kt · x + yk2 = ( t · x + y | t · x + y ) = t2 ·( x | x ) + 2 t ·( x | y ) +( y | y ) , (3.12)
par bilinéarité de l’expression (3.8). Par définition, P (t) est positif pour toute valeur réelle de t.
Son discriminant
2
∆P = 4 ( x | y ) − 4 ( x | x ) ( y | y ) (3.13)
est donc négatif ou nul, cqfd.
3.2. Une base orthonormale pertinente 59
On remarquera que P s’annule dans R si et seulement si ∆P est nul, c’est à dire si l’angle
θ est égal à 0 ou π. Or l’existence d’une racine pour P équivaut à celle d’un réel t0 tel que
y = −t0 · x. Conformément à l’intuition, l’angle entre x et y est donc nul ou plat si et seulement
si ces vecteurs sont colinéaires.
Définition 3.2 (Orthogonalité, base orthonormale). Si x et y sont deux vecteurs de l’espace
euclidien Rn muni du produit scalaire canonique défini équation (3.8), on dira qu’ils sont ortho-
gonaux entre eux si et seulement si ( x | y ) = 0.
Si (ei )i∈[[1,n]] est une famille de vecteurs de Rn , on dira que c’est une base orthonormale de
l’espace euclidien si et seulement si
(
1 si i = j
∀ i, j ∈ [[1, n]] , ( ei | ej ) = . (3.14)
0 sinon
La base canonique utilisée dans équation (3.1) est un premier exemple important. La recherche
de base orthonormales sera motivée par les propositions suivantes :
Proposition 3.2 (Base orthonormale duale). Soit x un vecteur de l’espace euclidien Rn muni
d’une base orthonormale (ei )i∈[[1,n]] . Alors les coefficients de x dans cette dernière se calculent au
travers des produits scalaires ( ei | x ) : on aura simplement
X
x = ( ei | x ) ei . (3.15)
i
Démonstration. La famille des ei possédant n vecteurs orthogonaux deux à deux, elle est libre.
Par le théorème de la dimension (non démontré ici), il s’agit bien d’une base génératrice de
l’espace Rn , et on peut obtenir un n-uplet de coefficients xi tels que
X
x = xi ei . (3.16)
i
On peut donc décomposer x dans la base des ej par de simples calculs de produits scalaires.
ee2 e2
y
y2 ee1
x2 θ x e1
y1 x1
(a) Produit scalaire entre deux vecteurs x et y : (b) Exemples de bases orthonormales du
on a x1 y1 + x2 y2 = kxk kyk cos(θ). plan R2 , en bleu et en rouge.
Figure 3.13 – La géométrie des espaces euclidiens repose sur un produit scalaire directement
calculable en coordonnées dans des bases dites orthonormales comme la base canonique.
Séances 3 et 4 60 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Théorème 3.1 (Identité de Parseval). Soient x et y deux vecteurs de l’espace Rn muni d’une
base orthonormale (ei )i∈[[1,n]] . Alors on peut calculer le produit scalaire ( x | y ) à partir des seules
coordonnées de x et y dans la base des ei :
n
X
(x|y) = ( ei | x ) ( ei | y ) . (3.18)
i=1
En particulier, on a que : sX
2
kxk2 = ( ei | x ) . (3.19)
i
Démonstration. Il suffit d’utiliser l’expression (3.15), puis de développer le double produit par
bilinéarité du produit scalaire :
X X
(x|y) = ( ei | x ) ei ( ej | x ) ej (3.20)
i j
X
= (( ei | x ) ei | ( ej | x ) ej ) (3.21)
i,j
X
= ( ei | x ) ( ej | x ) ( ei | ej ) (3.22)
i,j
X
= ( ei | x ) ( ei | y ) , (3.23)
i
x2 x
e2
x
e1
x
x1
Figure 3.14 – L’identité de Parseval permet de calculer la norme d’un vecteur x dans n’importe
2
quelle base orthonormale : on a ici x21 + x22 = kxk2 = x e22 . C’est une conséquence directe de
e21 + x
la bilinéarité du produit scalaire que l’on peut interpréter comme une application moderne du
théorème de Pythagore.
3.2. Une base orthonormale pertinente 61
Construction de bases orthonormales Les bases orthonormales sont donc celles qui sont
aussi adaptées que la base canonique aux calculs de normes, de produits scalaires entre deux
vecteurs. On a vu dans la première section du chapitre tout l’intérêt qu’il y avait à disposer
d’une base comprenant le vecteur constant 1 = (1, . . . , 1), noté f0,0 dans la base des cosinus
discrets. En incarnant l’idée de valeur moyenne, il permet une analyse du signal délocalisée, plus
sémantique que celle effectuée dans la base des diracs. Alors, peut-on construire simplement
une base orthonormale de Rn dont le premier vecteur soit un multiple du vecteur
constant 1 ?
Le cas des dimensions 2 et 4 Dans le plan euclidien, nous pouvons nous appuyer sur une
solide intuition : il suffit de considérer la base formée des deux vecteurs
1 1
f0 = √ (+1, +1) et f1 = √ (+1, −1) , (3.24)
2 2
qui est bien orthonormale. Par l’alternance des signes, f1 parvient à être orthogonal à f0 tout en
restant de norme 1. On peut s’inspirer de cette première base pour définir en dimension 2 × 2 = 4
une famille analogue, obtenue par “produit tensoriel” :
1 +1 +1 1 +1 −1
f0,0 = √ , f0,1 = √ , (3.25)
4 +1 +1 4 +1 −1
1 +1 +1 1 +1 −1
f1,0 = √ , f1,1 = √ . (3.26)
4 −1 −1 4 −1 +1
Il s’agit bien sûr de l’analogue de la famille des cosinus discrets pour les images 2x2... Mais
comment généraliser cette construction aux dimensions quelconques ?
{x1 = x2 }
e2
f0
e1
f1
(a) Base (f0 , f1 ) par rapport à la base cano- (b) Base orthogonale des (f0,0 , f0,1 , f1,0 , f1,1 )
nique. Généraliser cette construction aux di- obtenue par produit tensoriel des deux vecteurs
mensions supérieures, c’est le défi relevé par les f0 et f1 . Ici, le blanc vaut 1/2 et le noir −1/2 ;
harmoniques discrètes. on présente les 4 images sur un fond jaune pour
éviter toute confusion.
Figure 3.15 – En jouant sur les signes, on peut construire des bases oscillantes des espace de
dimension 2n .
Séances 3 et 4 62 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Le grand retour des nombres complexes En restant prisonniers de la droite réelle, trouver
des formules appropriées en toute dimension est extrêmement compliqué. C’est qu’il n’y a que
deux nombres réels de norme 1 : +1 et −1. Les jeux d’alternances de signes ne pourront donc
nous permettre de traiter que des dimensions qui sont puissances du nombre 2 comme 8, 16 ou
256.
Comment nous tirer de ce mauvais pas ? En nous plongeant dans le corps des complexes, où
l’ensemble des nombres de modules 1 est infini : il s’agit du cercle unité
U = {z ∈ C, |z| = 1} = eiθ , θ ∈ R . (3.27)
On peut définir sur C le produit scalaire canonique par
( z1 | z2 ) = Re(z1 ) · Re(z2 ) + Im(z1 ) · Im(z2 ) = Re(z1 · z2 ) , (3.28)
puis sommer ces identités pour définir un produit scalaire sur Cn qui prolonge celui donné dans
l’équation (3.8). La généralisation des équations (3.24-3.26) à l’espace vectoriel Cn est alors
immédiate :
Définition 3.3 (Transformée de Fourier discrète). On définit la famille des vecteurs harmoniques
de taille n par :
1 2iπ ·jk 1
∀ j ∈ [[0, n − 1]] , fj = √ e n = √ (1, ω j , ω j·2 , ω j·3 , . . . , ω j·(n−1) ) (3.29)
n k∈[[0,n−1]] n
2iπ
où ω = e n est un complexe de module 1 tel que ω n = 1. C’est le point du cercle qui délimite
avec l’axe des abscisses un “n-ième” de disque, de sorte que les ω k correspondent à une découpe
équitable du disque en n parts.
Alors la famille (fj )j∈[[0,n−1]] forme une base orthonormale de Cn , au sens où pour toute paire
d’indices a et b, on a (
1 si a = b
( fa | fb ) = . (3.30)
0 sinon
Démonstration. Pour a et b deux indices entiers dans [[0, n − 1]], on a
X 1 2iπ 1 2iπ
n−1
( fa | fb ) = √ e n ·ak · √ e n ·bk (3.31)
n n
k=0
n−1
1 X − 2iπ ·ak 2iπ ·bk
= e n ·e n (3.32)
n
k=0
n−1
1 X 2iπ ·(b−a)k
= e n (3.33)
n
k=0
n−1
1 X k
= η (3.34)
n
k=0
2iπ
où η = e n ·(b−a) est un complexe de module 1 tel que η n = 1.
Si b = a, on a η = 1 puis ( fa | fb ) = n1 · n = 1. Sinon, on a 0 < |b − a| < n puis η 6= 1. La
formule de sommation des séries géométriques (que l’on démontre par récurrence) permet alors
de trouver
1 1 − ηn
( fa | fb ) = = 0. (3.35)
n 1−η
3.2. Une base orthonormale pertinente 63
où
n−1
1 X − 2iπ ·jk
cj = ( fj | x ) = √ e n xk (3.37)
n
k=0
est un coefficient complexe. La donnée des n coefficients (ci ) caractérise entièrement le vecteur x
et est appelée transformée de Fourier discrète.
Lien avec les familles précédemment définies Dans le cas où n = 2, on retrouve bien la
famille orthonormale réelle définie équation (3.24). Mais pour les valeurs de n suivantes, les fj
sont complexes. On verra plus loin que ce n’est pas un problème : en un sens à préciser plus bas,
le cadre complexe est bien le plus adapté à l’analyse théorique. Par contre, dans les algorithmes
pratiques, il peut être utile d’avoir à disposition des bases d’harmoniques réelles. Après une étude
théorique effectuée avec les harmoniques complexes, on privilégiera donc in fine des transformées
réelles telles la base des cosinus discrets, projections sur Rn des vecteurs définis dans Cn .
Im
Re
ω1
ω0
ω2
ω4
ω3
coordonnée
Figure 3.16 – Base (f0 , f√1 , f2 , f3 , f4 ) des vecteurs harmoniques de longueur n = 5. À un fac-
teur de normalisation 1/ n près, tous prennent leurs valeurs dans le “cercle discret” U5 =
2iπ
1, ω, ω 2 , ω 3 , ω 4 , où ω = e 5 est tel que ω 5 = 1, mais le parcourent à des vitesses différentes :
on a fa = (ω , ω , ω , ω a·3 , ω a·4 ).
a·0 a·1 a·2
Cette figure met en valeur l’enroulement (discret) des harmoniques autour de l’origine du plan
complexe, 0. Avec ses courbes d’interpolation entre coordonnées, elle préfigure le passage aux
harmoniques continues.
Séances 3 et 4 64 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
et on aura Z Z
+∞ +∞
2
kf k2 = (f |f ) = f (x) · f (x) dx = |f (x)|2 dx. (3.39)
−∞ −∞
— De manière analogue à ce qui est écrit équation (3.15), on peut reconstruire f à partir de
fb : pour presque tout x ∈ R,
Z +∞ Z +∞ Z +∞
1
f (x) = fb(ω) fω (x) dω = f (t)e−iω·t eiω·x dt dω. (3.42)
ω=−∞ 2π ω=−∞ t=−∞
Normes 2 et produits scalaires se calculent aussi simplement avec les fb(ω) que dans la base des
diracs (δx ). Dans les pages qui suivent, nous verrons que la base des harmoniques possède un
immense avantage sur cette dernière : elle diagonalise la dérivation.
3.2. Une base orthonormale pertinente 65
Interprétation fréquentielle Nous avions déjà rencontré les fω au chapitre 2, dans la preuve
par homotopie du théorème fondamental de l’algèbre. Rappelez-vous : comme indiqué équa-
tion (2.36), fω : t 7→ eiωt n’est rien d’autre que le lacet qui parcourt le cercle unité à une vitesse
angulaire ω, en partant de 0 au temps t = 0. Pour caractériser ce mouvement périodique, on
pourra recourir selon les usages à trois termes équivalents : la pulsation ω ; la période 2π/ω,
temps mis par fω (t) à effectuer un tour complet ; la fréquence ω/2π, ou nombre de tours par
unité de temps.
L’équation (3.42) exprime que toute fonction (raisonnable) d’une variable réelle peut être
comprise comme une superposition de fonctions harmoniques élémentaires, les
où fb(ω) = ρω eiθω . Chacune de ces harmoniques, associée à une pulsation ω, est un lacet qui
tourne en rond sur le cercle de rayon ρω , à vitesse angulaire ω constante, après être parti d’un
angle θω à l’instant t = 0.
Dans cette décomposition, les fb(ω)fω (·) associés à des pulsations ω positives tournent dans
le sens trigonométrique, tandis que les pulsations ω négatives sont associées à des mouvements
dans le sens des aiguilles d’une montre. On comprendra alors qu’un signal f (x) est réel pour tout
x si et seulement si on a, pour toute pulsation ω, fb(−ω) = conj(fb(ω)) – exercice ! De même, plus
une fonction est régulière, moins ses variations seront rapides. Elle n’aura donc pas besoin de
faire entrer dans sa décomposition en harmoniques des fonctions fω oscillant trop rapidement :
on peut montrer qu’une fonction est d’autant plus régulière que le module de sa transformée
|fb(ω)| décroît rapidement vers 0 lorsque |ω| tends vers +∞.
Figure 3.17 – Une fonction créneau comme somme de sa série de Fourier. Par commodité,
on ne représente ici que des parties réelles : les harmoniques sont ici figurées par des fonctions
sinusoïdales. Le signal, en rouge, est approché au fur et à mesure par les sommes partielles (en
jaune) de sa représentation en harmoniques continues, équation (3.42).
Image adaptée de Wikipédia, par Lucas V. Barbosa.
Séances 3 et 4 66 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Séries de Fourier Si f est une fonction périodique (disons, de période 2π pour simplifier), sa
transformée fb prend une forme bien particulière. Impossible en effet d’y trouver des composantes
de pulsations quelconques : seules les harmoniques fω qui sont elles-mêmes 2π-périodiques pour-
ront entrer dans la décomposition. Or fω : x 7→ eiω·x ne saura être 2π-périodique que si ω est
entier, dans Z. La transformée de Fourier de f prendra donc la forme d’un peigne
X
fb = cω · δω , (3.45)
ω∈Z
Ptolémée et ses épicycles : pas si bête ! Si l’on écrit cω = ρω eiθω , cette identité prend
un sens géométrique clair : tout chemin f (t) à valeurs dans le plan complexe de période T est
une somme de trajectoires circulaires, de fréquences multiples de la fréquence fondamentale 1/T ,
caractérisées chacune par un rayon ρω et un décalage angulaire θω . C’est le principe qu’utilisèrent
les astronomes de l’antiquité pour calculer les positions relatives des planètes : jusqu’au temps
de Kepler, les orbites planétaires étaient décrites par des tables de coefficients “de Fourier”.
Déterminées empiriquement, elles permettaient de rendre compte des va-et-viens périodiques
effectués par les planètes sur la voute céleste.
Si cette méthode n’a pas de limite théorique, elle peut vite se révéler encombrante : à mesure
que la précision des mesures augmente, il faut ajouter de nouveaux coefficients qui rendent compte
du fait que les trajectoires des corps célestes ne sont pas issues d’un grand Spirograph cosmique...
Disposant de mesures d’une qualité exceptionnelle (effectuées par Tycho Brahe), Kepler proposera
un modèle plus pratique qui repose sur des trajectoires elliptiques. Nous avons vu au chapitre 9
comment Newton avait pu en déduire les lois classiques de l’interaction gravitationnelle. Plus tard,
c’est la détection d’une “anomalie” dans l’orbite de Mercure qui poussera Einstein à développer
sa théorie de la relativité générale.
Pourquoi les nombres complexes ? La théorie des harmoniques est la deuxième grande
motivation derrière l’étude des nombres complexes. Au lycée et dans les classes préparatoires, on
insiste beaucoup sur son intérêt algébrique : les équations polynomiales, le théorème fondamen-
tal de l’algèbre auquel nous avons consacré la deuxième partie du chapitre 2. Mais l’ensemble
des nombres complexes, c’est aussi le cadre privilégié pour l’étude des phénomènes périodiques.
Impossible en effet de définir une fonction périodique de R à valeurs dans R qui fasse consensus.
Créneaux, triangles, dents de scie... rien de tout cela n’est satisfaisant, ni même régulier.
A contrario, dans le plan complexe, un mouvement périodique s’impose par son évidence :
celui qui consiste à tourner en rond. Il est précisément décrit par la famille des harmoniques
fω : t 7→ eiω·t , que l’on fera redescendre dans R pour définir les fonctions trigonométriques :
e+iω·t + e−iω·t e+iω·t − e−iω·t
cos(ωt) = Re eiω·t = , sin(ωt) = Im eiω·t = . (3.48)
2 2i
3.2. Une base orthonormale pertinente 67
(a) Modèle de Ptolémée pour le système solaire. (b) Portrait d’Homer Simpson, par Ptolémée.
Figure 3.18 – Tout signal périodique peut être décrit comme une somme de trajectoires circu-
laires. Les trajectoires dessinées en (a) vous rappelleront peut-être votre enfance : l’instrument
de dessin Spirograph repose sur le même principe.
Images tirées des vidéos YouTube Ptolemy’s model of the universe de Andrej Rehak et Pto-
lemy and Homer (Simpson) de Santiago Ginnobili, que vous pourrez trouver aux adresses
www.youtube.com/watch?v=EpSy0Lkm3zM www.youtube.com/watch?v=QVuU2YCwHjw.
Figure 3.19 – Les séries de Fourier dans le plan complexe : Sur la ligne du bas, on peut sélection-
ner huit coefficients c1 , . . . , c8 représentés ici par les rayons de cercles. Chacun des points rouges
parcourt ces cercles à une fréquence de 1 à 8 tours par seconde. La somme des huit vecteurs
est alors affichée dans le panneau de gauche, l’origine faisant office de référentiel. L’ordonnée de
ce point mobile complexe, signal réel périodique, est finalement tracée à droite comme sur un
oscilloscope. Les coefficients ont ici été choisis pour coller au plus près d’un signal en triangle :
assez régulier, il se laisse facilement approcher et nos huit coefficients suffisent à en obtenir une
approximation très satisfaisante.
Travail de Lucas V. Barbosa, tiré du site toxicdump.org/stuff/FourierToy.swf que je vous en-
courage vivement à visiter – clic droit pour afficher les commandes et informations. Pour d’autres
animations interactives sur la transformée de Fourier, on pourra consulter le site BetterExplained,
betterexplained.com/articles/an-interactive-guide-to-the-fourier-transform/
Séances 3 et 4 68 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Retour sur la compression JPEG On comprend maintenant d’où venait la famille des
cosinus discrets utilisée par l’algorithme de compression JPEG – équation (3.6). À un décalage
d’indice 1/2 près (introduit pour conserver une certaine parité après discrétisation), il s’agit
précisément de la transposition aux signaux réels des harmoniques complexes de dimension 2, les
Au prix de calculs roboratifs, on peut montrer que la base des cosinus discrets conserve de nom-
breuses propriétés de son parent continu (orthonormalité à un facteur près, analyse fréquentielle,
etc.) tout en étant adaptée aux algorithmes numériques entiers. Il faut donc la comprendre comme
une transposition fidèle d’un concept mathématique régulier (les harmoniques) au monde discret
des ordinateurs.
pL (x)
Figure 3.20 – Idée géométrique sous-jacente à la compression JPEG. Dans l’espace des images,
l’ensemble N des images naturelles est tortueux, impossible à caractériser mathématiquement.
On peut néanmoins tenter de l’approcher par un espace L plus simple : dans notre cas, celui des
images basses fréquences. En première approximation, pour comprimer une image x quelconque,
il suffit alors d’en considérer la projection orthogonale pL (x) sur L.
Si L est de faible dimension, on pourra décrire pL (x) par un faible nombre de coefficients, d’où la
compression. Si L est suffisamment proche de N , la perte nette, ou résiduel pL⊥ (x) = x − pL (x)
sera négligeable. Trouver un espace L qui soit petit tout en approchant au mieux l’ensemble des
images naturelles, c’est le défi posé mathématicien appliqué.
Cet effort de modélisation d’un ensemble d’images réelles est toujours poursuivi aujourd’hui – voir
le format JPEG2000 illustré Figure 3.12, qui repose sur une théorie des ondelettes établissant un
continuum entre les diracs δx et les ondes harmoniques fω . Cette théorie permet la compression,
l’analyse ou le débruitage de signaux variés (données sismiques, images médicales, ...).
3.2. Une base orthonormale pertinente 69
(a) JPEG2000. (b) Bandelettes. (c) Une photo d’identité sur code-barre.
Figure 3.22 – Un code-barre 2D typique peut contenir de l’ordre de 500 octets d’information.
Grâce à des familles d’ondelettes orientées, les bandelettes, cela peut suffire à encoder de manière
satisfaisante des visages, ou de petites images naturelles. En (a) et (b), on présente deux photos
d’identité comprimées pour tenir sur un code barre de 500 octets (.5 Ko !) : de JPEG2000 (on-
delettes séparables) à la décomposition en bandelettes, une nette amélioration a été apportée.
C’est par exemple un moyen de sécuriser des badges d’identification, en stockant sous une forme
cryptée facilement accessible une “copie de référence” du visage du propriétaire de la carte.
Fondée par Stéphane Mallat, la startup Let it Wave en a fait son fond de commerce et propose des
puces électroniques effectuant l’opération de codage/décodage de manière efficace. Images tirées
du site de M. Mallat, aujourd’hui professeur au Collège de France après être passé par le départe-
ment d’informatique de l’École : www.di.ens.fr/~mallat/papiers/CRM-Mallat-Course2.pdf.
Séances 3 et 4 70 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Mais alors, pour que f soit bornée sur R (conformément à l’hypothèse de départ), il est indispen-
sable que la partie réelle de λ soit nulle. C’est donc que l’on peut écrire λ = iω, où ω ∈ R.
Figure 3.23 – Si f (t) est un point courant du plan complexe, l’équation f 0 (t) = λ f (t) définit
exactement une spirale logarithmique : la tangente à la courbe au point M fait un angle constant
θ = arg(λ) avec le segment [OM ], où O est l’origine du repère. La courbe est parcourue à une
vitesse angulaire constante égale à Im(λ).
Pour qu’une telle courbe reste bornée dans le plan, il est nécessaire que λ soit d’argument ±π/2,
i.e. que λ soit un imaginaire pur.
3.3. Une base adaptée à la dérivation 71
Dans la foulée, on peut démontrer que la transformée de Fourier rend diagonal l’opérateur
de dérivation. Là où calculer la dérivée d’une fonction donnée dans la “base des diracs” par ses
valeurs ponctuelles demandait un effort certain (passage à la limite des taux d’accroissements,
etc.), la même opération devient triviale dans la base des harmoniques de Fourier.
Théorème 3.3 (Dérivation et transformée de Fourier, énoncé informel). Soit f une fonction
définie sur R à valeurs dans C – par exemple de carré intégrable – dont on peut considérer la
transformée de Fourier fb. Alors sous réserve d’existence, on a
Dans la base d’harmoniques, la dérivation peut donc se comprendre comme une simple multi-
plication par un facteur iω, qui dépend de la composante.
Démonstration. Par définition de la transformée de Fourier, on peut écrire f comme une combi-
naison linéaire continue des harmoniques fω : x 7→ eiωx :
Z +∞
∀ x ∈ R, f (x) = fb(ω) · eiωx dω. (3.53)
ω=−∞
Mais alors, sous réserve d’hypothèses techniques peu restrictives sur f , on peut dériver cette
somme terme à terme :
Z +∞
0
∀ x ∈ R, f (x) = fb(ω) · iωeiωx dω (3.54)
ω=−∞
Z +∞
= fb0 (ω) · eiωx dω (3.55)
ω=−∞
Utilisation pratique Dans Cn , on a l’habitude des opérations diagonales qui agissent sépa-
rément sur chaque coordonnée : ce sont simplement les changements d’échelles. L’application
n’effarouche maintenant plus personne. Eh bien, dériver une fonction f , ce n’est pas plus compli-
qué que cela. Il suffit de passer du système de coordonnées (f (x))x∈R à la transformée (fb(ω))ω∈R ,
que l’on peut identifier à un vecteur de RR . On multiplie alors chacune de ses coordonnées par
un facteur iω, comme on avait multiplié xn par un facteur n dans l’équation ci-dessus. Reste à
repasser d’une représentation fréquentielle à un graphe (f 0 (x))x∈R , et le tour est joué !
Séances 3 et 4 72 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Réécriture dans le domaine fréquentiel Dans notre cas, voir cette évolution dans la base
des harmoniques fω va considérablement simplifier l’interprétation du phénomène. Supposons
disposer d’un fil de fer infini, et notons
Tt : x ∈ R 7→ T (x, t) ∈ R (3.58)
le champ de température à l’instant t. La condition initiale, imposée à l’instant t = 0, est donc
simplement la donnée de T0 . On considère alors la transformée Tbt , et on écrit la répartition de
chaleur comme une superposition d’harmoniques de toutes amplitudes :
Z +∞
T (x, t) = Tt (x) = Tbt (ω) fω (x) dx. (3.59)
ω=−∞
puisque dériver deux fois par rapport à x, c’est multiplier la transformée de Fourier par (iω)·(iω).
Par unicité de la décomposition dans la base d’harmoniques, l’équation (3.57) s’écrit donc, dans
le domaine de Fourier :
∂ Tbt (ω)
∀ ω ∈ R, ∀ t > 0, = −ω 2 D Tbt (ω). (3.61)
∂t
Résolution et interprétation physique Dans ce cas précis, les solutions à l’équation d’évo-
lution des coefficients de Fourier sont connues : on trouve simplement que
c0 |
|T |Tc
.1 | |Tc
.5 |
c2 |
|T
ω ω ω ω
c0 (ω3 )fω
T Tc
.1 (ω3 )fω3 Tc
.5 (ω3 )fω3
c2 (ω3 )fω
T
3 3
x x x x
+ + + +
c0 (ω2 )fω
T Tc
.1 (ω2 )fω2 Tc
.5 (ω2 )fω2
c2 (ω2 )fω
T
2 2
x x x x
+ + + +
c0 (ω1 )fω
T Tc
.1 (ω1 )fω1 Tc
.5 (ω1 )fω1
c2 (ω1 )fω
T
1 1
x x x x
+ + + +
c0 (0)f0
T Tc
.1 (0)f0 Tc
.5 (0)f0
c2 (0)f0
T
x x x x
= = = =
T0 T.1 T.5 T2
x x x x
Équation des cordes vibrantes De même, on peut poursuivre l’étude de l’équation (10.58)
de D’Alembert, qui décrit le comportement d’une corde de violon de longueur L :
∂2y ∂2y
2
= v2 2 , (3.63)
∂t ∂x
p
où y(t, x) = yt (x) est l’altitude de la corde au temps t à l’abscisse x, et où v = T /µ est une
vitesse caractéristique dépendant de la masse linéique µ de la corde et de la tension T exercée à
ses extrémités.
Mais alors, par linéarité de l’équation de D’Alembert et en utilisant le fait que ∂x∂
fω = iωfω ,
on trouve que le profil yt de la courbe vérifie l’équation des cordes vibrantes si et seulement si
∂ 2 (ct (n))
∀ n ∈ Z, = −n2 ωL
2 2
v ct (n). (3.66)
∂t2
Il s’agit de l’équation des cordes, ré-exprimée dans les coefficients de Fourier.
Résolution Dans le plan complexe, chaque coefficient ct (n) dépendant du temps vérifie une
équation du type z̈ = −λz que l’on peut résoudre simplement. En supposant par exemple que la
corde est lâchée sans vitesse à l’instant t = 0, on a :
∀ n ∈ Z, ∀ t > 0, ct (n) = c0 (n) · cos(nωL v · t). (3.67)
En décomposant en harmoniques spatiales le profil initial de la corde, on a trouvé des coef-
ficients c0 (n) qui correspondent à des profils sinusoïdaux à n bosses entre x = 0 et x =
L. L’équation ci-dessus nous garantit simplement que ces différentes composantes “superpo-
sées” dans le profil de la courbe au temps t ne vont pas interagir entre elles : elles se
contentent d’osciller sagement, avec une pulsation temporelle nωL v = nπv/L et donc une fré-
quence temporelle |n|v/2L proportionnelle au nombre de bosses de l’harmonique considérée.
En pratique, ce mouvement d’oscillation haute fréquence (20Hz ∼ 20 000Hz) est accompagné
d’une atténuation progressive liée aux frottements et à la dissipation de l’énergie dans l’air
(temps de décroissance de l’ordre de la seconde, bien supérieur à la période des oscillations).
Figure 3.25 – Premières harmoniques spatiales d’une corde de violon de longueur L. L’équa-
tion (3.67) assure que celles-ci vibrent indépendamment les unes des autres, à une fréquence
inversement proportionnelle à leurs longueurs d’ondes spatiales respectives : f = nv/2L, où n
est le nombre de bosses qui va ici de 1 à 7.
Image tirée de Wikipédia, par Moodswingerscale.
Principe de fonctionnement d’une flûte Régie par une équation du même type (la pres-
sion de l’air dans le tube y jouant le rôle de la hauteur de la corde), la flûte permet d’illustrer
parfaitement ces comportements, la décomposition du son en harmonique superposées. Il s’agit es-
sentiellement d’un tube dont les propriétés physiques (matériau, diamètre) déterminent le timbre,
tandis que la note jouée est conséquence des actions du musicien aux bords de la colonne d’air.
D’un côté, une embouchure en biseau où le souffle du musicien crée un tourbillon limite. De
l’autre, des trous qui permettent aux doigts de l’instrumentiste de faire varier la longueur L de la
colonne d’air prisonnière du tube. On peut alors expliquer la production de notes de la manière
suivante :
« En faisant varier L, le musicien choisit la fréquence fondamentale de résonance du tube
fL = k/L, où k est un paramètre fixe dépendant de la perce et du bois. Excitée par un
tourbillon limite à l’entrée du tube, la colonne d’air va adopter un comportement périodique de
fréquence fL , va-et-vient de la surpression le long du tube qui va alternativement faire entrer
ou repousser le tourbillon d’air de manière cyclique. En sortie du tube, on obtiendra une
surpression périodique de l’air de fréquence fondamentale fL : la note de musique. »
À la flûte baroque (sans clés), c’est ainsi que l’on produit les notes dites du premier registre :
observez sur la gauche de la Figure 3.32 comme les notes ré, mi[ , fa[ , fa] , sol, la et si sont
simplement obtenues en levant un à un les doigts des deux mains. Les notes intercalaires sont
quand à elles produites par des doigtés “de fourche”, qui tirent parti du faible diamètre des trous :
même ouverts, ceux-ci ne libèrent pas complètement la colonne d’air. En ouvrant un trou tout
en fermant les suivants, on réussit à obtenir un comportement “entre-deux”, identifiable à une
longueur de tube intermédiaire.
Le son produit est périodique, de fréquence fondamentale fL = k/L : notre oreille est faite de
telle sorte que l’on identifiera cette fréquence “la plus basse” comme la note jouée, enrichie par
les harmoniques supérieures associées à des fréquences multiples de fL . C’est ce que l’on observe
sur les spectrogrammes de la Figure 3.26, où toutes les notes jouées sont perçues comme des do
graves aux timbres variables.
Figure 3.27 – Illustration du cycle tourbillonnant à l’embouchure d’une flûte à bec. Le cycle
sortant/entrant se répète à une fréquence déterminée par les propriétés acoustiques du tube.
Figure tirée du site de Philippe Bolton, facteur de flûtes www.flute-a-bec.com/acoustique.
html – les images de droite sont issues de l’article Luchtwervels in een blokfluit, Avraham Hir-
schberg, université d’Eindhoven.
3.3. Une base adaptée à la dérivation 77
Figure 3.29 – Illustration du deuxième, troisième et quatrième registres d’une flûte à bec
en fa. En ouvrant partiellement le trou du pouce et en ouvrant certains trous au milieu du corps
de l’instrument, on impose des conditions du type “yt (xi ) = 0” pour tout temps en certaines
positions de trous xi , ce qui élimine les harmoniques basses fréquences de l’écriture du champs
de pression variable yt (x). Ceci permet d’enlever au son sa fréquence fondamentale, pour n’en
retenir que les harmoniques de plus petites longueurs d’ondes, associées à des notes aiguës : ici,
un la médium, mi aigu et sol aigu.
Figure tirée du site de Philippe Bolton.
Séances 3 et 4 78 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Extraction des harmoniques Jouer dans le premier registre d’une flûte, c’est se contenter
de faire sonner l’harmonique fondamentale du tube. Le principe physique dégagé par l’équa-
tion (3.67), valable pour tout les instruments, est que la fréquence fondamentale de vibra-
tion de l’air est inversement proportionnelle à la longueur L du tube. Le couper en
deux, c’est donc multiplier par deux la fréquence, monter d’une octave ; le couper en quatre,
c’est, pareillement, monter de deux octaves.
Alors, comment réaliser en pratique un instrument à la tessiture étendue qui puisse jouer sur
deux, trois gammes à la fois ? Sur un piano, il suffit d’aligner les cordes côte à côte, en filetant
les plus graves pour les alourdir et s’éviter ainsi d’avoir un rapport de 1 à 210 entre les longueurs
des cordes de droite (aiguës, donc courtes) et celles de gauche (associées aux notes graves, plus
longues).
Mais à la flûte, quel embarras ! Impossible de jouer les plus belles pièces du répertoire s’il
faut changer d’instrument à chaque fois que l’on change de gamme... Heureusement, pour jouer
des notes aiguës sur un tube médium standard, il existe deux astuces.
Doigtés D’abord, comme à la flûte à bec, on peut choisir d’ouvrir certains trous pour imposer
des conditions d’annulation “yt (xi ) = 0” à la surpression de l’air dans le tube, où xi est l’abscisse
du trou laissé délibérément ouvert. Par exemple, entre la deuxième ligne de la Figure 3.28 et la
première ligne de la Figure 3.29, on a laissé entrouvert le trou du pouce gauche, ce qui impose
une dépression au milieu de la perce. En interdisant la surpression “marron” associée au la grave,
on divise par deux la longueur d’onde spatiale du champs de pression dans le tube, et on double
donc la fréquence “fondamentale” de vibration de l’instrument. Sans surprise, on est passé du la
grave au la médium.
Vitesse du souffle À la flûte traversière, le musicien peut agir sur un autre levier : la vitesse
de son souffle. Sans changer de doigté, il lui est possible de couper les harmoniques, en interdisant
au tube de vibrer selon les fréquences les plus basses. Si, par exemple, l’harmonique fondamentale
du tube f0 était associée à un do grave (au milieu du clavier de piano ; correspond à un tube
complètement fermé sur une flûte traversière moderne en do), souffler de plus en plus vite va
permettre d’égrener une à une les harmoniques du son de fréquences f0 , 2 f0 , 3 f0 , 4 f0 , 5 f0 ,
6 f0 en tronquant le spectrogramme par le bas, ce qui s’entendra comme une suite do grave, do
médium, sol médium, do aigu, mi aigu, sol aigu de plus en plus appauvrie. Il s’agit d’un exercice
de son classique, illustré Figure 3.31.
Le système Boehm Pour jouer une mélodie ambitieuse utilisant à fond les harmoniques “non
fondamentales” de son instrument, le flûtiste semble donc devoir choisir entre des doigtés com-
plexes (difficiles à enchaîner) et un contrôle subtil et permanent de son souffle (ce qui complique
grandement l’expression musicale). C’est sans compter sur le travail de Theobald Boehm, flûtiste
bavarois qui mis au point un système de clefs très élaboré, entre 1831 et 1847. En rendant acces-
sible les doigtés de fourche les plus extravagants, celui-ci limite l’utilisation de la vitesse du souffle
aux seuls changements d’octaves, en simplifie considérablement la montée-descente chromatique
des notes de la gamme. Il s’agit aujourd’hui du système de référence, monté sur toutes les flûtes
et clarinettes modernes : on comprend maintenant pourquoi.
Bilan L’analyse ci-dessus ne prétends pas être parfaitement rigoureuse : en extrapolant à partir
de l’équation de D’Alembert (valable au premier ordre pour les cordes de violons), nous avons mis
sous le tapis toutes les questions relatives à la pression et aux conditions limites imposées par les
orifices du tube. Néanmoins, cette petite étude nous aura permis de comprendre qualitativement
l’acoustique des instruments à vent. Elle aura eu le mérite de démystifier les tablatures que l’on
fait d’ordinaire apprendre aux enfants. Armé d’une méthode efficace de résolution des équations
différentielles, du langage des harmoniques de Fourier, le physicien est donc capable d’expliquer
simplement un des phénomènes les plus intrigants de notre vie quotidienne : beau succès !
3.3. Une base adaptée à la dérivation 79
Figure 3.30 – Quelques instruments à vent pour illustrer cette fin de chapitre. Tout en haut, on
trouve un bawu chinois, sorte de flûte à anche libre très facile à jouer mais d’une tessiture res-
treinte, sans possibilité de grimper dans les harmoniques. Ensuite, deux dizi (flûtes traversières)
en bambou : une petite, aiguë et une grande jouant en médium. Notez sur chacune d’elles la fine
membrane, entre l’embouchure et les trous, qui change les “conditions aux bords” de la colonne
d’air et confère à ces flûtes une sonorité bien particulière. En 4e et 5e position, un traverso ba-
roque vendu avec deux corps : le premier, plus long, qui permet de jouer au diapason La=415Hz
(comme au temps de Bach) et le second, plus court, accordé aux instruments modernes avec un
La=440Hz. Enfin, tout en bas, une flûte traversière moderne équipée d’un système Boehm.
Figure 3.31 – En maintenant le doigté du do grave (tous les trous fermés) et en soufflant
de plus en plus vite dans l’embouchure, on obtient les premières harmoniques du do. Je vous
encourage à écouter le résultat dans la vidéo Six Flute Harmonics on Middle C de David Fei, www.
youtube.com/watch?v=TmkKQ_DpXkI, et à le comparer aux fichiers sons analogues sur wikipédia,
en.wikipedia.org/wiki/File:Violin_harmonics.ogg (harmoniques en La du violon) et en.
wikipedia.org/wiki/File:Harmonics_110x16.ogg (harmoniques sinusoïdales sur le la grave,
aux spectrogrammes purs).
Figure 3.32 – Tablature pour un traverso baroque en do. Un point noir correspond à un trou
fermé, un point blanc à un doigt levé. La clé du bas est un usage de commodité, qui permet à
l’auriculaire droit d’atteindre le dernier trou.
Image tirée du site www.flutesbaroques.com/tablature.php.
Séances 3 et 4 80 Chapitre 3. Analyse de Fourier : l’ubiquité d’une représentation
Conclusion
Récapitulons. Dans ce chapitre plus que dans tout autre, nous avons pu apprécier le regard
utile et original que les mathématiques portent sur le monde. Parler d’espaces de “dimension
infinie”, ce n’est pas s’abandonner à une délirante fantaisie métaphysique. C’est, simplement,
admettre la complexité de certains problèmes posés par le continu ; et sans se décourager, tenter
de les résoudre en se reposant sur un vocabulaire connu, celui des droites et des plans.
Accepter de dire que les images, les cordes ou les orbites planétaires sont des vecteurs, données
d’une infinité de coordonnées, c’est accepter de dépasser les nombres pour faire de la géométrie.
Alors certes, une image en pratique, ce n’est pas une “infinité” de coordonnées : juste un très gros
paquet, de 2562 nombres par exemple. Mais comment pourrait-on se satisfaire d’une représenta-
tion “pixel-à-pixel” qui s’étend à mesure que la résolution des capteurs s’améliore ? Attaquer de
front le problème “limite” de la dimensions infinie, organiser l’information de manière sémantique
(des basses et hautes fréquences qui font sens, pas une mosaïque de diracs asservies aux cellules
de nos appareils), c’est voir percer la structure derrière les suites de coordonnées.
Fait étonnant, le même langage des harmoniques oscillantes nous est apparu dans des do-
maines a priori étrangers les uns aux autres :
— La mécanique céleste des anciens, avec le système de Ptolémée.
— La théorie de la musique, des violons et des flûtes.
— La théorie de la chaleur et de sa diffusion.
— La transmission moderne d’images, le format JPEG.
Et ce sans même parler de l’électronique ou des lois de l’optique. Aujourd’hui, ce point de vue
harmonique s’est généralisé à toute l’analyse, a même diffusé en algèbre. Si nous nous sommes
attardé en cours sur les harmoniques de la droite réelle, les fω , physiciens et mathématiciens
n’ont de cesse aujourd’hui de décrire leurs équivalents dans des espaces moins homogènes (une
tasse en céramique, un cristal de roche...) ou de dimension supérieure.
Le premier à avoir systématisé ce travail, “compris d’une manière exacte et complète la nature
des séries trigonométriques” (pour citer Riemann), Joseph Fourier aura donc initié un mouvement
qui touche autant aux théories mathématiques qu’aux applications pratiques. Homme ancré dans
son temps, au service de ses contemporains (il fut préfet de l’Isère de 1802 à 1815), il est un modèle
pour de nombreux mathématiciens appliqués. Mais la reconnaissance fut longue à venir. À ce
sujet, on rapporte souvent la controverse déclenchée par Jacobi écrivant en 1830 à Legendre :
« M. Fourier avait l’opinion que le but principal des mathématiques était l’utilité publique et
l’explication des phénomènes naturels ; mais un philosophe comme lui aurait dû savoir que le
but unique de la science, c’est l’honneur de l’esprit humain, et que sous ce titre, une question
de nombres vaut autant qu’une question du système du monde. »
Reprise par Dieudonné, Bourbaki, la formule fait mouche ; on y lit entre les lignes la condes-
cendance pour les applications qui imprègne toujours l’esprit de nombreux étudiants en ma-
thématiques “pures”. Jusqu’en 1970, pas un article dans l’Encyclopédie Universalis au nom
de Joseph Fourier ! Heureusement, les temps changent ; nous assistons aujourd’hui à une re-
mise à l’honneur des nombreux mathématiciens qui ont voulu, en plus de faire progresser la
science, se rendre utiles à leurs prochains – voir Le retour de Fourier par Jean-Pierre Kahane,
www.academie-sciences.fr/pdf/dossiers/Fourier/Fourier_pdf/Fourier_Kahane.pdf.
Tous comptes faits, si je ne devais conserver qu’une leçon de ce cours, ce serait celle-ci :
Lors de la dernière séance, nous avons envisagé la géométrie à la manière d’un élève en licence
de mathématiques. Dépassant les a priori d’Euclide et consorts, nous n’avons pas hésité à parler
de droite, d’orthogonalité dans des espaces de trajectoires, de signaux et d’images. En appliquant
le vocabulaire et les concepts de la géométrie à des espaces de grande dimension, nous avons pu
apprivoiser ces derniers : les intuitions sur les plans, les projections ont donné naissance à des
algorithmes tout à fait non-triviaux, et ô combien utiles.
Mais, si nous avons eu l’audace de plaquer le bon vieux vocabulaire euclidien sur des partitions
et des photos, nous n’avons jamais remis en question les concepts géométriques sous-jacents à la
géométrie des anciens : droite engendrée copie de la droite réelle et structure additive globale.
Et après tout, qui pourrait nous en blâmer ? Le monde de Descartes, l’espace euclidien R3
semble si naturel qu’on a du mal à l’imaginer autrement : entre deux points a = (a1 , a2 , a3 ) et
b = (b1 , b2 , b3 ) passe un unique plus court chemin, le segment
de longueur p
`(a → b) = ka − bk = (a1 − b1 )2 + (a2 − b2 )2 + (a3 − b3 )2 (4.2)
et voilà tout, il n’y a pas à chercher plus loin...
(1 − t) · a + t · b
81
Séance 5 82 Chapitre 4. Introduction à la géométrie Riemannienne
Axiomatiques non-euclidiennes
Vraiment ? Eh bien, plutôt qu’un long discours, attaquons ensemble l’entame du chapitre III
de La Science et l’Hypothèse, d’Henri Poincaré.
Figure 4.2 – Preuve par Euclide que la ligne droite est le plus court chemin entre deux points du
plan (Livre 1, Proposition 20) – Illustration tirée de l’excellent The Elements of Euclid, d’Oliver
Byrne, paru en 1848 et réédité aux éditions Taschen.
Henri Poincaré soulève ici un point crucial : personne n’a jamais vu de système de coordonnées
attaché à l’espace ambiant. Il n’y a pas de repère intrinsèque nécessaire, de réalité des axes que
l’on dessine par commodité dans les ouvrages de physique.
Celui-ci n’est qu’une construction a posteriori, qui reflète un fait cinématique bien établi dans
notre vie quotidienne :
— Si j’avance de trois pas en avant, que je tourne à droite d’un tiers de tour (120◦ )...
— Puis que je ré-avance de trois pas, et que je re-tourne à droite d’un tiers de tour...
— Et qu’enfin, pour la troisième fois, j’avance de trois pas...
Eh bien, je serai revenu à mon point de départ ! Cette “vérité” de notre monde, c’est exactement
celle qui est modélisée par la proposition suivante :
« Un triangle est équilatéral si et seulement si deux de ses angles sont d’un sixième de tour. »
Ni plus, ni moins. Une géométrie n’est pas une propriété consubstantielle à la matière, mais
un résumé des règles auxquelles obéissent le mouvement. Sans altérer les propriétés des objets
présents sur les “photos”, il est donc possible d’imaginer de nouvelles géométries en modifiant le
déroulement des vues sur la pellicule, les règles de transition d’un état à un autre.
3 3
4 4
5 5
2 2 6
6
1 1
7 7
8 0 8
0
9 9
Figure 4.3 – À gauche, illustration de la petite promenade décrite ci-dessus dans le plan eu-
clidien. On pourrait tout à fait imaginer qu’une telle suite d’instructions ne nous ramène pas à
notre point de départ, comme “illustré” sur la figure de droite : ce sera le point de départ des
géométries non-euclidiennes.
4.2. Une géométrie non-euclidienne 85
paramétré à vitesse constante, et dont la longueur est donnée par le théorème de Pythagore :
p
`eucl (sa→b ) = (b1 − a1 )2 + (b2 − a2 )2 . (4.5)
En toute généralité, la longueur euclidienne d’un chemin lisse quelconque sera alors simplement
définie comme la somme des longueurs des accroissements infinitésimaux dγ = γ̇ dt :
Z 1
`eucl (γ) = kγ̇(t)k dt (4.6)
0
Z 1 q
= γ̇12 (t) + γ̇22 (t) dt. (4.7)
0
Fait remarquable : on peut entièrement caractériser les transformations du plan qui préservent
la longueur des chemins – les isométries du plan euclidien.
Théorème 4.1 (Isométries du plan euclidien). Soit f : R2 → R2 une application du plan
euclidien dans lui-même. Alors les deux propositions suivantes sont équivalentes :
1. f préserve la longueur des chemins, au sens où, pour tout chemin γ : [0, 1] → R2 ,
`(f ◦ γ) = `(γ). (4.8)
2. f est la composée d’une translation, d’une rotation et, éventuellement, d’une réflexion, i.e.
il existe un centre c = (c1 , c2 ), un vecteur w = (w1 , w2 ) et un angle θ tels que
+(x1 − c1 ) cos(θ) ± (x2 − c2 ) sin(θ) + c1 + w1
∀ (x1 , x2 ) ∈ R2 , f (x1 , x2 ) = (4.9)
−(x1 − c1 ) sin(θ) ± (x2 − c2 ) cos(θ) + c2 + w2
ou, en notation complexe (z = x1 + i x2 ) :
(
(z − c) eiθ + c + w sans réflexion,
∀ z ∈ C, f (z) = (4.10)
(z − c) eiθ + c + w avec réflexion.
Démonstration. L’implication réciproque est immédiate. Pour le sens direct, par contre, c’est un
peu plus compliqué : on se ramène à devoir montrer qu’une isométrie f qui fixe le point (0, 0) (en
quotientant les deux degrés de liberté accordé par la translation) et le point (1, 0) (en quotientant
le degré de liberté accordé par la rotation) est ou bien l’identité, ou bien la réflexion d’axe (Ox).
Pour tout point x = (x1 , x2 ) du plan, on sait alors que
kf (x) − (0, 0)k = kx − (0, 0)k kf (x) − (1, 0)k = kx − (1, 0)k . (4.11)
Autrement dit, f (x) est à l’intersection des deux cercles non-concentriques qui contraignent
exactement f (x) à être égal ou bien à x, ou bien à son symétrique par rapport à l’axe horizontal.
La détermination de l’image d’un point en dehors de l’axe entraînant celle des autres, on a bien
démontré notre résultat : à une translation et rotation près, f est ou bien l’identité, ou bien la
réflexion d’axe (Ox).
Séance 5 86 Chapitre 4. Introduction à la géométrie Riemannienne
avec cas d’égalité si et seulement si γ est égal au segment sa→b à reparamétrisation près.
Démonstration. Pour démontrer ce théorème, on procède en deux temps. D’abord, on prouve le
lemme suivant :
Lemme 4.1 (Principe de rétraction dans le plan euclidien). Si γ est un chemin joignant le point
(0, 0) au point (x, 0), alors
On notera que la paramétrisation par longueur d’arc est essentielle pour le passage de la première
à la deuxième ligne, car il assure que la quantité intégrée est constante au cours du temps. Cette
égalité doit être comprise comme un théorème de Pythagore sur les chemins, la décomposition
du calcul de la longueur sur les deux axes (Ox) et (Oy) du repère.
Le point clé est alors de comprendre qu’entre ces deux composantes, la première est utile
(puisqu’elle permet de passer de γ1 (0) = 0 à γ1 (1) = x), tandis que la seconde ne l’est pas
(puisque par hypothèse γ2 (0) = γ2 (1) = 0).
Par suite, un chemin optimal restera nécessairement collé à l’axe horizontal avec γ2 (t) = 0
pour tout instant t. Conclure que le chemin optimal γ = (γ1 , 0) est nécessairement égal au
segment s(0,0)→(x,0) n’est alors pas difficile (puisque l’on n’a jamais intérêt à rebrousser chemin
entre 0 et x), et on a démontré notre lemme.
4.2. Une géométrie non-euclidienne 87
b
a τ−a τ−a (b) rθ
−a θ rθ ◦ τ−a (b)
τ−a (a) rθ ◦ τ−a (a)
Figure 4.4 – Transport via une isométrie f = rθ ◦ τ−a d’une situation quelconque vers le cas
“horizontal” traité par le lemme de rétraction.
Suite de la preuve Pour démontrer le théorème 4.2, une idée forte est alors d’utiliser les
isométries du plan euclidien pour nous ramener au cas simple “a = (0, 0), b = (x, 0)” traité
explicitement par le lemme 4.1.
Considérons donc un chemin γ joignant le point a au point b, que l’on cherche à comparer au
segment sa→b . D’après le théorème 4.1, on dispose d’une isométrie f telle que
f (a) = (0, 0), f (b) = (x, 0), `eucl (f ◦ γ) = `eucl (γ) (4.17)
p
avec x = (b1 − a1 )2 + (b2 − a2 )2 : il suffit de translater par (−a), puis de considérer la bonne
rotation. Fait remarquable, on a alors :
Bilan Tout autant que le résultat, il importe de retenir la démarche qui nous a permis de l’ob-
tenir. Plutôt que de développer, calculer comme des forcenés la longueur d’un chemin arbitraire,
nous avons découpé le problème en :
— Un calcul simple, dans un cas de référence (le lemme de rétraction).
— Un problème de “recalage”, le transport d’une situation quelconque vers le cas de référence
au moyen d’un isomorphisme, une transformation de l’espace qui conserve les propriétés
étudiées – ici, les longueurs de chemins, d’où le nom plus spécifique d’isométrie.
Séance 5 88 Chapitre 4. Introduction à la géométrie Riemannienne
Théorème 4.4 (Géodésiques de la sphère unité). Sur la sphère unité, les droites géodésiques
sont exactement les grands cercles, ou intersections de la sphère S 2 avec un plan passant par
l’origine O du repère.
Entre deux points non-antipodaux de la sphère, il existe donc un unique plus court chemin.
Figure 4.5 – Sur la sphère, la somme des angles d’un triangle géodésique est toujours strictement
supérieure à 180◦ : c’est un espace de courbure positive. La géométrie euclidienne, plate, en donne
néanmoins une bonne approximation pour des échelles très inférieures au rayon de courbure –
dans le cas de la Terre, il est de 6 371km.
Image tirée de Wikipédia.
Séance 5 90 Chapitre 4. Introduction à la géométrie Riemannienne
Figure 4.6 – Le disque de Poincaré. Pour emprunter le plus court chemin, un habitant de ce
monde réduit aura toujours tendance à passer par le centre du disque, où la température élevée
lui permet de faire des pas de géant. La simplicité de la métrique permet d’expliciter les “droites”
géodésiques : ce sont les arcs de cercle orthogonaux au bord du disque. Par le point P passent
donc une infinité de “droites” n’intersectant pas la droite (AA0 ).
Image tirée et modifiée du site de John D. Norton, University of Pittsburgh.
Séance 5 92 Chapitre 4. Introduction à la géométrie Riemannienne
Pour construire des géométries nouvelles, M. Poincaré propose donc simplement de partir
d’un ouvert de l’espace euclidien – ici, la boule Ω = B(0, R) de R2 – et de le déformer localement :
son champ de températures,
2
K(x) = R2 −kxk , (4.23)
avec une différence de taille : la présence d’un coefficient de dilatation 1/K(x)2 , qui déforme la
métrique et rend les longueurs infinies au bord du disque – i.e. lorsque x2 + y 2 = R2 .
que l’on appellera métrique Riemannienne locale au point x, on peut maintenant définir la
longueur d’un chemin γ : [0, 1] → Ω à valeur dans notre domaine comme la somme des longueurs
des pas infinitésimaux dγ(t) = γ̇(t) dt, calculées au sens de la métrique locale d2γ(t) :
Z 1 p
`(γ) = d2 (γ(t) → γ(t) + γ̇(t) dt) (4.28)
0
Z 1 q
= d2γ(t) (γ̇(t)) dt. (4.29)
0
Il s’agit d’une simple généralisation aux métriques “non-uniformes” de la formule (4.7) donnant
la longueur euclidienne d’une courbe, et on peut par exemple calculer le “rayon” du disque de
Poincaré associé au chemin radial γ(t) = (t, 0). Pour la métrique euclidienne, habituelle, on a
sans surprise :
Z 1
`eucl (γ) = kγ̇(t)kγ(t), eucl dt (4.30)
0
Z 1
= k(1, 0)kγ(t), eucl dt (4.31)
0
Z 1 p
= 12 + 02 dt = 1. (4.32)
0
4.4. Géodésiques du disque de Poincaré 93
Le disque de Poincaré est donc un espace métrique non borné : un univers dans une coquille
de noix. Son étude explicite fera l’objet des pages suivantes, et nous verrons que le Postulum
d’Euclide n’y est pas vérifié – la figure 4.6 permet déjà de s’en faire une bonne intuition.
Théorème 4.5 (Description des géodésiques du disque de Poincaré). Les plus courts chemins
du disque de Poincaré sont exactement :
— les arcs de cercles orthogonaux aux bords du disque ;
— les diamètres droits, qui passent par son centre.
On notera que les seconds peuvent être vus simplement comme des arcs de cercle de rayon infini.
Entre deux points donnés du disque, il existe donc un unique plus court chemin. Mais, confor-
mément à ce qui est énoncé Figure 4.6, le disque de Poincaré ne vérifie pas le Postulum d’Euclide.
Une fois n’est pas coutume, pas de grande nouveauté ici : les projections des mathématiciens
sont bien celles employées de tout temps par les géographes pour représenter sur un plan la
géométrie sphérique de notre globe terrestre.
Comme pour la projection de Mercator présentée Figure 4.7, on prendra toutefois garde à bien
considérer sur l’espace d’arrivée la métrique induite par l’espace de départ : sur un planisphère
“déformé” comme sur la Terre, le Groenland n’est pas plus vaste que l’Afrique tout entière !
Plutôt que des projections de type Mercator, nous préférerons ici des projections stéréogra-
phiques, qui conservent les angles – voir Figure 4.8. Comme démontré à la fin du film Dimensions
d’Étienne Ghys, Jos Leys et Aurélien Alvarez, ces projections ont de nombreuses propriétés de
conservation, toutes très utiles d’un point de vue théorique.
D’abord, elles conservent les angles : si deux courbes γ1 , γ2 sur la sphère se croisent en p avec
un angle θ, alors les courbes projetées F ◦ γ1 et F ◦ γ2 se croisent en F (p) avec ce même angle
θ. Ensuite, elles préservent localement les rapports des surfaces : localement, la carte au point
F (p) est identique à celle au point p, à un facteur de dilatation près. Enfin, et c’est cette dernière
propriété qui sera à retenir pour la suite : les projections stéréographiques envoient des cercles
de la sphère sur des cercles (ou droites) du plan, comme illustré Figure 4.9.
Pour bien nous approprier ces notions, nous projetterons en classe le Chapitre 1 du film
Dimensions, dont sont tirées les belles images ci-contre – pour les démonstrations, je vous invite
à regarder le Chapitre 9, librement accessible à l’adresse suivante : www.dimensions-math.org.
(a) La projection de Mercator : C = M (S) (b) Les cercles bleus sont de rayons constant
pour la métrique induite de la sphère sur le
plan.
Figure 4.8 – Projection stéréographique de la sphère sur le plan tangent au pôle Sud.
Figure 4.9 – Une projection stéréographique envoie les cercles sur des droites ou des cercles.
Séance 5 96 Chapitre 4. Introduction à la géométrie Riemannienne
muni de la métrique :
dx21 + dx22
ds2I = 4 . (4.39)
(1 − x21 − x22 )2
On a simplement remplacé x par x1 , et y par x2 , en plus de dilater la métrique par un facteur 4 –
pour des questions de normalisation de la courbure, qui importent peu ici. Suivant la Figure 4.10,
on considère deux modèles supplémentaires : l’hémisphère
et le demi-plan
H = {(1, x2 , x3 ) | x3 > 0}. (4.41)
Pour passer de I à J puis de J à H, on définit les deux projections stéréographiques β et α, qui
sont respectivement associées aux points (0, 0, −1) et (−1, 0, 0). Un point courant i du disque est
donc associé de manière unique à un point j = β(i) de l’hémisphère, puis à un point h = α(j)
du demi-plan.
A priori, toutes ces projections, ces changements de coordonnées ne nous mènent pas bien
loin : certes, le disque de Poincaré peut être vu au travers de nos projections – de nos miroirs
déformants – comme un hémisphère, un demi-plan... Mais encore ?
On peut déjà constater que, par les propriétés des projections stéréographiques énoncées plus
haut, un cercle sur I correspond exactement à un cercle sur J, puis à un cercle sur H. Plus
exactement, on a l’équivalence suivante :
Lemme 4.3 (Grands cercles sur les modèles du plan hyperbolique). Soit γ : R → I un chemin,
une courbe définie à valeur dans le disque de Poincaré. Alors les trois propositions suivantes sont
équivalentes :
1. γ décrit un arc de cercle orthogonal aux bords du disque, ou bien un diamètre de ce dernier.
2. β ◦ γ, qui est un chemin à valeurs dans J, décrit un demi-cercle sur J qui coupe de manière
orthogonale le plan horizontal.
3. α ◦ β ◦ γ, qui est un chemin à valeurs dans H, décrit un demi-cercle qui coupe de manière
orthogonale l’axe horizontal, ou bien est une droite verticale.
Démonstration. C’est une conséquence directe des propriétés énoncées plus haut. Je vous
conseille néanmoins de faire de nombreux croquis dans la marge du présent polycopié, pour
bien visualiser les chemins en question et vous convaincre de la véracité de mes propos. Il va sans
dire que je ferai quelques dessins en classe !
Ces équivalences entre “cercles généralisés” sont un bon début. Mais le véritable intérêt de
notre manœuvre réside dans la proposition suivante, qui décrit complètement la métrique induite
du disque de Poincaré I vers l’hémisphère J et le demi-plan H.
4.4. Géodésiques du disque de Poincaré 97
Figure 4.10 – Les cinq modèles du plan hyperbolique vus dans le plan (x1 , x3 ), c’est à dire en
coupe de côté. Les projections associées transportent la métrique du disque I vers l’hémisphère
J, puis de là vers le demi-plan H. Les deux derniers modèles K et L sont plus anecdotiques, et
ne seront pas abordés ici.
Dessin tiré de l’article de J. W. Cannon et al., Hyperbolic Geometry.
Figure 4.11 – Selon l’orientation, un demi-grand cercle de J peut-être envoyé par α sur un
demi-cercle de H, ou sur l’axe vertical.
Dessin tiré de l’article de J. W. Cannon et al., Hyperbolic Geometry.
Séance 5 98 Chapitre 4. Introduction à la géométrie Riemannienne
Proposition 4.1. De même que la projection de Mercator permettait de munir le plan d’une
métrique induite le rendant isométrique au globe terrestre privé de ses pôles, les projections
stéréographiques β et α permettent de munir l’hémisphère J et le demi-plan H de métriques
riemanniennes (i.e. de “champs de température”) les rendant isométriques au disque de Poincaré.
Elles sont données par les formules suivantes :
dx21 + dx22
ds2I = 4 . (4.44)
(1 − x21 − x22 )2
KJ (x1 , x2 , x2 ) = x3 (4.46)
KH (x2 , x3 ) = x3 . (4.47)
La démonstration de cette proposition repose sur un calcul qui, s’il est immédiat, me semble
un peu trop technique pour des élèves de filières non scientifiques. On peut tout de même essayer
de le comprendre !
Commençons par remarquer que, dans le modèle de l’hémisphère comme dans le domaine
du demi-plan, la température tend vers 0 lorsqu’on s’approche du plan horizontal, du bord du
domaine. Ainsi (on peut le vérifier comme à l’équation (4.37)), le bord reste toujours à l’infini :
dans H et J comme dans I, un chemin qui sort du domaine est nécessairement de longueur
infinie.
Plus que cette simple vérification, ce qui nous intéresse ici est la forme bien particulière des
champs de températures KJ et KH : tous deux dépendent uniquement de x3 de façon linéaire.
Autrement dit, et c’est un point crucial, la métrique est invariante par toute une famille de
transformations du domaine faciles à comprendre :
4.4. Géodésiques du disque de Poincaré 99
Théorème 4.6 (Premières isométries du plan hyperbolique). On peut caractériser quatre fa-
milles d’isométries du plan hyperbolique :
1. Les réflexions de l’hémisphère J telles que
2. Les rotations Rθ de l’hémisphère J autour de l’axe (Oz), qui conservent les lignes de niveau
horizontales :
Démonstration. Les trois premiers points sont immédiats et sans surprise : ils reposent sim-
plement sur le fait que réflexions, rotations et translations horizontales conservent à la fois la
norme des vecteurs vitesses et la composante d’altitude. Prouvons par exemple le troisième, et
prenons un chemin γ : [0, 1] → H. À chaque instant t de l’intervalle [0, 1], γ associe un triplet
(1, γ2 (t), γ3 (t)) appartenant au demi-plan H – on a donc γ3 (t) > 0. Pour tout x réel, le translaté
horizontal τx ◦ γ est simplement donné par :
On a alors :
Z 1
z ˙ {
lH (τx ◦ γ) =
(4.55)
τx ◦ γ(t)
dt
0 τx ◦γ(t)
Z 1
= k(0, γ̇2 (t) + 0, γ̇3 (t))k(1,γ2 (t)+x,γ3 (t)) dt (4.56)
0
Z 1p
γ̇2 (t)2 + γ̇3 (t)2
= dt (4.57)
0 γ3 (t)
Z 1
= k(0, γ̇2 (t), γ̇3 (t))k(1,γ2 (t),γ3 (t)) dt (4.58)
0
Z 1
= kγ̇(t)kγ(t) dt (4.59)
0
= lH (γ) (4.60)
La translation horizontale τx conserve donc bien la longueur des chemins : c’est une isométrie.
Les rotations, réflexions et translations hyperboliques que nous avons exhibé ici sont exac-
tement les analogues des rotations, réflexions et translations “classiques” du plan euclidien. Ce
sont des transformations simples, qui préservent les longueurs des chemins, et caractérisent une
certaine homogénéité de l’espace métrique étudié. Que les dilatations σh du demi-plan soient
Séance 5 100 Chapitre 4. Introduction à la géométrie Riemannienne
elles-aussi des isométries du “plan hyperbolique” est, par contre une réelle surprise : dans le plan
euclidien, les dilatations modifient les échelles sans conserver les longueurs. En un sens, nous
allons donc prouver que le groupe des isométries du plan hyperbolique est plus riche que celui des
isométries du plan euclidien. Fixons une valeur du paramètre h qui soit strictement positive. On
a alors
(qui n’est pas de vitesse constante au sens de la métrique sur H). Alors pour tout chemin γ
joignant a à b dans le demi-plan H, on a
Z 1
x x log(x/2)
`H (γ) > `H (sa→b ) = dt = , (4.70)
0 2 + t · (x − 2) x−2
avec cas d’égalité si et seulement si γ est égal au segment à sa→b à reparamétrisation près.
Démonstration. La démonstration du lemme suit dans les grandes lignes celle que nous avions dé-
veloppé dans le cas euclidien, avec décomposition en une partie “utile” (dans notre cas, verticale),
et partie “inutile” (ici, horizontale). Les détails sont laissés à la sagacité du lecteur.
4.4. Géodésiques du disque de Poincaré 101
Tous les outils en main, on peut maintenant attaquer le cœur de notre séance :
Preuve du théorème de classification des géodésiques du disque de Poincaré. On travaillera dans
le demi-plan H, avant d’utiliser le Lemme 4.3 pour transporter nos résultats sur le disque.
On se donne donc deux points distincts a = (1, a2 , a3 ) et b = (1, b2 , b3 ) du demi-plan, et on
définit le segment hyperbolique sa→b : [0, 1] → H comme suit :
— Si a2 = b2 , i.e. si a et b sont sur la même droite verticale, alors σa→b est simplement le
segment vertical défini dans la page précédente.
— Sinon, c’est qu’il existe un unique cercle Ca,b du plan “x1 = 1” qui contienne à la fois a et
b, et dont le centre soit situé sur l’axe x3 = 0 ; Ca,b est donc un cercle qui coupe le bord
de H de façon orthogonale. On peut en effet remarquer que le seul centre convenable pour
Ca,b est à l’intersection entre le bord de H et la médiatrice du segment euclidien [a, b]. On
définit alors sa→b comme l’arc de Ca,b allant de a à b à vitesse euclidienne constante.
Étant donné un chemin γ quelconque joignant a à b dans H, il s’agit de montrer que :
— Si f (b) est sur la droite b2 = 0, alors c’est gagné, d’après le lemme de rétraction. Sinon, on
utilise la projection stéréographique α conformément à la Figure 4.11. Comme f (a) =
(1, 0, 2) = α((0, 0, 1)), on sait que α−1 (f (a)) correspond au pôle Nord de l’hémisphère J.
L’image réciproque de l’arc de cercle f ◦ sa→b est donc exactement l’arc de “grand cercle”
partant du pôle Nord de J pour aller au point α−1 (f (b)).
De son côté, le chemin f ◦ γ est transporté vers un chemin a priori quelconque reliant le
pôle Nord à α−1 (f (b)), avec toutefois
g(a) = (1, 0, 2), `H (g ◦ γ) = `H (γ), et g(b) sur l’axe médian “x2 = 0 ” de H. (4.74)
Bilan
À la première lecture, je ne doute pas que les pages précédentes vous aient laissés perplexes :
tant de remarques, de lemmes, de résultats annexes pour un si petit résultat ! C’est que, pour une
fois, j’ai souhaité vous montrer une véritable preuve mathématique jusque dans ses complications
techniques – en écrémant pourtant la partie relative aux problèmes de paramétrisation. Tous ces
détails sont là pour vous rassurer, vous servir de référence... Pas pour obscurcir votre vue ! Pour
clore cette section, je souhaiterais donc mettre en avant les idées essentielles qui nous ont permis
de résoudre le problème des géodésiques du disque de Poincaré de manière efficace.
Première entre toutes, la place de choix accordée aux isométries. Que ce soit dans
le cas du plan euclidien, de la sphère ou du plan hyperbolique, nous avons su tirer parti de
l’homogénéité des espaces étudiés, de la richesse de leur groupe d’isométries : pour tout couple
de points a et b, nous avons réussi à expliciter une isométrie qui envoyait a sur un point de
référence (l’origine, un point de l’équateur, le point (1, 0, 2)), et b sur un espace favorable au
calcul (l’axe horizontal, l’équateur, l’axe médian de H).
L’attention accordée à une description simple du groupe des isométries. Pour cela,
il était indispensable d’obtenir une décomposition pratique des isométries en classes primitives
élémentaires. Si l’habitude nous a permis d’obtenir des résultats rapides dans le cas du plan
euclidien et de la sphère, il nous a fallu déployer des trésors d’ingéniosité pour décrire le groupe,
bien plus riche, des isométries du plan hyperbolique. L’introduction des projections stéréo-
graphiques α, β et des trois modèles standards I, J et H nous a heureusement permis de
conserver une certaine intuition, et d’assimiler les isométries élémentaires Rθ , τx et σh à des
opérations “courantes” de l’espace euclidien.
En fin de compte, nous avons donc obtenu une preuve intelligible, bien découpée, avec un
recours minimal au calcul : un bien beau résultat aux yeux du géomètre, qui tient maintenant
un exemple explicite et bien compris d’espace ne vérifiant pas le Postulum d’Euclide.
(a) Un tore bouée vu comme surface immergée (b) Le tore carré. Muni de la métrique natu-
dans l’espace ambiant R3 . relle euclidienne, il est plat : petits et grands
parallèles sont de même longueur.
Figure 4.12 – Deux manières de représenter un tore. La géométrie Riemannienne permet d’étu-
dier la structure métrique de la bouée avec le confort pratique offert par une paramétrisation
bidimensionnelle.
(a) Par contre, en déformant ce rectangle par (b) Les courbes géodésiques, tirées numérique-
une métrique bien choisie (qui pénalise cer- ment sur la représentation de gauche (sans
taines droites horizontales plus que d’autres, se- avoir à se soucier d’un quelconque “décolle-
lon qu’elles correspondent à des grands ou à de ment”) donnent bien les résultats attendu en
petits équateurs), on peut obtenir une structure 3D !
géométrique identique à celle du tore bouée.
Figure 4.13 – Géodésiques de longueur 3π/2 tirées à partir du grand équateur, sur le tore de
rayon médian 2 et de section 1. Les trajectoires sont intégrées par une simple méthode d’Euler,
sur un domaine rectangulaire périodique (θ, χ) ∈ S 1 × S 1 .
Séance 5 104 Chapitre 4. Introduction à la géométrie Riemannienne
L’idée est féconde : prenons l’exemple du tore. Il existe a priori deux manières de l’étudier : en
tant que surface immergée dans l’espace ambiant R3 , ou comme quotient du plan R2 par l’action
des translations entières – le fameux carré aux bords recollés. Cette dernière représentation est
de loin la plus pratique : plutôt que de travailler avec des points (x, y, z) dont il faut toujours
s’assurer qu’ils ne quittent pas la surface, on utilise des couples (r, θ) sans se poser d’autre
question que celle du “modulo 2π”.
Malheureusement, la structure métrique du carré recollé n’est pas représentative de l’idée
sous-jacente de “bouée” que nous avons tous en tête : avec un parallélépipède, impossible de rendre
le “petit équateur” plus court que le grand – voir Figures 4.12 et 4.13. Pour réunir le meilleur des
deux mondes, il faudra déformer le carré par une métrique appropriée, qui accorde d’autant plus
de poids à dθ que le point de base (r, θ) est proche de l’axe de révolution du donut. Vous pourrez
trouvez des précisions à ce sujet dans les excellentes notes de Robert T. Jantzen, Geodesics on
the Torus and other Surfaces of Revolution Clarified Using Undergraduate Physics Tricks with
Bonus : Nonrelativistic and Relativistic Kepler Problems : arxiv.org/abs/1212.6206.
Cette flexibilité de la géométrie Riemannienne, qui permet de décrire des structures géomé-
triques riches sur un espace d’états restreints (ici, le carré qui peut être déformé en à peu près
n’importe quelle surface) de manière intrinsèque, fait tout l’intérêt de la théorie. Nous verrons
au chapitre 6 le profit que peut en tirer un mathématicien appliqué.
Les intérêts des géomètres ont donc considérablement changé. Pour clore cette séance,
je voudrais vous présenter une piste, une généralisation féconde de la géométrie de Poincaré qui
a connu de grands développements ces trente dernières années.
Tout est parti d’un constat simple : dans le plan hyperbolique – i.e. le disque de Poincaré,
l’hémisphère ou le demi-plan, qui sont équivalents les uns aux autres –, les triangles sont unifor-
mément fins.
Proposition 4.2 (Les triangles du plan hyperbolique sont uniformément fins). Soit a, b, c trois
points du plan hyperbolique. On peut tracer les trois segments hyperboliques sa→b , sb→c et sc→a
– que l’on notera plus simplement [a, b], [b, c] et [c, a] – , pour obtenir le triangle (abc), exact
analogue des triangles du plan euclidien. Alors, et c’est un fait remarquable :
√
∀ x ∈ [a, b], ∃ y ∈ [a, c] ∪ [c, b], dH (x, y) 6 ln(1 + 2) = 0.88... (4.75)
4.6. Conclusion, ouverture vers la géométrie combinatoire 105
Figure 4.14 – Finesse des triangles dans √ le plan hyperbolique, comme expliqué Proposition 4.2.
Prouver l’exactitude de la borne ln(1 + 2) demande un peu de travail, mais cette figure permet
de comprendre intuitivement pourquoi envoyer les sommets à l’infini ne permet pas de faire
croître indéfiniment l’épaisseur des triangles géodésiques.
Un exemple de triangle limite, avec p, q et r à l’infini est ici représenté en pointillé. Notons
pour commencer que, puisque la température est proportionnelle à l’altitude sur le demi-plan,
la distance entre les deux branches verticales s’amenuise (en tendant vers 0) à mesure que l’on
remonte vers r0 = ∞. Le même pincement des bords est vrai au voisinage des points p0 et q 0 .
Comme les dilatations partant du bord sont des isométries, il n’est pas difficile de voir que le
point de sp→q le plus éloigné des deux autres segment se trouve au milieu de l’arc de cercle... à
distance finie (et très raisonnable) des deux bords verticaux. Envoyer les points à l’infini dans des
directions opposées n’a donc pas permis d’épaissir le triangle : c’est une différence remarquable
entre le plan hyperbolique et le plan euclidien.
Dessin tiré de l’article de J. W. Cannon et al., Hyperbolic Geometry.
Autrement dit, le plus court chemin pour aller de a à b reste à une distance uniformément bornée
par 0.9 du chemin [a, c] + [c, b].
Le résultat ci-dessus se comprend par exemple dans le modèle du disque de Poincaré : étant
donnés trois points a, b et c “typiques”, on voit que les géodésiques auront toujours intérêt à
repiquer vers le centre “chaud” du disque. Impossible donc de trouver des côtés bien écartés dans
un triangle hyperbolique.
Il s’agit, évidemment, d’une immense fracture entre le monde euclidien et le monde hyper-
bolique. Là où, dans le plan euclidien, il suffit de dilater pour changer d’échelle et augmenter le
diamètre d’un triangle géodésique, un tel argument n’est plus valide dans le disque de Poincaré.
Nous avons d’ailleurs vu que certaines dilatations du demi-plan, loin de les dilater, conservaient
les distances !
Le disque de Poincaré est donc plein de surprises. Heureusement, les intuitions à son sujet
ne manquent pas : je vous conseille à ce propos l’excellent article de vulgarisation d’Étienne
Ghys, Poincaré et son disque. Au delà des résultats analytiques, les mathématiciens vont peu à
peu trouver des analogues discrets au plan hyperbolique, qui imitent sa structure métrique à la
manière d’un quadrillage sur le plan euclidien.
Séance 5 106 Chapitre 4. Introduction à la géométrie Riemannienne
Le sixième modèle
Celui qu’on appellera ici le “sixième modèle” (après I, J, H, et les deux modèles plus anec-
dotiques du disque de Klein K et de l’hyperboloïde L) est construit par pavage du demi-plan,
comme à la Figure 4.15. Un nœud du graphe, un carré, sera donc relié à exactement cinq voisins :
un en haut, un à gauche, un à droite et... deux en bas ! Les distances sont alors calculées exacte-
ment comme on le ferait sur un quadrillage classique, modulo cet excès de masse caractéristique
de la géométrie hyperbolique.
S’il n’est pas parfait, ce modèle approché reflète deux propriétés bien réelles de la géométrie
hyperbolique :
— Son homogénéité (qui n’est qu’approchée ici, avec une direction haut-bas privilégiée) :
aucun point n’est “au centre” de l’espace, tous sont équivalents au sens de la distance du
graphe.
— La finesse de ses triangles, illustrée Figure 4.15 : étant donnés trois points a, b, c du graphe,
il n’est pas très difficile de comprendre que les géodésiques ont intérêt à “remonter” à des
altitudes similaires, pour profiter des “grands carrés”.
(a) Un chemin quelconque dans le sixième mo- (b) Géodésique reliant deux points du graphe
dèle. “proches” du bord.
(c) Plutôt que de couper à travers une forêt de petits carrés, il est souvent préférable de prendre un peu
de hauteur, jusqu’à avoir la vue dégagée. Les géodésiques du sixième modèle ne passent donc jamais plus
de cinq étapes à se translater sur la gauche ou la droite, préférant à cela la grimpette.
Figure 4.15 – Dans le sixième modèle, un triangle géodésique (pqr) ne peut être d’épaisseur
supérieure à 8.
Dessins tirés de l’article de J. W. Cannon et al., Hyperbolic Geometry.
4.6. Conclusion, ouverture vers la géométrie combinatoire 107
Figure 4.16 – Un espace métrique est δ-hyperbolique au sens de Gromov si tous ses triangles
sont δ-fins : pour tous points a, b, c, le segment géodésique [a, b] est inclus dans un δ-voisinage
de [a, c] ∪ [c, b].
√
Ainsi, le disque de Poincaré est ln(1 + 2)-hyperbolique (Proposition 4.2), et le “sixième
modèle” est 8-hyperbolique, tandis que le plan euclidien ou le quadrillage régulier Z × Z ne le
sont évidemment pas, pour aucune valeur de δ.
Surtout, des exemples tout naturels nous viennent de la théorie des graphes : les arbres, ou
graphes acycliques, sont des espaces métriques 0-hyperboliques. En effet, entre deux points a et
b quelconque d’un arbre passe un unique chemin sans rebroussement : tout triangle géodésique
(abc) est donc absolument plat, avec [a, b] ⊂ [a, c] ∪ [c, b]. Dans la vision de Gromov – et du point
de vue de la seule structure métrique – un espace hyperbolique n’est donc rien d’autre
qu’un “quasi”-arbre !
Cela n’a l’air de rien, mais c’est exactement le genre d’idées qui fait la différence entre les
mathématiques du XIXe siècle et la géométrie contemporaine. Des belles preuves analytiques,
du travail sur les projections stéréographiques accessibles au calcul direct, on est passé à l’étude
d’espaces a priori beaucoup moins “sympathiques” et pourtant si naturels : pensez aux pavages
d’Escher !
Et les applications dans tout ça ? Vous l’avez déjà deviné : la géométrie Riemannienne est le
socle sur lequel repose la théorie de la relativité générale d’Einstein. D’un point de vue “purement”
mathématique, elle fournit un vocabulaire adapté à l’étude d’espaces non-plats – aujourd’hui,
on verrait par exemple ces espaces “modèles” comme les représentant les plus confortables (car
lisses) de “types” géométriques bien définis. Les généralisations, les directions de recherche sont
alors nombreuses : description fine des flots de courbures, de l’évolution des métriques dans des
espaces de dimension 4 (motivés à l’origine par des questions cosmologiques), extension à la
théorie du contrôle optimal (guidage de véhicule, mise en orbite de satellites...).
Dans la fin de ce cours, nous découvrirons un champ d’applications peu médiatisé mais
aujourd’hui en plein essor : les extensions à la dimension infinie pour les problèmes de mécanique
des fluides, et l’étude des espaces de formes avec applications au traitement d’images médicales.
Séance 5 108 Chapitre 4. Introduction à la géométrie Riemannienne
Figure 4.17 – Circle Limit IV (Heaven and Hell) de M.C. Escher : que se passerait-il si anges
et démons jouaient au téléphone arabe ?
Figure 4.18 – Un exemple d’espace métrique hyperbolique non-trivial : le graphe de Cayley (ici
tracé au voisinage de l’unité pour un bon système de générateurs) du groupe SL2 (Z), qui agit
naturellement sur le demi-plan H par isométries. C’est l’analogue hyperbolique de la grille infinie
classique, graphe de Cayley du groupe Z × Z qui agit par isométries sur le plan euclidien. On
peut montrer le résultat suivant, parfaite illustration des travaux de l’école de Gromov : “SL2 (Z)
étant un groupe hyperbolique (i.e. un de ses graphes Cayley a tous ses triangles δ-fins pour une
bonne valeur de δ), il est nécessairement automatique, c’est-à-dire que sa structure algébrique
peut être entièrement encodée dans une collections d’automates finis sans mémoires”.
Chapitre 5
Le modèle universel n’existe pas Avant toute chose, il est important de démystifier nos
terminaux numériques. De comprendre que ceux-ci reposent sur des idées, des algorithmes qui
n’ont rien de magique : une entreprise comme Adobe (éditrice du célèbre logiciel Photoshop)
publie ainsi régulièrement des articles scientifiques, emploie des dizaines de chercheurs d’un très
haut niveau... qui restent de simples mathématiciens/informaticiens !
En dépit des apparences (s’il y a bien un domaine où l’on reste souvent bluffé par les résul-
tats, c’est celui-là !), les algorithmes les plus sophistiqués reposent donc toujours sur des idées
humainement concevables. Alors, c’est vrai, de telles idées finissent toujours enrobées de dizaines
d’heuristiques, astuces et autres “tricks” qui affinent les résultats et permettent de grappiller
une poignée de pour-cents sur le produit final... Mais il ne faut pas s’y tromper : le cœur de
l’outil est toujours fondé sur la base de quelques équations, quelques idées qui font sens pour les
spécialistes.
Qui pourrait alors penser que l’on trouvera un jour “l’équation des images”, le “42” des photos
numériques ? Les spectaculaires succès de la physique mathématisée ne doivent pas nous griser :
si la mécanique céleste peut être résumée en une poignée d’équations, impossible d’espérer la
même réussite dans ce domaine-ci. On ne découvrira jamais de “formule” suffisamment simple
pour être travaillée, et suffisamment riche pour décrire dans son ensemble la formidable diversité
de notre environnement pictural.
109
Séance 6 110 Chapitre 5. Un espace de formes étonnant : la sphère des triangles
Choix d’un modèle adapté Nous avons déjà consacré la section 3.1.3 au problème de la
compression d’images, et vu comment l’utilisation d’une transformée de Fourier par blocs était
liée un a priori simple :
En effet, sous réserve que cette hypothèse soit vérifiée, les coefficients associés aux hautes fré-
quences seront faibles sur chaque bloc de 8x8 pixels et une compression JPEG donnera de bons
résultats. Une photo-souvenir “typique” comprenant de grandes plages de dégradés – visages,
ciel, ... – on comprend que ce format ait acquis une telle popularité sur les terminaux numériques
grand public.
Tout cela est bien beau. Mais il faut garder à l’esprit que si l’hypothèse (5.1) est raisonnable
dans le cas de simples “photos”, elle est archi-fausse lorsqu’il s’agit de comprimer des images
“non-lisses” comme des dessins – voir Figure 5.1 – ou des images très texturées, détaillées comme
des scans médicaux. À l’inverse, pour la compression de visages, il est possible vous vous en
doutez d’implémenter des a priori de régularité bien plus forts, jusqu’à “faire tenir” une photo
d’identité sur un simple QR code comme on l’a vu Figure 3.22 !
À chaque domaine d’application ses a priori, ses contraintes. Confronté à un problème scienti-
fique ou industriel, le mathématicien appliqué aura donc à trouver un cadre, un jeu d’hypothèses
pertinentes qui le guident vers des algorithmes aussi efficaces que possible.
Classification par réseaux de neurones Un domaine qui a longtemps résisté aux efforts
des spécialistes est celui de la classification d’images naturelles. Le problème était de taille :
comment regrouper sous une même étiquette des images qui peuvent différer par l’orientation,
l’éclairage, la pose, voire même le style graphique ? Pixel-par-pixel, rien de plus éloigné d’une
photo de Concorde qu’un dessin d’avion !
Popularisés sous l’étiquette “Deep Learning” depuis quelques années, les fameux réseaux de
neurones sont des structures algorithmiques qui encouragent naturellement la création d’inva-
riants aux aléas énumérés plus haut. “Boostés” par l’apparition de puces informatiques adéquates,
les fameuses cartes graphiques (développées initialement pour l’industrie du jeu vidéo), ces tech-
niques permettent par exemple de décomposer une image en une composante “de texture” et un
vecteur “de classe” (indépendant de la texture, de l’éclairage, des petites déformations...), ce qui
ouvre la voie à des algorithmes de classification efficaces ou à des applications plus exotiques
comme le “transfert de style” présenté sur le site deepart.io.
(a) À la transition entre la montgolfière et le (b) Un scan de texte, un dessin sont par essence
ciel bleu, l’élimination des hautes fréquences remplis de discontinuités. Une compression JPEG
produit un phénomène de ringing, d’oscillations de telles images donne donc, sans surprise, des
caractéristiques d’un filtre passe-bas. résultats désastreux.
Figure 5.1 – L’efficacité du format JPEG repose sur une hypothèse de régularité de l’image, et
comprime l’image en écrasant les hautes fréquences. Sur des images aux transitions brutales –
des dessins ou du texte, par exemple – il est donc déconseillé de l’utiliser.
Image tirées de la page web suivante :
cscie12.dce.harvard.edu/lecture_notes/2015/20150301/handout.html.
Figure 5.2 – Depuis quelques années, on arrive à décomposer une image en une composante
de texture et un résiduel de structure, à l’aide d’algorithmes d’apprentissage utilisant une archi-
tecture en cascade plus ou moins inspirée de celle du cortex visuel – d’où le nom de réseaux de
neurones. On peut ainsi transférer des “textures” d’images variées sur la structure d’une photo
arbitraire, comme le chat présenté en haut à gauche.
Images tirées d’un pre-print paru en 2016, Exploring the Neural Algorithm of Artistic Style de
Yaroslav Nikulin et Roman Novak.
Séance 6 112 Chapitre 5. Un espace de formes étonnant : la sphère des triangles
Action des similitudes Ces nuages de points P n , on peut les transformer à l’aide de trans-
lations, homothéties, rotations : si (x, y) est un vecteur du plan, s est une échelle et θ un angle,
on définit l’application
x s cos(θ) · x − s sin(θ) · y + x
Sx,y,s,θ : 7→ (5.2)
y s sin(θ) · x + s cos(θ) · y + y
qui est la composée d’une translation de vecteur (x, y), d’une rotation d’angle θ et d’une homo-
thétie de rapport s strictement positif. À vrai dire, puisque j’ai choisi de vous parler aujourd’hui
de photos bi-dimensionnelles, on peut se simplifier la vie en adoptant le formalisme complexe.
Comme au chapitre 2, on caractérisera nos points (x, y) par des affixes z = x + iy. Une similitude
du plan sera alors la donnée de deux complexes
τ = x + iy et υ = seiθ , (5.3)
Sτ,υ : z 7→ υ · z + τ. (5.4)
Si P n = (P1n , . . . , PIn ) est l’une de nos “formes”, on définira sans ambages son transformé :
Cette méthode a été popularisée sous le nom d’analyse Procustéenne en référence à Procuste,
brigand apparaissant dans la légende de Thésée qui, d’après Diodore de Sicile
« contraignait les voyageurs à se jeter sur un lit ; il leur coupait les membres trop grands et qui
dépassaient du lit ; et étirait les pieds de ceux qui étaient trop petits. »
5.1. Étude rudimentaire d’une population de poissons 113
(a) Données brutes : la source (b) La meilleure translation est (c) Après recalage des bary-
P m est en vert, la cible P n en celle qui aligne les barycentres. centres.
bleu.
(d) Les deux formes, centrées. (e) On peut calculer le rapport (f) Après application de la
de dilatation optimal. translation + homothétie.
(g) Les deux formes sont cen- (h) La meilleure rotation s’ob- (i) Après recalage par une simi-
trées et normalisées : reste à re- tient elle aussi par un calcul litude : le résidu peut être ana-
caler les orientations. analytique simple. lysé indépendamment.
Figure 5.4 – Recalage de l’aile bleue sur l’aile rouge par une analyse procrustéenne : celle-ci
décompose la variation inter-sujets en une similitude – position, orientation, taille – et un résiduel.
Selon les cas, il sera pertinent d’étudier l’une de ces deux composantes et d’oublier l’autre.
Image tirée de Wikipédia.
5.1. Étude rudimentaire d’une population de poissons 115
(b) Pertinence de l’analyse procrustéenne : le nuage de données brutes est représenté en vignette (a), en
bas à droite. Quotienter par les similitudes permet de recaler tous les nuages de 10 points autour d’une
même forme de référence, en faisant abstraction de la position (abscisse et ordonnée), de l’orientation
ou de l’échelle. On passe donc de 20 à 16 degrés de liberté indépendants. L’analyse de forme se fera sur
ces données “propres” (b), robustes vis à vis des problèmes de cadrage au moment de l’acquisition.
(c) Après une analyse en “plaques minces”, les deux principaux modes de variation de nos formes de thons
“à similitude près” sont isolés, et servent à repérer les poissons dans le plan ci-dessus : le premier mode
correspond ainsi à la direction (AB), et le second mode à la direction (CD). Les disques correspondent
aux animaux pêchés en 2008 et les triangles au millésime 2009 : une inhomogénéité manifeste est révélée,
avec la sur-représentation des poissons de 2009 dans le quadrant inférieur droit.
« Quelle est la distribution “standard” des formes de triangles – à similitude près – reliant des
points tirés au hasard selon une loi de probabilité simple ?
Plus spécifiquement, si des points sont (par exemple) tirés de manière indépendante et
uniforme dans le disque unité, puis reliés trois à trois, quelle sera la proportion observée de
triangles “presque plats” avec un angle inférieur à 1◦ ? »
(a) À l’extrémité ouest des îles britanniques, la pointe des Cor- (b) Sur cette péninsule de 10km sur
nouailles recèlerait-elle un secret ? 15km, on observe une concentration
Carte OpenStreetMap. élevée de monolithes.
Figure 5.6 – Motivation initiale de David Kendall : les monolithes de Land’s End ont-ils été
placés au hasard, ou peut-on voir dans la distribution ci-dessus les traces d’alignements signifi-
catifs ? Chaque site est ici représenté par un nombre, celui des “triangles presque plats” dont il
fait partie. On reformule alors notre question de manière statistique :
« Sur la carte (b), y a-t-il un nombre anormalement élevé de triades de mégalithes alignés ? »
Dans un article d’une grande importance historique, Simulating the Ley Hunter paru en 1980, Si-
mon Broadbent laisse à penser que non – ce qui est bien entendu sujet à de sérieuses controverses
archéologiques.
5.2. Menhirs, Cornouailles et sphère des triangles 117
Paramétrisation naïve À première vue, un triangle ABC n’est rien d’autre que la donnée
de trois affixes complexes associées aux sommets : z1? , z2? et z3? . Conformément à l’équation (5.5),
pour tout “vecteur” τ et rapport υ, on peut écrire
Sτ,υ (ABC) = Sτ,υ (z1? , z2? , z3? ) = ( υ · z1? + τ, υ · z2? + τ, υ · z3? + τ ). (5.8)
De plus, pour (z1? , z2? , z3? ) et (w1? , w2? , w3? ) deux triangles quelconques, le critère minimisé par
l’analyse procustéenne s’écrit simplement :
2
k z ? − w? k2 = |z1? − w1? |2 + |z2? − w2? |2 + |z3? − w3? |2 . (5.9)
Illustré Figure 5.7, ce changement linéaire de coordonnées permet d’écrire les similitudes de
manière plus compacte
√
Sτ,υ (ABC) = Sτ,υ (z0 , z1 , z2 ) = ( υ · z0 + 3 τ, υ · z1 , υ · z2 ), (5.12)
les translations n’ayant d’influence que sur le seul barycentre. Dans le même temps, grâce aux
propriétés d’orthogonalité de la matrice de changement de repère, on a toujours une expression
simple de la distance quadratique entre deux triangles du plan :
2 2
k z ? − w? k2 = kz − wk2 = |z0 − w0 |2 + |z1 − w1 |2 + |z2 − w2 |2 . (5.13)
Autrement dit, si notre triangle n’est pas dégénéré (A = B = C, cas que l’on exclut de notre
analyse), on peut caractériser sa forme “à similitude près” par le ratio
√1 (2z ? − z ? − z ? )
z2 6 3 1 2
ξ = = ∈ C ∪ {∞}. (5.16)
z1 √1 (z ? − z ? )
2 2 1
Deux triangles non dégénérés (z) et (w) seront semblables si et seulement si leurs “ratios” res-
pectifs ξ = z2 /z1 et ξ 0 = w2 /w1 sont égaux. On a réussi à décrire la forme d’un triangle par un
unique nombre complexe “projectif” (i.e. qui peut être infini), avec deux paramètres réels (mo-
dule et argument). À vrai dire, comme illustré Figures 5.8 et 5.9, considérer le ratio ξ revient ni
plus ni moins à utiliser une similitude pour recaler (A, B) = (z1? , z2? ) sur (−1, 1), puis à identifier
la forme du triangle avec la coordonnée libre restante, issue de z3? .
z2
ξ
z3? z3?
z0
β β z1
z1? zc z1? zc
α α
z2? z2?
(a) Des affixes aux coordonnées barycentriques. (b) Des coordonnées barycentriques au ratio
projectif.
Figure 5.7 – On peut caractériser un triangle (z1? , z2? , z3? ) par son barycentre zc = 31 (z1? + z2? + z3? )
et deux vecteurs directionnels α = z2? − z1? et β = 31 (2z3? − z1? − z2? ). En normalisant ceux-
√ √ √ √
ci pour obtenir un jeu de coordonnées (z0 , z1 , z2 ) = ( 3 zc , α/ 2, β 3/ 2), on dispose d’une
représentation adaptée aux similitudes et aux calculs de distances – équations (5.12-5.13).
Finalement, le ratio ξ = z2 /z1 encode complètement la forme du triangle aux similitudes près.
5.2. Menhirs, Cornouailles et sphère des triangles 119
La sphère des triangles Souvenons-nous : dans le film Dimensions repris Figure 2.5b, nous
avions appris qu’une “droite projective complexe” n’est rien d’autre qu’une sphère. Par la pro-
jection stéréographique, il est donc possible d’identifier un ratio complexe ξ ∈ C ∪ {∞} avec
un point de la boule unité, caractérisé par deux angles en coordonnées sphériques θ et ϕ. En
s’inspirant de cette idée, David Kendall propose d’associer un couple d’angles à chaque triangle
(z ? ) ∼ (z) ∼ ξ par la formule :
θ = 2 arctan(|ξ|) et ϕ = arg(ξ), (5.17)
de sorte que ξ = tan(θ/2) e . iϕ
(5.18)
Chaque classe de triangle à similitude près est alors associée à un point de la sphère, que l’on
choisit de rayon 1/2 pour une raison qui deviendra claire au Théorème 5.1 :
1
f (ξ) = (cos θ, sin θ cos ϕ, sin θ sin ϕ) (5.19)
2
en coordonnées (X, Y, Z). Le résultat est illustré Figure 5.10, avec un représentant de classe pour
chaque point du globe. Suivant la page précédente, on trouve :
— Le segment [A = B, C] au point (−1/2, 0, 0).
— Le triangle plat où C est au milieu de [AB] au point (+1/2, 0, 0).
— Les triangles plats sur l’équateur Z = 0.
— Les triangles isocèles en C sur le méridien Y = 0.
— Les deux triangles équilatéraux direct (Nord) et indirect (Sud) aux pôles (0, 0, ±1/2).
|ξ|
z3?
√
3 |ξ|
ϕ = arg ξ
θ
π/2 π z1? = −1 z2? = +1
Figure 5.8 – Étant donné un point de la sphère de coordonnées sphériques (θ, ϕ) ∈ [0, π]×[0, 2π[,
comment√ construire un triangle lui correspondant ? Il suffit de considérer le triplet (z1 , z2 , z3 ) =
? ? ?
Figure 5.9 – L’espace des triangles à similitude près, vu dans le plan des ratios ξ ∈ C ∪ {∞}.
Dessiné en rouge, l’axe des abscisses correspond aux triangles plats. Les triangles isocèles se
répartissent selon trois courbes, qui dépendent du sommet privilégié : en bleu, l’axe des ordonnées
correspondant aux triangles isocèles en C ; en vert la courbe des triangles isocèles en A, en cyan
celle des triangles isocèles en B. Le point correspondant au ratio ξ = 0 est ici représenté à
l’origine du repère.
5.2. Menhirs, Cornouailles et sphère des triangles 121
Figure 5.10 – L’espace des triangles à similitude près, isométrique à la sphère de rayon 1/2.
Homogène, cette représentation permet de rendre compte des symétries intrinsèques de l’espace
des triangles liées au ré-étiquetage des points et aux réflexions. Ici, chaque “forme” au sens des
rapports de longueurs se retrouve dans les 12 quartiers découpés par l’équateur des triangles
plats et les méridiens des triangles isocèles.
Séance 6 122 Chapitre 5. Un espace de formes étonnant : la sphère des triangles
Théorème 5.1 (Sphère de Kendall et moindres carrés). Soit ABC et DEF deux triangles
du plan aux sommets étiquetés, identifiés à des triplets d’affixes complexes z ? = (z1? , z2? , z3? ) et
w? = (w1? , w2? , w3? ).
Suivant la discussion des pages précédentes, on associe à z ? (respectivement w? ) un couple
de complexes “barycentriques” z = (z1 , z2 ) (resp. w = (w1 , w2 )), puis un ratio projectif complexe
ξ = z2 /z1 (resp. ξ 0 = w2 /w1 ), un couple d’angles (θ, ϕ) ∈ [0, π] × [0, 2π[ (resp. (θ0 , ϕ0 )) et un
en 0 de rayon 1/2 dans R3 , f (ξ) (resp. f (ξ 0 )).
point de la sphère centrée p
Alors en notant W = |w1 |2 + |w2 |2 l’échelle de DEF, on a :
La preuve repose sur un simple calcul de minimum par annulation de la dérivée, avec utili-
sation de moult identités trigonométriques. Pour permettre au plus grand nombre d’accéder à
ce résultat, je vais maintenant détailler tous les points de la preuve, sans omettre une ligne de
calcul.
Démonstration. Avant tout, reprenons les membres de notre équation. À gauche et au centre, un
réel défini de manière implicite :
v
u 3
uX
dProcuste (ABC → DEF ) = min t |υ · zi? + τ − wi? |2 . (5.21)
τ,υ∈C
i=1
√
Passage aux distances quadratiques Commençons par rappeler que x 7→ x est une fonc-
tion positive et strictement croissante de x. Il suffit donc de démontrer notre égalité sur les carrés
des distances mises en jeu, i.e. montrer que :
3
!
X
? ? 2
min |υ · zi + τ − wi | (5.25)
τ,υ∈C
i=1
1
= W · (cos θ − cos θ0 )2 + (sin θ cos ϕ − sin θ0 cos ϕ0 )2 + (sin θ sin ϕ − sin θ0 sin ϕ0 )2
2
(5.26)
4
La similitude optimale recale les barycentres Reste à le caractériser. Pour cela, remar-
quons que pour tout accroissement dτ , on a :
2 2
kSτ0 +dτ,υ0 (z ? ) − w? k2 > kSτ0 ,υ0 (z ? ) − w? k2 . (5.27)
Or on peut calculer que :
3
X
2
kSτ0 +dτ,υ0 (z ? ) − w? k2 = |υ0 · zi? + τ0 + dτ − wi? |2 (5.28)
i=1
3
X
= (υ0 · zi? + τ0 + dτ − wi? ) (υ0 · zi? + τ0 + dτ − wi? ) (5.29)
i=1
2
= kSτ0 ,υ0 (z ? ) − w? k2 + 3 |dτ |2 (5.30)
3
X
+ dτ ·(υ0 · zi? + τ0 − wi? ) + dτ ·(υ0 · zi? + τ0 − wi? ) (5.31)
i=1
2
= kSτ0 ,υ0 (z ? ) − w? k2 + 3 |dτ |2 (5.32)
3
!
X
+ 2 Re dτ · (υ0 · zi? + τ0 − wi? ) , (5.33)
i=1
qui est le développement en dτ du coût minimisé au voisinage de l’optimum (τ0 , υ0 ). Par suite
de l’inégalité (5.27), le terme linéarisé d’ordre 1 doit être positif pour toute valeur assez faible de
dτ : ceci n’est possible que si on a annulation de la dérivée,
3
X
(υ0 · zi? + τ0 − wi? ) = 0. (5.34)
i=1
i.e. « Sτ0 ,υ0 recale les deux barycentres ». C’est un résultat que nous avions utilisé de manière
intuitive dans la Figure 5.3b.
Séance 6 124 Chapitre 5. Un espace de formes étonnant : la sphère des triangles
À l’optimum, on a alors :
2
X 2
X
(υ0 zi ) ·(υ0 zi ) = (υ0 zi ) · wi , (5.44)
i=1 i=1
ce qui nous permet de conclure :
2
X
d2Procuste (ABC → DEF ) = (υ0 zi − wi ) ·(υ0 zi − wi ) (5.45)
i=1
2
X
= (υ0 zi ) ·(υ0 zi ) −(υ0 zi ) · wi − wi ·(υ0 zi ) + wi · wi (5.46)
i=1
2
X
= wi · (wi − υ0 zi ) (5.47)
i=1
2
X 2
X
= wi wi − υ0 wi zi (5.48)
i=1 i=1
2
X P2
| wi zi |2
= wi wi − Pi=1
2 (5.49)
i=1 i=1 |zi |2
2
! P2
X w |z
i i |2
= |wi |2 · 1 − P i=1
P . (5.50)
2 2 2 2
i=1 i=1 |zi | · i=1 |wi |
5.2. Menhirs, Cornouailles et sphère des triangles 125
z2 = ξ z1 et w2 = ξ 0 w1 . (5.51)
1 2 |1 + ξ 0 ξ|2
d (ABC → DEF ) = 1 − . (5.56)
W 2 Procuste (1 + |ξ|2 ) ·(1 + |ξ 0 |2 )
En coordonnées sphériques Pour conclure, il suffit alors de s’armer de patience, d’une fiche
de formules trigonométriques, et de se souvenir que
0
ξ = tan(θ/2) eiϕ , ξ 0 = tan(θ0 /2) eiϕ . (5.57)
On trouve :
0
1 2 |1 + tan(θ/2) tan(θ0 /2)ei(ϕ−ϕ ) |2
dProcuste (ABC → DEF ) = 1 − (5.58)
W 2 1 + tan2 (θ/2) · 1 + tan2 (θ0 /2
tan2 (θ/2) + tan2 (θ0 /2) − 2 tan(θ/2) tan(θ0 /2) cos(ϕ − ϕ0 )
= (5.59)
1 + tan2 (θ/2) · 1 + tan2 (θ0 /2
1
= ·(1 − cos θ cos θ0 − sin θ sin θ0 cos(ϕ − ϕ0 )) (5.60)
2
1
= · (cos θ − cos θ0 )2 + (sin θ cos ϕ − sin θ0 cos ϕ0 )2 + (sin θ sin ϕ − sin θ0 sin ϕ0 )2 (5.61)
4
2
= kf (ξ) − f (ξ 0 )kR3 . (5.62)
À la variance du triangle d’arrivée près, la sphère de rayon 1/2 est bien le bon espace pour
calculer les distances procustéennes entre triangles.
Séance 6 126 Chapitre 5. Un espace de formes étonnant : la sphère des triangles
ce qui revient à dire que x?i = Re(zi? ) et yi? = Im(zi? ) suivent des lois gaussiennes centrées
indépendantes d’écarts-types respectifs s et 1.
Alors la variable aléatoire f (z ? ) suit une loi sur la sphère qui est fonction de la seule
altitude Z et du paramètre d’anisotropie s.
Si s = 1 (loi gaussienne isotrope), on retrouvera exactement la loi uniforme sur la sphère.
Sinon, on observera une concentration autour de l’équateur de triangles plats qui est d’autant
plus importante que s est grand.
Le résultat ci-dessus est remarquable : il fait le lien entre la loi normale isotrope dans le plan
(qui est en un sens la loi de probabilité la plus simple, la moins structurée dans R2 ) et la loi
uniforme sur la sphère. Autrement dit, voir les triangles sur la sphère est aussi naturel que de
tirer des sommets indépendamment selon une loi normale isotrope. Sur la sphère, chaque élément
de surface est d’une importance proportionnée à sa représentativité, ce qui est un progrès flagrant
par rapport au plan des ξ présenté Figure 5.9.
Intérêt pratique du résultat Si nous tirons les points du plan non plus selon une loi normale,
mais de manière uniforme dans un domaine fixé – par exemple, la péninsule de Land’s End dans
les Cornouailles –, la répartition des formes de triangles sur la sphère s’en trouve sensiblement
modifiée. À la dernière ligne de la Figure 5.11, on représente les densités empiriques sur la sphère
pour des points tirés uniformément dans le disque unité, puis dans des ellipses de rapports
d’anisotropie 2 et 4 pour 1. Ici, point de distribution uniforme sur la sphère : là où la loi normale
et sa “bosse” maintenaient à flot les triangles “à deux petits côtés + un grand”, ceux-ci sont
maintenant clairement désavantagés au profit des triangles à “deux grands côtés + un petit”.
Par contre, le phénomène de tassement sur l’équateur des triangles plats se confirme à mesure
que la loi de tirage devient anisotrope. In fine, la comportement précis de la distribution des angles
d’un triangle en fonction de la loi de tirage de ses sommets peut être bien comprise, et des tables
mises à dispositions des archéologues et des biologistes. Tester une hypothèse d’indépendance
dans la génération des sommets par cette statistique est donc devenu une opération de routine.
5.2. Menhirs, Cornouailles et sphère des triangles 127
Figure 5.11 – Histogrammes empiriques sur la sphère de Kendall. Sur les trois premières lignes
(a-f), les points sont tirés de manière i.i.d. selon une gaussienne isotrope (a-b) ou anisotrope
(c-d) et (e-f). À gauche, on représente la densité de tirage des points et une dizaine de triangles.
Comme indiqué par le théorème 5.2, la densité sur la sphère (représentée à droite par rapport à
la mesure de surface) ne dépend que de l’altitude Z.
Sur la ligne du bas (g-i), des histogrammes analogues sont tracés pour des points tirés de manière
uniforme dans une ellipse de grands axes (r, 1). Les triangles isocèles “deux petits côtés + un
grand” perdent en influence au profit des triangles “deux grands côtés + un petit”, ce qui conduit
à la formation de trois îlots d’attraction espacés régulièrement le long de l’équateur.
Séance 6 128 Chapitre 5. Un espace de formes étonnant : la sphère des triangles
Conclusion
Dans ce chapitre, nous avons présenté la théorie des similitudes sous un angle pratique, celui
des recalages rigides. Nous avons vu comment factoriser la variabilité d’une population d’images
P 1 , . . . , P N en un sous-espace de déformations bien comprises (les similitudes Sτ,υ ), et un espace
de résiduels après recalage difficiles à interpréter.
Dans le cas des espaces de triangles, le travail de David Kendall nous permet de penser
aux résiduels comme aux points d’une sphère : une représentation élégante, pertinente à la fois
d’un point de vue métrique et probabiliste. Il s’agit d’un travail remarquable... Mais difficile à
étendre : aucun résultat analogue n’existe pour des espaces de résiduels génériques et le miracle
de la sphère des triangles ne semble pas pouvoir être renouvelé.
Alors, comment faire pour aller plus loin, pour analyser de manière fine des populations de
formes quelconques ? La solution, que nous exposerons dans l’ultime chapitre de ce cours, sera
d’élargir l’espace des déformations admissibles : en enrichissant le groupe des déformations du
plan pour dépasser les 4 dimensions des similitudes, on rendra accessibles à l’analyse numérique
des variations de formes plus complexes que les seules translations, rotations et changements
d’échelle. Tirant parti des idées développées dans tout ce polycopié, il s’agira finalement de faire
de la géométrie riemannienne sur l’espace des déformations fluides du plan.
Chapitre 6
f
X −→f (X) Y, (6.1)
n
X
2 2
avec une dissimilarité kf (X) − Y k2 = f (X i ) − Y i minimale. (6.2)
i=1
Des images aux mesures Soit X une image, que l’on modélisera par une courbe polygonale
donnée d’une collection de segments du plan ([ai , bi ])16i6I . Pour conserver des calculs raison-
nables, on va procéder à une simplification brutale : l’oubli de la structure topologique de la
courbe, pour se concentrer sur la seule masse du dessin, en remplaçant cette collection de seg-
ments par une mesure
I
X
µ = Mesure(X) = µi δxi , (6.3)
i=1
ai + bi
xi = et µi =
bi − ai
(6.4)
2
sont respectivement les centres et les longueurs des segments de X.
Transport Suivant les idées de Monge, recaler une image X sur une image Y , c’est transporter
la “masse d’encre”
I
X J
X
µ = Mesure(X) = µi δxi sur la mesure ν = Mesure(Y ) = νj δyj . (6.5)
i=1 j=1
Mais comment s’y prendre, au juste ? En 1781, date à laquelle il publie son Mémoire sur la théorie
des déblais et des remblais, Monge a en tête des problèmes de défense nationale, de construction
de places fortes. L’unité de masse est pour lui la motte de terre ou le sac de sable, et il s’agit de
transporter une masse totale M tirée de fossés localisés en les points xi sur les fondations des
remblais en y j . D’un côté, I sources fournissant chacune µi mottes de terre aux points xi ; de
l’autre, J points à renforcer de νj mottes aux points y j . On a bien sûr :
I
X J
X
µi = M = νj avec des masses que l’on supposera entières, pour simplifier. (6.6)
i=1 j=1
sous la contrainte que, pour tous indices i ∈ [[1, I]] et j ∈ [[1, J]],
# m ∈ [[1, M ]] , γ0m = xi = µi , (6.9)
# m ∈ [[1, M ]] , γ1m = y j = νj . (6.10)
Des brouettes au plan de transport A priori, le problème ci-dessus est extrêmement difficile
à résoudre puisqu’il porte sur des vecteurs de dimension infinie, les chemins γ m . Mais heureu-
sement, le coût (6.8) est si simple que l’on peut pré-optimiser chaque chemin indépendamment
des autres ; le Théorème 4.2 sur les géodésiques du plan euclidien (les lignes droites) permet en
effet d’affirmer qu’à extrémités γ0m et γ1m fixées, γtm est entièrement déterminé :
avec un coût Z 1
2 2
kγ̇tm k dt = kγ1m − γ0m k . (6.12)
t=0
On peut alors remarquer que le coût total n’est plus fonction que d’un grand plan global
Γ = (γi,j )(i,j)∈[[1,I]]×[[1,J]] déterminant combien de mottes de terre doivent être envoyées de xi à y j
2
2
en ligne droite, pour un coût γi,j
xi − y j
. En notant ci,j =
xi − y j
le coût du déplacement
d’un sac de xi vers y j , on trouve la formulation statique du problème de transport :
X
Trouver le plan Γ qui minimise γi,j ci,j , (6.13)
i,j
Ici, les masses µi et νj sont rendues par le fait que plusieurs mottes de terres peuvent se
trouver au même endroit.
Séance 7 132 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Calcul efficace de plans de transports diffus Calculer ces transports en un temps rai-
sonnable a longtemps été un problème : comme tout problème d’assignement combinatoire, il
était ardu à résoudre de manière exacte. Heureusement, depuis 2013 et la publication par Marco
Cuturi de l’article Sinkhorn Distances : Lightspeed Computation of Optimal Transport, on dis-
pose d’un algorithme itératif dit de Sinkhorn pour calculer extrêmement rapidement des plans
de transports diffus, probabilistes, qui approximent bien l’étiquetage déterministe optimal.
Procuste ou Monge ? Le transport optimal met l’accent sur une notion de déformation éco-
nomique et flexible, là où l’analyse procustéenne priorisait la rigidité des recalages obtenus. En
pratique, les biologistes, neurologues et médecins ont besoin de recalages intermédiaires : plus
souples que les similitudes, mais moins irréguliers que les plans de transport simples. Comment
les obtenir ? C’est tout l’objet des pages qui suivent.
Figure 6.1 – Mon petit exposé sur le transport optimal est bourré d’anachronismes... Pour
retrouver l’esprit du mémoire de Monge, n’hésitez pas à lire l’article Le mémoire sur les dé-
blais et les remblais d’Étienne Ghys, disponible sur Images des Maths : images.math.cnrs.fr/
Gaspard-Monge,1094.html.
6.1. Au delà des similitudes : les déformations fluides 133
(a) Des courbes aux mesures. (b) Transport optimal de Monge, “ε = 0”.
√ √
(c) Transport diffus, ε = .01. (d) Transport diffus, ε = .03.
Figure 6.2 – Plans de transport optimaux entre une forme bleue (les déblais) et une courbe
rouge (les remblais), vues dans le plan R2 (une carte d’état major). Première étape de l’analyse :
le passage des courbes aux mesures de masse (a). Pour simplifier le problème, on normalise les
deux masses totales pour obtenir le même nombre de “mottes de terre” au départ et à l’arrivée.
Le plan de transport optimal (b) peut alors être calculé par un algorithme combinatoire ; mieux :
l’algorithme de Sinkorn permet d’obtenir en un temps réduit des approximations probabilistes
du transport qui dépendent du seul paramètre de diffusion ε.
Si cette théorie permet d’obtenir rapidement des correspondances point-à-point entre formes, elle
n’est pas adaptée aux problèmes d’imagerie médicale. Imaginez seulement les conséquences d’un
tel matching si courbes bleues et courbes rouges représentaient des coupes du cœur (avec deux
ventricules...) à deux instants différents du cycle cardiaque !
C’est qu’en oubliant d’entrée de jeu toute information topologique sur les voisinages et les conti-
nuités de la forme, la modélisation de Monge et Kantorovitch jette aux oubliettes une information
cruciale.
Séance 7 134 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
On peut vérifier que la distance engendrée par le transport “classique” vérifie bien ces axiomes :
elle est appelée “distance de Wasserstein”, et fait toujours l’objet de nombreuses études. Par
contre, la distance “naïve” associée à la formule (6.16) ne vérifie ni l’axiome de symétrie, ni
l’inégalité triangulaire. Elle est donc à peu près inutilisable en tant qu’outil d’analyse.
Le problème de la formule (6.16) est le rôle privilégié qu’elle accorde aux positions de dé-
part xm , qui sont seules utilisées comme “indicateurs de voisinages” au travers de la fonction
k. Pour rattraper la sauce, on peut symétriser la formule par l’ajout d’un deuxième terme de
régularisation,
X,Y
X
m
2 1 X
0
0
2
Ck,sym (σ) =
x − y σ(m)
+ k(xm , xm ) ·
y σ(m) − y σ(m )
(6.18)
2
m m,m0
| {z } | {z }
Coût du transport Coût de régularisation X → Y
1 X
−1
0
2
0
−1
+ k(y m , y m ) ·
xσ (m) − xσ (m )
. (6.19)
2
m,m0
| {z }
Coût de régularisation Y → X
Malheureusement, la “distance” engendrée par un tel coût ne tient compte que des formes d’arrivée
et de départ, sans considération pour les positions des porteurs au cours du trajet.
6.1. Au delà des similitudes : les déformations fluides 135
D’une affectation atomique à un transport continu Pour concevoir une notion de trans-
port régularisé qui reste intuitive, il nous faut revenir au problème de Monge initial, à l’interpré-
tation cinématique du transport. Étant donnée une trajectoire γ : t 7→ γt = (γt1 , . . . , γtM ) telle
que γ0m = xm et γ1m = y σ(m) , on avait défini le coût du transport
Z 1X
2
C(γ) = kγ̇tm k dt, (6.20)
0 m
Le transport corrélé est un problème Riemannien A priori, l’équation (6.22) impose une
pénalisation compliquée, à deux termes, sur le transport de M particules corrélées entre elles.
Comment, alors, réussir à trouver des chemins Ck -optimaux ?
Pour y répondre, un mathématicien commencera par chercher des simplifications concep-
tuelles. On préférera voir cette équation comme un problème de transport simple sur l’espace des
n-uplets de points muni d’une métrique Riemannienne arbitraire. Ainsi, considérons l’espace de
landmarks
L2M = (q 1 , . . . , q M ) ∈ R2 , q i 6= q j (6.23)
des M -uplets de points distincts deux à deux dans le plan R2 . On peut le voir comme un ouvert
de l’espace RM ×2 , et décrire un petit voisinage de tout nuage q = (q 1 , . . . , q M ) comme l’ensemble
des nuages q + v, où v = (v 1 , . . . , v M ) est un M -uplet de vecteurs suffisamment petits.
De la même manière que le disque de Poincaré était muni d’un champ de températures qui
dilatait les distances, on peut munir l’espace des landmarks d’une métrique Riemannienne q 7→ gq
donnée par
2
dg (q → q + v · dt) X 2
X 0
0
2
= kv m k + k(q m , q m ) ·
v m − v m
(6.24)
dt m 0 m,m
2
T
= v gq v = kvkgq (6.25)
Retour sur le coût de transport On peut dire qu’on a muni l’espace des nuages de point
d’une métrique qui pénalise les déchirures, les séparations de points proches au sens d’une fonction
noyau k. Surtout, on peut maintenant réécrire le coût
Z 1
2
Ck (γ) = kγ̇t kγt dt (6.26)
0
et l’on s’est ramené à chercher, dans l’espace Riemannien (L2M , gq ), le(s) chemin(s) optimal entre
deux formes X et Y , i.e. un chemin γ dans l’espace des landmarks qui réalise le minimum du
coût Ck (γ) sous les conditions
γ0 = X, γ1 = Y. (6.27)
Formulé ainsi, notre problème est analogue à celui du pilote d’avion devant aller de Paris à
Moscou en une heure, à moindre frais : il s’agit de joindre un point à un autre sur une variété
courbe, en minimisant la consommation de carburant. Avec un coût quadratique en la norme
de la vitesse, le trajet optimal sera celui qui parcourt la distance de X à Y sur un trajet de
longueur minimale, à vitesse constante : plutôt que d’être lièvre, de se reposer 30mn pour courir
ensuite deux fois plus vite sur les 30 minutes restantes, on aura toujours intérêt à se faire tortue,
à avancer d’un pas égal.
Finalement, le problème du transport régularisé peut être reformulé comme suit :
À une question compliquée posée dans un espace simple, on a substitué une question simple dans
un espace compliqué. C’est une idée fructueuse, car qui dit question simple dit méthode, et qui
dit méthode dit résolution !
Figure 6.3 – Un avant-goût des bénéfices apportés par une méthode riemannienne de régulari-
sation du transport. Il s’agit ici de trouver une trajectoire optimale d’un nuage de points bleu
X vers un nuage rouge Y . À gauche (a), la trajectoire de type transport (pourtant calculée avec
une possibilité d’effacement des outliers trop importants) n’est pas satisfaisante : elle découpe
les bras de l’étoile de mer sans considérations pour sa topologie.
Ce problème sera résolu par l’utilisation de métriques régularisantes sur l’espace des nuages de
points (b), au prix d’un surcoût algorithmique conséquent (perte de convexité de la fonctionnelle
minimisée, etc.).
6.1. Au delà des similitudes : les déformations fluides 137
Équations géodésiques Heureusement, il est tout de même possible d’obtenir quelques ré-
sultats au sujet de ces “lignes droites”. Si on considère une courbe γ : t 7→ γt à valeurs dans une
variété Riemannienne (M, g) de dimension D (disons, une surface plongée dans l’espace ambiant,
ou nos espaces de nuages de points), le fait d’être “droit” est assez restrictif et impose une forme
de conservation de la “direction”.
Quitte à reparamétrer γ (ce qui ne change pas le trajet effectué), on peut en fait montrer que
γ est une géodésique si et seulement si elle vérifie “l’équation des géodésiques avec symboles de
Figure 6.4 – Trois exemples de trajectoires géodésiques – i.e. qui minimisent localement la
longueur – sur une statue de taureau. On l’aura compris, l’ensemble des “lignes droites” est ici
bien plus riche que sur la sphère homogène !
Image tirée du très bon film Chaos de Jos Leys, Étienne Ghys et Aurélien Alvarez, accessible
librement à l’adresse suivante : www.chaos-math.org.
Séance 7 138 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
avec gij les coefficients de la métrique, et g dl ceux de son inverse, la cométrique. L’accélération
d’une particule géodésique γt est donc fonction lisse de sa position et de sa vitesse, avec un
contrôle quadratique en cette dernière.
À un point (q, p) de l’espace des phases (le fibré cotangent), on associe l’énergie cinétique cor-
respondante via le Hamiltonien :
1 T
H(q, p) = p Kq p, (6.33)
2
de sorte qu’à chaque instant, on ait :
1 2 1 1
kvt kgγ = vtT gqt vt = pT Kq pt = H(qt , pt ). (6.34)
2 t 2 2 t t
On a alors équivalence entre les deux propositions suivantes :
1. γ est une courbe géodésique, qui minimise (localement) la distance.
2. La trajectoire relevée (qt , pt ) dans l’espace des phases suit le flot hamiltonien correspondant
au gradient symplectique (“tourné de 90◦ ”) de H :
(
q̇t = + ∂H ∂p (qt , pt ) = +Kqt pt
(Ham) : ∂H . (6.35)
ṗt = − ∂q (qt , pt ) = −∂q (pt , Kq pt )(qt )
6.1. Au delà des similitudes : les déformations fluides 139
Liens avec la mécanique Le résultat précédent est d’une importance historique capitale.
Découvert en 1833 par Hamilton, il a révolutionné la physique pour devenir au tournant du XXe
la base des trois grandes théories de la mécanique : quantique, classique, relativiste.
Et pour cause. Dans la section B.4.2, nous avons montré comment formaliser les équations de
la mécanique Newtonienne portant sur une particule de masse m en une équation différentielle
ordinaire d’ordre 1 sur le couple position-vitesse (q(t), v(t)) :
q̇(t) v(t)
= 1 , (6.36)
v̇(t) m F (q(t), v(t))
1
i.e. q̈(t) = F (q(t), v(t)) (6.37)
m
avec F (q(t), v(t)) la somme des forces s’exerçant sur la particule, fonction uniquement de sa
position (interaction gravitationnelle, ressort...) et de sa vitesse (force de Lorentz en électro-
magnétisme). Il s’agit du parfait analogue de l’équation des géodésiques (6.29).
Dans l’espace des phases position-vitesse (q, v) – aussi appelé fibré tangent –, obéir aux lois
de Newton revient à suivre un flot lisse,
v
X(q, v) = 1 . (6.38)
m F (q, v),
En conséquence, le théorème de Cauchy-Lipschitz peut garantir le déterminisme des lois de
Newton : étant donné un couple position-vitesse (q, v) en t = 0, il existe une unique trajec-
toire physique (qt , vt ), définie pour tout instant réel t et obéissant aux lois de la mécanique. La
connaissance exacte des positions et vitesses initiales à un instant donné permet donc de décrire
entièrement le passé, le présent et le futur d’un système mécanique.
L’espace des phases position-moment Le résultat d’Hamilton permet d’aller beaucoup plus
loin dans l’analyse grâce à une idée géniale : l’abandon de la vitesse v au profit du moment
p = (gq )−1 v – les mécaniciens utilisent une autre définition plus physique, mais équivalente.
Il ne s’agit a priori que d’un changement de variables linéaires, d’un changement de coor-
données locales dans l’espace des vitesses. On a du mal à en saisir l’intérêt a priori : pourquoi
délaisser la vitesse v au profit d’une grandeur ad hoc ? C’est que de manière remarquable, les
équations du mouvement/des géodésiques (c’est la même chose) prennent une forme toute par-
ticulière, symétrisée dans le nouvel espace des phases positions-moments (q, p) : en dénotant
X(q, p) le flot associé à l’équation (6.35), on a
!
+ ∂H (q, p)
X(q, p) = ∂p
= “R−90◦ ” ∇H(q, p) . (6.39)
− ∂H
∂q (q, p)
Petit exercice : le montrer dans le cas d’une particule d’altitude z, de masse m soumise à un
champ gravitationnel d’intensité g. On prendra q = z, v = q̇, p = mv et
1 p2
H(q, p) = “Emec ”(q, p) = “Ecin ”(q, p) + “Epp ”(q, p) = + mgq. (6.40)
2m
Être une trajectoire géodésique/physique dans l’espace des positions, c’est donc suivre dans
l’espaces des phases un simple flot stationnaire, donné par le gradient “tourné à 90◦ ” de l’énergie
mécanique (en termes techniques : le gradient symplectique du Hamiltonien).
Contrairement au flot “générique” des équations de Christoffel/Newton, le flot hamiltonien de
l’équation (6.39) est parfaitement symétrique en q et p, naturel si on admet le principe d’évolution
à énergie mécanique constante. Au sens de l’évolution géodésique/physique du système,
la variable naturelle n’est donc pas la vitesse v, mais bien le moment p.
Séance 7 140 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Contraintes pratiques sur la cométrique Dans les applications, on l’a vu, il sera primordial
de pouvoir calculer des géodésiques de manière efficace. Partant d’une condition initiale (q0 , p0 )
(ou (q0 , v0 ), de manière équivalente), il s’agira de pouvoir intégrer, tirer l’unique géodésique
solution de l’équation différentielle (6.35) prenant ces valeurs en t = 0. En pratique, on pourra
tout simplement le faire via un schéma d’Euler d’ordre 1, en discrétisant l’intervalle de temps en
une succession finie d’instants. De [0, 1], on passe à {0, 0.1, 0.2, . . . , 1}, et on utilise un schéma
itératif
qt+0.1 = qt + 0.1 · Kqt pt
(Ham. discret) : . (6.41)
pt+0.1 = pt − 0.1 · ∂q (pt , Kq pt )(qt )
Calcul de la métrique associée sur un exemple jouet Les cométriques à noyaux sont
extrêmement simples à calculer : il suffit d’une application de la fonction noyau pour chaque
couple (q i , q j ). La matrice de noyau réduite pourra alors être vue comme une matrice de cor-
rélation entre les points du nuage, qui associe un poids fort aux paires de points proches – le
théorème de Mercer, bien connu des spécialistes de l’apprentissage, permet d’ailleurs de préciser
cette intuition : kq est la matrice de Gram d’un plongement non-linéaire des données q i dans un
espace arbitraire.
Pour des applications réelles en imagerie médicale, avec des nuages de plus de 10 000 points
en dimension 3, c’est un plus indéniable. Reste à voir si la métrique associée fait sens ! Avant
d’attaquer les vrais résultats (qui sont surprenants !), prenons le temps de détailler les calculs
2
dans un cas simple, avec k(x, y) = exp(−kx − yk /2 l2 ) le noyau gaussien d’échelle l.
On considère un état q ∈ L6 , donné par six points (q 1 , q 2 , q 3 , q 4 , q 5 , q 6 ) du plan sur lesquels
2
où a = exp(−d2 /2 l2 ) ∈ [0, 1], et où l’on a remplacé les termes négligeables par des points.
x1
x2
x3
x5 x6 x4
(a) Vidéo Mythbusters Demo GPU versus CPU, de la (b) Nuage jouet de six points.
chaîne YouTube Nvidia : allez la regarder !
Figure 6.5 – (a) Motivation pratique derrière le choix des métriques à noyaux : la mise à
disposition sur le marché de cartes graphiques, puces informatiques totalement parallèles qui
permettent en un temps court de remplir un tableau de formules simples. (b) Exemple jouet
d’un nuage de six points en dimension 2. Les segments marqués sont tous de longueur d, vue au
travers du noyau k par le réel a = exp(−d2 /2 l2 ) ∈ [0, 1].
Séance 7 142 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
À la limite, la matrice de noyau réduite kq puis son homologue vectoriel Kq sont des matrices
diagonales par blocs, remplies de blocs élémentaires
1
1 (a)
. ..
T
Bn (a) = (1 − a) · In + a · (1)(1) = . (6.46)
(a) 1
1
Pour trouver la métrique, inverser kq , la clé est donc de savoir inverser les blocs Bn (a) associés
aux amas de n points.
Lemme 6.1 (Pertinence des métriques à noyaux,√version discrète). On note e = (1)/k(1)k2 le
vecteur unitaire constant de taille n, rempli de 1/ n. L’inverse de Bn (a) est alors donné par :
1 1
(Bn (a))−1 = eeT + (In − eeT ). (6.47)
1 + (n − 1) a 1−a
Démonstration. Il suffit d’écrire la décomposition spectrale de Bn (a), i.e. trouver les axes de
l’ellipsoïde associé :
Bn (a) possède donc une valeur propre 1 + (n − 1) a selon la direction e, et agit comme (1 − a)
fois l’identité sur l’orthogonal. Pour trouver l’inverse, il suffit alors d’inverser les valeurs propres
– qui correspondent ici aux valeurs singulières, il n’y a vraiment aucun piège.
À l’inverse, si le diamètre d de l’amas est petit devant l, si le noyau voit les points de l’amas
comme quasiment confondus, on aura a ' 1− et par suite
1 2 2
v T (Bn (a))−1 v ' kvmoy k2 + ∞ kvvar k2 . (6.53)
n
Lorsque les points sont l-proches les uns des autres, qu’ils interagissent entre eux au sens de k, on
a donc combinaison de deux effets : la sur-pénalisation des non-uniformités, des déchirures, avec
le poids quasi-infini devant vvar ; la mutualisation des coûts de translation, avec une atténuation
en 1/n du coût quadratique sur vmoy . Tout se passe donc comme si notre amas de n
particules se réduisait à un seul atome, très difficile à éclater mais aussi facile à
transporter qu’une particule seule.
Retour sur la forme globale, combinaison de plusieurs amas Si l’on revient au nuage
de la Figure 6.5, on peut maintenant exprimer simplement la métrique gq associée par kq aux
déformations infinitésimales de sa géométrie :
1 · · · · ·
· · ·
· B3 (a) −1
· ·
gq = (kq )−1 =
·
(6.54)
· ·
· · · ·
B2 (a)−1
· · · ·
(on se dispense ici d’écrire le produit de Kronecker avec Id , qui impose simplement de sommer
les coûts sur les dimensions). Les trois amas sont donc complètement indépendants, ce qui n’est
pas une surprise puisqu’ils sont décorrélés au sens de k.
(v 1 , v 2 , v 3 , v 4 , v 5 , v 6 ) = (w1 , w2 , w2 , w2 , w3 , w3 ), (6.56)
Cahin-caha, on peut donc se forger une certaine intuition des trajectoires géodésiques “typi-
ques”, qui tiennent groupés les k-amas.
Séance 7 144 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Normes RKHS sur les champs de vecteurs du plan Précisons. On se donne pour com-
mencer une fonction de noyau lisse à appliquer aux différences relatives q i − q j , par exemple
2
k(x) = exp(−kxk /2 σ 2 ). Entre autres hypothèses techniques sur le noyau k, liées à la théorie
des espaces à noyaux reproduisant (“RKHS” en anglais), on supposera que la transformée de
Fourier b
k est réelle, strictement positive sur tout le plan fréquentiel. Si v : R2 → R2 est un champ
de vecteurs du plan, on propose de lui assigner une k-norme par la formule
Z
2 1
kvkk = v (ω)|2 dω,
|b (6.59)
ω∈R 2 b
k(ω)
où b
k et vb sont les transformées de Fourier respectives de k et de v dans R2 – voir le chapitre 3
consacré à cet outil et à ses premières propriétés.
on peut appliquer le Théorème B.4.2 de Cauchy-Lipschitz et s’en servir pour intégrer le flot de
vt en une déformation de l’identité : il existe une unique trajectoire ϕt de difféomorphismes du
plan telle que :
d
∀ x ∈ R2 , ϕ0 (x) = x et ∀ x ∈ R2 , ∀ t ∈ [0, 1], [ϕt (x)] = vt ◦ ϕt (x), (6.61)
dt
Z t
i.e. ϕ0 = IdR2 et ∀ t ∈ [0, 1], ϕt = IdR2 + vs ◦ ϕs ds. (6.62)
s=0
Si ϕ0 est identifié à la grille identité, intégrer le flot de vt entre 0 et T revient à “laisser couler”
le plan selon ce courant, et à utiliser la grille déformée comme l’indicateur d’un changement de
repère souple ϕT , dont la régularité des vt permet de garantir le caractère difféomorphe.
6.1. Au delà des similitudes : les déformations fluides 145
Figure 6.6 – Exemples de trajectoires géodésiques dans l’espace de landmarks L24 des 4-uplets
de points, muni de cométriques gaussiennes de variation respectives σ =.25, .5 et 1. Suivant le
Théorème 6.2, on peut relever ces trajectoires comme des chemins géodésiques dans les espaces
de difféomorphismes du plan Gk associés aux différents rayons.
Ici, les points colorés sont aussi les supports des moments pm t , flèches dénotant “l’intention de
mouvement” du me landmark au temps t. On représente les trajectoires difféomorphiques ϕt
comme des grilles : valant le quadrillage identité en t = 0, elles sont déformées à mesure que les
points charrient l’espace aux travers des champs de vitesse vt = k ? pt , tracés en bleu à petite
échelle.
Ces images permettent de comprendre intuitivement l’influence du paramètre d’échelle σ (rayon
caractéristique du noyau k) sur les recalages générés par notre théorie : plus σ est grand, plus b k
tend rapidement vers 0 et plus les difféomorphismes de Gk sont réguliers.
Séance 7 146 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
en considérant que le “moment d’intention” pt est une mesure vectorielle portée par les sommets
qt du nuage de points transformé.
Démonstration. La petite analyse matricielle sur les nuages de six points devrait déjà vous avoir
convaincu de la pertinence de ce résultat. Une preuve formelle est sans doute superflue dans cet
ouvrage de vulgarisation : je me contenterai donc d’esquisser “avec les mains” une preuve élémen-
taire, par projection orthogonale du champ vt à chaque instant t sur l’espace des déplacements
infinitésimaux “utiles”, qui déplacent la forme. Une preuve véritablement moderne, plus facile à
généraliser, reposera plutôt sur le Principe du Maximum de Pontryagin, résultat fondamental de
la théorie du contrôle optimal.
6.1. Au delà des similitudes : les déformations fluides 147
Figure 6.7 – Dans un ouvrage en tous points remarquable, le lettré, biologiste et mathématicien
D’Arcy Wentworth Thompson (1860-1948) souligna l’importance des facteurs environnementaux
et physiques (en opposition à la seule hérédité) dans la morphogenèse des êtres vivants. La forme
des poissons étant peu ou prou optimale, il n’y a pas une infinité de “plans” différents les uns des
autres mais bien une poignée seulement de patrons originaux, qui permettent par des déforma-
tions (non-triviales) d’engendrer toutes les formes privilégiées par l’évolution.
Pour décrire la variabilité anatomique d’une famille ou d’une population observée, il suffit donc
de donner un template de référence (arbitrairement complexe, mais commun à toutes les observa-
tions) et les déformations qui permettent de passer dudit template aux individus. La complexité
se retrouve alors découplée en deux composantes intelligibles : une image de référence, complexe
mais fixe ; des déformations propres aux sujets observées, souvent assez simples pour être décrites
avec peu de paramètres.
Fait remarquable : les schémas ci-dessus présentent la variabilité des formes de poissons non
pas comme des déplacements arbitraires de squelettes, mais comme des changements de co-
ordonnées, des déformations de l’espace ambiant. C’est sur cette idée mathématique de
déformation extrinsèque de l’espace (en opposition aux mouvements intrinsèques des particules
de poisson) que repose l’analyse procustéenne et la théorie “LDDMM” présentée dans ce cha-
pitre. Grâce aux algorithmes détaillés dans les pages qui suivent, on peut aujourd’hui produire
des figures de ce type de manière automatique.
Illustration tirée d’un livre dont je ne saurais trop vous recommander la lecture : On Growth and
Forms, 1946.
Séance 7 148 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
M
!⊥k
\
vt ∈ v | k ? δqtm , v k
=0 (6.71)
m=1
M
[ ⊥k ⊥k
= k ? δqtm (6.72)
m=1
= Vect k ? δqtm , m ∈ [[1, M ]] . (6.73)
puis D E
2
kvt kk = k ? pt , k (−1) ? k ? pt = hk ? pt , pt i = pT
t Kqt pt . (6.75)
Le lien entre métrique à noyaux sur les nuages de points et métriques RKHS sur les difféomor-
phismes de l’espace ambiant est donc fait, d’où in fine le Principe de Réduction.
Initialement développé pour décrire la dynamique des solitons (ou “vagues solitaires”), ce
résultat lie la cométrique Kq sur les espaces de landmarks à une action de déformation de
l’espace ambiant. C’est, en un sens, le résultat fondamental de la théorie qui fait le lien entre
transport optimal et analyse procustéenne : le cadre LDDMM, pour Large Deformation
Diffeomorphic Metric Mapping .
6.1. Au delà des similitudes : les déformations fluides 149
Dans le cas des nuages de points étiquetés, on a vu au chapitre précédent que l’on pouvait choisir
pour dissimilarité la distance euclidienne au carré et pour ensemble des déformations f celui
des similitudes rigides : c’était le point de base de l’analyse procustéenne. Dans un cas moins
favorable, celui des nuages de points sans étiquette, des courbes ou des surfaces, on pourra par
exemple utiliser le formalisme des mesures, et utiliser pour dissimilarité la distance de Wasserstein
donnée par le transport optimal, ou plus simplement une distance à noyau
2 2 2
kf (X) − Y ks = kµ − νks = kBs ? (µ − ν)kL2 (RD ) , (6.76)
où Bs est une fonction de flou (blur ) de rayon caractéristique s – disons, une gaussienne. Idéa-
lement, on sera donc à la recherche du projeté orthogonal
2
p⊥
s (Y → M(X)) = arg min kf (X) − Y ks . (6.77)
f
Fonction de coût à minimiser Malheureusement, une définition des modèles comme réalisa-
teurs de minimums contraints d’une fonction distance n’est pas très utile en pratique : au mieux,
elle permet d’obtenir des équations réalisées à l’optimum (criticité)... que l’on ne peut résoudre
dès que la dimension du problème augmente, et que M devient générique. C’est que pour des
modèles complexes :
— La variété M des déformations n’est pas bien comprise de manière globale.
— On veut une certaine garantie dM (X, f (X)) 6 C < +∞.
On se contentera donc de minimiser, sur la transformation géodésique f , la fonctionnelle
d’énergie :
2
Coût(f ) = γreg · `2M (X → f (X)) + γatt ·kf (X) − Y ks . (6.78)
Tout l’intérêt du théorème 6.1 de structure des géodésiques est alors qu’une transformation
optimale, nécessairement géodésique, est entièrement caractérisée par un moment de tir p0 .
On peut donc réécrire le coût à minimiser sous une forme réduite, fonction du seul covecteur p0 :
2
Coût(p0 ) = γreg · pT
0 Kq0 p0 + γatt ·kq1 − Y ks , (6.79)
Séance 7 150 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Bilan algorithmique Grâce à une analyse mathématique forte sur la structure des trajectoires
solution, le recalage fluide entre deux formes a été ramené à un simple problème de minimisation
sur une variable de moment p0 , de même dimension que le nuage de points à déformer – on peut
l’assimiler à un champ de “vitesses désirées”.
Cette minimisation sera obtenue en pratique au moyen un schéma de descente itéra-
tif, semblable à une descente de gradient – pour des raisons d’efficacité, on préfèrera des
schémas d’ordre 2 dits de “quasi-Newton”, comme L-BFGS. Pour une brève présentation
de ces algorithmes, je vous conseille l’excellente page web interactive de Ben Frederickson,
dont sont tirées les images ci-dessous : www.benfrederickson.com/numerical-optimization/.
Pour une découverte des algorithmes stochastiques les plus populaires, sebastianruder.com/
optimizing-gradient-descent/ fera tout à fait l’affaire !
Figure 6.9 – Illustration d’une méthode de “matching” itérative dans un espace de dimension
finie. La variété d’intérêt M est ici représentée comme une surface dorée : il faut la choisir pour
coller au mieux à une distribution propre de données ; on présente ici deux exemples possibles
de surface, une par colonne. La source, ou template, est représentée par le gros point bleu sur
la variété ; la cible, ou target, par un point turquoise. La géodésique tirée sur la variété est en
vert, et le résiduel en rouge ; à leur intersection, le modèle, représentant optimal de la cible dans
l’orbite de la template.
Séance 7 152 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Où :
— p0 ∈ TX ?
0
M est un moment de tir initial, porté par la forme X0 . En pratique, on le
représentera simplement comme un vecteur p0 = (p10 , . . . , pM
0 ) où p0 ∈ (R ) ' R est le
i 2 ? 2
— expq0 est l’exponentielle riemannienne dans M. À un moment de tir initial p0 , elle associe
l’unique point d’arrivée q1 , avec (qt , pt ) l’unique solution du flot géodésique Hamiltonien
partant de (q0 , p0 ). En pratique, l’intégration du flot est implémentée comme une simple
méthode d’Euler sur (qt , pt ) ∈ R2·M ×2 , suivant l’équation (6.41).
— Le nuage de points q1 est donc encodé a priori comme un simple vecteur de RM ×2 .
— Une information de connectivité c, reliant les points les uns aux autres selon un graphe, est
alors utilisée au travers d’un plongement πc , qui envoie le nuage de points dans un espace
de mesures approprié. Le plus simple est de procéder comme dans l’équation (6.4) : pour
tout segment i encodé dans c sous la forme d’une liste d’indices (αi , βi ), on considère le
segment [q αi , q βi ] et on ajoute à notre mesure un dirac positionné en son centre, de masse
égale à la longueur de l’élément de forme ainsi défini. Notons que des plongements plus
complexes dans des espaces de courants ou de varifolds peuvent-être utilisés pour conserver
un marqueur d’orientation des éléments de formes.
— Enfin, on assigne un coût à la forme shootée au travers d’une fonction W , qui quantifie
l’éloignement à une mesure de référence que l’on cherche à atteindre – la cible πc (Y ). On
utilise généralement le carré d’une norme duale à noyaux : une option cheap, mais loca-
lement efficace. Trouver des termes d’attache aux données pertinent selon les applications
reste un sujet de recherche actif.
Notons qu’au lieu de transporter une mesure πc (q0 ), on a ici choisi de transporter un nuage de
points “sans segments”, pour reconstruire la forme globale à l’arrivée via le calcul de πc (q1 ). C’est
une manière robuste et numériquement sensée d’implémenter l’action de transport “d’images” :
∀ ω ∈ C0 (Rd ), (ϕ · µ) (ω) = µ ω ◦ ϕ−1 · |Jac ϕ−1 | , (6.81)
sans avoir à calculer de différentielle, ou d’avoir à se préoccuper qu’une courbe connexe au départ
ne soit éclatée en petites écailles mal reliées à l’arrivée.
J
où ∇p0q0(n) E est le gradient de E en p0 (n), au sens d’une métrique Jq0 à choisir sur l’espace des
moments en q0 .
S’encombrer d’une métrique Jq0 peut sembler un peu lourd : après tout, on a toujours l’habitude
d’identifier le gradient au vecteur des dérivées partielles ∂p0 E, représentant L2 -Riesz de la dif-
férentielle, via la métrique canonique « Jq0 = Id » – on parle alors de gradient L2 . C’est qu’ici,
nous travaillons sur un espace de moments, sur lequel la métrique “naturelle” n’est pas l’identité,
mais celle associée à la co-métrique riemannienne Kq0 dont on a muni l’espace de formes. On
sera donc prudent et explicite dans le choix de nos notations, afin que le pas de descente δp0 (n)
reste une quantité bien comprise.
Heureusement, le vecteur des dérivées partielles du terme bilinéaire de régularisation est facile
à calculer :
hγ i
reg T
∂p0 p0 Kq0 p0 = γreg Kq0 p0 . (6.87)
2
Pour le terme d’attaches aux données, on n’a généralement pas de mal à calculer les dérivées
partielles ∂(µi ,qi ) W = (∂µi W, ∂qi W ). Reste encore à les transporter sur p0 . On utilise pour cela
la règle de dérivation d’une composée, ou chain rule :
hγ i γ
att att
dp0 W ◦ πc ◦ expq0 = dπc ◦expq (p0 ) W ◦ dexpq (p0 ) πc ◦ dp0 expq0 , (6.88)
2 2 0 0
que l’on pourra plugger dans les routines d’optimisation standard fournies par tout bon moteur
de calcul scientifique.
Séance 7 154 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Fonctionnalités Pour que vous puissiez jouer sans trop de difficultés avec ce code, j’ai im-
plémenté deux modes de chargement des données : d’abord, un classique import de fichier .vtk
donnant les courbes sous forme de listes de points et de segments ; mais aussi, plus facile à ma-
nipuler, un mode d’importation .png qui extrait automatiquement les lignes de niveau d’images
bitmap en noir et blanc.
Côté déformations, je me suis contenté du strict minimum : une cométrique à noyau isotrope,
à queue lourde, avec un paramètre réglable d’échelle, s. N’hésitez pas modifier la formule donnée
ligne 242 dans la fonction _k(x,y,s) !
Finalement, pour l’attache aux données ou fidélité qui relie le modèle q1 à la cible xt, je vous
propose (brand new ! ) d’utiliser une distance de type Wasserstein avec la méthode _ot_matching,
en plus du terme “à noyau” relativement classique implémenté par la fonction _kernel_matching.
Plan du code Dans les pages qui suivent, tout n’est pas important loin s’en faut ! À vrai dire,
les trois premières pages, incorporées au polycopié par souci d’exhaustivité, ne traitent que des
problèmes d’entrée-sortie et de conversion de formats : vous pouvez les sauter. Par contre, ne
manquez pas de lire les pages 4, 5 et 6 (lignes 211-406), qui transcrivent exactement les idées sur
les variétés, les équations que nous avons détaillé dans tout le début du chapitre. Enfin, consacrée
au chargement des données et à la minimisation proprement dite de l’énergie _cost, la septième
et dernière page est d’un relatif intérêt.
Pour clarifier les différences de nature entre méthodes “python-scipy”, routines d’affichages
“matplotlib” et fonctions symboliques “theano”, je me suis tenu à une convention de nommage
simple : ces diverses portions de code sont respectivement intitulées sous les formes ma_methode,
MaRoutine et _ma_fonction.
Références En quelques pages, j’ai tenté de vous fournir les bases conceptuelles de la théorie
LDDMM des recalages fluides. Mais bien sûr, il manque à cet exposé les détails, les preuves que
demande votre esprit de rigueur, toujours en éveil... Alors, pour me dédouaner un peu, une petite
liste de références liées aux notions clés utilisées dans le code :
— D’abord, absolument essentielle, la documentation de la bibliothèque theano. Pour prendre
en main la syntaxe, voici un lien vers le très bon tutorial officiel : deeplearning.net/
software/theano/tutorial/adding.html.
— Ensuite, au sujet des attaches à noyau, un très bon article pratique écrit pour un public
d’informaticiens : A general framework for curve and surface comparison and registration
with oriented varifolds, CVPR2017, par Irène Kaltenmark, Benjamin Charlier et Nicolas
Charon.
— Enfin, en ce qui concerne l’attache Wasserstein-Transport-Optimal, un article tout neuf :
Optimal Transport for Diffeomorphic Registration écrit par Benjamin Charlier, F.-X. Via-
lard, Gabriel Peyré et moi-même ; à paraître pour la conférence MICCAI2017.
6.1. Au delà des similitudes : les déformations fluides 155
281 # Part 2bis : Geodesic shooting + deformation of the ambient space, for visualization ===========
282 def _HamiltonianCarrying(q0, p0, grid0, sigma) :
283 """
284 Similar to _HamiltonianShooting, but also conveys information about the deformation of
285 an arbitrary point cloud ’grid’ in the ambient space.
286 """
287 def _carrying_step(q,p,g,s) :
288 "Simplistic euler scheme step with dt = .1."
289 return [q + .1 * _dp_Hqp(q,p, s), p - .1 * _dq_Hqp(q,p, s), g + .1 * _k(g, q, s).dot(p)]
290 # Here, we use the "scan" theano routine, which can be understood as a "for" loop
291 result, updates = theano.scan(fn = _carrying_step,
292 outputs_info = [q0,p0,grid0],
293 non_sequences = sigma,
294 n_steps = 10 ) # We hardcode the "dt = .1"
295 final_result = [result[0][-1], result[1][-1], result[2][-1]] # Don’t store intermediate steps
296 return final_result # return the final state + momentum + grid
297
298 # Part 3 : Data attachment ======================================================================
299
300 def _ot_matching(q1_x, q1_mu, xt_x, xt_mu, radius) :
301 """
302 Given two measures q1 and xt represented by locations/weights arrays,
303 outputs an optimal transport fidelity term and the transport plan.
304 """
305 # The Sinkhorn algorithm takes as input three Theano variables :
306 c = _squared_distances(q1_x, xt_x) # Wasserstein cost function
307 mu = q1_mu ; nu = xt_mu
308
309 # Parameters of the Sinkhorn algorithm.
310 epsilon = (.02)**2 # regularization parameter
311 rho = (.5) **2 # unbalanced transport (See PhD Th. of Lenaic Chizat)
312 niter = 10000 # max niter in the sinkhorn loop
313 tau = -.8 # Nesterov-like acceleration
314
315 lam = rho / (rho + epsilon) # Update exponent
316
317 # Elementary operations .....................................................................
318 def ave(u,u1) :
319 "Barycenter subroutine, used by kinetic acceleration through extrapolation."
320 return tau * u + (1-tau) * u1
321 def M(u,v) :
322 "M_{ij} = (-c_{ij} + u_i + v_j) / \epsilon"
323 return (-c + u.dimshuffle(0,’x’) + v.dimshuffle(’x’,0)) / epsilon
324 lse = lambda A : T.log(T.sum( T.exp(A), axis=1 ) + 1e-6) # slight modif to prevent NaN
325
326 # Actual Sinkhorn loop ......................................................................
327 # Iteration step :
328 def sinkhorn_step(u, v, foo) :
329 u1=u # useful to check the update
330 u = ave( u, lam * ( epsilon * ( T.log(mu) - lse(M(u,v)) ) + u ) )
331 v = ave( v, lam * ( epsilon * ( T.log(nu) - lse(M(u,v).T) ) + v ) )
332 err = T.sum(abs(u - u1))
333
334 return (u,v,err), theano.scan_module.until(err < 1e-4) # "break" the loop if error < tol
335
336 # Scan = "For loop" :
337 err0 = np.arange(1, dtype=config.floatX)[0]
338 result, updates = theano.scan( fn = sinkhorn_step, # Iterated routine
339 outputs_info = [(0.*mu), (0.*nu), err0], # Starting estimates
340 n_steps = niter # Number of iterations
341 )
342 U, V = result[0][-1], result[1][-1] # We only keep the final dual variables
343 Gamma = T.exp( M(U,V) ) # Eventual transport plan g = diag(a)*K*diag(b)
344 cost = T.sum( Gamma * c ) # Simplistic cost, chosen for readability in this tutorial
345 if True :
346 print_err_shape = printing.Print(’error : ’, attrs=[’shape’])
347 errors = print_err_shape(result[2])
348 print_err = printing.Print(’error : ’) ; err_fin = print_err(errors[-1])
349 cost += .00000001 * err_fin # hack to prevent the pruning of the error-printing node...
350 return [cost, Gamma]
Séance 7 160 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Bilan : donnez une chance à Theano ! Que retenir de ces sept pages de code ? D’abord, que
les mathématiciens disposent aujourd’hui d’outils formidablement adaptés, ici la combinaison du
puissant langage de script python et de la bibliothèque de calcul symbolique theano. Diablement
efficace, cette dernière a “changé ma vie” – si, si...
Voyez donc ! Jusqu’au début des années 2010, pour implémenter un algorithme de ce type
de manière vraiment efficace, un chercheur était obligé d’écrire en détail la formule du coût à
minimiser en fonction des données... Mais aussi de calculer à la main ses premières dérivées
(souvent horribles), et de consacrer des pages et des pages de code à leurs implémentations. À
déboguer, un enfer.
Aujourd’hui, ce travail pénible (vous pouvez me croire là-dessus...) a été remplacé par une
seule ligne de magie, theano.function(...). Lançant en sous-main un moteur d’optimisation
avancé, elle va faire appel à un puissant algorithme ad hoc pour optimiser le graphe de calcul,
avant de compiler le tout en code machine via gcc ; résultat : une routine numérique précise et
diablement efficace. Pour tirer parti des cartes graphiques NVidia massivement parallèles, il n’y
a même plus vraiment besoin d’apprendre à coder en CUDA : la bibliothèque s’en charge pour
vous.
Tout cela résulte d’une évolution bien naturelle : à mesure qu’un domaine mûrit, que les
enjeux industriels émergent et incitent de nombreux ingénieurs à travailler sur le sujet, des
outils “métiers” de qualité sont développés. Dans notre cas, l’émergence d’outils de différentiation
automatique performants est liée à l’intérêt suscité par les applications du Deep Learning. Dans
d’autres branches des mathématiques, on peut citer les outils de vérification automatique de
preuve et de simulation de fluides qui sont poussés par les demandes de l’industrie aéronautique
(pilotes automatiques, soufflerie) : nous avions présenté le logiciel Solidworks dans la Figure 10.11.
L’essentiel est que nous puissions maintenant nous concentrer sur notre cœur de métier : les
modèles, les mathématiques. Une nouvelle idée ? Aussitôt dit, aussitôt fait : le numérique est
devenu aussi malléable que la craie.
Quelques résultats Les aspects “computationnels” étant maintenant bien compris, sous
contrôle, il s’agit pour nous d’explorer l’espace des paramètres ; de décrire l’influence de la fonc-
tion de noyau _k( ·,·,s), de la fidélité _data_attachment et du schéma d’optimisation minimize
sur les recalages obtenus. Plus généralement, d’interroger les capacités du modèle LDDMM de dé-
formations riemanniennes de l’espace ambiant. C’est, vous vous en doutez, le sujet de nombreux
articles : dans les pages qui suivent, on se contentera de mettre en évidence le rôle du premier
paramètre de la théorie, le rayon caractéristique “σ = s” de la fonction de noyau k associée aux
déformations.
6.1. Au delà des similitudes : les déformations fluides 163
(c) Itération 15, moment de tir. (d) Itération 15, modèle en recalage.
(e) Itération 80, moment de tir. (f) Itération 80, modèle recalé.
Figure 6.10 – Recalage de deux silhouettes synthétiques d’amibes. On utilise ici un noyau de dé-
formation k de rayon caractéristique σ = .05, avec une attache aux données de type Wasserstein-
Sinkhorn (transport optimal régularisé). Représentés en bleu ciel, les plans de transport calculés
entre les modèles q1 et la cible xt agissent comme des ressorts pour tirer le modèle, guider le
moment de tir p0 au cours de la minimisation. Pour des questions d’efficacité algorithmique, on
se contente ici de calculer des plans de transport diffus. Le recalage final n’est donc pas très
précis mais capture bien les grandes déformations des bras : en pratique, on peut utiliser cette
méthode comme un pré-recalage souple et robuste.
Séance 7 164 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
# Matching Skulls :
matching_demo(’australopithecus.vtk’,’sapiens.vtk’, (.05,.01), scale_mom = .3,scale_att = .1)
(c) Itération 25, moment de tir. (d) Itération 25, modèle en recalage.
(e) Itération 200, moment de tir. (f) Itération 200, modèle recalé.
Figure 6.11 – Recalage d’un crâne d’australopithèque sur un homo sapiens. On utilise ici un
noyau de déformation k de rayon σ = .05, avec une attache à noyau de rayon .01. L’attache aux
données est figurée par la différence des aires d’influence : le rouge et le bleu figurent des excès
de masse pour la cible xt et le modèle q1, que l’algorithme essaie de recaler au mieux.
Données gracieusement fournies par l’équipe Aramis, Institut du Cerveau et de la Moelle épinière.
6.1. Au delà des similitudes : les déformations fluides 165
Figure 6.12 – Recalages finaux avec la même attache aux données, mais des noyaux de défor-
mation de plus en plus gros. En rigidifiant toujours plus nos champs de vecteurs, on restreint
l’espace des déformations pour finalement retrouver l’ensemble des translations rigides. En ce
sens, la théorie exposée ici est bien une généralisation de l’analyse procustéenne développée au
chapitre 5.
Séance 7 166 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Régression et suivi longitudinal On connaît tous les courbes de croissances présentes sur
nos carnets de santé : dûment remplies, elles permettent de suivre notre évolution, de la comparer
à une population “normale” et de détecter un éventuel retard de croissance – voir Figure 6.14.
Maintenant, serait-il possible de faire la même chose avec, disons, la forme du cœur ? Atten-
tion : il ne s’agit pas ici de remplacer une grandeur scalaire – la taille – par un simple vecteur
“largeur/longueur/volume/que-sais-je”. Ce traitement simpliste éclaterait les cœurs similaires –
mêmes rapports de taille – en une ribambelle de points... Si l’on s’intéresse véritablement à la
forme du cœur, aux atrophies/hypertrophies éventuelles de ses ventricules, il faudra nécessaire-
ment travailler dans un espace quotient – sur lequel la notion de régression n’est a priori pas
définie.
Création d’atlas et analyse statistique Autre axe de recherche, dans la même veine : l’étude
statistique d’une population de formes. On le sait, l’étude approfondie d’un jeu d’indicateurs
scalaires – poids, âge, tension artérielle... – peut nous apprendre beaucoup sur l’état de santé
d’un patient. En comparant celui-ci à un humain moyen, en le replaçant au sein d’une population
connue, on peut le classer dans tel ou tel groupe, détecter l’apparition de certaines pathologies.
Alors, au XXIe siècle, sera-t-il possible de faire la même chose avec des données plus complexes ?
On pense par exemple à des images de colonne vertébrale (scoliose...), de fonds d’œils rétiniens
(glaucome...) ou à la forme de l’hippocampe, corrélée à la présence de démences dégénératives
comme la maladie d’Alzheimer.
Interprétations métriques des outils statistiques usuels Dans les trois situation précé-
dentes, tout serait simple si l’on disposait d’une structure algébrique/vectorielle raisonnable sur
nos données – qui sont ici des “formes” – : moyenne, régression linéaire et analyse de la variance
de l’échantillon sont toujours données par des formule pleines de « + » et de « × »... Mais
malheureusement, une théorie additive des formes a peu de chance de voir le jour : quel sens
pourrait-on donner à la somme de deux cœurs ?
Qu’à cela ne tienne : une notion de distance comme définie dans la section précédente suffira.
La moyenne ne sera plus qu’un point minimisant la somme des distances aux observations et
la droite de régression, une courbe géodésique approchant au mieux les données aux instants
d’observation.
6.2. Applications en imagerie médicale 167
Résultats pratiques Cette dernière remarque légitime tout notre travail. Dans les pages qui
suivent, on donne quelques résultats probants obtenus à l’aide de techniques de pointe qui font
d’ores et déjà partie du quotidien de nombreux chercheurs et neurologues. On démontre par là
l’utilité d’un modèle de déformations plus riche que celui des seules similitudes.
Le domaine est encore jeune, et les perspectives de recherche sont nombreuses. Pour le ma-
thématicien se posent en fait trois grandes questions : Comment construire des métriques locales
anatomiquement pertinentes sur un espace de formes ? Quelles seront alors les propriétés de
l’espace métrique induit – courbure, etc. ? Et surtout, sera-t-on capable d’implémenter de ma-
nière efficace les algorithmes de régression, matching, création d’atlas que nous demandent les
médecins/neurologues/biologistes ?
Nous n’irons pas plus loin dans ce cours de vulgarisation, qui touche à sa fin ; au lecteur
intéressé, je suggère le polycopié écrit avec mes élèves (en première année au DMA) : Introduction
à la Géométrie Riemannienne par l’Étude des Espaces de Formes, accessible à l’adresse :
www.math.ens.fr/~feydy/Teaching/geometrie_riemannienne_espaces_de_formes.pdf.
(a) Exemples de segmentation de régions du cerveau. Deux sujets sont observées, quatre méthodes sont
utilisées pour transporter une carte pré-établie par la communauté scientifique.
Image tirée de Segmentation of brain magnetic resonance images based on multi-atlas likelihood fusion :
testing using data with a broad range of anatomical and photometric profiles, Tang et Al., Frontiers in
Neurosciences, 03 March 2015.
(b) À partir d’un modèle de référence, on peut inférer les mécanismes internes de silhouettes arbitraires :
Le David, Olive, Brutus, un loup-garou... Des débouchés dans les domaine de l’imagerie médicale et de
l’animation sont envisagés : vous pourrez trouver des vidéos de présentation sur YouTube aux adresses
www.youtube.com/watch?v=HgvDfQB4ajA et www.youtube.com/watch?v=ddp996DIZOk.
Image tirée de Anatomy Transfer, Dicko et Al., ACM Transactions on Graphics, 2013.
Figure 6.13 – Deux exemples de transfert de modèle anatomique, qui tirent parti des déforma-
tions de l’espace ambiant produites par la plupart des méthodes de recalage d’images. En mettant
en correspondance deux scans IRM ou deux silhouettes, on peut transporter sur l’image d’arrivée
une information a priori connue dans l’espace de départ, comme une carte de segmentation ou
un atlas anatomique.
Séance 7 168 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
(a) Courbe de croissance, qui permet de com- (b) Exemples de malformations cardiaques.
parer un enfant à l’ensemble de la population. Comment les détecter avant qu’il ne soit trop
tard ?
Figure 6.14 – Le suivi longitudinal et les techniques de régression méritent d’être généralisés
aux formes. (b) est tiré de Vascular endothelial growth factor in heart failure, Taimeh et Al.,
Nature Reviews Cardiology 10 (Septembre 2013).
Figure 6.15 – Estimation d’un cœur moyen à partir de sept cœurs de chiens.
Images tirées de A computational framework for the statistical analysis of cardiac diffusion ten-
sors : application to a small database of canine hearts, Peyrat et Al., IEEE transactions on
medical imaging, 2007.
6.2. Applications en imagerie médicale 169
(a) Recalage des données sur la moyenne. (b) Quelques modes de déformation typiques.
(c) Estimation des déformations typiques du template selon la “Body Surface Area”.
Figure 6.16 – Autre estimation d’atlas de données cardiaques. Ici, les jeu de données est constitué
de surfaces de ventricules droits (a, gauche). Par une analyse de formes analogue (mais pas
identique) à celle présentée dans ce chapitre, les auteurs ont pu estimer une moyenne (a, droite)
et des champs de vecteurs encodant les déformations de celle-ci vers les observations. Une analyse
statistique classique peut alors être conduite dans l’espace tangent à la moyenne, qui est un
espace vectoriel (muni d’une structure additive, etc.) encodant les déformations du template. Les
principaux modes de déformation sont extraits (b) : on trouve par exemple que le “Mode 1”
(principal) correspond à une dilatation/rétraction du cœur. In fine, on peut tracer des courbes
d’analyse fine, qui donnent la corrélation typique entre surface corporelle et forme du cœur (c),
avec en vue la détection d’une hypertrophie cardiaque, la tetralogie de Fallot.
Images tirées de A statistical model for quantification and prediction of cardiac remodelling :
Application to tetralogy of fallot, Mansi et Al., IEEE transactions on medical imaging, 2011.
Séance 7 170 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Figure 6.18 – Métamorphose entre deux visages, tirée du clip Matilda du groupe Alt-J (∆)
– www.youtube.com/watch?v=Q06wFUi5OM8. Observez comme des features géométriques (forme
des oreilles, coiffure) sont continûment déformées, tandis que les variations fonctionnelles (lu-
nettes, foulard) sont réalisées par modification de l’image, via un simple fondu. Un matching
“par métamorphose” permet bien de distinguer ces deux informations et, in fine, de comparer
des images définies sur des supports géométriques différents : variation anatomique assimilée à
la composante géométrique de la métamorphose ; variation de style vestimentaire identifiée à sa
partie fonctionnelle.
Notez que ce morphing n’est pas totalement satisfaisant (je ne sais pas comment il a été ob-
tenu, probablement par un étiquetage automatique ou manuel des points saillants du visage +
déformations localement affines) : le changement de nez est ici compris comme une information
fonctionnelle, alors que nous voudrions l’inclure dans la partie géométrique.
6.2. Applications en imagerie médicale 171
(a) Pré-traitement des données. (b) Sur la première ligne, quatre données
typiques (q i , f i ). Sur la seconde, les mo-
dèles (x̃i∗ , f˜∗i ) correspondants.
Figure 6.19 – Un jeu de données “cas d’école”, collection de fonds d’œils rétiniens obtenus
par tomographie à cohérence optique. L’objectif est d’arriver à une détection automatique du
glaucome, pathologie causée par une surpression intra-oculaire qui entraîne asphyxie et dégéné-
rescence progressive de la rétine autour du point de branchement du nerf optique (le “trou” dans
nos images), selon des patterns qui correspondent à la vascularisation sous-jacente (variable selon
les individus).
Les données brutes sont traitées en (a) : plutôt que de travailler avec un mille-feuille de couches
rapprochées, on préférera assimiler les rétines à des feuillets simples dans l’espace, sur lesquels
un signal (une fonction) donne l’épaisseur en microns.
Dans notre analyse de population, on veut séparer la variation géométrique, qui détermine les
positions des vaisseaux sanguins autour du nerf optique et par là le support des segments rouges
de (b), d’une variation fonctionnelle, la force ou l’atténuation du signal au dessus de ces courbes.
À terme, on pourrait classifier les images en un groupe “glaucome” et un groupe “test” en regar-
dant cette seule information fonctionnelle indépendante de la vascularisation sous-jacente.
Pour cela, on construit un atlas figuré en (c), donnée d’une moyenne (x∗ , f∗ ) et de modèles dé-
formés (x̃i∗ , f˜∗i ) qui approchent au mieux les données réelles (xi , f i ). Ici, la template est obtenue
par déformation d’une forme de départ (x0 , f 0 ) et est choisie de manière à minimiser la somme
des écarts aux données.
La variété F des déformations de la template est analogue à la variété M des déformations
de nuages de points : on peut caractériser les modèles (x̃i∗ , f˜∗i ) par des moments de tir (pi∗ , ξ∗i )
portés par la template, sur lesquels une analyse vectorielle classique (analyse en composantes
principales...) est possible.
On pourra trouver une vidéo illustrant la création de l’atlas sur la page personnelle de Benjamin
Charlier, www.math.univ-montp2.fr/~charlier/soft/videos/atlas_H1.webm.
Ces images sont tirées d’un article reposant explicitement sur l’algorithme LDDMM présenté
dans ce chapitre, Atlas-based Shape Analysis and Classification of Retinal Optical Coherence To-
mography Images using the Functional Shape (fshape) Framework, par Sieun Lee, Nicolas Charon,
Benjamin Charlier, Karteek Popuri, Evgeniy Lebed, Marinko V. Sarunic, Alain Trouvé et Mirza
Faisal Beg.
Séance 7 172 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Transport optimal corrélé Théorie LDDMM et transport optimal sont liés... Mais jusqu’où
peut-on pousser l’analogie ? Pourrait-on trouver un cadre théorique, algorithmique et pratique qui
permette de lier la continuité de la théorie LDDMM avec la sensibilité aux masses du transport
optimal ?
Éventail des domaines, des profils Mes recherches tournent autour de ces thèmes, auxquels
on peut ajouter une problématique plus technique liée à l’estimation de sous-espaces de régression
optimaux. Tous sont liés à des discussions que j’ai pu avoir avec des médecins, des ingénieurs,
ou tout simplement des collègues mathématiciens. C’est que dans son travail, un mathématicien
appliqué est toujours amené à interagir avec des spécialistes de domaines divers, qui vont dans
notre cas de la géométrie fondamentale à la radiologie clinique – voir Figure 6.20.
Conclusion Dans ce cours, j’ai toujours voulu mettre en avant le cœur du travail mathéma-
tique : la recherche de représentations adaptées. J’espère vous avoir aidé à porter un regard
nouveau sur la logique fondamentale, les nombres complexes ou la dimension infinie... Mais, sur-
tout, je voudrais avoir démystifié à vos yeux notre profession ; si éloignée du grand public, et
pourtant tellement influente, par petites touches, sur son quotidien.
Qu’en avez-vous pensé ? Un livre, donc ce polycopié fournira la trame, est en cours de prépa-
ration. Je serais absolument ravi d’entendre vos remarques et critiques avisées : n’hésitez donc
pas à m’écrire à mon adresse mail professionnelle, jean.feydy@ens.fr.
Figure 6.20 – Avant d’être écrites dans les manuels, les mathématiques sont développées, pen-
sées par une large communauté de spécialistes. De haut en bas et de gauche à droite (du plus
fondamental au plus appliqué), on retrouvera : Mécanique des fluides : Vladimir Arnold, Peter Mi-
chor ; Géométrie Riemannienne : David Mumford, Mario Micheli ; Théorie des Patterns : D’Arcy
Thompson, Ulf Grenander ; Géométrie de l’information : Martins Bruveris, Martin Bauer ; Sta-
tistiques : Stéphanie Alassonnière, Loïc Devilliers ; Log-demons : Xavier Pennec, Nicolas Ayache,
Marco Lorenzi ; LDDMM : Nicolas Charon, Laurent Younès, Joan Glaunès, Alain Trouvé, Mi-
chael Miller ; Transport optimal : Yann Brenier, Filippo Santambrogio, Gabriel Peyré, Aude Ge-
nevay, Lénaïc Chizat ; Industrie de l’imagerie médicale : Tommaso Mansi, Julian Krebs ; Toolbox
d’imagerie : John Ashburner ; Liens Maths/Clinique : Benjamin Charlier, Barbara Gris, Stanley
Durrleman ; Utilisateurs finaux : Alexandre Krainik, Antoine Feydy, Karl Friston.
Bien sûr, cette liste est loin, très loin d’être exhaustive... Mais au travers de ce petit échantillon,
vous pouvez déjà apprécier combien l’avancée des mathématiques et sa transition vers les appli-
cations concrètes nécessite de travail. Si vous êtes curieux, pourquoi ne pas visiter les pages web
personnelles de tout ces chercheurs ? Vous pourrez ainsi vous faire une bonne idée du continuum
de profils impliqués dans cette marche vers le progrès.
Séance 7 174 Chapitre 6. Un domaine de recherche actuel : l’anatomie computationnelle
Deuxième partie
175
Chapitre 7
1. Pour faire des mathématiques, la nature des objets étudiés n’a pas d’importance. Seules
comptent les relations entre ceux-ci qui peuvent, dans tous les cas intéressants, se réduire
à un petit nombre de règles du jeu élémentaires, les axiomes d’une théorie.
2. Si une théorie est cohérente, c’est à dire s’il n’est pas possible d’arriver à une contradiction
à partir de ses axiomes, alors il est possible d’en construire un modèle formel – et récipro-
quement. Autrement dit, pour une théorie, la cohérence est équivalente à l’existence d’une
structure formelle vérifiant ses axiomes – dans la pratique, celle-ci est construite à partir
de chaînes de caractères. C’est (presque) le théorème de complétude de Gödel.
3. Arithmétique, analyse, géométrie... Tous les domaines des mathématiques peuvent s’écrire,
se modéliser dans le langage de la théorie des ensembles muni du jeu d’axiomes “ZF”, via des
constructions formelles que l’on pourrait assimiler à des “émulateurs” ; on parle d’encodage.
Si le jeu d’axiomes ZF est cohérent, alors tout le reste des mathématiques l’est aussi : on
n’arrivera pas à prouver que “0 = 1”, ou que “π est à la fois rationnel et irrationnel”.
4. Clé de voûte de cette belle certitude, la cohérence de la théorie ZF, est indémontrable.
Pour être plus exact : si l’on en trouve une démonstration, alors on peut en produire une
autre qui démontre le contraire ; la théorie serait donc incohérente, puisqu’elle permet de
démontrer une chose et son contraire.
Ce dernier résultat, le fameux second théorème d’incomplétude de Gödel, a mis un point final
aux espoirs d’une théorie mathématique “auto-démontrée”. S’il est possible de ramener la cohé-
rence des théories mathématiques les plus extravagantes à celle d’un jeu d’axiomes extrêmement
raisonnable (le fameux système ZF), le mathématicien est néanmoins contraint de faire acte de
foi : croire en la cohérence de celui-ci, jusqu’à preuve du contraire.
177
Séances 8 et 9 178 Chapitre 7. Preuves formelles, axiomatiques et théorie des ensembles
Revoir l’intro.
Formules logiques
On l’aura compris, cet échafaudage logique permet de mettre de côté la question de la nature
profonde des objets considérés : seules comptent les relations entre objets, formalisées en un jeu
d’axiomes que l’on espérera être cohérent. Nous aborderons la question de la pertinence de cette
réduction des mathématiques à un simple jeu formel au fil des prochaines séances... Mais, avant
de nous aventurer sur ce terrain polémique, au-delà des mathématiques, précisons maintenant le
portrait brossé en introduction du chapitre.
Pour “construire les mathématiques”, on se repose sur la seule base solide acceptée à coup
sûr par le lecteur : les caractères présents sur sa feuille. Ceux-ci, choisis dans un alphabet, ou
langage donné, seront ensuite assemblés en formules.
Définition 7.1 (Langage – du premier ordre). Un langage est une collection de symboles L qui
se compose de deux parties :
1. La première partie (commune à tous les langages) consiste en les symboles auxiliaires « ( »
et « ) » ainsi qu’en les symboles logiques suivants :
– la collection de variables V = {v0 , v1 , v2 , . . .} (numérotées par commodité),
– le symbole de l’égalité = (« égal »),
– les connecteurs ¬ (négation, « non »), ∧ (conjonction, « et »),
– le quanteur existentiel ∃ (« il existe »).
On note cette partie fixe de notre langage Llog .
2. La deuxième partie, variable, consiste en les symboles non logiques de L. On y trouve :
— une collection de constantes C L ,
— une collection de symboles fonctionnels F L ,
— une collection de symboles de relations RL .
Un premier exemple Le langage des corps ordonnés (utilisé pour les opérations usuelles sur
les nombres) :
< }.
Lann = Llog ∪ { 0, 1 , +, ×, |{z} (7.1)
|{z} | {z}
C F R
+, × sont ici des symboles fonctionnels binaires, ce qui signifie que +(a, b), que l’on abrège en
(a + b), s’utilise syntaxiquement comme un élément. À l’inverse, < est ici un symbole de relation
binaire, ce qui signifie que < (a, b) – que l’on allège en (a < b) – s’utilise syntaxiquement comme
un booléen, une valeur logique. Enfin, 0 et 1 sont des constantes remarquables, utilisables comme
des éléments. Les inclure explicitement dans notre langage est une commodité, pas véritablement
nécessaire.
Règles de composition Il est bien entendu possible de formaliser les règles de composition
d’une formule bien écrite... Mais je pense que vous préférerez une petite liste d’exemples, assortie
d’une pincée de bon sens ! Saurez-vous lire les formules ci-dessous, rédigées sur le langage Lann ?
Raccourcis d’écriture Cette dernière formule est bien fastidieuse. Pour conserver une certaine
intelligibilité, on ajoute à notre langage un “sucre syntaxique” défini comme suit :
puis à
Axiomatiques et vérités
Démonstrations formelles
On sait maintenant rédiger de jolies formules mathématiques... Mais comment leur assigner
une valeur de validité, de vérité ? Il faut commencer par choisir une collection arbitraire de
formules sur le langage L,
Ax = {A1 , A2 , . . . , Ap }, (7.15)
étiquetées comme Vraies. On dira que Ax est un jeu d’axiomes sur L. Il existe alors deux manières
a priori concurrentes d’assigner une valeur de vérité aux formules sur L.
Preuves finies La première – que vous connaissez bien – consiste à enchaîner des énoncés les
uns à la suite des autres par des règles de logique élémentaire, échafaudant ainsi une démonstra-
tion :
Définition 7.2 (Axiomes logiques). Comme pour les langages avec la sous-collection Llog , il y
a une série d’axiomes logiques notée Ax log , que l’on souhaite ajouter à toute théorie, et que l’on
omettra donc de préciser par la suite :
1. Les tautologies, c’est à dire les formules obtenues en substituant des sous-formules
ψ1 , . . . , ψn dans une formule booléenne F = F (q1 , . . . , qn ) valant 1 pour toute affectation
des qi à 0 ou 1.
Par exemple, à partir de la formule booléenne
F (q1 ) = q1 ∨ (¬ q1 ) (7.16)
qui garantissent que « = » se comporte comme une relation d’équivalence ; il faut y ajou-
ter les axiomes suivants – un pour chaque symbole fonctionnel n-aire f de F L et chaque
symbole relationnel m-aire R de RL – qui garantissent qu’application de fonction et com-
paraison par une relation passent bien à l’égalité :
3. Les axiomes du quanteur existentiel : pour toute formule ϕ, pour tout terme t – un mot
obtenu par application de fonctions sur les constantes et les variables, i.e. une formule sans
relations ni quanteur –, on ajoute l’axiome
Définition 7.3 (Règles de déduction). Les maillons de nos preuves sont liés par :
1. Le Modus Ponens : À partir de ϕ et ϕ ⇒ ψ, on déduit ψ.
2. L’introduction du quanteur existentiel : Si x n’apparaît pas dans ψ, à partir de ϕ ⇒ ψ, on
déduit ∃ x, ϕ ⇒ ψ.
Définition 7.4 (Preuve formelle – finie). Soit ϕ une L-formule, Ax un jeu d’axiomes.
Une preuve formelle de ϕ dans Ax est une suite finie de L-formules (ϕ0 , ϕ1 , . . . , ϕn ) telle que :
— ϕn = ϕ – on termine la preuve par un CQFD ;
— pour tout i 6 n on a :
— ou bien ϕi est dans Ax ou Ax log ;
— ou bien ϕi s’obtient par Modus Ponens à partir de ϕj , ϕk avec j, k < i ;
— ou bien ϕi s’obtient par introduction du quanteur existentiel à partir d’une formule
ϕj avec j < i.
On dira que ϕ est prouvable dans Ax s’il existe une preuve formelle de ϕ dans Ax.
Attention : les axiomes logiques et les règles de déduction données ci-dessus n’ont rien
d’intrinsèquement « Vrai ». Les utiliser relève d’une décision prise par les mathématiciens :
certains logiciens rejettent par exemple l’usage du tiers exclu, considéré comme non-légitime. La
logique mathématique classique, qui étudie ce jeu symbolique particulier, n’a donc rien d’absolu
au sens philosophique : sa légitimité viendra du théorème 7.1 (complétude de Gödel), qui affirme
– dans un contexte méta-mathématique extrêmement raisonnable – que tout énoncé “conséquence
nécessaire” d’un jeu d’axiomes est démontrable à partir de celui-ci et des axiomes logiques via
l’utilisation des règles de déduction.
7.2. Axiomatiques et vérités 181
Qu’est-ce qu’un ensemble ? Intuitivement, une collection d’objet, une idéalisation mathé-
matique de la “boîte”... Ce qui est plutôt vague ! À vrai dire – comme le dit très bien Patrick
Dehornoy –, faute de pouvoir définir commodément les ensembles à partir d’objets plus primitifs,
on se contentera d’une approche axiomatique : les ensembles seront les variables du langage Lens
défini pour l’occasion,
Autrement dit, deux ensembles qui ont les mêmes éléments sont égaux : on parle bien de
collections abstraites, dépourvues de qualités propres comme la forme, la couleur, etc.
Qu’est-ce qui est un ensemble ? Mais comment choisir les axiomes suivants ? Via l’intro-
duction de quanteurs d’existence « ∃ », ceux-ci détermineront en pratique ce qui est un ensemble.
La première tentative fut l’œuvre de Georg Cantor et son axiome de compréhension est le
suivant : toute propriété P caractérise l’ensemble xP des “éléments” qui la vérifient. Malheureu-
sement, cette approche trop naïve s’écroule face au paradoxe de Berry :
Proposition 7.1 (Paradoxe de Berry). Soit P(n) la propriété :
« n est un entier définissable par une phrase française d’au plus cent caractères.»
Alors il ne peut exister “d’ensemble xP des entiers vérifiant P”.
Exercice 7.1. Trouver pourquoi !
Comment répondre à ce paradoxe ? On ne peut décemment renoncer à construire des en-
sembles d’entiers. Le choix des informaticiens serait de refuser toute définition “via une proprié-
té”, et d’accepter seulement les ensembles “construits” explicitement par unions, intersections de
briques élémentaires... Ce qui est beaucoup trop restrictif pour un mathématicien ! Le compromis
naturel, proposé par Gottlob Frege, est de restreindre le champs des propriétés “admissibles” à
celles qui sont exprimables par une formule sur le langage L considéré ; on pense par exemple à
À vrai dire, le paradoxe de Berry ne faisait que révéler la confusion qui a longtemps régné autour
de ces problématiques d’existence. On pense par exemple au célèbre argument ontologique : « Dieu
a toutes les propriétés, donc il existe ». Aujourd’hui, cet énoncé qui identifie l’existence d’un objet
– qui est une caractéristique du modèle : ici, l’univers – à une propriété portant sur les éléments
de celui-ci passerait pour une erreur de logique élémentaire – sans graves conséquences, la foi
religieuse étant plus intéressée par les mystères que par sa cohérence interne. Il a pourtant été
Séances 8 et 9 182 Chapitre 7. Preuves formelles, axiomatiques et théorie des ensembles
Revoir l’intro.
défendu par Descartes, un esprit dont la rigueur mathématique a tant frappé ses contemporains
qu’elle en est devenue proverbiale !
L’approche de Frege, innovante et formelle, a donc le mérite de mettre les points sur les i en
précisant les différents niveaux de discours... Elle ne résistera pourtant guère plus longtemps que
celle de Cantor.
Proposition 7.2 (Paradoxe de Russel). Soit E la propriété
E(x) : ¬ (x ∈ x) « x n’est pas élément de lui-même». (7.29)
Alors l’existence d’un ensemble xE des ensembles vérifiant E est une hypothèse contradictoire.
Exercice 7.2. Comprendre pourquoi !
Il existe donc des propriétés sur les ensembles – les variables de notre langage – qui ne
sauraient être représentées par l’un d’eux. L’approche classique pour répondre à ce (dernier)
paradoxe est de l’attribuer au fait que l’ensemble de tous les ensembles est un objet trop grand
pour être un ensemble... Une propriété P ne saura donc générer un ensemble qu’à travers la
restriction d’un ensemble pré-existant.
Création d’ensembles L’axiome de séparation proposé par Ernst Zermelo pour parer au
paradoxe de Russel permet donc d’éviter de créer des ensembles trop gros... Et pour cause :
agissant uniquement par restriction, il ne permet jamais d’augmenter le “nombre” d’éléments
d’un ensemble ! Pour arriver à un cadre axiomatique suffisamment riche pour exprimer les objets
mathématiques usuels, on convient donc de rajouter les axiomes suivants à notre théorie :
∀ a, b, ∃ p, ∀ x, x ∈ p ⇔ (x = a ∨ x = b) (axiome de la paire : p = {a, b}), (7.33)
[
∀ a, ∃ u, ∀ x, x ∈ u ⇔ ∃ v, (x ∈ v ∧ v ∈ a) (axiome de la réunion : u = a), (7.34)
∀ a, ∃ p, ∀ x, x ∈ p ⇔ (∀ t, t ∈ x ⇒ t ∈ a) (axiome des parties : p = P(a)). (7.35)
7.2. Axiomatiques et vérités 183
Exercice 7.5. Exprimer en des termes mathématiques usuels les trois axiomes ci-dessus.
L’axiome de la réunion légitime le fait de considérer l’union ensembliste d’une collection quel-
conque d’ensembles a, ce qui est un peu plus que ce à quoi on s’attend au premier abord...
Partant de l’axiome de la paire et de celui de la réunion, légitimer l’existence ensembliste de la
réunion a ∪ b de deux ensembles a et b – i.e. l’union telle qu’elle est présentée au lycée.
Exercice 7.6 (Couples). Les paires {a, b} obtenues via l’axiome éponyme ne sont pas ordonnées...
Démontrer que :
∀ a, b, c, d, { a, {a, b} } = { c, {c, d} } ⇔ (a = c ∧ b = d). (7.36)
La construction (a, b) = { a, {a, b} } permet donc de représenter les paires ordonnées (ou couples)
de manière satisfaisante.
Axiomes de remplacement Unions, intersections, paires, couples... Toutes les opération en-
semblistes usuelles sont maintenant légitimées, à une exception près : l’application de fonctions
formelles définies par une formule. C’est chose faite avec le schéma d’axiomes de remplacement,
qui stipule que pour toute formule ϕ = ϕ(x, y, v1 , . . . , vn ) sur Lens , on ajoutera l’axiome de
remplacement associé :
∀ d, ∀ v1 , . . . , vn , ∀ x, ∀ y1 , y2 , ϕ(x, y1 , v1 , . . . , vn ) ∧ ϕ(x, y2 , v1 , . . . , vn ) ⇒ y1 = y2 (7.37)
=⇒ ∃ z, ∀ y, y ∈ z ⇔ ∃ x, x ∈ d ∧ ϕ(x, y, v1 , . . . , vn ) . (7.38)
pour v = {2}.
Séances 8 et 9 184 Chapitre 7. Preuves formelles, axiomatiques et théorie des ensembles
Revoir l’intro.
Axiomatique de Zermelo-Fraenkel Restent encore deux autres axiomes, sans aucun doute
les plus “discutables” du lot :
∀ x, ¬ (x = ∅) ⇒ ∃ z, (z ∈ x ∧ z ∩ x = ∅) (axiome de fondation), (7.47)
∃ x, ∅ ∈ x ∧ ∀ z, (z ∈ x ⇒ z ∪ {z} ∈ x) (axiome de l’infini). (7.48)
Là où l’axiome de fondation prévient l’existence de chaînes d’appartenances “sans fond” du type
“x ∈ x”, l’axiome de l’infini met à portée du langage un infini actuel, en postulant l’existence
d’un ensemble qui ne peut se construire par une succession finie d’opérations élémentaires. C’est,
on le verra au chapitre suivant, l’axiome qui permet de parler de l’ensemble infini des entiers
naturels – on ne se contente donc pas d’un infini potentiel.
Récapitulons maintenant la collection des postulats de la théorie des ensembles classique,
réunis dans le jeu d’axiomes dit de Zermelo-Fraenkel :
Axiome d’extensionnalité : Un ensemble est uniquement déterminé par ses éléments.
Axiome de fondation : Il n’existe pas de chaîne d’appartenances récursive.
Axiome de l’infini : Il existe un ensemble infini.
Axiome de la paire : Si a et b sont deux ensembles, on peut construire l’ensemble
p = { a, b }.
Axiome de la réunion : Si a est un ensemble, on peut construire l’ensemble
[
u = a = x1 ∪ x2 ∪ . . . pour a = {x1 , x2 , . . .}.
Ce jeu d’axiomes est d’une importance considérable. On démontrera en effet dans le chapitre
suivant que toutes les notions mathématiques usuelles – nombres entiers, réels ou complexes ;
fonctions, suites, etc. – peuvent être “émulées”, modélisées dans la théorie des ensembles ZF. La
cohérence – équivalente à la consistance, l’existence d’un modèle d’après le théorème de complé-
tude – de ZF impliquera donc, en cascade, la cohérence de tous les autres systèmes d’axiomes
usuels.
Théorème 7.1. Soit ϕ une L-formule close, un énoncé sans variable libre non quantifiée –
typiquement, un théorème qui commence par “pour tout ...”. Il y a alors équivalence entre :
ϕ est conséquence logique de Ax :
Toute L-structure vérifiant les axiomes de Ax vérifie aussi ϕ.
ϕ est prouvable dans Ax :
Il existe une preuve formelle de ϕ dans Ax, au sens de la définition 7.4.
Autrement dit, nos règles de démonstration sont complètes : il n’y a pas de résultat “consé-
quence nécessaire” d’un jeu d’axiomes que l’on ne puisse pas démontrer par utilisation du Modus
Ponens et autres axiomes logiques.
Il est fastidieux de définir proprement le terme “une structure vérifie une formule”, aussi ne
démontrerons-nous pas ici le théorème7.1 : c’est un tâche longue, répétitive et pour être honnête,
assez rébarbative. Néanmoins, un petit mot sur la preuve. Si montrer le sens réciproque (prouvable
implique conséquence logique/nécessaire) relève de la simple vérification, le sens direct est plus
difficile à aborder : comment construire, écrire une preuve à partir d’une “structure” dont on ne
sait rien si ce n’est qu’elle vérifie un jeu d’axiomes abstrait ?
La très grande idée de Gödel a été de comprendre qu’un raisonnement par contraposée était
possible : à partir d’un jeu d’axiomes Ax et d’un énoncé ϕ improuvable dans celui-ci, il est
possible de construire, à la main, un modèle qui vérifiera Ax et ¬ ϕ. La construction de ce
modèle à partir de mots sur le langage/alphabet L est une illustration parfaite des principes de
la logique mathématique, une science dont l’objet est l’étude du texte mathématique.
Par Modus Ponens appliqué aux axiomes 1 et 2, Axens démontre en effet P et ¬ Q. Mais que
dire alors de ce troisième énoncé :
Impossible de dire que (7.51) est un énoncé mal formulé, et pourtant, impossible aussi d’en
trouver une démonstration ou une infirmation à partir de Axens . Et pour cause : il n’est guère
difficile de trouver un modèle de Axens qui vérifie R – disons, un bon lycée du Caire –, et un
autre modèle qui satisfait tout aussi bien aux exigences de Axens , tout en vérifiant ¬ R – un
collège à Kyoto ! Dans la théorie Axens , R est un énoncé qui n’est ni vrai, ni faux – sous réserve
de cohérence. Il est indécidable.
Récursivité et genèse de l’informatique Avant d’aller plus loin, il faut nous pencher sur
les énoncés de ces théorèmes ; les décortiquer, comprendre la finesse de leurs hypothèses. L’une
d’entre elles, la récursivité du système d’axiomes, est d’une importance capitale. En effet, dans
un idéal mathématique, il est possible d’imaginer une théorie contenant ZF ou l’arithmétique de
Peano qui soit à la fois cohérente et complète : partons par exemple des axiomes de ZF sur Lens ,
que l’on suppose cohérents – c’est très raisonnable.
Si ZF est complète, tant mieux : pas besoin de chercher plus loin ! Sinon, trouvons une formule
ϕ qui soit indécidable dans ZF : ZF ne prouve ni ϕ, ni ¬ ϕ. C’est donc que ZF ∪ {ϕ}, ZF ∪ {¬ ϕ}
sont toutes deux cohérentes : on peut alors choisir, à notre convenance, l’une des ces deux théories
“enrichies” comme nouveau système d’axiomes de référence. S’il est complet, tant mieux : pas
besoin de chercher plus loin ! Sinon... On recommence. On devrait alors arriver à une théorie
limite – via le “lemme de Zorn”, un point technique qu’il serait fort long de détailler – à la fois
cohérente et complète.
7.3. In-décidabilité, choix d’un système d’axiomes 187
Cette idée de récurrence “transfinie” est fort naturelle... Mais pas très utile en pratique ! En
effet, comment trouver une formule ϕ qui soit indécidable dans notre théorie ? Et jusqu’à quand
va-t-on recommencer comme préconisé ? C’est en cherchant à préciser ces deux points que les
logiciens des années 30 ont peu à peu mis à jour une notion claire de calculabilité, ou récursivité :
Une liste de formules, de mots, de nombres sera récursive s’il est possible de l’obtenir comme
“sortie” d’un programme fini idéalisé, une notion proprement définie.
L’indécidabilité a en fait un analogue dans le monde des programmes. Contrairement à ce que
l’on pourrait penser, un programme binaire tournant sur les entiers n’est en effet pas réduit à
deux manières de terminer, “0” ou “1” ; il peut aussi... ne jamais s’arrêter. Si l’idée vous intéresse,
vous pourrez facilement trouver des renseignement précis au sujet de ce “problème de l’arrêt” :
c’est la clé de la preuve des théorèmes d’incomplétude.
Entamé par des mathématiciens soucieux de démontrer la cohérence de leurs théories, cet
effort de formalisation du raisonnement aura la postérité que l’on connaît : L’acte de naissance
de l’informatique est communément daté de 1936, année où Alonzo Church montra dans sa thèse
que récursivité fonctionnelle et programmabilité au sens de Turing étaient équivalentes, formant
ensemble le modèle universel de la calculabilité.
Ax V(Ax) F(Ax)
Ax1 Ax2 ···
cons. synt. de Ax
∅ Énoncé diagonal
cons. log. de Ax « La théorie est cohérente »
L-énoncés L-énoncés
(a) À partir d’un jeu d’axiomes, on peut a priori (b) Si un jeu d’axiomes est cohérent (l’ensemble
définir deux notions de vérité : par les preuves des formules vraies et fausses ne s’intersectent
syntaxiques, et par les modèles. Le théorème pas) et récursif, alors il est incomplet : il existe
de complétude de Gödel affirme qu’elles coïn- des énoncés qui ne sont ni vrais, ni faux, au
cident. sens de la théorie.
Figure 7.1 – Schéma synthétique illustrant les principaux résultats du chapitre. (a) Avec son
théorème de complétude, Gödel démontre que tout énoncé conséquence logique d’un jeu d’axiomes
admet une preuve syntaxique à partir de ceux-ci, en utilisant les règles de déduction standards.
(b) Si Ax est un jeu d’axiomes, on peut donc définir sans ambiguïtés V(Ax), ensembles des
énoncés conséquences de Ax, et F(Ax), ensemble des énoncés dont les négations sont dans V(Ax).
Si Ax est un jeu d’axiomes fini, encodant une théorie classique comme ZF, on n’est pas étonné
d’apprendre qu’il existe des énoncés indécidables pour la théorie, qui ne sont ni dans V(Ax), ni
dans F(Ax). On peut donc imaginer d’ajouter de nouveaux axiomes Ax’, etc. à la théorie, piochés
au fur et à mesure dans l’ensemble des énoncés indécidables. Surprise : si cette procédure de choix
est récursive, programmable, alors elle ne peut aboutir à une théorie complète. Il restera toujours
des énoncés bien formés, mais dont la valeur de vérité n’est pas déterminée par la théorie.
Séances 8 et 9 188
Revoir l’intro.
Axiomes logiques : tautologies, Ax(=), ∃-ax Règles de déduction : Modus Ponens, ∃-intro
M P Gen, ∀-ax, ∀-intro, Generalisation αV ar(t) = βV ar(t) ⇒ tA [α] = tA [β]
∀c ∈
/ V ar(T ∪ {ϕ(x)}), T cohérente ⇒ T ∪ {∃xϕ → ϕc/x } cohérente ψ ∈ F orm, L ∩ C = ∅, (T `L ψ ⇔ T `L∪C ψ) ∀x ∈
/ Lib(ψ), (|= ϕ → ψ) ⇒ (|= ∃xϕ → ψ) ϕ tautologie ⇒|= ϕ ∀ϕ, ∀t, ∀x, |= ϕt/x → ∃xϕ ∀M une L-structure, M∗ := la LM -structure naturelle M ⊆ N, M 4 N := ∀a ∈ M n , M |= ϕ[a] ⇔ N |= ϕ[a]
∀ϕ ∈ Axiomes(=), |= ϕ
P axiomatisable := ∃T, ∀M, P(M) ⇔ M |= T P finiment axiomatisable := ∃ϕ, ∀M, P(M) ⇔ M |= ϕ T consistance ⇔ T coherente M ≡ N := T h(M) = T h(N) ∆(M) := {ϕ(cm1 , . . . , cmn )|ϕ sans quanteur ∧ M |= ϕ[cm1 , . . . , cmn ]} D(M) := T h(M∗ ) = {ϕ(cm1 , . . . , cmn )|M |= ϕ[cm1 , . . . , cmn ]} ∀M ⊆ N, (∀a ∈ M n , (∃b0 ∈ N, N |= ϕ[b0 , a]) ⇔ (∃a0 ∈ M, M |= ϕ[a0 , a])) =⇒ M 4 N Axiomes de Peano/Peano faible
P finiment axiomatisable ⇔ P, ¬P axiomatisables T |= ϕ ⇔ T `L ϕ (M, N |= T ⇒ M ≡ N) ⇒ T complète T consistante ⇔ T finiment consistante ∀N, (∃A ⊇ M, N ' A) ⇔ (∃N∗ |= ∆(M), N = N∗L ) ∀N, (∃A < M, N ' A) ⇔ (∃N∗ |= D(M), N = N∗L ) #M > #L, A ⊆ M ⇒ ∃M0 4 M, A ⊆ M0 , #M0 = sup(#A, #L) M |= P0 ⇒ {nM } segment initial de M, isomorphe à N P0 très faible
∃R0 ≡ R, R0 non archimédien (∀ϕ s.q., ∀x, ∃ψ s.q., ∃xϕ ∼T ψ) =⇒ T admet E.Q. ∀ϕ(x1 , . . . , xn ), (∃ψ(x) sans quanteur ∼T ϕ) ⇔ (∀M, N |= T, ∀A ⊆ M, N, ∀a ∈ An , M |= ϕ[a] ⇔ N |= ϕ[a]) #M > ℵ0 ⇒ ∀κ > sup(#M, #L), ∃N < M, #N = κ M1 ≡ M2 ⇔ ∃N1 ' M1 , N2 ' M2 , ∃P < Ni ∃R0 4 R, R0 pas complet
∀M, N |= T, ∀A ⊆ M, N, ∀ϕ(x0 , . . . , xn ) s.q., (∀a ∈ An , ∃b0 ∈ M, M |= ϕ[b0 , a] ⇒ ∃c0 ∈ N, N |= ϕ[c0 , a]) ⇒ T admet E.Q. Faits algébriques divers ∃M |= T, #M > ℵ0 ⇒ ∀κ > #L, ∃N |= T, #N = κ T ⊇ P consistan
Figure 7.2 – Arbre des propositions donnant le plan du cours de Logique donné par Martin Hils à l’ENS en 2012-2013. Dans cette
première section, on trouve le théorème de complétude de Gödel (à gauche) et ses premières conséquences dont le lemme de compacité, T ⊇ P co
T erm, F orm, Enonce, etc. sont p.r. T rec ⇒ Dem(T ) rec Définition de la (primitive) récursivité Définition de la T -calculabilité finiment axiomatisable ⇒ rec. axiomatisable
Substt , Substf p.r. Lemme chinois T rec. axiomatisable ⇔ #T hm(T ) r.e. Travail de codage
T aut p.r. ∃β ∈ F3 sans rec., ∀(c0 , . . . , cn ), ∃a, b, ∀iβ(a, b, i) = ci {totale réc.} = hp.r.i◦,µtotal ϕp (i, x) partielle récursive f p.r. ⇔ f totale T -calc. en temps p.r. {part. réc.} = hp.r.i◦,µ f part. réc. ⇔ f est T -calc.
[a] ⇔ N |= ϕ[a] AxL p.r. Élimination de la recurrence N eg(#ϕ) := #(¬ϕ), 0 sinon ∀m, n ∈ N, ∃sm n+m
n ∈ Fn+1 , ∀i, x, y, ϕi (x, y) = ϕm
sm (i,x) (y)
n
∀f ∈ Fp∗ , ∃i ∈ N, f = ϕpi
b0 , a]) ⇔ (∃a0 ∈ M, M |= ϕ[a0 , a])) =⇒ M 4 N Axiomes de Peano/Peano faible Dem p.r. subst(#ϕ, n) := #ϕ(n) ∀f récursive totale, ∃ϕ ∈ Σ1 , ϕ représente f ∀m ∈ N∗ , ∀α ∈ F1 , ∃i ∈ N, ϕm m
i = ϕα(i) X r.e. ⇔ X = ∅ ∨ ∃f ∈ (F1
(∅/∗) n
) , X = im(f ) ⇔ ∃f ∈ Fn∗ , X = dom(f ) ⇔ ∃Y p.r., X = π(Y )
M, A ⊆ M0 , #M0 = sup(#A, #L) M |= P0 ⇒ {nM } segment initial de M, isomorphe à N P0 très faible {#ϕ| ` ϕ} r.e. Σ1 ⇔ Σ1 strict ϕ ∈ Σ1 ⇒ ϕs/x ∈ Σ1 PT ∈ Σ1 représente Dem(T ) G ∈ Σ1 représente subst ν ∈ Σ1 représente N eg X rec. ⇔ X, N \X r.e. La fonction d’Ackermann est récursive ∀R ⊆ Nn r.e., ∃e ∈ N, R = {x|(e, x) ∈ dom(ϕn )}
∃R0 4 R, R0 pas complet ∀ϕ ∈ Σ1 , N |= ϕ ⇒ P0 ` ϕ Coh(T ) := ¬∃yPT (#(¬0 = 0), y) hT (x) := ∃yPT (x, y) Hϕ (x) := ∃z(G(x, x, z) ∧ ϕ(z)), i.e. ϕ(subst(x, x)) PTR (x, y) := PT (x, y) ∧ ¬∃z 6 y∃u(PT (u, z) ∧ ν(x, u)) T rec. axiomatisable et complète ⇒ T décidable ∀p ∈ P ∪ {0}, CACp complète dom(λx.ϕ1 (x, x)) n’est pas récursif
T ⊇ P0 une Lar -théorie consistante et récursive =⇒ T 0 ∆T ∀M |= P0 , #T h(M) non définissable dans M T ⊇ P0 une Lar -théorie consistante et récursive =⇒ T 0 ∆R
T , T 0 ¬∆T
R T ⊇ P0 une Lar -théorie consistante =⇒ T n’est pas décidable {i ∈ N|ϕ1i totale} n’est pas récursif ∀f ∈ F1∗ , {i ∈ N|ϕ1i = f } n’est pas récursif {(i, j) ∈ N|ϕ1i = ϕ1j } n’est pas récursif dom(λx.ϕ1 (x, 0)) n’est pas récursif
T ⊇ P consistante et récursive ⇒ T 0 Coh(T ) @SN (x), ∀ϕ, (N |= ϕ ⇔ N |= SN (#ϕ) Pour L = Lar ou Lens , {#ϕ|ϕ universellement valide} pas recursif T ⊇ P0 une Lar -théorie consistante et récursive =⇒ T n’est pas complète Le problème de l’arrêt est indécidable.
Figure 7.3 – La deuxième partie du cours est consacrée à l’encodage numérique des raisonnements syntaxiques (gödelisation, à gauche),
à la récursivité (à droite) et au premier théorème d’incomplétude de Gödel, qui tire parti de ces deux approches. Figures réalisées à
l’aide du logiciel Graphviz.
189
Séances 8 et 9 190 Chapitre 7. Preuves formelles, axiomatiques et théorie des ensembles
Revoir l’intro.
Références
Parmi les nombreux cours, livres et polycopiés disponibles sur la logique mathématique – géné-
ralement abordée par les matheux en fin de licence –, je me suis fortement reposé sur les notes du
cours de Logique donné en 2012 par Martin Hils au département de mathématiques. Vous pour-
rez les trouver à l’adresse suivante : http://www.logique.jussieu.fr/~hils/enseignement/
Notes_Cours2012-13.pdf.
Pour aller plus loin, je vous conseille les premiers chapitres du cours de Logique et théorie
des ensembles de Patrick Dehornoy (donné dans ce même département en 2006) : avec une
introduction moins technique et plus historique que ses successeurs, il me semble plus acces-
sible. Vous retrouverez au chapitre 1 une discussion détaillée sur la nature des ensembles et leur
construction actuelle. Vous pourrez le trouver à l’adresse suivante : http://www.math.unicaen.
fr/~dehornoy/surveys.html.
Sur l’histoire du concept de calculabilité, le manuel de Robert Soare, The History and Concept
of Computability, me semble une bonne référence. Vous pourrez le trouver à l’adresse suivante :
http://www.people.cs.uchicago.edu/~soare/History/handbook.pdf
Enfin, si vous cherchez simplement à mettre des visages sur les notions présentées ici, une seule
référence : l’excellente bande-dessinée Logicomix. On y suit les pas du grand logicien Bertrand
Russel – un monsieur vraiment remarquable, soit dit en passant –, qui prit une part active à
cette aventure de fondation des mathématiques : vous pourrez donc y rencontrer tous les grands
noms de la fin XIXe siècle, leurs convictions, leurs échecs... et leurs réussites !
Chapitre 8
Depuis la plus haute antiquité, les savants, astronomes et marchands utilisent les nombres
pour compter. Quoi de plus naturel ? Deux et deux font quatre et quatre font huit...
(Mal)heureusement, depuis la découverte des irrationnels attribuée à Pythagore au VIe siècle
avant notre ère, puis des nombres relatifs, voire complexes, on sait que les choses ne sont pas si
simples. Pire : en 1874, les travaux menés par Cantor sur les infinis semèrent le doute quand au
bien fondé de nos calculs les plus élémentaires.
Et si les nombres n’existaient pas ? On l’a vu, la seule façon de répondre à ces inquié-
tudes de manière scientifique, “phénoménologique”, est de poser la question d’un point de vue
axiomatique : « Nos présupposés sur les nombres débouchent-ils sur des contradictions ? »
Si nos jeux d’axiomes sont cohérents, le théorème 7.1 (complétude de Gödel) assurera l’exis-
tence d’une structure qui les vérifie : autrement dit, l’existence d’objets qui se comportent à
tous points de vue comme des nombres est garantie. Malheureusement, dans le même temps, les
théorèmes 7.2 et 7.3 (incomplétude de Gödel) réduisent à néant les espoirs de démontrer cette
cohérence.
Devant cette impasse, l’approche des mathématiciens est la suivante : Faute de pouvoir dé-
montrer que la théorie des nombres est absolument cohérente, ils vont du moins démontrer qu’elle
est aussi cohérente que la théorie des ensembles – formalisée par le système ZF, section 7.2.2. Il
suffira pour cela de réaliser un modèle de la première dans la deuxième, de construire des nombres
avec des ensembles ; c’est le travail fondateur que je vous propose de découvrir aujourd’hui.
191
Séances 10 et 11 192 Chapitre 8. Construction classique des ensembles de nombres : N, Z, Q et R
Théorème 8.2 (Théorème fondamental de l’arithmétique). Soit n un entier naturel non nul.
Alors il existe une unique collection finie q1 < · · · < qr de nombres premiers, une unique
collection d’exposants n1 , . . . , nr > 0 tels que
n = q1n1 × · · · × qrnr . (8.2)
Ceci permet de définir de manière unique la valuation P-adique ν : (p, n) ∈ P × N 7→ νp (n)
telle que
Y ν (n) ν (n) ν (n)
∀n ∈ N? , n = pνp (n) = p1p1 × p2p2 × p3p3 × . . . . (8.3)
p∈P
À chaque entier n correspond une suite ν· (n) : p ∈ P 7→ νp (n) ∈ N à support fini, et vice-versa.
Axiomes de Peano
Un homme, Giuseppe Peano, a laissé son nom dans l’Histoire pour avoir concocté en 1889 une
axiomatisation réussie de l’arithmétique : tous les énoncés classiques sont en effet conséquence
du jeu d’axiomes suivant, formulé sur le langage
Lar = {0, S, +, ×, <}, (8.4)
où « 0 » est une constante, « + » et « × » des fonctions binaires, « < » une relation binaire, et
« S » une fonction 1-aire, représentant moralement l’opération successeur qui à un entier n associe
l’entier suivant, n + 1. On y retrouve donc les quatre fonctions constitutives de l’arithmétique :
addition et multiplication, cohérentes entre elles et avec l’ordre naturel ; opération successeur, qui
ouvre la porte au raisonnement par récurrence. Les axiomes ci-dessous se contentent simplement
de formaliser les liens entre ces différentes facettes de l’arithmétique :
(Succ1 ) : ∀ n, ¬ (Sn = 0) « 0 n’est pas successeur »
(Succ2 ) : ∀ n, ¬ (n = 0) ⇒ (∃ m, Sm = n) « tout entier non nul est successeur »
(Succ3 ) : ∀ m, ∀ n, Sm = Sn ⇒ m = n « S est injective »
(Add1 ) : ∀ n, n + 0 = n « 0 est neutre à droite pour + »
(Add2 ) : ∀ m, ∀ n, m + Sn = S(m + n) « + commute avec S »
(Mul1 ) : ∀ n, n × 0 = 0 « 0 est absorbant à droite pour × »
(Mul2 ) : ∀ m, ∀ n, m × Sn = (m × n) + m « × distribue S à gauche »
(Ord1 ) : ∀ m, ∀ n, m < n ⇔ (¬ (m = n) ∧ ∃ k, k + m = n « définition de < »
auxquels il faut ajouter, pour chaque Lar -formule ϕ = ϕ(n, v1 , . . . , vp ) l’axiome de récurrence
associé :
(Rec ϕ) : ∀ v1 , . . . , vp , ϕ(0, v1 , . . . , vp ) ∧ ∀ k, ϕ(k, v1 , . . . , vp ) ⇒ ϕ(Sk, v1 , . . . , vp )
=⇒ ∀ n, ϕ (n, v1 , . . . , vp ).
Autrement dit : pour tout choix des paramètres v1 , . . . , vp , si la propriété ϕ(v1 ,...,vp ) est vraie en 0
et vérifie le principe de récurrence, alors elle est vraie en tout entier n.
En partant de ce jeu d’axiomes réduit, un travail technique fastidieux permet alors de démon-
trer toutes les propriétés attendues de l’ensemble des entiers naturels : < est une relation d’ordre
strict, car transitive, antiréflexive et antisymétrique ; existence du minimum de toute partie non
vide ; associativité, commutativité de + et × ; distributivité de × sur + ; bonne définition de la
relation de divisibilité ; division euclidienne ; décomposition en facteurs premiers, etc.
8.1. Les entiers naturels : successeur et récurrence 193
Opération successeur Tout reposera, vous allez le voir, sur cette définition judicieuse de
l’opération successeur abstraite σ :
σ(x, y) : ∀ z, z ∈ y ⇔ (z = x ∨ z ∈ x), (8.5)
autrement dit, σ est la formule fonctionnelle qui à un ensemble x associe l’ensemble
σ(x) = x ∪ {x}, (8.6)
bien défini par l’axiome de la paire et de l’union.
Zéro, entiers naturels On prendra pour modèle de 0 l’unique ensemble vide vérifiant
∅(x) : ∀ z, ¬ (z ∈ x). (8.7)
On peut alors calculer aisément les successeurs de 0, qui représenteront nos nombres entiers
naturels :
0={} (8.8)
1 = S(0) (8.9)
= { } ∪ {{ }} = {{ }} (8.10)
= { 0 }, (8.11)
2 = S(1) (8.12)
= 1 ∪ {1} = {0} ∪ {1} (8.13)
= { 0, 1 }, (8.14)
3 = S(2) (8.15)
= 2 ∪ {2} = { 0, 1 } ∪ { 2 } (8.16)
= { 0, 1, 2 }, (8.17)
n + 1 = { 0, 1, 2, . . . , n }. (8.18)
Ordre naturel On le comprend, au vu de (8.18), l’ordre < ne sera pas difficile à définir : il est
donné par l’appartenance !
< : ∀ x, ∀ y, x < y ⇔ x ∈ y. (8.19)
Ensemble N contenant les entiers naturels L’ensemble des entiers naturels sera alors, sans
surprise, celui qui contient 0 et tous ses successeurs. Attention, l’existence d’une telle “boîte”
infinie ne va pas de soi : ce n’est pas parce que l’on peut exprimer, parler de tout entier n – infini
potentiel, en puissance dans l’infinité de formules du langage – que l’on peut nécessairement
représenter par une variable l’ensemble de tous les entiers. Pour l’assurer, nous devons recourir
à l’axiome de l’infini, qui donne l’existence d’un ensemble E tel que :
0 ∈ E ∧ ∀x ∈ E, σ(x) ∈ E. (8.20)
Séances 10 et 11 194 Chapitre 8. Construction classique des ensembles de nombres : N, Z, Q et R
Comme E peut a priori contenir d’autres éléments que les seuls successeurs de 0, on choisit
pour ensemble des entiers naturels la plus petite partie de E qui contienne 0 et qui soit close par
passage au successeur :
Clos = { p ∈ P(E) | 0 ∈ p ∧ ∀x ∈ p, σ(x) ∈ p } (8.21)
E ∈ Clos, donc Clos est non-vide, ce qui légitime la définition formelle :
\
N= p, . (8.22)
p∈Clos
N est donc lui-même un élément de Clos, contenant 0 et tous ses successeurs sans “surplus”.
Bonne définition des applications du modèle Par construction, σ(x, y) est une relation
fonctionnelle sur N à valeurs dans N :
∀ x ∈ N, ∃ y ∈ N, σ(x, y) ∧ ∀ y1 , y2 ∈ N, σ(x, y1 ) ∧ σ(x, y2 ) ⇒ y1 = y2 . (8.32)
| {z } | {z } | {z }
Tout entier x a une image entière y et celle-ci est unique
L’application S : N → N qui à n associe n ∪ {n} est donc bien définie, tout comme la relation
< sur N × N. Montrer que Add et Mul définissent elles aussi des applications + et × de N × N
dans N est par contre beaucoup plus compliqué : nous l’admettrons ici, mais le lecteur intéressé
pourra trouver la démonstration, technique, dans les références indiquées à la fin du chapitre.
8.1. Les entiers naturels : successeur et récurrence 195
(Succ1 ) : 0 n’est pas successeur Supposons en effet disposer d’un entier n tel que
n ∪ { n } = Sn = 0 = { }. (8.34)
(Succ2 ) : Tout entier non nul est successeur C’est une conséquence directe de l’axiome
de récurrence (Rec ψ) associé à la formule
ψ(n) : (n = 0) ∨ ∃ k, Sk = n, (8.35)
démontré plus haut. On a en effet ψ(0) et, pour tout k, ψ(Sk), donc en particulier ψ(k) ⇒ ψ(Sk).
(Succ3 ) : S est injective Prenons m, n dans N tels que Sm = Sn, et supposons par l’absurde
que ¬ (m = n). Comme
m ∪ { m } = n ∪ { n }, (8.36)
Formalisation des problèmes linéaires Mais si les entiers naturels permettent de compter,
il se révèlent malcommodes dès qu’il s’agit de comptabiliser : Pour résoudre des problèmes pra-
tiques, le grand savant persan Al-Khwârizmî (al-gorithme) est ainsi contraint d’écrire un traité
entier, l’Abrégé du calcul par la restauration et la comparaison, pour décrire – sans symboles –
les méthodes de résolutions de problèmes linéaires, puis quadratiques. L’al-jabr – ou opération de
réduction – sert alors à ramener un problème donné à un problème connu de coefficients positifs,
tels que :
(Pa,b,d ) : trouver x tel que a × x + b = d, (8.38)
(Qa,b,d ) : trouver x tel que a × x + b = c × x, (8.39)
(Ra,b,c,d ) : trouver x tel que a × x + b = c × x + d, (8.40)
qui sont alors vus comme des problèmes distincts, nécessitant chacun une méthode de résolution
ad hoc. L’unification, la simplification conceptuelle au travers de notations symboliques abstraites
n’arrivera qu’au tournant du XVIIe siècle, avec entre autres les travaux de Viète (1540–1603)
puis Descartes (1596–1650).
Le premier pas vers la résolution efficace de tels problèmes est de mettre ceux-ci sous une
forme canonique, de “faire passer à gauche le membre de droite”. Ce qui justifiera une telle
manœuvre, c’est l’existence d’opposés ; autrement dit, l’existence pour tout n ∈ N d’un nombre
n0 tel que
n + n0 = 0 = n0 + n. (8.41)
Notez que ces opposés des entiers naturels sont nécessairement uniques : si n0 et n00 sont deux
opposés du même entier n, alors
0 = n0 + n =⇒ 0 + n00 = (n0 + n) + n00 =⇒ n00 = n0 + 0 = n0 . (8.42)
L’unique opposé de n, a priori formel, sera le nombre négatif « −n ». Grâce à lui, on pourra
réduire l’étude des trois classes de problèmes P, Q, R à celle de la simple équation bi-paramétrée
(Ea,b ) : trouver x tel que a × x + b = 0. (8.43)
8.2. Entiers relatifs et nombres rationnels : premières structures algébriques 197
Pour garantir le bien-fondé des opérations ci-dessus, il ne reste maintenant plus qu’à démontrer
que “l’axiome de l’opposition” n’entame pas la cohérence de l’arithmétique...
Z = { 0 } × (N\{ 0 }) ∪ { 1 } × N (8.47)
= { (0, n), pour n entier non nul } ∪ { (1, n), pour n entier } . (8.48)
| {z } | {z }
(0, n) représente −n (1, n) représente +n
L’ordre naturel < sera étendu tout aussi simplement en décrétant que
∀ (s, m), (t, n) ∈ Z, (s, m) < (t, n) ⇔ (s = 0) ∧ (t = 1) « −m < +n » (8.49)
∨ (s = t = 0) ∧ (n < m) « −m < −n » (8.50)
∨ (s = t = 1) ∧ (m < n) . « +m < +n » (8.51)
∀ m, n, p, m × (n + p) = m × n + m × p. (8.52)
0 = m × 0 = m × ((−n) + n) (8.53)
= m × (−n) + m × n (8.54)
puis 0 − (m × n) = m × (−n) + m × n − (m × n) (8.55)
i.e. − (m × n) = m × (−n), (8.56)
Cette règle trouvée, il n’est pas difficile de l’implémenter à l’aide de fonctions explicites de
Z × Z dans Z, +Z et ×Z : on aura donc modélisé par des ensembles la théorie des entiers relatifs
qui s’en trouvera par là-même “assurée”.
Séances 10 et 11 198 Chapitre 8. Construction classique des ensembles de nombres : N, Z, Q et R
∀ x, 1 × x = x = x × 1. (8.62)
Notez que l’on ne saurait doter 0 d’un inverse sans mettre en péril la cohérence de notre théorie :
pour tout entier n,
n×0=0 (8.63)
−1 −1
impliquerait n × 0 × 0 =0×0 (8.64)
i.e. n = 1, ce qui est gênant si n = 2. (8.65)
où a et b sont des entiers, a non nul. Malheureusement, dans Z, cette équation n’a pas toujours
une solution... Il suffit pour cela que b ne soit pas un multiple de a.
L’introduction d’inverses permet de lever cette fastidieuse condition de divisibilité : le pro-
blème linéaire Ea,b devient équivalent à la simple équation solution
Autrement dit, travailler dans Q permet d’associer à tout couple (a, b) ∈ (Z \ { 0 }) × Z une
unique solution xsol = − b × a−1 .
Travailler dans le corps des rationnels, où tout élément non nul est inversible, nous a donc
permis d’unifier sous un même formalisme les équations
(F ) : 2 × x + 4 = 0 et (G) : 2 × x + 5 = 0. (8.68)
12
11 Hélène 6 Gain
10 Pierre Écart initial
9 5
8
7 4
6
3
5
4 2
3
2 1
1
0 0
0 1 2 3 0 1 tchoc 2 3
Temps écoulé (s) Temps écoulé (s)
(a) Problème brut, représenté ici en coordon- (b) Par soustraction, on se ramène à l’étude du
nées entières. On cherche à déterminer l’abs- gain de distance de Pierre sur Hélène. Travailler
cisse du “point d’intersection” entre les deux dans Q garantit alors l’existence de l’instant
trajectoires. tchoc auquel Pierre rattrape sa compagne.
Problèmes quadratiques Les problèmes linéaires sont donc à la portée du calcul rationnel.
Mais que penser de situations plus complexes ? La chute d’un corps est un bon exemple : ici,
point de promeneur marchant à vitesse constante, mais une bille tombant d’un tabouret (de
hauteur h indéterminée) dans une pièce soumise à un champ de gravité constant g = 2 m/s2 –
pour simplifier ; à Paris, on aurait plutôt g = 9.81 m/s2 .
Question : Après combien de temps touchera-t-elle le sol ?
On sait depuis Galilée que dans une telle situation, la distance d entre la bille et son point
de départ s’accroît suivant la loi quadratique
1 2
d(t) = gt . (8.74)
2
On cherche donc à trouver l’abscisse tchoc du point d’intersection entre la courbe de chute d(t) = t2
et la hauteur constante h. Problème : pour h = 2 m, aucun instant t ∈ Q ne convient.
√
Irrationalité de 2 Un tel instant tchoc devrait en effet vérifier
t2choc = h = 2, (8.75)
ce qui est impossible si tchoc s’écrit p/q avec p et q deux entiers. On sait en effet – théorème 8.2 –
que tout entier n admet une unique “valuation 2-adique” ν2 (n), qui indique le nombre maximal
de fois qu’il est possible de diviser n par 2 avant de tomber sur un nombre impair. On a par
exemple ν2 (20) = ν2 (4 × 5) = 2 et ν2 (56) = ν2 (8 × 7) = 3. Or, supposons par l’absurde disposer
de p et q tels que
p2 /q 2 = 2 i.e. p2 = 2 × q 2 . (8.76)
On aurait alors
2 × ν2 (p) = ν2 (p2 ) = ν2 (2 × q 2 ) = 1 + 2 × ν2 (q), (8.77)
8.3. Les nombres réels ou la puissance du continu 201
0
4 Distance Table-Balle
Distance Table-Sol
0 1 2
Temps écoulé (s)
(a) Chute libre. Tiré de (b) Tracé de la fonction d : t 7→ t2 sur Q, tête en bas. On représente ici
Digital video analysis of en abscisse les points rationnels dont le dénominateur est inférieur ou égal
falling objects in air and à 7. L’axe des distances est criblé d’un ensemble de valeurs “carrées d’un
liquid using Tracker, Siri- rationnel” qui est dense, mais dont 2 n’en fait pas partie.
sathitkul et Al.
√
Figure 8.2 – Illustration graphique de l’irrationalité de 2 : 2 n’a pas d’antécédent dans Q par
la fonction de mise au carré, ce qui semble impliquer que l’instant où la balle entre en contact
avec le sol n’est pas défini : il est impossible de l’écrire en fractions de seconde.
ce qui est absurde puisque le membre de gauche√est pair, et celui de droite, impair ; Cqfd.
Connue depuis l’antiquité, l’irrationalité de 2 jette donc une ombre sur le calcul rationnel,
incapable d’exprimer autre chose que la linéarité.
Des p’tits trous On a en fait mis en évidence que l’ensemble des rationnels n’est pas un milieu
continu. D’une fonction régulière – sans saut – définie sur un intervalle continu, on attend en
effet la propriété des valeurs intermédiaires :
Propriété 8.1. (Valeurs intermédiaires) Si f est définie entre a et b, alors toute valeur image
comprise entre f (a) et f (b) admet au moins un antécédent par f entre a et b.
Autrement dit – si f (a) > f (b), ou a > b, inverser les ordres –,
∀ y, f (a) 6 y 6 f (b) ⇒ ∃ x, a 6 x 6 b ∧ f (x) = y . (8.78)
Comme illustré figure 8.2, Q est moralement “rempli de trous” – ce qui l’empêche d’accorder un
antécédent pour 2 à la fonction t 7→ t2 . Une solution pratique consiste alors à enrichir l’ensemble
des rationnels par l’ajout de solutions d’équations polynomiales : racines carrées, cubiques, etc.
À la limite, on obtient un ensemble bien défini, celui des nombres algébriques qu’il est possible
d’équiper des opérations usuelles.
Séances 10 et 11 202 Chapitre 8. Construction classique des ensembles de nombres : N, Z, Q et R
Le continu existe-t-il ?
Pendant près de deux millénaires, les mathématiciens se satisfirent de cette rustine sans creu-
ser beaucoup plus loin. Après tout, leurs travaux portaient avant tout sur le calcul de quantités
algébriques ou analytiques, et les critères de rigueur n’étaient pas les mêmes qu’aujourd’hui. On
pense par exemple à cette rafraîchissante preuve par Cauchy du “théorème” des valeurs intermé-
diaires : « Comme l’ordonnée constante [y] se trouve comprise entres les coordonnées [f (a)] et
[f (b)] des deux points que l’on considère, la droite [horizontale de niveau y] passera nécessaire-
ment entre ces deux points, ce qu’elle ne peut faire sans rencontrer dans l’intervalle la courbe
[représentative de f ] ». L’intuition géométrique était donc suffisante – pour être tout à fait hon-
nête, ajoutons que Cauchy proposera une démonstration “analytique” plus conforme aux canons
actuels dans les appendices de son cours d’analyse à l’école polytechnique.
Cantor et la puissance du continu Tout ceci dura jusqu’au jour de décembre 1873 où,
brisant le statu quo, un résultat mit en péril tout l’édifice mathématique construit jusqu’alors –
motivant ainsi la refondation des mathématiques présentée dans les chapitres 2 et 3. Il s’agit du
théorème suivant, (presque) découvert par mégarde :
Théorème 8.3. (Puissance du continu ; Cantor, 1874)
L’ensemble de réels [0, 1] n’est pas dénombrable.
En d’autres termes, il est impossible d’ énumérer les points d’un segment continu.
Démonstration. On raisonne par l’absurde. Supposons disposer d’une énumération (xn )n∈N? de
[0, 1[, c’est à dire d’une suite telle que
[0, 1[ = { x1 , x2 , x3 , . . . }. (8.79)
Pour chaque indice n, on considère l’unique développement décimal propre de xn – i.e. celui
qui ne se termine pas par . . . 9999 . . . –, que l’on reporte à la ne ligne d’un tableau infini :
Réel \ Décimale 0 1 2 3 4 ···
x1 0, 0 2 4 0 ···
x2 0, 2 0 5 6 ···
x3 0, 0 0 5 7 ···
x4 0, 1 3 4 8 ···
.. .. .. .. .. .. ..
. . . . . . .
y 0, 1 1 0 0 ···
On construit alors le développement décimal du réel y à partir de la diagonale “de Cantor” du
tableau – ici en gras –, en décrétant que la ne décimale de y vaut 1 si le coefficient diagonal
associé vaut 0, et 0 sinon. y est bien un réel de [0, 1[, mais il ne peut, par construction, être inclus
dans l’énumération (xn ) : sa k e décimale diffère de celle de xk , pour tout k.
Ceci est en contradiction avec l’hypothèse de départ, qui est donc absurde ; Cqfd.
Questions ouvertes et paradoxes Quand on sait qu’il est possible d’énumérer toutes les
formules du langage – énumérez toutes les formules à une lettre, puis celles à deux lettres, à trois
lettres, etc. –, on comprend mieux la portée de ce théorème : l’existence d’un segment continu
implique l’existence de nombres qu’il est impossible de décrire explicitement.
Ce paradoxe montre en fait la richesse étonnante d’une notion a priori intuitive, celle de
milieu continu. La question de sa pertinence pour une description mathématique du monde
physique est d’ailleurs un problème non résolu à ce jour. Prenez un verre d’eau ; une description
8.3. Les nombres réels ou la puissance du continu 203
atomiste, granulaire de son contenu donne la garantie qu’à partir d’un état donné, une et une
seule évolution peut suivre : c’est le théorème fondamental de la théorie des systèmes dynamiques,
que nous développerons section B.4.2.
Avec une description continue par contre – équations de Navier-Stokes –, rien de tout cela
n’est sûr : il n’y a a priori pas de déterminisme dans l’évolution du système, et pire encore, il n’est
même pas garanti qu’il y ait seulement existence d’une évolution possible du système « verre
d’eau » ! Apporter une réponse à ces questions est aujourd’hui le Graal des physiciens spécialisés
en mécanique des fluides, mais rien ne laisse penser qu’il sera trouvé de notre vivant...
Axiome de la borne supérieure Avant tout, rappelons que nous essayons de démontrer
l’existence d’une structure (R, +, ×, <) telle que :
— Q s’identifie naturellement à une partie dense de R,
— addition et produit soient compatibles avec l’ordre,
— tout élément non nul soit opposable et inversible,
— la propriété des valeurs intermédiaires soit vérifiée.
Plutôt que d’axiomatiser la propriété des valeurs intermédiaires – qui nécessite de définir
proprement la notion de fonction continue –, on préfère généralement assurer une propriété plus
élémentaire : l’axiome de la borne supérieure, qui affirme que toute partie non vide et majorée
admet une borne supérieure i.e. un plus petit majorant. Formellement, cette propriété – qui, on
le verra au théorème B.2.1, implique la propriété des valeurs intermédiaires – s’écrit
=⇒ ∃ s, (∀ a ∈ A, a 6 s) ∧ (∀ M, ∀ a ∈ A, a 6 M ⇒ s 6 M ) .
| {z } | {z }
s majore A et il est le plus petit à le faire
Surprenant au premier abord, cet énoncé a en fait l’élégance de traduire par de simples
comparaisons l’absence de trous, ou complétude, de la droite réelle. Regardons par exemple dans
Q le cas de la partie
D = { x ∈ Q | x 6 0 ∨ x2 < 2 }. (8.81)
D est non vide et indubitablement majoré – par 3, par exemple – et pourtant, le plus petit
majorant de D, noté sup D, ne saurait exister dans Q, comme démontré figure 8.3.
À l’inverse, dans l’idée
√ que l’on se fait de la droite réelle, sup D n’est pas difficile à trouver :
c’est tout simplement 2 ! Filer ce constat nous mène naturellement, en suivant Dedekind, à
représenter un réel r par l’ensemble des rationnels qui lui sont strictement inférieur :
« r = { x ∈ Q | x < r } = Q ∩ ] − ∞, r [ ». (8.82)
Séances 10 et 11 204 Chapitre 8. Construction classique des ensembles de nombres : N, Z, Q et R
0 1 M 2
(a) :
0 1 a M 2
(b) :
0 1 sup D 2
(c) :
Figure 8.3 – Défini équation 8.81, l’ensemble D des rationnels dont le carré est inférieur à 2
– ou qui sont négatifs – n’admet pas de borne supérieure rationnelle. Comme à la figure 8.2,
on représente ici les rationnels dont le dénominateur est inférieur ou égal à 7 afin de rendre
apparente la granularité de Q.
(a) : Soit M un majorant de D. Comme x2 = 2 n’admet pas de solution rationnelle, on a
nécessairement 2 < M 2 ; la fonction carrée étant régulière, c’est donc qu’il existe un écart e
irréductible entre M et les éléments de D.
(b) : Prenons alors un dénominateur d tel que 1/d < e – ici, d = 6. En avançant pas à pas, on
trouvera nécessairement un numérateur n – et donc un rationnel a = n/d – tel que a majore D
tout en étant strictement inférieur à M . Ce dernier n’est donc pas « le plus petit des majorants ».
(c) : Dans Q, il est impossible de mettre un “bouchon hermétique” « sup D » sur l’ensemble D.
L’ensemble des réels palliera à cette lacune en vérifiant l’axiome de la borne supérieure.
Construction formelle Inutile de préciser que cette “définition” auto-référente n’en est pas
une... Pour exprimer les réels à partir de formules sur Q, on recourra à la construction suivante :
R = A ⊆ Q | ∀ x ∈ A, ∀ y ∈ Q, y < x ⇒ y ∈ A « A est un intervalle infini à gauche »
∧ sup A existe dans Q ⇒ ¬ (sup A ∈ A) « A est ouvert à droite » (8.83)
∧ ¬ (A = ∅) « A est non vide, i.e. −∞ ∈
/R»
∧ ¬ (A = Q) « A est non plein, i.e. +∞ ∈
/R»
Un réel est ainsi la donnée d’une manière de diviser Q en deux intervalles disjoints – une partie
A et son complémentaire Ac : R sera l’ensemble des coupures de Q, et chaque réel ensembliste
A pourra être identifié avec le “point de découpe” sup A. Tandis
√ que l’ensemble D de l’équa-
tion (8.81) sera par définition le modèle ensembliste du réel 2, les rationnels seront naturelle-
ment représentés via l’injection canonique
e· : Q → R (8.84)
q 7→ qe = { x ∈ Q | x < q }. (8.85)
L’ordre usuel « < » est simplement donné par l’inclusion, qui prolonge l’ordre usuel sur Q à R
tout entier :
∀ q1 , q2 ∈ Q, q1 < q2 ⇐⇒ qe1 < qe2 i.e. qe1 ⊆ qe2 . (8.86)
8.3. Les nombres réels ou la puissance du continu 205
M
0 1 2
a1
0 1 2
a2
0 1 2
ai
0 1 2
.. .. .. ..
. . . .
s
0 q y 1 x 2
Figure 8.4 – La construction des réels présentée équation (8.83) vérifie bien l’axiome de la
borne supérieure. On représente ici une famille de réels (ai )i∈I majorée par le réel M . L’union
ensembliste s des ai est elle-aussi un réel, et est le plus petit majorant des ai pour l’ordre donné
par l’inclusion. Les éléments q, y et x sont ici placés pour illustrer la preuve en bas de page.
qui est bien le plus petit des majorants de A pour l’inclusion – exercice ! La partie technique de
la preuve est en fait de montrer que s est bien un réel, au sens de la formule (8.83) :
s est un intervalle infini à gauche Soit x ∈ s, y ∈ Q tels que y < x. Par définition de s,
on dispose d’un indice i tel que x ∈ ai : comme ai est un réel, il est un intervalle infini à
gauche, et donc y ∈ ai , puis y ∈ s ; Cqfd.
s est ouvert à droite Supposons par l’absurde que sup s existe dans Q, et qu’il soit élément
de s. Par définition de s, on dispose d’un nouvel indice j tel que sup s ∈ aj . Comme aj est
inclus dans s, sup s est aussi un majorant de aj , et est donc le plus grand élément de ce
dernier, son sup rationnel... Qu’il appartienne à aj est alors contradictoire avec le fait que
aj soit ouvert à droite ; Cqfd.
s est non vide On a demandé l’existence d’un réel a1 dans A : celui-ci étant non vide, on est
donc assuré de l’existence d’un rationnel q ∈ a1 i.e. q ∈ s ; Cqfd.
s est non plein On a demandé l’existence d’un réel M qui majore A : on a alors s ⊆ M ( Q ;
Cqfd.
s est donc un réel bien défini : on a démontré le “théorème” de la borne supérieure.
Séances 10 et 11 206 Chapitre 8. Construction classique des ensembles de nombres : N, Z, Q et R
Conclusion
Au prix de bien des efforts, nous avons modélisé la paradoxale théorie des nombres réels dans
une théorie des ensembles notoirement “rustique”, mais fiable. Ce chapitre aura été l’occasion de
nous frotter à de véritables preuves formelles et d’en apprécier la rigueur ; surtout, il nous aura
permis d’apprécier l’effort conceptuel que l’on doit fournir pour définir la notion de « nombre »,
passant dans un premier temps des ensembles aux nombres entiers, puis des rationnels aux réels.
Une approche mathématique rigoureuse aura donc permis de révéler les nombreux paradoxes qui
se cachent derrière la notion a priori intuitive de nombre réel. C’est d’autant plus remarquable
que le passage des nombres réels aux nombres complexes – dont on tend souvent à faire une
montagne – se révélera en fait n’être guère plus problématique que son “analogue” additif, la
transition des entiers naturels aux entiers relatifs.
Références
Pour écrire la section 8.1, je me suis basé sur les chapitres 2 et 3 du cours de Logique et
théorie des ensembles de Patrick Dehornoy (donné à l’ENS en 2006). Vous pourrez le trouver à
l’adresse suivante : http://www.math.unicaen.fr/~dehornoy/surveys.html. Un petit accroc
tout de même : Plutôt que de travailler avec une logique du second ordre (quantification sur
les formules), j’ai préféré exprimer l’axiome d’induction par une collection infinie dénombrable
d’axiomes de récurrence (Rec ϕ) du premier ordre portant sur les entiers – suivant en cela Martin
Hils – afin de nous épargner une subtile discussion sur la signature d’un langage.
Le reste du chapitre relève quand à lui de la “culture générale” de classe préparatoire – les
sections 3.2 et 3.3 donneraient matière à de très bons exercices de colle.
Chapitre 9
Figure 9.1 – Portraits de Cavalieri, Archimède (sur la médaille Fields), Newton, Leibniz,
Schwartz et Galerkine. Images tirées de Wikipédia et du site www.bibmath.net.
Séance 12 208 Chapitre 9. Histoire du calcul différentiel
À réécrire.
Indivisibles de Cavalieri
r
y
y y
(a) Deux piles de pièces identiques ont (b) Par une découpe en tranches astucieusement choisie,
même volume, quel que soit leur agence- on peut ramener le calcul du volume d’une sphère à celui
ment. du cône : ici, chaque tranche de sphère a même aire que
la tranche du “cylindre privé de cône” de même altitude.
(c) Découpe d’un disque de (d) Le périmètre d’un cercle (e) Jusqu’à obtenir un triangle
rayon R en indivisibles concen- croît linéairement avec son de hauteur R et de base L =
triques, colorés ici. rayon : on déplie cette découpe. 2πR, par définition de π.
(f) On découpe ce triangle. (g) Et on le réarrange... (h) Pour connaître son aire :
S = πR2 .
(i) Paradoxe des indivisibles. Le triangle ADC pouvant être décomposé en indivisibles plus
longs que ceux de ABC, il devrait être plus étendu... ce qui est manifestement faux. Bien sûr,
le problème est ici que l’épaisseur des petits éléments d’aire, ignorée par Cavalieri, n’est pas la
même sur les deux découpes. Le calcul infinitésimal de Newton et Leibniz, dont les ferments
avaient été déposées dès l’antiquité par Archimède, permettra de lever ce paradoxe par la
formule du changement de variables.
Figure 9.2 – Illustration du principe de Cavalieri. Très populaire au XVIIe siècle, celui-ci permet
d’identifier l’aire ou le volume de deux figures géométriques à condition de pouvoir les décomposer
en indivisibles de mêmes longueurs. Toutes ces images sont tirées de Wikipédia : l’intuition (a)
est due à Chiswick Chap, et le calcul du volume d’une sphère (b) à Michael Hardy ; l’animation
du calcul de l’aire d’un disque (c-h) est quand à elle l’œuvre de Kaidor.
9.2. Pesée d’Archimède 209
Pesée d’Archimède
« Qui lit Archimède et Apollonius en admirera moins les réussites de leurs
successeurs. » Ma foi, je ne saurais pas vous dire si cette citation de Leibniz est apo-
cryphe ou non... Mais ce qui est certain, c’elle qu’elle contient beaucoup de vrai ! Depuis
la découverte du palimpseste d’Archimède en 1906 et de son traité inédit jusqu’alors, De la
méthode, on ne peut qu’être soufflé par tant de génie : Quelle modernité ! C’est qu’en sus de
la classique méthode d’exhaustion, le grand savant sicilien avait entrevu le dépassement des
indivisibles “de Cavalieri” par une méthode pseudo-mécaniste, dite des pesées. Découvrir son
exposition ne peut que nous laisser songeurs : si la deuxième guerre punique n’avait pas frappé
Syracuse de plein fouet, le calcul différentiel aurait-il été découvert avec deux mille ans d’avance ?
(a) Preuve par exhaustion : un raisonnement clas- (b) Preuve par pesée : très innovant, ce raison-
sique attribué à Eudoxe de Cnide, où l’aire d’une nement permet d’aller “au-delà” des indivisibles
figure est encadrée par celle de deux séries de tri- sans épaisseur. Son statut épistémologique est
angles : l’une légèrement en excès, l’autre légère- l’objet d’une grande controverse : Archimède
ment en retrait. En faisant tendre le nombre de tenait-il cette preuve “mécaniste” pour rigou-
triangles vers l’infini, les deux aires convergent, et reuse ? S’agissait-il à ses yeux d’un simple guide
on obtient par pincement l’aire de la figure “lisse”. pour l’intuition, ou bien d’une méthode révolu-
C’est l’idée qui sera au cœur de la construction tionnaire découverte au crépuscule de sa vie ?
de l’intégrale par Riemann.
Figure 9.3 – Deux démonstrations, par Archimède, de la quadrature de la parabole, i.e. du calcul
de l’aire d’un bout de parabole délimité par sa corde. Ces deux figure sont tirées de Wikipédia :
(a) est due à Jim Belk, Pbroks13, et (b) à HB. On pourra lire à ce sujet Œuvres d’Archimède,
traduites littéralement, avec un commentaire, par F. Peyard (1807).
Séance 12 210 Chapitre 9. Histoire du calcul différentiel
À réécrire.
Le calcul différentiel
Malheureusement, Archimède mourut lors du sac de Syracuse en 212 avant notre ère, et ses
intuitions ne furent pas poussées plus avant. Pour passer d’un raisonnement novateur à une
véritable méthode universelle, il fallut attendre les grands travaux des mathématiciens de l’âge
classique, Descartes, Fermat, Newton et Leibniz en particulier.
Le calcul différentiel est une prise de conscience majeure. Celle d’une abstraction, le calcul
infinitésimal, et de ses dérivées “f 0 = df
dt ” qui permettent de court-circuiter tous les raisonne-
ments mécanistes, toutes les fulgurances géométriques par une simple liste de règles algébriques.
Retracer le déroulement précis de cette révolution n’est pas une mince affaire : du vivant même
de Newton et Leibniz, la paternité de cette invention devait mener à une amère controverse.
Au lecteur intéressé, je conseille l’excellent petit livre de Vladimir Arnold, Huygens and
Barrow, Newton and Hooke. Nous nous contenterons ici d’une présentation archétypale des prin-
cipaux événements : opposition entre Newton le géomètre et Leibniz le symboliste, avant la
justification moderne de Weierstrass par la notion de limite rigoureusement définie.
A B
(a) La deuxième loi de Kepler : dans deux intervalles de temps de même durée, le segment
reliant un astre au Soleil couvre des aires de mêmes surfaces – ici, A = B. Une planète bouge
donc d’autant plus vite qu’elle est proche du Soleil.
Figure 9.4 – Preuve par Newton qu’une force centripète radiale entre le Soleil et la Terre induit
la deuxième loi de Kepler, illustrée en (a). (b) Considérons le parcours d’une planète sur un
intervalle de temps de longueur ∆t : on représente ici les deux segments STt−∆t et STt . (c)
Supposons que sur l’intervalle de temps suivant, une force rouge constante soit appliquée sur
T , selon la direction STt . Cela correspond à dévier la Terre d’une trajectoire “sans force” en
translation rectiligne uniforme (d’après les travaux de Galilée), qui la mènerait à un point Tet+∆t
(en gris), vers une position réelle Tt+∆t (en bleu). (d) Trois triangles vont alors nous intéresser :
STt−∆t Tt d’aire A1 , STt Tt+∆t d’aire A3 , et STt Tet+∆t d’aire A2 (en gris). (e) Il s’agira de montrer
que A1 = A3 . (f) On remarque que STt−∆t Tt et STt Tet+∆t ont même base (en rouge) et même
hauteur (en jaune). (g) Ils ont donc même aire. (h) De même, STt Tet+∆t et STt Tt+∆t ont même
base STt (en rouge), et même hauteur (en jaune), puisque la force appliquée entre t et t + ∆t sur
T l’aura déviée en direction de STt . (g) On a donc A1 = A2 = A3 . En réduisant à l’infinitésimal
l’intervalle de temps ∆t, on trouve donc que si la force appliquée sur le point mobile T est à
chaque instant dirigée selon l’axe STt , alors les petits triangles parcourus STt Tt+∆t restent d’aire
constante proportionnelle à ∆t. En sommant ceux-ci, on retrouve bien la deuxième loi de Kepler.
Images tirées de Wikipédia : (a) par Chatsam, et (b-i) par Lucas V. Barbosa.
Séance 12 212 Chapitre 9. Histoire du calcul différentiel
À réécrire.
Notations de Newton Pour Newton, qui étudie l’évolution par rapport au temps de quantités
notées x, y (coordonnées) ou encore S (surface), deux opérations sont primordiales : la “dérivation
par rapport au temps”, symbolisée par le point, et l’“intégration par rapport au temps”, symbolisée
par une apostrophe. Si x désigne la première coordonnée d’un point mobile, on convient par
exemple que
— ẋ désigne sa vitesse,
— x́ désigne ses sommes cumulées par rapport au temps. Si x est un débit d’eau à travers un
tube, x́ est donc le volume total écoulé depuis un instant de référence.
À l’aide de raisonnements géométriques, on pourra alors montrer que ces opérations sont inverses
l’une de l’autre : x́˙ = x. Ces notations sont très pratiques lorsqu’il s’agit d’exprimer des lois
cinématiques : en coordonnées, la deuxième “loi de Newton” s’écrira par exemple
mẍ = F (x). (9.4)
Malheureusement, si la dérivation par rapport au temps peut s’appuyer sur une forte intuition,
la partie “intégration” reste malaisée à manipuler.
Notations de Leibniz La solution sera apportée par Leibniz. Plutôt que de s’appuyer sur de
brillants raisonnements géométriques et cinématiques, celui-ci va proposer une vision purement
algébriste, calculatoire de la dérivation, en postulant la cohérence d’un système de calcul fondé sur
les infinitésimaux. Plus précisément, pour chaque variable d’intérêt comme x, y, z (coordonnées),
t (le temps) ou S (la surface balayée), Leibniz introduira une variation infinitésimale associée :
celles-ci seront notées dx, dy, dz, dt ou encore dS. Règle importante de ce nouveau calcul : dans
une addition, un infinitésimal d’ordre 1 (i.e. un multiple de dt, ...) sera toujours négligeable
devant un terme d’ordre 0 (un terme “classique”). En “multipliant par dt”, un terme d’ordre 2 en
dt2 sera lui aussi négligeable devant un terme d’ordre 1, et ainsi de suite.
Le point clé sera alors d’admettre qu’au voisinage de toute valeur t0 , une fonction f (t) dé-
pendant d’une variable t pourra être développée linéairement – ou dérivée au voisinage de t0 :
df
f (t0 + dt) = f (t0 ) + (t0 ) · dt + o(dt), (9.5)
dt
où o(dt) désigne un terme d’ordre 2 ou plus, et où df dt (t0 ) est une fonction de t0 , appelée dérivée
de f par rapport à t en t0 , que l’on peut aussi dériver sans sourciller. Si x(t) est un point mobile
d2 x
dépendant du temps, dx dt désignera donc sa vitesse et dt2 son accélération.
Que penser alors de la somme d’une quantité au cours du temps ? Reprenons l’exemple de
la deuxième loi de Kepler : il s’agissait de comprendre l’évolution de la surface balayée par le
segment Soleil-Terre entre deux instants t0 et t1 . En notant S(t) la surface balayée depuis l’instant
t0 , Leibniz propose tout simplement de calculer la variation de surface par rapport au temps dS dt ,
puis de sommer ces taux de variations entre t0 et t1 , on n’oubliera pas de pondérer le tout par
l’épaisseur des tranches temporelles, dt :
Z t1 Z t1
dS
S(t1 ) − S(t0 ) = (t) dt = dS(t), (9.6)
t=t0 dt t=t0
R
oùPle signe « » n’est rien d’autre qu’un « S » de « Somme » allongé, analogue continu du
« » discret.
9.3. Le calcul différentiel 213
La dérivée du produit Pour bien mettre en valeur la différence d’esprit entre les deux écoles,
intéressons-nous à la règle dite “du produit” et à sa version intégrée, l’intégration par parties qui
traduit le taux d’évolution d’une quantité (xy) produit de deux variables x et y. Pour Newton,
il s’agit d’une évidence géométrique : si
˙ = ẋy + xẏ
(xy) et donc xy = (ẋ´y) + (x´ẏ) à une constante additive près, (9.7)
c’est à cause de la Figure 9.5 : l’infinitésimal “d’ordre 2” le long de la diagonale est manifestement
négligeable devant celui des tranches. L’approche quasi-axiomatique de Leibniz permet quand à
elle d’arriver à ce résultat sans le moindre dessin : il suffit d’écrire
car les multiples d’un o(dt) ou de dt2 sont négligeables devant dt. On a donc bien
d(xy) dx dy
= ·y+x· , (9.12)
dt dt dt
puis
Z t1 Z t1 Z t1
d(xy) dx dy
(xy)(t1 ) − (xy)(t0 ) = dt = · y dt + x· dt. (9.13)
t=t0 dt t=t0 dt t=t0 dt
x(t) dx
dy
x(t + dt)
! ! ! Figure à dessiner ! ! !
(a) La sommation d’Abel, analogue discret avec (b) À la limite, le terme d’angle dx · dy peut
tranches finies de la formule d’intégration par être négligé devant les termes de tranche x · dy
parties. et y · dx. Image tirée de Wikipédia, par Nat
Kuhn.
Figure 9.5 – La règle du produit peut être vue de manière purement géométrique. Si Newton
se repose sur cette intuition pour appuyer ses raisonnements, Leibniz peut lui s’en détacher
complètement : c’est ce qui assurera la primauté de son système de notations, qui triomphera
sur le continent et finira même par s’imposer à Cambridge dans les années 1820.
Séance 12 214 Chapitre 9. Histoire du calcul différentiel
À réécrire.
Premiers résultats La notation de Leibniz est une bonne notation, car elle permet de pré-
senter comme des évidences syntaxiques des résultats qui sont en fait non-triviaux.
Proposition 9.1 (“Chain rule”). Ainsi, la règle de dérivée d’une composée :
d(f ◦ g) df dg
(t) = (g(t)) · (t), (9.14)
dt dg dt
que l’on pourrait presque interpréter comme une simplification de fraction.
Démonstration. On a :
Alors
dF
(t1 ) = f (t1 ). (9.20)
dt1
Démonstration. On a :
Z t1 +dt1
F (t1 + dt1 ) = f (t) dt (9.21)
t=t0
Z t1 Z t1 +dt1
= f (t) dt + f (t) dt (9.22)
t=t0 t=t1
Z t1 +dt1 Z t1 +dt1
= F (t1 ) + f (t1 ) dt + (f (t) − f (t1 )) dt (9.23)
t=t1 t=t1
Z t1 +dt1
= F (t1 ) + f (t1 ) · dt1 + (0 + o(1)) dt (9.24)
t=t1
= F (t1 ) + f (t1 ) · dt1 + o(dt1 ). (9.25)
D’où le résultat, en se reposant donc sur le fait que la variation de f soit d’ordre au moins 1 sur
[t1 , t1 + dt1 ].
En posant simplement les définitions, on peut donc retrouver toutes les règles usuelles dont
la dérivée de l’inverse ou celle des fonctions polynomiales – exercice !
d(1/f (t)) 1 df d(tn )
=− 2 (t) et = n · tn−1 . (9.26)
dt f (t) dt dt
9.3. Le calcul différentiel 215
Limites Au cœur de leurs idées, on trouvera la notion de limite qui permet d’exprimer les
comportements infinitésimaux sans avoir à sortir du cadre numérique des réels. Formellement,
on dira qu’une fonction f (t) tend en t0 vers une limite a, ce que l’on note
t→t 0
f (t) −−−→ a, ou lim f (t) = a, (9.27)
t→t0
si
∀ ε > 0, ∃ η > 0, ∀ t ∈ R, |t − t0 | < η =⇒ |f (t) − a| < . (9.28)
Mon but n’est pas de vous présenter ici un cours d’analyse de niveau terminale/sup. Comme à
mon habitude, je vous renvoie donc à l’excellent site de David Delaunay pour plus de détails :
aujourd’hui, son cours intitulé Limites et continuité http://mp.cpgedupuydelome.fr/cours.
php?id=45861. On se contentera ici de remarquer que pour I un intervalle de R, et f : I → R
une fonction lisse à valeurs réelles sur ce domaine, on peut définir deux quantités de manière
commode à partir de f .
où “o(h)” désigne une fonction de h qui tend vers 0 plus vite que tout multiple de h, i.e. telle que
“o(h)/h” tende vers 0 avec h.
Figure 9.6 – Définition de la dérivée comme limite du taux d’accroissement. Images tirées de
Wikipédia, par IkamusumeFan.
Séance 12 216 Chapitre 9. Histoire du calcul différentiel
À réécrire.
comme l’aire sous la courbe de f sur I – éventuellement négative ou nulle, si f prend des valeurs
négatives, ou si a > b. Le faire de manière rigoureuse pour toute fonction lisse – ou même
seulement continue par morceaux – n’est pas évident : impossible en effet de toutes les étudier
explicitement. Dans sa construction de l’intégrale, Bernhard Riemann procède en deux temps.
1. D’abord, il assigne une valeur à l’intégrale sur I de fonctions simples, les fonctions en
escalier dont le graphe est une succession finie de rectangles : leurs aires seront faciles à
calculer.
2. Ensuite, il montre que toute fonction suffisamment régulière peut être approchée unifor-
mément par une suite de fonctions en escalier : si f est lisse sur I, alors il existe une suite
de fonctions en escalier fn telle que
∀ε > 0, ∃ n0 ∈ N, ∀ n > n0 , kf − fn k∞,I < ε i.e. ∀ x ∈ I, |fn (x) − f (x)| < ε. (9.32)
Figure 9.7 – Définition de l’intégrale de Riemann : toute fonction f (en rouge) régulière sur un
intervalle peut être approchée uniformément par des suites de fonctions en escalier à subdivisions
finies, qu’elles soient régulières (gn , ligne du haut), ou irrégulières (hn , ligne du bas). Fait remar-
quable : l’aire sous la courbe de ces suites converge nécessairement vers un réel qui ne dépend
que de la fonction limite f : ce sera par convention l’aire sous la courbe de f . Images tirées de
Wikipédia, par Kieff.
9.3. Le calcul différentiel 217
Premiers théorèmes Les définitions bien posées, on peut alors aborder les grands résultats
d’analyse du lycée.
Théorème 9.3 (Théorème des accroissements finis). Soit f une fonction lisse sur I, et a < b
deux éléments de I. Alors
f (b) − f (a)
∃ c ∈ ]a, b[, f 0 (c) = . (9.34)
b−a
Autrement dit, tout accroissement fini de f entre deux points a et b trouve son analogue
infinitésimal f 0 (c) dans l’intérieur du domaine.
∀ x ∈ [a, b], g(x) 6 g(c) ou ∀ x ∈ [a, b], g(x) > g(c). (9.36)
Mais alors, que c soit l’antécédent d’un minimum ou d’un maximum de g, on aura g 0 (c) = 0. En
effet, s’il s’agit par exemple d’un minimum, on aura que
g(c + h) − g(c)
∀ h < 0, 60 donc à la limite, g 0 (c) 6 0, (9.37)
h
g(c + h) − g(c)
∀ h > 0, >0 donc à la limite, g 0 (c) > 0, (9.38)
h
f (b)−f (a)
et donc g 0 (c) = f 0 (c) − b−a = 0.
Ce théorème – souvent passé sous le tapis dans les cours de terminale – est la clé de tout
raisonnement qui passe des données infinitésimales à un résultat sur le comportement d’une
fonction. Il permet ainsi de démontrer rigoureusement qu’une fonction dont la dérivée est positive
sur un intervalle est nécessairement croissante – exercice !
y
Pente moyenne
y = f(x)
Tangente en c
a c b x
Figure 9.8 – Le théorème des accroissements finis : tout taux d’accroissement d’un point (a, f (a))
à un point (b, f (b)) peut être réalisé par un taux accroissement infinitésimal f 0 (c), avec c compris
entre a et b. Image tirée de Wikipédia, par DC2.
Séance 12 218 Chapitre 9. Histoire du calcul différentiel
À réécrire.
F 0 = f = G0 . (9.39)
Alors F et G sont égales à une constante près : x 7→ F (x) − G(x) est constante.
Démonstration. La dérivée est linéaire, par linéarité de la limite. Il s’agit donc de montrer que
si H = F − G est de dérivée partout nulle sur l’intervalle I, alors elle est constante. C’est bien
vrai, en conséquence du théorème des accroissements finis : si a et b sont deux point de I, on sait
qu’il existe c dans ]a, b[ tel que
Excès, d’ordre 2.
y = f (x)
aire = A(x)
x x+h
(P ) : y = p(x) = p x2 , (9.43)
et que la corde d’intérêt soit celle passant par les points A et B de coordonnées respectives
(a, p a2 ) et (b, p b2 ), où a < b sont deux réels. Cette corde est donc la courbe d’équation
2
b − a2
(C) : y = c(x) = p · (x − a) + a2 (9.44)
b−a
= p ·((b + a) x − ab) . (9.45)
Enfin, la tangente à la parabole en A est une droite qui passe par A = (a, p a2 ), de coefficient
directeur
dp(x) d(p x2 )
(a) = (a) = 2 p a. (9.46)
dx dx
C’est donc la droite d’équation
(T ) : y = t(x) = p · 2 a (x − a) + a2 (9.47)
2
= p · 2ax − a . (9.48)
Cercle
Ellipse
Parabole
Hyperbole
! ! ! Figure à dessiner ! ! !
(a) Une parabole peut être définie géométrique- (b) La parabole est décrite par la fonction p, sa
ment comme la section d’un cône par un plan corde entre A et B par c, et sa tangente en A
suivant son angle d’inclinaison. Image tirée de par t. Intégrer ces fonctions permettra de cal-
Wikipédia, par Magister_Mathematicae. culer directement l’aire S de l’arc de parabole
et l’aire T du triangle délimité par t et c.
Calcul des aires Par le principe de Cavalieri, ou découpe des surfaces en tranches verticales,
l’aire du grand triangle T est donnée par
Z b
T = [c(x) − t(x)] dx (9.49)
x=a
Zb
= p · (b + a) x − ab − 2 a x − a2 dx. (9.50)
x=a
On a donc
Z b
1
T = (b − a) x + a (a − b) dx (9.51)
p x=a
Z b Z b
= (b − a) x dx + a (a − b) 1 dx (9.52)
x=a x=a
2
b a2
= (b − a) − + a (a − b) (b − a) (9.53)
2 2
1
= (b − a)3 , (9.54)
2
car x 7→ 21 x2 est une primitive de x 7→ x, elle-même primitive de x 7→ 1.
De même, on trouve
Z b
S = [c(x) − p(x)] dx (9.55)
x=a
Z b
= p · (b + a) x − ab − p x2 dx, (9.56)
x=a
puis
Z b
1
S = −x2 + (b + a) x − ab dx (9.57)
p x=a
Z b Z b Z b
= − x2 dx + (b + a) x dx − ab 1 dx (9.58)
x=a x=a x=a
3 2
b a3 b a2
= − − + (b + a) − − ab (b − a) (9.59)
3 3 2 2
1
= (b − a)3 . (9.60)
6
On a donc retrouvé sans coup férir le résultat d’Archimède :
1
S = T (9.61)
3
Formalisé au XVIIIe siècle, le calcul infinitésimal aura permis d’apporter une résolution mé-
thodique à la quasi-totalité des problèmes mathématiques posés jusqu’alors. Pour cette science
moderne débordant des frontières étriquées qui l’avaient jusqu’alors contenue, deux corridors
allaient structurer les nouvelles avancées.
L’algèbre D’abors, les grands problèmes de constructibilité qui restaient toujours sans réponse.
Hérités de la Grèce antique, ils posaient une question fort simple : est-il possible de construire
telle ou telle figure géométrique à l’aide d’une règle et d’un compas ? Le doublement du cube : à
partir d’un cube unité, un cube de volume double. La trisection de l’angle : à partir d’un angle
arbitraire θ, un angle θ/3. La quadrature du cercle : à partir d’un disque, un carré de même aire.
Plus simple encore : on sait tous, depuis nos cours de rosaces, comment construire un hexagone
régulier inscrit dans le cercle unité. Triangle, carré ne sont guère plus difficiles. À force d’astuce,
on peut même construire un pentagone voire un polygone régulier à 17 côtés. Mais pourquoi,
malgré tous nos efforts, n’arrivons-nous jamais au polygone à 9 côtés ?
Si le calcul différentiel permet de lier entre elles des longueurs et des aires, il n’apporte pas de
réponse à ces questions qui portent, au fond, sur la structure discrète des équations polynomiales
qui sous-tendent la géométrie classique. Un regard original, une théorie ad hoc devra donc être
construite ; superbe, cette dernière pourrait à elle seule remplir un semestre du cours. Mais je ne
m’étendrai pas plus à son sujet : trop éloignée de mes compétences de chercheur, elle sera bien
mieux traitée par mes collègues algébristes.
L’analyse À l’opposé du spectre, on trouve les problèmes posés par la dimension infinie. C’est
que pour résoudre des problèmes essentiellement paramétrés par une poignée de nombres réels
(paraboles et ellipses ne sont jamais que la donnée de leurs grands axes), Leibniz et Newton
ont ouvert la boîte de Pandore. Par le formalisme des infinitésimaux, ils ont étendu le calcul
à toutes les courbes et fonctions lisses. Mais qu’est-ce, au juste, qu’une “fonction régulière” ?
Peut-on parler rigoureusement d’objets que l’on ne peut pas décrire numériquement, de simples
trajectoires “à main levée” ? Une plongée résolue dans le monde des fonctions “avec une infinité
de paramètres” mettra vite le doigt sur des paradoxes inattendus. Il s’agira donc aujourd’hui de
dépasser les insuffisances des fonctions naïves pour arriver à un formalisme véritablement adapté
au calcul différentiel : celui des distributions.
221
Séance 13 222 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
où ei = (0, . . . , 0, 1, 0, . . . , 0), avec un 1 en i position. On dira que la famille des ei est une base
e
de Rd , car elle génère tous les points de l’espace, sans admettre d’équation d’annulation non
triviale (impossible d’avoir x = (0, . . . , 0) sans que tous les xi soient nuls).
x2 x2 x2
k · k∞
k · k2
k · k1 k · k1 k · k1
x1 x1 x1
(a) Boules unités pour la (b) Une suite bornée (croix (c) Son graphe présentera au
“norme ∞”, p(|x1 | et |x2 | 6 1), la bleues) aura toujours une va- moins un point d’accumulation
“norme 2”, ( |x1 |2 + |x2 |2 6 1) leur d’adhérence... (en rouge). Ici, une preuve par
et la “norme 1”, (|x1 |+|x2 | 6 1). dichotomie.
Figure 10.1 – En dimension finie, les boules sont compactes. C’est le théorème de Bolzano-
Weierstrass, dont on présente ici une preuve par dichotomie. De manière itérative, on construit
une suite de triangles emboîtés, de diamètres tendant vers 0 et qui contiennent tous une infinité de
termes de la suite – c’est le principe des tiroirs. L’intersection de tous ces triangles, nécessairement
réduite à un unique point (par complétude de R et séparation de la norme), nous fournit alors la
valeur d’adhérence de notre suite.
x2 x2
x1 x1 x1
x3
(a) Deux points à distance 1 (b) Dans la boule de dimen- (c) Et c’est encore plus vrai en
l’un de l’autre dans [−1, 1]. sion 2, il y a plus de place. dimension 3.
Figure 10.2 – En dimension d, on peut mettre jusqu’à (1/r)d points à distance r les uns des
autres dans la boule de rayon 1. En ce sens, on peut donc dire que la boule de rayon 1 contient
de l’ordre de 2d boules de rayon 1/2, 4d boules de rayon 1/4, etc. Par commodité, on utilise ici
les boules pour la norme infinie ; mais le résultat reste vrai en normes 1 et 2 – à une constante
multiplicative près.
Séance 13 224 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
pratique qu’il y a à “apprendre” une loi de décision dépendant de centaines de paramètres à partir
d’une liste de quelques milliers/millions de décisions déjà connues (pensez à l’étiquetage d’une
photo sur le web) : aussi grand que puisse paraître le nombre d’observations déjà étiquetées, il
ne permet absolument pas d’échantillonner l’espace des paramètres avec une précision suffisante.
pour toute valeur du paramètre r strictement inférieure à 1. Illustré Figure 10.3, ce théorème
permet donc de produire des boules “sans fond”, régions bornées de l’espace où l’on peut faire
tenir une infinité de points bien espacés les uns des autres. C’est ce que j’appellerai « le paradoxe
de Mary Poppins ».
Dimension d’un espace fonctionnel Il faut d’abord nous habituer à comprendre les fonc-
tions comme des vecteurs dans un espace de dimension infinie. Pourquoi vecteur ? Parce qu’une
fonction de R à valeurs dans R n’est jamais que la donnée d’une (infinité) de coordonnées f (x).
Pourquoi de dimension infinie ? Parce que ces coordonnées sont aussi nombreuses que les réels
de la droite ; et que ces degrés de libertés sont bien souvent indépendants les uns des autres.
Si on considère par exemple l’espace E = C ∞ (R, R) des fonctions lisses sur la droite réelle, et
que l’on se donne e1 , . . . , en une famille de fonctions dans E, il n’est pas difficile de trouver une
fonction f qui, croissant trop vite à l’infini, ne puisse être écrite comme une combinaison linéaire
à coefficients réels des ei . Impossible à munir d’une base de dimension n, pour tout entier n, E
est donc un espace de dimension infinie.
Généralisation des normes aux espaces fonctionnels Comment parler de normes sur
ces espaces dont les coordonnées ne peuvent pas toujours être énumérées ? Pour calculer kf k,
x1 x2 x3 x4 x5 ···
Figure 10.3 – Le lemme de Riesz : en dimension infinie, on peut trouver une suite infinie de
points à distance 1 de l’origine, et tous éloignés les uns des autres par une distance arbitraire
r < 1. Moralement, ces points peuvent être pensés comme étant chacun sur des axes différents,
et sont les centres de boules de rayon r/2. La boule de rayon 2 contient donc une infinité de
boules de rayon 0.45, ce qui est bien entendu impossible en dimension finie.
10.2. Les fonctions forment un espace de dimension infinie 225
une simple sommation discrète des |f (x)| ne peut convenir : à moins que f ne s’annule presque
partout, on tombera forcément sur une somme infinie. Heureusement, le calcul intégral de Leib-
niz fournit une solution élégante à ce problème : il suffit de pondérer les coordonnées par les
infinitésimaux « dx ».
Sur l’espace des fonctions continues de [0, 1] dans R, on pourra ainsi définir les généralisations
des normes vues aux équations (10.2-10.4) :
Z 1
kf k1 = |f (x)| dx, (10.7)
0
s
Z 1
kf k2 = |f (x)|2 dx, (10.8)
0
Une famille bornée sans valeur d’adhérence Mais alors, de nouveau illustré Figure 10.4, le
« paradoxe de Mary Poppins » prend tout à coup une importance capitale. On y voit une suite de
fonctions de densité, de norme 1 constante (charge totale Q conservée), sans valeur d’adhérence...
Avec, pourtant, une “limite” intuitivement claire : la distribution de charges ponctuelle dite de
Dirac, notée par les physiciens Q · δ0 , entièrement concentrée à l’extrémité droite du fil de fer.
Dans les espaces fonctionnels, le défaut de compacité des boules est devenu un enjeu
formel de première importance. En obligeant le spécialiste à changer de description du
monde (densités vs. masses ponctuelles) pour parler d’objets limites pourtant intuitifs, il entrave
les calculs et empêche de systématiser les raisonnements. Dans la suite de ce chapitre, je vous
propose donc de découvrir le bon cadre formel pour faire de la physique classique : la théorie
des distributions, qui généralise celle des fonctions en garantissant une propriété de compacité
(faible, non métrisable) des boules.
t = 7/8
t = 3/4
..
.
t = 1/2
t=0
Figure 10.4 – Évolution fictive d’une densité de charges positives le long d’un fil de fer, attirées
par une particule de charge négative sur la droite de l’image. À l’instant t = 0, on peut décrire la
répartition de charges par une fonction de densité, en bleu : la charge totale le long d’une section
[a, b] du fil est égale à l’intégrale de la densité le long de celle-ci. Dans l’approximation naïve où
les charges positives n’interagissent pas entre elles, on peut alors imaginer une évolution simpliste
de la répartition de charges. Attirée, celle-ci se décalerait vers la droite en se contractant par
effet de marée. En t = 1, toute la charge se trouverait concentrée à l’extrémité du fil... Mais
alors, comment décrire cette évolution dans le formalisme des fonctions ? Une masse ponctuelle,
parfaitement localisée, ne peut être représentée par une densité fonctionnelle.
Séance 13 226 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
Autrement dit, If (ϕ) > Ig (ϕ) en contradiction avec notre hypothèse de travail ; c’est donc qu’on
a f = g.
10.3. Les distributions de Schwartz, fonctions généralisées 227
Le résultat précédent est fondamental : il permet d’identifier une fonction continue f à son
action par intégration sur les fonctions test. À vrai dire, en analysant la preuve, on se rend compte
que ce résultat peut être généralisé à l’ensemble des fonctions f localement intégrables – i.e. dont
l’intégrale de la valeur absolue sur tout segment est finie, non divergente. Si f et g sont deux
fonctions localement intégrables (ce qui garantit la continuité des formes linéaires If , Ig associées)
telles que If (ϕ) = Ig (ϕ) pour toute fonction test ϕ, alors f et g coïncident “à un ensemble de
mesure nulle près” : f et g coïncident sur R, sauf sur un ensemble “de longueur nulle”, invisible
pour l’intégrale. Cette petite distinction technique est là pour nous permettre d’identifier des
fonctions “égales presque partout” – 1[0,1] et 1]0,1[ par exemple – dont le comportement vis-à-vis
de l’intégration est identique.
La morale à retenir est la suivante : Toute fonction raisonnable, définie “à un ensemble
négligeable près”, peut être identifiée à son action sur les fonctions tests. L’ensemble
des fonctions “raisonnables” (localement intégrables) peut donc être vu comme une partie du dual
de l’espace des fonctions tests, noté D0 . Cet espace D0 , c’est celui des distributions. À l’avenir,
on identifiera directement f à If , et on écrira
Z
If (ϕ) = f · ϕ = hf, ϕi . (10.15)
R
On étendra cette dernière notation à toute distribution : le crochet de dualité pourra donc être
vu comme une généralisation de l’intégrale du produit (ou produit scalaire), avec à gauche une
distribution et à droite une fonction test.
ψ
ϕ
f
Figure 10.5 – Calcul du crochet de dualité entre une fonction f , en noir, et deux fonctions test
ϕ et ψ. Il suffit de considérer les produits f · ϕ et f · ψ, dont on retient les aires sous les courbes,
indices réels de la corrélation entre la distribution f et le “test” lisse à support compact. Ici, on
peut interpréter hf, ϕi comme une moyenne de la masse de f autour de l’abscisse −1/2, et hf, ψi
comme un indicateur de la variation de f sur l’intervalle [1, 4], ici positif car f y est globalement
croissante. En utilisant des fonctions test toujours plus localisées, on pourra connaître f avec
une précision arbitraire. Comme démontré au lemme 10.1, la donnée de tous les crochets hf, ϕi
caractérise donc la fonction f , à un ensemble de mesure nulle près.
Séance 13 228 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
Distributions qui ne sont pas identifiables à des fonctions A priori, cette identification
entre f et If paraît dépourvue d’intérêt : pourquoi décrire une fonction par son action sur D,
quand on dispose simplement de son graphe ? C’est que, comme démontré ci-dessous, l’ensemble
des distributions est bien plus gros que celui des fonctions.
Proposition 10.1. On définit le dirac en 0, δ0 ∈ D0 , par son action sur les fonctions tests :
δ0 : ϕ ∈ D 7→ ϕ(0) ∈ R. (10.16)
Le dirac est bien linéaire et continu en ϕ : si ϕ et ψ sont proches, alors ϕ(0) et ψ(0) sont proches
par définition de la proximité des fonctions tests. On a alors que :
— δ0 ne peut être représenté par une fonction f :
— δ0 est la limite simple de toute suite de fonctions (fn ) définie de manière analogue aux
bosses de la figure 10.4, par l’équation :
Z
f0 = 1 et fn (x) = 2n · f0 (2n · x). (10.18)
R
Formellement, on a :
∀ ϕ ∈ D, hfn , ϕi −→ ϕ(0) = hδ0 , ϕi . (10.19)
Démonstration. Pour le premier point, supposons qu’il existe une fonction f telle que δ0 = f .
On considère alors la suite de fonctions tests ϕn
où ϕ0 est une “bosse” lisse centrée en 0, à support dans [−1, 1], telle que ϕ0 (0) = 1. On a alors
Z Z +1/2n
n→+∞
hf, ϕn i = f · ϕn = f (t) · ϕn (t) dt −−−−−−→ 0. (10.21)
R −1/2n
C’est bien sûr en contradiction avec le fait que hδ0 , ϕn i = ϕn (0) = ϕ0 (2n · 0) = 1.
Pour le second point, il s’agit d’un calcul simple (mais un peu technique, typique de la prépa)
qui repose sur le fait qu’une fonction test ϕ est lisse, donc continue au voisinage de 0 : les
moyennes locales hfn , ϕi, de plus en plus resserrées, convergent nécessairement vers la valeur de
ϕ en 0 .
Travailler dans l’espace des distributions nous permet donc de parler de mesure ponctuelles,
les diracs, dans un cadre formel englobant celui des fonctions : on a donné à la suite de fonctions
fn une limite. En fait, on peut montrer que le problème de compacité des boules a été résolu par
le passage au dual, de l’espace des fonctions “gentilles” D à celui des distributions D0 ; c’est-à-dire
que toute suite “raisonnable” de fonctions admet une valeur d’adhérence. Il s’agit du théorème de
Banach-Alaoglu, que je ne peux énoncer formellement ici faute de vocabulaire adéquat – topologie
des espaces non métrisables, ou théorie des limites sans normes.
10.3. Les distributions de Schwartz, fonctions généralisées 229
Opérations usuelles On a plongé l’espace des fonctions – muni d’opérations simples – dans
un espace plus gros, celui des distributions. Pour obtenir un cadre conceptuel satisfaisant, il
est maintenant nécessaire de prolonger les opérations usuelles, des fonctions aux distributions.
Il s’agit au fond du même travail que celui que nous avons accompli au chapitre 8 : là où le
plongement de Q dans R avait permis de régler le problème de la complétude, le plongement de
l’ensemble des fonctions dans celui des distributions nous aura permis de répondre aux paradoxes
de la compacité. Eh bien, de même qu’il était agréable de savoir additionner, multiplier, comparer
deux nombres réels, il va maintenant être indispensable de pouvoir additionner, redimensionner,
dériver des distributions.
Addition Étant données deux distributions f et g, on peut simplement définir leur somme
f + g par la relation suivante :
Autrement dit, δ0 · δ0 devrait assigner une valeur non réelle à tout fonction test ne s’annulant
pas en 0 : c’est bien que δ0 · δ0 ne peut être vue comme une distribution.
Séance 13 230 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
Dérivation Immédiatement généralisable, cette formule qui s’exprime au travers des seules
fonctions test sera notre définition de la dérivée généralisée : pour f une distribution quelconque,
on définit f 0 par
∀ ϕ ∈ D, hf 0 , ϕi = −hf, ϕ0 i . (10.32)
L’astuce est brillante : pour définir une opération complexe comme la dérivée, il suffit de “faire
porter le chapeau” aux fonctions tests – qui ont toutes les bonnes propriétés du monde. Mais ce
qui n’est a priori qu’un simple jeu syntaxique sera en fait la bonne manière de manipuler nos
objets, à la fois cohérente et intuitive.
Règle du produit On peut par exemple remarquer que la règle du produit tient toujours : si
f est une distribution, ψ une fonction lisse et ϕ une fonction test quelconque, on a
h(ψ · f )0 , ϕi = − hψ · f, ϕ0 i (10.33)
= − hf, ψ · ϕ0 i (10.34)
0 0
= − hf, (ψ · ϕ) − ψ · ϕi (10.35)
0 0
= − hf, (ψ · ϕ) i + hf, ψ · ϕi (10.36)
0 0
= + hf , ψ · ϕi + hf, ψ · ϕi (10.37)
= + hψ · f 0 , ϕi + hψ 0 · f, ϕi (10.38)
0 0
= + hψ · f + ψ · f, ϕi. (10.39)
Autrement dit,
(ψ · f )0 = ψ · f 0 + ψ 0 · f. (10.40)
Dérivées de la valeur absolue Les égalités établies entre fonctions lisses sont toujours va-
lables au sens des distributions : c’est exactement le sens du lemme 10.1. Plus intéressant, on
peut maintenant établir de nouvelles identités jusqu’à présent rejetées comme “inaccessibles” –
imaginaires ! Prenez par exemple la fonction valeur absolue :
(
+x si x > 0
abs : x ∈ R 7→ |x| = . (10.41)
−x si x 6 0
10.4. Comment dériver ce qui n’est même pas continu ? 231
On sait qu’elle n’est pas dérivable en 0 : la limite de ses taux d’accroissements à gauche y fait
−1, tandis que ceux de droite y tendent vers +1. Sa courbe représentative n’admet donc pas de
tangente à l’origine, mais présente plutôt un point anguleux. Heureusement, le formalisme des
distributions nous permet maintenant de l’étudier comme une fonction à part entière, et d’en
considérer les dérivées !
Dérivée d’un point anguleux Il suffit de procéder méthodiquement. Si ϕ est une fonction
test, on aura
0
abs , ϕ = − habs, ϕ0 i (10.42)
Z
= − |t| · ϕ0 (t) dt (10.43)
R
Z 0 Z +∞
=− (−t) · ϕ0 (t) dt + (+t) · ϕ0 (t) dt (10.44)
−∞ 0
Z 0 Z +∞
= t · ϕ0 (t) dt − t · ϕ0 (t) dt. (10.45)
−∞ 0
Or, pour a et b deux bornes quelconques, on a par intégration par parties de la fonction lisse
t 7→ t · ϕ(t) :
Z b Z b
b
t · ϕ0 (t) dt = [t · ϕ(t)]a − 1 · ϕ(t) dt. (10.46)
a a
En utilisant le fait que ϕ s’annule à l’infini – c’est une fonction test –, les termes de bords
disparaissent et on trouve
Z 0 Z +∞
0
abs , ϕ = − 1 · ϕ(t) dt + 1 · ϕ(t) dt (10.47)
Z −∞ 0
La dérivée de abs est donc identifiable à la fonction créneau sgn, définie par
(
+1 si x > 0
sgn : x ∈ R 7→ sgn(x) = . (10.49)
−1 si x < 0
Rappelons que la valeur ponctuelle d’une fonction n’a aucune influence sur l’intégrale : la valeur
assignée à sgn(0) n’a donc aucune importance.
Dérivée d’un créneau Pour calculer la dérivée du créneau sgn, la méthode est la même :
pour ϕ une fonction test, on a
hsgn0 , ϕi = − hsgn, ϕ0 i (10.50)
Z 0 Z +∞
0
=− (−1) · ϕ (t) dt + (+1) · ϕ0 (t) dt (10.51)
−∞ 0
Z 0 Z +∞
= ϕ0 (t) dt − ϕ0 (t) dt (10.52)
−∞ 0
= (ϕ(0) − ϕ(−∞)) −(ϕ(+∞) − ϕ(0)) (10.53)
= 2 ϕ(0), (10.54)
Séance 13 232 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
en utilisant le théorème fondamental de l’analyse et le fait que ϕ s’annule en dehors d’un segment.
Autrement dit,
abs00 = sgn0 = 2 δ0 . (10.55)
Dérivée d’un dirac Contrairement aux apparences, rien ne nous force à nous arrêter là ! Les
dérivées successives d’un dirac sont simplement définies par
Ce petit jeu symbolique nous aura permis de calculer à la fois précisément et simplement
les dérivées de fonctions non-lisses présentant points anguleux ou créneaux. Fait remarquable,
et essentiel pour l’utilité pratique de ces résultats, les calculs ci-dessus sont stables : si fn est
une suite de fonctions qui tend (au sens des distributions) vers abs, alors la suite des dérivées
fn0 converge vers sgn, et la suite des dérivées secondes fn00 vers 2 δ0 . Si les fonctions fn sont
lisses, approchant au plus près le point anguleux de la valeur absolue en 0, les fn0 seront donc
des “créneaux lisses” approchant sgn au plus près, tandis que les fn00 seront de petites bosses
convergeant vers un dirac en 0 de masse 2 – voir Figure 10.6.
Conclusion Le travail formel accompli par Schwartz aura permis de donner un sens rigoureux
aux intuitions algébriques de Heaviside, Dirac et Sobolev. En pensant les fonctions non plus
comme des formules ou des graphes, mais comme des formes linéaires sur un espace vectoriel de
fonctions lisses, on aura réussir à faire “grossir” notre boîte à outils à moindres frais. Décrire une
fonction par ses “empreintes digitales” facilement manipulables, les intégrales contre des fonctions
tests, nous aura permis de trouver axiomatiquement la seule manière de “dériver un dirac”. C’est
ce point de vue proche de l’algèbre linéaire qui modèle aujourd’hui la recherche sur les équations
différentielles.
2 δ0 = abs00
abs f
sgn = abs0 f 00 f0
(a) Dérivées successives de la valeur absolue, (b) Dérivées successives d’une fonction f
représentées de manière imagée. proche de la valeur absolue.
Figure 10.6 – La théorie des distributions permet de donner un sens approprié aux dérivées de
fonctions irrégulières. Les formules obtenues sont souvent intuitives : elles avaient été utilisées
sans justifications par des physiciens, une trentaine d’années avant la formalisation de Schwartz.
En aplanissant ce terrain en friche, les mathématiques ont permis de construire, sur des bases
saines, une véritable théorie générale des équations aux dérivées partielles.
10.5. La méthode des éléments finis 233
Équation des cordes vibrantes Considérons par exemple une corde de violon, fixée par ses
extrémités à un chevalet de longueur L. On peut repérer son évolution par la fonction d’altitude
y(x, t) au temps t, où l’abscisse x prend ses valeurs dans [0, L]. Quitte à changer de repère, on
peut considérer que les conditions imposées aux bords du domaine s’écrivent
Alors, selon la modélisation classique de D’Alembert (valide pour des cordes dont on peu négliger
la raideur, et donc en particulier pour des oscillations de faible amplitude), on peut considérer
que la corde est solution de l’équation
∂2y 2
2∂ y
= v , (10.58)
∂t2 ∂x2
p
où v = T /µ est une vitesse caractéristique dépendant de la masse linéique µ de la corde et de
la tension T exercée à ses extrémités. Notez que l’on privilégie ici une notation “avec dérivées
directionnelles” plutôt qu’avec des “d” droits, suivant en cela les conventions des physiciens :
∂y ∂y
∂t (x, t0 ) est la dérivée en t0 de la fonction t 7→ y(x, t), tandis que ∂x (x0 , t) est la dérivée en x0
de la fonction x 7→ y(x, t0 ).
Cette équation se comprend très bien, à condition de savoir interpréter les symboles
mis en jeu. Si y(x, t) est un point courant de la corde à l’abscisse x au temps t, on voit que :
∂y
— ∂t est la vitesse verticale du point courant. Si elle est positive, c’est que la corde monte ;
si elle est négative, c’est qu’elle redescend.
∂2y
— ∂t2 est l’accélération verticale du point courant, le taux de variation de la vitesse. Si elle est
positive, c’est que la corde – au temps t et à la position x – a tendance à remonter : chute
vers le bas freinée, ou remontée accélérée. À l’inverse, une accélération négative correspond
à une attraction “vers le bas”.
∂y
— ∂x est la direction de la tangente à la corde. Si elle est nulle, c’est que la corde est localement
horizontale. Sinon, le signe de cette dérivée nous renseigne sur l’allure de la corde en x au
temps t : montante s’il est positif, et descendante sinon.
∂2y
— ∂x2 est la courbure de la corde. Elle est négative si la corde est “courbée vers le bas” (comme
x 7→ −x2 ), et positive si elle regarde vers le haut (comme x 7→ +x2 ).
y(x)
0 L
chevalet
Figure 10.7 – Forces exercées le long d’une corde de violon, selon l’équation de D’Alembert.
Séance 13 234 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
L’équation des cordes vibrantes de D’Alembert peut donc s’énoncer directement en français :
« L’accélération d’un point de corde est proportionnelle à la courbure de celle-ci,
avec une évolution en direction du raidissement. »
Un point où la courbe “regarde vers le haut” aura donc tendance à remonter, tandis qu’un point
qui “regarde vers le bas” sera lui accéléré vers le sol. Avec une dynamique d’ordre 2 en temps (c’est
l’accélération, en non la vitesse qui est proportionnelle à la courbure), on pourra montrer que les
solutions de l’équation présentent un comportement oscillant autour d’une position d’équilibre
y0 (x) = 0.
Généralisation aux membranes Le raisonnement peut être étendu des simples cordes aux
membranes de tambour. Cette fois, l’altitude z dépendra des deux coordonnées x et y paramétrant
la forme de la membrane fixée aux extrémités du domaine. La courbure moyenne de la membrane
s’exprime alors au travers de l’opérateur laplacien bi-dimensionnel,
∂2z ∂2z
∆z = + , (10.59)
∂x2 ∂y 2
qui est une expression indépendante du système de coordonnées orthonormées choisi. L’équation
de D’Alembert pour les membranes s’exprime alors :
∂2z
= v 2 ∆z. (10.60)
∂t2
Solutions analytique Ces deux équations liant une vitesse ou une accélération à une courbure
(donnée par le laplacien) sont fondamentales en physique, étudiées avec soin depuis plus de deux-
cents ans. Nous verrons au chapitre 3 comment décrire le comportement de leurs solutions en
fonction des harmoniques du domaine étudié : la corde du violon, la membrane du tambour ou
la plaque du radiateur.
À l’aide de formules explicites, on réussira (dans les cas où le domaine est bien homogène) à
décrire l’évolution du système à partir d’une configuration initiale régulière.
10.5. La méthode des éléments finis 235
Figure 10.8 – Évolution d’une distribution de chaleur sur une plaque, suivant la loi de Fourier.
L’évolution locale de la température est proportionnelle au laplacien du champ, équivalente ici
à la courbure de la surface. Effet remarquable : la régularisation induite par l’équation, qui lisse
la distribution initiale. Nous étudierons ce comportement au chapitre suivant. Image tirée de
Wikipédia, par Oleg Alexandrov.
Solutions faibles Mais comment décrire l’évolution physique du système lorsque celui-ci n’est
plus lisse ? Trois cas d’étude peuvent se présenter :
— Si l’équation est conservative (équation des cordes, qui conserve la régularité de l’état
initial) ou régularisante (équation de la chaleur, qui l’augmente au fil du temps), on peut
simplement chercher à comprendre ce qu’il se passe lorsque la condition initiale (y, z ou T
en t = 0) est irrégulière (corde pincée, contact entre un fer chaud et un tissu frais).
— Il peut aussi s’agir d’étudier des termes de source irréguliers : sources ponctuelles de cha-
leur, masses ponctuelles en théorie de la gravitation, distributions surfaciques de charges
en électromagnétisme... C’est d’ailleurs ce dernier cas qui inspira à Laurent Schwartz sa
terminologie au début des années 50 : une distribution a vocation à représenter des mesures
arbitraires de charges mais aussi des dipôles, des quadripôles, etc.
— Plus grave, certaines équations font baisser la régularité du système au fil du temps. C’est
notamment le cas des équations de Navier-Stokes en mécanique des fluides : partant d’un
écoulement lisse, il est possible d’arriver en temps fini à une situation irrégulière. C’est
le phénomène d’émergence des turbulences, problème absolument fondamental en analyse
avec les retombées que l’on imagine en aéronautique.
On s’en doute, il sera indispensable d’étendre l’étude des équations différentielles aux distri-
butions. Heureusement, les opérateurs de dérivation sont parfaitement définis sur celles-ci : pour
des fonctions à plusieurs variables, il suffit d’imiter la construction de la section 10.4. Donner
un sens aux équations physiques sur les distributions générales ne pose donc aucun problème.
L’essentiel de la recherche mathématique au sujet des équations différentielles se passera alors
en deux temps :
1. Montrer que pour toute condition initiale raisonnable (“physique”), une solution existe à
l’équation étudiée, au sens des distributions. Des résultats d’unicité peuvent également être
démontrés.
2. Une fois la solution trouvée, le plus difficile reste à faire : montrer qu’elle est identifiable à
une fonction, ou tout du moins à une configuration physiquement réaliste – énergie finie...
Les spécialistes d’un phénomène, d’une équation, chercheront donc à démontrer que pour toute
configuration initiale “physique”, une solution d’évolution est bien définie pour tout temps – en
restant à chaque instant raisonnable. Si de tels résultats ont pu être obtenus pour les équations
des cordes/surfaces vibrantes ou l’équation de la chaleur, le problème reste toujours ouvert pour
les équations de Navier-Stokes ou d’Euler, en mécanique des fluides : fondamentalement non
linéaires, elles résistent depuis deux-cents ans aux efforts de tous les théoriciens.
Séance 13 236 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
Modélisation d’un problème concret Discutons par exemple du problème d’ingénierie par
excellence : la construction d’un pont. Il s’agira pour nous de concevoir un tablier en acier, bois et
béton simplement posé au dessus d’un ravin de longueur L = 20m, ouvrage que l’on modélisera
naïvement par une fonction d’altitude y(x) – où x prend ses valeurs dans l’intervalle [0, L]. En
première approximation (c’est un cours de vulgarisation !), on verra notre pont comme un fil de
masse linéique µ(x) et de raideur k(x), propriétés qui dépendent du matériau utilisé au point x.
Mise en équation Par un raisonnement analogue à celui de D’Alembert pour les cordes vi-
brantes, on peut alors montrer que notre pont-jouet est solution de l’équation :
∂2y ∂2y
µ 2
= −µ g + k · , (10.63)
∂t ∂x2
où g = 9.81m · s−2 représente l’intensité du champ de gravitation, uniforme et orienté vers le bas.
Si la dynamique du pont peut nous intéresser (Quelles sont les fréquences de résonance de notre
ouvrage ? Risque-t-il de s’écrouler si une armée le traverse au pas ?), nous nous intéresserons ici
uniquement à son profil au repos : étant données les informations de construction µ(x) et k(x),
sachant de plus que y(x = 0) = 0 = y(x = L) (pont à l’horizontale), quel est le profil de notre
ouvrage ? Présente-t-il une courbure, un affaissement trop important qui risquerait de le faire
rompre sous son propre poids ? On l’aura compris, il s’agira ici d’étudier la solution du problème
pratique :
∂2y
k(x) · (x) = µ(x) · g, avec y(0) = 0 = y(L). (10.64)
∂x2
Cette équation fort simple peut être résolue analytiquement : mais à quoi bon une formule
compliquée pleine d’intégrales de k et µ ? Reposant sur la simplicité de l’équation, elle perdra
toute valeur dès que l’on complexifiera le modèle. On cherche ici une méthode générale permettant
de calculer, avec une précision arbitraire, le profil de notre tablier.
Premiers constats Commençons par interpréter notre équation : elle traduit simplement le
∂2y
fait que la courbure ∂x 2 (x) est d’autant plus importante au point x que le pont y est massif, et
manque de raideur. Comme µ, k est g sont partout positives, la courbure l’est aussi : suivant
notre modèle simplifié, le profil du pont est convexe. Ceci nous apprend par exemple que la
fonction y(t) est partout négative : en dessous de sa corde horizontale, le pont est bien en train
de s’affaisser sous son propre poids.
10.5. La méthode des éléments finis 237
0 L
y(x)
y1 y2 y3
fossé
Figure 10.9 – Problème du pont, modélisé par l’équation (10.64). Les solutions y1 , y2 et y3
correspondent à des “profils crédibles” donnés équations (10.66-10.68). Plutôt que de se restreindre
à une recherche dans un espace de dimension 3, un ingénieur moderne utilisera une famille de
profils plus générique, comme celle illustrée Figure 10.10.
où les yi (x) sont des profils “crédibles” fixés a priori et où les λi sont des coefficients réels qui
vont nous permettre d’affiner notre recherche jusqu’à trouver une “bonne” solution. En 1915,
Galerkine proposerait par exemple de nous restreindre à une famille de trois fonctions,
qui sont toutes convexes sur [0, L], vérifient les conditions aux bords et ont des minimums dis-
tincts.
Formulation faible avec espace réduit de fonctions tests Bien sûr, impossible d’espérer
que des coefficients λ1 , λ2 et λ3 nous donnent une solution exacte au problème (10.64) : la
véritable solution n’a aucune raison d’être polynomiale. Mais si nos fonctions de base yi sont
bien choisies, on devrait tout de même pouvoir trouver une solution “satisfaisante”.
Point clé En quel sens ? Comment affaiblir le fait d’être “solution d’une équation différentiel-
le” ? Eh bien, le formalisme des distributions va nous donner une manière bien posée et robuste
de penser ce problème. Là où une “vraie” solution faible de notre équation devrait vérifier
∂2y
∀ ϕ ∈ D, k(x) · (x), ϕ = hµ(x) · g, ϕi , (10.69)
∂x2
une solution “au sens de Galerkine” devra vérifier cette égalité pour les seules fonctions test qui
sont elles-mêmes combinaisons linéaires des yi . À vrai dire, par linéarité de l’équation en
ϕ, il suffira même de vérifier cette identité pour les seules fonctions tests ϕ = y1 , . . . , yn .
Séance 13 238 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
Résoudre l’équation du pont au sens de Galerkine, c’est donc trouver des coefficients optimaux
λj tels que
* P +
∂ 2 j λ j yj
∀ i ∈ [[1, n]] , k(x) · (x), yi = hµ(x) · g, yi i , (10.70)
∂x2
X
∂ 2 yj
∀ i ∈ [[1, n]] , λj k(x) · (x), yi = hµ(x) · g, yi i . (10.71)
j
∂x2
Si on note
∂ 2 yj
aij = k(x) · (x), yi et bi = hµ(x) · g, yi i (10.72)
∂x2
qui sont des coefficients réels explicites, il s’agit donc de trouver une solution au système linéaire
a11 λ1 + a12 λ2 + ... + a1n λn = b1
a21 λ1 + a22 λ2 + ... + a2n λn = b2
.. .. .. .. .. .. .. .. .. , (10.73)
. . . . . . . . .
an1 λ1 + an2 λ2 + ... + ann λn = bn
que l’on écrit simplement sous forme matricielle : Aλ = B. Avec n équations pour n inconnues,
ce système admet généralement une unique solution, qui caractérisera le meilleur candidat à la
résolution de l’équation différentielle dans l’espace engendré par les yi . Pour simuler de manière
approchée un phénomène physique, il suffira donc de choisir une base d’approximation (yi ), de
construire les matrices A et B par un calcul direct, puis de résoudre le système associé par un
algorithme bien connu.
Pertinence de la formulation faible Pour qui pense les fonctions comme des graphes, il est
malaisé de définir ce qu’est une solution “approchée” f à une équation différentielle du type
Si, dans un premier temps, on demande que f vérifie (E) exactement sur un sous-ensemble
du domaine Ω – disons, sur une discrétisation fixée à l’avance, un point tous les 50cm – alors
impossible de garantir son comportement en dehors. C’est le grand défaut des polynômes inter-
polateurs de Lagrange, qui peuvent faire exploser la fonction interpolée en dehors des points de
contrôle.
À l’opposé, on pourrait demander à ce que f vérifie (E) de manière approchée, uniformément
sur le domaine : que le maximum sur Ω de la fonction x 7→ |A(f )(x)| soit aussi petit que possible ;
que la fonction A(f ), si elle ne peut être nulle, s’en approche du moins du mieux qu’elle le peut.
Mais une telle définition implicite n’est pas d’une grande aide en pratique...
En équilibrant l’approximation sur l’espace de recherche et sur celui des contraintes, Galerkine
nous a tiré d’un mauvais pas : ses solutions faibles seront aussi bien conditionnées que le permet
l’espace de recherche engendré par les yi , mais n’en resteront pas moins des solutions “exactes”,
issues d’une égalité et non d’un problème de minimisation mal posé.
10.5. La méthode des éléments finis 239
Méthode des éléments finis En un siècle, grâce aux machines de calcul électroniques, la
résolution de systèmes linéaires a fait des pas de géant : utiliser la méthode de Galerkine avec des
milliers de fonctions arbitraires yi n’est plus un problème. Il n’y a donc plus besoin de les prendre
dans un ensemble de solutions “crédibles” : seule compte l’expressivité de l’espace engendré. On
pourra par exemple se contenter de fonctions yi “en chapeau pointu”, présentées Figure 10.10, qui
permettent d’engendrer l’espace des fonctions affines par morceaux associées à une discrétisation
donnée et qui cumulent les avantages. Construites à partir de la valeur absolue, leurs dérivées
sont connues. Très localisées, elles garantissent au système (10.73) une structure parcimonieuse
garantie d’efficacité algorithmique. Simplement définies, elles se généralisent sans difficultés aux
espaces de dimensions 2, 3 ou 4. Seuls compteront alors le choix d’une discrétisation adaptée au
problème, et l’efficacité du schéma de résolution numérique.
On pourra facilement monter jusqu’à des valeurs de n de l’ordre du million et plus, pour des
problèmes industriels complexes résolus sur des centres de calcul. Simuler des tests en soufflerie,
des crashs de voitures en s’épargnant le fastidieux travail d’acquisition des données. Ce grand
succès de l’ingénierie du XXe siècle, l’application de la méthode de Galerkine a une famille de
fonctions yi élémentaires adaptées, c’est la méthode des éléments finis.
(a) Approximation affine par (b) Combinaison linéaire d’une (c) En dimension 2 et plus, des
morceaux d’une courbe lisse... famille en “chapeaux pointus”. familles analogues existent.
Figure 10.10 – Des familles de fonctions yi affines par morceaux, localisées et liées à une discré-
tisation du domaine permettent d’approcher n’importe quel profil. Images tirées de Wikipédia.
(a) Finite element method - Gilbert Strang, de (b) Flow Simulation - Transient Natural
la chaîne “Serious Science” ; www.youtube.com/ Convection, QuickTips video presented by
watch?v=WwgrAH-IMOk. Tony Botting of GoEngineer ; www.youtube.
com/watch?v=hSEYBkgcmhA.
Figure 10.11 – En cours, nous regarderons deux vidéos disponibles sur YouTube : une interview
de Gilbert Strang, auteur de l’excellent manuel An Introduction to Applied Mathematics, et une
démonsration du logiciel Solidworks, outil de référence en ingénierie édité par Dassault Systèmes.
Ce sera l’occasion de faire le lien entre les mathématiques présentées dans ce chapitre et leurs
applications industrielles, d’une importance capitale. Si le logiciel Solidworks se révèle absolument
“bluffant”, on trouvera au cœur de son moteur de rendu physique la méthode des éléments finis :
rien de magique, donc ; seulement des mathématiques bien comprises.
Séance 13 240 Chapitre 10. Dimension infinie, dualité et méthode des éléments finis
Appendices
241
Annexe A
Arithmétique
243
244 Annexe A. Arithmétique
Annexe B
La notion de limite
Continuité
Théorème des valeurs intermédiaires
Compacité
Deux illustrations : les théorèmes de point fixe
Le théorème de Brouwer
Le théorème de Cauchy-Lipschitz
245