L3 2013 PDF
L3 2013 PDF
L3 2013 PDF
Année 2013-2014
Jean-Bernard Zuber
Figure 1 –
6 mathématiciens qui ont laissé des contributions fondamentales dans le sujet de ce cours.
Pierre-Simon Laplace (1749 - 1827) et (Jean-Baptiste) Joseph Fourier (1768 - 1830) ;
Siméon Denis Poisson (1781 - 1840) et Augustin-Louis Cauchy (1789 - 1857) ;
Henri Lebesgue (1875 - 1941) et Laurent Schwartz (1915 - 2002)
J.-B. Z L3 FIP 2013 30 janvier 2014
Bibliographie
[1] Walter Appel, Mathématiques pour la physique et les physiciens !, H& K Éditions
[2] Claude Aslangul, Des mathématiques pour les sciences, Cours et Exercices, de Broeck, 2011
[3] Claude Aslangul, Des mathématiques pour les sciences, Exercices corrigés, de Broeck, 2013
[4] Henri Cartan, Théorie élémentaire des fonctions analytiques d’une ou plusieurs variables
complexes, Hermann 1961
[5] Jacques Gapaillard, Intégration pour la licence, Dunod 2002
[6] John Lamperti, Probability, Benjamin 1966
[7] W. Rudin, Analyse réelle et complexe, Masson 1977.
[8] Laurent Schwartz, Méthodes mathématiques pour les sciences physiques, Hermann, 1965.
[9] Laurent Schwartz, Théorie des distributions, Hermann, 1966.
[10] Laurent Schwartz, Analyse I. Topologie Générale et Analyse Fonctionnelle, Hermann, 1991.
Parmi ces ouvrages, certains sont écrits dans un esprit assez proche de celui du présent
cours, en particulier [1], dont je me suis beaucoup inspiré. Le lecteur trouvera d’innombrables
applications et exercices dans [2] et [3].
ii BIBLIOGRAPHIE
Plan du cours
2 Intégration 17
2.1 Intégrale de Riemann . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Rappels sur l’intégrale de Riemann . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Intégrales impropres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.3 Problèmes avec l’intégrale de Riemann . . . . . . . . . . . . . . . . . . . 19
2.2 Intégrale de Lebesgue. Mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Idée intuitive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.2 Mesure (Bribes de théorie de la) . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.3 Retour à l’intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.4 Intégrales de Lebesgue sur R2 ou Rn . . . . . . . . . . . . . . . . . . . . 26
iv TABLE DES MATIÈRES
2.2.5 Espaces Lp et Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2.6 Comparaison entre intégrales de Riemann et de Lebesgue . . . . . . . . . 28
2.3 Intégrales dépendant d’un paramètre . . . . . . . . . . . . . . . . . . . . . . . . 31
3 Distributions 35
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Distributions de charges électriques. . . . . . . . . . . . . . . . . . . . . 35
3.1.2 Diffusion cohérente par un réseau. Peigne de Dirac . . . . . . . . . . . . 36
3.1.3 Choc élastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.4 Autres exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Définitions et premières propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Espace des fonctions-tests. Définition des distributions. . . . . . . . . . . 39
3.3 Opérations sur les distributions . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.1 Translation, dilatation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.3.2 Dérivation d’une distribution . . . . . . . . . . . . . . . . . . . . . . . . 43
3.4 Distribution delta et distributions reliées . . . . . . . . . . . . . . . . . . . . . . 44
3.4.1 Fonction de Heaviside, fonction signe . . . . . . . . . . . . . . . . . . . . 44
3.4.2 Relations fonctionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.3 δ sur une courbe, une surface, . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.5 Produit de distributions. Convolution . . . . . . . . . . . . . . . . . . . . . . . . 48
3.6 Exemple : Fonction de Green et potentiel de Coulomb en dimension d. . . . . . 51
4 Transformation de Fourier 55
4.0 Préambule physique. Équation des ondes . . . . . . . . . . . . . . . . . . . . . . 55
4.1 Séries de Fourier. Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.2 Transformation de Fourier dans L1 . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.1 Définition. Conventions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.2 Existence et premières propriétés . . . . . . . . . . . . . . . . . . . . . . 59
4.2.3 Autres propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
4.2.4 Transformation de Fourier dans L2 . . . . . . . . . . . . . . . . . . . . . 63
4.2.5 Transformation de Fourier et convolution . . . . . . . . . . . . . . . . . . 65
4.2.6 Diffraction par une fente, par un réseau . . . . . . . . . . . . . . . . . . . 66
4.3 Transformées de Fourier des distributions . . . . . . . . . . . . . . . . . . . . . . 66
5 Probabilités 71
5.1 Événements. Espace des épreuves. . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.2 Probabilités et mesure. Vocabulaire . . . . . . . . . . . . . . . . . . . . . . . . . 72
TABLE DES MATIÈRES v
(c’est-à-dire tous les un sont arbitrairement près de `, dès que n est suffisamment grand) et
d’une suite de Cauchy un ∈ R :
Toute suite convergente est de Cauchy (par l’inégalité triangulaire), mais la réciproque n’est
pas évidente. Ainsi elle n’est en général pas vraie dans Q : une suite de Cauchy de rationnels
ne converge pas toujours dans Q. Par exemple, la suite dans Q définie par la fraction continue
1
un = 2 +
1
2+
1
2+
2 + ···
Théorème 1.1 : (a) Toute suite de Cauchy est bornée : ∃M ∀n |un | < M .
(b) Toute suite de Cauchy un admettant une sous-suite convergeant vers ` converge elle-même
vers `.
Exercice : le démontrer. (Noter que ces résultats s’appliquent à des suites dans R ou Q).
∃m, M ∀x ∈ E m≤x≤M .
La borne supérieure B (resp. inférieure b) d’un ensemble borné E est par définition le plus petit
majorant (resp. le plus grand minorant) de E. Ce nombre B (resp. b) existe et est unique. (La
preuve, classique mais un peu longue, procède par dichotomie ; elle ne sera pas reproduite ici.)
Soit E ⊂ R un sous-ensemble (de cardinal 1 ) infini de R. Par définition, ξ est un point
d’accumulation de E s’il existe des points de E arbitrairement proches de ξ mais distincts de
ξ, autrement dit
∀ ∃x ∈ E, x 6= ξ tel que x ∈]ξ − , ξ + [ . (1.1)
Ou de façon équivalente, toute suite (un ) dans E admet une sous-suite convergeant dans E.
Esquisse de preuve : Par dichotomie : si E ⊂ [b1 , B1 ], on coupe [b1 , B1 ] en deux moitiés, dont l’une au
moins, notons-la [b2 , B2 ], a une intersection infinie avec E, et on itère ; cela définit une suite d’intervalles
[bn , Bn ] emboı̂tés, dont les extrémités forment deux suites adjacentes (cf ci-dessus) définissant un point ξ. On
montre aisément que ξ est point d’accumulation de E.
On définit alors les sous-ensembles ouverts ou fermés de R :
Un sous-ensemble O ⊂ R est ouvert si tout point de O est le centre d’un intervalle ouvert
entièrement contenu dans O.
Un ensemble fermé F ⊂ R est un ensemble qui contient tous ses points d’accumulation. Un
intervalle fermé [a, b] est clairement un ensemble fermé.
Le complémentaire dans R d’un ouvert est un fermé (exercice : le vérifier).
L’union d’un nombre quelconque d’ouverts est un ouvert. L’union d’un nombre fini de fermés
est un fermé. En revanche, une union dénombrable 2 de fermés peut ne pas être fermée, par
exemple ∪n∈N∗ [ n1 , 1] =]0, 1].
Par passage au complémentaire : l’intersection d’un nombre quelconque de fermés est un
fermé. L’intersection d’un nombre fini d’ouverts est un ouvert. En revanche, une intersection
dénombrable d’ouverts peut ne pas être ouverte, par exemple ∩n∈N∗ ] − n1 , n1 [= {0} = [0, 0].
Le théorème 1.3 découle de la construction de R que nous avons rappelée, comme ensemble
des classes d’équivalence de suites de Cauchy dans Q : pour tout réel x, il existe une suite de
Cauchy de rationnels qui converge vers x, ce qui établit la propriété de densité.
Pour le théorème 1.4, soit une suite un de Cauchy de nombres réels. Par le théorème 1.3,
pour tout up , il existe un rationnel rp , |up − rp | < . Une nouvelle fois, l’inégalité triangulaire
vient à la rescousse et nous dit que l’on peut rendre |rp −rq | ≤ |rp −up |+|up −uq |+|uq −rq | < 3
pour p et q assez grands, donc rn est une suite de Cauchy de rationnels qui définit un nombre
réel x, rn converge vers x et |un − x| ≤ |un − rn | + |rn − x| < 2, donc lim un = x.
1.1.4 Compléments
On considère aussi parfois la droite “achevée” R = R ∪ {−∞, ∞}, voir App. A.3.
Autres notations : R+ = {x ∈ R; x ≥ 0}, R∗ = R\{0}, etc.
2. Voir la définition 1.8 ci-dessous à l’Appendice A.
Un espace topologique est séparé (ou de Hausdorff) si deux points distincts possèdent deux
voisinages disjoints.
Base de voisinages B(x) d’un point x : sous-ensemble de V(x) tel que tout V ∈ V(x) contient
un W ∈ B(x). (Intuitivement, une base B(x) est constituée de “suffisamment” de voisinages de
x.)
Exemple E = R, B(x) = {]x − n1 , x + n1 [}n∈N
Continuité : Une fonction f d’un e.t. E dans un e.t. F est continue si pour tout ouvert O ⊂ F ,
l’ensemble f −1 (O) = {x ∈ E tel que f (x) ∈ O} est ouvert dans E.
Exemple E = F = R, on retrouve bien la définition usuelle de la continuité en a :
∀ ∃η |x − a| < η (c’est-à-dire x ∈]a − η, a + η[) ⇒ |f (x) − f (a)| < (c’est-à-dire f (x) ∈]f (a) − , f (a) + [).
Voir TD.
Connexité : Un e.t. E est connexe s’il ne peut pas être écrit comme union disjointe de deux
ouverts non vides. Ou de façon équivalente (vérifier !), si les seuls de ses sous-ensembles à la
Espace compact E : espace topologique (séparé) tel que de tout recouvrement de E par des
ouverts, on peut extraire un recouvrement fini.
Conséquences : si E est compact,
– toute suite infinie de points de E admet un point d’accumulation (généralisation du théorème
de Bolzano–Weierstrass) ;
– si f : E 7→ F est continue, f (E) est compact ;
– toute fonction réelle continue sur E est bornée.
Si E est un sous-espace de Rn , E compact ⇔ E borné et fermé (théorème de Heine–Borel).
Espace localement compact : espace topologique (séparé) dont tout point a au moins un voisinage
compact.
Exemples : R n’est pas compact mais localement compact ; Q n’est ni compact ni localement compact. On
peut “compactifier” R en lui ajoutant un point à l’infini ; et de même, on peut compactifier C (le plan complexe)
en lui ajoutant un point à l’infini, le transformant en la “sphère de Riemann”, voir plus bas au Chap. 7, § 7.5.3.
Un espace vectoriel E sur R ou C (de dimension finie ou infinie) est dit normé si on peut y
définir une norme.
kxk ≥ 0
kxk = 0 ⇒ x = 0 (1.2)
kλxk = |λ| kxk
kx + yk ≤ kxk + kyk inégalité triangulaire
Dans la définition d’une semi-norme, on relâche le deuxième axiome, kxk = 0 n’implique pas
x = 0.
Distance. Dans un e.v. normé E, on peut définir la distance d(x, y) = kx − yk.
Exemple : les espaces Rn (ou C, considéré comme un e.v. de dimension 2 sur les réels) sont
1
des espaces normés par la norme euclidienne kxk = ( ni=1 |xi |2 ) 2 , où les xi sont les composantes
P
de x dans une base orthonormée. Dans C, cette norme est le module du nombre complexe.
Sur l’espace C([a, b]) des fonctions continues sur [a, b] à valeurs dans R ou C, on peut définir
des normes
Z b
kf k1 = |f (x)|dx
a
Z b 21
2
kf k2 = |f (x)| dx (1.3)
a
kf k∞ = sup |f (x)|
x∈[a,b]
Sur l’espace des fonctions continues par morceaux (avec un nombre fini de discontinuités sur
[a, b]), kf k1 et kf k2 sont des semi-normes, kf k∞ est une norme, pourquoi ?
Définition 1.2 : La suite (un ) admet une limite u ∈ E, ou converge vers la limite u, et on
écrit limn→∞ un = u ou simplement un → u, si la différence un − u tend vers zéro en norme
quand n tend vers l’infini
Définition 1.3 : Une suite un est dite suite de Cauchy (ou elle satisfait le critère de Cauchy)
si
∀ ∃N tel que ∀n, n0 > N kun − un0 k < . (1.5)
Comme précédemment, toute suite convergente est de Cauchy. La réciproque n’est en général
pas vraie comme on a vu, une suite de Cauchy peut ne pas converger.
Définition 1.4 : Un espace vectoriel normé E est un espace complet ssi toute suite de Cauchy
y converge. Un tel espace est appelé espace de Banach.
Cette notion prend son importance dans l’étude des espaces de fonctions, comme on va le
voir. En dimension finie, un corollaire simple du Théorème 1.4 est que
C ou tout espace vectoriel Rn de dimension finie sur R est complet.
Preuve : Il suffit de prendre la norme euclidienne : la condition de Cauchy dans Rn implique que chaque
composante est de Cauchy dans R donc converge.
Définition 1.5 : La suite fn converge simplement vers f si ∀x ∈ X, fn (x) converge vers f (x).
ou encore
∀ > 0 ∃N tel que ∀n > N kfn − f k∞ <
CV.U.
et on note fn −→ f .
Bien comprendre que dans le cas de la CVU, le nombre N est indépendant de x, alors qu’a
priori, il en dépend dans la CVS. La convergence uniforme implique la convergence simple (le
vérifier), mais la réciproque n’est pas vraie.
La définition de convergence CVS, CVU s’étend sans difficulté à des suites de fonctions à
valeurs dans tout espace normé : il suffit de remplacer dans (1.6,1.7) la valeur absolue par la
norme k · k.
Exemples et contre-exemples.
Exemples : 1. Soit la suite de fonctions fn (x) = xn définies sur l’intervalle [0, 1]. Pour tout
x < 1, xn → 0, tandis que pour x = 1, la valeur limite est 1. La fonction limite f (x) est donc
la fonction discontinue qui vaut 0 sur [0, 1[ et 1 en 1 (c’est la fonction partie entière E(x),
restreinte à l’intervalle [0, 1]). La convergence des fn n’est pas uniforme vers f (x) = E(x),
comme on va le montrer plus bas, par l’absurde.
Mais il est instructif de le comprendre directement. Montrons que ∀a fixé, avec 0 ≤ a < 1, la suite
fn (x) = xn converge uniformément vers 0 sur l’intervalle [0, a]. En effet
par des inégalités triviales. Pour assurer que |xn − 0| < , il suffit de choisir N tel que aN < ou encore de façon
− ln
équivalente, N > − ln a . Ce choix de N assure bien la convergence uniforme des fn vers 0 dans l’intervalle [0, a].
Mais noter que ce N augmente sans limite quand a s’approche de 1. En conséquence, la convergence uniforme
ne peut être maintenue sur tout l’intervalle [0, 1[, même ouvert à droite.
(n − 1)x si x ∈ [0, 1 ]
n
2. Soit la suite de fonctions fn (x) = . Pour x = 0, fn (0) = 0 donc
1 − x 1
si x ∈ [ n , 1]
lim fn (0) = 0. Pour tout x 6= 0, il existe un n assez grand à partir duquel tous les fn (x) = 1 − x.
La suite converge donc simplement vers la fonction discontinue f (0) = 0; f (x) = 1 − x, x 6= 0,
mais la convergence n’est pas uniforme.
3. En revanche les fonctions fn (x) = n sin nx convergent uniformément vers f (x) = x sur l’in-
tervalle [0, 1].
3
En effet |fn (x) − x| = x − n sin nx ≤ 6nx 1
2 < 6n2 quel que soit x ∈ [0, 1]. On peut démontrer l’inégalité
déf 3
φ(α) = sin α − α + α6 ≥ 0 utilisée dans cet argument par étude des fonctions dérivées successives φ0 (α) et
φ00 (α), ou encore par utilisation de la formule de Taylor-Lagrange.
p
4. Autres exemples importants, les fonctions fn (x) = np=0 xp! , et gn (x) := (1 + nx )n , convergent,
déf P
CV.S. CV.U.
Théorème 1.6 : Si les fn −→ f et les fn0 −→ g, alors f est dérivable et f 0 = g.
Pn 2
Contre-exemple (voir [1] p19, 246) : fn (x) = π8 k=1 sin nx
4n2 −1 dont on montre qu’elles convergent unifor-
0
mément vers f (x) = | sin x|. Les fn ne convergent pas uniformément et la fonction f n’est pas dérivable en 0.
De même pour des séries de fonctions, on peut définir la CVS ou la CVU comme on l’a fait
au § 1.3.1, et aussi une convergence normale CVN dans la norme k · k∞ du sup. Soit une série
P
fk de fonctions de X (⊂ R ou C) dans un e.v. normé E.
P
Définition 1.7 : La série fk converge
n
X
simplement vers F si ∀ ∀x ∈ X ∃N tel que ∀n > N k fk (x) − F (x)k <
k=1
n
X
uniformément vers F si ∀ ∃N tel que ∀x ∈ X ∀n > N k fk (x) − F (x)k <
k=1
n
X
c’est-à-dire lim k fk − F k∞ = 0
n→∞
k=1
X
normalement si kfn k∞ converge .
Théorème 1.8 : Toute série normalement convergente à valeurs dans un e.v. normé complet
est uniformément convergente, donc simplement convergente.
tivement.
Exercice : démontrer que l’ensemble des points de discontinuité de χA pour A ⊂ E e.t. est la
o
“frontière de A”, soit Ā\ A.
Pour un ensemble E fini, on appelle card (E) (cardinal de E) le nombre d’éléments de
E. Deux ensembles finis E et F sont en bijection ssi ils ont même cardinal. Cette notion
s’étend à des ensembles infinis, voir sous-§ suivant. Pour E fini, card (E) = n fini, montrer que
card (P(E)) = 2n (Indication : pour chaque A ∈ P(E) on code chaque élément a de E par 1
ou 0 selon que a ∈ A ou non, autrement dit, A ↔ ensemble des χA (a)|a∈E , qui est dans {0, 1}n .
On a donc une bijection P(E) ↔ {0, 1}n . )
Autrement dit on peut “numéroter” ses éléments. Ou encore, dans l’énumération de ses éléments,
on atteint tout élément au bout d’un nombre fini d’opérations. Exemples : N, bien sûr, est
dénombrable ; Z l’est aussi, il suffit d’énumérer 0, 1, −1, 2, −2, 3, −3, · · · . Q est aussi dénombrable,
ce qui est moins évident. On écrit tout rationnel positif sous la forme p/q, avec p et q premiers
entre eux. On énumère ces fractions positives selon les valeurs croissantes de p + q, (en sautant
toutes les paires où p et q ne sont pas premiers) 1/1, 1/2, 2/1, 1/3, 3/1, 4/1, 3/2, etc. Il est clair
que tout rationnel > 0 est atteint au bout d’un nombre fini de pas. On recombine ensuite
Q+ et Q− comme dans Z. Plus généralement, toute union finie d’ensembles dénombrables est
dénombrable, par le même type d’argument.
On étend la notion de cardinal à un ensemble dénombrable. Par définition, le cardinal de N (ou
de tout ensemble dénombrable) est noté ℵ0 (aleph zéro).
Définition 1.9 : Un nombre algébrique est un nombre (réel ou complexe) solution d’une équation algébrique
à coefficients entiers a0 z n + a1 z n−1 + · · · + an = 0, où ai ∈ Z.
Le point est que tout ensemble n’est pas dénombrable. Ainsi l’ensemble des réels n’est
pas dénombrable. Pour s’en convaincre, on procède par l’absurde (argument de Cantor). On
considère les réels de l’intervalle [0, 1[, décrits par leur développement décimal 0,abcd · · · . On
suppose qu’on a trouvé une énumération de ces réels sous la forme
x1 = 0,a1 b1 c1 · · ·
x2 = 0,a2 b2 c2 · · · (A.2)
x3 = 0,a3 b3 c3 · · ·
..
.
Ensemble de Cantor. Il s’agit d’un ensemble remarquable, qui nous fournira des exemples
et contre-exemples dans la suite. On le construit de façon récursive à partir de l’intervalle [0, 1].
À l’étape 1, on retranche le tiers médian ] 13 , 23 [ ce qui laisse l’union de deux segments fermés
[0, 13 ] ∪ [ 32 , 1]. Puis à chaque étape on retranche le tiers médian ouvert de chaque segment. À la
limite on obtient l’ensemble de Cantor K.
Plus précisément soit γ l’opération qui au segment I = [a, b] associe l’union des deux segments [a, a + b−a
3 ]∪
b−a n n
[a + 2 3 , b]. Plus généralement pour une union finie de segments disjoints ∪k=1 Ik , on définit γ(∪k=1 Ik ) =
∪nk=1 γ(Ik ). Alors si Kn = γ n ([0, 1]), K = ∩∞
n=0 Kn .
1
L’ensemble de Cantor n’est pas vide (par exemple il contient tous les nombres 3n
) et a les
propriétés remarquables suivantes (que nous admettrons pour la plupart) :
– il est compact (puisque fermé et borné) et n’a que des points d’accumulation (ensemble
“parfait”) ;
– il est non dénombrable, il a la puissance du continu (voir [5] Appendice A) ;
3. Il faut noter que dans la notation décimale, on identifie les paires de nombres 0, ab · · · c9999 · · · avec c < 9
et 0, ab · · · (c + 1). Vérifier que cela n’affecte pas l’argument de Cantor.
– il est d’intérieur vide et de “mesure nulle” : on définira plus précisément cette notion au
Chapitre 2, contentons-nous ici de noter que la somme des longueurs des segments à la n-ième
étape de construction de K vaut ( 32 )n , donc tend vers zéro quand n → ∞ ;
– les points de discontinuité de son indicatrice χK forment l’ensemble K lui-même ;
– il a des propriétés d’auto-similarité (fractal) : K1 ∩ K2 ≡ 13 K1 , etc.
Ces propriétés semblent contradictoires et cet ensemble est assez déroutant !
Définition 1.10 : On appelle limite supérieure, resp. limite inférieure, d’une suite (un ) d’éléments
de R l’élément de R
Ces limites supérieure et inférieure existent dans R pour toute suite ! En effet la suite
(supn≥k un ) est une suite en k décroissante, donc convergente dans R, on peut donc lui appliquer
(A.3), et sa limite, notée limn→∞ un est inf k≥1 (supn≥k un ), et vice versa pour la limite inférieure
limn→∞ un .
Une caractérisation utile de la limite supérieure d’une suite un > 0 (pour l’inférieure, changer
les signes d’inégalité) est la suivante :
Cette notion nous sera utile en particulier dans l’étude de la convergence des séries entières.
Une fonction numérique E ⊂ R → R est dite de classe C n si toutes les dérivées f (k) ,
k = 1, · · · , n existent sur E et sont continues.
Rappelons alors les différentes formes du théorème de Taylor, qui dit que sous des hypothèses
adéquates, une fonction est approximée par son développement de Taylor
n
X (x − x0 )k (x − x0 )n
f (x) = f (k) (x0 ) + Rn (x)
k=0
k! n!
Hypothèses : Dans tous les cas, on suppose f n fois dérivable sur un intervalle I, x0 ∈ I,
donc f est (au moins) de classe C n−1 . Pour les deux dernières formes, on suppose en outre que
f est de classe C n sur I et que f (n+1) existe sur l’intérieur de I. Pour Taylor-Young, l’existence
k
de la n-ième dérivée suffit à assurer que f (x) − nk=0 (x−x 0)
f (k) (x0 ) = o((x − x0 )n ), ce qui est
P
k!
bien le résultat énoncé. Noter que la forme dite de Taylor–Lagrange généralise la formule dite
“des accroissements finis” (qui correspond au cas n = 0).
Lectures complémentaires
L’ouvrage de L. Schwartz [10] est une mine d’informations sur les questions d’analyse et de
topologie.
Intégration
Si quand N → ∞ et quand le découpage devient de plus en plus fin : supk (xk − xk−1 ) → 0, la
somme Σ(R) a une limite indépendante du choix des intervalles Ik et des points ξk , cette limite
Rb
est appelée intégrale de Riemann et notée a f (x)dx. Son interprétation est claire : on a coupé
l’aire sous la courbe de f en tranches verticales de plus en plus fines.
On démontre aisément que toute fonction en escalier sur [a, b] est intégrable au sens de
Riemann ; mais aussi toute fonction réglée (limite uniforme de fonctions en escalier de supports
contenus dans un même compact K), ce qui inclut les fonctions continues ou les fonctions
monotones sur [a, b], etc ; ou plus généralement toute fonction “pas trop discontinue” en un
sens qu’on précisera plus bas au § 2.2.6 où on donnera un critère (condition nécessaire et
suffisante) d’intégrabilité au sens de Riemann.
Intégrale et primitive
x
x =a x ! x
0 1 x k x N!1 xN= b
k!1 k
sur un intervalle [a, b], la famille de ses primitives, égales à l’addition d’une constante près, est
R
dénotée par l’intégrale indéfinie f (x)dx, et une primitive quelconque est de la forme
Z x
F (x) = f (x0 )dx0 + C x ∈ [a, b], C constante arbitraire . (2.2)
a
Il en découle que l’intégrale entre a et b est donnée par la variation d’une primitive quelconque
F :
Z b
f (x)dx = F (b) − F (a) . (2.3)
a
!k
!
k!1
!1
!
0
x
Ak
on opérait donc comme le ferait un commerçant sans méthode qui compterait pièces et billets
au hasard de l’ordre où ils lui tomberaient sous la main ; tandis que nous opérons comme le
commerçant méthodique qui dit :
j’ai µ(1) pièces de 1 couronne valant 1 · µ(1),
j’ai µ(2) pièces de 2 couronnes valant 2 · µ(2),
j’ai µ(5) pièces de 5 couronnes valant 5 · µ(5),
etc, j’ai donc en tout
Les deux procédés conduiront, certes, le commerçant au même résultat parce que, si riche qu’il
soit, il n’a qu’un nombre fini de billets à compter ; mais pour nous, qui avons à additionner une
infinité d’indivisibles, la différence entre les deux façons de faire est capitale.
Pour une fonction continue (qui peut être approchée de façon uniforme par des fonctions en
escalier) et en prenant la mesure sur les intervalles fermés µ([α, β]) = β − α, on retrouve
l’intégrale de Riemann comme on le vérifiera plus bas. Mais l’idée permet de définir une
intégration plus générale. Elle repose bien sûr sur une définition plus précise de la mesure
µ.
• Mesure de Lebesgue.
Définition 2.2 : Un couple (X, T ) est dit mesurable ; le triplet (X, T , µ) est dit mesuré une
fois que l’on a choisi une mesure µ.
Exercice : montrer que les axiomes précédents sur la mesure impliquent sa monotonicité :
si B ⊂ C, µ(B) ≤ µ(C) (écrire C = B ∪ (C\B)) ; et sa sous-additivité : pour B, C ∈ T ,
µ(B ∪ C) ≤ µ(B) + µ(C), qui se généralise à tout ensemble fini ou dénombrable ∪n Bn .
Les notions précédentes de tribu de Borel, de mesure et d’espace mesuré s’étendent à des espaces topologiques
plus généraux que R.
En fait on va s’intéresser surtout à une mesure sur R généralisant la mesure naturelle pour
un intervalle : µ([a, b]) = |b − a|. On peut démontrer le
Théorème 2.1 (Mesure de Lebesgue sur les boréliens de R) : L’ensemble (R, B) admet
une unique mesure µ telle que ∀a, b ∈ R, µ([a, b]) = |b − a|.
Il en découle que pour un point {a} = [a, a], µ({a}) = 0, puis par union dénombrable, que
pour tout sous-ensemble Y fini ou dénombrable de R, µ(Y ) = 0. En particulier
Un exemple d’ensemble de mesure nulle mais non dénombrable est offert par l’ensemble de
Cantor K, voir Appendice A du chap. 1.
Un ensemble A tel que µ(A) = 0 est dit négligeable ou de mesure nulle.
Remarques
1. La propriété énoncée dans le Théorème est non triviale. Il s’agit de démontrer que la définition de µ s’étend des
intervalles à tout borélien. L’idée est de prendre le sup(µ(K)) pour tout compact K ⊂ A, ou encore l’inf(µ(O))
pour tout ouvert O ⊃ A, [5] et la difficulté est de s’assurer que la σ-additivité est bien satisfaite.
2. Il existe des sous-ensembles de R non mesurables pour la mesure de Lebesgue, en ce sens qu’aucune extension
de la mesure sur les intervalles ne peut être définie sur eux sans incohérence. Leur construction est délicate et
pas explicite, faisant appel à l’axiome du choix (Zermelo), voir quelques indications dans [1] (p. 62 et note p.
55).
3. Il peut arriver qu’un ensemble A ∈ B(R) soit de mesure nulle, mais qu’il possède des sous-ensembles B
non mesurables ! Ainsi si toute partie de l’ensemble de Cantor K était mesurable, elle serait de mesure nulle
puisque contenue dans K de mesure nulle, donc serait dans la tribu de Borel B(R). Mais card (P(K)) = 2c >
c = card (B(R)) contredit P(K) ⊂ B(R). Noter que cet argument n’est pas “constructif”, il affirme l’existence
Définition 2.3 : Une proposition P (x), x ∈ X ⊂ R, est vraie presque partout (vraie p.p.) si
elle est vraie pour tout x sauf sur un ensemble contenu dans un ensemble de mesure nulle.
• Fonctions mesurables
déf
Définition 2.4 : Une fonction f : R → R est mesurable si ∀B ⊂ R mesurable, f −1 (B) = {x ∈
R : f (x) ∈ B} est mesurable.
On comparera cette définition à celle donnée plus haut d’une fonction continue (l’image inverse
de tout ouvert est un ouvert).
Un exemple utile de fonction mesurable est celui d’une fonction constante, ∀x ∈ R, f (x) = a :
pour tout B mesurable, ou bien a ∈ B et f −1 (B) = R, ou bien a ∈ / B et f −1 (B) = ∅, et dans les
deux cas, f −1 (B) est mesurable. On montre que toute fonction f : R → R qui est soit continue,
soit monotone, est mesurable ([5], p. 30) ; que si f : R → R est mesurable, f ± = sup(±f, 0) le
sont, donc aussi |f | = f + + f − .
La réciproque n’est pas vraie : |f | peut être mesurable sans que f le soit. Soit A ⊂ R mais A ∈
/ B(R) (un ensemble
non mesurable comme ci-dessus un sous-ensemble de l’ensemble de Cantor K). Considérons la fonction f prenant
la valeur ±1 selon que x appartient ou non à A. Puisque f −1 (1) = A n’est pas mesurable, f ne l’est pas. Mais
|f | l’est puisque c’est une fonction constante.
Énonçons un fait d’expérience : toutes les fonctions rencontrées en Physique sont mesurables.
Cela est dû à la grande difficulté, mentionnée plus haut, de construire des ensembles non
mesurables, et donc à leur caractère très artificiel, jamais réalisé en physique. Pour cette raison,
nous ne nous étendrons pas davantage sur cette notion.
• Mesures sur Rn
Sur R2 , on définit la tribu notée B(R) ⊗ B(R) “engendrée par” (c’est-à-dire la plus petite
tribu contenant) tous les produits A × B de boréliens. Il existe sur cette tribu une mesure
héritée de la mesure µ sur les boréliens : µ2 (A × B) = µ(A)µ(B). Un résultat très utile est
l’invariance de la mesure µ2 non seulement par translation ou réflexion, mais aussi par rotation
ou plus généralement par déplacement dans R2 . Cela se généralise bien sûr à Rn .
• a. Fonctions étagées
Définition 2.5 : Une fonction de E dans R est dite étagée s’il existe un nombre fini d’ensembles
mesurables deux à deux disjoints Aj , j = 1, · · · , n et des nombres α1 , · · · , αn ∈ R tels que
n
X
f= αj χAj , (2.7)
j=1
où χA est la fonction indicatrice de l’ensemble A, cf (A.1). Elle est donc mesurable et ne prend
qu’un ensemble fini de valeurs. Exemple : la fonction de Dirichlet D = 0χR + 1χQ .
Un cas particulier de fonctions étagées est celui des fonctions en escalier. Rappelons la
définition déjà donnée à l’App. A.4 :
Définition 2.6 : Une fonction de R dans R est dite en escalier si elle est constante par mor-
ceaux.
C’est donc une fonction étagée dont les ensembles Aj sont des intervalles bornés.
Par exemple, la fonction de Dirichlet déjà rencontrée, D(x) = χQ (x), est étagée mais pas
en escalier.
Un théorème important pour la construction de l’intégrale de Lebesgue est le suivant
+
Théorème 2.2 : Soit E un espace mesuré. Toute fonction mesurable f : E → R est limite
simple d’une suite croissante (fn ) de fonctions étagées positives.
La “topologie de la convergence simple” sur l’espace des applications d’un e.t. X dans un e.t. Y est définie
comme suit : les ouverts en sont les unions quelconques d’intersections finies de parties de la forme W (x, V ) où
V est un ouvert quelconque de Y , x un point quelconque de X et W (x, V ) l’ensemble des fonctions f : X → Y
telles que f (x) ∈ V .
Preuve du théorème 2.2 ([7], p. 15) : Considérons d’abord une fonction mesurable f positive ; pour tout
entier n ≥ 1 et tout entier i tel que 1 ≤ i ≤ n 2n on définit
" "!
−1 i−1 i
En,i = f , et Fn = f −1 ([n, ∞])
2n 2n
et la fonction
n 2n
X i−1
fn = χEn,i + nχFn .
i=1
2n
f étant mesurable, les ensembles En,i et Fn sont mesurables, cf. Déf. 2.4. Vérifier que les fonctions fn sont bien
étagées et que la suite fn est bien croissante. Soit x ∈ E. Si f (x) est fini, fn (x) ≥ f (x) − 2−n pour n assez
grand. Si f (x) est infini, fn (x) = n. Donc dans tous les cas, fn (x) → f (x). Si f est bornée sur E, cette même
construction fournit une suite uniformément convergente de fonctions étagées positives, puisque |f − fn | < 2−n .
Pour une fonction mesurable non positive, on écrit f = f+ − f− , avec f± ≥ 0 mesurables, etc.
• b. Intégrale de Lebesgue
+
Pour une fonction étagée positive, f : E → R , donc satisfaisant (2.7) avec αi ≥ 0, l’intégrale
de Lebesgue est définie comme le nombre positif
Z n
X
déf
f dµ = αi µ(Ai )
i=1
+
C’est un nombre de R , donc éventuellement infini !
Définition 2.7 : Si ce nombre est fini, f est dite intégrable (ou sommable) au sens de Lebesgue.
Finalement pour une fonction mesurable de signe quelconque, on définit ses parties positive
et négative comme ci-dessus, f + = max (f, 0) et f − = max (−f, 0), toutes deux positives (ou
Pour une fonction à valeurs dans C, on procède de même : on sépare partie réelle et partie imaginaire et f
R R R
est intégrable si <e f et =m f le sont, avec f dµ = <e f dµ + i =m f dµ.
Inversement le fait que les deux intégrales du milieu et de droite ne soient pas égales signale
que f n’est pas intégrable. Voir des exemples en TD.
En fait l’hypothèse que f est intégrable découle elle-même de l’hypothèse que l’une ou
l’autre des “intégrales itérées” du milieu ou de droite dans (2.10) est absolument convergente
(théorème de Tonelli).
R
Autrement dit Fubini nous dit : si f est intégrable, alors x 7→ dyf (x, y) existe p.p. et est intégrable (et
R R
ibid avec x ↔ y) et on peut intervertir les intégrations ; Tonelli nous dit : si soit B dµ(y) A dµ(x)|f (x, y)| ,
R R
soit A dµ(x) B dµ(y)|f (x, y)| est finie, alors f est intégrable et le théorème de Fubini s’applique !
Mais cette condition n’est pas toujours remplie, même en physique, donc prudence ! Voir
des exemples en TD.
2.2.5 Espaces Lp et Lp
• a. Espaces Lp
Preuve : c’est évident dans le sens ⇐ ; dans le sens ⇒, on procède par l’absurde. La propriété kλf kp = |λ|kf kp
est évidente et l’inégalité triangulaire est laissée en exercice (inégalité de Minkowski, voir TD).
On note Lp (E) l’espace vectoriel des fonctions mesurables f telles que |f |p soit intégrable.
(Bien noter qu’on prend la valeur absolue de f , ce qui évite des problèmes quand f a des valeurs
négatives et que p est non entier. . .) Si E est de mesure finie, on montre que 1 ≤ p ≤ q implique
1 1
que kf kp ≤ µ(E) p − q kf kq et donc que Lq (E) ⊂ Lp (E) ⊂ L1 (E) (cf [5], p.75). Par exemple, pour
√
E =]0, 1[, x 7→ 1/ x ∈ L1 (]0, 1[) mais ∈ / L2 (]0, 1[). Noter que la condition “E est de mesure
finie” exclut E =]1, ∞[ ou R. Ainsi x 7→ 1/x ∈ / L1 (]1, ∞[) mais ∈ L2 (]1, ∞[). Donc attention !
il n’existe pas de relation d’inclusion entre les Lp (R).
Exercice : trouver un exemple de fonction qui ∈ L1 (R) mais ∈ / L2 (R) ; qui ∈
/ L1 (R) mais
∈ L2 (R) ; qui ∈ L1 (R) et ∈ L2 (R) .
Il conviendrait alors d’étudier les questions de convergence : quand une suite fn ∈ Lp convergeant p.p.
vers f a-t-elle une limite f ∈ Lp ? (théorème de Fatou) ; quelles sont les relations entre la convergence p.p.
et la convergence dans la semi-norme k kp (ou “convergence en moyenne d’ordre p”) ? ; l’espace Lp est-il
complet ? (théorème de Riesz–Fischer), voir plus bas. Pour toutes ces questions, nous renvoyons à la littérature
mathématique, voir références en fin de chapitre, et nous nous contenterons d’énoncer un résultat remarquable
et très utile, dû à Lebesgue :
Théorème 2.5 de Lebesgue de convergence dominée : Soit (fn ) une suite de fonctions
mesurables de E, sous-ensemble mesurable de R, dans R, qui converge simplement p.p. vers une
fonction f . On suppose qu’il existe une fonction g intégrable t.q. ∀n ≥ 1, |fn | ≤ g p.p. Alors f
R R
est intégrable, (fn ) converge pour la semi-norme k k1 vers f et l’on a lim E fn dµ = E f dµ.
La preuve, un peu technique, peut être trouvée par exemple dans [5] pp 94-95, qui en donne aussi une
version pour des fonctions fn et g ∈ Lp .
Autrement dit, l’existence d’une majoration des |fn | (“domination”) par une même fonction
g indépendamment de n suffit à assurer l’intégrabilité L1 de la limite et l’égalité des intégrales
à la limite, sans supposer de convergence uniforme comme dans le Théorème 1.8.
Ce théorème a d’importantes conséquences pratiques sur l’intégration terme à terme d’une
série, la continuité et la dérivabilité d’une intégrale par rapport à un paramètre, etc, voir ci-
dessous § 2.3.
2 /n2 x
e−x cos
Exemple : ([1] p. 65). Soit fn (x) = 1+x2
n
qui converge simplement vers f (x) = 1/(1+x2 )
R∞
qui est intégrable et est dominée par ce f pour tout x. On en conclut que limn→∞ −∞ fn (x)dx =
R∞ ∞
−∞
f (x)dx = Arctan x −∞ = π. Voir d’autres exemples en TD.
• b. Espaces Lp
On a vu que si deux fonctions intégrables f et g sont égales p.p., leurs intégrales sont égales.
On va maintenant identifier deux fonctions égales p.p. et on est amené à la
Définition 2.8 : Espaces Lp . Soit E un espace mesuré. L’espace Lp (E) est l’espace vectoriel
des fonctions (à valeurs dans R ou C) définies à une égalité p.p. près et telles que f p soit
intégrable.
Théorème 2.6 (Riesz–Fischer) : L’espace Lp (E) des fonctions intégrables (à valeurs dans
R
R ou C), muni de la norme kf kp = ( |f |p dµ)1/p est un e.v. normé complet. L’espace C([a, b]),
resp. C[R] des fonctions continues sur [a, b], resp. R, est dense dans L1 ([a, b]), resp. L1 (R).
2. Changement de variable
Soit f une fonction intégrable sur B ⊂ R. Soit ϕ une fonction de classe C 1 (continûment
différentiable) et de dérivée non nulle sur A = ϕ−1 (B). Alors f ◦ ϕ est intégrable sur A et
Z Z
f (y)dµ(y) = f (ϕ(x))|ϕ0 (x)|dµ(x) . (2.13)
B A
Pour l’intégrale de Riemann sur un intervalle image par ϕ monotone de [α, β] on reconnaı̂t la
formule familière de changement de variable par y = ϕ(x)
Z ϕ(β) Z β
f (y)dy = f (ϕ(x))ϕ0 (x)dx .
ϕ(α) α
Théorème 2.7 (Critère de Lebesgue) : Soit f une fonction définie et bornée sur [a, b] et
soit ∆ l’ensemble des points de discontinuité de f sur [a, b]. Alors f est intégrable au sens de
Riemann si et seulement si ∆ est contenu dans un ensemble de mesure de Lebesgue nulle.
3. Il existe aussi des versions du théorème de convergence dominée pour l’intégrale de Riemann, voir par
exemple, http://jf.burnol.free.fr/convergencedominee_v2.pdf
Théorème 2.8 : Toute fonction R → R qui est intégrable au sens de Riemann l’est aussi au
sens de Lebesgue et leurs intégrales sont égales
Z Z
f (x)dx = f dµ .
R R
Mais bien sûr, et c’est l’intérêt de l’intégrale de Lebesgue, il existe des fonctions non
intégrables au sens de Riemann mais intégrables au sens de Lebesgue. Exemple, la fonction
de Dirichlet D = χQ∩[0,1] .
Par ailleurs, la condition R → R du Théorème précédent exclut le cas des intégrales im-
propres de fonctions sur [a, b[, avec b fini ou infini, cf ci-dessus § 2.1.2. Il faut donc reprendre
l’analyse dans ce cas-là.
Pour une fonction f : [a, b[→ R, on note f ∗ son prolongement à R\[a, b[ par 0. Par définition
Rb
de l’intégrale de Lebesgue, f ∗ est intégrable de Lebesgue ssi a f dx est absolument convergente.
R∞
Par conséquent les intégrales semi-convergentes, telle 1 dx x
sin x, ne peuvent être in-
terprétées comme intégrales de Lebesgue.
Remarque. L’intégrale fonction de sa borne supérieure.
Comme on l’a rappelé plus haut, pour l’intégrale de Riemann, intégration et dérivation sont
des opérations inverses l’une de l’autre : si f est continue donc intégrable au sens de Riemann
Rx
sur [a, b], pour tout x ∈]a, b[ F (x) := a f (x0 )dx0 est dérivable et F 0 (x) = f (x). De plus
Rb
a
f (x0 )dx0 = F (b) − F (a). Pour l’intégrale de Lebesgue, cela n’est plus toujours le cas : on
verra plus bas, au Chap. 5, le cas de la fonction de Cantor F telle que F (1) − F (0) = 1 mais
R1
dont la dérivée est définie et nulle p.p. Clairement on ne peut avoir F (1) − F (0) = 0 F 0 (x)dx.
Rx
D’une manière générale, si f est intégrable de Lebesgue, l’intégrale de Lebesgue a f (x0 )dx0 est
dérivable avec pour dérivée f (x) sauf sur un ensemble de mesure nulle.
Théorème 2.9 : Pour t0 ∈ [a, b], si pour presque tout x ∈ R, t 7→ f (x, t) est continue en t0 ,
et s’il existe une fonction g : R → R+ , intégrable et dominant |f | dans un voisinage V de t0
Il s’agit là d’un résultat important en pratique en physique, où on est souvent amené à
dériver sous le signe somme. Il importe donc de connaı̂tre les conditions qui justifient cette
opération.
En ce qui concerne l’intégrabilité de φ(t), on a vu plus haut le Théorème de Fubini.
Dans le même esprit, quand peut-on intégrer terme à terme une série de fonctions ? Un théorème donne une
condition suffisante
P∞ R
Théorème 2.11 (B. Levi) : Si une suite de fonctions fn de L1 (R) est telle que n=1 R |fn (x)|dx < +∞,
P R PR
alors la série fn converge absolument p.p., sa somme f est intégrable et f dx = fn dx.
Exemples, contrexemples
a) Considérons la fonction f : f (x, 0) = 0 et si t 6= 0, f (x, t) = √12π exp − 12 (x − 1t )2 . La
fonction t 7→ f (x, t) est continue pour tout x ∈ R. Pour t 6= 0, la fonction x 7→ f (x, t) est une
gaussienne d’intégrale φ(t) = 1. Mais pour t = 0, f = 0 a une intégrale nulle. La fonction φ est
discontinue en t = 0. Dans ce cas, on n’a pas de fonction g dominante.
R∞
b) Considérons la fonction φ(t) = 0 dx cos(xt)
1+x2
, dont on montrera (Chap. 8, § 8.1.5) qu’elle
π −|t|
vaut φ(t) = 2 e , et donc qu’elle est continue mais non dérivable en t = 0. Voir TD2.
Jϕ = det Jϕ . (B.3)
Si ce jacobien Jϕ ne s’annule pas sur Ω, la fonction inverse ϕ−1 : Ω0 → Ω est aussi continûment
différentiable sur Ω0 . On appelle un tel ϕ un difféomorphisme de Ω.
Avec ces notations, on a le
et Z Z
n
f (y)d y = (f ◦ ϕ)(x)|Jϕ (x)|dn x .
Ω0 Ω
Lectures complémentaires
Voir Appel [1], et pour plus de précisions mathématiques, Gapaillard [5] et Rudin, [7].
Distributions
3.1 Introduction
Le physicien rencontre fréquemment des situations où les fonctions régulières –continues,
une fois, deux fois . . . différentiables– de l’analyse classique s’avèrent insuffisantes. Ce sont en
général des limites singulières de problèmes bien définis, voir ci-dessous des exemples, et le
physicien a donc à sa disposition une “régularisation” naturelle de la singularité, fournie par le
problème étudié avant d’en prendre la limite. Cette régularisation n’est pas toujours évidente
dans une formulation mathématique générale. Cela va nous amener à introduire des objets
mathématiques nouveaux, les fonctions généralisées ou distributions.
Ces concepts ont été intuités par le physicien P.A.M. Dirac et développés par les mathémati-
ciens Sergei Sobolev et Laurent Schwartz, dans les années 1935-1945.
Commençons par présenter quelques problèmes physiques où se rencontrent ces problèmes.
Il s’agit en général d’idéalisations de situations bien définies : limite de charge électrique ponc-
tuelle, de réseau diffuseur infiniment étendu, de choc infiniment bref avec changement instantané
de la vitesse, etc.
Comment passer de (3.2) à (3.1) quand la charge est localisée en le seul point r0 ? Il faut imaginer
que la fonction ρ(r) a un support de plus en plus restreint quand un paramètre , par exemple
le diamètre de ce support, tend vers zéro, et est telle que lim→0 d3 r0 ρ(r0 )ϕ(r0 ) = qϕ(r0 ) pour
R
toute fonction ϕ “pas trop singulière” comme 1 ou comme 1/kr − r0 k. A la limite, ρ devrait
donc être nulle presque partout. On voit qu’au sens de l’intégrale de Lebesgue du chapitre 2,
son intégrale devrait alors être nulle, alors qu’on attend que cette intégrale vaille q. Cette limite
de ρ ne peut donc pas s’assimiler à une fonction. On écrira lim→0 ρ(r0 ) = qδ(r0 − r0 ), et δ, la
distribution delta de Dirac, nulle p.p. et d’intégrale égale à 1, nous offre un premier exemple
de distribution.
où ∆ = a(sin α − sin β) est la différence de chemins optiques entre deux rayons lumineux incidents sur des
centres adjacents, voir Fig. 3.1.
(a)
!La 0 La
"
"
a sin " !
a sin "
(b) a sin! (c)
! a sin!
Figure 3.1 – (a) Diffusion par un réseau fini fait de 2L + 1 centres diffuseurs. (b-c) Différence de
chemin optique entre deux rayons lumineux adjacents observés en transmission (b) ou en réflexion (c).
Dans la limite où le nombre 2L + 1 de diffuseurs tend vers l’infini, le facteur (3.3) apparaissant dans
l’amplitude devient de plus en plus “piqué” et grand au voisinage de toute valeur 2πK de x, cf Fig 3.2. La limite
(dans un sens qui devra être précisé) est donc infinie en tout point 2πK, nulle ailleurs. On notera 2πδP (x) cette
limite, où l’indice “P ” rappelle sa nature périodique, de période 2π,
∞
? 1 X i`x
δP (x) = e .
2π
`=−∞
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
-3 -2 -1 1 2 3 -3 -2 -1 1 2 3
-0.2 -0.2
-0.4 -0.4
Figure 3.2 – La fonction sin(2L + 1) x2 /[(2L + 1) sin x2 ] entre −π et π pour deux valeurs de L = 10 et
L = 50. On voit que la fonction n’est d’ordre 1 que dans un intervalle |∆x| ≈ O( L1 ) autour de chaque
multiple de 2π.
Noter que son intégrale vaut 1 sur tout intervalle de longueur 2π (on intervertit hardiment intégration et
sommation infinie, il faudrait revenir à la somme de −L à L)
Z π ∞
Z π X ∞
1 X
δP (x)dx = ei`x dx = δ`0 = 1 , (3.4)
−π 2π −π
`=−∞ `=−∞
et on peut donc écrire –toujours de façon très heuristique– δP comme une superposition linéaire de distributions
de Dirac localisées aux multiples de 2π
∞
X
δP (x) = δ(x − 2πK) .
K=−∞
On donne pour cela à cette fonction généralisée, dont on a tenté de dessiner le graphe à la figure 3.3, le nom de
“peigne de Dirac”, et on remplace souvent la notation δP par celle, plus suggestive, de X (la lettre cyrillique
“cha”). On y reviendra plus bas, équ. (3.7).
x/2
2 1 0 1 2
Figure 3.3 – Le “peigne de Dirac”
pendant l’intervalle ∆t du choc est linéaire, voir figure 3.4. Par la loi de Newton, la force à laquelle la balle
est soumise est F = mv̇ = m∆v/∆t, donc F = −2mv0 /∆t. La variation de la quantité de mouvement,
∆21 p = p2 − p1 = −2mv0 = F∆t est indépendante de ∆t. Dans le cas limite où ∆t → 0, la force F est mal
définie, mais son intégrale sur tout intervalle de temps [t1 , t2 ] qui mesure cette variation de la quantité de mouve-
Rt R
ment ∆21 p = p2 −p1 = t12 dt F(t) reste, elle, bien définie. En particulier, pour tout 6= 0, − dt F(t) = −2mv0 .
À nouveau l’analyse usuelle faisant appel à des fonctions ordinaires ne peut rendre compte de ce F(t).
v v
t t
!t
Figure 3.4 – (a) profil de vitesse lors d’un choc élastique ; (b) limite d’un choc instantané
0.015
0.010
0.005
Définition 3.2 : Une distribution est une forme linéaire continue sur D. L’espace des distri-
butions est noté D0 , c’est le dual de D.
Définition 3.4 : Une forme linéaire (ou “fonctionnelle”) sur D est continue ssi pour toute
suite de fonctions-tests ϕn ∈ D convergeant dans D vers ϕ ∈ D, h T, ϕn i −→ h T, ϕ i .
Ce point complète la définition des distributions. Retenir qu’une distribution doit être une
fonctionnelle linéaire et continue. Ce dernier point est souvent le plus délicat à vérifier.
Commentaire sur le choix de l’espace D. Pourquoi ce choix, qui semble assez restrictif ? Noter
que plus on restreint la classe des fonctions-tests, plus grand sera l’espace des distributions
définies sur ces fonctions 1 . Le fait que les fonctions-tests soient de classe C ∞ n’est pas très
restrictif, toute fonction continue à support borné étant limite uniforme de telles fonctions 2 ;
le fait qu’elles soient de support borné sera levé plus tard : on considérera au Chap. 4 l’espace S
des fonctions-tests lisses (c’est-à-dire de classe C ∞ ) et à “décroissance rapide” ainsi que toutes
leurs dérivées (S pour Schwartz), et l’espace dual S 0 qui en résultera sera plus petit que D0 .
• Distributions régulières
Définition 3.5 : Une fonction mesurable f de Rn dans C est localement intégrable si pour
R
tout compact K ⊂ Rn , la fonction f · χK est intégrable, autrement dit K f (x)dx existe. On
note L1loc (Rn ) l’ensemble des fonctions localement intégrables sur Rn .
Si la propriété d’intégrabilité est vraie sur tout Rn , la fonction est intégrable. Par exemple
√
la fonction 1/ x, ou la fonction constante 1, sont localement intégrables sur R mais pas
intégrables. La fonction 1/x n’est pas localement intégrable. Toute fonction de Lp (Rn ), p ≥ 1,
est localement intégrable.
Toute fonction localement intégrable définit une distribution par intégration :
Théorème 3.1 : Si f est localement intégrable, elle définit une distribution, notée également
f , par Z ∞
∀ϕ ∈ D h f, ϕ i = f (x)ϕ(x)dx .
−∞
Cette distribution est appelée la distribution régulière associée à la fonction localement intégrable
f.
Preuve : Il est clair que l’intégrale existe, puisque restreinte à un intervalle compact, le support de ϕ. La
fonctionnelle est bien linéaire. Elle est continue car si la suite ϕn ∈ D converge vers ϕ ∈ D, avec des supports
R R R R
contenus dans un compact K, | f (ϕn −ϕ)| ≤ |f | |ϕn −ϕ| ≤ kϕn −ϕk∞ K |f | = M kϕn −ϕk∞ , où M = K |f |
existe puisque f est localement intégrable. Mais l’hypothèse CVU : kϕn − ϕk∞ → 0 donc h f, ϕn i → h f, ϕ i.
Ces distributions régulières expliquent en quoi les distributions sont des “fonctions généralisées”.
Elles vont nous guider dans la définition des opérations de dérivation, etc, des distributions.
1. au contraire du cas d’un espace vectoriel E de dimension finie, pour lequel dim E 0 = dim E, cf App. B
2. c’est le théorème de Stone–Weierstrass, une généralisation du théorème de Weierstrass cité à l’App. A.4
du Chap. 1.
Noter que deux fonctions localement intégrables égales p.p. définissent la même distribution
régulière.
• Distributions singulières
Ce sont les distributions que l’on ne peut pas associer à des fonctions localement intégrables.
Exemples :
1. Distribution de Dirac sur R. C’est la distribution notée δx0 ou encore δ(x − x0 ) définie
par
h δx0 , ϕ i = ϕ(x0 ) (3.6)
Définition 3.6 : On appelle support d’une distribution T sur O le complémentaire du plus grand ouvert sur
lequel T est nulle.
Remarque : Le support est bien défini, car si une distribution est nulle sur chacun des ouverts d’une famille,
elle est nulle sur leur réunion ; son support est donc le complémentaire de la réunion de tous les ouverts sur
lesquels elle est nulle.
Exemples : Si T est une distribution régulière associée à une fonction continue, alors le support qu’on vient
de définir s’identifie au support défini précédemment pour les fonctions continues. Si T est une distribution δ
ou n’importe laquelle de ses dérivées, son support se réduit au point 0.
1
À nouveau, l’extension à Rn est aisée, mais attention, le jacobien est maintenant |k|n
!
1 −1
dans Rn h T(k) , ϕ i = n
h T, ϕ(k ) i . (3.13)
|k|
h T 0 , ϕ i = −h T, ϕ0 i
déf
(3.15)
(Elle est appelée d-dérivée dans les TD)
Cette définition, que nous allons beaucoup utiliser, s’étend très naturellement aux dérivées
d’ordre supérieur, mais aussi aux dérivées partielles pour des distributions sur Rn , etc. Nous
nous intéresserons plus bas au laplacien de T ∈ D0 (Rn )
ϕ∈D : h ∆T, ϕ i = h T, ∆ϕ i .
On voit que la dérivabilité des distributions ne pose pas de problème. En fait même si une
fonction (localement intégrable) n’est pas dérivable comme fonction, elle est toujours dérivable
en tant que distribution ! Exemple : la fonction “saut” de Heaviside,
0 si x < 0
H(x) = 1 (3.16)
2
si x = 0
1
si x > 0
est une fonction localement intégrable ; elle est discontinue en 0 et n’est donc pas dérivable en
ce point. Sa dérivation en tant que distribution, cependant, ne pose pas de problème :
Z ∞
0 0
h H , ϕ i = −h H, ϕ i = − ϕ0 (x)dx = [−ϕ]∞0 = ϕ(0) = h δ, ϕ i
0
donc
H0 = δ (3.17)
La dérivée de H est la distribution de Dirac ! Noter que selon une remarque faite plus haut, on
peut modifier la “valeur” de H en x = 0 sans modifier la distribution H.
C’est au signe près et à une dilatation verticale près la fonction qui décrit la discontinuité de
vitesse dans l’exemple du choc du § 3.1.3.
Par le même calcul que plus haut, on a 0 = 2δ.
Les dérivées successives de la distribution δ de Dirac se définissent de même et peuvent être
rencontrées en physique.
ϕ (f −1 (0))
δ −1
h δ ◦ f, ϕ i = , ϕ ◦ f = , (3.20)
|f 0 ◦ f −1 | |f 0 (f −1 (0)) |
ou encore
1
δ(f (x)) = δ(x − x0 ) (3.21)
|f 0 (x 0 )|
avec x0 l’unique zéro de la fonction (supposée monotone) f . (Si f ne couvre pas tout R et n’a
pas de zéro, l’intégrale est nulle). Noter qu’on a besoin de l’hypothèse que f 0 ne s’annule pas
au zéro x0 de f : f 0 (x0 ) 6= 0. Ainsi f (x) = x3 est exclue.
On peut généraliser au cas d’une fonction f n’ayant que des zéros isolés xi ∈ R où sa
dérivée ne s’annule pas. Il suffit de couper le domaine d’intégration en sous-domaines où f est
monotone, et la formule (3.21) donne alors
déf
X 1
δ(f (x)) = δ(x − xi ) . (3.22)
xi |f 0 (x i )|
f (xi )=0
Cette identité est très utile au physicien, on la rencontrera chaque fois qu’on imposera une
contrainte par l’intermédiaire d’une distribution δ, voir ci-dessous § 3.4.3 des exemples d’appli-
cation.
On peut retrouver la relation (3.22) par un argument qualitatif (“heuristique”) : la distribution δ ◦ f “localise”
l’intégration dans h δ ◦ f, ϕ i au voisinage des zéros xi de f . Au voisinage de chacun de ces zéros, on développe
au premier ordre non nul f (x) ≈ f (xi ) + (x − xi )f 0 (xi ) + · · · = (x − xi )f 0 (xi ) + · · · puisque f (xi ) = 0 et qu’on
suppose f 0 (xi ) 6= 0 ; on conçoit que l’on puisse écrire δ(f (x)) = i δ(f 0 (xi )(x − xi )) = i δ(x−x i)
P P
|f 0 (xi )| (par (3.12)),
qui n’est autre que (3.22).
Cela définit une fonctionnelle linéaire T , on peut montrer que cette fonctionnelle est continue,
D0
c’est donc une distribution de D0 et on écrit Tn → T .
On montre aussi la compatibilité entre limite faible et dérivation au sens des distributions :
D0 (p) D0
si Tn → T , il y a aussi convergence faible de toutes les dérivées Tn → T (p) .
Exemples. Considérons les deux suites de fonctions
p n − nx2
– gaussiennes fn (x) = 2π e 2 , ce sont des fonctions de classe C ∞ ;
– fonctions “porte” gn (x) = n2 (H(x + n1 ) − H(x − n1 )), égales à n2 pour − n1 ≤ x ≤ n1 , nulles
ailleurs : ce sont des fonctions en escalier.
2.0
1.5
2
1.0
-2 -1 1 2
-1
0.5
-2
-3
-2 -1 0 1 2
Figure 3.6 – Les fonctions gaussiennes fn de plus en plus piquées, de n = 1 à n = 5, et leurs dérivées
premières de n = 1 à n = 3.
R R
Ces fonctions fn et gn sont positives et normalisées par fn dx = 1, gn dx = 1. Elles
prennent des valeurs ≥ O(1) (en un sens qu’il faudrait préciser) dans un intervalle de longueur
tendant vers 0 quand n → ∞. Elles définissent des distributions régulières qui tendent faible-
ment dans D0 vers δ quand n → ∞. Inversement elles peuvent constituer des “régularisations”
utiles de la distribution de Dirac.
Exercice : étudier analytiquement et avec le logiciel Maple ou Mathematica la convergence
des fonctions trigonométrico-rationnelles : hn (x) = sin2 (πnx)/nπx2 et de leurs dérivées. Le cas
des fonctions sin nx/ sin x rencontrées dans l’introduction, ou celui des sin nx/x (cf [1] p. 210)
est plus délicat, mais permet aussi de construire les distributions X ou δ par une limite.
Cette formule admet une intéressante généralisation relativiste. Une particule de charge q suivant une
trajectoire d’espace-temps xµ (τ ), avec τ le temps propre, ds2 = c2 dτ 2 , crée en tout point y = (y, t) d’espace-
temps un quadri-vecteur courant d’expression
dxµ (τ ) 3 dxµ (τ ) 4
Z
j µ (y, t) = q δ (y − x(τ ))|t=x0 (τ ) = q dτ δ (y − x(τ )) .
dt dτ
Noter que dans la 3ème expression on a récrit le courant sous forme explicitement covariante, en passant
d’une distribution de Dirac à trois dimensions δ 3 à une distribution δ 4 . Exercice : vérifier l’équivalence entre
les 2ème et 3ème expressions en utilisant (3.21). Ce courant a une composante temporelle, la densité de charge,
j 0 (y, t) = qδ 3 (y − x(τ ))|t=x0 (τ ) qui satisfait bien d3 y j 0 (y, t) = q et on vérifie qu’il est de (quadri)divergence
R
nulle : ∂µ j µ (y) = 0.
On pourrait discuter de même une distribution “surfacique” de charges, etc.
p2 = (p0 )2 − p2 = m2 . (3.23)
mais on accompagne en général la condition (3.23) de la condition que l’énergie p0 est positive,
en d’autres termes on s’intéresse à
p
2 2 0 δ(p0 − p2 + m2 )
δ(p − m ) H(p ) = p .
2 p2 + m2
d3 p
d4 p δ(p2 − m2 ) H(p0 ) = p (3.24)
2 p2 + m2
où l’expression du membre de gauche, qui est évidemment invariante relativiste, nous garantit
que celle du membre de droite l’est aussi. Il faut comprendre (3.24) au sens des distributions,
c’est-à-dire testé dans une intégration avec une fonction ϕ ∈ D(R4 ) arbitraire
d3 p
Z Z p
4 2 2 0 0
d p δ(p − m ) H(p ) ϕ(p , p) = p ϕ( p2 + m2 , p) .
2 p2 + m2
Exemple, δ(x) ⊗ δ(y) n’est autre que la distribution notée plus haut δ 2 (x).
4. Finalement venons-en au produit le plus naturel sur des distributions, celui de convolution.
D’abord pour des fonctions f et g localement intégrables, on définit leur produit de convo-
lution f ∗ g par l’intégrale suivante, si elle existe,
Z
(f ∗ g)(x) = dyf (x − y)g(y) . (3.25)
Il est aisé de trouver des conditions suffisantes pour que cette intégrale existe : par exemple si
f et g sont définies p.p. et localement intégrables et de support borné à gauche, (resp. à droite,
ou a fortiori à gauche et à droite !), l’intégrale en y est restreinte à un ensemble borné et existe
presque partout, cf [5], p. 164
Exemples : La fonction de Heaviside H a un support borné à gauche (par 0). Son carré de
convolution H ∗ H existe donc. En revanche, H(x) ∗ H(−x) n’existe pas.
Intuitivement, l’effet de la convolution d’une fonction f par une fonction g ∈ D est de
“lisser” les singularités de f . Voir sur la figure 3.7 la convoluée d’une fonction “porte” χ par
une fonction φ du type (3.5).
y
1.5 Φ
1.0 Χ
0.5
Φ* Χ
x
-2 -1 1 2 3
Exercice (facile !) : Vérifier que le produit de convolution, s’il existe, est commutatif : f ∗ g =
g ∗ f.
Une fois cette définition acquise, on peut envisager de l’étendre à des distributions. Pour
deux fonctions localement intégrables f et g et ϕ ∈ D(R) considérons
Z Z Z Z Z
h f ∗ g, ϕ i = dx(f ∗ g)(x)ϕ(x) = dx dyf (x − y)g(y)ϕ(x) = dx dyf (x)g(y)ϕ(x + y)
(= h f ⊗g, ϕ(x+y) i avec la notation ⊗ du point 2 précédent.) Une fois encore nous généralisons
cette relation à un produit de deux distributions.
si elle existe ! À nouveau on peut trouver des conditions suffisantes d’existence. Par exemple,
(exercice !) T1 et T2 sont toutes deux à support borné à gauche (resp. à droite). Ou bien l’une
des deux est à support borné. (Voir la définition du support d’une distribution au § 3.2.1.)
Exercice : vérifier que le produit de convolution de distributions est commutatif et associatif :
(T1 ∗ T2 ) ∗ T3 = T1 ∗ (T2 ∗ T3 ) = T1 ∗ T2 ∗ T3 , à condition que T1 ∗ T2 , T1 ∗ T3 et T2 ∗ T3 soient
définis. En revanche, examiner le cas de 1 ∗ δ 0 ∗ H où 1 est la distribution régulière associée à
la fonction constante 1 et montrer que dans ce cas, on n’a pas associativité !
suppose de plus qu’il y a “invariance par translation dans le temps” K(t + τ, t0 + τ ) = K(t, t0 ),
le “noyau” K ne dépend en fait que de la différence de ses arguments et, gardant la même
notation K, on écrit finalement
Z
Y (t) = dt0 K(t − t0 )X(t0 )
qui n’est autre qu’un produit de convolution de K et de X. Pour une discussion plus approfon-
die de cette problématique, voir [8] et [1].
Autre exemple rencontré au début de ce chapitre : le potentiel électrique créé par une distri-
bution de charges de densité ρ est, voir (3.2), le produit de convolution de ρ par le noyau de
1 1
Coulomb 4π 0 |r|
. Cette fois, c’est l’invariance par translation spatiale qui jointe à la linéarité
dicte la forme de convolution.
∆x G(x − y) = δ d (x − y) (3.29)
où x, y ∈ Rd . (On donne le nom de “fonction de Green” à une telle solution.) Montrons que
− Cd−1 si d 6= 2
kxkd−2
G(x) = (3.30)
− 1 ln( 1 ) si d = 2
2π kxk
est solution, où Cd = (d − 2)Ωd−1 , Ωd−1 l’aire de la sphère unité S d−1 dans Rd :
d
2π 2
Ωd−1 = d . (3.31)
Γ( 2 )
Γ désigne une “fonction spéciale” que l’on étudiera en détail plus bas (Chap. 6 et 8). Qu’il
suffise de dire ici que Γ(x) généralise à x réel quelconque la fonction factorielle, Γ(n) = (n − 1)!
√
si n ∈ N et pour n = p + 21 demi-entier, Γ(p + 12 ) = (2p−1)(2p−3)···1
2 p π. On retrouve en particulier
Ω1 = 2π, Ω2 = 4π etc.
∂2 d−1 ∂ 1 ∂ ∂
∆= 2
+ = d−1 rd−1 , (3.32)
∂r r ∂r r ∂r ∂r
1 1 ∂ 1
(vérifier !), on pourrait penser que ∆ rd−2 = −(d − 2) rd−1 ∂r
(rd−1 rd−1 ) ≡ 0. En fait cela n’est
vrai que pour r 6= 0, et il nous faut faire un calcul de dérivées au sens des distributions pour
obtenir le résultat correct.
Preuve de (3.30) : Pour d 6= 2 et ϕ une fonction test de D(Rd ), on veut calculer I = dd x ϕ(x)∆ kxk1d−2 .
R
Comme ∆ kxk1d−2 est invariant par rotation et ne dépend que de la variable radiale r = kxk, seule contribue à
cette intégrale la moyenne angulaire ϕ(r) de ϕ sur la sphère de rayon r
Z
Ωd−1 rd−1 ϕ(r) = dd x ϕ(x) ,
kxk=r
1
dr Ωd−1 rd−1 ϕ(r)∆ rd−2 . Noter que ϕ est de classe C ∞ sur R+ , avec ϕ(0) = ϕ(0). On a alors
R
et I =
Z ∞ Z ∞
1 ∂ ∂ 1 ∂
I = Ωd−1 dr rd−1 ϕ(r) d−1 rd−1 = −(d − 2)Ωd−1 dr ϕ(r) 1
0 Z ∞ r ∂r ∂r rd−2 0 ∂r
distrib.
= Ωd−1 (d − 2) dr ϕ0 (r) = −Ωd−1 (d − 2)ϕ(0) = −Cd ϕ(0) ,
0
Lectures complémentaires
La référence de base est bien sûr [9], ou dans une version plus proche de ce cours, [8].
L’exposé de [1] est très clair et complet.
Pour l’histoire du développement des distributions, lire Jean-Michel Kantor, MATHEMA-
TIQUES D’EST EN OUEST, théorie et pratique : l’exemple des distributions, disponible sur
http://www.math.jussieu.fr/∼kantor/
Exemples : les polynômes d’une variable à coefficients dans R forment une algèbre sur R
notée R[x] ; l’ensemble Mn (R) des matrices n × n à éléments dans R est une algèbre sur R. On
rencontrera au Chap. 6 l’algèbre des séries entières.
Dual d’un espace vectoriel (e.v.)
Soit E un e.v. sur R. L’espace dual E 0 est par définition l’espace vectoriel des formes linéaires
sur E, T : E → R, c’est-à-dire des applications linéaires de E dans R. Si dim E = n, soit ei , i =
1, · · · n, une base de E : ∀X ∈ E, X = ni=1 xi ei , et si T est une forme linéaire de E 0 , on note
P
T (X) ou h T |X i son action sur X, c’est une fonction linéaire des xi : T (X) = h T |X i = i xi ti
P
avec des coefficients ti ∈ R, ce qu’on peut récrire comme T (X) = h T |X i = i,j xi tj h f j |ei i
P
avec f j tels que h f j |ei i = δij . On montre aisément que ces f j sont linéairement indépendants
et qu’ils forment une base de E 0 , c’est la base duale des ei dans E 0 . On note aussi que dim E 0 =
dim E = n. Cette propriété qui est vraie en dimension finie ne l’est plus forcément en dimension
infinie, comme on a vu au § 3.2.1.
Transformation de Fourier
On va étudier la transformation intégrale f˜(k) = dxeikx f (x) qui fait passer d’une fonction
R
∂2 2
2 ∂
− v u(x, t) = 0 . (4.1)
∂t2 ∂x2
est aussi solution de (4.1) : cette solution a une amplitude qui est la transformée de Fourier
de l’amplitude A(k) dans l’espace des vecteurs d’onde. Noter que la vitesse v est la vitesse de
propagation de l’onde, lumineuse, acoustique, mécanique etc.
Équation d’une corde vibrante.
Cherchons maintenant une solution de (4.1) décrivant les vibrations d’une corde de longueur L
et d’extrémités fixées. L’amplitude (transverse) de vibration de la corde est une fonction u(x, t),
0 ≤ x ≤ L, t ≥ 0, sujette aux conditions aux limites
∂u(x, t)
u(x, 0) = f (x) = g(x) u(0, t) = u(L, t) = 0 , (4.3)
∂t t=0
où les fonctions f et g décrivent comment la corde est excitée à l’instant t = 0. Cherchant
des solutions réelles et factorisées en X(x)T (t) comme ci-dessus, on prend k 2 ∈ R et on écarte
les cas où k 2 n’est pas positif car ils ne peuvent décrire une amplitude bornée d’une onde de
vibration, X(x) = A cos kx + B sin kx, T (t) = a cos kvt + b sin kvt. (On notera kv = ω dans la
suite.) Les conditions aux limites d’espace restreignent à X(x) = B sin kx, kL = nπ, n ∈ N,
donc ∞
X nπ πv
u(x, t) = (an cos ωn t + bn sin ωn t) sin kn x kn = ωn = n
n=1
L L
et les conditions initiales à t = 0 se reflètent dans les coefficients an et bn via les développements
en série de Fourier de f et g 1
∞ ∞
X nπ X nπ
f (x) = an sin x g(x) = bn ωn sin x.
n=1
L n=1
L
1. ou plus précisément les développements en série de Fourier des prolongements des fonctions f et g en
fonctions impaires sur l’intervalle [−L, L], périodiques de période 2L.
Les deux types de développements que nous allons discuter maintenant sont donc intimement
liés à la physique des ondes.
et Z π
1
An = f (x)e−inx dx . (4.9)
2π −π
Mais il s’agit de savoir si ces séries convergent, et si oui, si leur somme reproduit bien la fonction
f donnée.
Théorème 4.1 : Si f (x) est définie sur [−π, π] et n’y a qu’un nombre fini de discontinuités
finies et a ailleurs une dérivée continue, (fonction C 1 par morceaux), alors le développement
converge pour tout x ∈ [−π, π] ; sa somme est 12 f (x− ) + f (x+ ) en tout point de ] − π, π[,
et 12 f (−π+ ) + f (π− )) en ±π. Dans tout sous-intervalle où la fonction f est continue, la
Pour une fonction satisfaisant les conditions du théorème de Dirichlet, les coefficients an ,
bn décroissent en valeur absolue au moins comme |an | ∼ 1/n, |bn | ∼ 1/n pour n grand, ce qui
n’assure pas en général la convergence absolue de la série de Fourier, mais n’exclut pas la conver-
gence simple pour certaines valeurs de x. Ces coefficients peuvent décroı̂tre plus rapidement, si
la fonction est plus régulière. En fait on peut démontrer le
Théorème 4.2 (Stokes) : Si f (k) est la première des dérivées de f à avoir une discontinuité
1
(ou un nombre fini de discontinuités) alors |an |, |bn |, |An | ∼ nk+1 .
avec k ∈ R, si cette intégrale existe (voir plus bas), et on appelle f˜, notée aussi f˜ = F[f ], la
transformée de Fourier de la fonction f . C’est une fonction R → C.
• Premiers exemples.
Transformée de Fourier de
– une fonction “porte” Π(x) = χ[−1,1] (x), la fonction indicatrice de l’intervalle [−1, 1]. On
calcule (exercice : vérifier !) que Π̃(k) = 2 sink k . Noter que cette fonction Π̃ n’est pas
intégrable (de Lebesgue) sur R, même si son intégrale est “semi-convergente” ;
– une fonction “lorentzienne” f (x) = 2a/(x2 + a2 ) où a > 0, f˜ = 2πe−|k|a , comme on le
verra plus tard par un calcul de résidu (Chap. 8, équ. (8.4)) ;
2
– une fonction gaussienne f (x) = exp − (x−a)2b2
a pour transformée de Fourier
√ 1 2 2
f˜(k) = 2π|b| eiak− 2 k b
fonctions définies à égalité p.p. près. On introduit une nouvelle notation commode : L∞ (R)
désigne l’espace (de Banach) des fonctions définies p.p. et bornées sur R.
Théorème 4.3 : Si f ∈ L1 (R), f˜ est définie et continue sur R. Elle est bornée, donc f˜ ∈ L∞
et kf˜k∞ ≤ kf k1 .
Cela découle du théorème 2.9 du chapitre 2, sur la continuité d’une fonction définie par une intégrale
:
R ∞
ici, f (x)eikx est bien dominée par |f (x)| qui est intégrable. En outre on a |f˜(k)| = −∞ dx eikx f (x) ≤
R∞
−∞
dx |f (x)| = kf k1 pour tout k ∈ R, d’où kf˜k∞ = supk∈R |f˜(k)| ≤ kf k1 .
Bien noter que le fait qu’une fonction de L1 est définie p.p. n’influe pas sur l’intégrale
définissant f˜. Ainsi, pour la fonction porte d’un exemple ci-dessus, qui est non définie en ±1,
l’intégrale f˜ est bien définie. (En revanche, sa transformée de Fourier f˜ = sin k/k est bornée,
|f˜| ≤ 1, f˜ ∈ L∞ , mais non intégrable de Lebesgue, f˜ ∈ / L1 .)
Théorème 4.4 : La transformation de Fourier est une opération linéaire et continue de L1 (R)
dans L∞ (R).
Qu’elle est continue signifie que pour toute suite de fonctions fn tendant (au sens de la norme
k.k1 ) dans L1 vers une fonction f ∈ L1 , F[fn ] → F[f ], au sens de la norme k.k∞ . Par linéarité,
cela découle du Théorème 4.3 : kF[fn ] − F[f ]k∞ = kF[fn − f ]k∞ ≤ kfn − f k1 → 0 . On peut
réexprimer ce théorème en disant : la transformée de Fourier transforme la convergence en
moyenne (au sens de L1 ) en convergence uniforme (au sens de L∞ ).
Noter encore que la transformation de Fourier fait passer de l’espace L1 à L∞ : comme
l’a montré l’exemple de la fonction Π plus haut, la transformée de Fourier n’appartient pas
toujours à L1 (R) !
L’idée de la preuve repose sur une astuce, l’insertion dans l’intégrale de e−iπ = −1 sous la forme :
Z Z Z Z
1 πk 1 1 πk 1 πk
f˜(k) = eikx 1−e−ik. k2 f (x)dx = eikx f (x)dx− eik(x− k2 ) f (x)dx = eikx f (x)−f x+ 2 dx
2 2 2 2 k
Quand |k| → ∞, l’intégrand de la dernière intégrale tend vers zéro et nous admettrons que cela assure la
convergence vers zéro de l’intégrale, voir [5] § 7.3.
Dans les cas où f˜ ∈ L1 , on peut inverser la transformation de façon tout à fait explicite :
Autrement dit, au facteur 1/2π près, l’inversion de la transformation de Fourier est simplement
la transformation de Fourier complexe conjuguée : F −1 = 2π 1
F, sauf peut-être aux points de
discontinuité de f .
Esquisse de la preuve : elle fait appel à l’identité R f g̃dx = R f˜gdx pour toute paire de fonctions f et g
R R
On lit sur l’expression de f˜(k) = F[f ](k) = R dkeikx f (x) les propriétés suivantes de
R
conjugaison F[f (−x)] = F(f (x)) = f˜(−k), F[f (x)] = f˜(−k), F[f (x − a)] = eika f˜(k) et
F[f (x)e−i`x ] = f˜(k − `).
f (x) f˜(k)
f (x) = f (−x) paire f˜(k) = f˜(−k) paire
f (x) = −f (−x) impaire f˜(k) = −f˜(−k) impaire
f (x) = f (x) réelle f˜(k) = f˜(−k) “hermitienne”
f (x) = −f (x) imaginaire f˜(k) = −f˜(−k) anti-hermitienne
• Dérivation
par intégrations par parties répétées de la formule de définition (4.10). (En effet : si g, g 0 ∈ L1 ,
|g(x)| → 0 quand x → ±∞. Exercice : le vérifier.)
En particulier
d ˜
F[f 0 (x)] = −ik f˜(k) et F[ixf (x)] = f (k)
dk
Cela implique des relations importantes entre l’existence de dérivées d’une fonction et le com-
portement asymptotique de sa transformée de Fourier. Ainsi
En effet si f ∈ L1 est à support borné, tous les xn f ∈ L1 , donc tous les f˜(n) existent par (4.12).
Pour la réciproque, voir plus bas, Prop. 4.9.
On a vu plus haut (Théorème 4.5 de Riemann–Lebesgue) que si f est continue, f˜(k) s’annule
à l’infini. Peut-on affiner ce résultat et dire comment f˜ s’annule ? Comme conséquence de (4.12-
4.13), on a le
qui nous dit que des propriétés de régularité (existence d’une dérivée intégrable) d’une fonction
se traduisent par des propriétés de décroissance de sa transformée de Fourier et vice versa.
Ces résultats sont l’analogue des résultats concernant le comportement asymptotique des
coefficients de la série de Fourier (théorème 4.2 de Stokes).
Si dans le (b) du théorème précédent, l’entier ` n’est pas borné, on est dans la classe des
fonctions à décroissance rapide.
Définition 4.1 : Une fonction f est dite à décroissance rapide si ∀` ∈ N, limx→±∞ |x` f (x)| = 0.
2
Exemples : f (x) = e−x est à décroissance rapide et de classe C ∞ ; f (x) = e−|x| est à
décroissance rapide, mais pas de classe C ∞ . Toute fonction à support borné est à décroissance
rapide.
Par la proposition précédente, si f est intégrable à décroissance rapide, alors toutes les
dérivées de f˜ existent.
Définition 4.2 : On désigne par S (espace de Schwartz) l’espace des fonctions de classe C ∞
qui sont à décroissance rapide ainsi que toutes leurs dérivées.
Exemple : si f ∈ D, f˜ est de classe C ∞ (Prop. 4.7) ; toute dérivée f (n) existe et est intégrable,
donc par le Théorème 4.8(b), f˜ décroı̂t au moins comme 1/|k|n pour tout n, donc f˜ ∈ S.
Dans cet espace, on dit qu’une suite de fonctions fn converge vers 0 si, pour tous p, q ∈ N,
Preuve : La transformation de Fourier applique S dans S : en effet si f ∈ S, f˜ est de classe C ∞ (Prop. 4.9) ;
toute dérivée f (k) est à décroissance rapide et intégrable, donc par le théorème 4.8, f˜ est aussi à décroissance
rapide. Il en est de même de toutes ses dérivées f˜(n) , puisqu’elles sont les transformées de Fourier des xn f (x),
à qui l’argument précédent s’applique aussi. La continuité annoncée dans le théorème équivaut au fait que pour
toute suite fn ∈ S qui tend vers 0 au sens défini plus haut, les f˜n tendent aussi vers 0.
Ces résultats sur S vont nous permettre de définir maintenant la transformée de Fourier sur
l’espace L2 (R) des fonctions de carré intégrable (ou “sommable”).
Il convient à ce point de souligner l’importance en physique de cette classe de fonctions. En électromagnétisme
et en théorie des ondes, comme en théorie du signal, dt|f (t)|2 donne l’énergie de l’onde ou du signal d’am-
R
plitude f (t). En mécanique quantique, les états d’un système sont décrits par des fonctions d’onde complexes
ψ, fonctions d’une (ou plusieurs) variable(s) de position ou d’impulsion, et ψ est requis à être de module carré
intégrable.
On montre, et nous admettrons, (voir [1] p. 269 ou [5] p. 173 et 199 ff. pour plus de détails),
que
– l’espace S est dense dans l’espace L2 (R) pour la norme de L2 ; ce dernier est complet (cf
Chap. 2, Théorème 2.6) ;
– cela permet d’étendre l’opérateur F de S à L2 : c’est un opérateur linéaire continu sur L2 .
Enfin on a l’important
Preuve : Pour f, g ∈ C 2 (R) à support borné, f, g ∈ L1 ∩ L2 ainsi que f˜, g̃ (cf. Th. 4.8) et on a :
F ubini 1 R
1
g(x)dx dk e−ikx f˜(k) = 2π dk f˜(k) g(x)e−ikx dx = 2π 1
dk f˜(k)g̃(k).
R R R R R
f (x)g(x)dx = 2π Pour
2 2
f, g ∈ L quelconques, on les approche par des fonctions de C à support borné, etc, cf [8] p. 216.
La formule F[f.g] = F[f ]∗F[g] s’obtient de la même manière si f˜ et g̃ sont intégrables. Nous l’admettrons plus
généralement sous les hypothèses ci-dessus.
Ce théorème est de grande importance pratique en physique : c’est lui qui permet le
découplage des modes dans l’analyse d’un système linéaire. On a vu au Chap. 3 que dans
un système linéaire décrit par un “noyau” K(t − t0 ) et soumis à une excitation F (t), la réponse
au temps t est de la forme Z
G(t) = dt0 K(t − t0 )F (t0 ) ,
avec un préfacteur ψk (r) qui ne nous concerne pas ici. On voit que la transformée de Fourier f˜ de l’onde incidente
f donne, à un facteur près, l’amplitude à grande distance de la lumière diffractée par la fente, l’intensité diffractée
étant proportionnelle à |f˜(k sin θ)|2 . Voir TD pour les détails du calcul.
On aimerait maintenant étendre ces transformées de Fourier pour pouvoir les utiliser sur
les distributions telles δ, X ou H souvent rencontrées en physique. L’idée première est de
partir à nouveau d’une fonction localement intégrable, qui définit une distribution régulière,
d’en calculer la transformée de Fourier et de l’appliquer à une fonction test. Mais on se rap-
pelle que l’intégrabilité locale ne suffit pas à assurer l’existence d’une transformée de Fourier.
Restreignons-nous donc à des fonctions f intégrables (dans L1 ). Selon le Théorème 4.3, sa
2. “The equation was named in honor of Joseph von Fraunhofer although he was not actually involved in
the development of the theory. ” (sic) [Wikipedia]. À ce titre, elle constitue une illustration de la fameuse loi de
Stigler qui affirme Une découverte scientifique ne porte jamais le nom de son auteur, . . . et cette loi s’applique
à elle-même !
transformée de Fourier f˜ existe et est continue donc localement intégrable. On écrit alors, pour
toute fonction-test ϕ
Z Z Z
˜
h f, ϕ i = ˜
f (k)ϕ(k)dk = ikx
f (x)e dx ϕ(k)dk ,
R R R
Mais une dernière difficulté nous attend là ! La transformée de Fourier F[ϕ] d’une fonction
ϕ ∈ D n’est pas toujours dans D, et le membre de droite n’existe pas toujours ! (le support de
F[ϕ] n’est pas nécessairement borné) : la transformée F[T ] n’est pas toujours définie. Il nous
faut donc élargir la classe de fonctions-tests.
• Distributions tempérées
On a introduit plus haut (sect. 4.2.4) l’espace S des fonctions ϕ à décroissance rapide, telles
que pour tout k ∈ N, ϕ et toutes ses dérivées ϕ(m) satisfont
Définition 4.3 : Soit S 0 le dual topologique de S (espace des formes linéaires continues sur
S). On appelle distribution tempérée tout élément de S 0 .
Vérifions d’abord que S 0 ⊂ D0 : toute distribution tempérée est une distribution “ordinaire”.
Cela découle de D ⊂ S et du fait que la continuité en un sens implique celle dans l’autre (à
vérifier). Cela implique que les propriétés déjà établies (translation, dilatation, dérivabilité, etc)
pour les distributions ordinaires demeurent valables dans S 0 .
Qu’est-ce qui remplace dans S 0 les distributions “régulières” associées à une fonction loca-
lement intégrable ? Définissons les fonctions à croissance lente comme les fonctions croissant au
plus à l’infini comme une puissance de x. Le produit d’une telle fonction par une fonction test
de S est encore intégrable. On établit donc
Proposition 4.14 : Toute fonction localement intégrable à croissance lente définit une distri-
bution de S 0 .
Mais de même que D0 contenait des distributions non régulières, S 0 en contient aussi qui ne
sont pas associées à des fonctions intégrables à croissance lente.
Exemples. La distribution δ de Dirac est évidemment dans S 0 , son application sur toute
ϕ ∈ S étant bien définie (et linéaire et continue). Mais elle n’est pas une fonction à croissance
lente.
Théorème 4.15 : Toute distribution tempérée admet une transformée de Fourier au sens des
distributions (4.16) qui est elle aussi une distribution tempérée.
2πT = F[T̃ ]
avec F la transformation conjuguée. Ou encore, de façon plus cavalière, si T̃ (k) = F[T ](k),
2πT (x) = F[T̃ ](−x).
1 1 1
F[H(x)] = i PP + πδ F[PP ] = iπ sgn k F[sgn (x)] = 2i PP ,
k x k
k
e (k) = X
X .
2π
On verra d’autres exemples en TD.
Lectures complémentaires
Mon exposé a suivi de très près celui de [1]. Pour plus de détails, preuves, etc, voir [5], [7],
[8].
Exercices
1. Calculer la transformée de Fourier des fonctions suivantes :
(a) : 1/(p2 + m2 ), p ∈ R3 , qui représente (à un facteur près) l’amplitude d’une particule de
masse m et d’impulsion p.
−mkrk
(b) e krk , pour r ∈ R3 .
Ces fonctions jouent un rôle considérable en théorie quantique des champs.
2. Changement de normalisation.
R
b ] = A eiBxk dx, que
Si on définit une transformée de Fourier avec d’autres normalisations F[f R
peut-on dire de
– la transformée inverse ?
– le théorème de Parseval–Plancherel ?
Probabilités
La théorie des probabilités s’est construite à partir de considérations sur la théorie des jeux.
Dans ces cas-là, (jeux de dés, de cartes, paris, etc), on cherche à évaluer la probabilité d’observer
un type d’événements donné dans un ensemble fini d’événements possibles. Par exemple dans
un jeu où on lance deux dés, quelle est la probabilité que la somme des deux dés soit 6 ? Il
suffit d’énumérer tous les événements possibles (ici 62 ) et tous les “événements favorables” (ici
5 : 1+5, 2+4, 3+3, 4+2, 5+1) : si tous ces événements se produisent a priori de façon . . .
équiprobable ( !), (dés non pipés), on définit la probabilité comme le rapport
#cas favorables
P= . (5.1)
#cas possibles
1. Exemple d’un problème simple à énoncer mais très ardu, le problème des ménages : n couples sont placés
de façon aléatoire autour d’une table circulaire. Quelle est la probabilité qu’aucune femme ne soit assise à côté
de son conjoint ?
Cet “espace” (qui n’est en général ni vectoriel, ni topologique !) est la donnée de base d’un
problème de probabilités. C’est l’ensemble de tous les événements possibles. Plus précisément,
on appellera événement élémentaire (ou atomique) tout élément de Ω, et épreuve le choix d’un
élément a dans Ω. En général, un événement (événement composé) est associé à une partie (ou
sous-ensemble) de Ω. On va chercher à associer une probabilité P(A) à tout A ⊂ Ω. En fait
cela n’est pas toujours possible et on doit se contenter de le faire pour des sous-ensembles bien
particuliers, des sous-ensembles “mesurables”.
Exemples : (a) Ω ensemble fini des résultats de lancers de deux dés, où on tient compte de
l’ordre (on distingue les deux dés) ; le cardinal de Ω est 62 = 36 ; A = sous-ensemble des lancers
contenant un 2 ; |A| = 11 ; P(A) = 11/36.
(b) Ω = R, A = Q, comment définir P(Q), la probabilité qu’un réel “tiré au hasard” (il faudra
préciser) soit un rationnel ?
K(i) : ∅ ∈ F, et P(∅) = 0 ;
K(ii) : Ω ∈ F et P(Ω) = 1 ;
déf
K(iii) : Si A ∈ F, son complémentaire Ā = Ω \ A ∈ F, et P(Ā) = 1 − P(A) ;
K(iv) : Si A, B ∈ F, A ⊂ B implique P(A) ≤ P(B) ;
K(v) : F est stable par union dénombrable ; si A, B ∈ F, donc A ∩ B et A ∪ B ∈ F, on a
P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ;
P(Ω) = 1 .
N.B. Bien noter le “toute sous-famille”, et non pas seulement toutes les intersections deux à
deux, ou l’intersection de tous les Ai !
Définition 5.3 : Si Ω est un espace probabilisé, une variable aléatoire (v.a) (unidimensionnelle)
X est une fonction mesurable de Ω dans R. On définit de même une v.a. n-dimensionnelle
X : Ω → Rn .
Dans la suite, sauf mention explicite et pour la simplicité des notations, nous discuterons le
cas d’une v.a. unidimensionnelle. Par l’hypothèse de mesurabilité de X, pour toute partie
borélienne B de R (c’est-à-dire tout élément de la tribu (borélienne) B(R)), A = X −1 (B) ∈ F,
la tribu de Ω. Cela permet alors de définir une probabilité pour toute partie B ∈ B(R) :
déf
PX = P ◦ X −1 , une notation un peu cavalière signifiant PX (B) = P(A). Autrement dit on a
remplacé l’espace probabilisé initial (Ω, F, P) par l’espace (R, B(R), PX ), et on dit que X “suit
la loi” (de probabilité) PX . Ce PX n’est pas en général la mesure de Lebesgue. Bien sûr, la
nouvelle loi PX obéit tous les axiomes de Kolmogorov, en particulier PX (R) = 1, condition de
normalisation qui exprime que X prend sûrement une valeur réelle. Donc
Définition 5.4 : On appelle loi de probabilité PX de la v.a. X : Ω → R la probabilité image
déf
de P par X, PX = P ◦ X −1 .
(Dans la suite on notera P au lieu de PX chaque fois qu’il n’y aura pas d’ambiguı̈té.)
Comme on l’a vu plus haut, on définit l’espérance ou valeur moyenne d’une v.a. X par
Z Z
déf
E(X) ≡ h X i = XdP = xdPX (x) (5.3)
Ω R
ou plus généralement celle de toute fonction G(X), pourvu qu’elle soit intégrable !
Z Z
déf
E(G) = h G(X) i = G(X)dP = G(x)dPX (x) . (5.4)
Ω R
sous réserve que si i prend une infinité de valeurs, ces sommes convergent !
Le deuxième moment entre dans la définition de la variance, notée var(X) ou σ 2 (X) :
déf
var(X) ≡ σ 2 (X) = h X 2 i − h X i2 = µ2 − µ21 (5.6)
• Inégalité de Tchebychev
Supposons que la v.a. est de classe Lk (R), donc E(|X|k ) existe. Pour a > 0,
k
k
P(|X| > a) = E(θ(|X| − a)) ≤ E(θ(|X| − a) Xa ) ≤ E Xa
Ces quantités servent à évaluer la corrélation, au sens commun du mot, entre les deux variables.
Noter que si les deux variables sont indépendantes, le numérateur cov (X, Y ) se factorise en
?
h X − h X i ih Y − h Y i i = 0 puisque h X − h X i i = 0. Mais la réciproque : “cov (X, Y ) = 0 ⇒
X, Y indépendantes” n’est en général pas vraie, on en verra un contre-exemple plus bas.
• Fonction de répartition
correspondant donc à un intervalle (borélien) (−∞, x] 3 . Il en découle par l’axiome K(v) que
pour tout intervalle ]a, b] (attention au sens des crochets !)
lim F (x + ) = F (x) ,
→0
Exemple. La fonction de répartition d’un dé bien équilibré est représentée sur la figure 5.1.
Elle est discontinue en x = 1, 2, 3, 4, 5, 6.
2. appelée aussi “fonction de distribution cumulative”, le danger étant que “fonction de distribution” est
aussi utilisé dans un autre sens, voir plus bas.
3. Autre définition fréquemment rencontrée dans la littérature : F (x) = P(X ∈ (−∞, x[) avec une inégalité
stricte X < x !
F(x)
1 ...
1/6
...
1 2 3 4 5 6 x
Figure 5.1 – Fonction de répartition d’un dé bien équilibré. Elle est partout continue à droite,
discontinue à gauche aux 6 points marqués.
En général on peut démontrer (Lebesgue) que la fonction F peut être décomposée de façon
unique en la somme de trois composantes
0
avec une fonction f égale p.p. à Fabs.cont , positive ou nulle (puisque Fabs.cont est non-
décroissante) ;
– enfin la composante singulière continue Fsing.cont décrit le reste ! Elle est continue mais
non dérivable, et elle ne varie que sur un ensemble de mesure nulle. On peut rencontrer
à l’occasion cette situation “exotique” en physique. . . 4
Compléments.
1. On dit que la fonction F est absolument continue sur l’intervalle [a, b] si, pour tout réel > 0, il existe un
P
η > 0 tel que, pour toute suite ([an , bn ])n∈N de sous-intervalles de [a, b] d’intérieurs disjoints, n≥0 (bn − an ) <
P
η ⇒ n≥0 |F (an ) − F (bn )| < .
On montre (théorème dû à Lebesgue) que
Rx
F abs. continue sur [a, b] ⇔ F dérivable p.p., F 0 intégrable au sens de Lebesgue et F (x) − F (a) = a F 0 (x0 )dx0 ;
alors F absolument continue ⇒ F continue, et dérivable p.p.
2. Fonction de Cantor ou escalier du Diable : exemple de fonction continue F sur [0, 1] telle que F (0) = 0,
F (1) = 1, qui est dérivable presque partout, la dérivée étant presque partout nulle. On reprend la construction
de l’ensemble de Cantor K (cf App. A2) et on construit à chaque étape une fonction linéaire par morceaux : à
l’étape 0, c’est la fonction f0 (x) = x ; à l’étape 1, f1 est la fonction continue affine par morceaux qui vaut 0 en
0, 1 en 1, et 12 sur [ 13 , 23 ] ; à la n + 1-ième étape, la fonction fn+1 = fn sur les intervalles où fn est constante,
et sur chaque intervalle [a, b] où fn n’est pas constante, fn+1 est la fonction linéaire par morceaux qui vaut
fn (a)+fn (b) −n
sur 2a b a 2b
2 3 +P 3 , 3 + 3 . Il est aisé de voir que pour tout x, |fn+1 (x) − fn (x)| ≤ 2 , ce qui montre que
la série de fonctions n≥0 (fn+1 − fn ) converge uniformément, et donc que la suite fn converge uniformément.
La fonction limite F est continue, monotone, et l’on a F (0) = 0 , F (1) = 1. De plus, F a une dérivée nulle
sur le complémentaire de l’ensemble de Cantor K, puisque ce complémentaire est une réunion d’intervalles sur
lesquels f , par construction, est constante (d’où le nom d’escalier du Diable !). Elle a donc bien les propriétés
annoncées : F (0) = 0, F (1) = 1, F 0 = 0 p.p. ; les points où elle n’est pas dérivable sont les points de l’ensemble
de Cantor, non dénombrable mais de mesure nulle. Comme anticipé au § 2.2.6, cette fonction est telle que
R1
1 = F (1) − F (0) 6= 0 F 0 (x)dx = 0. Clairement cette fonction n’est pas absolument continue ! Voir son graphe
sur la figure 5.2.
3. La fonction de Cantor est la fonction de répartition d’une variable aléatoire réelle X entre 0 et 1 dont les chiffres
du développement en base trois sont obtenus par des tirages indépendants équiprobables avec P(0) = P(2) = 21 ,
P(1) = 0.
Mais ces cas exotiques mis à part, la situation rencontrée le plus souvent concerne une
fonction de répartition de la forme F = Fat + Fabs.cont , ce qu’on peut encore récrire sous la
forme unifiée (5.13) à condition d’autoriser dans f des contributions de distributions delta
P
f (x) → f (x) + k pk δ(x − xk ).
et en général Z b
P(a ≤ X ≤ b) = f (x)dx . (5.15)
a
La fonction f , appelée densité de probabilité 5 , est positive (puisque F est croissante) et telle
R∞
que P(R) = −∞ f (x)dx = 1 , on dit qu’elle est normalisée. Noter que f (x)dx représente la
probabilité que la v.a. X appartienne à l’intervalle (x, x + dx).
Remarques.
1. Bien comprendre que dans ce cas d’une v.a. continue X à fonction de répartition F absolu-
ment continue, on ne parle pas de la probabilité que X prenne une valeur x, mais seulement
qu’elle soit dans un intervalle, qu’il soit fini (a, b), infini (−∞, a) ou infinitésimal (x, x + dx).
2. Le mode de la loi d’une v.a. X est par définition la (ou les) valeur(s) de x où f (x) atteint
son maximum. Par extension, pour une v.a. discrète, c’est la (ou les) valeur(s) de k telles que
P(X = k) = pk soit maximale. Bien voir que les trois notions de valeur moyenne, mode et
médiane sont distinctes. Exercice : dessiner le graphe d’une loi f dont le mode est inférieur à
la valeur moyenne.
3. L’espérance et les moments s’expriment aisément en termes de f
Z Z
E(X) ≡ h X i = xf (x)dx , µk = xk f (x)dx .
Graphe d’une loi f . Il est commode de visualiser une loi de probabilité par le graphe de la fonction f . Noter
la relation entre ce graphe et les histogrammes que l’on peut construire à partir d’échantillons de N événements :
tout histogramme à N fini donne (à un facteur N près) une approximation du graphe de f . Intuitivement, on
s’attend à ce que dans la limite où N → ∞ et où la largeur des intervalles tend vers 0, l’histogramme approche
F (x+h)−F (x)
le graphe, puisque f (x) = limh→0 h , donc pour h petit, f (x)h ≈ P(x ≤ X < x + h), mais cela
mériterait d’être justifié plus précisément . . .
les deux v.a. X, Y prenant des valeurs x et y avec une certaine loi décrivent un point aléatoire
dans le plan.
La fonction de répartition F (x, y) est alors définie comme
qui est bien la définition de l’indépendance, voir plus haut, (5.2). Réciproquement, vérifier que
si X et Y sont indépendantes, leur loi f est factorisée.
• Distributions marginales
Soit f (x, y) la densité de probabilité d’une paire de v.a. (X, Y ). On étudie la “loi marginale”
sur la seule v.a. X quand on ne s’intéresse pas à la v.a. Y , autrement dit quand on somme
sur les valeurs possibles de Y . La valeur moyenne/espérance de toute fonction G(X) est donc
donnée par Z Z Z
hG(X)i = dxdyf (x, y)G(x) = dxG(x) dyf (x, y)
ou encore Z Z
déf
hG(X)i = dxf1 (x)G(x) avec f1 (x) = dyf (x, y) .
R
La loi marginale en x a donc pour densité dyf (x, y), le mot ”marginal” venant des tableaux
comptables à deux entrées où les sommes selon une variable étaient reportées dans la . . . marge
du tableau !
Sous l’hypothèse de factorisation de la densité f (x, y) = f1 (x)f2 (y), donc d’indépendance des
v.a. X et Y , on a
hXY i = hXihY i .
Inversement si hXY i =
6 hXihY i, cela implique que X et Y ne peuvent être indépendantes. Le
calcul de
déf
hXY ic = hXY i − hXihY i (5.19)
où on somme sur toutes les configurations des moments magnétiques, de telle façon que la probabilité (5.20)
P
~ i }) = 1. Le résultat de l’analyse théorique, en accord avec l’observation, est
est bien normalisée : config. P({m
qu’à haute température les moments microscopiques sont désordonnés, “pointant” dans toutes les orientations,
l’aimantation totale est alors nulle et le corps est dans sa phase paramagnétique ; à température inférieure à la
température de Curie, en revanche, les moments magnétiques ont tendance à s’orienter parallèlement les uns
aux autres, créant ainsi une aimantation macroscopique M ~ : on est dans la phase ferromagnétique. La valeur
moyenne hm ~ i i du moment de l’atome i est nulle dans la phase paramagnétique, et non nulle et égale à N1 M ~
(par définition) dans la phase ferromagnétique. La fonction de corrélation hm ~ j i des moments de deux atomes
~ im
i et j distants s’annule avec leur séparation dans la phase paramagnétique, elle tend vers le carré de hmi~ dans
la phase ferromagnétique.
donc
A exp −α(x2 + y 2 ) (loi gaussienne, voir paragraphe suivant). Cette densité est évidemment
invariante par rotation dans le plan (elle ne dépend que de la distance de l’origine au point M
p
de coordonnées (x, y)), et il est naturel d’utiliser la coordonnée radiale r = x2 + y 2 . La densité
dans la v.a. R correspondante est fˆ(r) = 2πAr exp −αr2 . De la même façon, une distribution
dans l’espace R3 peut se récrire en coordonnées sphériques (r, θ, ψ), avec 0 ≤ θ ≤ π, 0 ≤ ψ ≤ 2π.
On a alors fˆ(r, θ, ψ) = r2 sin θf (x, y, z), ou s’il y a invariance par rotation (indépendance en
θ, ψ), fˆ(r) = 4πr2 f (x, y, z). On verra plus bas (§ 5.4.7) une application de ces considérations à
la distribution de Boltzmann des vitesses des molécules d’un gaz.
ϕ(u) = E(eiuX ) .
En particulier
La somme de N v.a. indépendantes et de même loi f a pour fonction caractéristique la
puissance N -ième de la fonction caractéristique de f
On peut définir aussi cette fonction caractéristique dans le cas d’une variable discrète entière :
soit X une v.a. discrète prenant la valeur entière k avec la probabilité pk . On a ϕ(u) = k pk eiuk
P
ou, de façon équivalente, φ(z = eiu ) = k pk z k . Sous cette dernière forme, comme fonction de
P
z, on l’appelle aussi fonction génératrice des probabilités pk . En effet on retrouve les pk à partir
de cette fonction génératrice par différentiation
k
1 d
pk = φ(z) . (5.28)
k! dz z=0
Exemple : loi binomiale. Une v.a. prend la valeur 0 avec la probabilité 1 − p et 1 avec la
probabilité p, donc φ(z) = 1 − p + pz. La somme de N v.a. indépendantes et de même loi a
pour fonction caractéristique φN (z) = φ(z)N = N k N −k k k
P
k=0 CN (1 − p) p z . Cela donne la réponse
à un problème classique : si on tire à pile (0) ou face (1), quelle est la probabilité d’un score
total k après N tirages ? Réponse, pk = (1 − p)N −k pk CNk . On reviendra sur cette loi binomiale
au paragraphe suivant.
1 F(x)
f(x)
x
a b
Figure 5.3 – Densité et fonction de répartition d’une distribution uniforme sur l’intervalle [a, b].
1
(b − a)p = 1 soit p = b−a , voir Fig. 5.3. La fonction de répartition F (x) est nulle pour x ≤ a,
croı̂t linéairement de a à b et vaut 1 pour x ≥ b.
Dans sa version discrète, où la v.a. prend un nombre fini de valeurs xi avec des probabilités
pi , les pi sont égales, les valeurs xi sont équiprobables. C’est le cas d’une pièce (au jeu de pile
ou face) ou d’un dé bien équilibrés, avec des probabilités respectives de pp = pf = 12 ou de
pi = 16 . Dans sa version continue, c’est la distribution des générateurs de nombres aléatoires
usuels, qui engendrent des nombres xi de l’intervalle [0, 1] avec une densité de probabilité
constante. À partir de cette densité sur [0, 1], on fabrique une distribution uniforme sur tout
autre intervalle [a, b] en translatant et dilatant la variable en y = x(b − a) + a et en prenant
f˜(y) = b−a 1 1
f (x) = b−a f ( y−a
b−a
) pour y ∈ [a, b].
C’est la distribution rencontrée au paragraphe § 5.3.2 dans la discussion des sommes des valeurs
de pile ou face : si on a tiré à pile ou face n fois, quelle est la probabilité de k “faces” ?
Supposons la pièce mal équilibrée, avec une probabilité p de tomber sur face, 0 < p < 1
et q = 1 − p de tomber sur pile. Dans une série de n lancers, les résultats successifs sont des
variables indépendantes (la pièce ne garde pas le souvenir si elle est tombée sur pile ou face
les fois précédentes !). Par conséquent la probabilité d’une suite donnée de k faces et donc de
n − k piles est indépendante de l’ordre de ces faces ou piles et elle est factorisée de la forme
pk q n−k . Comme deux suites de k faces différant par leur ordre sont des événements A et B
mutuellement exclusifs, la probabilité de A ∪ B est la somme des probabilités de A et de B,
(n)
chacune égale à pk q n−k , et plus généralement la probabilité totale cherchée pk est pk q n−k fois
le nombre total de suites avec k faces, soit Cnk , d’où
(n) déf
B(n, p) : P(X = k) = pk = Cnk pk q n−k . (5.34)
(n) Pn
Cnk pk q n−k = (p + q)n = 1.
P
La loi est bien normalisée : pk = k=0
La distribution (5.34) est la loi binomiale B(n, p).
0.25
0.25
0.20
0.20
0.15
0.15
0.10
0.10
0.05 0.05
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10
Elle se rencontre chaque fois qu’on s’intéresse à n occurrences d’un événement se produisant
ou non avec une probabilité p ou 1 − p. Par exemple, on considère n noyaux radioactifs dont
chacun a la probabilité p de se désintégrer pendant un intervalle ∆t. Quelle est la probabilité que
k noyaux se soient désintégrés au bout de ce temps ? (on suppose que les désintégrations sont des
phénomènes aléatoires indépendants, c’est-à-dire qu’elles ne s’influencent pas mutuellement.)
Nous reviendrons en détail sur cet exemple au § 5.4.7.
k−1
dans lequel on pourra utiliser de façon répétée l’identité kCnk = nCn−1 . Pour la fonction ca-
iuk
P
ractéristique ϕ(u) = k pk e , on a pour la distribution binomiale
X n
X
(n)
ϕBin(n) (u) = pk eiuk = Cnk eiuk pk q n−k = (1 − p + peiu )n . (5.39)
k k=0
et en particulier Z ∞
1 x2
√ e− 2σ2 dx = 1 . (5.42)
2πσ 2 −∞
1 (x−µ)2
N (µ, σ) : fGauss (x) = √ e− 2σ2 . (5.43)
2πσ 2
0.12
0.10
0.08
0.06
0.04
0.02
!5 5 10
On parle de la loi normale N (µ, σ). Elle dépend de deux paramètres µ et σ 2 que nous allons
maintenant interpréter. Calculons pour cela la moyenne et la variance de cette v.a.
Z ∞ Z ∞
hXi = dx x fGauss (x) = dx (x − µ) + µ fGauss (x) = 0 + µ :
−∞ −∞
le premier terme est nul car dans le calcul de hx−µi on peut effectuer le changement de variable
02
d’intégration x0 = x−µ et l’intégrale qui en résulte d’une fonction impaire x0 e−ax sur (−∞, ∞)
est nulle ; le deuxième terme de la moyenne est égal à µ car l’intégrale est bien normalisée.
Pour le calcul de la variance, remarquons d’abord qu’en différentiant les deux membres
2
∂
I(α) = dxx2 e−αx = 2α 1
R
de I(α) dans (5.41) 7 par rapport à α on obtient − ∂α I(α). Prenant
2 −1
α = (2σ ) , on est alors en mesure de calculer
Z ∞
dx0 02 −x022
Z Z
2 dx 2
−(x−µ)2
varX = dx (x − µ) fGauss (x) = √ (x − µ) e 2σ2 = √ x e 2σ = σ 2 .
2πσ 2 2πσ 2
−∞
Par conséquent les deux paramètres µ et σ 2 dont dépend la loi gaussienne (5.43) s’interprètent
respectivement comme sa moyenne et sa variance.
Le graphe de f (x) a une allure caractéristique de courbe en cloche, voir Fig. (5.5). Elle
est “centrée” en x = µ, et est d’autant plus étroite que l’écart-type σ (ou la variance σ 2 ) est
plus faible. Cette variance peut être mesurée par la “largeur du pic”, définie comme la distance
√ √
2 2σ entre les points x = µ ± 2σ où f est réduit d’un facteur e par rapport à son maximum :
√ f (µ)
f (µ ± 2σ) = .
e
Définition 5.5 : On dit qu’une v.a. X a une loi normale centrée normalisée si elle est gaus-
sienne avec µ = 0 et σ 2 = 1 (loi normale N (0, 1)).
7. La “dérivation sous le signe somme” est ici parfaitement justifiée, pourquoi ?
• Moments.
Les calculs qui précèdent ont préparé le terrain au calcul des moments d’ordre arbitraire.
Par changement de variable on ramène tout calcul de moment de X à celui de X 0 = X −µ. Pour
la variable X 0 qui est centrée, tous les moments impairs sont nuls, par l’argument de parité
donné pour la moyenne. Ses moments pairs s’obtiennent à nouveau par différentiation répétée
par rapport à α dans (5.41).
Exercice. Selon ce principe, vérifier les formules suivantes
hX 2 i = µ2 + σ 2 ; hX 3 i = µ3 + 3µσ 2 ; hX 4 i = µ4 + 6µ2 σ 2 + 3σ 4 .
• Fonction caractéristique
Puisque la fonction caractéristique est une transformée de Fourier, on connaı̂t par le Chap. 4 le résultat
pour la loi normale : la transformée de Fourier d’une gaussienne centrée (µ = 0) est une gaussienne centrée, et
en général, pour tout µ
2
1
σ2
ϕGauss (u) = eiuµ e− 2 u , (5.44)
une expression qui permet aussi de calculer aisément tous les moments de la distribution gaussienne. En effet
la fonction caractéristique ϕ(u) peut être considérée comme une fonction génératrice des moments, en ce sens
que sa dérivée n-ième en 0 vaut Z
(n)
ϕGauss (0) = in dxxn f (x)
(2p)
qui s’annule pour n impair, comme on a vu ; donc ϕGauss (0) = (−1)p m2p est au signe près, le 2p-ième moment
de la distribution N (µ, σ). Montrer en utilisant l’expression (5.44) que si µ = 0
Pour des raisons que l’on va voir, cette distribution joue un rôle particulièrement important.
La distribution gaussienne joue un rôle central aussi bien en probabilités et statistiques qu’en
Soit λ un paramètre réel positif, et k une v.a. discrète à valeurs entières ≥ 0. La distribution
de Poisson est définie par la loi de probabilité
déf λk −λ
P(λ) : P(X = k) = pPoisson
k = e . (5.46)
k!
P∞
Il convient d’abord de vérifier que cette loi est bien normalisée, ce qui est immédiat : k=0 pk =
e−λ ∞ λk
P
k=0 k! = 1.
0.25
0.08
0.20
0.06
0.15
0.04
0.10
0.02
0.05
0 1 2 3 4 5 6 7 8 9 10 0 5 10 15 20 25 30 35 40 45 50
Une fois encore, on calcule aisément les moyenne et variance de la distribution et sa fonction
caractéristique :
∞
X e−λ
hXi = kλk =λ (5.47)
k=0
k!
∞
X e−λ
hX 2 i = k 2 λk = λ2 + λ (5.48)
k=0
k!
varX = hX i − hXi2 = λ
2
(5.49)
λ(eiu −1) λ(z−1)
ϕ(u) = e ou φ(z) = e . (5.50)
Exercices : vérifier ces formules. Chercher le ou les mode(s) de P(λ), au sens du § 5.3.2. Montrer
que si λ est un entier n, les modes sont les deux valeurs n − 1 et n ; et que si λ n’est pas entier,
le mode est bλc (partie entière de λ).
n−k n!(m−1)n−k λn −λ
Cnk m1k ( m−1
m
)n−k = n!(m−1)
k!(n−k)!mn
. Par la formule de Bayes, P(Xi = k ∩ X = n) = k!(n−k)!mn n!
e
et la probabilité P(Xi = k) est donc
∞ ∞
X e−λ λk X λn−k (m − 1)n−k
P(Xi = k) = P(Xi = k ∩ X = n) =
n=k
k! mk n=k (n − k)!mn−k
λ k
e−λ λk λ m−1 e− m λ
= e m = (5.51)
k! mk k! m
λ
qui est une loi de Poisson de paramètre λ/m, cqfd. Bien entendu, h Xi i = var(Xi ) = m .
Cette même distribution de Poisson s’applique aussi aux phénomèmes quantiques. Ainsi le
nombre de particles ou de photons émis par une source avec un taux moyen donné suit une loi
de Poisson. On parle de bruit (par exemple de photons) poissonnien.
Cette apparition de la loi de Poisson tient au fait qu’elle décrit une certaine limite de la loi
binomiale, comme on le verra au § 5.4.6.
• Loi de Pareto
Une variable aléatoire X suit la loi de Pareto de paramètre α > 0 si elle prend des valeurs réelles supérieures
à un réel positif xm et que la probabilité P(X > x) est de la forme
x α
m
P(X > x) = pour x > xm , 0 sinon . (5.54)
x
α
avec k un réel positif. On en déduit la fonction F (x) de répartition de X, F (x) = p(X ≤ x) = 1 − xxm
xα
et la densité de probabilité f (x) de X, f (x) = F 0 (x) = α xα+1
m
. Cette loi intervient beaucoup en économie
2.0
1.5
1.0
0.5
-0.5
(distribution des richesses) mais aussi en géophysique (distributions des ressources en minerais, des tailles des
météorites, . . .), etc.
Exercice : déterminer pour quelles valeurs de α les moments d’ordre ≤ k sont définis. Calculer la probabilité
P(X > x + y|X > y) pour x > 0, y > xm et sa limite quand y → ∞.
On verra en TD d’autres de ces lois.
Comme le suggère le graphe de la distribution binomiale (voir Fig. (5.4)), avec sa forme en
cloche très proche de celle de la gaussienne, la distribution gaussienne est une bonne approxi-
(n)
mation de la loi binomiale pk dans la limite des n grands, et pour k ∼ np, avec p et q = 1 − p
finis, donc n 1, k 1, n − k 1. C’est donc la partie centrale de la distribution que l’on
explore là.
La démonstration repose sur l’étude dans la limite considérée des fonctions caractéristiques calculées plus
haut, cf (5.39) et (5.44). Calculons le logarithme de ϕBin(n) (u) pour u petit (qui seul nous intéresse si k 1)
1
ln ϕBin(n) (u) = n ln(1 + p(eiu − 1)) ' n p(eiu − 1) − p2 (eiu − 1)2 + · · ·
2
2
u 1
= n p(iu − + · · · ) + p2 u2 + O(u3 ) (5.55)
2 2
u2
= n iup − p(1 − p) + · · · .
2
et comparons-le à celui de ϕGauss (u), cf (5.44)
1
ln ϕGauss (u) = iuµ − u2 σ 2
2
Pour k 1, donc u 1, on voit que les deux fonctions caractéristiques coı̈ncident pourvu que d’une part les
valeurs moyennes h X i = np et µ, de l’autre les variances var X = np(1 − p) et σ 2 coı̈ncident.
0.06 !
" "
!
0.04
"
! !
"
0.02 !
"
! "
" !
" !
0.00 " !
! " !
" ! " !
"
5 10 15 20
Limite poissonnienne
Il peut être aussi intéressant d’étudier la limite de la loi binomiale quand p est très petit et
np (la valeur moyenne de k) est finie, tandis que n 1. Il faut bien comprendre que l’on explore
maintenant le bord de la distribution binomiale, loin de son maximum. Poisson a montré que
l’on trouve alors la distribution qui porte son nom.
(n) λk
pk ' pPoisson
k = e−λ (5.56)
n1 k!
avec λ = np supposée finie tandis que n → ∞.
Démonstration de cette limite :
(n) n! n(n − 1) · · · (n − k + 1) (np)k np n−k
pk = pk (1 − p)n−k = 1 − (5.57)
k!(n − k)! k! nk n
k
n(n − 1) · · · (n − (k − 1)) λ λ
= (1 − )n−k (5.58)
k! nk n
n −k
λk
λ 1 2 k−1 λ
= 1− × 1− 1− ··· 1 − 1−
k! n n n n n
λk −λ
1 + O(n−1 )
' e (5.59)
k!
λ n
= e−λ .
en se rappelant que limn→∞ 1 − n
A nouveau une petite expérience numérique est utile. Pour n = 50, p = 0, 02, on voit que la
distribution de Poisson pour λ = np = 1 approxime à moins de 2% la binomiale pour 0 ≤ k ≤ 3,
comme le montre cette table
k 0 1 2 3 4 5
(50)
Binomiale pk 0, 36417 0, 37160 0, 18580 0, 06067 0, 01454 0, 002731
Poisson pPoisson
k
λ=1
0, 36788 0, 36788 0, 18394 0, 06131 0, 01533 0, 003066
Récapitulons. Pour n très grand et p finie, la loi binomiale est bien approximée par une
gaussienne pour les valeurs de k les plus probables, k ≈ pn ∼ n : les sommets des deux cloches
binomiale et gaussienne se superposent bien. Pour p très petit et hki = pn fini, les événements
à k n (le bord gauche de la cloche binomiale) sont bien décrits par la loi de Poisson.
Par ailleurs, par invariance par rotation, la fonction f (vx , vy , vz ) doit n’être fonction que de ~v 2 = vx2 + vy2 + vz2 .
On cherche donc une fonction
c’est la distribution de Maxwell-Boltzmann des vitesses d’un gaz, que l’on étudie en Mécanique Statistique.
Exercice : utiliser la dérivation sous le signe somme pour calculer h v 2 i et montrer que h v 2 i = 3h vx2 i où la
moyenne de vx2 est calculée avec la distribution (5.62). Cela n’était-il pas attendu ?
• Désintégrations radioactives
On s’intéresse ici à la désintégration de noyaux d’un isotope X → X0 . On décrit en général le phénomène par
une loi “empirique” : le nombre de désintégrations par unité de temps est proportionnel au nombre N (t) de
noyaux X présents à l’instant t, avec un taux de désintégration constant κ, caractéristique du noyau étudié X
et de son mode de désintégration X → X0 . Pendant le temps dt, le nombre de noyaux se désintégrant selon ce
mode est
|dN | = κN dt = −dN . (5.64)
Autrement dit, la fonction N (t) satisfait l’équation différentielle Ṅ (t) = −κN (t). En l’intégrant, on trouve
la quantité de l’isotope considéré décroı̂t exponentiellement. On définit la demi-vie, notée τ , par le temps au
bout duquel le nombre N a décrû par un facteur 2. On a donc N (τ ) = N (0)/2, ce qui conduit à
ln 2
τ= N (t) = N (0) e−t ln 2/τ = N (0)2−t/τ . (5.66)
κ
ln 1000
Le nombre de noyaux de l’isotope aura décrû d’un facteur 1000 au bout d’un temps ln 2 τ ≈ 10 τ (se rappeler
que 210 ≈ 103 ).
238
Par exemple, pour l’isotope naturel U de l’Uranium, qui se désintègre en Thorium selon
238 α
92 U −→ 234
90 Th
en émettant un noyau d’Helium (particule α), la demi-vie est τ = 4, 5 Gans, (1 “Gan”= 1 milliard d’années !)
donc le nombre N aura décrû d’un facteur 1000 au bout d’un temps t = 45 Gans, soit trois fois l’âge actuel de
l’Univers. . . En revanche, pour les isotopes 131 I et 137 Cs, les demi-vies sont respectivement de 8j et 30 ans. . .
Le problème de désintégration de noyaux atomiques peut et doit en fait être traité par une approche
probabiliste, puisque c’est bien là le fond de la question : un noyau (comme tout système individuel de nature
quantique) a une probabilité de transition de tel ou tel état vers tel autre. Le traitement qui a précédé s’est
appliqué implicitement à une vaste population de noyaux (dont le nombre a été traité comme une variable
continue, et non comme un entier discret), et a concerné en fait le nombre moyen (la valeur moyenne ou
espérance au sens probabiliste) de la v.a. nombre total de noyaux de l’isotope X. L’équation (5.64) se redit en
termes probabilistes comme suit : la probabilité d’un noyau donné de subir la désintégration étudiée pendant le
temps dt est P(X → X0 ; dt) = κdt. Notons PN (t) la probabilité d’avoir N noyaux dans l’état initial (radioactif)
X au temps t. Les désintégrations des différents noyaux étant supposées des événements indépendants, on a
somme des probabilités des événements exclusifs suivants : aucune désintégration des N noyaux (probabilité
(1 − κdt) pour chacun, factorisation pour l’ensemble puisque événements indépendants) + une désintégration
d’un des N + 1 noyaux avec la probabilité κdt fois la probabilité que les N autres restent inchangés + des
d
désintégrations multiples d’ordre plus élevé en dt. Écrivant PN (t + dt) = PN (t) + dt dt PN (t) + O(dt2 ) et ne
gardant que les termes d’ordre dt, on a donc
d
PN (t) = κ (N + 1)PN +1 (t) − N PN (t) (5.67)
dt
N0
X
φ(x, t) = xN PN (t) . (5.68)
N =0
N0
∂ X d
φ(x, t) = xN PN (t) ,
∂t dt
N =0
N0 0 −1
NX N0
∂ X X
φ(x, t) = N xN −1 PN (t) = (N + 1)xN PN +1 (t) = (N + 1)xN PN +1 (t)
∂x
N =1 N =0 N =0
↑ car pN0 +1 (t) = 0 ! (5.69)
N0
∂ X
x φ(x, t) = N xN PN (t) .
∂x
N =0
On a donc fait apparaı̂tre les trois termes de l’équation (5.67), ce qui conduit donc à une équation aux
dérivées partielles pour φ
∂ ∂
φ(x, t) = κ(1 − x) φ(x, t) . (5.70)
∂t ∂x
La méthode systématique de résolution fait appel à la “transformation de Laplace”, qui sera étudiée au chapitre
9. Contentons-nous d’observer que toute fonction de la forme φ(x, t) = G((1 − x)ψ(t)), avec G une fonction
arbitraire, est solution de (5.70) à condition que ψ̇(t) = −κψ(t), soit ψ(t) = ae−κt , a une constante quelconque.
La fonction jusque là arbitraire G est fixée par la condition initiale φ(x, 0) = xN0 = G(a(1 − x)), soit G(ax) =
(1 − x)N0 , et finalement la solution unique de (5.70) complétée par cette condition initiale est
N0 N0
φ(x, t) = 1 − (1 − x)e−κt = (1 − e−κt ) + xe−κt (5.71)
N0
X
N N −N κt
= CN 0
x e (1 − e−κt )N0 −N (5.72)
N =0
On voit apparaı̂tre la loi binomiale B(N0 , p(t)) pour une probabilité p(t) = e−κt ! On peut alors calculer
l’espérance de la variable aléatoire N
N0
X ∂φ(x, t)
h N i(t) = N PN (t) = = N0 e−κt .
∂x
x=1
N =0
On retrouve bien le résultat obtenu plus haut à partir de l’équation différentielle (5.64), qui s’appliquait donc
en fait à h N i.
Si N0 est très grand et p = e−κt petit, on peut remplacer la loi binomiale B(N0 , p(t)) par sa limite poisson-
nienne P(λ = N0 e−κt ), dont l’espérance est encore h N i(t) = λ = N0 e−κt .
On pourrait aussi étudier maintenant ce que sont les fluctuations de la v.a. N autour de cette valeur
moyenne.
∀ω ∈
/ Ω0 ∀ ∃N : ∀n > N |Xn (ω) − X(ω)| < . (5.73)
– On dira que la suite Xn converge en probabilité vers la v.a. réelle X si pour tout h,
P(|Xn − X| > h) → 0 :
– Enfin on dira que la suite Xn converge en loi vers X si la suite des fonctions de répartition
Fn converge (simplement) vers celle, notée F , de X (en tout point de continuité de F )
pour presque tout x , ∀ > 0, ∃N : ∀n > N |P(Xn ≤ x) − P(X ≤ x)| < . (5.75)
On démontre la
Proposition 5.3 : CV ps ⇒ CV p ⇒ CV l .
De façon qualitative (nous allons préciser les hypothèses et démontrer précisément les choses
ci-dessous)
– la loi des grands nombres nous dit que la v.a. Y converge en probabilité quand N → ∞ vers
la valeur commune des h Xi i ;
– le théorème limite central affirme que la v.a. Y converge en loi vers une v.a. normale (gaus-
sienne) de moyenne h X i et de variance N1 var(Xi ) dans la limite N → ∞.
Deux illustrations
Z 1
σg2 = (g(x) − mg )2 dx . (5.80)
0
La loi (forte) des grands nombres nous dit que la moyenne arithmétique des g(Xi )
1
(g(X1 ) + · · · + g(XN ))
N
R1
converge (p.s) vers la valeur moyenne mg = h g(X) i = 0 g(x)dx et que l’écart-type de la
1
différence est σg = σ/N 2 . Cela signifie qu’on a une approximation
Z 1
1
(g(x1 ) + · · · + g(xN )) ≈ g(x)dx (5.81)
N 0
dans laquelle les xi sont des valeurs tirées de tables de nombres aléatoires uniformément dis-
1
tribués entre 0 et 1 ; la précision de cette approximation se comporte en N − 2 .
1
Cette méthode de calcul est appelée méthode de Monte-Carlo. La convergence en N − 2 n’est
pas très rapide et nécessite beaucoup de points. La méthode prend toute son importance pour
des intégrales multiples et est très utilisée. On peut lui apporter toutes sortes d’améliorations
et de raffinements. . .
• Énoncé et remarques
(N ) 1 (y − m)2
f˜(y) ≈ fG (y) = √ exp − 2 . (5.82)
2π √σN 2 √σ N
Les hypothèses excluent donc une loi lorentzienne f (x) = π(x2λ+λ2 ) dont la valeur moyenne
et la variance n’existent pas, cf supra.
(N )
Il faut d’abord noter que la fonction gaussienne fG qui apparaı̂t au second membre
de (5.82) est de plus en plus “piquée” quand N → ∞ : en effet elle est bien normalisée,
R∞ (N ) 2
−∞
dyfG (y) = 1, sa variance est de plus en plus petite σN 2
= σN et son maximum de plus en
(N )
√ (N )
plus grand fG (m) ∝ N . Le graphe de fG est donc un pic de plus en plus haut et de plus
en plus étroit au dessus de la valeur y = m, mais toujours d’aire 1. On a vu au chap. 3 que la
(N ) (N )
suite des fonctions fG tend vers la distribution δm : fG (y) → δ(y − m).
On voit alors que le théorème central limite implique la loi des grands nombres : la loi de
la moyenne Y est de plus en plus concentrée en Y = m, autrement dit la v.a. Y converge en
probabilité vers la valeur moyenne m des v.a. Xi .
On sait que
iu u2 u3
eiuX/N = 1 + h X i − h X 2 i + O( 3 )
ϕX/N (u) = 2
N 2N N
u u2 2 2 u3
= 1 + im − (σ + m ) + O( 3 ) (5.83)
N 2N 2 N
et donc pour le logarithme de la fonction caractéristique de Y
u2 u3
u 2 2
ln ϕY (u) = N ln ϕX/N (u) = N ln 1 + im − (σ + m ) + O( )
N 2N 2 N3
2 3
u u u
σ 2 + O( 3 )
= N im −
N 2N 2 N
u2 2 u3
= imu − σ + O( 2 )
2N N
(N ) u3
= ln ϕGauss (u) + O( 2 ) (5.84)
N
(N ) 1 2 2
où ϕGauss (u) = eium e− 2 u σ /N est la fonction caractéristique de la loi normale de moyenne m et de variance
σ 2 /N , cf équ. (5.44). Ce calcul montre que dans la limite N → ∞, la fonction caractéristique de la moyenne
arithmétique Y des N v.a. Xi tend vers la fonction caractéristique de la loi normale attendue. Nous admettrons
que cela suffit à démontrer la convergence de la loi de Y vers la loi normale, c’est-à-dire le théorème limite
central (P. Lévy).
• Illustrations
Le résultat du théorème central limite est remarquable : quelle que soit la loi des v.a. X1 , · · · , XN ,
la loi limite de leur moyenne (5.76) est une loi normale ! La loi normale a ainsi un caractère
d’universalité. Testons numériquement ce résultat sur des lois simples : les figures qui suivent
présentent la densité de probabilité de la v.a. Y pour N v.a. X obéissant à une loi simple f ,
À titre d’exercice, effectuons ce calcul de f˜ pour N = 2 v.a. obéissant à une loi uniforme entre 0 et 1
Z 1
f˜(y) = 2 dx1 f (x1 )f (2y − x1 ) .
0
La première fonction f (x1 ) est non nulle (et égale à 1) ssi 0 ≤ x1 ≤ 1, la deuxième f (2y −x1 ) ssi 0 ≤ 2y −x1 ≤ 1.
Il faut prendre l’intersection des deux domaines 0 ≤ x1 ≤ 1 et 2y − 1 ≤ x1 ≤ 2y, ce qui diffère selon que y < 21
R 2y
ou y > 21 . Si 0 ≤ y ≤ 12 , 2y − 1 ≤ 0 mais 2y ≤ 1, donc f˜(y) = 2 0 dx = 4y, tandis que si 21 ≤ y ≤ 1, 2y ≥ 1 mais
R1
2y − 1 ≥ 0 donc f˜(y) = 2 2y−1 = 4(1 − y). On constate que la loi f˜ obtenue n’est autre que la “loi triangle” de
(5.85), cf figure de gauche de la Fig. 5.9.
2.0
3.0
2.0
2.5
1.5
1.5 2.0
1.0 1.5
1.0
1.0
0.5
0.5
0.5
0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0
Figure 5.9 – Distribution f˜(y) de la moyenne de N v.a. de loi uniforme, et comparaison avec la loi
1 1
normale de même moyenne m = 2 et de variance 12N (en ligne brisée). Successivement N = 2, 3, 5.
2.0
2.5
3.0
2.0
1.5
1.0
1.5
1.0
1.0
0.5
0.5
0.5
0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0 0.2 0.4 0.6 0.8 1.0
Figure 5.10 – Distribution f˜(y) de la moyenne de N v.a. de loi “triangle” (5.85), et comparaison
avec la loi normale de même moyenne m = 12 et de variance 24N
1
(en ligne brisée). Successivement
N = 1, 2, 3.
• Évaluations de l’erreur
N
1
2
σN 2
Elle est centrée h Z i = 0 et le théorème nous dit qu’elle obéit asymptotiquement (quand
N → ∞) à une “loi normale centrée normalisée” (de variance 1). On en déduit que
Z ∞
2 s2
P(|Z| > ζ) → √ e− 2 ds (5.86)
2π ζ
P
Avec (5.86) et (5.87) on a retrouvé la loi des grands nombres : la somme (Xi − m) est
1
approximativement normale et centrée avec un écart-type N − 2 σ. Mais les expressions (5.86)
et (5.87) permettent d’affiner l’estimation faite au paragraphe précédent de la taille d’un
échantillon nécessaire pour atteindre une précision donnée. Reprenons l’exemple du § 5.5.2 :
quel N permet
1 d’obtenir P(|Y − m| > 0,01m) < 0,05 ? D’après (5.89) il faut chercher N tel
N √m
2
√
que erfc 100 2σ
< 0,05. On lit sur la Table 1 que erfc(x) = 0,05 pour x ≈ 2, (en fait
1 1
σ σ 2
x = 1, 386), donc N 2 > N02 ≈ 200 m soit N0 ≈ 40 000( m ) . On a gagné un facteur 5 par
rapport à l’estimation plus grossière venant de l’inégalité de Tchebychev !
2.0
1.5
1.0
0.5
!3 !2 !1 1 2 3
√ √
Figure 5.11 – Graphe de la fonction erfc(x/ 2). On y voit que erfc(1, 96/ 2) ' 0, 05 (plus exacte-
ment=0,0499958 !)
Remarques finales
1. Comme noté plus haut, le théorème central limite ne s’applique pas à des “lois larges” comme
la loi lorentzienne, dont la moyenne ou la variance n’existent pas.
2. Le fait que des lois normales apparaissent empiriquement (et approximativement) dans de
très nombreux phénomènes naturels, taille ou poids d’individus dans une certaine population,
erreurs dans les mesures successives d’une même grandeur, etc, pourrait trouver son origine
dans le fait que le phénomène en question résulte d’un grand nombre de variables aléatoires
indépendantes et de même loi. Mais ceci explique-t-il vraiment cela ? . . .
Figure 5.12 – Observation du mouvement brownien par le physicien Jean Perrin (1908) : la position
de trois particules colloı̈dales (de diamètre 0,53 µm), est observée sous le microscope et notée toutes
les 30 secondes. Le pas de la grille est de 3,2 µm. (Source : Wikipedia)
On va d’abord s’intéresser à une version simple du problème, où la marche se fait sur une grille, un réseau
régulier.
8. du nom du botaniste Robert Brown (1773–1858) qui a le premier observé le phénomène sous le microscope
9. Toute la discussion qui suit pourrait être menée en dimension arbitraire, sur un réseau “hypercubique”
de dimension d. Nous nous restreignons à d = 2 dimensions pour la commodité de l’exposition et des dessins.
e r0
2
e1
Figure 5.13 – Marche aléatoire sur un réseau carré
du site où il se trouve vers un des 4 sites voisins. On suppose ce saut aléatoire et équidistribué : la probabilité de
sauter sur n’importe lequel des sites adjacents est égale à 1/4. Les sauts successifs sont supposés indépendants.
Soit P(r, tn |r0 , t0 ) la probabilité conditionnelle que le marcheur se trouve au point r du réseau à l’instant
tn , sachant qu’il était en r0 à l’instant t0 . On va s’intéresser à la détermination de cette probabilité et à ses
propriétés, en particulier dans la limite n 1.
On observe d’abord que cette probabilité satisfait une condition initiale
où δr,r0 = 1 si r = r0 , = 0 sinon, c’est un “delta de Kronecker” à deux dimensions : δr,r0 = δx,x0 δy,y0 en termes
des composantes x et y des vecteurs r et r0 . La probabilité P satisfait aussi une condition de normalisation
X
P(r, tn |r0 , t0 ) = 1 (4.91)
r
où l’on somme sur tous les sites du réseau, condition qui exprime qu’à l’instant tn , le marcheur se trouve bien
quelque part !
Moins trivial est le fait que P satisfait aussi une relation de récurrence entre les temps tn et tn+1 , qui
exprime que le marcheur ne peut être en r au temps tn+1 que s’il était au temps tn en un des points voisins sur
le réseau, r ± ~ej , j = 1, 2. Comme les événements correspondants (être en r ± ~ej à l’instant tn ) sont exclusifs,
leurs probabilités s’ajoutent et on a donc
1 X
P(r, tn+1 |r0 , t0 ) = P(r0 , tn |r0 , t0 ) (4.92)
4 0
r =r±~
ej
(Cette relation rappelle et généralise la relation de récurrence du triangle de Pascal, qui correspondrait à un
réseau à une dimension.) Cette relation de récurrence, complétée par la condition initiale, suffit en principe à
déterminer complètement la probabilité P.
Notons encore que le problème étant invariant par translation d’espace et de temps, la fonction P(r, tn |r0 , t0 )
ne dépend que des différences r−r0 et tn −t0 = nτ , et que pour des raisons dimensionnelles, elle ne peut dépendre
que des rapports a1 (r − r0 ) et tn −t
τ
0
=n
r − r 0 tn − t0
P(r, tn |r0 , t0 ) = F ( , ). (4.93)
a τ
qui exprime qu’entre les instants t0 et t0 le marcheur passe en un temps intermédiaire t par un point r, que
les événements correspondant à des r différents sont exclusifs et ont des probabilités qui s’ajoutent, et que les
évolutions entre les temps t0 et t et entre t et t0 étant indépendantes (processus de Markov), leurs probabilités
se multiplient.
Supposons maintenant qu’on laisse les incréments de temps et d’espace τ et a tendre vers zéro. Dans cette
limite, les coordonnées de temps et d’espace, qui étaient discrétisées, tendent vers des variables continues. On
regarde donc la limite continue du problème initial. (De façon équivalente au vu de (4.93), cette limite décrit
la situation où les séparations d’espace r − r0 ou de temps tn − t0 = nτ sont très grandes par rapport à a et
∂
τ .) Dans la limite τ → 0 et a → 0, le membre de gauche de (4.95) est approximé par τ ∂t P(r, tn |r0 , t0 ), celui de
1 2
droite par 4 a ∆P(r, tn |r0 , t0 ) où ∆ est le laplacien à 2 dimensions
∂2 ∂2
∆= + (4.97)
∂x2 ∂y 2
agissant sur les coordonnées x et y de r. Dans cette limite l’équation (4.92) devient
∂ 1
τ P = a2 ∆P (4.98)
∂t 4
qui est une équation fondamentale de la physique, décrivant les phénomènes de diffusion, (diffusion de particules
dans un milieu, de chaleur etc). Selon le contexte, cette équation est appelée équation de Fick, équation de la
chaleur, . . .
La solution de l’équation (4.98) complétée par une condition initiale qui est la version continue de (4.90),
voir plus bas, est bien connue :
r − r 2
0 t − t0 Aτ −
(r−r0 )
F , = P(r, t|r0 , t0 ) = e a2 (t−t0 )/τ (4.99)
a τ (t − t0 )
où on suppose t − t0 > 0 et où la constante A va être fixée plus bas. Exercice : vérifier que cette fonction est
bien solution de (4.98).
Dans la limite qui nous occupe où r est une variable (aléatoire) continue, il faut remplacer la probabilité
du marcheur d’être en un point donné r par une densité de probabilité,
1
p(r, tn |r0 , t0 ) = P(r, tn |r0 , t0 ) (4.100)
a2
(qui a bien la dimension d’une densité à deux dimensions). La condition de normalisation (4.91), r a2 P(r,tna2|r0 ,t0 ) =
P
P 2
r a p(r, tn |r0 , t0 ) = 1 peut être considérée comme une somme de Riemann de l’intégrale de p et donne donc
dans la limite a → 0 Z
d2 r p(r, tn |r0 , t0 ) = 1 , (4.101)
qui est bien la condition de normalisation d’une densité de probabilité, comme nous l’avons vu, mais ici pour
une v.a. à deux dimensions r. Cette condition fixe la constante A = π1 , (cf les intégrales gaussiennes du § 5.4.3),
donc
(r−r )2
τ − a2 (t−t0 )/τ
p(r, tn |r0 , t0 ) = e 0 .
πa2 (t − t0 )
Le calcul jusqu’ici a supposé que les limites a → 0 et τ → 0 étaient indépendantes. Afin de se débarrasser
complètement de ces échelles “microscopiques”, on voit qu’il convient de prendre τ ∝ a2 . On choisira l’échelle
de temps de telle sorte que
1
τ = a2 (4.102)
4
1 2
(et plus généralement, en dimension d’espace d, on prendrait τ = 2d a ). L’expression finale de la densité de
probabilité p est donc
1 (r−r0 )2
−
p(r, tn |r0 , t0 ) = e 4(t−t0 ) , (pour t > t0 ) (4.103)
4π(t − t0 )
comme on le vérifiera en calculant cette convolution d’intégrales gaussiennes, un calcul qui après un changement
de variables adéquat se ramène à nouveau à une intégrale d’une gaussienne.
L’apparition d’une gaussienne, c’est-à-dire d’une loi normale pour p, comme solution de notre marche au
hasard ne doit pas surprendre : elle découle du théorème limite central, la trajectoire de r0 à r résultant de
l’addition d’un grand nombre n = (t − t0 )/τ de pas élémentaires (qui sont des v.a. indépendantes et de même
loi).
r − r0 → λ(r − r0 ) ; t − t0 → λ2 (t − t0 )
p(r, tn |r0 , t0 ) → λ−2 p(r, tn |r0 , t0 )
p(r, tn |r0 , t0 )d2 r → p(r, tn |r0 , t0 )d2 r (4.105)
où nous avons souligné que par cette dilatation, la densité de probabilité p est multipliée par un facteur λ−2 ,
tandis que la probabilité p d2 r que r soit dans un petit domaine au voisinage de r est invariante. Cette propriété
qui relie les dilatations de l’espace et du temps apparaissait déjà dans la relation (4.102) entre les échelles
microscopiques a et τ .
1
Une conséquence de cette invariance est que l’écart-type de la loi (4.103), h (r−r0 )2 i 2 , qui décrit l’étalement
de la distribution, c’est-à-dire le rayon typique R de la région couverte par le marcheur dans sa marche au hasard,
croı̂t comme
1 1
R = h (r − r0 )2 i 2 ∼ |t − t0 | 2 . (4.106)
Inversement la relation |t − t0 | ∼ R2 est interprétée en disant que la marche au hasard a une dimension
fractale, (plus précisément une dimension de Hausdorff), égale à 2 : si le marcheur déroule une bobine de fil
(fil d’Ariane ?) le long de sa trajectoire, à un taux constant par unité de temps, il aura consommé une quantité
∝ R2 de fil quand il se sera éloigné de R de son point de départ. . .
Cette invariance de dilatation (4.105) est un exemple de ce que l’on appelle une loi d’échelle et le nombre
ν = 21 qui apparaı̂t dans la puissance de (t − t0 ) dans (4.106) est un exemple d’exposant critique. Il est tout à
fait remarquable que cet exposant soit indépendant du détail de la marche au hasard : pas discrets égaux à ±
les vecteurs de base du réseau, ou mouvement brownien avec des pas de longueur arbitraire, etc. Il ne dépend
pas non plus de la dimension de l’espace où s’effectue cette marche. La raison étant une fois encore le théorème
limite central et l’universalité de la loi gaussienne qui en découle. En revanche, cet exposant serait modifié si on
imposait que le marcheur ne recoupe jamais sa trajectoire passée. . .
L’étude de systèmes ayant un comportement d’échelle et des exposants critiques est un thème majeur de la
physique contemporaine, qui s’applique par exemple au comportement d’un ferromagnétique au point de Curie,
mais cela est une autre histoire !
Figure 5.14 – Deux marches aléatoires sur réseau, vues à des échelles différentes. Sur la première, où
on distingue bien les pas sur le réseau discret, on constate que le mouvement ne s’étale pas beaucoup,
le marcheur revenant souvent sur ses pas. Cela est encore plus visible sur la seconde, où apparaı̂t
aussi une propriété remarquable du mouvement brownien continu, son invariance d’échelle (propriétés
fractales) : le grossissement d’une petite partie de la “courbe” est de même nature que la courbe
originale.
Ce chapitre est le premier d’une série qui va porter sur différents aspects des fonctions d’une
variable complexe. On va s’intéresser d’abord à des séries k ak z k d’une variable complexe z.
P
en considérant que Y = S(X), à condition que a0 = 0 : on obtient une nouvelle série formelle
T ◦ S(X). Sous les hypothèses a0 = 0, a1 6= 0 sur S, on peut aussi définir la série réciproque T
de S (c’est-à-dire inverse pour la composition) : T ◦ S = I (la fonction identité I : x 7→ x).
L’intérêt de ces séries formelles est qu’elles dissocient les questions de convergence de ces
manipulations algébriques. C’est par exemple intéressant dans des applications à des problèmes
de combinatoire, où on définit des “fonctions génératrices”. Si on a une collection de nombres
an indexés par un entier n, il est souvent utile de considérer la fonction génératrice des an ,
définie comme la série formelle n an X n .
P
Exemple. Le nombre de partitions Pn d’un entier n est le nombre de façons de l’écrire comme
somme non ordonnée n = p1 .1 + p2 .2 + · · · + pn .n, pi ≥ 0. Par exemple P5 = 7 (vérifier). Montrer
que la fonction génératrice des Pn est donnée par la formule d’Euler
∞
X 1
Pn X n = Q ∞ m
. (6.1)
n=0 m=1 (1 − X )
Or on peut √montrer (Hardy et Ramanujan, voir aussi plus bas la méthode du col) qu’asymptotiquement
2n
Pn ∼ 4n1√3 eπ 3 , une croissance beaucoup trop rapide pour que la série converge, pour quelque valeur de X
que ce soit. On dira dans la suite que la série a un rayon de convergence nul. La série est et reste une série
formelle. Mais telles quelles, ces fonctions génératrices séries formelles sont très utiles.
Q∞
Exemple : En factorisant le produit m=1 (1 − X m ) en deux produits sur les m pairs et impairs, démontrer
Q∞ Q∞
l’identité entre séries formelles (en fait produits formels . . .) m=1 (1 − X 2m−1 ) m=1 (1 + X m ) = 1. En déduire,
en écrivant leurs fonctions génératrices, que les nombres de partitions d’un entier en nombres impairs ou en
nombres distincts sont égaux. Par exemple pour n = 5, Pdistincts (5) = 3 : {5}, {4, 1}, {3, 2, 1} et Pimpairs (5) =
3 : {1, 1, 1, 1, 1}, {3, 1, 1}, {5}. Pour le physicien, les nombres de partitions en nombres distincts sont reliées au
comptage d’états fermioniques d’énergie donnée, dans un potentiel harmonique. . .
(L’ensemble de ces t n’est pas vide puisqu’il contient au moins 0, donc son sup est bien défini
1
dans R.) Par exemple, si la suite |an | n a une limite `, alors R = `−1 .
Mais plus généralement, on va montrer que (formule d’Hadamard)
1
= lim |an |1/n (6.3)
R n→∞
où la limite supérieure d’une suite a été définie à l’Appendice 1.3.5,
La preuve de (6.3) repose sur la “règle de Cauchy” (comparaison avec une série géométrique) : soit une suite
1/n P 1/n P
bn > 0 ; si limn→∞ bn < 1, n bn < +∞, et si limn→∞ bn > 1, n bn = +∞ (vérifier en utilisant (A.6) ).
On applique cela à bn = |an |rn et on en conclut que |an |rn converge pour r−1 > limn→∞ |an |1/n , et diverge
P
−1 1/n
si r < limn→∞ |an | ce qui, compte tenu de la définition (6.2) établit (6.3).
On appellera disque de convergence le domaine ouvert |z| < R, appellation justifiée par le
théorème fondamental
disque |z| ≤ r intérieur au disque de convergence (0 < r < R) ; elle converge absolument pour
tout z dans le disque de convergence |z| < R et diverge pour tout z hors de ce disque, |z| > R ;
sur le bord du disque, |z| = R, la série peut être convergente ou divergente.
(Pour les définitions des différents types de convergence, se reporter à la Définition 1.7.) Si
R = 0, la série ne converge que pour z = 0. Si R = ∞, elle converge dans tout le plan.
||ak z k || = |ak |rk < ∞
P P
La convergence normale est claire : pour la norme du sup, si |z| ≤ r < R,
par définition du rayon de convergence ; et les CVU et CVA découlent du Théorème 1.8. Bien noter que la
convergence normale et la convergence uniforme ne sont établies que dans tout disque plus petit que le disque
de convergence.
Exemples.
zn
– 1. La série n!
est convergente dans tout le plan, puisque ` = 0, donc R = ∞.
1 |z|n mm |z|
n
Rappelons l’argument : pour tout entier m supérieur à |z|, on a |z n /n!| = m! (m+1)···n < m! mn dès que
1
mm n
n > m d’où |z n /n!| n < |z|
1
m m! qui tend vers |z|/m < 1. cqfd
– 2. A l’inverse, z n n! est telle que ` = ∞, R = 0, donc la série ne converge qu’en 0.
n
– 3. zr , r 6= 0. On a ` = 1/r, donc un rayon de convergence R = r. Sur le cercle de
convergence, pour |z| = r, la série ne converge en aucun point (puisque le terme d’ordre
n ne s’annule pas).
n
– 4. zn , R = 1, la série converge pour tout z, |z| < 1, elle diverge pour |z| > 1 ; pour
z = 1 elle est divergente ; pour z = −1, elle est semi-convergente (convergente mais pas
absolument convergente) en tant que série alternée, et plus généralement elle converge
(mais pas absolument) sur tout le bord du disque sauf en z = 1. On reconnaı̂t la série de
− log(1 − z).
n
– 5. zn2 , R = 1. Sur tout le bord du disque de convergence, y compris z = ±1, convergence
absolue.
– 6. nz n , R = 1, la série diverge sur tout le bord du disque.
Il ressort de cette série d’exemples que le comportement sur le bord du disque est une question
délicate à étudier avec soin.
On peut additionner, multiplier ou inverser des séries entières de rayon de convergence non nul et on obtient
an z n il faut supposer que a0 6= 0.)
P
une autre série entière de rayon de convergence non nul. (Pour l’inverse de
On peut aussi composer la série T (ζ) = n=0 bn ζ n par S(z) = k=1 ak z k , 1 c’est-à-dire construire T (S(z)) qui
P P
est de rayon de convergence non nul si S et T le sont. En particulier si a1 6= 0 la série réciproque U de la série
S(z), telle que U (S(z)) = z, existe et a un rayon de convergence non nul.
qui converge dans le même disque de rayon R. (Preuve, voir [4], chap. I.)
On peut donc dériver terme à terme une série entière à l’intérieur de son disque de conver-
gence, puis dériver à nouveau, etc. La somme de la série S(z) = an z n est donc indéfiniment
P
dérivable et ses dérivées successives en z = 0 sont données par S (n) (0) = n!an , soit an =
S (n) (0)
an z n s’identifie au développement de Taylor(–
P
n!
. Pour |z| < R, la série entière S(z) =
Maclaurin) de S(z)
0 z 2 00 z n (n)
S(z) = S(0) + zS (0) + S (0) + · · · + S (0) + · · · (6.6)
2 n!
S 0 (z) = S(z)
Le noyau de cet homomorphisme, c’est-à-dire les y qui sont appliqués sur l’élément 1 sont les
multiples de 2π : y = 2πk, k ∈ Z. Autrement dit à tout nombre u de module 1 (à tout point
du cercle unité) correspond une famille de y définis modulo 2π tels que u = eiy : ce sont les
différentes déterminations de l’argument de u.
y = arg u mod 2π .
On étend alors la fonction argument à tout le plan “pointé” à l’origine C∗ = C\{0} par
w 6= 0 arg w = arg(w/|w|) .
Logarithme complexe
donc
z = log w = | log w| + i arg w (6.8)
Attention : on a utilisé la même notation log pour la fonction déjà bien définie sur les réels et
pour le logarithme complexe. De plus, il faut garder à l’esprit que la partie imaginaire de ce
log w est défini à l’addition près d’un multiple entier de 2πi.
Ainsi il faut prendre garde que les identités familières du logarithme peuvent être affectées
par ces déterminations multiples, telle
Le logarithme complexe ainsi défini est, comme la fonction arg ci-dessus, un exemple de
fonction multivaluée. Dans un domaine ouvert connexe du plan complexe, ne contenant pas O
et “simplement connexe” (heuristiquement, domaine “sans trou”, on verra plus précisément au
chapitre suivant ce qu’il faut entendre par là), le logarithme admet une détermination qui est
une fonction continue de la variable w. Et toute autre détermination en diffère par un multiple
entier de 2πi.
Par exemple, dans le domaine ouvert D : |w| > r > 0, | arg w| < π − α (r et α petits : plan
“coupé” le long de l’axe réel négatif), (6.8) fournit la détermination principale du logarithme
log w.
La série entière ∞
X un
T (u) = (−1)n−1
n=1
n
a pour rayon de convergence 1 (cf supra). Elle donne la détermination principale de log(1 + u).
En effet, comme on le sait bien, cette série est la série réciproque de celle de l’exponentielle ;
donc eT (u) = 1 + u ; c’est bien la détermination principale : si |u| < 1, w = 1 + u a une partie
réelle > 0 donc appartient au domaine D ci-dessus, et en u = 0, T (u) s’annule, tout comme la
détermination principale.
Définition 6.2 : La fonction f est développable en série entière centrée en z0 s’il existe un
ouvert Ω0 ⊂ Ω contenant z0 et une suite an ∈ C tels que
∞
X
∀z ∈ Ω0 f (z) = an (z − z0 )n . (6.9)
n=0
Définition 6.3 : La fonction f est analytique sur Ω si pour tout z0 ∈ Ω, elle admet un
développement en série entière centré en z0 .
D’après ce qui précède, si f est analytique dans Ω, elle y est indéfiniment dérivable et
ses dérivées successives y sont analytiques ; 1/f est analytique dans Ω privé des points z0 où
f (z0 ) = 0 ; si f admet une primitive dans Ω connexe (définie à une constante additive près),
cette primitive est aussi analytique.
Exemples : les polynômes de z sont analytiques dans C ; les fractions rationnelles de z sont
analytiques dans le plan privé des zéros du dénominateur. On va voir que la classe des fonctions
analytiques est bien plus vaste :
Autrement dit, si n an z n est convergente dans le disque ouvert |z| < R, la fonction f (z) =
P
n
P
n an z est analytique en tout point z0 de ce disque, donc tel que |z0 | < R. Cela est non
trivial : l’existence du développement en série entière centré en 0 n’implique pas évidemment
la même propriété en tout point du disque !
Exemple. Soit la série ∞ n
P
n=0 x . Elle converge dans le disque de rayon 1 vers la fonction
1 1
f (x) = 1−x . Pour tout x0 , −1 < x0 < 1, on peut écrire f (x) = 1−x0 −(x−x 0)
et développer
P∞ (x−x0 )n
f (x) = n=0 (1−x0 )n+1 . Quel est le domaine de convergence de ce nouveau développement ?
1 (n)
(z0 )un a un rayon de convergence R0 ≥ R − |z0 | et
P
Preuve du Théorème. Montrons que la série n n! f
que
X 1
f (z) = f (n) (z0 )(z − z0 )n pour |z − z0 | < R − |z0 | . (6.11)
n
n!
Si r0 ≤ r < R,
X 1 X (m + p)!
|f (m) (z0 )|(r − r0 )m ≤ αm+p r0p (r − r0 )m
m
m! m,p
m!p!
X X n! X
≤ αn r0n−m (r − r0 )m = αn rn < ∞ ,
n
m!(n − m)! n
0≤m≤n
n!
r0n−m (r − r0 )m converge donc, ce qui justifie a posteriori
P P
La série à coefficients positifs n αn 0≤m≤n m!(n−m)!
la modification de l’ordre des termes qu’on a effectuée. Cela prouve que la série (6.11) a un rayon de convergence
R0 ≥ r − r0 , et puisque r peut être arbitrairement près de R, R0 ≥ R − r0 .
P (m+p)! p m
On considère maintenant z tel que |z − z0 | < R − r0 . La série double m,p m!p! am+p z0 (z − z0 ) étant
absolument convergente d’après ce qui précède, on peut la resommer de deux façons différentes :
X (m + p)! X X n! X
am+p z0p (z − z0 )m = an z0n−m (z − z0 )m = an z n = f (z)
m,p
m!p! n
m!(n − m)! n
0≤m≤n
X (z − z0 )m X (m + p)! X (z − z0 )m
= am+p z0p = f (m) (z0 )
m
m! p
p! m
m!
P (z−z0 )m (m)
d’où f (z) = m m! f (z0 ) q.e.d.
Remarques.
1. Le rayon R0 de convergence de la série (6.11) peut être plus grand que R − r0 . Exemple,
1
considérer la série f (z) = n (iz)n = 1−iz
P
de rayon R = 1 et en étudier le développement en un
p
point réel x0 < 1. Montrer que le nouveau rayon de convergence est R0 = 1 + x20 > 1 − |x0 |.
2. Pour une fonction de variable réelle, l’hypothèse d’analyticité est plus forte que celle de
2
différentiabilité C ∞ . Ainsi, soit la fonction f (x) = e−1/x pour x 6= 0, f (0) = 0. La fonction
est C ∞ , toutes ses dérivées s’annulent en 0, et la série de Taylor est donc convergente, mais
sa somme est nulle donc ne converge pas vers f : la fonction n’est pas analytique ! L’origine
du problème est que, au voisinage de 0, (dans les directions imaginaires) la fonction et ses
2
dérivées croissent très vite (comme e1/|x| ). . . Il existe des conditions (nécessaires et/ou suffi-
santes) d’analyticité d’une fonction f de classe C ∞ , typiquement des conditions majorant la
croissance des dérivées f (n) au voisinage du point considéré ([4], chap. 1).
série autour de tout point du disque Ω : |z| < 1, par exemple z0 = 12 + 3i4 (voir figure 6.1) et ce
q √
développement a un rayon donné par la distance de z0 au point 1, soit r0 = 14 + 16 9
= 413 : soit
D le disque de centre z0 et de rayon r0 . La fonction est analytique en tout point de Ω0 = Ω ∪ D.
Ce nouveau domaine Ω0 déborde largement les limites de Ω : on a donc bien prolongé f au
delà du disque initial. On pourrait itérer cette opération et de proche en proche, prolonger
analytiquement f au plan privé du point 1.
Un théorème nous garantit l’unicité de ce prolongement, s’il existe :
Théorème 6.3 : Soit f une fonction analytique dans un ouvert connexe Ω et soit z0 ∈ Ω. Les
trois conditions suivantes sont équivalentes
1. ∀n ≥ 0 f (n) (z0 ) = 0 ;
2. f ≡ 0 dans un voisinage de z0 ;
3. f ≡ 0 dans Ω.
z0
0 1
n
P
Figure 6.1 – Prolongement analytique de la somme de la série nz au delà de son disque de
convergence.
qui converge dans le disque D1 = |z − eiπ/4 | < 1, etc. Ces deux fonctions coı̈ncident au voisinage
de z0 = iπ8 (vérifier !) donc dans tout D0 ∩D1 selon la Proposition précédente. f1 est donc l’unique
prolongement de log z au domaine D1 . On pourrait itérer et définir de proche en proche les
prolongements fk dans les disques Dk : |z − eikπ/4 | < 1. Mais attention ! rien ne nous dit que
Applications physiques
A côté des applications mathématiques, le prolongement analytique d’une fonction peut aussi être utile en
physique.
Exemple : les notions d’impédance Z et de son inverse Y , l’admittance, qui décrivent la réponse d’un circuit
électrique à une excitation, sont familières : il s’agit de fonctions (complexes) de la variable réelle de fréquence
(“angulaire”) ω. Il se trouve que le prolongement de Z(ω) et de Y (ω) à des valeurs complexes de ω est possible,
en faisant appel à la causalité, et qu’il contient une information utile. On verra au chapitre 8 d’autres exemples
de ce cas (relations de dispersion).
D’autres exemples concernent le prolongement de quantités physiques définies pour une variable entière à des
valeurs réelles ou complexes arbitraires : c’est le cas du moment cinétique J qui en mécanique quantique prend
des valeurs quantifiées, multiples entières ou demi-entières de ~, mais qui sous des hypothèses adéquates sur le
potentiel de diffusion, peut être prolongé dans le plan complexe (Regge) ; là encore, les propriétés d’analyticité
dans la variable J peuvent être riches d’informations . . . C’est encore le cas avec d’autres nombres au départ
entiers –nombre Q d’états dans le modèle de Potts de la mécanique statistique ; dimension d’espace-temps
prolongée à partir de d = 4 en mécanique statistique et théorie des champs, etc.
Exercices
1. Considérer la série
∞ k
X 1 4 2 1 1
S= − − − (6.13)
k=0
16 8k + 1 8k + 4 8k + 5 8k + 6
On va voir dans ce chapitre que la condition qu’une fonction de variable complexe est
dérivable est très contraignante. Les fonctions dérivables ou holomorphes possèdent des pro-
priétés remarquables que nous allons explorer.
où o(khk)/khk → 0 quand h → 0. dfa est appelée la différentielle (ou l’application linéaire
tangente) de f en a. Si on note xi , i = 1, · · · , n, des coordonnées dans (une base de) Rn , et si
h = (h1 , · · · , hn ) dans cette base, l’application linéaire dfa s’écrit
n
X ∂f
dfa (h) = hi (7.2)
i=1
∂xi a
∂f
et les ∂xi a
s’identifient aux dérivées partielles en a comme définies usuellement. La différentiabilité
en a implique donc l’existence des dérivées partielles en a ; l’inverse n’est pas vrai, voir ci-
dessous. (Remarque : h = (hi ) est ce que l’on appellera plus tard un vecteur tangent.)
On peut aussi introduire les (formes) différentielles dxi , telles que dxi (h) = hi . (Ce sont des
“formes” (linéaires) car elles sont à valeurs dans R, et elles agissent sur les vecteurs tangents,
ici h). On récrit alors (7.2) sous la forme
n
X ∂f
dfa = dxi . (7.3)
i=1
∂x i a
P
Plus généralement on aura à considérer plus bas des formes différentielles ω = i Fi (x)dxi .
Si f est différentiable en tout point de Ω et que l’application a 7→ dfa est continue, on
dit que f est continûment différentiable (ou de classe C 1 ). Si n = 1 (fonction d’une variable
réelle), la notion de différentiabilité s’identifie à celle de dérivabilité, définie par l’existence de la
dérivée. Si n > 1, cependant, cela n’est plus toujours vrai : f peut avoir des dérivées partielles
en a sans être différentiable. Considérons par exemple la fonction de R2 dans R :
y 3 /(x2 + y 2 ) si (x, y) 6= (0, 0)
f (x, y) = .
0 si (x, y) = (0, 0)
Elle est continue en (0, 0), y admet des dérivées partielles . . . mais n’est pas différentiable ! En
effet ∂x f (0, 0) = 0, ∂y f (0, 0) = 1, mais (f (h, k) − 0 − k)/k(h, k)k = −kh2 /(h2 + k 2 )3/2 ne tend
pas vers 0 indépendamment de la direction suivie.
Dans la suite de ce chapitre, on va s’intéresser à n = 2, p = 1 ou 2 (fonctions réelles ou
complexes d’une variable complexe).
z→z0 z − z0
existe, c’est-à-dire s’il existe un nombre complexe noté f 0 (z0 ) tel que
∂ f˜ ∂ f˜
f˜ est différentiable dans R2 et (x0 , y0 ) = −i (x0 , y0 ) , (7.5)
∂x ∂y
∂ f˜
et alors, f 0 (z0 ) = ∂x
(x0 , y0 ) .
f = P + iQ avec P = <e f , Q = =m f .
∂P ∂Q ∂Q ∂P
(x0 , y0 ) = (x0 , y0 ) (x0 , y0 ) = − (x0 , y0 ) (7.7)
∂x ∂y ∂x ∂y
Interprétation géométrique : les deux courbes <e f (z) = const. et =m f (z) = const. sont
orthogonales au point z0 .
Preuve (de cette interprétation) : voir TD.
Notons finalement que par les formules de Cauchy–Riemann, nous avons plusieurs expres-
sions équivalentes pour la dérivée d’une fonction holomorphe :
∂P ∂Q ∂Q ∂P ∂P ∂P ∂Q ∂Q
f 0 (z) = +i = −i = −i = +i . (7.8)
∂x ∂x ∂y ∂y ∂x ∂y ∂y ∂x
Exemples, contre-exemples. Tout polynôme R(z) (à coefficients dans C) est dérivable donc
holomorphe en tout point z de C. Les fonctions ez , sin z, cos z etc sont holomorphes sur C.
déf
La fonction f : z 7→ 1/z est holomorphe sur C∗ = C\{0}. En revanche la fonction f : z 7→ z̄
7.1.3 Dérivations ∂, ∂¯
Comme on l’a rappelé plus haut en (7.3), pour une fonction f : R2 → R2 différentiable au
point (x0 , y0 ), on peut écrire la différentielle en (x0 , y0 ) comme
∂f ∂f
df = dx + dy . (7.9)
∂x (x0 ,y0 ) ∂y (x0 ,y0 )
Appliquons cela à des fonctions f : Ω → C d’une variable z = x + iy. Pour les fonctions
z 7→ z et z 7→ z̄ on a dz = dx + idy et dz̄ = dx − idy, soit encore dx = 21 (dz + dz̄) et
dy = 2i1 (dz − dz̄). L’expression (7.9) conduit alors à
1 ∂f 1 ∂f
df = (dz + dz̄) + (dz − dz̄)
2 ∂x 2i ∂y
1 ∂f ∂f 1 ∂f ∂f
= −i dz + +i dz̄ . (7.10)
2 ∂x ∂y 2 ∂x ∂y
et ces opérateurs différentiels seront notés aussi ∂z et ∂z̄ , ou plus simplement ∂ et ∂¯ chaque fois
qu’il n’y aura pas d’ambiguı̈té.
On a donc finalement pour la différentielle de f l’expression compacte
∂f ∂f
df = dz + dz̄
∂z ∂ z̄
à nouveau en accord avec la remarque ci-dessus : les variables z et z̄ peuvent être considérées
comme indépendantes.
Ce qui a précédé n’a fait usage que de la différentiabilité dans R2 de la fonction f . Supposons
maintenant la fonction f dérivable dans Ω ⊂ C (holomorphe) :
Proposition 7.4 : Soit f holomorphe dans un ouvert connexe Ω ; si <e f est constante, alors
f est constante.
Preuve. Comme <e f = 21 (f + f¯), on a d(f + f¯) = 0, ce qui compte tenu de l’holomorphie ∂z̄ f = 0 et (par
conjugaison) ∂z f¯ = 0, conduit à ∂z f dz + ∂z̄ f¯ dz̄ = 0. Mais cela n’est possible que si séparément ∂z f = 0 et
∂z̄ f¯ = 0. Donc df = 0 et f est constante.
On démontre de même (voir TD) que sous la même hypothèse f holomorphe dans Ω connexe,
=m f = const. =⇒ f = const., |f | = const. =⇒ f = const. ; si f 6= 0 dans Ω, log |f | =
const. =⇒ f = const., arg f = const. =⇒ f = const.
Pour décrire des chemins ayant un nombre fini de points anguleux, tel le bord d’un rectangle,
on doit un peu généraliser les définitions qui précèdent et considérer des chemins différentiables
par morceaux : l’intervalle [a, b] peut être subdivisé en un nombre fini p d’intervalles adjacents
[ai , ai+1 ], a0 = a, ap = b, tels que γ soit continue sur [a, b] et continûment différentiable sur
chaque [ai , ai+1 ]. Cela sera implicite dans la suite quand on parlera de chemin.
Autrement dit dans ζ(t, u), u est le paramètre de déformation, et tous les chemins γ(·, u)
interpolant entre γ0 et γ1 ont mêmes extrémités. La relation d’homotopie est une relation
d’équivalence entre chemins, qu’on notera simplement γ0 ∼ γ1 .
Définition 7.3 : Un ouvert Ω de C est dit simplement connexe si tout chemin fermé est
homotope à un point.
Heuristiquement, dire que Ω est simplement connexe signifie qu’il n’“a pas de trou”, contrairement au cas
représenté sur la Fig. 7.1. Noter que le “trou” peut être réduit à un point : le plan complexe pointé C∗ n’est
pas simplement connexe. Remarque : les notions de chemins, d’homotopie et de simple connexité s’étendent à
tout espace topologique E.
2 2
1
Figure 7.1 – Le chemin γ1 est homotope à γ2 dans Ω, mais pas à γ3 . Le domaine Ω n’est pas
simplement connexe ; il a pour bord orienté Γ1 ∪ Γ2 .
Soit B un domaine compact du plan. On dit qu’il a pour bord orienté Γ = ∪i Γi , où chaque
chemin Γi est simple et différentiable par morceaux, et où les images des différents Γi sont
o
disjointes, si Γ est la frontière de B (c’est-à-dire Γ = B̄− B, cf Chap. 1) et (orientation) si
quand on parcourt chaque Γi dans le sens des t croissants, on a localement à sa gauche des
points de B et à sa droite des points de son complémentaire. Cette définition qui peut être
formalisée davantage (cf [4] p. 65-66) recouvre un fait assez intuitif, illustré sur la figure 7.1 où
le bord de Ω est constitué de Γ = Γ1 ∪ Γ2 . En général, il est commode de noter ∂B le bord
orienté de B.
ω = P dx + Qdy
où P et Q sont à valeurs réelles ou complexes. Par définition l’intégrale de la forme ω sur un
chemin différentiable γ : t ∈ [a, b] 7→ (x(t), y(t)) est
Z Z b
γ ∗ (ω)
déf
ω= (7.15)
γ a
(P (x̃(u), ỹ(u))x̃0 (u)+Q(x̃(u), ỹ(u))ỹ 0 (u))du. Ces considérations s’étendent à des chemins différen-
tiables par morceaux : l’intégrale de ω est la somme des intégrales sur les morceaux différentiables
successifs de la courbe, γ ω = pi=1 γi ω.
R P R
Si γ : [0, 1] → Ω est un chemin d’origine α et d’extrémité β, on note −γ le chemin parcouru en sens inverse
R R
−γ(t) = γ(1 − t) ; il a pour origine β et pour extrémité α. On a bien sûr −γ ω = − γ ω. Dans le même ordre
d’idées, si le chemin γ2 a pour origine l’extrémité du chemin γ1 , on peut composer les deux chemins en un
chemin γ1 + γ2 1 d’origine γ1 (0) et d’extrémité γ2 (1). Enfin, si γ1 et γ2 ont même origine α et même extrémité
β, le chemin γ1 − γ2 est un chemin fermé de α à α.
Bien comprendre qu’une intégrale sur un chemin d’extrémités α et β données
dépend en général de ce chemin. C’est une question qui va nous occuper maintenant
1. une notation pas très heureuse, puisqu’on ne peut pas en général définir γ2 + γ1 . . .
de trouver quelles conditions doivent être satisfaites pour que l’intégrale ne dépende pas du
chemin, et qu’on puisse déformer le chemin (ou contour) d’intégration.
Supposons que ω est une forme exacte dans l’ouvert Ω, c’est-à-dire qu’elle y est la différentielle
d’une fonction f : ω = df , continûment différentiable, appelée la primitive de la forme ω ; alors
pour un chemin γ (différentiable par morceaux)
Z
df = f (γ(b)) − f (γ(a)) . (7.17)
γ
R
En particulier, pour un chemin fermé (complètement contenu dans Ω), on voit que γ
df = 0.
Attention que la définition de la primitive f de la forme exacte ω impose que f est définie dans tout Ω. Une
condition plus faible serait que localement, c’est-à-dire dans un voisinage de tout point, il existe une fonction f
telle que ω = df . Une telle forme ω peut être appelée fermée 2 . Évidemment toute forme exacte est fermée, la
réciproque n’étant en général pas vraie. Exemple, dans Ω = C∗ (plan “pointé” à l’origine), ω = dz/z est fermée,
R
puisque localement ω = d log z, mais pas exacte. En effet comme on vérifie aisément, γ ω = 2πin où n est le
nombre algébrique de fois où le chemin γ tourne autour de l’origine, voir ci-dessous (7.23).
Proposition 7.5 : Si ω = df est exacte dans Ω, son intégrale le long du chemin γ est la même
pour tous les chemins homotopes à γ.
R R
La preuve est simple : si γ0 ∼ γ1 , γ0 ω − γ1 ω peut être considérée comme l’intégrale le long
du chemin fermé γ0 − γ1 obtenu en composant γ0 et −γ1 , c’est-à-dire le chemin γ1 parcouru en
R
sens inverse. Il découle de la remarque suivant (7.17) que γ0 −γ1 df = 0. cqfd.
Proposition 7.6 : Pour qu’une forme différentielle ω admette une primitive dans Ω, il faut et
R
il suffit que γ ω = 0 pour tout chemin fermé γ différentiable par morceaux et contenu dans Ω.
Preuve. On vient de voir que la condition est nécessaire. Qu’elle est suffisante résulte de la construction suivante :
soit ω = P dx + Qdy une forme satisfaisant la condition du Théorème ; on se donne un point (x0 , y0 ) ∈ Ω
R
quelconque dans Ω et on définit f (x, y) = γ ω où γ est un chemin différentiable dans Ω d’origine (x0 , y0 ) et
d’extrémité (x, y). Sous l’hypothèse de la Proposition, f (x, y) ne dépend pas du choix de γ, puisque pour un
R R R
autre chemin γ1 de (x0 , y0 ) à (x, y), γ ω − γ1 ω = γ−γ1 ω et que γ − γ1 est un chemin fermé. On vérifie alors
aisément que f est continûment différentiable dans Ω et que ∂f ∂f
∂x = P (x, y), ∂y = Q(x, y). (Idée : calculer ces
dérivées partielles en intégrant ω le long de segments de droite entre x et x + dx etc.) f est bien la primitive de
ω, cqfd.
Remarque. La condition précédente, qui porte sur tout chemin fermé γ, semble d’application difficile. En fait il
suffit d’assurer une condition moins forte :
2. Par la suite on donnera une définition différente : ω est fermée si sa différentielle que nous ne définirons
pas ici s’annule : dω = 0, une condition qu’on montre être équivalente à “ω est localement exacte”.
R
Proposition 7.7 : Soit D un disque ouvert. Si γ ω = 0 pour tout chemin γ qui est le bord
d’un rectangle complètement contenu dans D, alors ω a une primitive dans D (elle est exacte).
Par “rectangle complètement contenu . . . ”, on veut dire que l’intérieur et la frontière du
rectangle sont contenus dans D, voir Fig. 7.2(a).
La preuve est instructive : Soit (x0 , y0 ) le centre du disque. Tout point (x, y) de D définit avec (x0 , y0 ) un
rectangle complètement contenu dans D, voir Fig. 7.2(a). Les deux intégrales de (x0 , y0 ) à tout (x, y) ∈ Ω le
R
long des deux contours (x0 , y0 ) → (x, y0 ) → (x, y) ou (x0 , y0 ) → (x0 , y) → (x, y) sont égales puisque γ ω = 0 et
définissent une primitive F (x, y) de ω (même calcul que dans la Prop. 7.6).
Si au lieu d’un disque on prend un ouvert Ω quelconque, on peut appliquer un raisonnement
du même genre, en prenant un point de base (x0 , y0 ) ∈ Ω tel que le rectangle de sommets
(x0 , y0 ) et (x, y) soit complètement contenu dans Ω, ce qui est toujours possible pour tout point
(x, y) de l’ouvert Ω. Mais la construction sera locale, et la fonction f ainsi construite ne sera
pas nécessairement une primitive définie dans tout Ω. Donc
R
Proposition 7.8 : Soit Ω un ouvert. La forme ω est fermée si et seulement si γ ω = 0 chaque
fois que γ est le bord d’un petit rectangle contenu dans l’ouvert Ω.
A
(x0 ,y0) (x,y0)
(a1,b1) (a2 ,b1)
(a) (b)
Figure 7.2 – (a) Contour rectangulaire γ partant du centre (x0 , y0 ) du disque D ; (b) Rectangle A
contenu dans l’ouvert Ω.
Formule de Green–Riemann
Ce théorème qu’on a déjà rencontré à travers ses applications physiques (la circulation d’un vecteur le long
d’un chemin fermé γ égale le flux de son rotationnel à travers la surface dont γ est le bord orienté. . .) est un
cas particulier d’une classe de résultats auxquels on donne le nom de théorème de Stokes, de la forme générale
R R
Ω
dω = ∂Ω ω pour des domaines Ω et des formes différentielles ω de dimension plus élevée, cf le théorème de
Gauss-Ostrogradsky rencontré en électromagnétisme : le flux d’un vecteur à travers une surface fermée égale
l’intégrale de sa divergence dans le volume limité par la surface, etc. Nous n’aurons malheureusement pas le
temps d’aborder ces questions.
Preuve de la formule de Green–Riemann. On ne donnera la preuve que dans le cas d’un rectangle de côtés
parallèles aux axes des x et des y, voir Fig. 7.2(b). Soient a1 < a2 les abscisses des sommets du rectangle, b1 < b2
leurs ordonnées. Le chemin fermé γ est fait de 4 segments orientés : [(a1 , b1 ) → (a2 , b1 )], [(a2 , b1 ) → (a2 , b2 )],
[(a2 , b2 ) → (a1 , b2 )], [(a1 , b2 ) → (a1 , b1 )]. On a
ZZ Z a2 Z b2 Z a2 Z a2 Z
∂P ∂P
dxdy = dx dy = P (x, b2 )dx − P (x, b1 )dx = − P dx
A ∂y a1 b1 ∂y a1 a1 γ
RR ∂Q
et une expression analogue pour ∂x dxdy. En remettant tout ensemble, on a bien (7.18).
Nous ferons par la suite usage de la Proposition suivante :
Proposition 7.10 : Soit une forme différentielle ω = P dx + Qdy définie dans un ouvert
connexe Ω, telle que ∂P
∂y
et ∂Q
∂x
sont continues dans Ω. Alors
∂P ∂Q
= (7.19)
∂y ∂x
est une condition nécessaire pour que ω = df dans Ω. Elle est suffisante localement (forme
fermée) ; elle est suffisante globalement dans tout Ω (forme exacte) si Ω est un disque ouvert.
Preuve : Dire que ω = df = ∂f ∂f ∂f ∂f
∂x dx + ∂y dy équivaut à dire que P = ∂x et Q = ∂y , un système de deux
équations aux dérivées partielles dont la condition nécessaire et suffisante d’intégrabilité (locale) est ∂Q ∂P
∂x = ∂y =
∂2f
∂x∂y , cf Appendice D. Ou encore, autre méthode, si (7.19) est satisfaite, alors le théorème de Green–Riemann
R
nous dit que γ ω= 0 pour tout chemin rectangulaire γ et la Proposition 7.8 nous dit que ω admet localement
une primitive (elle est fermée). La condition (7.19) est nécessaire : si ω est fermée, la Proposition 7.8 et le
∂Q
théorème de G-R nous disent que A ( ∂P
RR
∂y − ∂x ) = 0 pour tout petit rectangle A ⊂ Ω, ce qui implique (par
∂Q
l’absurde) que ( ∂P
∂y − ∂x ) = 0 en tout point (x, y) de Ω. Si le domaine est un disque, (7.19) est une condition
suffisante pour que ω soit exacte, car on applique la Proposition 7.7. Comme on va le voir ci-dessous, c’est aussi
une condition suffisante pour un domaine Ω simplement connexe.
Exemple : la forme ω = dz/z satisfait bien (7.19) dans C∗ , elle est fermée (localement
exacte) ω = d log z, mais pas exacte dans tout C∗ , en raison une fois encore des déterminations
multiples du log, ou du fait que C∗ n’est pas simplement connexe.
Nous avons finalement le théorème suivant
Théorème 7.11 : Soit ω une forme différentielle fermée dans un ouvert connexe Ω. Alors
R R
(i) pour deux chemins homotopes γ1 et γ2 (de mêmes extrémités), γ1 ω = γ2 ω ; ou de façon
R
équivalente, pour tout chemin fermé γ homotope à un point, γ ω = 0 ;
(ii) si Ω est simplement connexe, ω y est exacte (elle admet une primitive dans Ω).
Éléments de preuve : (i) La forme est fermée, donc (Proposition 7.10 et Théorème de Green–Riemann),
R
γ
ω = 0 le long de tout chemin fermé simple complètement contenu dans Ω. Cela s’applique au chemin fermé
γ1 − γ2 qu’on supposera simple (quitte à le décomposer en un nombre fini de lacets simples s’il a des points
R R
multiples). Donc γ1 ω = γ2 ω, cqfd. Pour le point (ii), on observe que si Ω est simplement connexe, tout
R
chemin fermé γ y est homotope à un point, donc γ ω = 0, et on applique alors la Proposition 7.6. Pour une
démonstration plus soigneuse, se reporter à [4], p. 60-61.
Définition 7.4 : Soit ω = ω1 dz + ω2 dz̄ une forme définie sur Ω, et γ un chemin dans Ω.
L’intégrale de ω sur le chemin γ est définie par
Z Z b
(ω1 (γ(t)) γ 0 (t) + ω2 (γ(t)) γ̄ 0 (t)) dt .
déf
ω= (7.20)
γ a
Autrement dit, sous les hypothèses du théorème, l’intégrale de contour ne dépend pas du contour
γ mais seulement de ses extrémités.
∂f
Preuve : La relation (7.17) s’applique à df , mais f étant holomorphe, df = ∂z (z)dz.
Attention : cette formule n’est valable que pour f holomorphe.
Exemple d’intégrale de contour : soit γ le cercle de centre a ∈ C et de rayon R, qu’on
paramétrise par exemple par θ ∈ [0, 2π] 7→ γ(θ) = a + Reiθ . Si f est une fonction (holomorphe
ou non) définie dans un ouvert Ω contenant γ, alors (7.20) appliqué à ω = f (z)dz donne
Z Z 2π
f (z)dz = f (a + Reiθ ) iReiθ dθ
γ 0
Cas particulier : intégrons f (z) = 1/z sur le cercle γ de centre O et de rayon R, (ici Ω = C∗ ) :
Z Z 2π iθ
1 dz 1 ie
= dθ = 1 , (7.22)
2πi γ z 2πi 0 eiθ
1 dz
R
Proposition 7.13 : Pour tout chemin fermé γ ne passant pas par l’origine, 2πi γ z
est un
entier.
Preuve : la forme dz/z n’est pas exacte, mais localement elle admet comme primitive log z. On
se rappelle (chap. 6) que la fonction log admet plusieurs déterminations. L’intégrale de contour
1
R dz
2πi γ z
est donc égale à la différence de deux déterminations du logarithme divisée par 2πi,
soit un entier.
1
R xdy−ydx
Corollaire : Pour tout chemin γ ne passant pas par l’origine, 2π γ x2 +y 2
est un entier.
y
Preuve : calculer la différentielle de =m log z = arg z = Arctan x .
2 z1 z1 z1 z1
0 2 z 1 1
1
0
Figure 7.3 – À gauche : L’indice du chemin γ par rapport à un point est constant dans chaque
composante connexe du complémentaire U de γ. À droite : La traversée par z du contour γ équivaut
à ajouter la contribution du lacet γ1 : Indγ (z) = Indγ 0 (z1 ) = Indγ (z1 ) + Indγ1 (z1 ) = Indγ (z1 ) + 1.
En effet cela est une conséquence du Théorème 7.12, γ f 0 (z)dz = f (γ(b)) − f (γ(a)) = 0
R
Théorème 7.16 (Cauchy) : Si f est une fonction holomorphe sur Ω, la forme f (z)dz est
fermée dans Ω : localement elle admet une primitive f (z)dz = dF (z).
Il s’agit là d’un théorème fondamental dont vont découler beaucoup de conséquences et d’ap-
plications. Démontrons-le en faisant l’hypothèse supplémentaire que ∂f ∂x
et ∂f
∂y
sont continues
dans Ω. (On verra plus bas que cette propriété est en fait toujours satisfaite par une fonction
holomorphe. Mais on peut aussi établir directement, avec un peu plus d’effort, le théorème de
Cauchy sous la seule hypothèse d’holomorphie, voir [4], p. 70–71.) Il suffit alors d’écrire la forme
f (z)dz = f (z)dx + if (z)dy, soit dans les notations de la Prop. 7.10, P = f (z), Q = if (z). Les
conditions d’holomorphie de Cauchy–Riemann ∂f ∂y
= i ∂f
∂x
et la Proposition 7.10 nous assurent
alors que f dz est fermée.
R
Corollaire : Si f est holomorphe dans Ω, on a γ f (z)dz = 0 pour tout chemin fermé homotope
à un point dans Ω. De façon équivalente, pour deux chemins γ1 et γ2 de mêmes extrémités et
R R
homotopes, γ1 f (z)dz = γ2 f (z)dz.
C’est la transcription en variables complexes du Théorème 7.11, et c’est sous cette forme, ou
sous l’une des formes équivalentes ci-dessous, que le théorème de Cauchy va nous être le plus
utile. La deuxième formulation de ce corollaire implique que l’on peut déformer continûment
le contour d’intégration d’une fonction holomorphe, à extrémités fixes, ce qui généralise ce que
l’on a vu au Théorème 7.12. Une forme plus faible de ce corollaire (elle aussi découlant du
Théorème 7.11) consiste à dire
R
Corollaire : Si f est holomorphe dans un ouvert Ω simplement connexe, on a γ f (z)dz = 0
pour tout chemin fermé dans Ω.
elle est définie et continue pour tout z ∈ Ω, et holomorphe pour z 6= a. Un théorème de Riemann
(voir plus bas Théorème 7.23) assure alors qu’elle est holomorphe sur tout Ω. On a donc par le
corollaire du théorème de Cauchy :
Z Z Z Z
f (z)dz f (a)dz f (z)dz
0 = g(z)dz = − = − 2πi Indγ (a)f (a)
γ γ z −a γ z −a γ z −a
Autrement dit la valeur de f en tout point a est égale à sa moyenne sur un cercle centré en a.
La preuve découle simplement de l’intégrale de Cauchy : si γ est le bord du disque orienté dans
le sens positif
π
f (a + reiθ )ireiθ dθ
Z Z Z
1 f (z)dz 1 dθ
f (a) = = = f (a + reiθ ) .
2πi γ z−a 2πi γ reiθ −π 2π
Résultat remarquable : deux conditions sur les fonctions de variable complexe –dérivabilité et
analyticité– ont finalement abouti à la même classe de fonctions ! !
Preuve : Soit f une fonction holomorphe dans Ω. Soit z0 ∈ Ω, il existe un disque ouvert de
centre z0 et de rayon R contenu dans Ω. Pour r < R, soit z : |z − z0 | < r et prenons pour γ un
0 z−z0
cercle de centre z0 et de rayon r0 , r < r0 < R. Si ζ ∈ γ, on a z−z
ζ−z0
= r0 < 1, donc la série
P∞ (z−z0 )n
géométrique n=0 (ζ−z0 )n+1 converge et a pour somme (ζ − z)−1 . Selon (7.24),
∞
(z − z0 )n
Z Z X
1 f (ζ) 1
f (z) = dζ = n+1
f (ζ)dζ
2πi γ ζ −z 2πi γ n=0 (ζ − z0 )
et la convergence uniforme (car normale) de la série pour |z| ≤ r et |ζ − z0 | = r0 fait qu’on peut
l’intégrer terme à terme (c’est-à-dire permuter intégration et sommation)
∞ Z ∞
X 1
n f (ζ) X
f (z) = (z − z0 ) dζ = an (z − z0 )n (7.27)
n=0
2πi γ (ζ − z0 )n+1 n=0
Cela étant vrai en tout point z0 ∈ Ω, f est bien analytique dans Ω. Et comme (7.27) converge
pour tout r < R, le rayon de convergence de la série est au moins égal à R. Selon la formule
(6.6), on a de plus Z
1 (n) 1 f (ζ)
f (z0 ) = an = dζ . (7.28)
n! 2πi γ (ζ − z0 )n+1
Réciproquement on veut montrer que si f est analytique dans Ω, elle est indéfiniment dérivable
en tout point de Ω, donc holomorphe. Cela a été mentionné au Chap. 6 pour des fonctions
analytiques de variable réelle, mais la démonstration doit être reprise pour établir l’holomorphie.
Considérons le développement en série de f au point z0 qu’on prendra égal à 0 sans perte de généralité :
n
P
f (z) = n an z qui converge dans un disque ouvert de rayon R. On a vu au § 6.1.3 que la série dérivée
n−1
P
n nan z a aussi R comme rayon de convergence. Pour z tel que |z| < R, soient r : |z| < r < R et h ∈ C :
0 6= h ≤ r − |z|. Formons
f (z + h) − f (z) X X
− nan z n−1 = un (z, h)
h n n≥1
avec
un (z, h) = an (z + h)n−1 + z(z + h)n−2 + · · · + z n−1 − nz n−1
Puisque |z|, |z + h| ≤ r, on a |un (z, h)| ≤ 2n|an |rn−1 et comme r < R, cette série converge, donc ∀, il existe
n0 tel que n>n0 2n|an |rn−1 ≤ 21 . Quant à la somme finie n≤n0 un (z, h), elle s’annule en h = 0 donc peut
P P
être rendue ≤ 21 en prenant |h| < η. Avec ces choix de n0 et de η, on a donc rendu f (z+h)−f (z)
− n nan z n−1
P
h
arbitrairement petite, et donc établi que f 0 (z) = limh→0 f (z+h)−f
h
(z)
, c’est-à-dire l’holomorphie de f .
Exemple : la fonction ez qui est analytique avec un rayon de convergence infini est holo-
morphe dans tout C donc entière.
Autrement dit, une fonction entière non constante doit tendre vers l’infini dans certaines di-
rections du plan complexe. Voir l’exemple de exp z qui tend vers l’infini quand |z| → ∞ avec
<e z > 0. Inversement ce théorème de Liouville est utile pour établir des identités entre fonc-
tions analytiques : si on peut montrer qu’une combinaison de fonctions analytiques n’a pas de
singularité et demeure bornée, c’est une constante. (Exemple, voir TD.)
Preuve. Soit f entière et bornée, |f (z)| < M . Calculons f 0 (z) par Cauchy, ou plutôt par (7.28) : f 0 (z) =
H f (ζ) R 2π |f (ζ)|
1
2πi γ (ζ−z)2
dζ le long d’un cercle de rayon R autour de z. Donc |f 0 (z)| ≤ 2π
1
0 |(ζ−z|2
Rdθ ≤ M
R . Comme R
0
peut être pris arbitrairement grand, |f (z)| = 0 et f est une constante.
Application : théorème de d’Alembert. Montrons que le théorème fondamental de l’algèbre,
tout polynôme P à coefficients complexes et non constant possède au moins une racine complexe,
découle de ce théorème de Liouville. Raisonnons par l’absurde et supposons que P ne s’annule
pas. Alors 1/P (z) serait holomorphe dans C et borné. En effet P (z) = z n (an + an−1 z
+· · ·+ zan0 ) →
∞ quand |z| → ∞, donc il existe un disque compact à l’extérieur duquel 1/P (z) est borné
(puisque |P | → ∞ à l’infini) et à l’intérieur duquel il est également borné en tant que fonction
continue. Donc (Liouville) P serait constant ce qui est contraire à l’hypothèse. q.e.d.
Esquisse de preuve. On peut toujours supposer f (a) réel > 0, quitte à multiplier la fonction par exp −i arg(f (a)).
déf
Pour r ≥ 0 assez petit, M (r) = supθ |f (a + reiθ )| ≤ f (a) par l’hypothèse de maximum. Mais la pro-
1
R 2π
priété de moyenne donne f (a) = 2π 0
f (a + reiθ )dθ = [· · · ] ≤ M (r). Donc f (a) = M (r). La fonction
déf
g(z) = <e (f (a) − f (z)) est donc ≥ 0 pour |z − a| = r assez petit [. . . ] ; de plus [. . . ] g(z) = 0 ssi f (z) = f (a)
. Mais g(z), qui est ≥ 0 et continue, ayant une valeur moyenne nulle sur le cercle de centre a et de rayon r est
identiquement nulle sur ce cercle. Donc f (z) = f (a) q.e.d. (Exercice : compléter les [. . . ] de cette preuve.)
Noter que ce théorème n’interdit pas un minimum local : ainsi la fonction z 7→ z a un
minimum de son module en z = 0.
Ce théorème du maximum s’applique aussi aux fonctions harmoniques, de grand intérêt par
exemple en électrostatique (potentiel), voir Chap. 8.
Théorème 7.22 : (i) Les zéros d’une fonction holomorphe non nulle sont isolés : tout zéro a
possède un voisinage sans autre zéro. Autrement dit, si Z(f ) possède un point d’accumulation
dans Ω, f = 0 sur Ω.
(ii) Si f 6= 0, Z(f ) est fini ou dénombrable. En chaque zéro a ∈ Z(f ), on peut écrire pour tout
∀z ∈ Ω,
f (z) = g(z) (z − a)m(a) (7.29)
où g est holomorphe dans Ω et ne s’annule pas au voisinage de a, et l’entier m(a) ≥ 1 est l’ordre
du zéro a.
Exemple, la fonction f (z) = sin z a des zéros isolés en zk = kπ. Contre-exemple : la fonction
f (z) = 1 + exp z1 est holomorphe dans Ω = C\{0} et a des zéros en zk = −i((2n + 1)π)−1 qui
s’accumulent en 0, mais 0 ∈ / Ω.
Éléments de preuve. Soit a un zéro de f analytique dans Ω. Nous admettrons que si toutes les dérivées
de f en a s’annulent, alors f ≡ 0. Si f 6= 0, soit m ≥ 1 le plus petit entier k tel que f (k) (a) 6= 0 et donc
dans le développement en série de f en a : f (z) = k≥m ck (z − a)k , cm = f (k) (a)/m! 6= 0. La fonction g(z)
P
de f . Et des points isolés dans Ω ⊂ C forment nécessairement un ensemble fini ou dénombrable (vérifier !).
singularité isolée, des théorèmes dus à Riemann, Weierstrass, Picard, . . . permettent d’affirmer
que trois cas sont possibles.
Définition 7.6 : Une fonction définie dans Ω qui n’y a que des pôles comme singularités est
dite méromorphe sur Ω.
Le cas des pôles des fonctions méromorphes est celui qui va le plus nous occuper dans la
suite. Pour ne donner qu’un exemple, toute fraction rationnelle P (z)/Q(z) est une fonction
méromorphe, ses pôles sont les zéros (racines) du dénominateur.
4. ou artificielle, ou effaçable, . . .
Quand on discute la convergence d’une telle expression, il faut bien comprendre qu’elle doit
être considérée comme la somme de deux séries, l’une portant sur les indices ≥ 0, l’autre sur les
négatifs, et que la convergence de (7.30) signifie la convergence de chacune de ces deux sous-
séries. Supposons que n≥0 an z n a pour rayon de convergence R1 et que n<0 an ζ −n a pour
P P
rayon 1/R2 en ζ, donc que n<0 an z n converge pour |z| > R2 . Supposons aussi que R2 < R1 .
P
Alors (7.30) converge (uniformément et absolument) dans la couronne R2 < |z| < R1 . Noter
que l’on peut avoir R2 = 0 et/ou R1 = ∞.
Théorème 7.24 : Toute fonction f holomorphe dans la couronne R2 < |z| < R1 y est
développable en série de Laurent
∞
X
f (z) = an z n , (7.31)
−∞
Nous avons centré la couronne en 0, mais rien n’interdit de la centrer en un autre point z0 ,
avec un développement de Laurent en puissances de (z − z0 ), f (z) = ∞ n
P
−∞ an (z − z0 ) .
Les différents cas du Théorème 7.23 se lisent maintenant sur le développement de Laurent
au voisinage de z0 , c’est-à-dire dans une “couronne” 0 < |z − z0 | < r :
– si le développement de Laurent en z0 n’a que des termes d’indice ≥ 0, z0 n’est pas une
Bien entendu, si |a| 6= 0, cette même fraction rationnelle f (z) admet aussi un développement
en série entière en z = 0, valable pour |z| < |a| < |b|.
t 1
2. Fonction génératrice des fonctions de Bessel Jn : f (z) = e 2 (z− z ) , t ∈ C, admet un
développement de Laurent dans le plan pointé C∗ (c’est-à-dire R2 = 0, R1 = ∞)
t 1
X
e 2 (z− z ) = Jn (t)z n (7.34)
n∈Z
avec des coefficients Jn (t) fonctions de t appelés fonctions de Bessel. Selon (7.32),
t 1
e 2 (ζ− ζ )
I
1
Jn (t) = dζ
2πi 0 ζ n+1
sur un contour arbitraire entourant (une fois) l’origine, par exemple le cercle unité paramétrisé
par ζ = eiθ , d’où Z 2π
1
Jn (t) = e−inθ eit sin θ dθ n ∈ Z, (7.35)
2π 0
qui est souvent pris comme définition des fonctions de Bessel d’indice entier Jn . Prenant z = eiα
dans (7.34) on voit que l’on a obtenu le développement de Fourier de
X
eit sin α = Jn (t)einα .
n∈Z
Résidus
Soit f une fonction holomorphe dans une couronne R2 < |z| < R1 centrée à l’origine.
k
zk
1 z1
Figure 7.4 – La partie hachurée est le complémentaire de A dans Ω. L’intégrale sur le bord orienté
γ de A est la somme des intégrales sur les γi entourant des singularités.
Théorème 7.25 (théorème des résidus) : Soit f une fonction holomorphe sur Ω, sauf peut-
être en des singularités isolées zk . Soit γ le bord orienté d’un compact A contenu dans Ω, ne
passant par aucun des zk . Alors les zk contenus dans A sont en nombre fini et
Z X
f (z)dz = 2πi Res (f, zk ) . (7.37)
γ k
zk ∈A
La preuve repose une fois encore sur la déformation du contour γ : avec les hypothèses faites,
l’intégrale sur γ est une somme d’intégrales sur des contours γ1 , · · · , γk encerclant les points
z1 , · · · , zk , voir figure 7.4. Chacun de ces intégrales donne lieu au résidu correspondant.
Ce théorème est très utile pour calculer des intégrales comme sommes de résidus, ou inver-
sement des sommes, considérées comme sommes de résidus, comme des intégrales. Cela va être
amplement illustré au Chap. 8 et en TD.
Il est souvent utile de considérer le plan complexe complété par le point à l’infini : comme la
limite |z| → ∞ ne doit pas dépendre de arg z, ce point est unique ! Cela revient à “compactifier”
le plan C ' R2 en une sphère, la sphère de Riemann C ' S 2 .
u
S2 N
M
R2 = C
w
z
Figure 7.5 – Projections stéréographiques d’un point M depuis les pôles Nord N et Sud S.
Ceci peut être vu très explicitement par la projection stéréographique, voir Fig 7.5. Un point M de la sphère
unité S 2 de coordonnées (x, y, u), x2 + y 2 + u2 = 1, est projeté depuis le pôle Nord N en un point du plan
(complexe) d’affixe z. Vérifier que z = x+iy 1−u . Le pôle Nord a pour image le point à l’infini dans le plan. La
projection depuis le pôle Sud S donne de même w = x−iy 1+u , et on a pour un même point M la relation z.w = 1.
Le pôle Nord a cette fois pour image 0, tandis que S est appliqué à l’infini. Dans le langage de la géométrie
différentielle, on dit que l’on a besoin de deux cartes M 7→ z et M 7→ w pour décrire la sphère. Quand on
s’intéresse au voisinage du point z infini, on utilise la coordonnée w = 1/z.
On définit sur cette sphère C = S 2 les notions d’ouvert, de chemin différentiable, de chemin
fermé, de bord orienté d’un compact, etc : à distance finie, ce sont les notions déjà rencontrées,
et au voisinage de l’infini, on utilise la variable w = 1/z.
On dit alors qu’une fonction f (z) est holomorphe (resp. est méromorphe, a une singularité
déf
essentielle) à l’infini si g(w) = − w12 f (z = 1/w) est holomorphe (resp. est méromorphe, a une
singularité essentielle) au voisinage de w = 0. Pour une fonction f (z) méromorphe à l’infini, le
résidu à l’infini se définit par
I
1 1 1
Res (f, ∞) = − 2
f dw = Res (g(w), 0) (7.38)
2πi 0 w w
avec un contour autour de l’origine, ou encore, si n an z n est le développement de Laurent de
P
f (z) au voisinage de l’infini, Res (f, ∞) = − a−1 . Attention au signe ! ! Ce signe, qui provient du
changement de variable dans f (z)dz = g(w)dw, peut aussi être vu comme lié au changement
d’orientation d’un contour positif dans le plan complexe quand il est repoussé autour du point
à l’infini : il entoure alors ce point à l’infini dans le sens négatif (faites l’expérience avec un
élastique sur une orange !).
Par exemple, la fonction f (z) = z1 a un pôle simple à l’infini de résidu −1. En effet g(w) =
− w1 , donc (7.38) donne Res (f, ∞) = Res (g(w), 0) = −1.
Théorème des résidus généralisé
Le théorème des résidus admet une généralisation au cas où le contour est dessiné sur la sphère
de Riemann. Il s’énonce essentiellement comme le théorème 7.25 :
Théorème 7.26 (théorème des résidus généralisé) : Soit Ω un ouvert de la sphère de
Riemann et f une fonction holomorphe sur Ω, sauf peut-être en des singularités isolées zk . Soit
γ le bord orienté d’un compact A de S 2 contenu dans Ω, ne passant par aucun des zk ni par le
point à l’infini. Alors les zk contenus dans A sont en nombre fini et
Z X
f (z)dz = 2πi Res (f, zk ) (7.39)
γ k
zk ∈A
où la somme court sur tous les points singuliers zk ∈ A, y compris éventuellement le point à
l’infini.
Preuve : Si ∞ ∈ / A, on est dans le cadre du Théorème 7.25. Si ∞ ∈ A, soit Γ un contour fermé homotope à
un cercle, orienté positivement, contenu dans A, ne passant pas par ∞ et englobant le bord γ de A. On suppose
que ∞ est à l’extérieur de ce Γ (au sens de C) et que toutes les singularités autres que ∞ sont à l’intérieur
de Γ, (par exemple, on peut prendre pour Γ un cercle |z| = R suffisamment grand pour entourer toutes les
singularités à distance finie, tout en étant dans A.) Voir Fig. 7.6. On peut alors appliquer le théorème des
H P H
résidus au contour γ ∪ Γ. L’intégrale γ∪Γ f dz = 2πi zk ∈A Res (f, zk ), tandis que Γ f dz = −2πiRes (f, ∞).
zk 6=∞
H P
On a donc γ f dz = k 2πiRes (f, zk ), y compris l’éventuel zk à l’infini, q.e.d.
Plus simplement, on peut aussi arguer qu’il existe toujours un changement de variable z 7→ w qui ramène à
distance finie toutes les singularités contenues dans le compact A (en nombre fini !), voir Exercice 4. On se
ramène donc au théorème des résidus ordinaire.
k
zk
1 z1
8
positif n’entourant ni 0 ni ∞. Le théorème des résidus ordinaire nous dit que I = 0 (pas de
Lectures complémentaires
Dans ce chapitre, je me suis largement inspiré de [4] et de [1], deux excellentes références
qui l’une et l’autre contiennent beaucoup d’informations supplémentaires.
Exercices
1. Justifier par un argument de déformation de contour le calcul de la transformation de
Fourier de la fonction gaussienne effectué aux chap.4 et 5.
déf 1
2. f holomorphe dans Ω, soit F (z) = f (z) . Montrer que F est méromorphe dans Ω.
3. Armé(e) du théorème des résidus, reprendre le calcul de (7.33) par (7.32). Montrer que
selon que n < 0 ou n ≥ 0, on peut refermer le contour soit autour a soit autour de b (et
l’infini ?).
4. Soit f une fonction holomorphe dans un ouvert Ω avec un nombre fini de singularités en
zk (y compris peut-être à l’infini). Montrer qu’il existe un changement de variable z = ϕ(w) qui
applique tous les zk sur des wk à distance finie. Soit f˜ = f ◦ϕ ; comparer les résidus Res (f, zk ) et
déf
Res (f˜.ϕ0 , wk ) et les théorèmes des résidus pour les fonctions f et f˜ϕ0 . Montrer que le théorème
des résidus généralisé découle alors du théorème usuel.
∂P (x, y) ∂Q(x, y)
= , (D.2)
∂y ∂x
et cette formule se généralise au cas où le pôle est d’ordre m, comme on s’en convainc aisément
1 dm−1
Res (f, z0 ) = lim ((z − z0 )m f (z)) . (8.1)
z→z0 (m − 1)! dz m−1
Si f est une fraction rationnelle P (z)/Q(z), avec un pôle simple en z0 , zéro simple de Q, il
peut être plus aisé de faire appel à la règle de L’Hospital
P P (z0 )
Res , z0 = 0 .
Q Q (z0 )
Preuve du 2ème lemme : on prend le secteur S(0, π) (qui est le cas le plus défavorable). Comme |eiz | =
iθ
|eire | = e−r sin θ , avec sin θ ≥ 0 avec l’hypothèse sur le secteur, on peut majorer
Z Z
π Z π/2
iz
e f (z)dz ≤ |f (reiθ )re−r sin θ dθ ≤ |f (reiθ )| + |f ((rei(π−θ) )| re−r sin θ dθ .
γ(r;0,π) 0 0
Comme f → 0 uniformément à l’infini, ∀ > 0, ∃R tel que ∀r > R ∀θ ∈ [0, π], |f (reiθ )| ≤ . Donc pour r > R
Z Z π/2
e iz
f (z)dz ≤ 2 re−r sin θ dθ
γ(r;0,π) 0
On aurait pu aussi refermer le contour dans le demi-plan inférieur, mais attention au signe ! (le
P
contour est alors orienté négativement). Donc aussi bien : I = −2πi zéros zj de Q dans Res (P/Q, zj ).
demi-plan inférieur
Question : que vaut dans ce cas le résidu à l’infini de P/Q ?
Nous rencontrerons beaucoup d’autres exemples de ce genre de calculs dans la suite.
qui est la transformée de Fourier de f . On va à nouveau remplacer cette intégrale sur l’axe réel
par une intégrale de contour dans le demi-plan supérieur ou inférieur, selon que le signe de k
est > 0 ou < 0. En effet quand |z| → ∞, eikz f (z) tend vers zéro si <e ikz < 0 et si f (z) croı̂t
moins vite qu’une exponentielle (par exemple polynomialement) ; pour cela, si k > 0, il faut que
=m z > 0. On peut alors appliquer le 2ème lemme de Jordan, remplacer I par l’intégrale sur le
1
respectifs ± 2ia . Selon la discussion précédente
Z ∞
1 2πi Res (f (z)eikz , ia) = π e−ka si k > 0
ikx a
2 + a2
e dx =
−∞ x −2πi Res (f (z)e , −ia) = π eka
ikz
si k < 0
a
où f est une fonction méromorphe qui n’a pas de pôle réel et qui tend suffisamment vite vers
zéro à l’infini pour assurer la convergence. On peut écrire f (n) = Res (πf (z)cotan πz, n) et
la somme S, limitée d’abord à −N ≤ n ≤ N , peut être vue comme venant de l’intégrale de
1
2i
f (z)cotan πz sur l’un des contours successifs figurés ici
N N
où la contribution des deux demi-cercles tend vers zéro quand N → ∞ (Jordan 1 !) ; à la limite,
le dernier contour entoure les pôles de f (z) en dehors de l’axe réel dans le sens négatif. Donc
X
S=− Res (πf (z)cotan πz, zj ) .
pôles zj de f
en dehors de l’axe réel
1 π
P
Exemple. S = n∈Z n2 +a 2 avec a > 0. Les pôles non réels de z 2 +a2 cotan πz sont en z = ±ia
π
et ont pour résidu − 2a coth πa. Finalement S = πa coth πa. On vérifie que quand a → 0,
S ∼ 1/a2 comme attendu. Exercice : dans la limite a → 0, soustraire le terme n = 0 et vérifier
que l’on retrouve l’expression bien connue n≥1 n12 = π 2 /6.
P
n
Par une méthode analogue faisant appel au 1/ sin plutôt qu’au cotan , calculer n≥1 (−1)
P
n4
,
réponse dans [1], p. 111.
Z Z
dz
lim f (z)dz = a = ia(θ2 − θ1 ) . (8.5)
r→0 γ(r;θ1 ,θ2 ) γ(r;θ1 ,θ2 ) z
R∞ sin x
Application au calcul de I = 0 x
dx. On écrit
∞ − ∞
eix eix
Z Z Z
1 sin x 1
I= dx = lim dx + dx . (8.6)
2 −∞ x 2i →0 −∞ x x
eix
Mais l’intégrale de x
sur le contour ci-dessous est nulle
r r
puisque le contour n’enclôt aucun pôle. Dans cette intégrale de contour, la contribution sur l’axe
réel tend vers 2iI quand r → ∞ et → 0, d’après (8.6) ; la contribution du grand cercle s’annule
par Jordan.2 quand r → ∞ ; et celle sur le petit cercle est donnée par le calcul précédent (8.5).
Il reste dans cette limite
eiz
Z
2iI = dz = iπ
γ(,0,π) z
d’où finalement I = π2 .
0 x 0 x
feuillet 1 feuillet 2
√
Figure 8.1 – Les deux feuillets de la fonction z : le bord inférieur de la coupure du feuillet 1 est
recollé avec le bord supérieur de celle du feuillet 2 et vice versa.
√
Figure 8.2 – La surface de Riemann de la fonction z : les deux feuillets sont recollés le long du
demi-axe réel négatif (en bleu).
√
Par exemple pour z dans le plan coupé le long de R− , la figure 8.1 représente les deux
feuillets, la figure 8.2 montre la surface de Riemann. Noter que (contrairement aux apparences)
cette surface de Riemann est simplement connexe : un chemin fermé faisant deux fois le tour de
l’origine est homotope à zéro, puisqu’il peut être contracté sans rencontrer de singularité (de la
fonction). Cela apparaı̂t peut-être plus clairement sur la Fig. 8.3 qui représente le voisinage de
l’origine, une fois la surface de Riemann dépliée. La position des coupures est arbitraire et le
point O n’est pas singulier. Le même dessin devrait être effectué (dans une autre coordonnée)
au voisinage du point à l’infini, avec la même conclusion. En définitive la surface de Riemann
√
de la fonction z est identifiée à la sphère de Riemann. Elle est donc simplement connexe. 1
La même construction s’applique à toute fonction multivaluée. La surface de Riemann de la
racine carrée a deux feuillets, celle du logarithme en a une infinité. Celle de z 1/3 en a trois, celle
p
de z α , α réel irrationnel en a une infinité. Celle de la fonction (z 2 − a2 )(z 2 − b2 ) en a quatre
etc. On trouve sur le web d’admirables figures de ces surfaces de Riemann . . . par exemple
http://en.wikipedia.org/wiki/File:Riemann surface log.jpg
1. Cela n’est pas le cas général, la surface de Riemann d’une fonction plus compliquée n’est en général pas
simplement connexe, elle a un genre (= nombre de “poignées”) qui dépend du nombre et de l’ordre des points
de branchement
I
II
II I
I
II
III
III
II I
1 1
Figure 8.3 – La surface de Riemann des fonctions z 2 (en haut) et z 3 (en bas) au voisinage de 0.
A gauche, les trois feuillets avec en hâchures ou en couleurs les prescriptions de recollement ; à droite,
après dépliement et recollement.
r x
0
Figure 8.4 –
R∞
Considérons par exemple l’intégrale I = 0 Fx(x) α dx où 0 < α < 1 et où F est une fraction
la figure 8.4. Comme zf (z) → 0 quand |z| → 0 et → ∞, les deux arcs de cercle γ(r) et γ(R)
ne contribuent pas dans les limites r → 0 et R → ∞ (Jordan-1), la détermination de f sur le
contour réel supérieur est réelle, celle sur le contour inférieur a un facteur relatif e−2πiα . On a
donc
X
(1 − e−2πiα )I = 2πi Res (f (z))
où la somme court sur tous les pôles de F , réels négatifs ou complexes.
R ∞ dx
Exemple : I = 0 xα (1+x) . Le seul pôle est en −1 = eiπ (choix de la détermination !), son
résidu est e−iπα , d’où I = sinππα .
R∞
Autre exemple : J = 0 F (x) log x dx où F est une fraction rationnelle sans pôle sur le
demi-axe x ≥ 0 ; on suppose (pour la convergence) que xF (x) → 0 à l’infini. L’astuce est
cette fois de considérer f (z) = F (z)(log z)2 avec un choix de coupure du log le long de l’axe
réel positif. On intègre sur le même contour de la figure 8.4. À nouveau les deux arcs de
cercle ne contribuent pas, les deux déterminations de log2 z le long de l’axe réel sont log2 x
R∞
(bord supérieur) et (log x + 2πi)2 (bord inférieur), donc 0 F (x)(log2 x − (log x + 2πi)2 )dx =
R∞ R
−4πiJ −4π 2 0 F (x)dx = 2πi Res (F (z)(log z)2 ). Il reste à calculer F (x)dx. Toutefois si F
P
est réel (sur l’axe réel), cette dernière intégrale est réelle et en prenant les parties réelle et imagi-
R∞
F (x) log x dx = − 21 <e Res (F (z)(log z)2 ),
P
naire de la relation précédente on obtient J = 0
R∞ 1
Res (F (z)(log z)2 ).
P
0
F (x)dx = − 2π =m
∂2 ∂2
∆= + . (8.8)
∂x2 ∂y 2
∂2
∆=4 . (8.9)
∂z∂ z̄
∂2f
Une fonction f (z, z̄) satisfaisant ∂z∂ z̄
= 0 est donc harmonique.
Proposition 8.2 : Toute fonction réelle g(x, y) harmonique dans un ouvert Ω est au voisinage
de chaque point de Ω la partie réelle d’une fonction f , holomorphe au voisinage de ce point,
déterminée à l’addition d’une constante près.
Cette propriété locale devient globale (vraie en tout point) dans un ouvert Ω simplement
connexe. Pour la preuve, voir [4] p. 125 ; voir aussi [1] p.124-125.
On se rappelle (cf Théorème 7.18) qu’une fonction holomorphe satisfait la propriété de
moyenne : en tout point, sa valeur au centre d’un petit disque fermé contenu dans Ω égale la
moyenne de ses valeurs sur le bord du disque.
Proposition 8.4 : Toute fonction u réelle harmonique dans Ω est ou bien constante, ou bien
n’a en aucun point de Ω un maximum local ou un minimum local.
Cela s’interprète facilement en termes des dérivées secondes de u. Un maximum (resp. minimum)
2 2
local en a ∈ Ω signifierait que ∂∂xu2 et ∂∂yu2 sont non nuls et de même signe, en contradiction avec
l’équation (8.7).
Ces propriétés trouvent des applications physiques, par exemple en électrostatique, dans
l’étude du potentiel créé par une distribution de charges. Comme on l’a rappelé au chapitre 3.6,
la loi de Gauss implique que le potentiel électrostatique créé par une distribution de charges
est une fonction harmonique en tout point distinct des positions des charges. Une autre appli-
cation est en aérodynamique dans le calcul de la portance d’une aile d’avion, voir [1], chap. 7.
Malheureusement le manque de temps ne permettra pas d’explorer les nombreuses applications
des considérations précédentes.
quand le paramètre α tend vers l’infini. f est supposée holomorphe sur un ouvert Ω indépendant
de α, γ est un chemin contenu dans Ω.
Il existe plusieurs versions de ce problème, la méthode du col, la méthode de Laplace, la
méthode de la phase stationnaire, etc. Nous nous bornerons à une discussion sommaire et à un
exemple.
12
−αf (z0 ) 2π
≈ e . (8.12)
αf 00 (z0 )
Re f
I
II
II
I
Dans l’intégrale (8.10) le paramètre α prenant de grandes valeurs était explicite et factorisé
dans l’exponentielle. Il peut aussi arriver que l’on s’intéresse au comportement d’une intégrale
où cette dépendance n’est pas aussi manifeste. Mais l’idée est la même : on cherche les points
stationnaires (cols) de la fonction en exponentielle. On en verra un exemple ci-dessous avec
la fonction Γ. La méthode du col possède aussi des variantes dont il est utile de connaı̂tre
l’existence mais que nous ne ferons que mentionner brièvement :
On n’a plus la liberté de déformer le contour d’intégration, mais un résultat similaire s’applique :
le comportement dominant de l’intégrale est à nouveau donné par le point x0 où f est minimale.
Comme dans le cas complexe, on développe f au voisinage de ce point
1
f (x) ≈ f (x0 ) + (x − x0 )2 f 00 (x0 ) + o(x − x0 )2
2
où f est réelle. Cette fois encore il s’agit de chercher un extremum ou un point stationnaire de f , où les
oscillations de la phase αf sont moins rapides.
On parle de méthode de phase stationnaire, et on écrit
12
2πi
Jα0 ≈e iαf (x0 )
00
.
f (x0 )
Observons d’abord que cette intégrale est absolument convergente pour <e s > 0. On calcule
aisément Γ(1) = 1 et, par intégration par parties,
Γ(s + 1) = sΓ(s)
Γ(n) = (n − 1)!
f (u0 )
Z ∞
1 2 00 √
Γ(s + 1) ≈ e e 2 v f (u0 ) dv = 2πs es log s−s
−∞
ou encore s s √
Γ(s + 1) = 2πs (1 + O(1/s)) ,
e
où on reconnaı̂t la formule de Stirling pour la factorielle asymptotique. . . Le lecteur courageux
peut-il/elle calculer le terme suivant en 1/s ? Attention, il faut pour cela développer la fonction
f jusqu’au terme (u − u0 )4 (et non pas seulement (u − u0 )3 , pourquoi ?).
Lectures complémentaires
La discussion a suivi H. Cartan [4] et W. Appel [1]. Pour plus de détails sur les subtilités
de la méthode du col, consulter C. Aslangul [2], chap. 7.
Transformation de Laplace
Définition 9.1 : On appelle fonction causale une fonction t 7→ f (t) nulle pour t < 0.
Définition 9.2 : Pour une fonction causale, on définit la transformée de Laplace par
Z ∞
ˆ déf
f (p) = e−pt f (t)dt (9.1)
0
R∞
mais aussi, compte tenu de l’hypothèse d’annulation à t < 0, par −∞ e−pt f (t)dt.
La transformée de Lapace est notée selon les auteurs (et les circonstances !) fˆ(p), L[f ](p),
Lf (p), etc, et la transformation parfois f (t) A fˆ(p).
Il reste à préciser les conditions de convergence. On va d’abord supposer que f est localement
intégrable (c’est-à-dire intégrable sur tout compact, cf Déf. 3.5), ce qui n’interdit pas à la
1
fonction d’avoir une singularité intégrable à distance finie, comme par exemple |t − 1|− 2 . Par
0
ailleurs on observe que si |f (t)|e−st est intégrable pour s ∈ R, il en est de même de |f (t)|e−s t
pour tout s0 > s. (On rappelle que la fonction f est causale, seule nous intéresse la convergence
en +∞.) Cela conduit à la
Proposition 9.1 : La transformée de Laplace est définie dans le demi-plan ouvert de somma-
bilité, <e (p) > α.
donc H(p)
b = p1 pour <e (p) > 0. On note que dans ce cas, H b peut être étendue (prolongée) à
1
tout p 6= 0, en particulier pour <e (p) = 0, =m (p) = ω 6= 0 avec le résultat H(iω)
b = iω .
1. Certains auteurs appellent original une fonction f ayant les propriétés énumérées ci-dessus : causalité,
intégrabilité locale, existence d’une abscisse de sommabilité, et image sa transformée de Laplace.
b) f (t) = 1/(1 + t2 ) a aussi une abscisse de sommabilité nulle ; mais la transformée de Laplace
est définie pour tout x = <e (p) ≥ 0. (Son expression implique des “fonctions spéciales”, le
sinus intégral et le cosinus intégral.)
2
c) La fonction e−at pour a > 0 a une abscisse de sommabilité α = −∞ : la transformée de
Laplace existe pour tout p ; à l’inverse pour a < 0, f n’a pas d’abcisse de sommabilité (ou si on
veut, α = ∞) et la transformée de Laplace n’est définie pour aucun p. Nous verrons d’autres
exemples au § 9.1.3 ci-dessous.
On aura noté que la transformée de Fourier d’une fonction causale est sa transformée de
Laplace à <e (p) = 0, c’est-à-dire sur l’axe imaginaire.
Z ∞ Z ∞
˜
f (k) = F[f ](k) = ikt
e f (t)dt = eikt f (t)dt = fˆ(−ik) . (9.3)
−∞ 0
Selon le type de croissance de la fonction f pour t → +∞, on peut voir si l’axe imaginaire est
ou non dans le domaine de définition de fˆ et conclure à l’existence ou non de la transformée
de Fourier :
– si f croı̂t moins vite qu’une exponentielle, α < 0, donc la transformée de Fourier existe ;
– si f croı̂t plus vite que toute puissance mais au plus comme une exponentielle, on a α > 0,
l’axe imaginaire n’est pas dans le domaine de définition de fˆ et la transformée de Fourier
n’existe pas ;
– dans le cas intermédiaire où α = 0, la transformée de Fourier n’existe pas toujours au
sens des fonctions.
Comportement asymptotique de fˆ
9.1.3 Exemples
a) On a vu la transformée de Laplace de f = 1 plus haut. Considérons maintenant celle
de f (t) = t. Un calcul immédiat, par intégration par parties ou par dérivation sous le signe
somme, donne pour <e (p) > 0
Z ∞ Z ∞
ˆ −pt d 1
f (p) = te dt = − e−pt dt = 2 ,
0 dp 0 p
qui est prolongeable en une fonction méromorphe avec un pôle en 0. Plus généralement, quelle
est la transformée de tn ?
b) f (t) = cos t a pour abscisse de sommabilité α = 0 et pour <e (p) > 0 :
∞ ∞ ∞
1 e(i−p)t e−(i+p)t
Z Z
1 p
fˆ(p) = −pt
e cos t dt = e −pt it it
(e + e ) dt = − = 2 ,
0 2 0 2 i−p i+p 0 p +1
qui est prolongeable en une fonction méromorphe avec deux pôles en ±i.
c) f (t) = eat , avec a ∈ C a pour abscisse de sommabilité α = <e (a) et pour <e (p) > <e (a) :
Z ∞
ˆ 1
f (p) = e−(p−a)t dt = ,
0 p−a
Utilisant alors la formule d’inversion de la transformée de Fourier, pour t un point où H(t)f (t)
est continue (cf Théorème 4.6)
Z ∞
1
H(t)f (t)e−xt
= fˆ(x + iω)eiωt dω ,
2π −∞
donc Z ∞ Z
1 1
H(t)f (t) = (x+iω)t
e fˆ(x + iω)dω = fˆ(p)ept dp (9.4)
2π −∞ 2πi Dx
où l’intégration en p est effectuée le long d’une droite de Bromwich
déf
Dx = {x + iω; ω ∈ R} . (9.5)
Bien noter que cette formule donne un résultat indépendant de x > α, domaine où la trans-
formée de Laplace est holomorphe, grâce au théorème de Cauchy. Il convient aussi de s’assurer
que cette expression s’annule bien pour t < 0. En effet pour t < 0, le lemme de Jordan 2 nous dit
que l’on peut refermer le contour d’intégration par un grand cercle dans le demi-plan à droite
de la droite <e (p) = x, mais le contour est complètement dans le domaine d’holomorphie, donc
le résultat est nul, comme attendu pour une fonction causale.
Si t > 0, on peut refermer le contour par un demi-cercle dans le demi-plan à gauche de la droite
<e (p) = x, qui ne contribue pas quand R → ∞ (lemme de Jordan 2) et qui englobe le pôle en
p = a ; le théorème des résidus donne alors le résultat eat comme attendu. Si t < 0, le résultat
est nul, par l’argument précédent.
D’une façon générale, la formule de Laplace inverse combinée avec la formule des résidus fournit
le plus souvent le résultat cherché.
9.2.2 Translation
Soit f une fonction causale d’abscisse de sommabilité α, et fˆ sa transformée de Laplace.
On vérifie alors aisément que la transformée de Laplace de f (t)e−at n’est autre que fˆ(p + a)
Z ∞ Z ∞
−at −pt
f (t)e e dt = f (t)e−(p+a)t dt = fˆ(p + a)
0 0
pour <e (p) > α − <e (a). Exemple, de L[1](p) = p1 on tire L[eat ](p) = p−a1
comme on a vu.
Attention qu’inversement fˆ(p)e−τ p est la transformée de Laplace de H(t − τ )f (t − τ ) et non
de H(t)f (t − τ ) !
Z ∞ Z ∞ Z ∞
−pt
H(t − τ )f (t − τ )e dt = −pt
f (t − τ )e dt = f (t)e−p(t+τ ) dt = fˆ(p)e−τ p .
−∞ τ 0
9.2.3 Convolution
Pour deux fonctions causales f et g, le produit de convolution
Z ∞ Z t
f ∗ g(t) = f (s)g(t − s)ds = f (s)g(t − s)ds
0 0
ne dépend que des valeurs de f et g dans l’intervalle [0, t] pour t ≥ 0 et s’annule pour t < 0. La
convolution préserve donc le caractère causal. On démontre alors comme pour la transformation
de Fourier le
est définie pour <e (p) > max(α, α0 ). Inversement pour <e (p) > α + α0 et avec x0 > α
Z x0 +i∞
1
L[f.g](p) = fˆ(q)ĝ(p − q)dq .
2πi x0 −i∞
Proposition 9.6 : L[Hf 0 ](p) = pL[f ](p) − f (0+ ) pour <e (p) > max (α, α0 ).
Comme on l’a observé plus haut, si f a pour abscisse de sommabilité α, pour tout n ∈ N,
n
t f (t) est aussi causale avec la même abscisse de sommabilité et
dn
L[(−t)n f (t)](p) = L[f ](p) . (9.6)
dpn
On peut aussi intégrer
Inversement, si fˆ(p) décroı̂t plus vite que 1/p à l’infini et si <e (p) > max (α, 0)
Z ∞
f (t)
L (p) = fˆ(z)dz ,
t p
1
L[e±iωt ](p) =
p ∓ iω
p ω
L[cos(ωt)](p) = , L[sin(ωt)](p) = (9.7)
p2
+ ω2 p2
+ ω2
p ω
L[cosh(ωt)](p) = 2 , L[sinh(ωt)](p) = 2 ,
p − ω2 p − ω2
toutes formules initialement valables pour <e (p) > 0, puis prolongeables comme on a vu. De
même pour <e (p) > <e (a),
1
L[H(t)eat ](p) =
p−a
puis par dérivation
tn−1
at 1
L H(t)e (p) = . (9.8)
(n − 1)! (p − a)n
En décomposant en pôles simples toute fraction rationnelle, on reconstruit son “original”, c’est-
à-dire la fonction dont elle est la transformée de Laplace, etc etc.
second membre, enfin détermination des constantes d’intégration en utilisant les conditions
initiales.
La transformation de Laplace va nous permettre de mener toutes ces opérations simul-
tanément. Soit fˆ(p) la transformée de Laplace de f . On a
avec une intégration le long d’une droite de Bromwich. Le premier terme peut être considéré
comme une solution particulière de l’équation avec second membre (la solution à f0 = f1 = 0),
tandis que le second est la solution générale (si f0 et f1 sont considérés comme des paramètres
arbitraires) de l’équation sans second membre. L’intérêt de la méthode est son caractère général
et systématique : pas besoin de chercher une solution particulière, (9.12) nous la fournit gra-
cieusement ! En pratique, le calcul explicite des intégrales dans (9.12) est mené avec l’aide du
théorème des résidus.
Un exemple simple
Selon ce qui précède, g(t) = 2 cos t, ĝ(p) = 2p/(p2 + 1), donc (9.11) donne
2p 1
fˆ(p) = − 2
(p2 + 1) 2 (p + 1)
dont il faut prendre la transformée de Laplace inverse. On peut faire ce calcul par le théorème des
résidus, mais il est plus simple d’observer que (p21+1) = L[sin t] et (p22p
+1)2
d
= − dp 1
(p2 +1)
= L[t sin t]
(cf (9.6-9.7)), d’où la solution du problème f (t) = (t−1) sin t, obtenue avec une grande économie
de moyens !
Z(p) = a2 p2 + a1 p + a0
(ou plus généralement, pour une équation différentielle linéaire du n-ième ordre à coefficients
constants aq , Z(p) = nq=0 aq pq ). Les zéros zk de Z(p) donnent des pôles (simples ou multiples)
P
à fˆ(p), qui par transformation de Laplace inverse, donnent des exponentielles ezk t , (fois peut-
être des puissances de t, cf (9.8)).
Dans le cas où Z(p) n’a que des pôles simples, Z(p) = 2k=1 (p − zk ), la solution a la forme
Q
générale f (t) = 2k=1 Z 0A(zkk ) ezk t où Ak incorpore les conditions initiales.
P
1
Il est aussi d’usage de définir la susceptibilité χ̂(p) = Z(p) , qui décrit la réponse du système
f à la source g ; par transformée de Laplace inverse, on construit χ(t), et la dépendance de la
Rt
réponse f (t) dans la source g est via une intégrale de convolution f (t) = 0 dsχ(t − s)g(s) + · · · ,
où les points de suspension contiennent la dépendance dans les conditions initiales, cf (9.12).
LC ü + RC u̇ + u = v
où v est la tension appliquée aux bornes du circuit. Les conditions initiales spécifient les valeurs
de u(0) = u0 et de u̇(0) = u1 = − iC0 , i0 le courant initial dans le circuit.
L
R
C
et on calcule
V eiωt ez+ t e z− t
V
u(t) = + − . (9.14)
Z(iω) LC(z+ − z− ) z+ − iω z− − iω
Aux grands temps, comme <e (z± ) < 0, seul subsiste le premier terme, proportionnel à la
source, tandis que les deux derniers termes décrivent le comportement transitoire du circuit.
1.0
0.5
2 4 6 8 10
-0.5
-1.0
Figure 9.2 – Les courbes pointillée, resp. brisée, représentent le premier, resp le second terme de
(9.14), et la courbe pleine, la somme, c’est-à-dire la solution u(t). On a pris R = C = L = ω = V = 1.
2. ouverture du circuit : cette fois, l’équation est homogène, seul demeure le deuxième terme
de (9.13).
LCp + RC 1 1 1
û(p) = V = (LCp + RC) − V
Z(p) LC(z+ − z− ) p − z+ p − z−
d’où
V z+ t
R z− t
R
u(t) = e z+ + −e z− + .
z+ − z− L L
Là encore, puisque <e (z± ) < 0, u(t) → 0 pour t → ∞, comme on s’y attend pour ce processus
de décharge.
1.0
0.8
0.6
0.4
0.2
2 4 6 8
Figure 9.3 – La courbe de décharge du circuit, dans le cas (2), toujours avec R = C = L = ω =
V = 1.
Il faudrait compléter cette discussion par le cas où ∆ = 0, R2 = 4LC. Comme on sait bien
et comme on le retrouve ici via la transformation de Laplace, apparaissent alors des fonctions
teat . . .
C’est le moment de préciser les conditions aux limites. À x = 0, φ(0, t) = P0 (t) = (1 − e−κt )N0 puisque
chaque noyau a la probabilité 1 − e−κt de s’être désintégré au temps t et que ces noyaux se désintègrent
PN0 N N −N κt
de façon indépendante. Donc H(t)φ(0, t) = N =0 CN0 (−1) e H(t) dont la transformée de Laplace est
PN0 N N 1
φ̂(0, p) = N =0 CN0 (−1) p+κN . Après insertion dans (9.15) et transformation de Laplace inverse, on obtient
pour t ≥ 0 et ∀a > 0
Z N0
a+i∞ X
1 1
φ(x, t) = N
CN (−1)N (1 − x)−p/κ ept dp
2πi a−i∞ N =0
0
p + κN
N0
X
= N
CN0
(−1)N (1 − x)N e−N κt
N =0
N0
= 1 − (1 − x)e−κt (9.16)
N
qui est le résultat obtenu en (5.71), d’où l’on tire la probabilité cherchée PN (t) = CN 0
(1 − e−κt )N0 −N e−κtN .
On voit que la transformée de Laplace nous a permis de réduire une équation aux dérivées partielles (PDE
dans l’acronyme anglo-saxon) en une équation différentielle ordinaire (ODE), et de déduire la solution à x fini
de celle à x = 0.
Lectures complémentaires
J’ai suivi la discussion de W. Appel [1] complétée par celle de L. Schwartz [8], qu’on pourra
consulter pour plus de détails. Le livre de C. Aslangul [2] contient de très nombreuses applica-
tions physiques.
Rôle fondamental de la théorie des groupes en physique : transformations d’un système (par
rotations, réflexions, translations. . .), éventuellement invariances. Groupe des transformations,
groupe d’invariance d’un système donné.
Différents types de groupes et leur importance en physique
– groupes finis : par ex. groupe d’invariance de rotation d’une molécule ou d’un cristal, sous-
groupe du groupe SO(3) des rotations de R3
– groupes infinis discrets : par ex. groupe d’invariance d’un cristal infini (rotations, réflexions,
translations,. . .)
– groupes continus compacts : groupes U(n), SU(n), O(n), SO(n),. . . (U(1) groupe “de jauge”
de l’électrodynamique, groupe SO(3) des rotations, groupes SU(2) et SU(3) en physique des
particules, etc)
– groupes continus non compacts : groupe de Galilée d’invariance de la Mécanique classique,
groupes de Lorentz et de Poincaré de la Relativité restreinte, . . .
On va se borner à introduire et étudier sommairement deux concepts fondamentaux :
◦ représentations linéaires d’un groupe
avec la notion de représentation irréductible et le lemme de Schur ;
◦ groupes de Lie et algèbres de Lie
générateurs infinitésimaux, et représentations de l’algèbre de Lie
et les illustrer sur l’exemple de l’
◦ algèbre de Lie de SO(3) et ses représentations
ce qui fera la jonction avec le cours de Mécanique Quantique.
∀x ∈ E1 ∀g ∈ G D(g)x ∈ E1 .
Une telle représentation est dite réductible. Dans le cas contraire (pas de sous-espace invariant)
on dit que la représentation est irréductible. Dans les cas qui vont nous occuper (groupes finis
ou continus compacts), on peut toujours se ramener à une situation où une représentation
réductible D laisse aussi un sous-espace E2 supplémentaire de E1 invariant. Autrement dit (si
E est de dimension finie), la matrice de D(g) s’écrit dans une certaine base sous forme de blocs
!
D1 (g) 0
D(g) =
0 D2 (g)
Inversement on voit que toute paire de représentations D1 et D2 d’un groupe G donné, dans
des espaces E1 et E2 permet de construire une autre représentation dans l’espace E1 ⊕E2 somme
directe de E1 et E2 . Il va suffire de savoir construire (et classifier si possible) les représentations
irréductibles pour construire les représentations les plus générales.
1. Un groupe topologique est un groupe muni d’une topologie, telle que les opérations de produit et de
passage à l’inverse soient continues.
La loi est commutative, le groupe est abélien. Ce groupe est en fait R avec la loi de groupe
fournie par l’addition des réels. C’est un groupe de dimension (réelle) égale à 1.
Si a est infinitésimal, on peut écrire f 0 (x) ≈ f (x) − a dx
d
f (x) ou encore
d
f 0 (x) = 1 − a f (x)
dx
soit encore, en définissant la variation de la fonction
0 d
∆f (x) = f (x) − f (x) = −a f (x) .
dx
La variation infinitésimale de la fonction est linéaire dans le paramètre a (on travaille au 1er
ordre !) et dans la fonction f , et donnée par l’action du générateur infinitésimal Ta = −aT =
d
−a dx .
Noter que la loi de groupe (10.2) et sa propriété de commutativité se traduisent au niveau
infinitésimal par la commutativité des générateurs
[Ta , Tb ] = Ta Tb − Tb Ta = 0 .
Les transformations continues (et différentiables) du groupe impliquent donc l’existence des
générateurs infinitésimaux avec des propriétés qui reflètent la loi de groupe. Inversement une
d
fois connu le générateur infinitésimal T = − dx , il est possible de reconstruire la transformation
finie par action exponentielle
1 −a3 3
exp(−aT )f (x) = (1 − aT + a2 T 2 + T + · · · )f (x)
2 3! !
2 3
a2 d (−a)3 d
d
= 1−a + + + · · · f (x)
dx 2 dx 3! dx
= f (x − a)
qui n’est autre que la série de Taylor, que nous supposons convergente (f analytique réelle).
Ces considérations s’étendent sans difficulté à des translations t(a) dans l’espace Rd et à des
fonctions f des d variables (coordonnées) x1 , · · · , xd . La loi de groupe est toujours additive et
donc commutative t(a) ◦ t(b) = t(a + b) = t(b) ◦ t(a), le groupe n’est autre que Rd avec son
addition. L’opérateur infinitésimal
est maintenant
l’opérateur différentiel Ta = −a.T avec T le
vecteur gradient T = ∇ ~ = d , · · · d , et la formule de Taylor à d variables s’applique.
dx1 dxd
x 7→ x0 = R(α)x (10.3)
où la notation doit être comprise comme l’action d’un opérateur linéaire sur le vecteur x, ou en-
core, dans un repère orthogonal, comme l’action d’une matrice orthogonale sur les composantes
x1 , x2 de x ! ! !
0
x cos α − sin α x 1
x0 = 1
= (10.4)
x02 sin α cos α x2
(la matrice est orthogonale par définition de SO(2), ou encore, géométriquement, parce que les
transformations considérées préservent la norme k x0 k=k x k, or x0 .x0 = xT (RT (α).R(α))x =
x.x donc RT (α).R(α) = 1l). Ces rotations se composent comme on sait bien
!
0 −i
Exercice. Pour J = , vérifier que l’exponentiation de −iαJ reproduit bien la matrice de R(α) donnée
i 0
plus haut. (Indication : calculer les puissances successives J 2 , J 3 , · · · , J n et construire exp iαJ par son
développement en série.)
L’action (10.3) des rotations de SO(2) sur les vecteurs x ∈ R2 nous donne un exemple de
représentation. Cette représentation est irréductible (sur les réels). D’autres représentations
(irréductibles ou non) seraient fournies par l’action de SO(2) sur des tenseurs.
où Jn̂ est le générateur de ces rotations 2 , une matrice 3 × 3, qui est hermitique comme
conséquence de l’unitarité (ou simplement ici, de l’orthogonalité) de Rn̂ : Rn̂ .Rn̂† = I.
Pour trouver l’expression explicite de ces générateurs infinitésimaux, on peut les considérer
soit comme des matrices 3 × 3 agissant sur les composantes des vecteurs x de R3 (comme on a
fait pour SO(2)), soit comme des opérateurs différentiels agissant sur les fonctions de x (cf le
cas du groupe R). Pour une rotation infinitésimale Rn̂ (dψ) agissant sur x, le vecteur transformé
x0 est tel que x0 − x est orthogonal à x et à n̂, donc s’écrit
x0 = x + dψ n̂ ∧ x . (10.10)
Une fonction scalaire de x se transforme selon f 0 (x0 ) = f (x) soit pour une rotation infinitésimale
~ (x) = (1 − idψ n̂ · J)f (x) (10.11)
f 0 (x) = f (R−1 x) = f (x − dψ n̂ ∧ x) = (1 − dψ n̂ · x ∧ ∇)f
∂
avec Jn̂ = −in̂ · x ∧ ∂x
soit encore
∂
Jn̂ = n̂ · J avec J = −ix ∧ ∂x
. (10.12)
2. Ne pas confondre Jn̂ indexé par le vecteur n̂, avec Jk , kième composante de J. La relation entre les deux
va être donnée ci-dessous.
0 i 0 −i 0 0 0 0 0
qu’on vérifie aussi sur la forme (10.12). On a utilisé la convention de sommation sur les indices
répétés, il y a donc un 3k=1 implicite au membre de droite de (10.15). Par exemple (10.12)
P
∂ ∂ ∂ ∂
nous donne J1 = Jx = −i(y ∂z − z ∂y ), J2 = Jy = −i(z ∂x − x ∂z ) d’où on tire [J1 , J2 ] = iJ3 .
Les générateurs infinitésimaux étant déterminés, comment reconstruit-on les rotations fi-
nies ? Les rotations Rn̂ (ψ) autour d’un axe n̂ donné forment un sous-groupe (on parle de sous-
groupe à un paramètre) ; ces matrices commutent, le sous-groupe est commutatif (ou abélien).
Par la propriété de groupe,
ou encore
∂Rn̂ (ψ)
= −iJn̂ Rn̂ (ψ) (10.17)
∂ψ
équation différentielle, qui, compte tenu de R(0) = I, s’intègre en
Z=R u ( ) z Y=R ( ) u
Z
x u=Rz( ) y
L’importance de l’opérateur de Casimir J2 est liée au lemme de Schur : J2 commutant avec tous
les générateurs infinitésimaux, il commute avec leur exponentielle, donc avec les opérateurs de
rotation, et ce, dans toute représentation. Dans une représentation irréductible, J2 est donc un
multiple de l’identité, J2 = λI. L’opérateur J2 étant semi-défini positif, ce coefficient λ est réel
non négatif et on peut l’écrire sous la forme j(j + 1), j réel ≥ 0.
La construction des représentations de l’algèbre so(3) consiste alors à considérer des vecteurs
propres de Jz et à montrer que leur valeur propre m est bornée : −j ≤ m ≤ j, et que j ± m
doivent être des entiers, donc que j et m sont simultanément entiers ou demi-entiers, cf le cours
de Mécanique Quantique.
Théorème 10.1 : Une représentation irréductible de l’algèbre de Lie so(3) est spécifiée par
un entier ou demi-entier non négatif, le spin j de la représentation. La représentation de spin
j est de dimension 2j + 1, et une base est fournie par les états propres de Jz notés |j, m i avec
m = −j, −j + 1, · · · , j − 1. Parmi ces représentations, seules celles de spin j entier sont des
représentations du groupe SO(3).
Le point subtil de cette construction est que toutes ces représentations de l’algèbre de Lie
ne fournissent pas par exponentiation une bonne représentation (au sens de la Déf. du 10.1.1)
du groupe des rotations SO(3). Cela se voit aisément sur la façon dont une rotation de 2π, en
principe l’identité, est représentée : D(Rz (2π)) = exp −2πiJz = (1)2j I qui vaut I si le spin j est
entier mais −I s’il est demi-entier. À la rotation identité, ce D associe la matrice −I. Ces D ne
forment donc pas vraiment une représentation du groupe SO(3) et on parle de représentation
au signe près. La cause profonde de cette curiosité, la relation entre les groupes SO(3) et SU(2),
le rôle de leur topologie en tant que variétés (simplement connexes ou non), et finalement la
raison de l’apparition de ces représentations à un signe près en Mécanique Quantique (théorème
de Wigner), autant de sujets passionnants . . . que nous ne pourrons pas aborder ici !
Lectures supplémentaires
Il existe de nombreux textes d’introduction à la théorie des groupes pour les physiciens.
On pourra consulter les notes de l’un des cours que j’ai donnés sur le sujet, sur ma page
http ://www.lpthe.jussieu.fr/∼zuber/Z Notes.html