+++el Amri 2019 PDF
+++el Amri 2019 PDF
+++el Amri 2019 PDF
Présentée par
Analyse d’incertitudes et
de robustesse pour les
modèles à entrées et sorties
fonctionnelles.
Thèse soutenue publiquement le 29/04/2019,
devant le jury composé de :
Hervé Monod
Directeur de recherche, INRA/MaIAGE, Président
Gilles Pagès
Professeur, Sorbonne Universités, Rapporteur
Josselin Garnier
Professeur, Ecole Polytechnique, Rapporteur
Julien Bect
Maı̂tre de conférences, CentraleSupélec, Examinateur
Clémentine Prieur
Professeur, Université Grenoble Alpes/LJK, Directrice de thèse
Céline Helbert
Maı̂tre de conférences, Ecole Centrale de Lyon - ICJ, Co-Directrice de thèse
Delphine Sinoquet
Ingénieur de recherche, IFP Énergies Nouvelles, Co-Encadrante de thèse
Miguel Munoz Zuniga
Ingénieur de recherche, IFP Énergies Nouvelles, Co-Encadrant de thèse
Olivier Lepreux
Ingénieur de recherche, IFP Énergies Nouvelles, Co-Encadrant de thèse
Remerciements
Tout d’abord je voudrais remercier Gilles Pagès et Josselin Garnier d’avoir accepté de
relire cette thèse et d’en être rapporteurs. La version finale de ce mémoire a bénéficié de leur
lecture attentive et de leurs précieuses remarques. Je tiens à remercier Hervé Monod d’avoir
accepté d’être président du jury. Je remercie également tous les membres du jury d’avoir ac-
cepté d’assister à la présentation de ce travail.
Je voudrais remercier Clémentine Prieur et Céline Helbert qui m’ont dirigé tout au long
de ces trois années de thèse. Elles ont toujours été disponibles, à l’écoute de mes questions,
et se sont toujours intéressées à l’avancée de mes travaux. Les nombreuses discussions que
nous avons eues ainsi que leurs conseils sont pour beaucoup dans le résultat final de ce travail.
Merci aussi à Delphine Sinoquet, Miguel Munoz Zuniga et Olivier Lepreux d’avoir co-encadré
ce travail de thèse. Ils ont toujours été là pour moi, et ont manifesté un souci constant de
valoriser notre travail et de communiquer à son sujet au sein de l’IFPEN. Nos échanges m’ont
permis de découvrir une grande variété de problèmes statistiques issus de la R&D. Enfin, je
remercie tous mes encadrants pour leurs nombreuses relectures et corrections de cette thèse
qui ont été très appréciables. Pour tout cela merci.
Durant cette thèse, j’ai essentiellement travaillé au Laboratoire Jean Kuntzmann à Gre-
noble. Je salue donc l’équipe Airsea qui m’a accueilli avec bienveillance et plus particulièrement
Laurent Debreu pour sa générosité. Merci à Anne Pierson et à Annie Simon pour leurs dis-
ponibilité et gentillesse.
Je profite de cette occasion pour remercier deux de mes anciens professeurs, dont je garde
un agréable souvenir : Sophie Mercier, à l’université de Pau, et François Pantigny, en Spé MP.
Un immense merci à mes parents, mes frères ainsi qu’au reste de ma famille pour leur
soutien indéfectible.
Résumé
L’objectif de cette thèse est de résoudre un problème d’inversion sous incertitudes de fonc-
tions coûteuses à évaluer dans le cadre du paramétrage du contrôle d’un système de dépollution
de véhicules.
La première approche consiste à appliquer une méthode d’inversion de type SUR (Stepwise
Uncertainty Reduction) sur l’espérance de la grandeur d’intérêt. En chaque point d’évaluation
dans l’espace de contrôle, l’espérance est estimée par une méthode de quantification fonction-
nelle gloutonne qui fournit une représentation discrète de la variable fonctionnelle et une
estimation séquentielle efficace à partir de l’échantillon donné de la variable fonctionnelle.
Ces deux approches sont comparées sur des fonctions jouets et sont appliquées à un cas
industriel de post-traitement des gaz d’échappement d’un véhicule. La problématique est de
déterminer les réglages du contrôle du système permettant le respect des normes de dépollution
en présence d’incertitudes, sur le cycle de conduite.
This thesis deals with the inversion problem under uncertainty of expensive-to-evaluate
functions in the context of the tuning of the control unit of a vehicule depollution system.
The effect of these uncertainties is taken into account through the expectation of the quan-
tity of interest. The problem lies in the fact that the uncertainty is partly due to a functional
variable only known through a given sample. We propose two approaches to solve the inversion
problem, both methods are based on Gaussian Process modelling for expensive-to-evaluate
functions and a dimension reduction of the functional variable by the Karhunen-Loève expan-
sion.
The first methodology consists in applying a Stepwise Uncertainty Reduction (SUR) me-
thod on the expectation of the quantity of interest. At each evaluation point in the control
space, the expectation is estimated by a greedy functional quantification method that provides
a discrete representation of the functional variable and an effective sequential estimate from
the given sample.
The second approach consists in applying the SUR method directly to the quantity of
interest in the joint space. Devoted to inversion under functional uncertainties, a strategy for
enriching the experimental design exploiting the properties of Gaussian processes is proposed.
These two approaches are compared on toy analytical examples and are applied to an
industrial application for an exhaust gas post-treatment system of a vehicle. The objective
is to identify the set of control parameters that leads to meet the pollutant emission norms
under uncertainties on the driving cycle.
Introduction 1
2 Intégration numérique 21
2.1 Cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Approches Monte-Carlo et quasi-Monte Carlo . . . . . . . . . . . . . . . 22
2.1.2 La quantification vectorielle . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.2.2 Définitions et propriétés . . . . . . . . . . . . . . . . . . . . . . 24
2.1.2.3 Algorithmes existants . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.2.4 Application en intégration numérique . . . . . . . . . . . . . . 27
2.2 Cas fonctionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Réduction de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 La quantification fonctionnelle . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2.2 Constructions gloutonnes . . . . . . . . . . . . . . . . . . . . . 31
2.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
iv
3.4.1 Random closed set and bayesian framework . . . . . . . . . . . . . . . . 52
3.4.2 Vorob’ev approach . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.3 SUR strategies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.4 SUR strategy adapted to noisy observations . . . . . . . . . . . . . . . . 54
3.5 Algorithm coupling SUR and functional quantization . . . . . . . . . . . . . . . 54
3.6 Numerical tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.6.1 Analytical example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6.2 IFPEN test case . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.8 Complément de l’article : un nouvel exemple . . . . . . . . . . . . . . . . . . . 65
2.1 Une suite à faible discrépance (Sobol) et une suite aléatoire dans [0, 1]2 (l = 500). 23
2.2 Une quantification de Voronoi de la loi N (0, I2 ) où l = 200. . . . . . . . . . . . 27
2.3 L’ensemble de 100 réalisations Ξ de la variable V (à gauche), la projection de
l’ensemble Ξ sur les deux premières composantes principales m = 2 (à droite). . 31
2.4 Le quantifieur de taille 10 obtenu à partir de l’ensemble G (à gauche), le quan-
tifieur associé dans l’ensemble Ξ (à droite). . . . . . . . . . . . . . . . . . . . . 32
2.5 Les quantifieurs de taille 10 obtenus à partir de l’ensemble G par la méthode
maximin (en rouge) et en réduisant l’erreur de quantification (en bleu) (à
gauche), le quantifieur associé dans l’ensemble Ξ par la méthode maximin (à
droite). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6 Temps de calcul en fonction de la taille du quantifieur par l’algorithme 2.25 en
bleu et l’algorithme 2.26 en rouge. . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.7 Exemple analytique 1. Estimation séquentielle de l’espérance en fonction du
nombre de courbes. Les lignes représentent les moyennes. Les intervalles de
confiance (Monte Carlo (en vert) and maximin-GFQ (en rouge)). . . . . . . . . 35
vi
2.8 Exemple analytique 2. Estimation séquentielle de l’espérance en fonction du
nombre de courbes. Les lignes représentent les moyennes. Les intervalles de
confiance (Monte Carlo (en vert) and maximin-GFQ (en rouge)). . . . . . . . . 36
2.9 Exemple analytique 2. Estimation séquentielle de l’espérance en fonction du
nombre de courbes. Les lignes représentent les moyennes. Les intervalles de
confiance (Monte Carlo (en mauve) and maximin-GFQ (en rouge)). . . . . . . . 37
4.1 10 realisations of the Brownian motion (left) and Max-stable process (right). . 76
4.2 Analytical example 1 [Brownian motion (left), Max-stable process (right)].
Convergence of Algorithm 8 for mKL = {2, 4, 8}. 25th and 75th percentiles
of the symmetric difference vs. number of simulators calls. The curves are ba-
sed on 10 random DoE for every run. . . . . . . . . . . . . . . . . . . . . . . . . 77
4.3 Analytical example 2 [Brownian motion (left), Max-stable process (right)].
Convergence of Algorithm 8 for mKL = {2, 4, 8}. 25th and 75th percentiles
of the symmetric difference vs. number of simulators calls. The curves are ba-
sed on 10 random DoE for every runs. . . . . . . . . . . . . . . . . . . . . . . . 78
4.4 Analytical example 1 [Brownian motion (left), Max-stable (right)]. Convergence
of Algorithm 8 for mKL = 8 and Algorithm 9 for l = {10, 20}. 25th and 75th
percentiles of the symmetric difference vs. number of simulators calls. The
curves are based on 10 random DoE for every runs. . . . . . . . . . . . . . . . . 78
4.5 Analytical example 2 [Brownian motion (left), Max-stable (right)]. Convergence
of Algorithm 8 for mKL = 8 and Algorithm 9 for l = {10, 20}. 25th and 75th
percentiles of the symmetric difference vs. number of simulators calls. The
curves are based on 10 random DoE for every runs. . . . . . . . . . . . . . . . . 79
4.6 The computation time (sec.) needed to provide the next evaluation point as a
function of iterations. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.1 The explained variance in function of mKL for two types of uncertainties. . . . 76
4.2 Analytical example 2 [Max stable process]. Number of simulator calls in func-
tion of the estimation error for the two methods presented respectively in Chap-
ter 3 (L2 -GFQ) and in Chapter 4 (Kriging in joint space). Bottom : CPU time
at iteration 100 and 200 for the methods. . . . . . . . . . . . . . . . . . . . . . 79
x
5.1 Les 9 paramètres de contrôle. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 Les paramètres incertains en entrée du code et leurs distributions de probabilité
associées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 les domaines de définition et les distributions de probabilité associés aux entrées
du code de calcul. Certaines données (*) sont masquées car confidentielles. . . . 94
Introduction
Contexte de l’étude
En Europe, de nouvelles normes se succèdent pour revoir à la baisse les seuils d’émissions
des principaux polluants réglementés. Ces normes régulent les émissions de 4 polluants : les
particules, le monoxyde de carbone (CO), les hydrocarbures imbrûlés (HC) et les oxydes
d’azote (NOx ). Concernant ce denier, l’ajout d’un filtre à l’échappement s’est avéré indis-
pensable puisqu’il n’était pas possible de réduire ces rejets par des réglages sur le moteur. A
l’heure actuelle un des systèmes les plus utilisés pour faire face à cette problématique est le
SCR (Selective Catalytic Redution). Ce système se charge de transformer les NOx en azote
et vapeur d’eau. Cette technologie est fiable et a été utilisée depuis plusieurs années dans le
traitement des émissions polluantes des installations industrielles. Mettant en jeu un ensemble
de réactions très complexes, ce système permet de réduire les NOx à l’intérieur de la ligne
d’échappement à l’aide d’une solution à base d’urée. Cette solution est convertie en NH3 et
ce dernier réduit les NOx en azote (N2 ).
Ce travail de thèse a été motivé et financé par l’IFP Énergies Nouvelles dont l’un des ob-
jectifs a été de développer des méthodologies et des algorithmes efficaces pour le paramétrage
du contrôle de système de dépollution. Nos résultats ont permis de proposer une procédure
de configuration du système SCR dans le but de répondre aux normes instaurées par l’UE.
Ces résultats sont présentés dans le chapitre 5.
La suite de cette introduction est dédiée à une brève description du problème à résoudre.
Nous énonçons les problématiques sous-adjacentes à nos travaux de recherche et détaillons la
composition du manuscrit.
1
Prise en compte des incertitudes
Le système de dépollution étudié dans cette thèse est défini par des paramètres de deux
natures différentes :
y = f (x, ξ),
où
• f est le simulateur numérique,
• x est le vecteur des paramètres de contrôle du système, encore appelées variables de
décision qui caractérisent le fonctionnement du contrôle,
• ξ regroupe les entrées incertaines du système,
• y est la variable de sortie ou quantité d’intérêt.
Dans le cadre de notre travail, nous n’envisageons pas le cas des sorties spatiales ou fonc-
tionnelles. Le simulateur numérique f renvoie la quantité de NOx rejeté, encore appelé le score
DeNOx . Le vecteur x regroupe les variables de contrôle du système de dépollution. L’entrée
incertaine ξ correspond aux variables incertaines scalaires (biais de capteurs) et fonctionnelle
(cycle de conduite).
Les variables incertaines sont modélisées par des variables aléatoires auxquelles sont at-
tribuées des lois de probabilité. Ces lois de probabilité peuvent êtres choisies par avis d’expert
(constructeur des capteurs) ou construites par inférence à partir d’observations, comme c’est le
cas pour la variable fonctionnelle dans notre cas d’étude où seul un échantillon de réalisations
(courbes temporelles) est mis à notre disposition.
Dans notre cas d’étude, les problèmes d’inversion à résoudre doivent tenir compte de
l’incertitude induite par les variables incertaines. On parle alors de problèmes inversion sto-
chastiques. On souhaite ainsi concevoir des systèmes dont les performances sont robustes en
un sens à préciser. Dans un tel cadre, la prise en compte des incertitudes dans le problème
d’inversion peut aboutir à différentes formulations. On pourrait s’intéresser à la résolution du
problème en grande probabilité,
où la probabilité 1−π reflète le risque que l’on est prêt à assumer. Une autre possibilité consiste
à prendre l’espérance comme mesure de robustesse. Il s’agit de la formulation considérée dans
le cadre de cette thèse. Mathématiquement, cela se traduit par l’identification de l’ensemble
d’excursion suivant :
Γ∗ = {x , Eξ [f (x, ξ)] ≤ seuil}. (1)
Dans ce cas, on cherche les paramètres de contrôle tels que la sortie soit, en moyenne, inférieure
au seuil. On justifiera ce choix plus loin dans le manuscrit.
Dans le cadre de notre travail, on s’est intéressé à la modélisation par processus gaus-
siens (krigeage) qui donne accès à une estimation de l’erreur de prédiction ainsi utilisée pour
construire un plan d’expériences adaptatif dédié à l’inversion. Cette stratégie de construction
de plans d’expériences permet de limiter les évaluations du simulateur en certaines zones de
l’espace des entrées permettant ainsi de préciser le modèle aux endroits stratégiques.
Problématiques
Ainsi pour résoudre le problème d’inversion (1) nous proposons d’étendre les techniques
existantes d’inversion par processus gaussien ([Rasmussen and Williams, 2006]) au contexte
incertain, notamment à la présence d’une variable aléatoire fonctionnelle dont la distribution
n’est connue qu’au travers un échantillon donné.
Nos contributions portent sur la quantification des incertitudes fonctionnelles et les problèmes
d’inversion stochastique. Ce travail de thèse a pour objectifs de répondre aux problématiques
suivantes :
Organisation du manuscrit
La thèse comporte 5 chapitres organisés comme suit.
Dans le chapitre 1, un bref rappel sur la modélisation par processus gaussiens est présenté.
Ensuite, on donne une stratégie pour un choix judicieux des points d’évaluations dans le cas
de fonctions déterministes. Dédiée à l’inversion, cette stratégie repose sur des notions d’en-
sembles aléatoires fermés.
Dans le chapitre 2, on commence par rappeler quelques méthodes élémentaires pour l’esti-
mation de l’espérance dans le cas de variables aléatoires vectorielles ou fonctionnelles. Ensuite,
on propose deux méthodes d’estimation séquentielle dans un cadre fonctionnel et où la va-
riable fonctionnelle n’est connue qu’à travers un échantillon de réalisations. Ces deux méthodes
reposent sur une réduction de dimension de la variable fonctionnelle par une méthode de Ka-
runhen Loeve. Leur originalité réside dans le fait que l’estimation de l’espérance est faite de
manière séquentielle. Les performances de ces méthodes sera illustrée sur des cas analytiques
pour lesquels on montre l’efficacité des estimations et ce, à faible coût en comparaison des
méthodes Monte Carlo classiques.
Dans le chapitre 5, on commence par introduire le problème industriel qui a motivé les
travaux de cette thèse. Ensuite, on présente des outils de visualisation de données fonction-
nelles et une application de ces derniers pour les cycles de conduite. On applique les deux
méthodologies développées dans les chapitres précédents pour identifier l’ensemble d’excur-
sion menant à respecter les normes en moyenne. Une analyse comparative des deux méthodes
est également présentée.
Enfin, nous concluons ce manuscrit par un rappel sur les méthodologies proposées dans ce
document, ainsi que par une description des perspectives envisagées.
Chapitre 1
Outlines
Ce chapitre a pour objectif d’introduire les méthodes pour la résolution d’un problème d’inversion pour
des simulateurs déterministes et coûteux en temps de calcul. On présentera une stratégie séquentielle
d’évaluation du simulateur pour identifier l’ensemble recherché avec le moins d’appels au code.
Contents
1.1 Modélisation par processus gaussien . . . . . . . . . . . . . . . . . . . . . . 7
1.1.1 Définitions et propriétés de base . . . . . . . . . . . . . . . . . . . 7
1.1.2 Processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.3 Modélisation par processus gaussiens . . . . . . . . . . . . . . . . . 10
1.1.4 Synthèse et objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2 Estimation et quantification de l’incertitude associée à un ensemble d’ex-
cursion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.2.1 Espérance d’ensembles aléatoires fermés . . . . . . . . . . . . . . . 12
1.2.2 Estimation d’un ensemble d’excursion et l’incertitude associée . . . 15
1.3 Stratégie de réduction séquentielle d’incertitudes . . . . . . . . . . . . . . . 16
1.3.1 La stratégie SUR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.2 Exemple d’application . . . . . . . . . . . . . . . . . . . . . . . . . 18
5
d’inversion). Cela se traduit par l’identification de l’ensemble suivant
où c ∈ R est un seuil prédéfini. Les simulateurs numériques ont souvent des temps d’exécution
de plusieurs minutes voire plusieurs heures, ce qui exclut l’application de techniques gour-
mandes en évaluations. Par exemple des méthodes de recherche aléatoire (recuit simulé,
stratégies évolutionnaires, etc.), très gourmands en évaluations, sont écartées. Il est donc pri-
mordial d’apporter une solution raisonnable au problème considéré en utilisant peu d’évaluations
du simulateur. Cela implique de choisir, selon une stratégie bien définie, les différents points
où évaluer le simulateur.
Figure 1.1: Construction d’un modèle de substitution à partir d’échantillons d’un simulateur
numérique coûteux.
Une approche très courante pour élaborer des stratégies économiques d’évaluation du
simulateur repose sur l’utilisation des métamodèles aussi appelés modèles de substitution.
Un métamodèle est une représentation déterministe ou probabiliste de la relation entre les
entrées et la sortie du simulateur construite à partir d’un nombre limité d’évaluations. Plus
précisément, dans le cadre de la thèse, la classe de métamodèles retenue est la régression par
processus gaussiens
(voir, e.g, [Matheron, 1973, Rasmussen and Williams, 2006, Chiles and Delfiner, 1999]) dont
l’utilisation est très répandue et dont l’application à l’optimisation ou à l’inversion a déjà
fait ses preuves. La métamodélisation par processus gaussien, également appelée krigeage,
est une technique issue de la géostatistique. Son principe est le suivant : on suppose que la
fonction à approcher g est la réalisation d’un processus gaussien (Yx )x∈X conditionné par les
points évalués. Cette hypothèse a notamment pour intérêt de fournir, en plus d’une prédiction
de la fonction inconnue g, l’erreur de prédiction commise par ce métamodèle en tout point
de l’espace x ∈ X. Notons que le processus (Yx )x∈X peut être considéré autre que gaussien
(voir, e.g, [Palacios and Steel, 2006]), mais cette hypothèse facilite grandement la définition
du processus lorsque de nouvelles observations sont assimilées. En effet, un processus gaussien
conditionné par de nouvelles observations demeure gaussien et les calculs en sont facilités.
Dans le cadre de la thèse et parmi l’éventail des problèmes possibles, on s’intéresse au
problème d’inversion, ou l’identification d’un ensemble d’excursion, à partir d’un ensemble
d’évaluations. Ce problème fait l’objet d’une littérature abondante. Des méthodes d’estimation
non paramétrique ont été proposées dans [Devroye and Wise, 1980] et [Baillo et al., 2000], ces
dernières fournissent des estimateurs convergents, sous certaines hypothèses sur l’ensemble
recherché. Il existe aussi une technique directe qui consiste à prendre un estimateur plug-
in ([Molchanov, 1998, Cuevas et al., 2006]). Dans un tel contexte, cette approche consiste à
remplacer la fonction inconnue g par un estimateur approprié, et de considérer l’ensemble
d’excursion de l’estimateur comme estimation de l’ensemble recherché ([Ranjan et al., 2008]).
Bien que l’approche plug-in soit pratique, elle ne fournit pas une quantification des incertitudes
associées à l’estimateur de l’ensemble. La stratégie expliquée dans ce chapitre vient pallier ce
problème.
L’objectif de ce chapitre est de définir une stratégie adaptative d’ajout de simulations afin
de résoudre un problème d’inversion. On propose d’adopter la stratégie de [Chevalier et al., 2014a]
qui repose sur des techniques de modélisation par processus gaussien et sur la théorie des en-
sembles aléatoires fermés. En guise de préliminaire, les deux premières sections sont dédiées au
rappel de quelques fondamentaux sur les variables et processus aléatoires, la modélisation par
processus gaussien ainsi que la théorie des ensembles aléatoires fermés. La troisième section
est dédiée à présenter la stratégie retenue qui combine les notions introduites auparavant pour
l’identification d’un ensemble d’excursion.
Pour s ≥ 1, on note Ls (P) l’espace des v.a.r. telles que E[|Y s |] < ∞, et les nombres E[|Y s |]
sont appelés les moments d’ordre s de la v.a.r. Y . Dans le cas où s = 2, L2 (P) est un espace de
Hilbert, espace des variables aléatoires de carré intégrables (i.e. E[|Y 2 |] < ∞). La covariance
entre Y1 , Y2 ∈ Ls (P) est définie par :
Cov(Y1 , Y2 ) = E[Y1 Y2 ] − E[Y1 ]E[Y2 ] (1.4)
Pour un vecteur aléatoire Y ∈ Rp , on appelle matrice de covariance de Y, notée Cov(Y),
la matrice symétrique réelle de taille p × p de terme général Cov(Yi , Yj ). Cette matrice est
clairement symétrique et de plus on a :
p X
p
∀a = (a1 , . . . , ap )> ∈ Rp , a> Cov(Y)a =
X
ai aj Cov(Yi , Yj )
i=1 j=1
(1.5)
d
X
= var ai Yi ≥ 0,
i=1
ce qui signifie que la matrice Cov(Y) est une matrice symétrique positive.
Choix du noyau
Nous avons vu que toute fonction définie positive peut être prise comme fonction de
covariance, sauf que la condition de positivité est difficilement vérifiable. Ainsi on a souvent
recours à des fonctions de covariance bien connues. Dans le cas où X = R, l’exemple classique
d’une telle fonction est le noyau exponentiel de degré 2 stationnaire suivant :
(x−x0 )2
k(x, x0 ) = σ 2 e− 2θ 2 , (1.10)
où σ est un paramètre d’échelle et θ un paramètre de portée. Ce choix de noyau conduit à des
fonctions de classe C ∞ pour les trajectoires du processus associé. Pour le noyau exponentiel
défini par
|x−x0 |
k(x, x0 ) = σ 2 e− 2θ , (1.11)
les trajectoires du processus ne sont pas dérivables mais seulement continues (de classe C 0 ).
Parmi les noyaux les plus couramment utilisés pour la modélisation par processus gaussien,
on trouve aussi les noyaux de Matern. La Table 1.1 classe par ordre de régularité les noyaux
usuels.
La stationnarité est la particularité de ces noyaux puisque leur expression dépend unique-
ment de |x − x0 |. De plus, pour chacun de ces noyaux, k(x, x0 ) est strictement décroissante en
|x − x0 |. Il en découle que la connaissance d’un processus Y en un point x aura une influence
locale sur la connaissance de Y . Sur la figure 1.2, on représente quelques noyaux classiques et
des réalisations des processus gaussiens associés.
Figure 1.2: Fonctions de covariance classiques (à gauche) et des réalisations des processus
gaussiens associés (à droite). Les paramètres sont fixés à (σ 2 , θ) = (1, 0.3).
Dans le cas où les variables d’entrée sont des vecteurs de Rd , les noyaux usuels sont
construits comme le produit tensoriel de noyaux unidimensionnels ki . Pour x = (x1 , . . . , xp )> ∈
Rp et x0 = (x01 , . . . , x0p )> ∈ Rp ,
p
k(x, x0 ) = ki (xi , x0i ).
Y
(1.12)
i=1
Dans la section 1.1.3, on verra le rôle prépondérant que joue le noyau de covariance dans
la modélisation par processus gaussiens. Pour le choix du noyau optimal pour traiter un
problème donné, il existe des techniques de validation croisée mais elles sont coûteuses. Si on
a des a priori sur la régularité de g ou sur certaines de ses propriétés, on choisira un noyau en
conséquence.
1.1.3 Modélisation par processus gaussiens
Nous considérons dans cette section que la fonction à modéliser g est définie sur un compact
X ⊂ Rp , continue et qu’elle est à valeurs réelles. Comme il a été dit dans l’introduction de
ce chapitre, on suppose que l’on dispose de n points Xn = (x1 , . . . , xn ) ∈ Xn pour lesquels la
valeur de g est connue, et on note par gXn = (g(x1 ), . . . , g(xn )) ∈ Rn les valeurs de la fonction
g aux points Xn .
L’hypothèse fondamentale de la modélisation par processus gaussien est que la fonction g
est une trajectoire d’un processus gaussien Y indexé par X. L’objectif va donc être de prendre
en compte dans la modélisation de g l’information partielle fournie par les évaluations gXn . La
loi du processus Y est caractérisée par ses deux premiers moments (cf. section 1.1.2), on peut
s’intéresser à la distribution du processus Y sachant qu’il prend les valeurs de la fonction g
aux points du plan Xn : YXn = (Yx1 , . . . , Yxn ) = gXn . Le processus conditionnel Y |YXn = gXn
est gaussien, de plus la moyenne et la covariance conditionnelles sont obtenues directement
en utilisant la proposition 1.8 :
covariance aux points Xn , i.e., Kn = (k(xi , xj ))1≤i,j≤n . La quantité mn interpole les valeurs
de la fonction g aux points Xn . De plus mn (x) est le meilleur prédicteur (au sens de l’erreur
quadratique moyenne), linéaire en gXn sans biais de Yx . La variance conditionnelle kn (x, x)
permet de calculer un intervalle de prédiction en chaque point x.
Exemple d’application
Afin d’illustrer la modélisation par processus gaussien, nous utilisons un des cas présentés
dans l’article de [Roustant et al., 2012]. On définit la fonction g comme suit
(
[0, 1] → R
g: (1.14)
x 7→ (sin(10x)/(1 + x) + 2 cos(5x)x3 + 0.841)/1.6,
la modélisation correspondante est donnée sur la figure 1.3. Les points rouges représentent
l’ensemble d’apprentissage utilisé pour modéliser la réponse. Le noyau de covariance retenue
est de type Matérn 5/2 (voir table 1.1) et les paramètres (θ, σ) de ce dernier sont estimés
par maximum de vraisemblance. La prédiction obtenue est donnée sur la figure de droite 1.3
et l’incertitude associée à cet estimateur est donnée par la bande de confiance à 95%. On
remarque bien sur cet exemple que la prédiction est interpolante.
Figure 1.3: A gauche : la fonction inconnue g (courbe noire) et cinq réalisations du processus
gaussien conditionné défini par les équations (1.13), intervalle de confiance à 95% (bande
en bleu clair). A droite : Approximation de la fonction g (en trait noir) par la moyenne
conditionnelle mn (trait bleu) obtenue à partir de n = 8 points d’expériences, intervalle de
confiance à 95% (bande en bleu clair).
où c ∈ R est un seuil prédéfini. Comme la fonction g est coûteuse en temps de calcul, le
but est d’estimer l’ensemble Γ∗ avec le moins d’appels possible au simulateur g. Toujours
dans la même configuration où la valeur de g est connue en certains points du plan Xn , il
est raisonnable d’exploiter cette information dans l’estimation de Γ∗ . Dans un cadre bayésien
(cf. section 1.1.3), et dans la logique de l’approche plug-in introduite précédemment, on peut
approcher la fonction g par la moyenne conditionnelle mn et ainsi estimer l’ensemble Γ∗ par
La figure 1.4 montre l’estimateur plug-in pour l’exemple introduit précédemment où le
seuil est fixé à c = 0.25. Bien que cet estimateur soit facile à implémenter, cette technique
ne fournit pas une quantification de l’incertitude. Le but de la section 1.2 est de pallier ce
problème et donc de fournir un estimateur de l’ensemble Γ∗ ainsi qu’une quantification de
l’incertitude associée.
Figure 1.4: A gauche : 5 réalisations du processus gaussien conditionnel avec n = 7. A droite :
la moyenne conditionnelle mn (trait bleu), la bande de confiance (en bleu clair) et l’estimateur
Γplug-in .
Le problème d’optimisation (1.17) est difficile en pratique, et au lieu de le résoudre dans tout
l’espace C, on restreint la recherche à une famille paramétrique Cα ⊂ C.
La notion de linéarisation peut être illustrée par le diagramme suivant :
γ
Γ∈C γΓ ∈ Y
E[Γ] ∈ C E[γΓ ] ∈ Y
proximité
A ce stade, on introduit une notion de distance entre ensembles aléatoires, cette dis-
tance nous sera utile dans la suite. Dans la littérature, pour les ensembles aléatoires fermés,
différentes distances existent. Cette distance peut être utilisée pour quantifier l’éloignement
entre les quantiles de Vorob’ev, Qα , et l’ensemble aléatoire correspondant Γ.
Définition 2 (Distance moyenne pour ensembles aléatoires fermés). Soit deux ensembles
aléatoires fermés Γ1 , Γ2 ⊂ X. La distance moyenne entre Γ1 et Γ2 est donnée par
Cette distance quantifie l’écart entre deux ensembles en mesurant la partie où ces derniers
ne se chevauchent pas. Si les deux ensembles sont égaux presque sûrement alors dµ (Γ1 , Γ2 ) = 0
et si Γ1 ∩ Γ2 = ∅ alors dµ (Γ1 , Γ2 ) = E[µ(Γ1 )] + E[µ(Γ2 )]. Cette distance est très utile dans les
problèmes d’estimation d’ensembles. Le résultat suivant montre que, parmi tous les ensembles
de volume égale au volume moyen, l’espérance de Vorob’ev est l’ensemble qui minimise cette
distance.
Démonstration 1. Soit (Ω, F, P ) un espace probabilisé, soit un ensemble M tel que µ(M ) =
E[µ(Γ)], on pose F = Qα∗ . Pour tout ω ∈ Ω, on a :
µ(M 4 Γ(ω)) − µ(F 4 Γ(ω)) = µ (M 4 Γ(ω)) \ (F 4 Γ(ω)) − µ (F 4 Γ(ω)) \ (M 4 Γ(ω))
= µ (M \ F ) ∩ Γ(ω)c + µ (F \ M ) ∩ Γ(ω) − µ (F \ M ) ∩ Γ(ω)c
− µ (M \ F ) ∩ Γ(ω)
= µ(M \ F ) − µ(F \ M ) + 2 µ (F \ M ) ∩ Γ(ω) − µ (M \ F ) ∩ Γ(ω)
= µ(M ) − µ(F ) + 2 µ (F \ M ) ∩ Γ(ω) − µ (M \ F ) ∩ Γ(ω)
≥0
Ce résultat intéressant nous conforte dans le choix de la famille des quantiles de Vo-
rob’ev comme famille d’ensembles fermés candidats pour définir l’espérance. La quantité
E[µ(Γ4Qα∗ )] est appelée la déviation de Vorob’ev.
Dans la Section 1.2.2, on utilise cette grandeur pour mesurer la variabilité associée à un
estimateur de Γ. Puis pour conclure ce chapitre, on s’appuie sur l’incertitude induite par cette
distance afin de définir une stratégie séquentielle d’évaluation du simulateur pour réduire cette
incertitude et ainsi identifier l’ensemble d’excursion souhaité.
1.2.2 Estimation d’un ensemble d’excursion et l’incertitude associée
Dans un contexte de modélisation par processus gaussien, la fonction inconnue g, supposée
continue, est vue comme une réalisation d’un processus gaussien de moyenne m et de noyau
de covariance k, noté Y ∼ GP(m, k). Ainsi, l’ensemble d’excursion à identifier Γ∗ = {x ∈
X , g(x) ≤ c}, où c ∈ R est un seuil prédéfini, peut être vu comme une réalisation d’un
ensemble aléatoire fermé Γ = {x ∈ X , Yx ≤ c}. Pour la modélisation de g, on s’est appuyé sur
l’ensemble d’apprentissage (Xn , gXn ) ainsi que sur les deux premiers moments pour construire
un estimateur de g donné par mn et une variance de prédiction kn ; il en est de même dans le
cas d’estimation d’un ensemble d’excursion, on va prendre comme estimateur l’espérance de
Vorob’ev et la distance moyenne donnée par l’équation (1.21) comme critère d’incertitude.
Dans ce contexte bayésien et en conditionnant le processus gaussien Y par les évaluations
de la fonction g aux points Xn , la fonction de couverture p devient
pn (x) = P(x ∈ Γ | YXn = gn )
= P(Yx ≤ c | YXn = gn )
(1.23)
c − mn (x)
=Φ p ,
kn (x, x)
où Φ(.) est la fonction de répartition de la loi normale centrée réduite. Les ensembles quantiles
de Vorob’ev générés par la fonction de couverture pn sont obtenus comme suit
Qn,α = {x ∈ X : pn (x) ≥ α}
c − mn (x) (1.24)
= {x ∈ X : Φ p ≥ α}.
kn (x, x)
Ainsi l’espérance de Vorob’ev peut être calculée en déterminant le paramètre αn∗ tel que la
condition (1.20) soit vérifiée, en remarquant que
Z
E[µ(Γ) | YXn = gn ] = pn (x)dµ(x) (1.25)
X
(1.26)
Z Z
= En [1{x∈Γ} ]µ(dx) + En [1{x6∈Γ} ]µ(dx)
Qcn,α∗ Qn,α∗
n n
Z Z
= pn (x)µ(dx) + (1 − pn (x))µ(dx),
Qcn,α∗ Qn,α∗
n n
où En [.] = E[. | YXn = gXn ]. La figure 1.5 montre l’espérance et la déviation de Vorob’ev
obtenues pour l’exemple introduit précédemment.
Figure 1.5: L’espérance de Vorob’ev Qn,α∗n (en vert), l’estimateur plug-in Γplug-in (en bleu),
les n = 8 observations (points rouges), la moyenne conditionnelle mn (courbe bleue) et la
bande de confiance (bande bleu clair).
Le but est de trouver le point xn+1 qui minimise la quantité 1.28 en moyenne, et ce en intégrant
selon la loi de Yx sachant (Xn , gXn ). On a alors :
uncert
xn+1 ∈ arg min En,x [Hn+1 (x)]
x∈X
(1.29)
:= arg min Jn (x)
x∈X
où En,x est l’espérance sachant Yx |YXn = gXn . Pour tout x ∈ X, le critère Jn s’écrit comme
uncert
Jn (x) = En,x [Hn+1 (x)]
(1.30)
Z
= En,x pn+1 (x)1 + 1 − pn+1 (x) 1 µ(dx) .
X pn+1 (x)<α∗n+1 pn+1 (x)≥α∗n+1
Proposition 1. Le critère Jn peut être exprimé sous forme explicite (la démonstration est
donnée dans [Chevalier and Ginsbourger, 2013], chapitre 4.2),
" # " #
1 + γn+1 (u) −γn+1 (u)
an+1 (u)
Z
Jn (x) = 2Φ2 ;
X Φ−1 (αn∗ ) − an+1 (u) −γn+1 (u) γn+1 (u)
! (1.31)
an+1 (u) − Φ−1 (αn∗ )
+ pn (u) + Φ p µ(du)
γn+1 (u)
avec
où Φ2 (., Σ) est la fonction de répartition de la loi gaussienne centrée bivariée de matrice de
covariance Σ.
Pour plus de perspectives théoriques sur la stratégie SUR, on renvoie le lecteur au papier
[Bect et al., 2016] qui traite de la convergence d’une telle stratégie dans différents cas d’ap-
plications. Dans le cas où l’incertitude est définie par la déviation de Vorob’ev, la convergence
n’a pas encore été prouvée. La stratégie SUR appliquée à un problème d’inversion peut être
résumée par l’algorithme suivant :
Algorithm 1 Stratégie séquentielle d’évaluation du simulateur pour l’estimation d’un en-
semble d’excursion
1: Initial DoE : le plan d’expériences initial Xn et les simulations gXn
2: while le budget alloué r n’est pas atteint, i.e., n ≤ r do
3: Y |YXn = gXn ← la modélisation par processus gaussien
4: xn+1 ← l’optimisation du critère Jn
5: g(xn+1 ) ← l’évaluation de la fonction g au point xn+1
6: n←n+1
7: end while
8: Qn,α∗n ← l’espérance de Vorob’ev comme estimateur de l’ensemble d’excursion
9: En [µ(Γ4Qn,α∗n )] ← la déviation de Vorob’ev comme incertitude associée à l’estimation
10: end
L’objectif est d’estimer l’ensemble Γ∗ = {x ∈ [0, 1]2 , g(x) ≤ c}, où le seuil est fixé à c = 80. La
fonction g est évaluée sur un plan d’expériences de taille n = 10, on obtient ainsi un ensemble
d’apprentissage (Xn , gXn ). Une modélisation par processus gaussien est alors faite, tenant
compte des observations comme cela a été décrit dans la section 1.1.3, on prend un noyau
de covariance de type Matèrn 5/2 et les paramètres de ce noyau sont estimés par maximum
de vraisemblance. Ce processus gaussien conditionnel définit un ensemble aléatoire fermé Γ
sur lequel on s’appuie pour fournir un estimateur pour l’ensemble d’excursion Γ∗ ainsi qu’une
quantification d’incertitude associée.
Dans cet exemple, on se fixe un budget de r = 40 points et on va mettre en compétition
deux stratégies : la première consiste à remplir l’espace indépendamment du modèle et de
l’objectif d’inversion. On a choisi une suite de Sobol. La deuxième est la stratégie SUR dont
le but est de minimiser la déviation de Vorob’ev. A chaque itération, la fonction g est évaluée
au nouveau point proposé et le processus gaussien est mis à jour via la ré-estimation des
paramètres du noyau de covariance.
La figure 1.6 (haut à droite) montre l’évolution de la déviation de Vorob’ev en fonction
des points ajoutés au plan. On remarque que la stratégie SUR mène à une décroissance plus
rapide de la déviation de Vorob’ev et que l’espérance de Vorob’ev obtenue après 40 points
ajoutés se confond parfaitement avec le vrai ensemble Γ∗ . On remarque aussi que les points
proposés par la stratégie SUR se trouvent dans le voisinage de la frontière de l’ensemble. C’est
en effet dans cette zone qu’on attend le plus d’incertitude.
Figure 1.6: Exemple analytique. en haut à gauche : Le vrai ensemble d’excursion (ensemble
vert de frontière mauve). En bas à droite : le plan initial (triangles noirs), les points ajoutés
par la stratégie SUR (points rouges), la fonction de couverture et l’espérance de Vorob’ev
(ensemble vert de frontière bleue) à l’étape n = 50. En haut à droite : l’évolution du logarithme
de la déviation de Vorob’ev en fonction des itérations. En bas à droite : le plan initial (triangles
noirs), les points ajoutés par la suite de Sobol (points rouges), la fonction de couverture et
l’espérance de Vorobev (ensemble vert de frontière bleue) à l’étape n = 50.
L’objectif du chapitre qui suit est de présenter deux méthodes originales pour estimer
de manière séquentielle l’espérance de la sortie du code en un point de contrôle fixé
quand cette sortie dépend d’une variable fonctionnelle incertaine dont la distribution
n’est connue qu’au travers un échantillon de réalisations. Le couplage de ces méthodes
avec une approche de type SUR (objet du chapitre 3) permettra de résoudre des problèmes
d’inversion sous incertitude fonctionnelle. La combinaison de ces approches et la stratégie
présentée dans ce premier chapitre donnera naissance une méthodologie pour résoudre des
problèmes d’inversion sous incertitude fonctionnelle. Cette dernière est présentée dans le
chapitre 3.
Chapitre 2
Intégration numérique
Outlines
L’objectif de ce chapitre est de proposer deux méthodes d’estimation séquentielle de l’espérance dans
le cas de variable aléatoire fonctionnelle. On commencera par rappeler les approches existantes pour
l’estimation de l’espérance dans le cadre vectoriel. On étendra quelques notions au cadre fonctionnel.
Par la suite, on introduira deux méthodes découlant du concept de la quantification pour l’estima-
tion gloutonne de l’espérance. Ces notions seront combinées aux outils présentés dans le chapitre 1
pour introduire une méthodologie permettant de résoudre un problème d’inversion sous incertitude
fonctionnelle. La méthodologie globale sera présentée dans le chapitre 3.
Contents
2.1 Cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.1.1 Approches Monte-Carlo et quasi-Monte Carlo . . . . . . . . . . . . 22
2.1.2 La quantification vectorielle . . . . . . . . . . . . . . . . . . . . . . 23
2.1.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.1.2.2 Définitions et propriétés . . . . . . . . . . . . . . . . . . 24
2.1.2.3 Algorithmes existants . . . . . . . . . . . . . . . . . . . . 26
2.1.2.4 Application en intégration numérique . . . . . . . . . . . 27
2.2 Cas fonctionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Réduction de dimension . . . . . . . . . . . . . . . . . . . . . . . . 29
2.2.2 La quantification fonctionnelle . . . . . . . . . . . . . . . . . . . . . 30
2.2.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.2.2 Constructions gloutonnes . . . . . . . . . . . . . . . . . . 31
2.3 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
21
Remarque : Une partie de ce chapitre (Sections 2.2 et 2.3 ) est redondante avec le
chapitre 3 qui réutilise la quantification fonctionnelle gloutonne pour répondre au problème
d’inversion sous incertitudes. On tient à faire un chapitre qui regroupe l’ensemble des outils
de la thèse qui porte sur la quantification.
Il est bien connu que par la loi des grands nombres, cette quantité converge presque sûrement
quand l tend vers l’infini vers E[h(U)]. De plus avec le théorème central limite, on a une
vitesse de convergence en probabilité en O(l−1/2 ) indépendante de la dimension m.
L’écueil principal des méthodes de Monte Carlo est leur taux de convergence en O(l−1/2 ).
Il se trouve que, notamment dans le calcul d’intégrales de dimension raisonnable, on peut sous
certaines conditions faire sensiblement mieux avec la méthode dite de quasi-Monte Carlo. On
peut en effet montrer que, sous réserve que les ui soient judicieusement choisis (il s’agira en
général d’une suite déterministe, mais irrégulière de l-uplets), la convergence peut atteindre
des vitesses en O(l−1 ) pour m = 1 et O(l−1 log(l)m−1 ) pour m > 1, sous réserve de certaines
propriétés de régularité de h.
Définition 3 ([Niederreiter, 1992] Définition 2.1). Soit {ui }i>0 une suite points de [0, 1]m ;
pour tout ensemble B ⊂ [0, 1]m , on désigne par λl (B) la proportion des l premiers points de
cette suite appartenant à B. La discrépance des l premiers points de la suite est :
l
1X
Dl∗ (U) = sup |λl (B) − λ(B)|, λl (B) = 1B (ui ),
B l i=1
Qm
où λ est la mesure de Lebesgue et le sup est pris sur tous les B de la forme B = i=1 [0, xi ], xi ≤
1.
Il s’agit maintenant de trouver des suites {ul }l>0 telles que (Dl∗ (U))l>0 décroisse le plus
vite possible. Il existe des méthodes de construction arithmétiques de suites (Sobol (cf. Figure
2.1), Halton, ... ) telles que
Figure 2.1: Une suite à faible discrépance (Sobol) et une suite aléatoire dans [0, 1]2 (l = 500).
2.1.2.1 Introduction
Le terme quantification prend naissance au milieu des années 50 où il est employé en théorie
de l’information et du signal. Dans ce contexte, la quantification signifie la discrétisation d’un
signal continu en un ensemble fini de points, appelé quantifieur. Le but est d’avoir une trans-
mission efficace et parcimonieuse du signal. Par conséquent, la taille et la géométrie du quan-
tifieur doivent être optimisées à cet effet.
Ce concept a également connu un intérêt important dans le domaine de la reconnaissance
de formes et la classification. Dans ce contexte, le problème de la quantification optimale
consiste à trouver la meilleure approximation de la distribution continue PU d’un vecteur
aléatoire U par une variable aléatoire discrète prenant un nombre fini de valeurs. La quantifi-
cation a été traitée dans un cadre probabiliste notamment par [Zador, 1963] ou [Pagès, 1998]
et a été intensivement utilisée en probabilité numérique, en finance et en intégration numérique
par [Pagès and Printems, 2003], [Pages et al., 2004] et [Bally et al., 2005].
En d’autres termes, U0l est la projection selon le plus proche voisin de la variable aléatoire
U sur la grille A. Les pi sont appelés aussi masses des cellules de Voronoi. L’erreur résultante
au carré de la quantification est appelée distorsion (quadratique) et s’écrit donc par définition :
Ces définitions nous poussent à nous poser les questions suivantes : est ce que la fonction
distorsion DlU (.) atteint son infimum ? Comment ce dernier se comporte quand l tend vers
l’infini ?
Proposition 2 ([Pagès, 1998], Prop. 5). La fonction A → DlU (A) est continue sur (Rm )l
et atteint son minimum dans l’ensemble C. De plus argminA∈(Rm )l DlU (A) ⊂ Dl et la suite
l → min(C)l DlU (A) tend vers 0.
La preuve est donnée dans [Pagès, 1998]. Cette proposition implique que la fonction A →
DlU (A) atteint son minimum dans (Rm )l en un certain point  ∈ (Rm )l , et que ce minimum
a des composantes distinctes, i.e., |Ûl (Ω)| = l si |SU | ≥ l. De plus, l’erreur de quantification
tend vers zéro quand l tend vers l’infini. Cependant, la question sur le taux de convergence
est un problème assez difficile. Le taux de convergence de l’erreur de quantification est donné
par le théorème de Zador ([Zador, 1963]) ; voir aussi [Graf and Luschgy, 2000] pour la preuve.
m+2
m
m
R dPa
avec Q2 (PU ) = J(2,m) Rm f m+2 dλ , où f = dλ et J(2,m) ∈ [0, ∞).
(b) Borne supérieure non-asymptotique [Luschgy et al., 2008]. Il existe Cm,2,ζ ∈ [0, ∞)
tel que pour toute variable aléatoire U à valeurs dans Rm ,
1/2
∀l ≥ 1, DlU (A) ≤ Cm,2,ζ ||U||2+ζ l−1/m .
Ce résultat est amélioré dans [Pagès, 2018] où ||U||2+ζ est remplacée par infm ||U − u||2+ζ .
u∈R
Remarques
— La vraie valeur de la constante J(2,m) est inconnue pour m ≥ 3 mais on sait que
m 1
J(2,m) ∼ 2πe lorsque m → +∞ et que J(2,1) = 22 (2+1) .
— Lorsque Pa = 0 alors Q2 (PU ) = 0. Dans ce cas, DlU (A) = o(l−1/m ) et la vitesse
de convergence est étudiée dans [Graf and Luschgy, 2000] pour un grand nombre de
classes de probabilité singulières.
Une question naturelle se pose : comment obtenir le quantifieur optimal ? le but de la
partie qui suit est de fournir quelques algorithmes pour résoudre ce problème d’optimisation.
2.1.2.3 Algorithmes existants
Il n’existe pas de formes analytiques pour déterminer le quantifieur optimal, sauf dans
certains cas comme pour la loi uniforme unidimensionnelle. Cependant, il existe différents
algorithmes permettant d’obtenir ”une approximation” du quantifieur optimal. Soit U une
variable aléatoire à valeurs dans Rm et de distribution de probabilité notée PU . Soit l ≥ 1, on
rappelle que l’erreur de quantification associée à A = {u1 , . . . , ul } ∈ (Rm )l , notée DlU (A), est
donnée par :
Z
DlU (A) = E min |U − ui |2 = min |u − ui |2 PU (du).
i=1,...,l Rm i=1,...,l
en d’autres termes, la méthode démarre par un quantifieur initial, A(0) , et génère successi-
(s+1)
vement une mise à jour, A(s+1) , avec les nouveaux centroides, ui , des régions associées à
(s)
l’étape précédente A , et on écrit :
R
(s+1) u C (A(s) ) u PU (du)
ui = R i pour i = 1, . . . , l. (2.8)
Cui (A(s) ) PU (du)
L’idée est d’approcher la loi de probabilité PU par la loi de probabilité de la variable quantifiée
Ûl , notée PÛl , ainsi on approche (2.12) par
Z l
X
E[h(Ûl )] = h(u)PÛl (du) = h(ui )P(U ∈ Cui (A)), (2.13)
Rm i=1
où A = {u1 , . . . , ul } est un quantifieur si possible optimal. Il s’agit donc d’une formule consis-
tant à pondérer des valeurs de la fonction h en une famille de points de Rm . On rappelle ici
quelques résultats élémentaires liés à l’erreur induite par cette approximation.
On a le résultat suivant pour les fonctions lipschitziennes. On note pour toute fonction h
lipschitzienne sur Rm :
|h(y) − h(z)|
[h]lip = sup < ∞. (2.14)
y6=z∈Rm |y − z|
Proposition 4. Pour tout h ∈ L1 (PU ) telle que h soit de classe C 1 avec ∇h lipschitzienne,
on a :
www.quantize.maths-fi.com
Après un rappel sur les méthodes Monte-Carlo, quasi-Monte-Carlo et les notions de quan-
tification dans le cas vectoriel, la partie qui suit a pour but de travailler dans un cadre
fonctionnel.
1/2
Z T Z T
0 0 0 2 1/2 2
hV, V iL2 = E[hV, V i] = E VV dt et ||V||L2 = E[||V|| ] = E V dt ,
0 0
(2.17)
pour tout V, V0 ∈ H.
Dans un cadre où la variable fonctionnelle V n’est connue qu’à travers un échantillon
Ξ, on va utiliser ce dernier pour estimer l’espérance E[h(V)]. Pour cela on approche la loi
#Ξ
1 P
de probabilité PV par la mesure discrète #Ξ δvi et on approche l’espérance par Monte
i=1
Carlo avec cette loi discrète. Plusieurs alternatives à cette approche ont été développées
dans la littérature. Nous commencerons par présenter une approche classique de projection :
la variable fonctionnelle est projetée sur un espace de dimension finie (section 2.2.1). Nous
établirons ensuite un état de l’art des approches de quantification fonctionnelle (section 2.2.2).
Nous présenterons enfin les approches gloutonnes (section 2.2.3), notamment deux algorithmes
originaux développés dans cette thèse.
La variable fonctionnelle est alors représentée par les coefficients U = (u1 , . . . , um )> ∈ Rm .
Ces coefficients sont des variables aléatoires caractérisées par une densité de probabilité mul-
tivariée. Parmi les méthodes d’estimation pour la densité de variables aléatoires vectorielles,
on peut citer : l’estimation de densité à noyau [Rosenblatt, 1956] qui est une méthode
non-paramétrique d’estimation ; l’estimation par mélange de gaussienne, le but est d’ap-
procher la distribution de probabilité par mélange de lois normales et d’estimer les paramètres
par Expectation-Maximisation [Dempster et al., 1977].
Ainsi, une fois placé en dimension finie, et la loi de probabilité de la variable aléatoire
U estimée, on peut appliquer les méthodes introduites dans la section 2.1 pour estimer
l’espérance E[h(V)].
Le cas des processus gaussiens. [Pages and Printems, 2009] proposent différents algo-
rithmes pour obtenir des quantifieurs optimaux dans le cas du mouvement brownien ou encore
du pont brownien.
Théorème 4 ([Luschgy and Pagès, 2002]). Soit Âl un quantifieur optimal de V, U = span(Âl )
et m = dim(U ).
Alors E[||V − ΠU (V)||2 ] = λi où ΠU est la projection orthogonale de H sur U et
P
i≥m+1
λ1 ≥ λ2 · · · > 0 sont les valeurs propres de l’opérateur associé à la fonction de covariance C.
On en déduit la représentation finale du carré de l’erreur de quantification :
m
O
DlV (Âl ) = Dl (V) =
X
λ i + Dl N (0, λj ) pour m ≥ dl (V),
i≥m+1 j=1
Om
(2.23)
DlV (Âl )
X
= Dl (V) < λ i + Dl N (0, λj ) pour 1 ≤ m < dl (V),
i≥m+1 j=1
Table 2.1: Les erreurs de quantification en fonction de la taille du quantifieur optimal pour
le mouvement brownien.
L’algorithme de Lloyd. Dans le cas des processus non gaussiens, [Miranda and Bocchini, 2013]
proposent une application de l’algorithme de Lloyd directement sur les courbes discrétisées,
comme dans le cas vectoriel. Cependant, cette méthode nécessite de savoir simuler la variable
aléatoire fonctionnelle V.
Dans le cadre de notre travail, seul un échantillon de réalisations de V est mis à notre
disposition. Notre objectif est d’estimer l’espérance par quantification gloutonne. Nos deux
approches s’appuient sur une réduction de dimension.
Une première approche consiste à faire une quantification gloutonne dans l’espace tronqué
des coefficients de la décomposition KL (cf. Figure 2.3). Nous nous sommes donc ramenés au
cas vectoriel (voir [Luschgy and Pagès, 2015]). D’après l’équation (2.21), on a U une variable
aléatoire discrète dans G = {(< v, ψ1 >, . . . , < v, ψm >)> , v ∈ Ξ} = {ui }N i=1 , avec ui =
(< vi , ψ1 >, . . . , < vi , ψm >)> et Ul est une l-quantification induite par {û1 , ..., ûl−1 } ∪ {u}.
L’algorithme est ainsi donné par
La deuxième étape consiste à récupérer les courbes correspondantes aux points sélectionnés
par l’algorithme (cf. Figure 2.4).
La figure 2.4 montre bien que la quantification cherche à capter le comportement moyen de
la variable V, puisqu’elle commence par sélectionner les points centraux et par la suite les
points sur les bords.
Figure 2.4: Le quantifieur de taille 10 obtenu à partir de l’ensemble G (à gauche), le quanti-
fieur associé dans l’ensemble Ξ (à droite).
On propose une deuxième construction gloutonne qui s’appuie sur une notion de remplis-
sage optimale de l’espace. Un des plans d’expériences connus ayant de bonnes propriétés de
remplissage de l’espace est le plan ”maximin”. La configuration est obtenue en maximisant
la plus petite distance entre deux points du plan. Ici le but est de réutiliser ce critère (plus
petite distance entre deux points) pour la quantification c’est à dire pour sélectionner les l
meilleurs points parmi les N disponibles. Ainsi, un plan maximin est un plan qui maximise
φM m (D) = min |ui − uj |, où D = {u1 , ..., ul }.
i6=j
Figure 2.5: Les quantifieurs de taille 10 obtenus à partir de l’ensemble G par la méthode maxi-
min (en rouge) et en réduisant l’erreur de quantification (en bleu) (à gauche), le quantifieur
associé dans l’ensemble Ξ par la méthode maximin (à droite).
Remarque 1. On précise que les points obtenus par les constructions gloutonnes présentées
dans cette partie sont solutions d’optimisation discrète. A chaque itération, l’algorithme 2.25
calcule pour chaque point candidat une moyenne empirique en considérant les N points à
disposition, et donc il a une complexité O(l × N 2 × m). Contrairement à l’algorithme 2.26
qui a une complexité égale à O(l × N × m). La figure 2.6 montre le temps de calcul des deux
algorithmes en fonction de la taille du quantifieur pour N = 200.
Figure 2.6: Temps de calcul en fonction de la taille du quantifieur par l’algorithme 2.25 en
bleu et l’algorithme 2.26 en rouge.
Le temps de calcul de l’algorithme 2.25 peut être réduit en s’appuyant sur la capacité de
stocker le calcul effectué à l’étape l − 1. En effet si on développe l’erreur de quantification à
l’itération l, on obtient :
N N N
1 X 1 X 1 X
2 2 2
min |ui − uj | = |ui | + min |uj | − 2huj , ui i ,
N i=1 1≤j≤l N i=1 N i=1 1≤j≤l
| {z }
Υij
N N
1 X 1 X
= |ui |2 + min Υil , min Υij .
N i=1 N i=1 1≤j≤l−1
| {z } | {z }
stocké stocké
Ainsi le calcul des différences des normes se ramène à des produits scalaires. Le premier terme
est calculé une seule fois alors que le second se résume à une somme de i = 1, . . . , N du
minimum entre Υil et le min Υij préalablement effectué et stocké.
1≤j≤l−1
Application à l’estimation de l’espérance. Une fois la grille Âl obtenue par une des
deux constructions proposées, on définit une l-quantification de la variable aléatoire fonction-
nelle V par
l
X
V̂l = v̂i 1Cv̂i (V), (2.27)
i=1
où {Cv̂i (Âl ) : v̂i ∈ Âl } est la partition de Voronoi de Ξ induite par Âl . Ainsi il est naturel
d’approcher E[h(V)] par E[h(V̂l )]
l
X
E[h(V̂l )] = h(v̂i )P(V̂l = v̂i ) (2.28)
i=1
où la distribution P(V̂l = v̂i ) i=1:l
de V̂l peut être approchée empiriquement par card(Cv̂i (Âl )∩
Ξ)/card(Ξ) i=1:l .
2.3 Applications
Les deux méthodes gloutonnes présentées dans ce chapitre, et résumées par l’algorithme
2, seront appliquées à deux exemples analytiques. Ces derniers seront comparés à l’approche
Monte Carlo.
où x = (x1 , x2 ) = (50, −80) et V un mouvement brownien sur [0, T ] = [0, 1]. On suppose
que V n’est connue qu’à travers un échantillon de N = 200 réalisations Ξ = {v1 , . . . , vN }.
L’argument de troncature m est fixé à 2, valeur pour laquelle 95% de la variance du processus
est expliquée. On rappelle que la méthode gloutonne à base de quantification quadratique
(L2 -GFQ) est bien déterministe. La méthode gloutonne à base de maximin (maximin-GFQ)
est aléatoire par construction. En effet cette nature stochastique est due au choix aléatoire du
point de départ. Pour prendre en compte cet aléa dans la comparaison de ces deux méthodes
à l’estimation par Monte Carlo, on va répéter le test 200 fois.
La figure 2.7 montre le résultat des tests. On observe que quel que soit l, l’erreur d’intégration
induite par les deux méthodes gloutonnes est significativement très faible par rapport à la
méthode Monte Carlo. Pour tout l ≥ 25, on remarque que la méthode maximin-GFQ est
moins sensible au point de départ. On note aussi que pour un faible nombre de courbes l ≤ 5,
la méthode maximin-GFQ dépend beaucoup du point initial pour les faibles valeurs de l, ce
qui induit une grande incertitude dans l’estimation. A partir de l ≥ 10, l’estimation est plus
stable puisque les courbes centrales et extrêmes sont sélectionnées (voir figure 2.5).
Exemple analytique 2. Comme deuxième exemple, on considère h une fonction définie
comme suit
Z T x1 .x2
2
h : V 7→ max Vt .|0.1 cos(x1 max Vt ) sin(x2 ).(x1 + x2 min Vt ) |. (30 + Vt ) 20 dt,
t t t 0
where x = (x1 , x2 ) = (2.95, 3.97) et comme pour l’exemple précédent, on suppose que V
est un mouvement brownien et que cette variable n’est connue qu’à travers un échantillon
de courbes Ξ de taille N = 200. On fixe l’argument de troncature à m = 2 et pour compa-
rer les deux approches gloutonnes à l’estimation par Monte Carlo, on va répéter le test 30 fois.
La figure 2.8 conduit à faire deux commentaires : les deux méthodes gloutonnes proposées
font mieux en terme d’erreur d’intégration par rapport à Monte Carlo. A partir de l ≥ 20, la
méthode maximin-GFQ est moins sensible au point de départ dans la construction.
On rappelle que nos deux méthodes sont basées sur une réduction de dimension. Puisque
on récupère les courbes et ainsi leurs structures, on espère robustifier nos approches par rap-
port à cette approximation. Pour voir l’impact de la réduction de dimension sur l’estimation
de l’espérance, on va comparer nos deux approches à la méthode introduite dans la section
2.2.1. La figure 2.9 montre le résultat après avoir répété le test 30 fois. On remarque que la
méthode ”Fpca” mène à une estimation biaisée de l’espérance. Ce résultat attendu est expliqué
par la perte d’information dû à la réduction de dimension.
Figure 2.9: Exemple analytique 2. Estimation séquentielle de l’espérance en fonction du
nombre de courbes. Les lignes représentent les moyennes. Les intervalles de confiance (Monte
Carlo (en mauve) and maximin-GFQ (en rouge)).
Synthèse : L’objectif de ce chapitre est de proposer deux nouvelles méthodes pour l’esti-
mation séquentielle de l’espérance. Ces méthodes sont basées sur une quantification fonc-
tionnelle gloutonne. En guise de préliminaire et dans un cadre vectoriel, on a présenté
les approches standards pour l’estimation de l’espérance, comme les méthodes de Monte-
Carlo ou les méthodes impliquant la quantification vectorielle. Par la suite, on a présenté
l’extension de la notion de quantification ainsi que les différents algorithmes pour la
construction des quantifieurs au cadre fonctionnel. On a défini deux nouvelles méthodes
pour construire de manière gloutonne des quantifieurs emboı̂tés. Ces deux méthodes s’ap-
puient sur une réduction de dimension ainsi que sur les deux notions suivantes :
— la notion de quantification vectorielle,
— le remplissage optimal de l’espace.
A travers deux exemples analytiques, on a mis en exergue la robustesse de ces deux
méthodes par rapport aux approches standards.
Outlines
L’objectif de ce chapitre est de proposer une méthodologie pour tenir compte des incertitudes fonc-
tionnelles dans la résolution des problèmes d’inversion. Cette méthode est une combinaison des outils
présentés dans les chapitres 2 et 1.
Les résultats de ce chapitre ont donné lieu à un article soumis pour publication
[El Amri et al., 2018]. L’objectif de ce chapitre est d’apporter une réponse à la problématique
soulevée en introduction portant sur la résolution d’un problème d’inversion en présence d’in-
certitudes fonctionnelles. Ce chapitre étant un article complet, certains résultats sont similaires
au chapitre 2.
Dans ce chapitre, nous proposons une nouvelle méthodologie pour traiter une entrée fonction-
nelle incertaine dans les problèmes d’inversion. Dans notre contexte, le code prend en entrée
deux types paramètres : les variables de contrôle déterministes et une variable aléatoire fonc-
tionnelle. On note que le code étudié est caractérisé par deux éléments : le premier est le coût
de calcul élevé des simulations, ce qui rend l’inversion en présence d’incertitudes coûteuse avec
les approches de la littérature. Le deuxième élément est que la densité de probabilité de l’entrée
fonctionnelle V n’est pas connue, seul un échantillon de réalisations est à notre disposition.
La méthode proposée implique deux tâches imbriquées. Une première tâche basée sur une
approche bayésienne vise à choisir judicieusement les nouveaux points de l’espace de contrôle
(cf. chapitre 1), où l’espérance sera évaluée, qui permettront d’estimer l’ensemble d’excursion
en le minimum d’itérations. La deuxième tâche vise à estimer efficacement l’espérance par rap-
port à la variable aléatoire fonctionnelle en chaque point de l’étape précédente (cf. chapitre
2). Notre méthode est illustrée et calibrée sur un exemple analytique. Il est ensuite appliqué
au cas SCR où l’objectif est d’identifier l’ensemble des paramètres de contrôle conduisant à
respecter les normes d’émissions de polluants.
Contents
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 Functional data reduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.1 Context . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.2 The Karhunen-Loève expansion . . . . . . . . . . . . . . . . . . . . 43
3.2.3 Greedy Functional Quantization . . . . . . . . . . . . . . . . . . . 43
3.3 Numerical integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.4 Background on SUR strategies . . . . . . . . . . . . . . . . . . . . . . . . . 51
3.4.1 Random closed set and bayesian framework . . . . . . . . . . . . . 52
39
3.4.2 Vorob’ev approach . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4.3 SUR strategies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.4.4 SUR strategy adapted to noisy observations . . . . . . . . . . . . . 54
3.5 Algorithm coupling SUR and functional quantization . . . . . . . . . . . . 54
3.6 Numerical tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.6.1 Analytical example . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.6.2 IFPEN test case . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.7 Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.8 Complément de l’article : un nouvel exemple . . . . . . . . . . . . . . . . . 65
3.1 Introduction
In recent years, computer models are omnipresent in engineering and sciences, because the
corresponding physical experimentation is costly or impossible to execute. Indeed, numerical
simulations are often used to replace physical experiment which can be costly or even impos-
sible to perform as underlined in [Bect et al., 2012, Chevalier et al., 2014a]. Practitioners are
not only interested in the response of their model for a given set of inputs (forward problem)
but also in recovering the set of input values leading to a prescribed value or range for the
output of interest. The problem of estimating such a set is called hereafter inversion problem.
We will consider a system that evolves in an uncertain environment, the uncertainties appear
for example due to manufacturing tolerances or environmental conditions. The numerical si-
mulator modelling the system, denoted f , takes two types of input variables : a set of control
variables x ∈ X, and a set of uncertain variables v ∈ V. Given any distributional assumptions
for the uncertain variable v, robust inversion consists in seeking the set of control variables
x ∈ X such that supv∈V f (x, v) is smaller than a threshold c. Then, the difficulty of solving
the robust inversion problem strongly depends on the uncertainty set V. In our setting, V
is a functional space, and we consider instead the inversion problem under uncertainty as a
stochastic inversion problem, assuming that the uncertainty has a probabilistic description.
Let V denote the associated random variable, valued in V, modelling the uncertainty. In our
framework, we are interested in recovering the set Γ∗ := {x ∈ X , g(x) = EV [f (x, V)] ≤ c},
with c ∈ R, and the functional random variable V is only known from a set of realizations and
the expectation has to be estimated. Moreover, the simulations are time consuming and thus
the usual Monte Carlo method to estimate the expectation ought to be avoided. Many reviews
have been published to address this issue. Among the numerous techniques, the paper will
focus on the ones based on the choice of a finite representative set of realizations of V, among
the ones available. More precisely these approaches aim at minimizing the expected distance
between a random draw from the probability distribution of V and this finite set. In the case
of vector-valued random variables, this type of methods, also known as principal points and
introduced in [Flury, 1990], was employed in various statistical applications, including quan-
tizer design [Pagès, 2014] and stratified sampling. It is increasingly used for many engineering
applications, where we are often faced with the challenge of working with big data. It is then
necessary to reduce big data to manageable data. In the case of functional random random
variables, various studies have been done in the Gaussian case (see [Pagès and Printems, 2005]
and references therein). Here we work in the special case where the functional variable V could
be non Gaussian and the latter is known through a finite sample of realizations. This paper
propose two new methodologies to perform this data reduction, or quantization, for functional
random variable and we investigate their performance in terms of integration errors.
Inversion problems have already been carried out in many applications, notably reliabi-
lity engineering (see, e.g., [Bect et al., 2012], [Chevalier et al., 2014a]), climatology (see, e.g.,
[Bolin and Lindgren, 2015], [French et al., 2013]) and many other fields. In the literature, one
way to solve the problem is to adopt a sequential sampling strategy based on Gaussian pro-
cess emulators. The underlying idea is that Gaussian process emulators, which capture prior
knowledge about the regularity of the unknown function g : x 7→ EV [f (x, V)], make it pos-
sible to assess the uncertainty about Γ∗ given a set of evaluations of g. More specifically,
these sequential strategies for the estimation of an excursion set are closely related to the field
of Bayesian global optimization (see, e.g., [Chevalier and Ginsbourger, 2013]). In the case
of inversion problems, Stepwise Uncertainty Reduction (SUR) strategies based on set mea-
sures were introduced in [Vazquez and Bect, 2009]. More recently, a parallel implementation
of these strategies has been proposed in [Chevalier et al., 2014a] and applied to the problem
of recovery of an excursion set. Briefly, the strategy SUR gives sequentially the next location
in the control space where to estimate the function g in order to minimize an uncertainty
function. The key contribution of the present paper is to propose a data-driven adaptation of
that procedure in the presence of functional uncertainties.
The paper is divided into five sections. Following this introduction, Section 3.2 is devoted to
the introduction of two new adaptive methods to choose the finite representative set of the
functional random variable for a reliable expectation estimation. In Section 3.3 , We highlight
the integration performance of our methods comparing to the standard Monte Carlo and to an
existing method based on a probabilistic modelling with truncated principal component ana-
lysis (PCA). In Section 3.4 , we introduce the Bayesian framework and fundamental notions
for Stepwise Uncertainty Reduction (SUR) infill strategies in the context of computationally
costly simulations. In Section 3.5 , we introduce the new proposed data-driven methodology
for stochastic inversion under functional uncertainties and describe our algorithm. Finally, in
Section 3.6 , we illustrate the overall procedure on an analytical example and then apply it
to an industrial test case.
3.2.1 Context
We consider the space H = L2 (Ω, F, P; V) of random processes V with realizations
V(, ω) = v in the space of deterministic square-integrable functions defined on [0, T ] denoted
with V = L2 ([0, T ]) and equipped with norm ||v|| = ( 0T v(t)2 dt)1/2 . The random variables
R
V(t, .) = η lie in L2 (Ω, P), the space of random variablesR with finite mean and variance,
defined on (Ω, F, P) and equipped with norm ||η||L2 (Ω,P) = ( Ω η 2 dP)1/2 . All random processes
discussed in this paper lie in H which is equipped with norm
1/2
hZ T i1/2
2 2
||V||L2 = E[||V|| ] = E V(t) dt , (3.1)
0
for any V ∈ H. The vast majority of realistic engineering problems can be addressed wi-
thin this set of assumptions. Without loss of generality, we will consider a centred stochastic
process with finite variance. We aim at summarizing the distribution of V through a finite col-
lection of deterministic functions {vj }lj=1 and corresponding weights {wj }lj=1 . Many reviews
have been done on functional quantization [Pagès and Printems, 2005, Luschgy et al., 2010,
Pages and Printems, 2009]. For instance, Luschgy, Pagès and Wilbertz [Luschgy et al., 2010]
propose different strategies for Gaussian processes.
An optimal quantization of V consists in finding the subset A ⊂ V with card(A) ≤ l that
minimizes
h i 1/2
min ||V − a|| = E min ||V − a||2 . (3.2)
a∈A L2 a∈A
Such a set is called an optimal l-quantizer. Lets us denote it as A = {a1 , ...al }. We define a
neighbour projection associated to A as :
l
X
πA := ai 1Cai (A) , (3.3)
i=1
where ∀i ∈ {1, ..., l} Cai (A) is the Voronoi partition induced by A and associated with ai :
Voronoi partition is optimal in the sense that, for any random variable Vl0 : Ω → A, one
has E||V − V0 l ||2 ≥ E||V − V̂l ||2 (see, [Pages and Printems, 2009]). Finally the l-quantization
error of V is defined by
1/2
el (V) = inf{ E||V − V̂l ||2 , V̂l : Ω → V, card(V̂l (Ω)) ≤ l}. (3.6)
From a computational point of view, the cost of minimizing the error defined in Eq. (3.6) is
not negligible. Even in the finite-dimensional space Rm , the numerical search of an optimal
solution leads to an increasing computational cost when l or m grows (see [Levrard, 2014]).
Luschgy, Pagès propose in [Luschgy and Pagès, 2015] a greedy version of the L2 -quantization
problem for U an Rm valued random vector. The greedy-quantization is easier to compute
in terms of complexity but provides a possible sub-optimal quantizer {û1 , ..., ûl }. The au-
thors in [Luschgy and Pagès, 2015] prove that the L2 -quantization error at level l induced by
{û1 , ..., ûl } goes to 0 at rate l−1/m . The idea of such a procedure is to determine sequentially
the sequence (ûl )l≥1 . The first vector û1 achieves the error e1 (U). Then, for l ≥ 2,
1/2
∀l ≥ 2, ûl ∈ arg minm E||U − Ûl ||2 , (3.7)
u∈R
where Ûl is the l-quantization induced by {û1 , ..., ûl−1 } ∪ {u}.
In the present work, we propose a sequential strategy in an infinite-dimensional setting under
the assumption that the random process V may not be Gaussian. In this framework, Miranda
and Bocchini [Miranda and Bocchini, 2013, Miranda and Bocchini, 2015] propose a one-shot
algorithm that produces an optimal functional quantizer but which depends on a simulation
procedure for V. In the following, we propose a greedy algorithm to compute a l-quantization
of V. In our framework, the functional random variable is only known through a finite set
of realizations. The specificity of our procedure is first that it does not require a simulation
algorithm of the unknown process V (which is known only from a finite set of realizations),
and secondly our quantizer can be sequentially increased in a greedy fashion. One ingredient in
our methodology is the PCA decomposition of V (also known as Karhunen-Loève expansion).
Let us briefly recall the Karhunen-Loève expansion which is the most commonly employed
method to reduce the statistical complexity of random fields indexed over bounded intervals,
with continuous covariance function.
where {ψi }∞
i=1 are orthogonal and normalized eigenfunctions of the integral operator corres-
ponding to C : Z T
λi ψi (t) = C(t, s)ψi (s)ds. (3.9)
0
The {ui }∞
i=1 denotes a set of orthogonal random variables with zero mean and variance λi ,
where λi is the eigenvalue corresponding to the eigenfunction ψi . Equation (3.8) can be trun-
cated after m-terms : m KL
X
V(t) ' ui ψi (t). (3.10)
i=1
Computational method for functional PCA The covariance structure of the process
is unknown and has to be estimated from the data. More precisely, C(s, t) is estimated from
Ξ = {vi }N
i=1 by :
N
1 X
C N (t, s) = vi (s)vi (t). (3.11)
N i=1
The eigenvalue problem defined by Eq. (3.9) is then solved by replacing C by C N (see,
e.g., [Cardot et al., 1999] for convergence results). That approximated eigenvalue problem is
solved, e.g., by discretizing the trajectories {vi }i=1,...,N on [0, T ] : {vi (tj )}j=1,...,N T
i=1,...,N (see, e.g.,
[Ramsay, 2006] for a detailed overview on the subject).
points of D is close to a uniform distribution. See Pronzato et al. [Pronzato and Müller, 2012]
for a detailed overview on the subject. In the following, we consider the maximin-distance cri-
terion to construct our design, and since we want to select points from the set of coefficients
G, the design D̃ can be obtained by finding the design of l points among N , that maximizes
the criterion φM m .
In order to make a comparison, we start the Maximin-GFQ method Eq. (3.15) with the same
point as the L2 -GFQ method Eq. (3.13), i.e., ũ1 = û1 . Figure 3.3 shows the results up to
step l = 10 of both procedures. One can observe that the greedy maximin method covers
well the range of variation of V contrary to the L2 -GFQ method, which provides a well
distributed points only on the first component. The L2 -GFQ seems to be more influenced by
the higher order KL expansion. In the following, in order to improve the readability, we adopt
the simplified notation Θl that refers to one of the two constructions Θ00l and Θ0l . In this way
Figure 3.3: Left : Two designs of l = 10 points in the 2D-coefficients set G. Maximin-GFQ
(red circle points) and greedy L2 -GFQ (blue square points). Right : The corresponding red
curves for the Maximin-GFQ procedure (right).
and in the same spirit as before (see equations (3.3),(3.5)), we define the Θl -quantization of
the stochastic process V as
l
X
V̂l = θ i 1Cθi (V), (3.16)
i=1
In this section, we have introduced two data-driven greedy original procedures for func-
tional quantization, quantization being an alternative to Monte Carlo methods for numerical
integration. In the next section we highlight the performance of these procedures through two
analytical examples.
Remark. Under regularity assumptions, the integration error can be bounded by the
quantization error. E.g., if h is Lipschitz in the sense that ∀v, v0 ∈ V, |h(v)−h(v0 )| ≤ [h]lip ||v−
v0 ||, then
E[h(V)] − E[h(V̂l )] ≤ E|h(V) − h(V̂l )|
Returning to our original notation E[f (x, V)], the proposed methodologies to efficiently
estimate the expectation over a functional random variable are summarized in Algorithms 3
and 4.
Algorithm 3 maximin-GFQ : Numerical integration
1: Inputs : initial sample (Ξ), truncation argument (mKL ), x value where the expectation
will be evaluated and set size of the quantization (l).
2: G ← truncation of the KL expansion after mKL -terms.
3: Construct the set of representative points D̃l defined by Eq. (3.14).
4: Induce from D̃l the corresponding set of representative curves Θ00l Eq. (3.15).
5: Define V̂l ← Θ00l -quantization of V Eq. (3.16).
6: Perform the computation of the expectation E[f (x, V̂l )] Eq. (3.17) :
E[f (x, V)] ≈ E[f (x, V̂l )] = li=1 f (x, θ 00i )P(V̂l = θ 00i ).
P
7:
In the sequel, we compare these two algorithms to the standard Monte Carlo, whose steps
are outlined in Algorithm 5. The estimation of the expectation is sequentially calculated in
the same vein as the GFQ procedures.
We consider two analytical examples to highlight the integration performance of the two
Greedy Functional Quantization methods (GFQ) in comparison with crude Monte Carlo. The
first example is defined as an additive Lipschitz function, i.e., sum of the 2D Bohachevsky
function and uncertainties. The second example does not check the Lipschitz assumptions to
mimic real applications.
where x = (x1 , x2 ) = (50, −80) and V is a standard Brownian motion on R and [0, T ] = [0, 1].
We suppose that a sample Ξ of N = 200 realizations of V is available and that the probability
distribution of V is unknown. In this example, we fix the truncation argument at 2 which
leads to the explanation of 90% of the variance. Because of the random choice of the starting
curve, the maximin-GFQ methods have a stochastic behaviour like the Monte Carlo method.
To account for these variabilities in the test, the performance of the method is averaged over
200 independent runs.
Figure 3.4: Application 1. Sequential expectation estimation. Lines denote the average es-
timates, and coloured bands mark the 25-th and 75-th quantiles (Monte Carlo (in green)
and maximin-GFQ (in red)). Horizontal axis denotes the number of curves l used for the
expectation estimation.
The results are shown in Figure 3.4. We observe that for any choice of l, the integration
error induced by any of both GFQ methods is significantly smaller than the standard Monte
Carlo. One can note that the maximin-GFQ method is less sensitive to the starting point
from set size l ≥ 25. We also remark that for a small size l ≤ 5, the maximin-GFQ method
is not yet stable implying more uncertainties in the estimation. From l ≥ 10 (see Fig. 3.3),
stability is reached since different kind of curves (centered and extreme) have been selected.
where x = (x1 , x2 ) = (2.95, 3.97) and V is a standard Brownian motion on R and [0, T ] = [0, 1].
To mimic real applications, we assume in the procedure that the probability distribution of V
is unknown. We suppose that a sample Ξ of N = 200 realizations of V is available. We note
that the two GFQ methods depend on the truncation argument mKL . In this example, we fix
it at 2 to explain 90% of the variance (results are similar for other truncation argument and
x values, and are omitted for brevity).
First, we compare two GFQ methods by fixing the starting point for maximin-GFQ at the
first curve obtained by L2 -GFQ. One can see from Figure 3.5 that the obtained results are
quite similar. For a small set size, the L2 -GFQ method leads to a smaller estimation error, this
is due to the fact that the maximin-GFQ algorithm selects the points at the corners (explo-
ration phase) as shown in Figure 3.3 which leads to a slower decrease of the error in the first
steps. Due to the stochastic nature of the Monte Carlo and the maximin-GFQ methods, the
performance of the method is averaged over 30 independent runs. The results of the integra-
tion algorithms are shown in Figure 3.6. The lines indicate average estimate and the coloured
bands mark the area between the 25-th and 75-th quantiles. Here two observations can be
made. First, for any choice of l, the integration error induced by any of both GFQ methods
is significantly smaller than the standard Monte Carlo. Secondly, for maximin-GFQ method,
the variability induced by the choice of the starting point is weak from set size l ≥ 20.
Figure 3.5: Application 2. Sequential expectation estimation by maximin-GFQ and L2 -GFQ
methods.
Figure 3.6: Application 2. Sequential expectation estimation. Lines denote the average es-
timates, and coloured bands mark the 25-th and 75-th quantiles (Monte Carlo (in green)
and maximin-GFQ (in red)). Horizontal axis denotes the number of curves l used for the
expectation estimation.
Note that our procedure is based on a dimension reduction. However, once the space filling
Figure 3.7: Application 2. Sequential expectation estimation. Lines denote the average esti-
mates, and coloured bands mark the 25-th and 75-th quantiles (Fpca (in blue) and maximin-
GFQ (in red)). Horizontal axis denotes the number of curves l used for the expectation
estimation.
design has been built in RmKL , we go back to the infinite-dimensional space V by selecting
the corresponding curves. We expect from such a procedure to be robust to the dimension
reduction. To illustrate this intuition, we compare the maximin-GFQ algorithm to an existing
method, called hereafter Fpca method. This latter consists in sampling independently the
KL random variables U ∈ RmKL whose probability distribution is estimated beforehand and
denoted PU (see, e.g., [Nanty et al., 2016] for a detailed overview on the subject). Then we
obtain the desired curves using the linear combination of Equation (3.10). The steps of the
Fpca method are summarized in Algorithm 6. The results of the comparison are shown in Fi-
gure 3.7. We note that the Fpca method leads to a biased estimation due to the regularization
induced by reducing the dimension.
In summary, these simulations show that the two GFQ methods benefit improved per-
formances over Monte Carlo in numerical accuracy. Regarding computation time, Figure 3.8
shows the time needed to compute the whole Greedy Functional Quantization as a function
of point set size l. The KL expansion is done in a prior unaccounted step. These algorithms
are implemented in the software R and all computations are performed on a 8-core Intel 2.80
Ghz processor. From this figure, the running time of the maximin-GFQ method grows much
more slowly than the L2 -GFQ one. Indeed, the discrete optimization in the L2 -GFQ method
(Eq.(3.12)) involves an empirical estimation of the expectation at each step, thus the algo-
rithm has complexity O(N 2 × l × mKL ). The latter becomes time consuming as l increases
comparing to the maximin-GFQ algorithm which has complexity O(N × l × mKL ).
Figure 3.8: Application 2. Computation time (in seconds) of the two GFQ methods as a
function of point set size (l).
While the function f depends on two separate types of inputs (control and uncertain va-
riables), our objective function g depends only on the control variables, i.e., for each setting
of control variables, the objective function is the mean of f over the unknown distribution of
the uncertain variable.
The estimation of Γ∗ by evaluating the function g at each grid point of the discretized version
of X requires far too many evaluations of g. Therefore, statistical methods based on a reduced
number of evaluation points are widely used to overcome this latter difficulty by focusing the
evaluations on the ’promising’ subregion of the control space.
These methods usually begin by an exploration phase, during which the output of the code is
computed on an experimental design of size n. This initial design is then sequentially expan-
ded by adding new goal oriented points. These sequential strategies have been used in recent
years for many purposes, such as the failure probability estimation ([Bect et al., 2012]) and
target regions ([Picheny et al., 2010]) whose main idea is to decrease the variance kriging at
the points where the kriging mean is close to the threshold c. Unlike the two cited methods, we
are interested in the whole excursion set. In ([Chevalier et al., 2013],[Chevalier et al., 2014b])
the sampling criterion is based on concept of random closed sets and applied to identify the
set Γ∗ . In this work we adopt this strategy and the procedure is introduced below.
In the following, we use the Vorob’ev expectation and deviation to quantify the variability
of Γ conditionally to available observations. Let us denote the initial design points as Xn =
(x1 , x2 , ..., xn ) ∈ Xn and the responses at these points as gXn = (g(x1 ), g(x2 ), ..., g(xn )) ∈ Rn .
We note
YXn = (Yx1 , Yx2 , ..., Yxn ) the random vector associated to the random process Y considered
at Xn . The main object of interest is then the conditional probability distribution of the
random closed set Γ given the n observations. We know that the posterior distribution of
the process Y given the n available observations remains Gaussian and is characterized by
the posterior mean mn (x) = E[Yx | YXn = gXn ], x ∈ X, and the posterior covariance kernel,
kn (x, x0 ) := Cov(Yx , Yx0 | YXn = gXn ). The latter are given by the following equations :
mn (x) = m(x) + kn (x)> K−1
n (gXn − m(Xn )),
(3.25)
s2n (x) = kn (x, x) = k(x, x) − kn (x)> K−1
n kn (x),
Remark. In our context, we estimate the expectation empirically by l calls to the function
f . The well-known Monte Carlo methods (Crude MC, FPCA) allow us to quantify the noise
of estimation and to integrate it into GP modelling (kriging with noisy observations). Conse-
quently, we define the variance components {τi2 }ni=1 as τi2 = var(f (xi , V̄l )) for the crude MC
method and var(f (xi , Vlpca )) for the FPCA method. We also note that the two deterministic
GFQ methods are in the same spirit than the Quasi-MC methods. The error of estimation de-
pends on the variation of f that is most often not tractable. Therefore we assume a negligible
integration error and thus the observations are assumed noise-free.
where m̂i (xn+1 ) = E[f (xn+1 , V̂i )], we denote by |.| the absolute value function. In the follo-
wing, the stopping criterion is defined by the following relation,
It ensures that the quantities el are smaller than a prescribed tolerance on the l0 previous
steps in the estimation. These two parameters are set by practitioners. It allows to use fewer
curves without loosing estimation accuracy.
Remark. The parameters (l0 , ) are closely linked to the allocated budget. Moreover the
parameter l0 can be set in practice between [2, 5] regarding the stability we want to achieve
with the method. About the parameter , it will be intuitively calibrated depending both on
the precision and on the scale of the outputs.
The strategy SUR could be stopped if the allocated number of simulations is reached. However,
we define in this work an additional stopping criterion based on the Vorob’ev deviation and
close to the one defined for the expectation estimate. Thus, the strategy is carried out until
the following stopping criterion is verified
∀ 0 ≤ j ≤ l0SUR , eSUR
l−j (xn+1 ) ≤
SUR
(3.31)
where eSUR
i = | Ei−1 [µ(Γ4Qi−1,α∗i−1 )] − Ei [µ(Γ4Qi,α∗i )] | is the absolute error between two
successive Vorob’ev deviations. The condition Eq. (3.31) tests if all the quantities are smaller
than a tolerance SUR on l0SUR consecutive steps.
The global methodology to perform inversion in presence of functional uncertainty proposed
in this paper is summarized in Algorithm 8.
Remark on stage 2 of Algorithm 8 Due to their sampling based nature, the Crude MC
and Fpca methods are sensitive to the resulting estimation errors. Consequently, we consider
the adaptation of the SUR strategy for noisy observations (see, Subsection 3.4.4).
where the control variable x lies in X = [1.5, 5] × [3.5, 5], and V is a standard Brownian
motion. We suppose that a sample of N realizations of V is available, denoted by Ξ, and
these realizations are discretized uniformly on 100 points. The objective is to construct the
set Γ∗ := {x ∈ X , g(x) = EV [f (x, V)] ≤ c}, where c = 1.2.
Here we consider a Gaussian process prior (Yx )x∈X ∼ GP (m, k), with constant mean function
and Matérn covariance kernel with ν = 5/2. The initial DoE consists of a 9 points LHS
design optimized by maximin criterion. The hyper-parameters of the Gaussian process Y are
estimated by Maximum Likelihood Estimation (MLE). Figure 3.9 shows the initial design of
experiments and the target set Γ∗ obtained from a 30 × 30 grid experiment, where at each
grid point the expectation is approximated by a Monte Carlo Method over 5000 realizations
of V. We aim at estimating the set Γ∗ using the SUR strategy to choose the next evaluation
point as defined in Section 3.4 , and the methods presented in Section 3.2 to provide an
efficient estimation of the expectation. We proceed to add one point at each iteration of the
Figure 3.9: Analytical example. Contour plot of the function g, the set of interest (green)
with boundary (red line), the initial design of experiments (black triangles).
SUR strategy until the condition Eq. (3.31) for (l0SUR , SUR ) = (4, 5.10−3 ) is reached. The
covariance parameters are re-estimated at each step by MLE. Since this criterion is based
on the Vorob’ev deviation, the objective is to reduce the uncertainty on the set estimate
until stability. For the sequential estimation of the expectation, we test the sensitivity to the
parameters (l0 , ) of criterion Eq. (3.30) (see Table 3.1).
The estimation of the expectation at the proposed point by SUR is carried out with one of the
methods detailed in Section 3.2 (Fpca, crude MC, maximin-GFQ, L2 -GFQ). As presented
in Section 3.5 , the estimation is done sequentially and it depends on the stopping criteria
parameters l0 , and on the truncation argument mKL . This latter is set at mKL = 7 in order
to explain 97% of the variance. The four expectation estimation methods are sequential as
detailed in Section 3.2 . Indeed, the two GFQ methods are sequential by definition. The crude
MC method is sequential because at each step a curve is drawn with replacement from the
available sample Ξ (see Algorithm 5). The same goes for the probabilistic approach (Fpca),
at each step we add a new curve built as explained in Algorithm 6.
The first test consists in fixing the available sample of realizations of V (N=200). For this fixed
sample, we compare the obtained results for different l0 and . Table 3.1 lists the parameters
tested in this section.
l0 4 2 3 4
10 5.10 5.10 5.10−3
−2 −3 −3
Table 3.1: Analytical example. Stopping criteria parameters used in the estimation of expec-
tation.
To compare the performance of the various methods we use the ratio between the volume
of the symmetric difference between the true set Γ∗ and the estimated set at last iteration,
µ(Γ∗ 4Qnlast ,α∗nlast ) and the volume of the true set, µ(Γ∗ ). As shown earlier in Figure 3.6,
the maximin-GFQ method is not very sensitive to the starting point. Thus, in the following
test, we consider the deterministic version of the maximin-GFQ method by fixing the starting
point to the one of L2 -GFQ method.
Figure 3.10: Analytical example. The relative error obtained by the two GFQ methods for
different values of l0 and as a function of the number of calls to the function f .
Table 3.2: Analytical example. (Left) The relative error obtained by the two GFQ methods
for different values of l0 and . (Right) The cumulative number of calls to the function f (in
brackets are the number of iterations required to reach the stopping criterion in the SUR
strategy).
From the comparison results displayed in Table 3.2 and plotted on Figure 3.10, we note
that the two GFQ methods are sensitive to the parameters l0 and . The L2 -GFQ method
performs well in set estimation error terms, the maximin-GFQ provides better results in terms
of cost. In the following comparison tests, we consider only the L2 -GFQ method as it gives
much better set estimation error for a reasonable number of calls to the function f .
Regarding the second test, the two expectation estimation methods (Crude MC and Fpca)
have a stochastic behaviour because of the sampling steps. To account for these variabili-
ties, the performance of each method is averaged over 30 independent runs. The results are
summarized in Tables 3.4 and 3.3. The results indicate that the three methods are sensitive
to the parameters l0 and : larger is the parameter l0 , i.e., when seeking to a stability of
the estimation, smaller is the error but higher is the number of calls to the function f . The
L2 -GFQ method performs well in terms of error and cost. The cumulative number of calls to
f has been decreased by a factor greater than 3 in comparison with the two other methods.
Table 3.3: Analytical example. The average relative error obtained by the crude MC, Fpca
for different values of l0 and (in brackets are the standard deviation for the crude MC and
Fpca methods).
Table 3.4: Analytical example. The average cumulative number of calls to the function f
(written in brackets are the number of iterations required to reach the stopping criterion in
the SUR strategy).
Figure 3.11 shows the set estimation error and the Vorob’ev deviation as a function of
the iteration number for the three methods and (l0 , ) = (4,5.e-3). For the crude MC and
Fpca methods, the dotted lines indicate average error decay, and the coloured bands mark
the area between the 25-th and 75-th error quantiles. Note that the three methods show a
strong decrease in the set estimation error. The main observation that can be made is that,
for a small total call to f (see, Table 3.4), the convergence rate for the proposed approach
(L2 -GFQ) is better in comparison to the Crude MC and Fpca methods.
Figure 3.11: Analytical example. Results for (l0 , ) = (4, 5.e−3 ). Lines denote the average, and
coloured bands mark the 25-th and 75-th quantiles (Fpca (in red) and Crude MC (in green)).
Top : The Vorob’ev deviation. Bottom : The set estimation error µ(Γ∗ 4Qnlast ,α∗nlast )/µ(Γ∗ ).
In the following, the stopping criteria for SUR (l0SUR = 4, SUR = 5.10−3 ) and for the
expectation estimation (l0 = 4, = 5.10−3 ) are chosen because they offer a good compromise
between the accuracy and the number of model evaluations.
Table 3.5 compares the sensitivity of the methods to the size of the available sample Ξ, denoted
by N. In each cell of the table, we perform 20 × 20 independent runs. Indeed, for each value
of N, we generate 20 training samples Ξ of size N and for each sample we perform 20 runs for
each method. The table summarizes the results averaged over the 400 runs.
Table 3.5: Analytical example. (Top) The average set estimation error obtained for different
sample size and methods and mKL = 7 (in brackets are the standard deviation). (Bottom)
The average cumulative number of calls to the function f (in brackets are the number of
iterations required to reach the stopping criterion in the SUR strategy).
We note that for a larger sample size, the recovering error is smaller. This can be explained
by the fact that with a large sample size, the available information on variable V enables an
effective estimation of the expectation.
We know that the L2 -GFQ and the probabilistic modelling (Fpca) depend on the truncation
argument. To better understand the effect of the number of dimensions m, we fix the stopping
criteria for the SUR strategy and expectation estimation, and we consider different values
of mKL = {2, 3, 4, 5, 6}. Each cell of Table 3.6 represents the result averaged over 14 × 20
independent runs. For each m, we generate 14 samples Ξ of size N=200, and for each of them
we perform 20 runs of each method.
Table 3.6: Analytical example. (Top) The average set estimation error obtained by the Fpca
and the L2 -GFQ methods for different values of m (in brackets are the standard deviation).
(Bottom) The average cumulative number of calls to the function f (in brackets are the
number of iterations required to reach the stopping criterion in the SUR strategy).
Table 3.6 shows that for all values of m, the L2 -GFQ method outperforms the probabilistic
Fpca modelling. As shown in Table 3.7, for high truncation argument, the explained variance
increases, that explains the decrease of the estimation error for the probabilistic modelling
(Fpca). In the other hand, the L2 -GFQ accuracy seems to be quite constant for mKL ≥ 3.
This can be explained by the fact that the KL expansion is only used to define a space filling
design, and the information lost by the truncation is recovered by tacking the corresponding
curve in the set Ξ. On the contrary, the probabilistic modelling which is based on Fpca gives
better results when m is higher. Figures 3.12 and 3.13 show the initial and the final results
obtained by the two methods for mKL = 2. However the errors in Table 3.6 seem to be
bounded below. To go below that bound, we probably need to increase the size of Ξ.
mKL 2 3 4 5 6
Explained variance 90.2 % 93.4 % 95.1 % 96 % 96.7%
In short, the ammonia emissions peak during a driving cycle is modelled as a function,
f : X×V → R
slip
(x, V) 7→ f (x, V) = max NH3 (t, x, V)
t∈I
We are interested in recovering the set Γ∗ = {x ∈ X , g(x) = EV [f (x, V)] ≤ c}, with c =
30ppm. Conducting this study on a full grid would consist in covering the space [0, 0.6]2 with
a fine mesh and evaluating the code 100 times at each point. Knowing that each simulation
takes about two minutes, such study would require many computational hours, and thus the
use of meta-models allows to tackle this computational issue.
Here we consider a Gaussian process prior (Yx )x∈X ∼ GP (m, k), with constant mean function
and Matérn covariance kernel with ν = 5/2. The initial DoE consists of a 8 points LHS design
optimized with respect to the maximin criterion. The covariance kernel hyper-parameters are
estimated by maximizing the likelihood.
As for the analytical example, we proceed to add one point at each iteration for the SUR
strategy until the stopping criterion with (l0SUR , SUR ) = (4, 5.10−3 ) is verified. Concerning
the expectation estimation, we set the stopping criterion parameters at (l0 , ) = (4, 10−2 ) and
the truncation argument is set at mKL = 20 in order to explain 80% of the variance. The
algorithm was stopped at the 62-point design because the Vorob’ev deviation appears to have
stabilized, in other words, the absolute error between the Vorob’ev deviations of the points 58-
62 are smaller than 0.005, as shown in Figure 3.15. We note that for each additional point, the
new observed response affects the estimation of the excursion set and its uncertainty. Thus,
although the Vorob’ev deviation generally decreases, it is not a monotonic decreasing. The
stopping criterion is constructed to check the stability of convergence by taking into account
the last four iterations. In searching for the true set, the SUR algorithm heavily visits the
boundary region of Γ∗ and allows itself to explore also potentially interesting regions (cf.
Fig. 3.16). In each added point, Figure 3.16 shows the number of necessary driving cycles to
estimate the expectation. We remark that instead of taking the whole sample (100 driving
cycles), it was sufficient to sequentially and wisely choose a reduced and representative number
of driving cycles below 35. In the present case, the excursion domain Γ∗ is well recovered by
the algorithm. Actually, after 62 iterations (1575 evaluations) the whole domain X has an
excursion probability close to either 0 or 1.
Figure 3.15: Automotive test case. Top : Decrease of the Vorob’ev deviation at each iteration
when new points are added. Bottom : Evolution of the absolute error Eq. (3.31) and the red
line represents the stopping criterion.
Figure 3.16: Automotive test case. Top : Coverage probability function (grey scale), estimate
set (green) after 62 added points and 1575 function evaluations, initial DoE (black triangles),
the sequentially added points (red circles). Bottom : number of driving cycles used to estimate
expectation at each added point.
3.7 Conclusions
In this paper, a new method of inversion under uncertainty was proposed for problems
where some of the input parameters are functional random variables with unknown proba-
bility distribution (only a sample is available). The objective is to recover the set of control
variables leading to robustly ensure some constraints by taking into account the uncertainties.
The method is composed of two steps : a sequential strategy to estimate the excursion set, and
the modelling of functional uncertainties. To solve the first issue a kriging model in the control
input space is built. It makes possible to assess the uncertainty on the set of interest given a
sample of evaluations. Then a sequential strategy (SUR) proposed by [Chevalier et al., 2013]
and based on the kriging model is used to sequentially and efficiently choose new evalua-
tion points to improve the excursion set estimation. For the second issue, we consider the
expectation to model uncertainties and we propose two sequential approaches to estimate the
expectation at each point proposed by SUR. Each curve is represented by its coefficients in
a truncated KL decomposition. The chosen points in the KL coefficients finite set, each one
corresponding to a curve, are sequentially added and chosen either to approximate a maximin
space filling design or to reduce the quantization error. This methodology leads to an efficient
estimation of the expectation, as illustrated on the application on an analytical test case with
two control inputs and a functional random one. The results illustrate significant enhancement
in term of precision and number of calls to the simulator in comparison with the Monte Carlo
based methods. We also applied this method to the automotive test case which motivated this
research work. The obtained result agrees with the intuitions made from physics behind the
simulator.
The paper focuses on the mean of f (x, V) and here we choose to construct a GP model
for the unobservable integrated response g. In the optimization context and for discrete and
continuous random variables, existing works deal with the case of unobservable response
(see [Williams et al., 2000],[Janusevskis and Le Riche, 2013]). The authors propose to build
a GP model for the simulator f and induce a new GP model by integrating the one on f
over the distribution of the uncertain variables. The adaptation of these works in the context
of inversion and functional random variables is an on-going work and will be presented in
chapter 4. Other than the expectation other functionals of the output distribution may also
be of great importance. For example, practitioners may be interested in ensuring a certain
level of reliability, leading to consider a probabilistic constraint. The proposed method could
be adapted to that case by seeing the probability as an expectation, at least for moderate risk
levels.
où x est la variable de contrôle définie dans X = [1.5, 5]×[3.5, 5] et V un processus max-stable.
On suppose qu’on dispose d’un échantillon de 200 réalisations de V. L’objectif est d’identifier
l’ensemble d’excursion Γ∗ := {x ∈ X , g(x) = EV [f (x, V)] ≤ 0.9}.
On suppose que la fonction g est estimée sur un plan d’expériences de taille n = 9. On fait
une modélisation par processus gaussien tout en tenant compte des observations comme cela
a été décrit dans la section 1.1.3. On prend un noyau de covariance de type Matèrn 5/2 et
les paramètres de ce noyau sont estimés par maximum de vraisemblance. On fixe les critères
d’arrêt à (l0 , ) = (4, 10−2 ) pour l’estimation de l’espérance et à (l0SUR , SUR ) = (4, 5.10−3 )
pour la stratégie SUR.
mKL 2 4 8 10
Part de variance expliquée 62.2 % 67.2 % 74.1 % 76.9 %
On rappelle que la méthode L2 -GFQ est déterministe contrairement aux approches maximin-
GFQ et Fpca qui sont stochastiques par construction pour l’une et par nature pour l’autre.
Ainsi compte tenu de cette aléa, on répète 30 fois la résolution du problème.
Le tableau 3.9 résume les résultats obtenus par les 3 méthodes. En ce qui concerne la méthode
”Fpca”, on note qu’elle très sensible à l’argument de troncature puisque plus on l’augmente
plus on réduit l’erreur d’estimation. Mais cette réduction d’erreur se paie par une forte aug-
mentation du nombre d’appels à la fonction f . On remarque aussi que les deux algorithmes
gloutons sont beaucoup moins sensibles à l’argument de troncature tout en offrant des er-
reurs d’estimation très satisfaisantes et ce, à faible coût en évaluations de la fonction. On
note qu’il existe toutefois un compromis entre les deux algorithmes gloutons (la précision et
le coût en évaluations de la fonction). En effet avec moins d’appels à la fonction, la méthode
maximin-GFQ fournit une erreur un peu moins bonne que la méthode L2 -GFQ.
Table 3.9: L’erreur d’estimation ou sa moyenne (dans le cas des méthodes ”Fcpa” et maximin-
GFQ) obtenue par les 3 méthodes pour différentes valeurs de mKL (entre parenthèses, l’écart
type). La moyenne du nombre total d’appels à la fonction f (entre parenthèses, le nombre
d’itérations nécessaires pour atteindre le critère d’arrêt dans la stratégie SUR).
La figure 3.17 montre le résultat d’estimation pour la méthode L2 -GFQ et aussi un exemple
d’estimation pour les deux autres méthodes en fixant les critères d’arrêt à (l0 , ) = (4, 10−2 )
pour l’estimation de l’espérance et à (l0SUR , SUR ) = (4, 5.10−3 ) pour la stratégie SUR. Nous
concluons de cet exemple que l’étape consacrée à la récupération des courbes associées aux
coefficients dans l’espace réduit de la décomposition de Karhunen-Loève après une quantifica-
tion dans l’espace réduit, rend les deux algorithmes gloutons robustes par rapport à la taille
de l’espace réduit.
Outlines
In this chapter we propose a new method for solving an inversion problem under functional uncertainties
with expensive-to-evaluate functions. The simulation inputs are divided into two sets, the deterministic
control variables and a functional uncertain variable. Unlike modelling in the control space only, as
presented in the previous chapter, the methodology we propose in this chapter to tackle stochastic
inversion under functional uncertainty is based on Gaussian Process Emulation with respect to both
deterministic control variables and stochastic functional variable. The method is compared with greedy
functional quantization based approach (presented in Chapter 3) on two analytical test functions.
Contents
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2 Problem formulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.1 Finite dimensional subproblem . . . . . . . . . . . . . . . . . . . . 71
4.2.2 Gaussian process modelling . . . . . . . . . . . . . . . . . . . . . . 71
4.2.3 GP model of the unobservable response . . . . . . . . . . . . . . . 72
4.3 Infill strategy for stochastic inversion in presence of functional uncertainty 72
4.3.1 Minimization of the Vorob’ev deviation : choice of next x . . . . . 73
4.3.2 Minimization of the variance : choice of next u . . . . . . . . . . . 73
4.4 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.5 Numerical tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.1 Introduction
In the first part of this thesis we have introduced on the one hand, the concept of inversion
through surrogate modelling and, on the other hand an original greedy methodology for
expectation estimation over a functional random variable. In Chapter 3, the two items are
combined for an efficient stochastic inversion under functional uncertainty. In other words, we
proposed a method leading to identify the set Γ∗ = {x ∈ X , g(x) = EV [f (x, V)] ≤ c}, where
c ∈ R. This combined approach adopts an adaptive design of experiments based on surrogate
models to replace the unobservable response g and a sequential expectation estimation via
functional quantization.
69
In this chapter we introduce a new methodology to estimate the set Γ∗ with the aim of
further reducing the number of calls to the numerical simulator. The proposed methodology
is based on a surrogate model of the simulator f and an adaptive enrichment of the design of
experiment for the estimation of the set of interest Γ∗ .
In the context of robust optimization, there are various methods
(see [Janusevskis and Le Riche, 2013] or [Williams et al., 2000]) for minimizing with respect
to the deterministic variables the expected objective where the expectation is taken over a
vector-valued random variable. These methods are based on a kriging model built in the
joint space of deterministic and uncertain variables. Then an averaged Gaussian process over
the random variables is derived. This latter, ”projected” Gaussian process, approximates the
expected response. Finally an adaptive design of experiments is proposed for minimizing the
expected objective
In the same spirit, we propose an original method to deal with a stochastic inversion
problem. In this work a Gaussian process model is created to approximate the simulator f
that takes as inputs controlled variables and an uncertain functional variable. The samples
in the joint space of control and uncertain variables, x and v, are selected based on a two
steps process. First the ”projected” process which only depends upon x is considered and the
Vorob’ev deviation is minimized to determine the next evaluation point in the control space.
Second, in the uncertain space, the next point is chosen such that it minimizes the standard
error of the ”projected” process evaluated at the proposed point in the first step. Compared
to the method proposed in Chapter 3, this adaptive design of experiments defined in the joint
space will lead us to further reduce the number of calls to the numerical simulator.
The chapter is structured as follows. Firstly, in Section 4.2 , we recall the problem for-
mulation and we extend the concept of Gaussian process modelling to the case where the
inputs contain functional variable. In Section 4.3 , an infill strategy define the next couple
of (x, v) which is calculated by the simulator f . We describe the whole algorithm in Section
4.4 . Finally, in Section 4.5 , this method is compared to those proposed in Chapter 3 on two
analytical test cases.
f :X×V →R
denote the response of a numerical simulator. X ⊂ Rp is the search space of the control
variables and the stochasticity of the simulator is driven by a random variable defined in a
functional space V. We assume that the probability distribution of the functional input is
only known through a finite set of realizations Ξ = {v1 , . . . , vN } and each evaluation of f
involves a time consuming call to a deterministic simulator. In this study we are concerned
with estimating the set
where x ∈ X are the deterministic control variables, EV is the expectation with respect to
the functional uncertain variable V and c ∈ R is a threshold. Let’s denote the initial design
points as Xn = {x(1) , . . . , x(n) } and Vn = {v(1) , . . . , v(n) }, where ∀i ∈ {1, . . . , n}, v(i) ∈ Ξ. The
simulator responses at these design points are denoted by Z = {f (x(1) , v(1) ), . . . , f (x(n) , v(n) )}.
The estimation of Γ∗ by evaluating the function g at each grid point of the discretized
version of X requires far too many calls to the simulator f . The method proposed in Chapter
3 makes it possible to partially overcome this problem by using functional quantization tech-
niques in order to reduce the cost of the expectation estimation. In the following we propose
an alternative sampling strategy based on an adaptation of existing SUR strategies.
Among statistical models, the ones based on Gaussian processes have received increasing
interests in recent years, due to many of their desirable properties, such as explicit formulation
of the predictor and the associated uncertainty. However, in the literature the input variables
involved in Gaussian process models are mostly univariate or multivariate. The purpose of
this section is to extend the use of Gaussian process model to cases where the inputs contain
infinite dimensional variables or functional data which are collected as curves. In this Section,
we define an infill sampling criterion based on GP model in order to solve the stochastic
inversion problem (4.1).
where {ψi }m KL
i=1 are orthogonal and normalized eigenfunctions of the integral operator
corresponding to, C, the covariance function of V. The {ui }m mKL
i=1 = {< V, ψi >}i=1 denotes
KL
a set of orthogonal random variables with zero mean and variances λi , where λ1 ≥ λ2 ≥ · · · > 0
are the ordered non-zero eigenvalues of C.
In this finite space, the uncertainties will be characterized by the random vector U ∈ RmKL .
This latter point leads us to build a Gaussian process model in the joint space X × RmKL .
We assume that f (x, v) can be approximated by z(x, u) which is a realization of Z(x,u) , where
u = (< v, ψ1 >, . . . , < v, ψmKL >)> . Let Z(x,u)
n denote a GP conditioned on the n observations
n
Z(x,u) = [Z(x,u) |Z(Xn ,Un ) = Z], (4.3)
where dρ(u) is a probability measure on u. We note that Yxn is a linear combination of Gaussian
variables and therefore (Yxn )x∈X is still a Gaussian process fully characterized by its mean and
covariance functions which are given by
Z Z
E[Yxn ] = mZ (x, u)dρ(u)+ kZ (x, u; Xn , Un )kZ (Xn , Un ; Xn , Un )−1 (Z−mZ (Xn , Un ))dρ(u),
RmKL RmKL
(4.5)
Z Z
Cov(Yxn , Yxn0 ) = kZ (x, u; x0 , u0 )dρ(u)dρ(u0 )
m m
Z R KL Z R KL
− kZ (x, u; Xn , Un )kZ (Xn , Un ; Xn , Un )−1 kZ (Xn , Un ; x0 , u0 )dρ(u)dρ(u0 ).
RmKL RmKL
(4.6)
In the case where the uncertain variables U are Gaussian as well as the covariance kernel,
closed form solutions of the integrals in eq. (4.5) and eq. (4.6) are given in
[Janusevskis and Le Riche, 2013]. In our context, no additional assumptions are made about
the kernel or the distribution of the uncertain variables [no particular kernel or uncertain
variables are assumed]. Thus standard Monte Carlo simulations are needed to approximate
the equations in (4.5) and (4.6).
The proposed infill strategy consists in two steps. First we choose x(n+1) by minimizing the
Vorob’ev deviation (see Section 1.3.1) defined by the process Yxn . Then we choose the point
u(n+1) that minimizes the variance of the process Yxn evaluated at the point x(n+1) . By doing
so we expect an efficient estimation of the set Γ∗ in terms of number of model evaluations.
4.3.1 Minimization of the Vorob’ev deviation : choice of next x
The objective of the first step is to wisely choose the points in the control space X in
order to efficiently estimate the set Γ∗ = {x ∈ X , g(x) = EV [f (x, V)] ≤ c}. In this context,
we adopt the strategy introduced in Section 1.3.1 which relies on the statistical model of the
unobservable function g given by Yxn . Indeed, due to the stochastic nature of (Yxn )x∈X , the
associated excursion set,
Γ = {x ∈ X , Yxn ≤ c} (4.7)
is a random closed set. From the assumption that g is a realisation of Yxn , the true unknown
set Γ∗ can be seen as a realisation of the random closed set Γ.
Therefore, we implement a Stepwise Uncertainty Reduction strategy (SUR) that aims at
reducing uncertainty on Γ by adding new evaluation points step by step as proposed in
[Chevalier et al., 2013]. In this context such strategy relies on the notion of uncertainty for
random sets. In what follows, we consider the Vorob’ev deviation as the uncertainty function,
at step n,
Hnuncert = E[µ(Γ4Qn,α∗n ) | Z(Xn ,Un ) = Z],
where µ is a Borel σ-finite measure defined on X, the Vorob’ev quantiles are given by Qn,α =
{x ∈ X , P(Yxn ≤ c) ≥ α}, and the Vorob’ev expectation Qn,α∗n can be determined by tuning
α to a level α∗ such that µ(Qn,α∗n ) = E[µ(Γ) | Z(Xn ,Un ) = Z].
The objective of the SUR strategy is to find r optimal locations {x(n+1) , . . . , x(n+r) } such
uncert is as small as possible. One way to construct such a sequence is
that the uncertainty Hn+r
uncert ,
to choose at each step the point that gives the smallest uncertainty Hn+1
uncert
Hn+1 (x) = E[µ(Γ4Qn,α∗n+1 ) | Z(Xn ,Un ) = Z, Yxn ].
Minimizing the Vorob’ev deviation gives a point x(n+1) in the control space X which aims
at a better estimate of the unknown set Γ∗ . However, the simulation of f requires also the
choice of a value for the uncertain variables. The following step gives the next value u ∈ RmKL
and we induce the curve v corresponding to that u.
VAR(Yxn(n+1) ) = ϑ(ũ)
Z Z
= kZ (x(n+1) , u; x(n+1) , u0 )dρ(u)dρ(u0 )
m m
Z R KL Z R KL (4.10)
− kZ (x(n+1) , u; Xn+1 , Un+1 )
RmKL RmKL
kZ (Xn+1 , Un+1 ; Xn+1 , Un+1 )−1 kZ (Xn+1 , Un+1 ; x(n+1) , u0 )dρ(u)dρ(u0 ),
where Xn+1 = (Xn , x(n+1) ), Un+1 = (Un , ũ) and Xn , Un are the already observed data points.
In our application context the functional random variable V is only known through a
sample of curves Ξ = {v1 , . . . , vN }, and so after dimension reduction, the uncertain space is
characterised by a set of points denoted by G ⊂ RmKL and given by G = {(< v, ψ1 >, . . . , <
v, ψmKL >)> , v ∈ Ξ} = {ui }N >
i=1 , with ui = (< vi , ψ1 >, . . . , < vi , ψmKL >) . In this setting,
the next uncertain point u n+1 is taken such that
The sampling criterion of eq. (4.11) involves a discrete optimization, as well as the estimation
of kriging hyper parameters and the minimization of Vorob’ev deviation eq. (4.8). More details
are given in Section 4.4 .
The formula given by [Janusevskis and Le Riche, 2013] is detailed in the specific case
where U follows a Gaussian distribution. This is not our case : we do not know the distribution
of U but we have G a sample from it. Therefore, we have to adapt this formula by replacing
analytical integrals with standard Monte Carlo (MC) approximations.
4.4 Implementation
The complete approach to solve eq. (4.1) is summarized in Algorithm 8.
The algorithm involves 3 optimization subtasks which are solved successively at each ite-
ration. We use DiceKriging package [Roustant et al., 2012] for the first optimization which
consists in maximizing the likelihood to obtain covariance parameters. The function genoud
is used to solve the second optimization (4.8). The last optimization (4.11) is discrete on a
limited number of feasible values, thus it is not that time consuming.
mKL 2 4 8
V : Brownian motion 90.1 % 95.2 % 97.6%
V : Max-stable process 58.8 % 63.3 % 70%
Table 4.1: The explained variance in function of mKL for two types of uncertainties.
For the following two analytical examples, we consider a Gaussian process prior Z(x,u) with
constant mean and Matèrn covariance kernel with ν = 5/2. The Random Latin Hypercube
design (RLHD) was used as an initial DoE for the two algorithms. The number of points of the
initial DoE is n = 5(p+mKL ) and n = 5p for the functional quantization based approach. The
RLHD induces variability in the behaviour of the algorithms. To account for these variability
in the tests, the performance of each method is averaged over 10 independent runs.
Figure 4.1: 10 realisations of the Brownian motion (left) and Max-stable process (right).
Analytical example 2. For the second example we define a function that is not separable
with respect to the control variables and uncertainties. The function involves the maximum
and the minimum of the function v, so catching the whole variability of V becomes important.
The function f is given by
Z T x1 .x2
2
f : (x, v) 7→ max vt .|0.1 cos(x1 max vt ) sin(x2 ).(x1 + x2 min vt ) |. (30 + vt ) 20 dt,
t t t 0
where the control variables lie in X = [1.5, 5] × [3.5, 5] and as well as in the example above
we consider two types of functional uncertainties (Brownian motion and Max-stable process).
The objective is to construct the sets Γ∗ = {x ∈ X , g(x) = EV [f (x, V)] ≤ c}, where c = 1.2
and c = 0.9 for the Brownian motion and the Max-stable process respectively.
To compare the performance of the two algorithms we use the ratio of the volume of the
symmetric difference between the true set Γ∗ and the estimate set Qn,α∗ : µ(Γ∗ 4Qn,α∗n )/µ(Γ∗ ).
Figure 4.2: Analytical example 1 [Brownian motion (left), Max-stable process (right)].
Convergence of Algorithm 8 for mKL = {2, 4, 8}. 25th and 75th percentiles of the symmetric
difference vs. number of simulators calls. The curves are based on 10 random DoE for every
run.
In Fig. 4.2 and 4.3 we show the 25th and 75th percentiles of convergence rates of Algo-
rithm 8 for 10 runs of the complete approach for 3 values of the truncation argument mKL .
We notice that the smaller values of mKL , the faster the convergence. This observation can be
explained by the fact that, in higher dimensional joined space (due to larger values of mKL ),
the Gaussian process model built to represent the simulator f may need much more points
to learn an accurate GP model (more hyper parameters to determine). It may also be noted
that even for 90% (for Brownian motion) or 58.8% (for Max-stable process) of explained va-
riance with mKL = 2 the proposed algorithm provides an efficient estimate of the true set Γ∗ .
Indeed, on stage 8 in Algorithm 8 we recover the associated curve v(n+1) ∈ Ξ to u(n+1) , and
this leads us to recover the information lost after the dimension reduction, thereby further
robustifying our method. For the second analytical example and where the uncertainties are
driven by a Max-stable process, we obtain a more accurate estimation for higher truncation
argument (mKL = 8). This is due to the fact that the simulator response is more sensitive to
higher KL order.
The main conclusion from figures 4.4 4.5 is that in all test cases, the convergence rates
of the proposed approach are better than those of the functional quantization based inver-
sion (L2 -GFQ). Our algorithm is O(l) times less expensive in terms of simulations used per
iteration. The precision of the functional quantization method is limited by l, the size of the
Figure 4.3: Analytical example 2 [Brownian motion (left), Max-stable process (right)].
Convergence of Algorithm 8 for mKL = {2, 4, 8}. 25th and 75th percentiles of the symmetric
difference vs. number of simulators calls. The curves are based on 10 random DoE for every
runs.
Figure 4.4: Analytical example 1 [Brownian motion (left), Max-stable (right)]. Convergence
of Algorithm 8 for mKL = 8 and Algorithm 9 for l = {10, 20}. 25th and 75th percentiles of
the symmetric difference vs. number of simulators calls. The curves are based on 10 random
DoE for every runs.
quantizer used to estimate the expectation (see Chapter 3). Indeed l controls the accuracy of
the estimated expectation EV [f (x, V)].
Because that is the closest example to our industrial case (see Chapter 5), we focus on
the second analytical example with uncertainties defined by the max stable process. From
Table 4.2, we note that the strategy defined in the joint space outperforms the one presented
in the chapter 3. However, this strategy requires a relatively important amount of compu-
tational time for the choice of the next evaluation point. This is further explained by the
need of integrals calculations by Monte Carlo methods (see section 4.3 ). As shown in Figure
4.6, the bigger the dimension of the problem is, the larger the computational time is. The
Figure 4.5: Analytical example 2 [Brownian motion (left), Max-stable (right)]. Convergence
of Algorithm 8 for mKL = 8 and Algorithm 9 for l = {10, 20}. 25th and 75th percentiles of
the symmetric difference vs. number of simulators calls. The curves are based on 10 random
DoE for every runs.
computational cost increases with the number of simulated points, and thus with the number
of iterations, because of the cost of kriging approximation directly linked with the number
of data points. For example at iteration 200, the method proposed in this chapter needs 140
seconds to perform the optimization and provide the next evaluation point.
Method : joint space Est. Err. 5% Est. Err. 2% L2 −GFQ Est. Err. 5% Est. Err. 2%
mKL = 2 not reached not reached mKL = 2 ≈ 150 > 500
mKL = 4 ≈ 190 not reached mKL = 4 ≈ 150 > 500
mKL = 8 ≈ 150 ≈ 250 mKL = 8 ≈ 100 > 500
Method : joint space iteration 100 iteration 200
mKL = 2 32 (sec.) 62 (sec.)
mKL = 4 44 (sec.) 94 (sec.)
mKL = 8 71 (sec.) 140 (sec.)
2
L −GFQ iteration 100 iteration 200
mKL = 2, 4, 8 15 (sec.) 35 (sec.)
Table 4.2: Analytical example 2 [Max stable process]. Number of simulator calls in function
of the estimation error for the two methods presented respectively in Chapter 3 (L2 -GFQ)
and in Chapter 4 (Kriging in joint space). Bottom : CPU time at iteration 100 and 200 for
the methods.
4.6 Conclusion
In this chapter, a new stochastic inversion method has been proposed to address problems
where some of the inputs are functional uncertain variables. After a dimension reduction of
the functional space, the method creates a kriging model of the function of interest in the joint
space of control and uncertain variables (x, u). Then an averaged Gaussian process over the
truncated functional random variable is derived, whereas the methods presented in Chapter 3
Figure 4.6: The computation time (sec.) needed to provide the next evaluation point as a
function of iterations.
rely on GP models of the expectation of the function of interest in control variables space only.
The induced projected Gaussian process approximates the expected response. The minimi-
zation of the Vorob’ev deviation and the induced variance allow to simultaneously efficiently
estimate the set of interest Γ∗ , and sample the uncertain variables v.
The method has been compared to the SUR algorithm where the Monte Carlo simulations
were performed on the true simulator. The results indicate significant enhancements in terms
of precision and number of calls to the simulator on analytical test examples. Contrarily to
the functional quantization method, the proposed approach has additional advantages : the
points are not randomly drawn in the uncertain space but chosen by minimizing the kriging
variance in high performance region ; the next control and uncertain points are chosen accor-
ding to the previous added points.
Through analytical examples, we have highlighted the robustness of this approach and also
its sensitivity to Karhunen-Loève decomposition. Indeed, it has been noted that for an efficient
estimation of the excursion set, more components should be kept in the decomposition. The
obtained results emphasize that the computational time needed to provide the next evaluation
point in the SUR loop increases drastically with the size of the design of experiments and with
the problem dimension (which includes the reduced dimension of the functional variable). This
represents the major drawback of this method.
Synthèse : On a proposé dans ce chapitre une nouvelle méthode dédiée à l’inversion
sous incertitudes fonctionnelles. Cette nouvelle approche consiste en un enrichissement
adaptatif du plan d’expériences dans l’espace joint (variables de contrôle et variables
incertaines). A travers des exemples analytiques, on a montré la robustesse de cette ap-
proche mais aussi sa sensibilité à la décomposition de Karhunen-Loève.
Dans le chapitre suivant, on présentera le cas industriel qui a motivé ces travaux
de recherche. Un premier travail sur la visualisation des incertitudes fonctionnelles sera
présenté. Ensuite on appliquera les méthodes proposées dans les chapitres 3 et 4 à ce
problème industriel.
Chapitre 5
Application au système de
dépollution SCR
Outlines
Ce chapitre présente une application des méthodes proposées pendant la thèse à un cas industriel.
Nous décrivons en premier lieu le système de post-traitement des gaz d’échappement étudié et nous
explicitons les problématiques statistiques qui découlent des objectifs opérationnels et la formulation
choisie. Nous présentons ensuite un état de l’art des méthodes existantes pour la visualisation d’une
variable aléatoire fonctionnelle. Enfin, Nous présentons les résultats d’inversion sous incertitudes.
Contents
5.1 La réduction catalytique sélective des oxydes d’azote . . . . . . . . . . . . 83
5.2 Le simulateur numérique : une boite noire . . . . . . . . . . . . . . . . . . 85
5.2.1 Les entrées du simulateur numérique . . . . . . . . . . . . . . . . . 85
5.2.2 Les sorties du simulateur numérique . . . . . . . . . . . . . . . . . 86
5.2.3 Formalisation du problème . . . . . . . . . . . . . . . . . . . . . . . 87
5.3 Visualisation de données fonctionnelles . . . . . . . . . . . . . . . . . . . . 88
5.3.1 HDR boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.3.2 Le boxplot fonctionnel . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.3.2.1 Notion de profondeur . . . . . . . . . . . . . . . . . . . . 89
5.3.2.2 Construction du boxplot fonctionnel . . . . . . . . . . . 90
5.3.3 Application aux cycles de conduite . . . . . . . . . . . . . . . . . . 91
5.4 Réglage des stratégies de contrôle pour respecter les normes de dépollution
en présence d’incertitudes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.4.1 Application à un sous problème . . . . . . . . . . . . . . . . . . . . 94
5.4.1.1 Inversion par quantification fonctionnelle . . . . . . . . . 94
5.4.1.2 Inversion par métamodélisation dans l’espace joint . . . 97
5.4.1.3 Analyse comparative des deux méthodes . . . . . . . . . 99
5.4.2 Application : 9 variables de contrôle et 1 variable fonctionnelle in-
certaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
83
système de dépollution qui satisfait les normes européennes. En Europe, de nouvelles normes
se succèdent pour revoir à la baisse les seuils d’émissions des principaux polluants réglementés.
Les normes régulent les émissions de 4 polluants : NOx , CO, HC et les particules. Par exemple,
pour les véhicules Diesel, la norme Euro 6b impose un seuil égal à 80 mg/km pour les NOx .
Dans le cadre de la thèse, on va s’intéresser aux oxydes d’azote NOx . Une des techniques
largement utilisées est la réduction catalytique sélective par réaction avec du NH3 . En effet,
le SCR (Selective Catalytic Reduction) permet de réduire les NOx à l’intérieur de la ligne
d’échappement à l’aide d’une solution à base d’urée injectée en amont du catalyseur (cf.
Figure 5.1). L’urée est convertie en NH3 par hydrolyse, et ce dernier réagit avec les NOx pour
former N2 et H2 O, suivant les réactions chimiques suivantes :
4NH3 + 4NO + O2
−→ 4N2 + 6H2 O
2NH3 + NO + NO2 −→ 2N2 + 3H2 O
−→ 7N2 + 12H2 O
8NH + 6NO
3 2
Parmi les avantages à utiliser NH3 comme agent réducteur, on notera particulièrement la
sélectivité élevée de la réaction de ce dernier avec NO et NO2 en présence d’oxygène. L’uti-
lisation de NH3 engendre cependant la question de son rejet. Ainsi la bonne calibration du
système, i.e. le bon dosage de l’injection d’urée est critique : un sous dosage de l’urée mène au
non respect des normes, alors qu’un surdosage sera suivi de relargage de NO2 à l’échappement.
La quantité d’urée à injecter est calculée en fonction de la proportion des NOx présents en
amont du catalyseur, ainsi que de la température, du débit d’air, d’oxygène ainsi que des
états internes au système de contrôle. C’est ce calcul (stratégie de contrôle) qui est en charge
d’éviter un sous-dosage ou un surdosage de la solution d’urée.
Remarque. On note que toutes les entrées du simulateur sont supposées indépendantes.
L’objectif est de régler la stratégie de contrôle du système sachant que ce dernier évolue
dans un environnement incertain induit par le cycle de vitesse ainsi que par les erreurs des cap-
teurs. Dans ce contexte, les paramètres incertains, listés dans le tableau 5.2, sont représentés
par des variables aléatoires et leur incertitude est modélisée par une distribution de probabi-
lité. Pour réaliser cette modélisation, il est possible de s’appuyer sur des données disponibles
et, dans certains cas, sur un avis d’expert. C’est le cas de nos entrées scalaires dont les distri-
butions ont été établies en collaboration avec un expert moteur (cf. Table 5.2).
Table 5.2: Les paramètres incertains en entrée du code et leurs distributions de probabilité
associées
(
NOout
x (t) : les émissions des oxydes d’azote (ppm)
Sorties fonctionnelles
NHout
3 (t) : les émissions d’ammoniac (ppm)
Cependant les normes sont instaurées sur les quantités scalaires suivantes :
1 T
R 3
y1 = distance 0 10 .FluxNOx (t)dt,
y2 out
= max NH3 (t),
t∈[0,T ]
103 10−6 Fluxgas (kg.h−1 )
où FluxNO (g.s−1 ) =
3600 Mmolgas MmolNOx NOout .
x (ppm)
x
y1 représente le score de NOx (mg.km−1 ) obtenu pour un cycle de conduite sur un intervalle de
temps [0, T ] et cette grandeur doit être inférieure à 160 mg.km−1 . La sortie y2 représente le pic
d’ammoniac associé au cycle et ne doit pas dépasser 30 ppm. La contrainte de 160 mg.km−1
correspond à la norme euro 6 de 80 mg/km pondérée par un facteur de conformité pour les
roulages réels autour de 2, facteur en discussion lors de l’établissement de ces travaux de
thèse. La limite de 30 ppm n’est pas donnée par la norme mais parait une vraisemblable au
vu des émissions autorisées pour les poids lourds. Ces limites sont régulièrement révisées avec
l’évolution des normes.
Dans un tel contexte, nous nous sommes intéressés aux objectifs suivants :
— visualiser l’incertitude de la variable aléatoire fonctionnelle
— résoudre un problème d’inversion afin de construire l’ensemble des paramètres de
contrôle garantissant le respect des normes (respect des seuils sur y1 et y2 ).
La résolution d’un problème d’inversion est motivée par la connaissance des seuils
à respecter. On rappelle que pour répondre aux normes, il faut que y1 , le score de DeNOx,
soit inférieur à 160 mg.km−1 , et que y2 , le pic d’ammoniac, ne dépasse pas 30 ppm. A partir
de ces seuils, on définit le domaine admissible D = [0, 160] × [0, 30]. Tout en tenant compte
des différents types d’incertitude, le but est de trouver l’ensemble des paramètres de contrôle
tels que, en moyenne, les sorties du code appartiennent à l’ensemble D. Ainsi cela se traduit
par la résolution des problèmes d’inversion suivants
(
Γ∗1 = {x ∈ X, g1 (x) = E(V,ξ) [f1 (x, V, ξ)] ≤ 160}
(5.2)
Γ∗2 = {x ∈ X, g2 (x) = E(V,ξ) [f2 (x, V, ξ)] ≤ 30},
où l’espérance est prise sur les variables aléatoires scalaires et fonctionnelle. Les deux méthodes
que nous avons introduites dans les chapitres 3 et 4 sont utilisées pour apporter une solution
à ce problème. Les résultats sont présentés dans la section 5.4 .
où u ∈ R2 et U = {U1 , ..., UN } ⊂ R2 est l’ensemble des couples de points issus de l’ACP. Une
région de plus haute densité est définie comme Rα = {u ∈ R2 : fˆ(u) ≥ fα }, où fα est telle
que Rα fˆ(u)du = 1 − α. Le HDR boxplot représente les 3 éléments suivants :
R
— Les régions de plus haute densité avec α = 50% en gris foncé et α = 95% en gris clair.
— Les valeurs extrêmes, définies comme étant les points qui n’appartiennent pas aux deux
régions définies précédemment.
— Le mode : le point de l’échantillon de plus haute densité.
[Hyndman and Shang, 2010] définissent à la fois des versions bivariée et fonctionnelle du
HDR boxplot, la version fonctionnelle est constituée de la courbe médiane (correspondant au
mode), des courbes extrêmes (correspondant aux valeurs extrêmes) et les enveloppes fonc-
tionnelles correspondant aux régions de plus haute densité. La figure 5.5 illustre le résultat
obtenu en appliquant le HDR boxplot au jeu de données ”Elnino” issu du package rainbow,
Figure 5.5: Bagplot bivarié pour les températures de surface de l’océan pacifique
sur une année (à gauche) et sa représentation fonctionnelle (à droite), extrait de
[Hyndman and Shang, 2010]
Comme la bande est délimitée par j courbes et disposant de N courbes dans notre
échantillon, on aura donc Nj bandes possibles.
Figure 5.6: (De gauche à droite) Exemples de bandes (en vert) délimitées par (de gauche à
droite) : 2 courbes ; 2 courbes qui se croisent ; 3 courbes.
La profondeur de bande :
La profondeur de bande, [López-Pintado and Jornsten, 2007], d’une courbe v est définie
comme la proportion de toutes les bandes possibles contenant v.
J
X (j)
SN,J (v|Ξ) = SN (v|Ξ), J ≥ 2, (5.4)
j≥2
avec !−1
(j) N X n o
SN (v|Ξ) = I G(v) ∈ B(vi1 , vi2 , ..., vij ) , j ≥ 2. (5.5)
j 1≤i1 <i2 <...<ij ≤N
Si une courbe v a une forme, ou comportement, qui diffère de l’échantillon Ξ, alors peu de
bandes la contiendront. Ainsi, une courbe peu ressemblante à l’échantillon se verra attribuer
une faible profondeur de bande et vice-versa. Cette définition de profondeur de bande, donne
des résultats peu convaincants surtout si les courbes se croisent, ainsi ”la profondeur de bande
modifiée” vient pallier ce problème.
La profondeur de bande modifiée, introduite par [López-Pintado and Jornsten, 2007], consiste
à remplacer la fonction indicatrice dans l’équation 5.5 par la proportion de longueur que la
courbe reste dans la bande.
J
X (j)
GSN,J (v|Ξ) = GSN (v|Ξ), J ≥ 2, (5.6)
j≥2
avec !−1
(j) Ξ X λ(A(vi1 , vi2 , ..., vij ))
GSN (v|Ξ) = ,j ≥ 2 (5.7)
j 1≤i1 <i2 <...<ij ≤N
λ([0, T ])
n o
A(vi1 , vi2 , ..., vij ) = t ∈ [0, T ] : min vir (t) ≤ v(t) ≤ max vir (t)
r=1,...,j r=1,...,j
où d N2 e est le plus petit entier supérieur à n2 , cette région à 50% représente le sac (qui contient
la moitié des points), l’enveloppe (qui sépare les courbes extrêmes des autres) est déterminée
en augmentant le sac d’un facteur 1.5. Le facteur de proportionnalité, appelé facteur de di-
latation, est pris égal à 1.5 par défaut, par analogie avec la taille des ”moustaches” dans le
boxplot usuel. Ainsi toute courbe en dehors de l’enveloppe est considérée comme extrême.
Figure 5.7: boxplot fonctionnel pour les températures de surface de l’océan pacifique sur une
année
Les résultats obtenus sont illustrés par les Figures 5.9, 5.10. On constate que ces outils de
visualisations ont failli à leur tâche, qui est de montrer une certaine tendance ou de déceler des
courbes extrêmes. Le HDR boxplot, Figure 5.9, est basé sur une projection des courbes sur les
deux premières composantes (mKL = 2), or cette projection, dans notre cas, n’explique que
Figure 5.8: L’échantillon des 1000 cycles de conduite
24% de la variance, ainsi, il peut être intéressant d’utiliser une base de décomposition de plus de
deux composantes. Cependant, l’estimateur à noyau, utilisé par [Hyndman and Shang, 2010]
pour estimer la densité des coefficients, ne peut être appliqué qu’en petite dimension. Dans
notre cas, et comme le montre la figure 5.11, il faut considérer les 80 premières composantes
afin d’expliquer 97% de la variance.
Le boxplot fonctionnel, Figure 5.10, est basé sur des notions de profondeur. On remarque
que tous les cycles ayant une partie autoroutière (Vitesses supérieures à 100 km/h) sont
considérés comme des cycles extrêmes, et la courbe médiane (la courbe noire) représente un
cycle de conduite urbaine. Ce résultat est expliqué par la proportion élevée de cycles urbains
dans notre échantillon, ce qui implique une profondeur plus grande pour ces derniers et faible
pour les cycles représentant d’autres types de conduite.
Figure 5.10: Boxplot fonctionnel de l’échantillon de cycles de conduite
Figure 5.11: Part de variance expliquée par l’ACP en fonction de la taille de la base
le problème d’inversion se traduit par l’estimation de l’intersection suivante Γ∗1 ∩ Γ∗2 où
(
Γ∗1 = {x ∈ X, g1 (x) = E(V,ξ) [f1 (x, V, ξ)] ≤ 160}
Γ∗2 = {x ∈ X, g2 (x) = E(V,ξ) [f2 (x, V, ξ)] ≤ 30}.
Les deux contributions de cette thèse permettent d’estimer l’ensemble d’excursion quand le
simulateur numérique renvoie une unique sortie. Ainsi on décide de procéder en deux temps.
Tout d’abord, on résout séparément deux problèmes d’inversion pour estimer Γ∗1 et Γ∗2 . Ensuite,
on considère l’intersection des deux estimateurs comme estimation de Γ∗1 ∩ Γ∗2 .
Type Notation
theta.sp.manual [0.01, 0.6]
theta.sp.min [0.01, 0.6]
C.NH3.in.max [0.005, 0.02]
carto.obs4.f1.x2 [0.05, 0.95]
Variables de contrôle (x) carto.obs4.f1.y2 [0, 1]
carto.obs4.f1.y3 [0, 1]
carto.obs4.f2.x2 [220, 300]
carto.obs4.f2.y2 [0, 1]
carto.obs4.f2.y3 [0, 1]
Variable incertaine fonctionnelle V Uniforme discrète
Curée U([∗, ∗])
bNOinx
N (0, ∗)
bO 2 N (1, ∗)
Variable incertaine vectorielle (ξ)
bTemp N (0, ∗)
bMAF N (1, ∗)
bNOout
x
N (0, ∗)
Table 5.3: les domaines de définition et les distributions de probabilité associés aux entrées
du code de calcul. Certaines données (*) sont masquées car confidentielles.
Figure 5.12: Pic d’ammoniac. La fonction de couverture, le plan d’expériences initial (tri-
angles noirs) et l’estimation initiale de l’ensemble recherché Γ∗2 (en vert).
Figure 5.14: Pic d’ammoniac. En haut : La déviation de Vorob’ev en fonction des itérations
SUR. En bas : la fonction de couverture, le plan d’expériences initial (triangles noirs) et
l’estimation de l’ensemble recherché Γ∗2 (en vert) après l’ajout de 62 points (en rouge) et 1575
évaluations au total (évaluations pour l’estimation de l’espérance incluses).
La figure 5.15 le résultat de l’estimation de l’ensemble Γ∗1 après l’ajout de 12 points (rouges)
au plan d’expériences initial à 8 points (triangles noires). L’identification de cet ensemble n’a
pas nécessité beaucoup de simulations par rapport au problème précédent. Pour résoudre ce
problème, on a fait 288 appels au simulateur numérique.
L’objectif principal étant de répondre aux deux normes, on considère l’intersection des
deux estimations comme résultat final de ce problème. La figure 5.16 montre l’estimation de
Γ∗1 ∩ Γ∗2 représentée par l’ensemble de frontière bleue. On rappelle que les deux variables de
contrôle agissent sur la quantité de solution d’urée permettant la production d’ammoniac pour
réduire les oxydes d’azote. Ainsi l’ensemble identifié résulte d’un compromis entre un sur et
sous dosage de cette solution. Par exemple, si on injecte une quantité minime de solution (la
zone proche du point (10−2 , 10−2 )), on rejette une quantité excessive des oxydes d’azote et
pour le coup, on obtient un score de DeNOx bien supérieur au seuil.
Résumé : On a appliqué la méthodologie introduite dans le chapitre 3 pour identifier
Figure 5.15: Score DeNOx . A gauche : La déviation de Vorob’ev en fonction des itérations
SUR. A droite : la fonction de couverture, le plan d’expériences initial (triangles noirs) et
l’estimation de l’ensemble recherché Γ∗1 (en vert) après l’ajout de 12 points (en rouge) et 288
évaluations au total (évaluations pour l’estimation de l’espérance incluses).
l’ensemble d’excursion au respect des deux normes. Cette approche permet d’avoir une esti-
mation efficace de cet ensemble pour un coût de calcul dépendant de deux paramètres d’arrêt
opérant à l’étape de l’estimation de l’espérance, soit ici 1575 simulations.
Figure 5.17: Pic d’ammoniac. Le plan d’expériences initial (triangles noirs) et l’estimation
initiale de l’ensemble recherché Γ∗2 (en vert).
La figure 5.17 montre la fonction de couverture définie par le processus gaussien Yx sachant
l’information donnée par les évaluations aux points du plan d’expériences initial. L’estimation
initiale de Γ∗2 est donnée par l’ensemble vert de frontière bleue. Le niveau de gris représente
la probabilité que l’observation dépasse le seuil de 30 ppm.
On rappelle que cette méthode s’appuie sur le processus gaussien Yx pour définir une
stratégie de réduction séquentielle des incertitudes associée à l’estimation de l’ensemble d’ex-
cursion recherchée. Cette stratégie fournit donc le prochain point dans [0.01, 0.6]2 et la pro-
chaine courbe dans Ξ (cycle de conduite) où lancer simulateur f . Pour des raisons de coût
de calcul liées aux problèmes d’optimisation cachés derrière cette stratégie (cf. chapitre 4),
à chaque itération on cherche les deux points dans l’espace joint qui réduisent l’incertitude
associée à l’estimation de l’ensemble Γ∗2 . Plus précisément, on procède en deux étapes. La
première consiste à lancer la stratégie pour avoir le premier point. Ensuite et de la même
manière, on cherche le second en s’appuyant sur un modèle de krigeage basé sur le plan d’ap-
prentissage enrichi par le point de la première étape et ce, en remplaçant l’évaluation inconnue
du simulateur numérique en ce point par la moyenne conditionnelle. On tient à noter que cette
technique donne une solution sous-optimale mais économise du temps de calcul. Une itération
de cette méthode est illustrée par la figure 5.18.
Figure 5.20: Résultats pour le pic d’ammoniac et pour un nombre d’évaluations du simulateur
fixé à 510. L’ensemble d’excursion estimé par la première méthode (ensemble vert de frontière
bleue) et la frontière rouge de l’ensemble estimé par la deuxième méthode.
Synthèse : Ce chapitre présente une application des méthodes introduites dans cette
thèse pour ainsi répondre aux objectifs opérationnels au cas test industriel. Il s’agit de
définir l’ensemble admissible des paramètres de contrôle du système de dépollution des
gaz d’échappement afin de répondre aux normes européennes. La réponse apportée doit
tenir compte de l’incertitude sur la conduite (cycle de vitesse).
Dans ce travail de thèse nous apportons des réponses au problème d’inversion de code
de calcul coûteux en présence d’incertitudes, notamment d’entrées fonctionnelles incertaines.
Ces incertitudes sont modélisées par des variables aléatoires dont la distribution est résumée
par l’espérance. L’objectif est de trouver l’ensemble des paramètres de contrôle du système
(ensemble d’excursion) tels que le système, en moyenne, satisfait les normes imposées. Nous
proposons deux méthodes différentes basées sur une démarche de métamodélation du code de
calcul par processus gaussiens :
La deuxième méthodologie que nous avons présentée au chapitre 4 a pour but de sim-
plifier la première approche pour cette estimation de l’espérance. Cette méthode fournit une
nouvelle stratégie d’enrichissement adaptatif de plans d’expériences. Cette dernière repose
sur une modélisation jointe par processus gaussien et la possibilité d’en déduire une formule
semi-analytique pour l’espérance. La stratégie pour le choix des points d’évaluations dans l’es-
pace joint est ensuite guidée par l’erreur de prédiction du krigeage. Cette dernière approche
103
a été comparée à la première méthodologie à travers deux exemples analytiques. Les résultats
obtenus sont concluants en terme de nombre de simulations et de précision. Cependant, ces
résultats ont montré un inconvénient de la méthode lié à son coût de calcul intrinsèque. En ef-
fet, l’espace des entrées du processus gaussien comprend, en plus des paramètres de contrôle, le
vecteur résultant de la réduction de la variable fonctionnelle. Comme la taille de l’échantillon
d’apprentissage augmente au cours de l’enrichissement (des itérations), le coût de construction
du krigeage ainsi que additionné au coût de la recherche du meilleur prochain point, due au
calcul d’intégrales multidimensionnelles, devient très vite prohibitif.
Pour finir, ces deux méthodes ont été appliquées avec succès à un problème industriel (cf.
chapitre 5). Il s’agit de régler, sous incertitudes fonctionnelles liées au cycle de conduite, la
stratégie de contrôle d’un système de dépollution d’un véhicule afin de respecter des normes
de pollution. Appliquées dans un premier temps à un problème défini en 2D (2 paramètres de
contrôle et une variable incertaine fonctionnelle), les deux méthodes fournissent des résultats
très similaires. Comparée à la première, la deuxième approche nécessite trois fois moins d’ap-
pels au simulateur numérique mais demande quelques jours de calcul pour les raisons évoquées
dans le paragraphe précédent. On a donc décidé d’appliquer la première approche pour traiter
le problème industriel initial défini en 9D (9 paramètres de contrôle et une variable incertaine
fonctionnelle).
Nous présentons quelques perspectives à ce travail de thèse. Ces perspectives portent sur
la quantification fonctionnelle gloutonne pour certains processus gaussiens, l’optimisation sous
incertitude, la prise en compte d’un mélange d’incertitudes (fonctionnelle et scalaire) et le cas
où le simulateur renvoie des sorties vectorielles.
Dans le chapitre 2, nous avons développé des algorithmes gloutons de quantification fonc-
tionnelle, en fixant a priori la dimension de la troncature. Or dans [Pages and Printems, 2009]
et pour certains processus gaussiens, les auteurs donnent la dimension de troncature en fonc-
tion de la taille du quantifieur. Ainsi on pourrait envisager une quantification gloutonne en
taille et dimension. Plus précisément, cela consisterait à construire séquentiellement un quanti-
fieur de taille l dans un espace réduit défini par la décomposition de Karunhen-Loeve optimale
à l fixé.
Les méthodologies présentées dans cette thèse sont dédiées à la prise en compte des incerti-
tudes fonctionnelles lors de d’inversion, elles peuvent aussi être appliquées pour des problèmes
d’optimisation sous incertitudes fonctionnelles. La première méthode proposée dans la thèse
portant sur la quantification peut aisément être couplée à de nombreux problèmes portant sur
l’optimisation stochastique. En ce qui concerne la deuxième approche proposée, il serait par
exemple possible de repenser le critère du choix des points pour tenir compte des incertitudes
fonctionnelles dans un algorithme de type EGO.
La première contribution à base de quantification gloutonne permet de tenir compte des in-
certitudes fonctionnelles. Dans le futur, il serait possible d’étendre cette méthode pour prendre
en compte toutes les sources d’incertitudes (combinant variables scalaires et fonctionnelles).
Pour la variable fonctionnelle, la construction du quantifieur est faite dans l’espace des coeffi-
cients. Il pourrait être intéressant d’augmenter cet espace en ajoutant des variables scalaires,
ainsi on pourrait envisager d’adapter notre algorithme de quantification pour une construc-
tion séquentielle en ces deux espaces. Cela nécessiterait de définir une distance sur l’ensemble
des deux espaces. En ce qui concerne la deuxième méthodologie, cette dernière pourrait être
appliquée de manière directe.
Les deux méthodologies présentées dans cette thèse s’appliquent aux simulateurs numériques
à sorties scalaires. Une extension intéressante serait d’étendre ces méthodes au cas des sorties
vectorielles. Dans [Pourmohamad et al., 2016], les auteurs proposent une modélisation par
processus gaussien tenant compte des éventuelles corrélations entre les sorties du simulateur.
Des résultats satisfaisants ont été obtenus en comparant cette approche à celle consistant
à créer un modèle de krigeage pour chaque sortie du simulateur. Ainsi pour les problèmes
d’inversion présentés dans cette thèse, il serait intéressant d’appliquer cette modélisation et
d’utiliser l’incertitude associée pour définir une stratégie de choix des points adaptée aux sor-
ties vectorielles.
Enfin dans un cadre industriel et pour le cas d’application qui a motivé ces travaux de
recherche, il serait intéressant de tenir compte des sources d’incertitudes scalaires dans le but
d’améliorer le système de contrôle.
Une autre formulation du problème d’inversion peut être établie en considérant une mesure de
robustesse autre que l’espérance, par exemple résoudre le problème en grande probabilité. Dans
un tel contexte, en se fixant une probabilité faible, on fera certainement appel aux méthodes
d’échantillonnage d’importance. On pourrait aussi voir la probabilité comme l’espérance d’une
indicatrice. Cela ouvre la possibilité d’utiliser des algorithmes à gradient stochastique mais elle
soulève également la difficulté de gérer une fonction à forte discontinuité, à savoir la fonction
indicatrice.
Annexe A
Exemple : Pour le couple (ak = 0m/s2 , vk = 30km/h), on commence par extraire les
différentes valeurs de la future accélération ak+1 , ensuite on estime les paramètres de la loi
normale qui s’ajustent au mieux à ces observations. Ces paramètres (moyenne, variance) seront
stockés dans une matrice M.
La génération des cycles de conduite
106
Figure A.2: Les 13 cycles enregistrés concaténés
Figure A.3: Histogramme et densité de probabilité des accélérations ak+1 sachant (ak =
0, vk = 30)
A l’instant d’après, i.e., t=1(s), on est à l’état et+1 = (at+1 , vt+1 ). Si cet état n’est
pas représenté dans la matrice M, on récupère les paramètres de la loi normale modélisant
L(at+2 |et+1 ) par interpolation (bloc 4). On procède ensuite comme précédemment avec les
étapes 4 et 5.
[Baillo et al., 2000] Baillo, A., Cuevas, A., and Justel, A. (2000). Set estimation and nonpa-
rametric detection. Canadian Journal of Statistics, 28(4) :765–782.
[Bally et al., 2005] Bally, V., Pagès, G., and Printems, J. (2005). A quantization tree method
for pricing and hedging multidimensional american options. Mathematical Finance : An
International Journal of Mathematics, Statistics and Financial Economics, 15(1) :119–168.
[Bect et al., 2016] Bect, J., Bachoc, F., and Ginsbourger, D. (2016). A supermartingale
approach to gaussian process based sequential design of experiments. arXiv preprint
arXiv :1608.01118.
[Bect et al., 2012] Bect, J., Ginsbourger, D., Li, L., Picheny, V., and Vazquez, E. (2012).
Sequential design of computer experiments for the estimation of a probability of failure.
Statistics and Computing, 22(3) :773–793.
[Bolin and Lindgren, 2015] Bolin, D. and Lindgren, F. (2015). Excursion and contour uncer-
tainty regions for latent gaussian models. Journal of the Royal Statistical Society : Series
B (Statistical Methodology), 77(1) :85–106.
[Bonfils et al., 2012] Bonfils, A., Creff, Y., Lepreux, O., and Petit, N. (2012). Closed-loop
control of a scr system using a nox sensor cross-sensitive to nh3. IFAC Proceedings Volumes,
45(15) :738–743.
[Cardot et al., 1999] Cardot, H., Ferraty, F., and Sarda, P. (1999). Functional linear model.
Statistics & Probability Letters, 45(1) :11–22.
[Chevalier et al., 2014a] Chevalier, C., Bect, J., Ginsbourger, D., Vazquez, E., Picheny, V.,
and Richet, Y. (2014a). Fast parallel kriging-based stepwise uncertainty reduction with
application to the identification of an excursion set. Technometrics, 56(4) :455–465.
[Chevalier et al., 2015] Chevalier, C., Emery, X., and Ginsbourger, D. (2015). Fast update of
conditional simulation ensembles. Mathematical Geosciences, 47(7) :771–789.
[Chevalier and Ginsbourger, 2013] Chevalier, C. and Ginsbourger, D. (2013). Fast compu-
tation of the multi-points expected improvement with applications in batch selection. In
International Conference on Learning and Intelligent Optimization, pages 59–69. Springer.
[Chevalier et al., 2013] Chevalier, C., Ginsbourger, D., Bect, J., and Molchanov, I. (2013).
Estimating and quantifying uncertainties on level sets using the vorob’ev expectation and
deviation with gaussian process models. In mODa 10–Advances in Model-Oriented Design
and Analysis, pages 35–43. Springer.
[Chevalier et al., 2014b] Chevalier, C., Picheny, V., and Ginsbourger, D. (2014b). Kriginv :
An efficient and user-friendly implementation of batch-sequential inversion strategies based
on kriging. Computational statistics & data analysis, 71 :1021–1034.
[Chiles and Delfiner, 1999] Chiles, J.-P. and Delfiner, P. (1999). Geostatistics : modeling spa-
tial uncertainty. Wiley, New York.
109
[Cuevas and Fraiman, 1997] Cuevas, A. and Fraiman, R. (1997). A plug-in approach to sup-
port estimation. The Annals of Statistics, pages 2300–2312.
[Cuevas et al., 2006] Cuevas, A., González-Manteiga, W., and Rodrı́guez-Casal, A. (2006).
Plug-in estimation of general level sets. Australian & New Zealand Journal of Statistics,
48(1) :7–19.
[Dempster et al., 1977] Dempster, A. P., Laird, N. M., and Rubin, D. B. (1977). Maximum
likelihood from incomplete data via the em algorithm. Journal of the royal statistical society.
Series B (methodological), pages 1–38.
[Devroye and Wise, 1980] Devroye, L. and Wise, G. L. (1980). Detection of abnormal beha-
vior via nonparametric estimation of the support. SIAM Journal on Applied Mathematics,
38(3) :480–488.
[El Amri et al., 2018] El Amri, M. R., Helbert, C., Lepreux, O., Munoz Zuniga, M., Prieur, C.,
and Sinoquet, D. (2018). Data-driven stochastic inversion under functional uncertainties.
working paper or preprint.
[Flury, 1990] Flury, B. A. (1990). Principal points. Biometrika, 77(1) :33–41.
[Franco, 2008] Franco, J. (2008). Planification d’expériences numériques en phase exploratoire
pour la simulation des phénomènes complexes. PhD thesis, Ecole Nationale Supérieure des
Mines de Saint-Etienne.
[French et al., 2013] French, J. P., Sain, S. R., et al. (2013). Spatio-temporal exceedance
locations and confidence regions. The Annals of Applied Statistics, 7(3) :1421–1449.
[Ginsbourger et al., 2009] Ginsbourger, D., Dupuy, D., Badea, A., Carraro, L., and Roustant,
O. (2009). A note on the choice and the estimation of kriging models for the analysis of
deterministic computer experiments. Applied Stochastic Models in Business and Industry,
25(2) :115–131.
[Graf and Luschgy, 2000] Graf, S. and Luschgy, H. (2000). Foundations of quantization for
probability distributions. Springer.
[Hyndman and Shang, 2010] Hyndman, R. J. and Shang, H. L. (2010). Rainbow plots, bag-
plots, and boxplots for functional data. Journal of Computational and Graphical Statistics,
19(1) :29–45.
[Janusevskis and Le Riche, 2013] Janusevskis, J. and Le Riche, R. (2013). Simultaneous
kriging-based estimation and optimization of mean response. Journal of Global Optimi-
zation, 55(2) :313–336.
[Jin et al., 2005] Jin, R., Chen, W., and Sudjianto, A. (2005). An efficient algorithm for
constructing optimal design of computer experiments. Journal of Statistical Planning and
Inference, 134(1) :268–287.
[Johnson et al., 1990] Johnson, M. E., Moore, L. M., and Ylvisaker, D. (1990). Minimax and
maximin distance designs. Journal of statistical planning and inference, 26(2) :131–148.
[L’Ecuyer and Lemieux, 2005] L’Ecuyer, P. and Lemieux, C. (2005). Recent advances in ran-
domized quasi-monte carlo methods. In Modeling uncertainty, pages 419–474. Springer.
[Lemieux, 2009] Lemieux, C. (2009). Quasi–monte carlo constructions. In Monte Carlo and
Quasi-Monte Carlo Sampling, pages 1–61. Springer.
[Levrard, 2014] Levrard, C. (2014). High-dimensional vector quantization : convergence rates
and variable selection. PhD thesis, Universite de Paris 11.
[López-Pintado and Jornsten, 2007] López-Pintado, S. and Jornsten, R. (2007). Functional
analysis via extensions of the band depth. Lecture Notes-Monograph Series, pages 103–120.
[López-Pintado and Romo, 2009] López-Pintado, S. and Romo, J. (2009). On the concept of
depth for functional data. Journal of the American Statistical Association, 104(486) :718–
734.
[Luschgy and Pagès, 2002] Luschgy, H. and Pagès, G. (2002). Functional quantization of
gaussian processes. Journal of Functional Analysis, 196(2) :486–531.
[Luschgy and Pagès, 2015] Luschgy, H. and Pagès, G. (2015). Greedy vector quantization.
Journal of Approximation Theory, 198 :111–131.
[Luschgy et al., 2008] Luschgy, H., Pagès, G., et al. (2008). Functional quantization rate and
mean regularity of processes with an application to lévy processes. The Annals of Applied
Probability, 18(2) :427–469.
[Luschgy et al., 2010] Luschgy, H., Pagès, G., and Wilbertz, B. (2010). Asymptotically op-
timal quantization schemes for gaussian processes on hilbert spaces. ESAIM : Probability
and Statistics, 14 :93–116.
[Matheron, 1973] Matheron, G. (1973). The intrinsic random functions and their applications.
Advances in applied probability, 5(3) :439–468.
[Miranda and Bocchini, 2013] Miranda, M. and Bocchini, P. (2013). Functional quantization
of stationary gaussian and non-gaussian random processes. Safety, Reliability, Risk and
Life-Cycle Performance of Structures and Infrastructures, pages 2785–2792.
[Miranda and Bocchini, 2015] Miranda, M. J. and Bocchini, P. (2015). A versatile technique
for the optimal approximation of random processes by functional quantization. Applied
Mathematics and Computation, 271 :935–958.
[Molchanov, 2006] Molchanov, I. (2006). Theory of random sets. Springer Science & Business
Media.
[Molchanov, 1998] Molchanov, I. S. (1998). A limit theorem for solutions of inequalities.
Scandinavian Journal of Statistics, 25(1) :235–242.
[Morris and Mitchell, 1995] Morris, M. D. and Mitchell, T. J. (1995). Exploratory designs for
computational experiments. Journal of statistical planning and inference, 43(3) :381–402.
[Nanty et al., 2016] Nanty, S., Helbert, C., Marrel, A., Pérot, N., and Prieur, C. (2016). Sam-
pling, metamodeling, and sensitivity analysis of numerical simulators with functional sto-
chastic inputs. SIAM/ASA Journal on Uncertainty Quantification, 4(1) :636–659.
[Niederreiter, 1992] Niederreiter, H. (1992). Random number generation and quasi-Monte
Carlo methods, volume 63. Siam.
[Owen, 2013] Owen, A. B. (2013). Monte Carlo theory, methods and examples.
[Pagès, 1998] Pagès, G. (1998). A space quantization method for numerical integration. Jour-
nal of computational and applied mathematics, 89(1) :1–38.
[Pagès, 2014] Pagès, G. (2014). Introduction to optimal vector quantization and its applica-
tions for numerics.
[Pagès, 2018] Pagès, G. (2018). Numerical Probability : An Introduction with Applications to
Finance. Springer.
[Pages et al., 2004] Pages, G., Pham, H., and Printems, J. (2004). An optimal markovian
quantization algorithm for multi-dimensional stochastic control problems. Stochastics and
Dynamics, 4(04) :501–545.
[Pagès and Printems, 2003] Pagès, G. and Printems, J. (2003). Optimal quadratic quanti-
zation for numerics : the gaussian case. Monte Carlo Methods and Applications mcma,
9(2) :135–165.
[Pagès and Printems, 2005] Pagès, G. and Printems, J. (2005). Functional quantization for
numerics with an application to option pricing. Monte Carlo Methods and Applications
mcma, 11(4) :407–446.
[Pages and Printems, 2009] Pages, G. and Printems, J. (2009). Optimal quantization for
finance : from random vectors to stochastic processes. In Handbook of Numerical Analysis,
volume 15, pages 595–648. Elsevier.
[Palacios and Steel, 2006] Palacios, M. B. and Steel, M. F. J. (2006). Non-gaussian bayesian
geostatistical modeling. Journal of the American Statistical Association, 101(474) :604–618.
[Petersen et al., 2008] Petersen, K. B., Pedersen, M. S., et al. (2008). The matrix cookbook.
Technical University of Denmark, 7(15) :510.
[Picheny et al., 2010] Picheny, V., Ginsbourger, D., Roustant, O., Haftka, R. T., and Kim, N.-
H. (2010). Adaptive designs of experiments for accurate approximation of a target region.
Journal of Mechanical Design, 132(7) :071008.
[Pourmohamad et al., 2016] Pourmohamad, T., Lee, H. K., et al. (2016). Multivariate
stochastic process models for correlated responses of mixed type. Bayesian Analysis,
11(3) :797–820.
[Pronzato and Müller, 2012] Pronzato, L. and Müller, W. G. (2012). Design of computer
experiments : space filling and beyond. Statistics and Computing, 22(3) :681–701.
[Ramsay, 2006] Ramsay, J. O. (2006). Functional data analysis. Wiley Online Library.
[Ranjan et al., 2008] Ranjan, P., Bingham, D., and Michailidis, G. (2008). Sequential ex-
periment design for contour estimation from complex computer codes. Technometrics,
50(4) :527–541.
[Rasmussen and Williams, 2006] Rasmussen, C. E. and Williams, C. K. (2006). Gaussian
processes for machine learning, volume 1. MIT press Cambridge.
[Rosenblatt, 1956] Rosenblatt, M. (1956). Remarks on some nonparametric estimates of a
density function. The Annals of Mathematical Statistics, pages 832–837.
[Roustant et al., 2012] Roustant, O., Ginsbourger, D., and Deville, Y. (2012). Dicekriging,
diceoptim : Two r packages for the analysis of computer experiments by kriging-based
metamodeling and optimization.
[Santner et al., 2013] Santner, T. J., Williams, B. J., and Notz, W. I. (2013). The design and
analysis of computer experiments. Springer Science & Business Media.
[Sun and Genton, 2011] Sun, Y. and Genton, M. G. (2011). Functional boxplots. Journal of
Computational and Graphical Statistics, 20(2) :316–334.
[Tran, 2014] Tran, V. C. (2014). Une ballade en forêts aléatoires. PhD thesis, Université Lille
1.
[Tukey, 1977] Tukey, J. W. (1977). Exploratory data analysis, volume 2. Reading, Mass.
[Vazquez and Bect, 2009] Vazquez, E. and Bect, J. (2009). A sequential bayesian algorithm
to estimate a probability of failure. IFAC Proceedings Volumes, 42(10) :546–550.
[Vorob’ev, 1984] Vorob’ev, O. Y. (1984). Srednemernoje modelirovanie (mean-measure mo-
delling).
[Williams et al., 2000] Williams, B. J., Santner, T. J., and Notz, W. I. (2000). Sequential
design of computer experiments to minimize integrated response functions. Statistica Sinica,
pages 1133–1152.
[Zador, 1963] Zador, P. (1963). Development and evaluation of procedures for quantizing
multivariate distributions. Technical report, STANFORD UNIV CALIF.