Thse Mnassri

See discussions, stats, and author profiles for this publication at: https://www.researchgate.
net/publication/281184194
Multivariate data analysis and monitoring of industrial processes by principal

component analysis
Article · October 2012
CITATIONS READS
0 82
1 author:
Baligh Mnassri
Aix-Marseille Université
15 PUBLICATIONS 189 CITATIONS
SEE PROFILE
All content following this page was uploaded by Baligh Mnassri on 08 April 2017.
The user has requested enhancement of the downloaded file.

See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/256706411
Analyse de données multivariées et

surveillance des processus industriels par
analyse en composantes principales
Thesis · October 2012
CITATIONS READS
0 113
1 author:
Baligh Mnassri
Aix-Marseille Université
15 PUBLICATIONS 55 CITATIONS
SEE PROFILE
All content following this page was uploaded by Baligh Mnassri on 08 April 2017.
The user has requested enhancement of the downloaded file.

Université d’Aix-Marseille
École Doctorale en Mathématiques et Informatique de Marseille – ED 184
Analyse de données multivariées et

surveillance des processus industriels
par analyse en composantes principales
THÈSE
présentée et soutenue publiquement le 12 octobre 2012
pour l’obtention du
Doctorat de l’Université d’Aix-Marseille

Spécialité Automatique
par
Baligh MNASSRI
Composition du jury
Rapporteurs : José RAGOT Professeur à l’INPL, Université de Lorraine

Abdessamad KOBI Professeur à l’Université d’Angers
Examinateurs : Jean-Marc THIRIET Professeur à l’Université Joseph Fourier
Rachid OUTBIB Professeur à l’Université d’Aix-Marseille
Mustapha OULADSINE Professeur à l’Université d’Aix-Marseille
(Directeur de thèse)
El Mostafa EL ADEL Maı̂tre de Conférences à l’Université d’Aix-Marseille
(Co-directeur de thèse)
Invité : Jacques PINATON Ingénieur à STMicroelectronics Rousset
Laboratoire des Sciences de l’Information et des Systèmes – UMR CNRS 7296

Avenue Escadrille Normandie Niemen, 13397 Marseille Cedex 20
Tél : +33 (0)4 91 05 60 30 Fax : +33 (0)4 91 05 60 33
Mis en page avec la classe thloria.
Remerciements
Les travaux de recherche présentés dans ce mémoire ont été effectués au sein de l’équipe
ESCODI (EStimation COmmande et Diagnostic) dans le Laboratoire des Sciences de
l’Information et des Systèmes (LSIS – UMR 7296 CNRS).
Je tiens tout d’abord à exprimer mes sincères remerciements à Messieurs Mustapha

OULADSINE et El Mostafa EL ADEL pour leur constante disponibilité, leurs aides et
leurs encouragements qu’ils m’ont toujours prodigués ainsi que pour m’avoir fait bénéficier
amplement de leur rigueur scientifique, de leurs critiques objectives et de leurs conseils
avisés.
Je souhaite ensuite exprimer toute ma gratitude à Monsieur José RAGOT, Professeur

à l’INPL de l’Université de Lorraine, ainsi qu’à Monsieur Abdessamad KOBI, Professeur
à l’Université d’Angers, pour avoir accepté de juger ce travail en qualité de rapporteurs
et d’assister parmi le jury.
Mes remerciements s’adressent également à Monsieur Jean-Marc THIRIET, Profes-

seur à l’Université Joseph Fourier, à Monsieur Rachid OUTBIB, Professeur à l’Université
d’Aix-Marseille ainsi qu’à Monsieur Jacques PINATON, Ingénieur et chef d’équipe à ST-
Microelectronics Rousset, pour leur participation à ce jury de thèse.
Je n’oublie pas dans mes remerciements tous ceux et celles qui ont contribué à la
réussite de ces travaux, en particulier, Madame Bouchra ANANOU, Maı̂tre de Conférences
à l’Université d’Aix-Marseille.
Je remercie mes amis et mes collègues de laboratoire, pour l’ambiance conviviale qu’ils
ont contribuée à entretenir, les bons moments passés en leur compagnie ainsi que leur
sympathie.
Enfin, je ne saurais oublier de trop remercier mes parents pour leur soutien le long de
ce parcours.
i
ii
À mes très chers parents.
À ma femme et mon petit Yamène.
À mon frère et mes sœurs.
iii
iv
Table des matières
Table des figures ix
Références personnelles xi
Notations xiii
Introduction générale
1 Contexte et objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Organisation du rapport de thèse . . . . . . . . . . . . . . . . . . . . . . . 3
Chapitre 1
Supervision, surveillance et diagnostic
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Supervision des processus . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Concepts associés à la supervision des processus . . . . . . . . . . . 7
1.2.2 Les étapes de la supervision . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Théorie de la surveillance et du diagnostic . . . . . . . . . . . . . . . . . . 10
1.3.1 La surveillance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Diagnostic de défauts . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 Critères de performance pour la détection et le diagnostic . . . . . . 14
1.4 Techniques statistiques pour la détection et le diagnostic . . . . . . . . . . 15
1.4.1 Cartes de contrôle univariées . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2 Limitations des cartes univariées . . . . . . . . . . . . . . . . . . . 20
1.4.3 Extensions multivariées des cartes univariées . . . . . . . . . . . . . 21
1.4.4 Méthodes de projection . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.5 Interprétations des situations hors contrôle . . . . . . . . . . . . . . 25
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
v
Chapitre 2
Modélisation par analyse en composantes principales
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Analyse en composantes principales linéaire . . . . . . . . . . . . . . . . . 29
2.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Modélisation en absence de bruit . . . . . . . . . . . . . . . . . . . 34
2.3.2 Modélisation en présence de bruit . . . . . . . . . . . . . . . . . . . 36
2.4 Détermination d’une structure optimale du modèle ACP . . . . . . . . . . 36
2.4.1 Critères de la théorie de l’information . . . . . . . . . . . . . . . . . 36
2.4.2 Critères heuristiques . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.3 Minimisation de la variance de l’erreur de reconstruction . . . . . . 41
2.5 Etude comparative des différents critères . . . . . . . . . . . . . . . . . . . 45
2.5.1 Présentation et interprétation de l’exemple simulé . . . . . . . . . . 46
2.5.2 Interprétations des critères basés sur des seuils . . . . . . . . . . . . 48
2.5.3 Interprétations des critères minimisés . . . . . . . . . . . . . . . . . 51
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
Chapitre 3
Contribution au choix d’un modèle optimal par la variance non recons-
truite
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Détection et détectabilité de défauts . . . . . . . . . . . . . . . . . . . . . 64
3.2.1 Détectabilité généralisée de défauts . . . . . . . . . . . . . . . . . . 64
3.2.2 Influence de la modélisation sur la détectabilité de défauts . . . . . 71
3.3 Différentes variances non reconstruites . . . . . . . . . . . . . . . . . . . . 73
3.3.1 Principe de la reconstruction unidimensionnelle . . . . . . . . . . . 73
3.3.2 Variance non reconstruite généralisée . . . . . . . . . . . . . . . . . 74
3.3.3 Comportements des différents critères VNR . . . . . . . . . . . . . 76
3.4 Nouveaux critères VNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.4.1 VNR utilisant un nouvel indice combiné . . . . . . . . . . . . . . . 81
3.4.2 Changement de représentation des données . . . . . . . . . . . . . . 83
3.5 Résultats de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
vi
Chapitre 4
Théorie d’un diagnostic de défauts par ACP
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2 Isolation et isolabilité de défauts par reconstruction . . . . . . . . . . . . . 98
4.2.1 Généralisation de l’isolation et l’isolabilité de défauts . . . . . . . . 98
4.2.2 Analyse d’isolabilité par reconstruction de l’indice combiné versus
celles de SPE et T2 de Hotelling . . . . . . . . . . . . . . . . . . . 105
4.3 Diagnostic de défauts simples par les contributions . . . . . . . . . . . . . 107
4.3.1 Contributions par décomposition complète : CDC . . . . . . . . . . 109
4.3.2 Contributions par décomposition partielle : PDC . . . . . . . . . . 109
4.3.3 Contributions diagonales : DC . . . . . . . . . . . . . . . . . . . . . 112
4.3.4 Contributions par reconstruction : RBC . . . . . . . . . . . . . . . 112
4.3.5 Contributions par angle : ABC . . . . . . . . . . . . . . . . . . . . 113
4.3.6 Analyse de diagnosticabilité . . . . . . . . . . . . . . . . . . . . . . 113
4.4 Nouvelles approches pour un diagnostic de défauts multiples . . . . . . . . 115
4.4.1 Contributions par reconstruction multidimensionnelle . . . . . . . . 116
4.4.2 RBC ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.5 Exemple de synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.5.1 Diagnostic d’un défaut simple . . . . . . . . . . . . . . . . . . . . . 122
4.5.2 Diagnostic de défauts multiples . . . . . . . . . . . . . . . . . . . . 123
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
Conclusion générale & perspectives
Annexe A Limitation du critère VNR 137
Annexe B Limitation du critère IE 143
Annexe C Démonstration de la décroissance d’une fonction 145
Annexe D Consistance théorique du critère VNRVI 147
Annexe E Relation entre un seuil de contrôle et celui reconstruit 149
Annexe F Démonstrations d’unification 151
vii
Annexe G Invalidité d’un diagnostic par comparaison des RBC à leurs

seuils de contrôle 153
Références bibliographiques 155
viii
Table des figures
1.1 Ordonnancement des anomalies selon leur criticité (Adrot, 2000) . . . . . . 9

1.2 Les principales étapes de la supervision . . . . . . . . . . . . . . . . . . . . 10
1.3 Carte de contrôle typique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Illustration de l’inconvénient de l’utilisation des cartes univariées . . . . . . 21
2.1 Allures des critères de sélection pour l’ensemble A dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002 . . . . . . . . . . . . . 49
2.2 Allures des critères de sélection pour l’ensemble B dont les variables sont
2.3 Allures des critères de sélection pour l’ensemble C dont les variables sont
2.4 Allures des critères de sélection pour l’ensemble D dont les variables sont
3.1 Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et

VNRΨ sur tous les ensembles des variables avec un bruit i.i.d. de variance
σ 2 = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
σ 2 = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
σ 2 = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.4 Allures des nouveaux critères appliquées sur les ensembles A et B, respec-
tivement en 1ère et 2ème colonne, en considérant un bruit i.i.d. de variance
σ 2 = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.5 Allures des nouveaux critères appliquées sur les ensembles C et D, respec-
tivement en 1ère et 2ème colonne, en considérant un bruit i.i.d. de variance
σ 2 = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
4.1 Sous-espace d’isolabilité de défauts par reconstruction de l’indice combiné

en fonction de ceux des indices SP E et T 2 de Hotelling . . . . . . . . . . . 107
4.2 Sélection du nombre optimal des CPs . . . . . . . . . . . . . . . . . . . . . 120
4.3 Détection des défauts avec les différents indices . . . . . . . . . . . . . . . 121
4.4 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice SPE 124
ix
Table des figures
4.5 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice SWE 124
4.6 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice T2 . 125
4.7 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice ϕ . . 125
4.8 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice D . 126
4.9 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice SPE 126
4.10 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice SWE 127
4.11 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice T2 127
4.12 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice ϕ . 128
4.13 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice D . 128
4.14 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice SPE 129
4.15 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice SWE 129
4.16 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice T2 130
4.17 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice ϕ . 130
4.18 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice D . 131
x
Références personnelles
Conférences nationales
– B. Mnassri, E.M. El Adel, B. Ananou, and M. Ouladsine. Détection et Identification
de défauts par Analyse en Composantes Principales. In 3èmes Journées Doctorales
/ Journées Nationales MACS, Angers, France, 2009.
– B. Mnassri. Diagnostic de Défauts par Analyse en Composantes Principales. In
6èmes Journées des Doctorants du LSIS, Giens, Hyères, France, 2009.
Conférences internationales
– B. Mnassri, B. Ananou, E.M. El Adel, M. Ouladsine and F. Gasnier. Détection
et localisation de défauts des Wafers par des approches statistiques multivarièes et
calcul des contributions. In Conférence Internationale Francophone d’Automatique,
Bucarest, Romanie, 2008.
– B. Mnassri and E.M. El Adel and M. Ouladsine. Fault Localization Using Principal
Component Analysis Based on a New Contribution to the Squared Prediction Error.
In 16th IEEE Mediterranean Conference on Control and Automation, pages 65–70,
Ajaccio, France, 2008.
– B. Mnassri, E.M. El Adel, B. Ananou, and M. Ouladsine. Fault Detection and
Diagnosis Based on PCA and a New Contribution Plots. In 7th IFAC Symposium
on Fault Detection, Supervision and Safety of Technical Processes, pages 834–839,
Barcelona, Spain, 2009.
– B. Mnassri, E.M. El Adel, B. Ananou, and M. Ouladsine. A Generalized Variance of
Reconstruction Error Criterion for Determining the Optimum Number of Principal
Components. In 18th IEEE Mediterranean Conference on Control and Automation,
pages 868–873, Marrakech, Morocco, 2010.
– B. Mnassri, E.M. El Adel, M. Ouladsine and B. Ananou. Selection of the Number
of Principal Components Based on the Fault Reconstruction Approach Applied to
a New Combined Index. In 49th IEEE Conference on Decision and Control, pages
3307–3312, Atlanta, Georgia, USA, 2010.
– B. Mnassri, E.M. El Adel and M. Ouladsine. New VRE Criterion to Select the Opti-
mum Number of PCs. In 11th International conference on Sciences and Techniques
of Automatic control & computer engineering, pages 1–13, Monastir, Tunisia, 2010.
– B. Mnassri, E.M. El Adel and M. Ouladsine. Une généralisation sur les conditions
xi
Références personnelles
suffisantes de détectabilité de défauts multidimensionnels par ACP. In Conférence

Méditerranéenne sur l’Ingénierie Sûre des Systèmes Complexes, Agadir, Maroc,
2011.
– B. Mnassri, E.M. El Adel and M. Ouladsine. Inverse-Variance Weighting PCA-based
VRE criterion to select the optimal number of PCs. In 18th IFAC World Congress,
pages 2851–2856, Milano, Italy, 2011.
– B. Mnassri, E.M. El Adel and M. Ouladsine. Unified Sufficient Conditions for PCA-
based Fault Detectability and Isolability. In 8th IFAC Symposium on Fault Detec-
tion, Supervision and Safety of Technical Processes, pages 421–426, Mexico City,
Mexico, 2012.
– B. Mnassri, M. Ouladsine and E.M. El Adel. Diagnostic de défauts par l’approche
RBC ratio. In Conférence Internationale Francophone d’Automatique, pages 114–
119, Grenoble, France, 2012.
xii
Notations
X ∈ RN ×m Matrice de données représentant le fonctionnement normal

du processus
x ∈ Rm Vecteur d’observation de mesures des variables de X
X̊ ∈ RN ×m Matrice de données représentant le fonctionnement normal
du processus en l’absence de bruit de mesures
x̊ ∈ Rm Vecteur d’observation en l’absence de bruit de mesures
Σ ∈ Rm×m Matrice de covariance ou de corrélation de X
Σ̊ ∈ Rm×m Matrice de covariance ou de corrélation de X̊
T ∈ RN ×m Matrice de composantes principales de X
t ∈ Rm Vecteur d’observation de composantes principales de X
N Nombre d’échantillons mesurés
m Nombre de variables mesurées
` Nombre de composantes principales retenues dans le mo-
dèle ACP qui correspond aux données de X
k Indice du temps (numéro d’observation)
Y ∈ RN ×m Nouvelles données issues d’une transformation linéaire de
celles de X
y ∈ Rm Vecteur d’observation de mesures des variables de Y
S = Σ−1 Matrice de covariance de Y
κ Nombre de composantes principales retenues dans le mo-
dèle ACP qui correspond aux données de Y
P ∈ Rm×m Matrice des vecteurs propres de Σ
Λ ∈ Rm×m Matrice des valeurs propres de Σ
λa aème valeur propre de Σ
pa ∈ Rm aème vecteur propre de Σ correspondant à λa
P̂ ∈ Rm×` Matrice des ` premiers vecteurs propres de Σ
P̃ ∈ Rm×(m−`) Matrice des (m − `) derniers vecteurs propres de Σ
Ĉ ∈ Rm×` Matrice représentant le modèle ACP des données de X
γ = xT M x Indice de détection quelconque ayant une forme quadra-
tique
xiii
Notations
Γ2 Seuil de contrôle correspondant à l’indice γ

M Matrice de γ
ξj ∈ Rm Vecteur qui représente la jème colonne de la matrice iden-
tité Im ∈ Rm×m
Fj Défaut réel de type simple porté par la direction de ξj
ΞJ ∈ Rm×r Matrice orthonormée composée des r correspondantes co-
lonnes de la matrice identité Im
FJ Défaut réel de type multiple porté par les directions qui
correspondent aux colonnes de ΞJ
r Nombre de variables réellement en défaut
J Index de l’ensemble composé par les r variables réellement
en défaut
I Index d’un ensemble composé par r variables supposées en
défaut
xi ∈ Rm Vecteur d’observation dont la ième variable est reconstruite
xI ∈ Rm Vecteur d’observation dont les variables constituant l’en-
semble I sont reconstruites
xiv
1 Contexte et objectifs
L’anticipation et la correction à temps des pannes et des défaillances dues générale-
ment à des anomalies dans les procédés évitent sans doute la baisse de productivité des
processus industriels. En revanche, le moindre dysfonctionnement dans un processus peut
entraı̂ner de lourdes conséquences dans un monde économiquement parlant très concur-
rentiel où la qualité et plus particulièrement le rendement sont des atouts cruciaux. En
l’occurrence, le génie de l’homme qui est au service des besoins de celui-ci a été l’origine
des progrès industriels durant les derniers siècles favorisant pour autant les essors des
industries à risques. Celles-ci présentent des dangers potentiels qui ont plus ou moins dé-
frayé la chronique en émergeant ainsi le monde dans un tourbillonnement de mesures sur
la prévention de tels risques. Outre les enjeux économiques et ceux de la qualité des pro-
duits, il y a en réalité d’autres intérêts plus prioritaires afin d’assurer un fonctionnement
normal de processus. En effet, la détection ou même l’anticipation d’une défaillance au
début de son apparition peut éviter de grands dommages et catastrophes. Par conséquent,
la détection et le diagnostic de défauts des processus industriels représentent un intérêt
capital.
La connaissance profonde de la dynamique des processus est indispensable pour une
interprétation de leurs déréglages. En l’occurrence, les systèmes industriels se complexi-
fient avec l’automatisation des processus ainsi que d’autres facteurs. Malgré la complexité,
ils doivent assurer quand même les fonctions pour lesquelles ils ont été conçus, notam-
ment la sûreté de leur fonctionnement. Les processus complexes se caractérisent par un
environnement ouvert où l’incertitude, l’imprédictibilité et la dynamique des phénomènes
rendent les décisions difficiles (Gentil, 2007). Entre autres, et pour de tels processus ou
ceux de types boites noires, il est souvent compliqué de créer des modèles mathématiques.
Même si la réalisation de tels modèles est possible, les approches analytiques présentent
une description insuffisante des fonctionnements de processus. Néanmoins, les approches
permettant de définir les états de fonctionnement en s’appuyant sur l’analyse statistique
des données de ces processus peuvent jouer un rôle important pour la détection et le
diagnostic des défauts. Ainsi, les statistiques multivariées ont été l’origine de nombreuses
techniques exploitées pour un contrôle statistique.
En effet, les cartes de contrôle sont les outils finaux d’une mise en œuvre d’un contrôle
statistique de processus. Elles permettent la visualisation de l’évolution temporelle d’un
processus afin de détecter les changements susceptibles de modifier ses performances. En
revanche, la dimensionnalité des processus et les colinéarités qui peuvent exister entre les
1
variables limitent l’efficacité en terme d’isolation de défauts par l’interprétation directe de

telles cartes. Pour cela, la réduction de la dimension de l’espace des variables en utilisant les
méthodes de projection comme l’analyse en composantes principales (ACP) peut révéler
des informations cachées mieux interprétables.
L’objectif de la réduction de données pour une analyse statistique multivariée est
d’assurer la simplicité pour la visualisation tout en conservant suffisamment d’informa-
tions pour une interprétation appropriée d’un déréglage. La plupart des approches qui
réduisent la dimension d’un espace multivarié s’appuient sur l’utilisation de ce qu’on
appelle variables latentes ou cachées. Ces dernières représentent des variables virtuelles
construites dans le but de comprendre un intérêt caractéristique qui ne peut pas être me-
suré directement. Bien que les variables latentes ne soient pas observables, elles ont quand
même un certain impact sur les variables originelles de processus et par conséquent, elles
sont soumises à une analyse. Les variables latentes sont généralement définies comme une
combinaison linéaire des variables originelles. Notamment, l’ACP qui est une méthode
révélatrice d’informations latentes est particulièrement adaptée à l’analyse des données
corrélées.
La surveillance et le diagnostic de défauts des processus en utilisant l’ACP ont reçu
une attention considérable. En effet, l’ACP permet de mettre en évidence les corrélations
linéaires significatives entre les variables du processus par la génération d’un modèle ACP
basé sur la connaissance issue du système sans pour autant ni formuler ni avoir une forme
explicite d’un modèle entrées/sorties. Ainsi, toutes les corrélations entre les différentes
variables sont prises en considération dans le modèle ACP. Cette approche représente un
outil de modélisation du comportement de processus plus particulièrement en fonctionne-
ment normal. Ainsi, les défauts sont alors détectés en comparant le comportement observé
à celui donné par le modèle ACP. Plus précisément, la phase de détection de défauts est
liée à une étape génératrice de résidus ou plutôt d’indices de détection basés sur une es-
timation paramétrique (Isermann, 2011). Une telle étape se résume dans la génération, à
partir des mesures observées et d’un modèle ACP représentant un fonctionnement nor-
mal du processus, des indices sous forme de signaux révélateurs de défauts. A partir de
la comparaison de ces signaux à des tolérances caractérisant le comportement normal en
considérant notamment leurs aspects non déterministes, l’étape de détection doit alors
indiquer la présence ou non de défauts (Kresta et al., 1991; Harkat, 2003).
La littérature révèle une abondance d’approches différentes qui ont pour autant un
seul objectif qui est le diagnostic de défauts par ACP. Or, la définition et le principe
mathématique de l’ACP ont déjà fait l’unanimité depuis des décennies. On se demande
alors pourquoi toutes ces contributions enrichissantes qui ne cessent d’accroı̂tre au fil du
temps en nombre ainsi qu’en forme ? En effet, une réponse apparaı̂t immédiatement :
l’ACP n’est qu’un outil mathématique dont la manière d’exploiter son avantage pour un
diagnostic se distingue et s’interprète différemment d’une approche à l’autre. Ainsi, la
question qui devrait être posée est plutôt comment exploite-t-on un tel outil ?
Puisque l’ACP est une méthode de projection afin de réduire les données, la première
étape lors de son utilisation repose sur la modélisation de processus en essayant de dé-
terminer une structure adaptée du modèle ACP. Dans ce cadre, la littérature a offert
plusieurs critères de choix de la dimension d’un tel modèle. Pour cela, nous allons essayer
de répondre à certaines interrogations. Notamment : pour quels objectifs et pourquoi ces
2
2. Organisation du rapport de thèse
critères ont-ils pris de différentes formes ? Sur quelles hypothèses sont-ils basés et quelles
sont leurs limitations ? Ces dernières sont-elles prouvables mathématiquement et ont-elles
un rapport avec un type particulier de variables ? Existe-t-il un inconvénient commun ?
La modélisation a-t-elle une influence sur la détectabilité de défauts et quelles solutions
pouvons-nous apporter ?
Un diagnostic de défauts par ACP est généralement basé sur deux principales ap-
proches. La première et la plus classique représente le calcul des contributions aux indices
de détection. La deuxième approche est fondée sur le principe de reconstruction de tels
indices. Sous cette optique, nos objectifs s’articulent autour des questions suivantes :
qu’est-ce qu’une contribution et pourquoi a-t-elle été proposée pour des indices particu-
liers et non pas pour d’autres ? Peut-elle garantir un diagnostic correct et pour quels types
de défauts est-elle valable ? Que pouvons-nous proposer comme améliorations ? Dans le
cadre de l’ACP, le concept d’isolabilité de défauts par reconstruction des indices de détec-
tion est négligemment étudié en le développant par reconstruction uniquement de l’indice
SP E. Pour cela, est-il possible d’étendre un tel concept aux autres indices ? Pour quelle
raison ?
La reconstruction aboutit à des indices de détection insensibles aux défauts et ayant
une forme quadratique permettant d’établir des seuils de tolérances pour l’isolation de
défauts complexes. Entre autre, quelques approches de contributions disposent aussi d’une
forme quadratique, ce qui permet d’établir des limites de contrôle. Dans ce cadre, on se
demande si ces limites sont-elles valides ? Sinon, que peut-on envisager comme solution
afin d’isoler les défauts complexes en utilisant le principe de contribution ? Enfin, peut-on
décider laquelle est meilleure pour un diagnostic fiable, l’approche des contributions ou
celle de reconstruction d’indices ?
2 Organisation du rapport de thèse

La présente thèse se divise en quatre chapitres organisés de la manière suivante :
Le premier chapitre présente des généralités principalement sur la détection et le diag-
nostic de défauts des processus. Les concepts généraux ainsi que les théories respecti-
vement de la supervision et plus particulièrement de la surveillance et le diagnostic de
processus sont introduits. Les caractéristiques de tels processus ainsi que d’autres enjeux
peuvent imposer des types de méthodes pour la surveillance et le diagnostic. En s’appuyant
sur les avantages d’un contrôle statistique de processus, ce chapitre présente également
un sommaire des techniques statistiques ainsi que leurs extensions et évolutions pour la
détection et le diagnostic des défauts de processus. L’objectif étant d’éclaircir l’intérêt
de l’utilisation des méthodes de projection comme l’analyse en composantes principales
linéaire et ses extensions.
Le deuxième chapitre présente un rappel du principe mathématique de l’ACP linéaire.
En prouvant qu’une telle approche est un outil de modélisation, un choix d’une structure
adaptée du modèle ACP reste une problématique. Pour cela, il semblerait utile de rappeler
les propriétés de la modélisation par ACP en essayant de comprendre la structure d’un
modèle optimal en l’absence de bruit. Dans la pratique, la présence de bruit dans les
données est inévitable compliquant ainsi la détermination d’une telle structure. Dans ce
3
cadre, quelques critères de choix parmi les plus connus dans la littérature sont étudiés
et comparés les uns aux autres à travers un exemple simulé. Ce chapitre présente deux
démonstrations montrant les limitations de deux critères en concluant également que
le problème souvent rencontré par l’utilisation de tels critères est lié à la présence des
variables indépendantes et quasi-indépendantes.
Le troisième chapitre présente principalement nos contributions dans le choix d’un
modèle ACP en s’appuyant sur le principe de la variance de l’erreur de reconstruction.
Afin de prouver l’importance de la précision dans le choix de la dimension d’un tel modèle,
les concepts de la détection ainsi que la détectabilité de défauts sont introduits. L’objectif
étant de montrer les influences de la modélisation suite à une sous-estimation comme
une surestimation du modèle sur la qualité de la détection de défauts. En essayant de
remédier à l’inconvénient du critère classique de la variance non reconstruite dans le choix
du modèle, plusieurs autres variances sont révélées et analysées théoriquement. Cela a
permis la distinction d’un premier critère empirique suivi par la proposition d’un deuxième
nouveau critère du même principe mais basé sur la variance de l’erreur de reconstruction
d’un nouvel indice combiné. En s’appuyant sur un changement de représentation des
données, un troisième nouveau critère faisant la particularité est également proposé en
établissant théoriquement les conditions de son efficacité. Les performances des différents
critères proposés sont illustrées à travers l’exemple de simulation du deuxième chapitre.
Le quatrième et dernier chapitre est dédié à la théorie d’un diagnostic de défauts par
ACP en s’appuyant plus particulièrement sur deux principales approches telles que les
contributions et la reconstruction des indices de détection. Cette dernière garantit l’iden-
tification de tout type de défauts. Néanmoins, l’isolation de ces défauts n’est garantie que
sous une condition établie à l’aide d’un concept d’isolabilité de défauts. Celui-ci représente
un des principaux objectifs de ce chapitre. Un tel concept est étendu à tous les indices
de détection en permettant l’élaboration d’une analyse théorique d’isolabilité de défauts
par reconstruction de l’indice combiné versus une reconstruction des indices SP E et T 2
de Hotelling. Les contributions sont dédiées au diagnostic des défauts simples. Dans ce
cadre, une nouvelle méthode de contribution par décomposition de l’indice SP E est pro-
posée. Ce chapitre est également enrichi par deux nouvelles approches de contributions
dans l’objectif est de garantir un diagnostic correct de défauts multiples ayant de grandes
amplitudes et l’isolation de défauts plus complexes. Un exemple de synthèse est utilisé
pour appliquer les différentes méthodes proposées.
4
1
Supervision, surveillance et diagnostic
Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Supervision des processus . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Concepts associés à la supervision des processus . . . . . . . . 7
1.2.2 Les étapes de la supervision . . . . . . . . . . . . . . . . . . . . 9
1.3 Théorie de la surveillance et du diagnostic . . . . . . . . . . . 10
1.3.1 La surveillance . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Diagnostic de défauts . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2.1 Caractéristiques des défauts . . . . . . . . . . . . . . 12
1.3.2.2 Principe du diagnostic . . . . . . . . . . . . . . . . . . 13
1.3.3 Critères de performance pour la détection et le diagnostic . . . 14
1.4 Techniques statistiques pour la détection et le diagnostic . . 15
1.4.1 Cartes de contrôle univariées . . . . . . . . . . . . . . . . . . . 15
1.4.1.1 Définitions des cartes de contrôle . . . . . . . . . . . . 16
1.4.1.2 Rôle et critères de performance des cartes univariées . 16
1.4.1.3 Aperçu sur les cartes univariées . . . . . . . . . . . . 18
1.4.2 Limitations des cartes univariées . . . . . . . . . . . . . . . . . 20
1.4.3 Extensions multivariées des cartes univariées . . . . . . . . . . 21
1.4.4 Méthodes de projection . . . . . . . . . . . . . . . . . . . . . . 22
1.4.4.1 Intérêt de la projection . . . . . . . . . . . . . . . . . 23
1.4.4.2 Différentes extensions de l’ACP . . . . . . . . . . . . 23
1.4.5 Interprétations des situations hors contrôle . . . . . . . . . . . 25
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5
Chapitre 1. Supervision, surveillance et diagnostic
1.1 Introduction
Dans les processus industriels, la majorité des pannes causant une baisse de la pro-
duction est généralement due à des anomalies dans le procédé qui n’ont pas été corrigées
à temps. En plus des contraintes de la qualité des produits et celles économiques, il y
a plusieurs autres intérêts afin d’assurer un fonctionnement normal pour ces processus.
La détection, ou même l’anticipation d’une défaillance au début de son apparition peut
éviter de grands dommages et catastrophes. Par conséquent, la détection et le diagnostic
des défaillances de processus représentent un intérêt capital.
Pour les processus complexes ou ceux de type boites noires, il est souvent très compli-
qué voire impossible de leur établir des modèles mathématiques. Même si la réalisation de
tels modèles est possible, les approches analytiques présentent toujours une vision insuffi-
sante des fonctionnements des processus (Verron et al., 2008). Une connaissance profonde
de la dynamique de ces processus est un atout primordial pour une interprétation fiable
de leurs déréglages. Dans ce cadre, les approches qui permettent l’identification des états
de fonctionnement en se basant sur l’analyse des informations extraites des données ou
des mesures des processus peuvent apportées une aide avantageuse pour la détection et
le diagnostic de défauts. Plus particulièrement, les approches statistiques sont parmi les
techniques les plus exploitées dans ce contexte.
La surveillance de processus en s’appuyant sur une analyse des mesures a pour but
la détection des variations survenues dans les variables caractéristiques de tels processus.
Pour prendre les actions correctives nécessaires afin d’améliorer le processus, un diagnostic
doit être mené pour l’isolation des défauts causant ces variations. Le principe d’une telle
analyse repose sur une maı̂trise ou un contrôle statistique de processus. Une telle discipline
est la traduction intégrale de celle en anglais statistical process control largement connue
dans la littérature sous l’abréviation du SPC. Le contrôle statistique de processus a été
initié par W.A. Shewhart en 1924 aux Etats-Unis. C’est en étudiant la variabilité des
particules dans des fluides que Shewhart a inventé la célèbre carte de contrôle (Shewhart,
1931). Oubliée depuis, ce n’est qu’à partir des années soixante après la deuxième guerre
mondiale qu’il y a eu réellement regain d’intérêt pour cette discipline, et c’est au Japon
qu’elle a vite pris racine. La maı̂trise statistique de processus a fortement contribué à
l’amélioration de la qualité des produits japonais, ce qui explique entre autre le fabuleux
succès industriel et économique qu’a connu ce pays. Son apparition en Europe débuta à
partir de la fin des années 70, poussée par les effets de la mondialisation, des échanges et
de l’accroissement de la concurrence internationale. Une telle maı̂trise statistique reposait
encore sur des techniques univariées. A cette époque, beaucoup d’améliorations ont été
proposées mais peu de chercheurs s’intéressaient à ces méthodes statistiques. L’activité
de recherche a connu une dynamique très importante à partir des années 80 (Zaı̈di, 1989;
Elbekkaye, 1993).
De nos jours, ces méthodes statistiques sont utilisées dans de nombreux secteurs pour
le contrôle des processus, la détection et la prévention de leurs défauts. Les cartes de
contrôle uni et/ou multivariées sont les outils finaux d’une mise en œuvre d’un contrôle
statistique de processus. Elles servent à visualiser l’évolution temporelle d’un processus
et à détecter les changements susceptibles de modifier ses performances. En revanche,
les corrélations entre les variables ont été une cause principale limitant l’efficacité de
6
1.2. Supervision des processus
l’utilisation de la carte univariée en ouvrant ainsi les portes aux notions multivariées.
La plus célèbre carte de contrôle multivariée est celle de la T 2 de Hotelling (Hotelling,
1947). Le contrôle multivarié a la capacité de combiner des mesures multidimensionnelles
en une seule mesure de performance. Néanmoins, la dimensionnalité des processus et
les colinéarités qui peuvent exister entre les variables limitent également l’efficacité en
termes de détection et d’isolation de défauts par l’interprétation directe de telle carte. La
réduction de la dimension de l’espace des variables en utilisant les méthodes de projection
comme l’analyse en composantes principales peut révéler des informations cachées mieux
interprétables et exploitables.
Ce chapitre tracera, dans la deuxième et la troisième section, les principaux concepts
définissant la supervision et plus particulièrement la surveillance et le diagnostic de pro-
cessus. La quatrième section présentera un sommaire des approches statistiques ainsi que
leurs extensions et évolutions pour la détection et le diagnostic. L’objectif de cette sec-
tion est de mettre en contexte l’intérêt de l’utilisation des méthodes de projection, en
particulier l’analyse en composantes principales linéaire et ses extensions.
1.2 Supervision des processus

Dans un contexte économique de productivité et de flexibilité, la supervision a béné-
ficié d’une avancée technologique exceptionnelle née du besoin d’un outil de visualisation
des processus industriels. A ses débuts, elle se composait d’un grand tableau mural re-
présentant la vision des opérateurs du processus industriel. Avec l’essor informatique, les
voyants ont été remplacés par des écrans et des claviers. Le but restait le même : contrôler
et commander un processus industriel.
La supervision établit l’état actuel du système pour pouvoir prendre des décisions
et pouvoir maintenir ses critères de performance (qualité, rentabilité, sûreté, etc.). Elle
consiste à surveiller l’état de fonctionnement d’un procédé pour l’amener et le maintenir
à son point de fonctionnement normal. En effet, la supervision a pour vocation première
d’émettre des alarmes dont l’objectif est d’attirer l’attention de l’opérateur de supervision
sur l’apparition d’un ou de plusieurs événements susceptibles d’affecter le bon fonctionne-
ment du système. Compte tenu de la complexité des procédés, la génération d’alarmes est
le moyen le plus employé pour avertir l’opérateur de l’occurrence d’un événement anormal.
Les alarmes sont donc liées aux dysfonctionnements pouvant apparaı̂tre sur le processus.
Pour cela, il est important de préciser le sens accordé aux termes employés pour évoquer
les dysfonctionnements pouvant survenir dans le système.
1.2.1 Concepts associés à la supervision des processus

Après avoir décrire le rôle de la supervision, il reste alors à présenter ses principales
étapes. Néanmoins, il est question de donner tout d’abord les différents concepts rencon-
trés dans la littérature concernant la supervision, la détection et le diagnostic de défauts,
car de bons supervision, détection et diagnostic nécessitent une bonne compréhension des
ces notions. En se référant à la littérature, on reconnaı̂t immédiatement que la termino-
logie dans ce domaine n’est pas uniforme. En effet, les définitions peuvent présenter des
7
différences provenant du fait que la supervision, la détection et le diagnostic de défauts

peuvent être abordés de différentes manières selon l’origine et la formation des interve-
nants (Zwingelstein, 1995; Isermann et Ballé, 1997; Hernández-De-León, 2006).
• Un système est dans un état de fonctionnement normal si ses variables carac-
téristiques (variables d’état, variables de sortie, variables d’entrée, paramètres du
système) demeurent au voisinage de leurs valeurs nominales. Le système est dit
défaillant dans le cas contraire ;
• Une anomalie représente une condition anormale diminuant ou supprimant l’ap-
titude d’un ensemble (de composants) à accomplir une fonction requise. Ce terme
générique permet de décrire tout ce qui n’est pas conforme à une référence ;
• Une défaillance est l’altération ou la cessation de l’aptitude d’un ensemble (de
composants) à accomplir sa ou ses fonctions requises avec les performances définies
dans les spécifications techniques. Après défaillance d’une entité, celle-ci est en état
de panne. La défaillance est un passage d’un état à un autre, par opposition à une
panne qui est un état ;
• Une dégradation caractérise le processus qui amène à un état défaillant du procédé ;
• Un défaut se définit comme une anomalie du comportement d’un système sans
forcément remettre en cause sa fonction mais peut présager d’une défaillance à
venir ;
• Une panne caractérise l’inaptitude d’un dispositif à accomplir une fonction requise.
Un système est généralement considéré en panne dès l’apparition d’une défaillance.
Ainsi, la panne est la cause de l’apparition des symptômes ;
• Un symptôme est l’événement qui révèle d’un dysfonctionnement. Il s’agit de l’effet
conséquent d’un comportement anormal. Ainsi, il est le seul signe dont dispose le
système de surveillance au moment de la détection d’une anomalie.
Pour parvenir à déterminer et caractériser les anomalies d’un système, on fait néces-
sairement référence à des informations sur le comportement et/ou le fonctionnement du
système considéré. Ces informations sont généralement extraites des observations de l’en-
vironnement du système ou de sa modélisation de connaissance. Pour cela, les définitions
des termes observation, mesure et signe (Zwingelstein, 1995; Ploix, 1998; Vellemans, 2006)
sembleraient également essentielles :
• Une observation est une information obtenue à partir du comportement ou du
fonctionnement réel du processus ;
• Une mesure est une observation élémentaire du fait qu’elle reflète une et une seule
grandeur physique. Elle est représentée par une variable dont le contenu est l’image
d’une grandeur physique. Son obtention s’effectue par l’intermédiaire d’un système
physique (capteur). Ainsi, les mesures peuvent être de différentes natures :
3 qualitatives : représentées par un ensemble fini de modalités dont chacune est
associée à un symbole ;
3 quantitatives : dont les valeurs appartiennent à l’ensemble des réels ;
3 logiques : valeurs tout ou rien {vrai, faux} souvent elles correspondent respecti-
vement aux valeurs {0, 1} ;
3 floues : représentées par des fonctions d’appartenance, dont les valeurs sont com-
prises dans l’intervalle [0, 1].
• Un signe est le caractère distinctif d’un état comportemental anormal. Il est ca-
8
1.2. Supervision des processus
}
Défaut
Défaillance Anomalies
Normal Panne
}
Signe
Observations
Symptôme
Limite de Limite de Plus de Criticité des

comportement fonctionnement fonctions anomalies
normal normal assurées
Figure 1.1 – Ordonnancement des anomalies selon leur criticité (Adrot, 2000)
ractérisé par un ensemble d’observations en provenance d’un système physique et

révèle la présence d’un défaut.
La distinction entre ces définitions est établie en considérant les aspects comportemen-
taux et fonctionnels (Ploix, 1998; Hernández-De-León, 2006). Un défaut (comportement)
n’entraı̂ne pas forcément une défaillance (fonctionnelle), c’est-à-dire une impossibilité pour
le procédé d’accomplir sa tâche. Le défaut n’induit pas nécessairement une défaillance mais
il en est la cause. En outre, une panne résulte toujours d’une ou de plusieurs défaillances
qui elles-mêmes résultent d’un ou de plusieurs défauts. Finalement, on utilise également
le terme plus générique d’anomalie pour évoquer une particularité non-conforme à une
référence comportementale ou fonctionnelle. Par mesure de simplicité, on peut employer
de façon équivalente les termes défaut, défaillance et panne puisqu’ils sont des anomalies.
La distinction entre les termes symptôme et signe s’apparente donc à la différence
entre les notions de défaut et de défaillance. Un symptôme révélateur d’une défaillance
est nécessairement un signe, alors qu’un défaut se manifeste à travers des signes qui
ne sont pas nécessairement des symptômes. Les symptômes et les signes sont alors des
observations. Dans ce cadre, Adrot (2000) a établi un ordonnancement des anomalies selon
leur criticité afin de révéler l’étendue de leurs effets sur le fonctionnement d’un processus
(figure 1.1).
1.2.2 Les étapes de la supervision

Le mot supervision est abondamment utilisé par la communauté des automaticiens.
Bien qu’il n’est pas évident d’en donner une définition qui fait l’unanimité. La supervision
est généralement présentée comme étant la commande et la surveillance de l’exécution
d’une opération ou d’un travail accompli par d’autres agents (hommes ou machines).
Notamment, elle regroupe l’ensemble des outils et méthodes qui permettent de conduire
des installations industrielles tant en fonctionnement normal qu’en présence de défaillances
ou de perturbations.
Pour mener correctement la supervision d’un processus, il est nécessaire de définir l’en-
9
Supervision
Connaissances sur le comportement

du système (modèle comportemental, Connaissances des modes
défauts, classes fonctionnelles, etc.) de fonctionnement
Détection : identification Identification

de l'état du système et isolation des causes
(normal ou anormal) de défaillance
Symptômes, Attributs Prise de décisions
Surveillance Diagnostic Maintenance
Acquisition Actions
mesures
Processus
Figure 1.2 – Les principales étapes de la supervision
semble des étapes que peut inclure. Dans ce cadre, la littérature a offert plusieurs propo-
sitions. Comme exemple, Breuker et Van De Velde (1994) ont fourni une large perspective
en suggérant que les étapes d’une supervision se succèdent en une chaı̂ne de planification,
prédiction, surveillance, diagnostic et affectation des tâches pour le contrôle du processus
et la manipulation des dispositifs. Néanmoins, il y a quelques tâches infaisables en ligne.
Ainsi, Acosta et al. (2001) ont encore utilisé une représentation plus différente en pro-
posant une supervision dite globale constituée de huit étapes fondamentales qui sont : la
surveillance, le diagnostic, l’évaluation d’état, le mode de fonctionnement, le pronostic, la
planification, l’interface HM et la validation des données.
Malgré la diversité des propositions, le plus souvent la supervision prend en compte
trois étapes principales, notamment la surveillance, le diagnostic et la reconfiguration (ou
prise de décision). Ces étapes peuvent être assurées par des algorithmes (machines) comme
par un ou plusieurs opérateurs humains.
L’étape de la surveillance (ou monitoring) traite les données recueillies en ligne afin
d’obtenir l’état de fonctionnement du processus. En présence des anomalies, le diagnostic
consiste à estimer leurs causes afin que des actions de corrections soient prises (reconfi-
guration). Dans ce contexte, la figure 1.2 présente un schéma récapitulatif retraçant les
principales étapes de la supervision d’un processus.
1.3 Théorie de la surveillance et du diagnostic

La thématique de la surveillance et du diagnostic des systèmes a fait l’objet de nom-
breux travaux de recherche depuis des années. La diversité dans les approches du diag-
nostic des systèmes semble être souvent le résultat de contextes différents notamment en
ce qui concerne les applications visées et le cahier des charges qui en résulte. Les infor-
mations relatives au système et aux types de défauts à détecter peuvent conduire à la
10
1.3. Théorie de la surveillance et du diagnostic
mise en œuvre de méthodes spécifiques. Par exemple, si seules des données entrée/sortie
sont disponibles sur le système, une méthode par apprentissage semblera naturellement
adaptée, par contre si un modèle mathématique est disponible, les méthodes analytiques
pourront être privilégiées.
1.3.1 La surveillance
La surveillance d’un système a pour objectif de déceler les comportements qui diffèrent
d’un fonctionnement normal. De manière générale, les méthodes de surveillance peuvent
être classées en deux catégories : celles pour qui seules les données acquises sur le processus
considéré permettant de caractériser son mode de fonctionnement et celles basées sur un
modèle décrivant le comportement du système à surveiller. Face à la complexité plus
particulièrement des grands systèmes, la surveillance se doit être robuste vis-à-vis des
incertitudes et erreurs qui entachent tant les modèles que les données.
Le rôle de la surveillance est de veiller sur les évolutions du comportement du sys-
tème et de collecter des informations pertinentes pour la prise de décisions dans le cas
d’une défaillance. Elle joue donc un rôle clef dans la phase d’exploitation des systèmes en
regroupant ainsi deux principales fonctions. Le suivi du système a pour objectif l’acqui-
sition de ses données. Ces dernières sont utilisées pour la reconstitution de l’état réel du
système. A partir de l’analyse en temps réel de données recueillies en ligne, la surveillance
nécessite donc une prise de décision rapide et implique, de ce fait, une prise en compte
impérative du facteur temps. La fonction du suivi maintient en permanence un historique
des traitements effectués ainsi qu’une trace des événements observés par la supervision.
En plus de l’acquisition de données, la deuxième fonction qui est la détection consiste
essentiellement à révéler la présence d’un défaut. Ceci implique qu’une telle fonction per-
met de déterminer la normalité ou l’anormalité du fonctionnement de processus. En outre,
elle peut être également révélatrice du moment de l’apparition de l’événement défectueux
(Isermann et Ballé, 1997; Fortuna et al., 2006).
1.3.2 Diagnostic de défauts

Un diagnostic est le raisonnement menant à l’identification de la cause (origine) d’une
anomalie (défaut, défaillance, panne) à partir des informations révélées par les observa-
tions (mesure, signe, symptôme). Le diagnostic établit un lien de cause à effet entre un
symptôme observé et la défaillance survenue, ses causes et ses conséquences. Dans ce
cadre, l’implantation d’une démarche du diagnostic doit apporter des réponses aux ques-
tions suivantes en ce qui concerne ses objectifs, ses principes de mises en œuvre et ses
critères d’évaluation :
• Objectifs : que veut-on surveiller ? Quels types de défauts doit-on détecter ?
• Principes : Quel est le principe du diagnostic à mettre en œuvre ?
• Critères : quelles sont les performances attendues ? Quels sont les indices d’évalua-
tion de ces performances ?
11
1.3.2.1 Caractéristiques des défauts
La première question que l’on se pose, lorsque l’on conçoit une démarche du diagnostic,
est de savoir ce que l’on veut détecter, c’est-à-dire de définir le type de dysfonctionnement
que l’on veut diagnostiquer et donc les défauts susceptibles d’altérer le bon fonctionnement
du système. Un défaut est défini comme une déviation non autorisée d’au moins une
propriété caractéristique d’une variable de son comportement acceptable. Par conséquent,
le défaut est un événement qui peut mener au dysfonctionnement du système. Dans ce
cadre, l’étude des caractéristiques des défauts a abouti à une distinction entre leurs classes,
types et formes (Isermann, 1997, 2005; Fortuna et al., 2006).
Pour le diagnostic, la façon dont les défauts agissent sur le système (défauts additifs
ou multiplicatifs) revêt un intérêt particulier. Ces classes de défauts sont aussi désignées
dans la littérature de la surveillance par les termes de défauts paramétriques (pour les
défauts multiplicatifs) et non paramétriques (pour les défauts additifs) :
• Défauts additifs : ce sont représentés par des signaux d’entrées du système. Ces
entrées sont inconnues et non contrôlées ;
• Défauts multiplicatifs : désignent un changement de la valeur d’un paramètre du
système (constante de temps d’un capteur par exemple).
Les défauts sont des événements qui apparaissent à différents endroits du système.
Cela a fait l’objet d’une distinction des types de défauts en fonction de leur localisation
ou de leurs sources :
• Défauts capteurs : ce type des défauts est la cause d’une mauvaise image de l’état
physique du système. Un défaut capteur partiel produit un signal avec plus ou moins
d’adéquation avec la valeur vraie de la variable à mesurer. Ceci peut se traduire par
une réduction de la valeur affichée par rapport à la valeur vraie, ou de la présence
d’un biais ou de bruit accru empêchant une bonne lecture. Un défaut capteur total
produit une valeur qui n’est pas en rapport avec la grandeur à mesurer ;
• Défauts actionneurs : ces défauts agissent au niveau de la partie opérative et dété-
riorent le signal d’entrée du système. Ils représentent une perte totale (défaillance)
ou partielle d’un actionneur agissant sur le système. Un exemple de perte totale
d’un actionneur est un actionneur qui est resté bloqué sur une position entraı̂nant
une incapacité à commander le système par le biais de cet actionneur. Les défauts
actionneurs partiels sont des actionneurs réagissant de manière similaire au régime
nominal mais en partie seulement, c’est-à-dire avec une certaine dégradation dans
leur action sur le système (perte de puissance d’un moteur, fuite dans un vérin,
etc.) ;
• Défauts composants ou systèmes : ce type des défauts provient du système lui-même ;
bien souvent les défauts n’appartenant pas à un défaut capteur ou actionneur sont
classés de manière arbitraire dans cette catégorie. Néanmoins, un défaut compo-
sant résulte de la casse ou de l’altération d’un composant du système réduisant les
capacités de celui-ci à effectuer une tâche. En pratique, ceci revient à considérer
une modification des caractéristiques du système proprement dit (une chaufferie est
cassée, un roulement est altéré, etc.).
On peut également citer d’autres types de défauts comme les défauts de l’unité de
traitement ou de commande et les défauts qui sont dus à l’opérateur humain. Qu’il s’agisse
12
1.3. Théorie de la surveillance et du diagnostic
des défauts inhérents aux capteurs, aux actionneurs ou aux composants du système, ils se
manifestent tous par une altération des signaux associés.
L’évolution temporelle des défauts mène à la distinction entre quatre formes tels que
les biais, les dégradations, les dérives et les points aberrants. Généralement, un biais cor-
respond à un saut brutal (brusque) du signal. Cependant, une dérive se manifeste par
une évolution anormale lente et continue du signal donc un éloignement progressif de sa
valeur nominale. Ainsi, les phénomènes de dérive sont plus longs à détecter du fait de
leur faible amplitude à l’origine et de leur lente évolution. En revanche, les dégradations
prennent souvent des valeurs aléatoires et n’obéissent à aucune loi de distribution. Les va-
leurs aberrantes sont des défauts dits fugitifs. Ces derniers affectent le système de manière
instantanée et leur cause est souvent due à un parasite, par exemple une perturbation élec-
tromagnétique. Les valeurs aberrantes correspondent à un écart important par rapport à
la valeur nominale du signal.
1.3.2.2 Principe du diagnostic

Selon, le contexte et le domaine d’application, le mot diagnostic peut avoir plusieurs
interprétations. Le diagnostic des systèmes a pour objectif de trouver la cause d’une
défaillance ou d’un défaut. Il peut être défini comme étant un processus d’identification
de la cause probable des défaillances à l’aide d’un raisonnement logique fondé sur un
ensemble d’informations provenant d’une inspection, d’un contrôle ou d’un test.
Dans un sens plus proche de la notion communément admise, un diagnostic peut
être vu comme une tentative pour expliquer un mauvais comportement du système en
analysant ses caractéristiques pertinentes qui sont souvent appelées symptômes ou parfois
indicateurs de défauts. Généralement, le diagnostic est toujours lié à l’observation des
symptômes. On note qu’un diagnostic est mieux connu et établi dans les cas des maladies
humaines plutôt que dans les défauts des systèmes (Fortuna et al., 2006).
Afin d’établir un diagnostic, il faut être capable de décrire une situation, de l’analyser
puis de l’interpréter. Cette démarche peut s’évoquer en trois étapes. La première consiste
à définir les caractéristiques ou les symptômes du processus. D’une manière générale, la
description d’une situation consiste en l’acquisition d’informations renseignant sur l’état
du système. Ces informations correspondent à des données recueillies par des capteurs
dans le cas des systèmes instrumentés ou de la description formelle d’un expert dans le
cas empirique. La deuxième étape représente une description des situations types. Ces
situations sont les états ou les modes que peut avoir un système tels que les modes
normaux, anormaux ou évolutifs. La dernière étape consiste à établir des liens entre les
symptômes et les situations types.
Plus généralement, un diagnostic est une exploitation de toute la connaissance acces-
sible et existante sur le système. Ainsi, et dans une première vue, une telle exploitation
peut s’articuler autour de trois fonctions principales (Isermann et Ballé, 1997; Gerlter,
1998; Fortuna et al., 2006) :
• La détection est une fonction alternative qui peut être attribuée à l’étape de sur-
veillance comme à celle du diagnostic ;
• L’identification a pour rôle de déterminer les caractéristiques de chacun des défauts ;
• La localisation, également appelée isolation, a pour but de remonter à l’origine
13
du défaut. Cette fonction devrait déterminer l’endroit de la panne (le composant

défectueux).
L’ensemble de ces trois fonctions forme souvent l’étape du diagnostic de défauts. Néan-
moins, certains auteurs se réfèrent plutôt au terme détection et diagnostic de défauts (en
anglais : Fault Detection and Diagnosis (FDD)), en considérant ainsi la détection comme
étant une fonction séparée, et notamment l’isolation et l’identification dans l’étape du
diagnostic de défauts (Isermann et Ballé, 1997; Gerlter, 1998; Fortuna et al., 2006).
Puisque les fonctions de détection et d’isolation sont absolument impératives dans
toute démarche ayant pour objectif le diagnostic d’un système, l’identification de défauts
(si utile) ne peut pas justifier la même importance qu’aux autres fonctions. Par conséquent,
les démarches du diagnostic les plus pratiques ne contiennent que les fonctions de détection
et d’isolation de défauts d’où l’appellation en anglais : Fault Detection and Isolation (FDI).
Ainsi, le mot ”diagnostic” est utilisé comme un simple synonyme du terme ”isolation”
(Gerlter, 1998).
1.3.3 Critères de performance pour la détection et le diagnostic

Les performances d’un diagnostic sont caractérisées par un certain nombre de critères
importants et quantifiables tels que la détectabilité, la robustesse, la rapidité des réponses,
la sensibilité aux erreurs de modélisation, le taux de fausses alarmes ou de non-détection,
l’isolabilité ainsi que des contraintes d’ordre économique et de mise en œuvre pratique
(Gerlter, 1998; Ripoll, 1999). De manière générale, on révèle :
• La détectabilité est l’aptitude de la méthode de détection à pouvoir déceler la pré-
sence d’une défaillance sur le processus. Elle est fortement liée aux indicateurs de
défauts qui doivent d’une certaine manière être sensibles à la défaillance que l’on
souhaite détecter ;
La sensibilité, la rapidité des réponses et la robustesse aux défauts résultent d’une
interaction entre les défauts d’une part et les bruits, les perturbations et les erreurs de
modélisation d’autre part. Dans la plupart des cas, il faudra se fixer un compromis entre
ces différentes propriétés (Gerlter, 1998).
• La sensibilité caractérise l’aptitude de la méthode de détection à détecter des défauts
d’une certaine amplitude. Elle dépend non seulement de la structure des résidus mais
aussi du rapport de l’amplitude du bruit de mesures et celle du défaut ;
• La rapidité des réponses représente la capacité de l’indice de détection à détecter la
présence des défauts en un minimum de retard de temps ;
• La robustesse détermine la capacité d’une telle méthode à détecter des défauts avec
peu de fausses alarmes en présence des bruits, des perturbations et des erreurs de
modélisation.
La performance de l’isolation de défauts dépend des propriétés physiques de l’instal-
lation à diagnostiquer, à savoir : l’amplitude des défauts, les bruits, les perturbations et
les erreurs de modélisation ainsi que la méthode du diagnostic elle-même. Les défauts
multiples sont en général plus difficiles à isoler que les défauts simples. En outre, l’in-
teraction entre les défauts et les perturbations, les bruits et les erreurs de modélisation
peut conduire à des décisions incertaines ou incorrectes. Certains défauts peuvent être
non isolables les uns des autres parce qu’ils agissent sur les installations physiques d’une
14
1.4. Techniques statistiques pour la détection et le diagnostic
manière indiscernable. En s’appuyant sur tous ces facteurs, l’isolabilité peut être définie
comme suit :
• L’isolabilité est la capacité du diagnostic à remonter directement à l’origine de la
défaillance. Cette dernière engendre souvent une cascade d’alarmes et il peut être
difficile de remonter au composant défaillant. Par conséquent, le degré d’isolabilité
des défaillances est lié à la structure des résidus rendus disponibles et à la méthode
mise en œuvre.
D’autres critères sont également à prendre en considération. Les coûts économiques
contraignent généralement la démarche adoptée pour un diagnostic. Les contraintes posées
ont pour objectif d’apporter des réponses à quelques interrogations comme : le diagnostic
nécessite-t-il des composants trop chers pour sa réalisation, le temps de développement
est-il trop important ? En effet, autant de points à vérifier afin de satisfaire le cahier des
charges.
1.4 Techniques statistiques pour la détection et le

diagnostic
De nombreuses techniques statistiques performantes qui ont été conçues pour le suivi
des processus peuvent fournir des moyens algorithmiques peu coûteux afin d’assurer et
maintenir la qualité des produits et la sécurité des processus sans avoir besoin de lourds
investissements dans le matériel. Ces techniques permettent également d’optimiser l’uti-
lisation et l’efficacité du matériel.
Le pilotage du processus pour le contrôle en cours de production augmente la rapidité
de correction d’un déréglage et contribue à diminuer la quantité de produits non conformes,
il est donc un facteur d’amélioration de la qualité et de la productivité.
Du point de vue historique, le contrôle statistique de la qualité est devenu un élément
essentiel des efforts de l’assurance qualité dans l’industrie avec l’introduction des cartes
de contrôle univariées par Shewhart (1931). Le contrôle statistique de la qualité recouvre
plusieurs aspects de la statistique industrielle en particulier le contrôle statistique de
processus qui regroupe toute méthode statistique conçue pour détecter des changements
dans un processus (Tiplica, 2002).
L’objectif d’un contrôle statistique de processus est de détecter l’apparition des chan-
gements opérationnels poussant le processus à dévier d’une cible souhaitée. Dans ce cadre,
la détection des changements est fondée sur des techniques statistiques qui se basent sur la
collecte, la classification, l’analyse et l’interprétation des données. Ces actions se suivent
par un diagnostic qui vise à localiser les causes profondes de ces changements en permet-
tant aux opérateurs de prendre les précautions nécessaires pour corriger la situation et
ramener le processus à son fonctionnement normal.
1.4.1 Cartes de contrôle univariées

Les approches traditionnelles d’évaluation des performances des processus s’appuient
sur les caractéristiques et les tendances temporelles des variables critiques (contrôlées
ou manipulées) de tels processus (Cinar et al., 2007). Les méthodes statistiques utilisées
15
pour le contrôle d’un processus font appel à la théorie de l’échantillonnage afin de savoir
si le processus a probablement dérivé en moyenne ou en dispersion. Dans ce contexte, il
convient tout d’abord de choisir une ou plusieurs caractéristiques représentant la qualité
du produit à contrôler. Pour chacune des caractéristiques retenues, un échantillon doit
être constitué périodiquement dans des conditions fixées à l’avance. Les résultats obte-
nus sur ces échantillons sont résumés par une ou plusieurs valeurs appelées statistiques
d’échantillon pouvant être par exemple la moyenne, l’écart type ou l’étendue. Ces statis-
tiques peuvent alors être portées sur un tracé, appelé carte de contrôle, où l’on reporte
généralement les statistiques d’échantillon par rapport à des limites de contrôle. La carte
de contrôle a été largement utilisée pour distinguer les causes des variations. Ainsi, un
point sur cette carte représente l’état du processus à un moment donné.
1.4.1.1 Définitions des cartes de contrôle

En essayant de définir une carte de contrôle, la littérature a révélé plusieurs défini-
tions. Dans ce contexte, Shewhart (1931) a considéré qu’une carte de contrôle peut servir
d’abord, pour définir l’objectif dont la gestion s’efforce d’atteindre par le processus. En-
suite, elle peut être utilisée comme un instrument pour atteindre cet objectif. Enfin, elle
peut servir comme un moyen pour juger si l’objectif a été atteint. D’après Duncan (1956),
les cartes de contrôle peuvent être considérées comme un outil statistique. Cependant,
Feigenbaum (1983) a défini la carte de contrôle comme un outil graphique pour la com-
paraison des caractéristiques du produit actuel avec celles de son passé.
D’après ces définitions, une carte de contrôle constitue à la fois un outil statistique et
graphique, qui permet de suivre dans le temps l’évolution des valeurs individuelles d’une
variable (caractéristique d’un produit ou paramètre d’un procédé), ou de la moyenne d’un
échantillon prélevé régulièrement, et de décider du temps d’intervention pour modifier
ou arrêter une évolution non désirée. Une carte de contrôle est généralement constituée
d’un axe horizontal correspond à une valeur cible de la variable surveillée ainsi que deux
limites de contrôle supérieure et inférieure. Ces limites ne sont pas déterminées de façon
arbitraire ni liées à des limites de spécification, mais plutôt par des critères statistiques.
Ainsi, les deux limites de contrôle forment ce qu’on appelle la zone de contrôle.
1.4.1.2 Rôle et critères de performance des cartes univariées

L’aspect préventif des cartes de contrôle consiste à anticiper une tendance à la dérive,
et à corriger en conséquence le processus à temps avant que des défauts ne soient produit.
Les cartes de contrôle ne doivent être introduites que si toutes les causes spéciales de
variation ont été éliminées, sinon, toute prédiction du comportement du processus serait
impossible.
Chaque carte comporte une ligne centrale, une limite inférieure et une limite supérieure
de contrôle et parfois des limites de surveillance. Les limites de contrôle jouent le rôle
d’alarmes (figure 1.3). En effet, lorsqu’un point se situe à l’intérieur des limites de contrôle,
le processus est dit sous contrôle ou libre de toutes causes assignables. Par contre, lorsque
celui-ci se situe à l’extérieur, alors il est probable que le processus est hors contrôle,
à savoir, des causes assignables sont probablement présentes. Dans ce cas, une action
16
LS de Contrôle (3 sigma)
LS de Surveillance (2 sigma)
Cible
LI de Surveillance (-2 sigma)

LI de Contrôle (-3 sigma)
Observations (Temps)
Figure 1.3 – Carte de contrôle typique
corrective doit être entreprise pour l’identification et la suppression ou l’isolation de ces

causes. Sinon, les pièces produites ultérieurement auront probablement des défauts. Les
causes assignables également appelées des causes spéciales, sont une partie de la variabilité
dans un ensemble d’observations. Elles peuvent être attribuées à des causes spécifiques tels
que les opérateurs, les matériels ou les équipements. Les causes communes aussi appelées
causes de chance sont une partie d’une variabilité due uniquement à des forces aléatoires
qui ne peuvent pas être attribuées à des sources spécifiques.
Les limites de contrôle des cartes de Shewhart sont calculées de telle sorte que la
probabilité qu’un point tombe en dehors des limites alors que le processus est stable,
reste très faible. La carte de Shewhart habituellement utilisée est celle dont les limites
sont à une distance égale à plus ou moins 3σ de la moyenne de la statistique utilisée.
Ce qui correspond entre autres à une probabilité de 0.0027 (0.00135 sur chaque coté)
d’être en dehors des limites lorsque le processus est stable et ce sous l’hypothèse que la
variable observée suit une loi Gaussienne. Les limites de surveillance permettent d’attirer
l’attention sur un comportement qui n’est pas encore hors contrôle mais qui nécessite une
attention accrue et une surveillance particulière.
Les conclusions que l’on peut tirer de la position d’un point par rapport aux limites
de contrôle sont soumises aux incertitudes inhérentes aux fluctuations d’échantillonnages.
Dans ce cadre, deux sortes d’erreur sont alors possibles (dont les risques s’expriment par
des probabilités). La première est dite risque α consiste à conclure qu’un déréglage a
eu lieu alors qu’aucune cause n’est venue perturber le processus. Ce cas est également
désigné sous le nom de fausse alarme. La deuxième erreur représente le risque β qui
consiste à conclure que le processus est resté stable alors qu’une cause perturbatrice est
venue effectivement le dérégler.
Les cartes de contrôle se différencient non seulement par les méthodes de calcul des
limites et les statistiques utilisées, mais également par la rapidité avec laquelle un déréglage
est détecté. Cette rapidité se mesure en terme de période opérationnelle moyenne (Average
Run Length : ARL) qui est le nombre moyen d’échantillons successifs nécessaires pour
s’apercevoir du déréglage ou autrement dit, le temps moyen d’attente entre le moment où
le déréglage se produit et l’instant où la carte le signale. Cette rapidité dépend évidemment
du déréglage et elle est notée ARL(δ) où δ est le déréglage maximal toléré de la statistique
17
étudiée, exprimé en nombre d’écarts types.

Ainsi, une carte de contrôle est dite efficace pour la détection d’un déréglage δ si
ARL(δ) est faible. Cependant, il arrive que la carte signale une sortie des limites sans
qu’il ait eu un déréglage, l’ARL(0) correspondante est alors le nombre moyen de contrôle
avant une fausse alerte qui conduit à des efforts inutiles pour la recherche de causes
spéciales inexistantes. L’efficacité d’une carte de contrôle se mesure avec les deux ARL.
Une bonne carte doit réaliser un compromis entre la période opérationnelle moyenne en
cas de déréglage ARL(δ) et l’ARL(0). Souvent, on souhaite détecter un déréglage δ le plus
rapidement possible (la ARL correspond à δ doit être faible) en ayant le moins de fausses
alertes possible (l’ARL(0) doit être grande). De même, cette efficacité peut être exprimée
par la probabilité d’acceptation (Pa) de conclure à la stabilité d’un processus en fonction
du déréglage de celui-ci, autrement dit, la probabilité de se trouver entre les limites de
contrôle ou la probabilité de ne pas déceler un déréglage (risque β).
1.4.1.3 Aperçu sur les cartes univariées

De manière générale, les méthodes les plus classiques conçues pour un contrôle de
processus fournissent un groupe de tests statistiques univariées afin d’assurer qu’une va-
riable de qualité d’un processus est constamment sur sa cible. Dans ce cadre, le principe
de base dans la construction de la plupart des cartes univariées repose sur la notion de
test d’hypothèse. En considérant que le modèle théorique du processus suit une certaine
distribution de probabilité, l’hypothèse nulle (ou sous-contrôle) pour ses paramètres est
spécifiée. Lorsque les paramètres représentent la moyenne ou la variance du processus,
l’hypothèse alternative consistera dans le changement de tels paramètres (Tiplica, 2002).
De nombreuses cartes de contrôle qui reposent sur un test d’hypothèse comme celles
de Shewhart (Shewhart, 1931), les cartes à somme cumulée (cumulative sum : CUSUM)
(Page, 1954; Woodward et Goldsmith, 1964), les cartes de moyennes mobiles équipondé-
rées (moving average : MA) et les cartes à moyennes mobiles avec pondération exponen-
tielle (exponentially weighted moving average : EWMA) (Roberts, 1959; Hunter, 1986)
ont eu une contribution remarquable à l’amélioration de la qualité des processus.
Les premières cartes de contrôle utilisées sont dites cartes aux mesures de Shewhart.
Elles visent à définir le niveau de la qualité à atteindre et auquel la direction doit se référer,
à apporter une aide pour obtenir ce standard ou cible et à fournir un élément de jugement
pour décider si cette cible a été atteinte. Les cartes de Shewhart s’attachent aux variables
quantitatives (mesurables). Elles réunissent le contrôle du paramètre de centrage et celui
de la dispersion (étalement des valeurs de la distribution de la variable autour d’une valeur
centrale). Les cartes de Shewhart comprennent celles sur la moyenne X̄, sur l’étendue R
ou sur l’écart type S. D’après la figure 1.3, ces cartes traditionnelles aux mesures utilisent
à chaque instant t les seules mesures relatives à t. Elles détectent uniquement les dérives
rapides et les grands écarts de variation du processus. Par conséquent, elles ne sont pas
satisfaisantes lorsque les changements dans l’évolution des caractéristiques représentatives
d’un processus sont de faibles amplitudes.
Pour remédier au problème lié à la détection de faibles écarts de déréglage ainsi que
les lentes dérives, on utilise des cartes d’applications spécifiques. Ces cartes permettent
l’accumulation de l’information dans le temps en utilisant les observations à l’instant t et
18
l’ensemble ou une partie des observations à des instants antérieurs à t comme le cas des
cartes CUSUM, MA et EWMA.
Les cartes CUSUM ont été initialement introduites par Page (1954). Elles sont parmi
les méthodes les plus efficaces, en accord avec les propriétés de leurs ARL, dans la détection
d’un changement d’ampleur connue dans la moyenne (Basseville et Nikiforov, 1993). En
effet, elles utilisent toutes les observations considérées durant l’échantillonnage. La carte
CUSUM consiste à représenter pour chaque variable la somme cumulée suivante :
t
X
(xi (k) − µi ) (1.1)
k=1
où xi (k) est la mesure de la variable i au moment de l’échantillonnage k et µi représente

la moyenne de cette variable.
Bien que l’on ait cru pendant de nombreuses décennies que la carte de Shewhart n’est
plus efficace dans la détection des faibles et moyennes variations dans un processus, des
travaux récents ont confirmé que la différence entre une telle carte et celle de CUSUM
n’est pas significative. En effet, Nenes et Tagaras (2007) ont comparé la performance
économique réalisée par ces deux cartes pour le suivi d’un processus. Ainsi, les résultats
de leur étude ont montré que l’avantage économique dans leurs utilisations est important
uniquement lorsque la taille d’un échantillon est contrainte à des faibles valeurs.
Les cartes MA n’utilisent que les w observations les plus récentes. A l’instant t, on
supprime la plus ancienne des moyennes des échantillons et on ajoute la plus récente
moyenne à l’ensemble. Ainsi, on calcule :
w

X
−1

 w


 xi (t − k + 1) si t ≥ w
k=1
Xt (1.2)
−1

 t xi (k) si t < w



k=1
Dans le cas particulier où w = 1, on retrouve les cartes de Shewhart. Intuitivement,

plus le déréglage est petit, plus l’ordre w de la MA doit être élevé pour une bonne détection.
Niang et Saporta (1995) ont constaté d’après une étude comparative que les cartes MA
remplacent avantageusement celles de Shewhart. D’après les mêmes auteurs, les cartes
MA sont moins utilisées que les cartes CUSUM et EWMA malgré qu’elles sont d’efficacité
comparable en étant d’utilisation aussi simple.
Les cartes EWMA utilisent un coefficient de pondération compris dans l’intervalle [0, 1]
ayant pour objectif l’oublie progressive des mesures antérieures. Dans le cas particulier
où un tel coefficient est égal à l’unité, la carte EWMA est identique à celle de Shewhart.
Plus la valeur du coefficient de pondération est faible, plus les petites dérives sont mieux
décelées par la carte EWMA. En s’appuyant sur l’idée que les mesures récentes observées
sur le processus peuvent contenir plus d’informations sur les anomalies que les anciennes
mesures, de différents poids peuvent être affectés aux données en fonction de leurs temps
d’acquisition. La carte EWMA permet d’augmenter le poids de façon exponentielle au fur
et à mesure que les observations sont plus récentes. Pour chaque variable, on fixe la valeur
19
de démarrage yi (0) = µi et on affiche sur la carte la statistique suivante :

yi (t) = rxi (t) + (1 − r)yi (t − 1) (1.3)
où r représente le paramètre de pondération.
En comparant la performance de la carte EWMA à celle de CUSUM dans la détection
des faibles dérives de la moyenne d’un processus, Vargas et al. (2004) ont observé suite
à une étude de simulation que la carte CUSUM ne détecte pratiquement pas des points
ayant des niveaux de variation particulière. Les points en question correspondent à des
situations hors contrôle. Cela a permis ces auteurs de conclure que la carte de contrôle
EWMA est mieux efficace que la carte CUSUM.
1.4.2 Limitations des cartes univariées

L’acquisition de données en considérant un grand nombre de variables sert à extraire
des informations sur tout régime efficace pour une surveillance et un diagnostic opération-
nels et fiables du processus. En revanche, la plupart des méthodes classiques de contrôle
statistique de processus fournissent des cartes de contrôle interprétables uniquement pour
un nombre réduit de variables. En outre, ces cartes présentent une explication des ten-
dances des variables les unes indépendamment des autres. Par conséquent, les cartes uni-
variées fournissent des informations quantitatives en ignorant l’effet de la corrélation entre
les variables.
Le problème rencontré avec une utilisation séparée des cartes de contrôle univariées
peut être illustré en se référant à la figure 1.4 (Kourti et MacGregor, 1995). Dans ce cas,
seulement deux variables corrélées x1 et x2 ont été considérées pour faciliter l’illustration.
Supposons que si le processus est dans un état sous contrôle où seules les variations des
causes communes sont présentes, x1 et x2 suivent une distribution multivariable normale.
L’ellipse représente alors le périmètre de la zone de confiance pour le processus multiva-
rié. Les points qui sont à l’intérieur de l’ellipse représentent un ensemble d’observations
en considérant une carte multivariée. Les mêmes observations sont également tracées en
considérant pour chaque variable sa propre carte univariée de Shewhart.
L’observation indiquée par le symbole ♦ est en dehors de la zone de confiance de la
carte multivariée. Le lot correspondant est clairement différent de la population normale
”sous contrôle” du produit. Toutefois, aucune des deux cartes univariées n’a indiqué la
présence d’un problème dans l’observation ♦ puisqu’elle se trouve dans leurs zones de
confiances situées entre leurs limites UCL et LCL. En effet, la véritable situation ne se
révèle qu’à travers le tracé multivarié des deux variables. D’après la figure 1.4, l’utilisation
des cartes univariées risque d’accepter un mauvais produit (lot ♦), mais aussi risque de
refuser un bon produit (lot F). Dans le cas de variables corrélées, les résultats obtenus
en considérant uniquement les cartes univariées sont erronés car la probabilité associée à
l’erreur de type I (l’erreur de première espèce ou le risque α) est plus grande.
Malgré les limitations des cartes de contrôle univariées, celles-ci continuent d’être
presque le seul outil de surveillance encore utilisé dans certaines industries (MacGre-
gor et Kourti, 1995). Alors que plusieurs extensions multivariées des cartes de Shewhart,
CUSUM et EWMA basées sur la statistique T 2 de Hotelling ont été proposées dans la
littérature.
20
x1
UCL
x2
Cible
LCL
Observations (Temps) Observations (Temps)
Cible
UCL
LCL
Figure 1.4 – Illustration de l’inconvénient de l’utilisation des cartes univariées
1.4.3 Extensions multivariées des cartes univariées

Actuellement, suite à l’évolution remarquable de l’électronique et de l’informatique, on
a le moyen de faire mieux car, il faut être conscient, que le processus de fabrication n’est
jamais univarié (Tiplica, 2002). En effet, le processus de fabrication est régi par un grand
nombre de variables ou des facteurs qu’il faut maı̂triser simultanément afin de s’assurer
le succès de la démarche mise en œuvre et l’obtention des bons résultats. Un contrôle
de processus dont plusieurs variables sont simultanément considérées est appelé contrôle
multivarié.
Le contrôle des processus multivariés bénéficie de l’utilisation inhérente des méthodes
multivariées plutôt que d’une collection des méthodes univariées appliquées à des variables
séparées. Notamment, certaines techniques déployées pour assurer le contrôle de processus
multivarié sont des extensions multivariées des approches univariées. La première étude
originale abordant le contrôle de qualité multivariée a été introduite par Hotelling (1933,
1947). Ainsi, les extensions vers une représentation multivariée ont été découlées princi-
palement du principe classique de la carte de Shewhart. Les premières cartes multivariées
qui ont été développées représentent la carte χ2 et la carte T 2 de Hotelling. En effet,
ces deux cartes de contrôle utilisent seulement les observations à l’instant présent pour
déterminer l’état du processus. Elles sont donc moins performantes pour la détection des
faibles déréglages du processus (Jackson, 1991; Kourti et MacGregor, 1995; Tiplica, 2002).
Notamment, une détection mieux efficace de ce type de changements nécessite un
contrôle statistique basé sur l’accumulation de l’information des observations antérieures.
Pour cette raison, les cartes de contrôle MEWMA (Multivariate EWMA) et MCUSUM
(Multivariate CUSUM) ont été développées en analogie avec le cas univarié (Woodall et
21
Ncube, 1985; Healy, 1987; Lowry et al., 1992).

La carte MEWMA est parmi les cartes multivariées qui ont été conçues pour une
détection fiable des faibles changements, cependant, elle s’adresse généralement à des
changements dans le vecteur des moyennes. Dans l’objectif d’élaborer des procédures de
suivi de la variance au lieu de la moyenne du processus, Hawkins et Maboudou-Tchao
(2008) ont développé une approche dite MEWMA-CM, afin de surveiller la stabilité de la
matrice de covariance de processus.
Généralement, la moyenne et la variance de processus peuvent changer simultanément
durant la surveillance. Leur considération simultanée, pour des faibles changements et dans
un contexte multivarié, a reçu peu d’intérêt dans la littérature. Cheng et Thaga (2006)
ont fourni un aperçu sur les cartes de contrôle univariées dans un effort de construire une
carte permettant la surveillance simultanée de la moyenne et de la variance du processus
dans un contexte univarié. En raison de la complexité des distributions multivariées, cette
idée n’a pas pu être facilement étendue aux cas multivariés.
Bien que la littérature a fourni des preuves en faveur de l’intérêt de l’application du
contrôle statistique multivariée de processus, un certain nombre de limitations ont été
quand même inévitables. Lors de l’application des cartes de contrôle de Shewhart, l’utili-
sation des moyennes des sous-groupes améliore sensiblement leur performance. Cependant,
ce n’est pas toujours le cas lors de l’utilisation de la carte MCUSUM. En outre, les pro-
cédures de conception des cartes de contrôle multivariées présentent des calculs intensifs
(Montgomery, 2001). Ainsi, ces cartes sont efficaces lorsque le nombre des variables du
processus n’est pas grand. Les cartes de contrôle multivariées perdent de leur efficacité
en terme de détection des changements en augmentant le nombre des variables. En plus,
l’interprétation directe de ces cartes ne fournit pas les informations dont un opérateur a
besoin quand une anomalie est détectée.
Dans ce cadre, Jackson et Mudholkar (1979), Jackson (1980) et Kourti (2005) et plu-
sieurs autres auteurs ont recommandé les méthodes de projection qui sont révélatrices
d’informations cachées par la transformation de la corrélation entre les variables en un
ensemble de nouvelles variables indépendantes.
1.4.4 Méthodes de projection
Les méthodes d’analyse de données multivariées peuvent aider à la visualisation ainsi

que l’interprétation d’un ensemble d’observations qui décrivent un phénomène naturel ou
physique. La difficulté confrontée se manifeste souvent dans les phénomènes complexes qui
produisent ainsi une masse de données à analyser. Dans ce cadre, un ensemble particulier
de techniques permettant efficacement de surmonter une telle difficulté sont les méthodes
de projection. Leur objectif consiste à compresser les données afin d’extraire un résumé
de l’information que contiennent. Les techniques les plus connues sont l’analyse factorielle
(AF), l’analyse en composantes principales (ACP), l’analyse canonique (AC), la régression
sur composantes principales (RCP) et la projection dans les structures latentes (PSL),
également connue sous la dénomination de moindres carrés partiels.
22
1.4.4.1 Intérêt de la projection
La réduction de la dimension d’un problème en supprimant certaines variables peut

conduire à une réduction de l’information utile et par conséquent à une interprétation erro-
née ou incomplète. Cependant, l’objectif de la réduction pour une analyse statistique mul-
tivariée est d’assurer la simplicité pour la visualisation, tout en conservant suffisamment
d’informations pour une interprétation appropriée et pertinente. Les méthodes utilisées
pour réduire la dimension d’un espace multivarié s’appuient sur le concept des variables
latentes ou cachées. Ces dernières représentent des variables virtuelles construites dans le
but de comprendre un intérêt caractéristique qui ne peut pas être mesuré directement.
Bien que les variables latentes ne soient pas observables, elles ont un certain impact sur
les variables mesurées ou originelles et, par conséquent, sont soumises à une analyse. Les
variables latentes sont généralement définies comme une combinaison linéaire des variables
originelles.
En essayant de surmonter les difficultés décrites auparavant, les méthodes multivariées
comme l’ACP et la PLS ont été appliquées. Elles sont particulièrement adaptées à des
données corrélées qui sont projetées sur des sous-espaces de dimensions réduites afin d’ex-
traire toutes informations pertinentes sur le processus. L’ACP est une méthode utilisée
pour expliquer la variabilité d’un ensemble de données en définissant un ensemble de vec-
teurs latents décrivant des directions principales non corrélées. Cette méthode sera étudier
avec plus de détail dans le chapitre suivant. La PLS est similaire à l’APC, sauf qu’elle
réduit simultanément la dimension de l’espace des variables de processus et celles de la
qualité pour trouver les vecteurs latents. L’application type de l’utilisation de la PSL est
de définir deux matrices de données. La première est notée Y contenant uniquement les
caractéristiques qualité de la production, alors que la deuxième matrice X contient toutes
les autres variables du processus. Ainsi, la PLS permet la maximisation de la covariance
entre la matrice de prédicteurs X et la matrice prédite Y. L’objectif est alors de trouver
les espaces de projection pour X et Y pour lesquels la corrélation entre les vecteurs di-
recteurs de chaque espace est la plus importante. Il existe de nombreux algorithmes de
calcul des espaces réduits pour la PSL.
Vu l’intérêt qu’a connu l’ACP, cette dernière constituera l’intérêt de nos travaux de
recherche menés par la présente thèse. Cette approche sera expliquée en détail de point
de vue théorique dans le chapitre suivant. Néanmoins, et pour illustrer l’importance de
l’ACP, nous présentons dans la suite un panorama non exhaustif de différentes extensions
qu’a connu cette méthode dans la littérature.
1.4.4.2 Différentes extensions de l’ACP
L’analyse en composantes principales est une étape clé pour une surveillance multiva-
riée de processus. Son efficacité dépend du modèle statistique généré qui dépend également
des données collectées. L’approche classique de l’ACP utilise un calcul préliminaire de la
moyenne des données et de leur matrice de covariance. La moyenne et la variance sont
sensibles à la présence de valeurs aberrantes. Ainsi, les résultats obtenus s’avèrent sou-
vent inexploitables car trop biaisés par l’influence de ces valeurs aberrantes. Pour tolérer
la présence de ces dernières, une ACP robuste peut être conduite en calculant une matrice
23
de covariance des données robuste (Chen et al., 1996; Hubert et al., 2005; Tharrault et al.,
2008).
Une autre extension possible de l’ACP est la prise en compte de la production par lots
(procédé batch). En effet, l’ACP classique fait la supposition que le procédé est stricte-
ment continu. Or, dans l’industrie, il est fréquent de trouver des procédés de fabrication
fonctionnant par lots. La technique la plus étudiée pour traiter ce genre de problème
est l’ACP multiéchelle (multiway PCA) (Nomikos et MacGregor, 1994; Nomikos, 1996;
Smilde et al., 2004). L’ACP multiéchelle est une extension à trois dimensions de l’ACP
classique. Les trois dimensions représentent respectivement les observations, les instants
d’observations et les lots (le raisonnement pour l’ACP classique n’est fait que sur deux
dimensions : les observations et les instants d’observations).
Le suivi de la performance des processus continus en utilisant des méthodes de projec-
tion multivariées comme l’ACP est étendu à des situations où les processus peuvent être
naturellement subdivisés en des sous-blocs. En effet, l’ACP multi-bloc (Kourti et al., 1995;
Qin et al., 2001; Cherry et Qin, 2006) permet d’établir des cartes de suivi pour chacun
des blocs ainsi que pour l’ensemble du processus. Quand un événement ou un défaut se
produit, l’utilisation de l’ACP multi-bloc peut détecter l’événement plus tôt en révélant
le bloc dans lequel l’événement est produit. Dans la même optique, l’ACP offre une autre
possibilité par l’utilisation des modèles partiels. On sous entend par ACP partielle, une
ACP effectuée sur des données collectées en écartant quelques variables. Les résidus géné-
rés pour la détection de défauts sont donc sensibles uniquement aux défauts associés aux
variables utilisées (Huang et al., 2000).
L’ACP classique est une méthode de projection linéaire où seules les dépendances li-
néaires ou quasi-linéaires entre les variables peuvent être révélées. Si les données traitées
présentent des comportements fortement non linéaires, l’ACP linéaire est incapable de
trouver une représentation compacte décrivant ces données. Par conséquent, l’extension
de l’ACP aux problèmes non linéaires a été abordée dans la littérature. Les réseaux neu-
ronaux ainsi que les fonctions noyaux peuvent bien être adaptés pour résoudre ce type de
problèmes.
Une nouvelle méthode d’ACP non linéaire basée sur une couche d’entrée de réseau de
neurones a été proposée par Jia et al. (1998), conjointement avec des cartes de contrôle non
paramétriques. Un autre algorithme d’ACP non linéaire utilisant les réseaux neuronaux
et les ondelettes a été proposé par Shao et al. (1999) pour le suivi des performances de
processus. En effet, la plupart des approches utilisent les réseaux de neurones MLP pour
l’obtention du modèle ACP non linéaire. Néanmoins, on rencontre souvent des problèmes
d’optimisation non linéaires telles que la convergence et l’initiation de ce type de réseaux.
Pour cette raison, Harkat (2003) et Harkat et al. (2007) ont proposé une approche d’ACP
non linéaire où le problème d’apprentissage se ramène à un problème de régression linéaire,
ainsi qu’un algorithme permettant de déterminer le nombre de composantes non linéaires
à retenir dans le modèle.
Une ACP à noyaux non linéaires à été initialement proposée par Schölkopf et al.
(1998). On peut calculer les composantes principales de manière efficace dans un espace
de dimension plus élevée lié à l’espace d’entrée par certaines fonctions noyaux. Une ACP
linéaire est ensuite appliquée sur les données projetées dans le nouvel espace (Lee et al.,
2004; Choi et al., 2005; Sun et al., 2007). L’ACP à noyaux peut être considérée comme
24
une généralisation de l’ACP linéaire et particulièrement adaptée pour extraire des carac-
téristiques non linéaires de données. Néanmoins, un problème persistant dans le cadre de
l’ACP à noyaux réside dans le choix de la fonction noyau.
1.4.5 Interprétations des situations hors contrôle

Lorsqu’une carte de contrôle univariée signale une situation hors contrôle, l’opéra-
teur peut facilement envisager une solution au problème puisqu’une telle carte est liée
uniquement à une seule variable. En revanche, et dans le cas multivarié, une telle inter-
prétation n’est plus valable par l’intermédiaire d’une carte univariée puisqu’en présence
de la corrélation, un certain nombre de variables peuvent être généralement impliquées.
Comme il a été mentionné précédemment, les cartes multivariées de Shewhart, MCUSUM
et MEWMA, ainsi que les méthodes de projection comme l’ACP ont été utilisées princi-
palement pour la surveillance de processus. Ces méthodes sont en mesure seulement de
détecter une situation hors contrôle en signalant l’existence probable d’un défaut dans le
processus. Pour cela, l’identification de la (ou les) variable(s) responsable(s) de défauts a
été un sujet intéressant pour de nombreux chercheurs au cours des dernières années. Dans
cette section, quelques méthodes d’isolation de défauts ou d’interprétation d’une situation
hors contrôle sont présentées.
L’utilisation des cartes de contrôle univariées pour l’identification pose quelques pro-
blèmes liés à la probabilité globale des fausses alarmes qui n’est pas contrôlée ainsi qu’à
l’ignorance de la corrélation entre les variables. Pour contrôler la probabilité globale, Alt
(1982) a suggéré d’utiliser les cartes de contrôle univariées avec des limites ajustées de
type Bonferroni. Ainsi, Hayter et Tsui (1994) ont étendu cette idée en proposant une
procédure de construction précise et simultanée d’intervalles de confiance pour chaque
variable. Ceci a pour but d’offrir une identification plus aisée des variables probablement
responsables du problème.
Dans le contexte multivarié, Mason et al. (1995) ont proposé une idée basée sur la
décomposition de la statistique T 2 en des parties indépendantes, dont chacune reflète la
contribution d’une variable individuelle. Le problème de cette approche se résume dans
la non unicité d’une telle décomposition. Pour cela, Mason et al. (1996) ont présenté
également une procédure de contrôle alternative basée sur une double décomposition de
la statistique T 2.
Kourti et MacGregor (1996) ont développé différentes approches basées sur l’ACP.
Lorsqu’une situation hors contrôle est détectée, des contributions sont calculées pour
identifier les variables responsables. La contribution indique la valeur impliquée par chaque
variable dans le calcul de l’indice ou la statistique utilisée pour la détection. En effet, le
principe de la contribution des variables évite les problèmes d’interprétations physiques
des composantes principales. Les approches des contributions sont également investiguées
par Westerhuis et al. (2000a) et Alcala et Qin (2009, 2011).
Une approche de localisation de défauts basée sur le principe de la reconstruction à
été proposée dans la littérature (Dunia et Qin, 1998b; Qin, 2003). Cette méthode repose
sur l’estimation de l’amplitude du défaut en considérant la corrélation entre les variables.
Nous notons que les approches dédiées au diagnostic de défauts, comme les contribu-
tions et la reconstruction, seront détaillées lors du dernier chapitre.
25
1.5 Conclusion
Dans ce chapitre, nous avons présenté les différents concepts et définitions sur lesquels
se basent généralement la surveillance et le diagnostic de défauts d’un système. Parmi les
approches existantes dans la littérature, nous sommes plus particulièrement intéressés à
celles basées sur une analyse de données. Nous avons présenté des notions, très générales,
concernant les cartes de contrôle. Ainsi, nous avons évoqué la nécessité de l’application
des techniques relevant du contrôle statistique multivarié afin d’assurer le contrôle des
processus qui ne disposent pas d’un modèle mathématique qui soit complet. Nous avons
présenté, d’une manière non exhaustive, quelques unes des cartes de contrôle multivariées
les plus utilisées. Malgré leurs avantages par rapport aux cartes de contrôle univariées, un
problème très important qui reste à résoudre est la manière d’identifier la variable ou les
variables responsable(s) d’un fonctionnement anormal de processus.
Le nombre de variables surveillées dans un système ainsi que la corrélation limitent le
choix des méthodes utilisées pour l’obtention d’un diagnostic fiable. Dans ce cas, les mé-
thodes de projection peuvent être utilisées, en particulier l’ACP qui a l’avantage d’élaborer
un nombre réduit de cartes de contrôle ce qui peut faciliter l’analyse. Pour l’identification
des variables responsables de défauts, les méthodes de contributions ainsi que celle de
reconstruction sont liées aux paramètres de modèle ACP. Par conséquent, la fiabilité de
la détection et du diagnostic de défauts en s’appuyant sur l’ACP est principalement basée
sur l’optimalité de tel modèle. Dans le chapitre suivant, nous allons décrire plus en détail
l’approche d’ACP ainsi que la problématique liée au choix de modèle.
26
2
Modélisation par analyse en composantes
principales
Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Analyse en composantes principales linéaire . . . . . . . . . . 29
2.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Modélisation en absence de bruit . . . . . . . . . . . . . . . . . 34
2.3.2 Modélisation en présence de bruit . . . . . . . . . . . . . . . . 36
2.4 Détermination d’une structure optimale du modèle ACP . . 36
2.4.1 Critères de la théorie de l’information . . . . . . . . . . . . . . 36
2.4.2 Critères heuristiques . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2.1 Critère IE . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2.2 Pourcentage cumulé de la variance . . . . . . . . . . . 38
2.4.2.3 Scree Test . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.2.4 Critère de Guttman . . . . . . . . . . . . . . . . . . . 39
2.4.2.5 Autocorrélation . . . . . . . . . . . . . . . . . . . . . 40
2.4.2.6 Validation croisée . . . . . . . . . . . . . . . . . . . . 40
2.4.3 Minimisation de la variance de l’erreur de reconstruction . . . . 41
2.4.3.1 Critère VNR . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.3.2 Consistance théorique du critère VNR . . . . . . . . . 43
Cas de bruit i.i.d. . . . . . . . . . . . . . . . . . . . . . . 44
Cas de bruit coloré . . . . . . . . . . . . . . . . . . . . . 45
2.5 Etude comparative des différents critères . . . . . . . . . . . . 45
2.5.1 Présentation et interprétation de l’exemple simulé . . . . . . . 46
2.5.2 Interprétations des critères basés sur des seuils . . . . . . . . . 48
2.5.3 Interprétations des critères minimisés . . . . . . . . . . . . . . 51
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
27
Chapitre 2. Modélisation par analyse en composantes principales
2.1 Introduction
L’Analyse en Composantes Principales (ACP) est une méthode statistique multivariée
qui permet d’extraire les corrélations d’un ensemble de données à travers un ensemble de
fonctions empiriques orthogonales. Elle représente une méthode descriptive permettant
d’étudier les relations linéaires entre les variables sans tenir compte a priori d’une quel-
conque structure (Jolliffe, 2002). Ses origines historiques peuvent être remontées jusqu’aux
œuvres de E. Beltrami en Italie (1873) et C. Jordan en France (1874) puisque ce sont eux
qui ont formulé la décomposition en valeurs singulières (SVD) d’une matrice carrée (Cinar
et al., 2007). Cependant, la première application pratique de l’ACP peut être attribuée
au travail de Pearson (1901) en biologie, puis elle a été de nouveau développée et forma-
lisée par Hotelling (1933). Ensuite, elle est devenue une technique multivariée standard
(Jackson, 1991; Jolliffe, 2002).
Depuis les années 1970, de nombreux travaux ont proposé d’utiliser l’ACP comme
une technique de modélisation de processus à partir de laquelle un modèle ACP peut
être obtenu (Kresta et al., 1991; MacGregor et Kourti, 1995; Jolliffe, 2002). Ce modèle
est extrait en se basant sur un ensemble de données qui sont issues d’un fonctionnement
normal. Il permet d’estimer les variables ou les paramètres du processus à surveiller.
Ainsi, il peut être utilisé pour détecter les valeurs aberrantes dans les données, fournir la
réconciliation de données et surveiller les écarts par rapport à un fonctionnement normal.
L’utilisation fréquente de l’ACP dans plusieurs domaines s’est justifiée par sa réduc-
tion des données caractérisant un espace de grande dimension en un ensemble de com-
posantes principales (CPs) constituant un sous-espace de dimension réduite. Cependant,
l’optimalité d’une telle réduction réside dans la détermination du nombre de CPs les plus
significatives. Dans ce cadre, plusieurs critères et règles ont été proposés dans la littérature
afin de définir la dimension optimale d’un modèle ACP (Jackson, 1991; Valle et al., 1999;
Jolliffe, 2002). D’une façon non exhaustive, Jolliffe (2002) distingue selon son point de vue
trois différentes catégories de critères.
La première famille constitue des critères empiriques ou heuristiques dont la justifi-
cation de leur utilisation, malgré quelques tentatives pour les mettre sur une base plus
formelle, reste subjective comme le pourcentage de la variance totale ou également le test
du coude (Scree Test) proposé par Cattell (1966). Contrairement, la fonction d’imbedded
error (IE) de Malinowski (1977) et beaucoup d’autres critères qui proviennent générale-
ment de la communauté de la chimiometrie disposent des règles de décision plus objec-
tives et simples. Ces règles se basent souvent sur la minimisation d’un critère par rapport
au nombre des CPs. En revanche, la subjectivité s’exprime dans la théorie du critère
lui-même. La deuxième catégorie représente des approches basées sur une série de tests
d’hypothèses qui sont généralement très sophistiquées et surestiment souvent la dimen-
sion du modèle. A titre d’exemple, Bartlett (1954) et Lawley (1956) ont développé une
méthode dont le problème confronté est associé au choix des niveaux des seuils pour les
différents tests. La troisième catégorie constitue des critères basés sur des méthodes de
calculs intensifs comme la validation croisée qui permet le calcul d’un critère dit PRESS
(Wold, 1978; Eastment et Krzanowski, 1982). En effet, ce critère est fondé sur la capacité
prédictive des différents modèles ACP.
Notamment, la littérature a offert une autre catégorie de critères qu’on ne peut pas
28
2.2. Analyse en composantes principales linéaire
ignorer. Une telle catégorie intitulée la théorie de l’information est principalement issue
du domaine du traitement du signal. Notamment, elle est constituée de deux critères qui
sont communément connus sous les noms d’Akaike Information Criterion (AIC, Akaike
(1973)) et Minimum Description Lenght (MDL, Schwarz (1978) et Rissanen (1978)).
Différemment aux principes des critères classiques, de nouvelles approches proposent
de définir un modèle ACP afin d’assurer une meilleure détection et localisation des défauts
plutôt que d’offrir une meilleure approximation des données. Pour obtenir le modèle ACP
le plus sensible à un défaut, Wang et al. (2004) ont proposé d’utiliser un indice prenant
en compte l’amplitude minimale du défaut nécessaire afin d’assurer sa détection. Notam-
ment, cette approche nécessite une connaissance a priori sur les défauts. Plus récemment,
Tamura et Tsujita (2007) ont proposé une procédure permettant de définir la dimension
d’un modèle ACP en fonction des directions des défauts afin de leur offrir une meilleure
sensibilité. Puisque ces directions sont généralement inconnues, les mêmes auteurs sug-
gèrent de définir plusieurs modèles ACP. Par conséquent, une telle approche semble être
plus pratique en considérant uniquement les défauts simples. Cependant, elle est difficile-
ment utilisable dans le cas de défauts multiples où un grand nombre de modèles doivent
être considérés.
Le critère qui représente un intérêt majeur dans nos travaux de recherche se base sur
la minimisation de la variance de l’erreur de reconstruction également appelée la variance
non reconstruite (VNR) (Dunia et Qin, 1998b,c,a; Qin et Dunia, 2000). Son expression
représente la variance en fonction du nombre de CPs, de la différence entre une mesure
observée et son estimée obtenue en utilisant l’ensemble des mesures des autres variables.
En effet, nous montrerons que ce critère aide à identifier le nombre des axes principaux
uniquement entre les variables qui sont linéairement corrélées.
Ce chapitre présentera un rappel du principe mathématique de l’ACP linéaire dans
la deuxième section. Etant donné que cette méthode est considérée comme un outil de
modélisation, la problématique souvent confrontée lors de son utilisation représente le
choix de la dimension du modèle ACP. Pour cela, la troisième section définira quelques
propriétés liées à la détermination d’un modèle ACP en absence puis en présence de bruit.
Dans la pratique, le bruit de mesures ne peut pas être négligé, ce qui compliquera la
détermination de la structure optimale du modèle. Dans ce contexte, la quatrième section
présentera quelques critères de sélection parmi les plus connus dans la littérature. Ensuite,
une étude comparative des critères choisis sera présentée dans l’avant dernière section. Ceci
en considérant un exemple de synthèse. A travers ce dernier, nous contribuons par deux
démonstrations montrant les limitations de deux critères. Finalement, nous concluons ce
chapitre.
2.2 Analyse en composantes principales linéaire

L’ACP consiste à remplacer une famille de variables par de nouvelles variables appelées
CPs. Ces dernières sont de variances maximales et non corrélées deux à deux. Elles sont
des combinaisons linéaires des variables originelles.
Considérons un ensemble de données collectées lors d’un fonctionnement normal du
29
système étudié. Ces données peuvent être représentées par une matrice
X = [x(1), · · · , x(N )]T ∈ RN ×m (2.1)
où N représente le nombre des observations et m représente le nombre des variables
mesurées. Chaque ligne de la matrice de données X représente une observation sous forme
d’un vecteur de mesures collectées à un instant k, généralement centrées
x(k) = [x1 (k), · · · , xm (k)]T ∈ Rm (2.2)
où xj (k) avec j = {1, · · · , m} représente la mesure de la variable j à l’instant k. Par
définition, la matrice de covariance est donnée par :
1
Σ = E xxT = XT X ∈ Rm×m

(2.3)
N
Selon le principe de l’ACP, on suppose qu’un vecteur de composantes t̂ ∈ R` est
associé à chaque vecteur d’observation dont il optimise la représentation au sens de la
minimisation de l’erreur d’estimation de x ou la maximisation de la variance de t̂. A
chaque instant k, les vecteurs t̂ et x sont liés par une transformation linéaire de type
t̂(k) = P̂ T x(k) telle que la matrice de transformation P̂ ∈ Rm×` vérifie la condition
d’orthogonalité P̂ T P̂ = I` ∈ R`×` .
Les colonnes de la matrice P̂ sont les vecteurs d’une base orthonormée d’un sous-espace
`
R de représentation réduite des données initiales. La transformation linéaire se traduit
par la projection des données originelles exprimées dans un espace de dimension m vers
un sous-espace orthogonal de dimension `. Les composantes tj (k) avec j = {1, · · · , `}
du vecteur t̂(k) sont les projections des éléments du vecteur de données x(k) dans le
sous-espace R` .
L’optimisation de la représentation en se basant sur la matrice de projection P̂ est
obtenue par la minimisation de l’erreur quadratique d’estimation de x. Notons par P̂ la
matrice optimale de représentation, celle-ci peut être donnée par :
n o
P̂ = arg min Je (P̂ ) (2.4)
P̂
où Je représente le critère de l’erreur d’estimation par ACP qui devrait être minimisé.
Sous la contrainte d’orthogonalité de la matrice de projection P̂ , nous pouvons écrire :

2
2 T
Je (P̂ ) = E kx − x̂k = E x − P̂ P̂ x
T n o
T T
= E x − P̂ t̂ x − P̂ t̂ = E x x − t̂ t̂
n T
o n T o
= E tr xxT − t̂ t̂ = tr {Σ} − E t̂ t̂

= tr {Σ} − Jv (P̂ ) (2.5)

où tr {.} désigne la trace d’une matrice carrée. Etant donné que le terme tr {Σ} est une
constante, la minimisation du critère Je revient à maximiser celui du Jv donné par :
( ` ) ` `
n T o X X X
t2j = E t2j =

Jv (P̂ ) = E t̂ t̂ = E Var tj (2.6)
j=1 j=1 j=1
30
2.2. Analyse en composantes principales linéaire
D’après l’équation précédente, la maximisation du critère Jv est équivalente à une

maximisation de la variance de la composante tj . Ainsi, le problème d’optimisation est
reformulé comme suit :
n o n o
P̂ = arg min Je (P̂ ) = arg max Jv (P̂ ) (2.7)
P̂ P̂
Pour déterminer les vecteurs colonnes de la matrice P̂, on note par t ∈ R la projection
du vecteur de données x le long d’une direction représentée par un vecteur unitaire p ∈ Rm .
La composante t est obtenue par le produit scalaire t = xT p = pT x sous la contrainte
kpk2 = pT p = 1. Notamment, elle représente une nouvelle variable ayant une moyenne et
une variance qui dépendent des propriétés statistiques de x comme suit :
E {t} = E pT x = pT E {x} = 0

(2.8)
Var {t} = E (t − E {t})2 = E t2

= E pT x xT p = pT E xxT p

= pT Σp (2.9)
La maximisation de la variance de projection, sous condition d’une norme unité du

vecteur p, représente un problème d’optimisation sous contrainte égalité qui peut être
formalisé par la fonction de Lagrange :
L(p, λ) = Jv (p) − λ pT p − 1 = pT Σp − λ pT p − 1

(2.10)
où λ ∈ R désigne le multiplicateur de Lagrange. En tenant compte de la symétrie de la

matrice Σ, le vecteur p maximisant le critère d’optimisation Jv est solution du système
d’équations suivant : (
∂L(p, λ)/∂p = Σp − λp = 0
(2.11)
∂L(p, λ)/∂λ = pT p − 1 = 0
Par conséquence, la résolution de ce système d’équations est identifiée comme un
problème d’estimation de valeurs et vecteurs propres normalisés de la matrice Σ. Un tel
système d’équations admet des solutions réelles de la variables λ obtenues par résolution
de l’équation caractéristique suivante :
Det {Σ − λIm } = 0 (2.12)
où Det {.} représente le déterminant d’une matrice carrée. Im est la matrice identité
d’ordre m. Les solutions de l’équation précédente représentent les valeurs propres de Σ.
A chaque valeur propre λ est associé un vecteur propre p vérifiant (Σ − λIm )p = 0.
Ceci permet d’avoir m vecteurs propres pi associés aux m valeurs propres λi de la ma-
trice Σ vérifiant ainsi la relation Σpi = λi pi avec i = {1, · · · , m}. Sous forme matricielle,
une telle relation mène à écrire ce qui suit :
ΣP = PΛ (2.13)
31
P = [p1 , · · · , pm ] ∈ Rm×m représente la matrice de projection de données. Elle est

orthonormée puisque ses colonnes correspondent aux vecteurs propres de Σ :
PT P = PPT = Im ∈ Rm×m (2.14)
Λ = diag {λ1 , · · · , λm } ∈ Rm×m représente la matrice diagonale constituée en éléments

diagonaux des valeurs propres de Σ.
D’après les équations (2.13) et (2.14), on peut déduire que PT ΣP = Λ. Ceci nous
permet de conclure que la première direction, ayant une variance maximale de projection
de données x, est portée par le vecteur propre p1 associé à la plus grande valeur propre λ1 .
Cette dernière représente la variance d’une telle direction. Le second axe factoriel aussi
rend la variance maximale tout en étant orthogonal au premier. Sa variance λ2 est moins
importante que celle qui correspond à la première direction. Par conséquent, les éléments
diagonaux de Λ sont arrangés dans l’ordre décroissant : λ1 ≥ · · · ≥ λm .
En considérant la matrice P, le vecteur de données x(k) peut se transformer sans
aucune perte d’informations en un vecteur de composantes principales (CPs) :
t(k) = [t1 (k), · · · , tm (k)]T = PT x(k) ∈ Rm (2.15)
où les CPs tj avec j = {1, · · · , m} sont définies par :
tj (k) = pTj x(k) = xT (k)pj (2.16)
Celles-ci sont statistiquement non corrélées :
E ti tj = E pTi xxT pj = pTi Σpj = 0 i 6= j

(2.17)
La notation sous forme matricielle nous permet de définir la matrice des CPs comme
suit :
T = [t(1), · · · , t(N )]T = XP ∈ RN ×m (2.18)
La détermination du vecteur de données x(k) à partir du vecteur associé des CPs t(k)
est donnée par :
Xm
x(k) = Pt(k) = pj tj (k) (2.19)
j=1
La réduction des données est réalisée à travers les ` premières CPs ayant les plus
grandes variances. En conséquence, les ` premiers vecteurs propres forment le sous-espace
vectoriel réduit pour les données initiales. L’estimation x̂(k) du vecteur de données x(k)
dans ce sous-espace réduit (souvent appelé sous-espace de représentation ou principal et
noté Ŝ) est donnée par :
T
x̂(k) = P̂t̂(k) = P̂P̂ x(k) = Ĉx(k) (2.20)
où la matrice optimale de représentation exprimée dans l’équation (2.7) est définie comme
suit :
P̂ = [p1 , · · · , p` ] ∈ Rm×` (2.21)
32
2.3. Propriétés
T
t̂(k) = P̂ x(k) ∈ R` représente le vecteur des ` premières CPs. La matrice Ĉ ∈ Rm×m
caractérise ainsi le modèle ACP.
Toutefois, la réduction de dimension engendre généralement une perte d’informations
qui sont récupérées dans un vecteur résiduel x̃(k). Ce dernier est exprimé dans un sous-
espace résiduel S̃ constitué par le reste des CPs associées aux (m − `) derniers vecteurs
propres :
T
x̃(k) = P̃t̃(k) = P̃P̃ x(k) = C̃x(k) (2.22)
avec
P̃ = p`+1 , · · · , pm ∈ Rm×(m−`)

(2.23)
et
T
C̃ = P̃P̃ = Im − Ĉ (2.24)
La matrice C̃ ∈ Rm×m décrit le modèle résiduel. On entrevoit ici que l’ACP est une
approche de modélisation permettant ainsi l’obtention d’un modèle ACP d’un système
étudié.
L’interprétation du principe de la modélisation par ACP représente un partitionnement
de l’espace Rm des mesures x(k) en un sous-espace principal Ŝ et un sous-espace résiduel
S̃. Par conséquent, le vecteur de mesures x(k) est décomposé comme suit :
x(k) = x̂(k) + x̃(k) (2.25)

Notamment, une propriété géométrique d’orthogonalité entre le vecteur estimé et celui
résiduel est toujours vérifiée puisque :
C̃Ĉ = ĈC̃ = 0m ∈ Rm×m (2.26)
Celle-ci implique que le sous-espace principal et le sous-espace résiduel sont orthogo-

naux pour toutes valeurs de `. Ainsi,
x̃T (k)x̂(k) = 0 (2.27)
Une analyse de la robustesse de l’ACP par rapport au bruit de mesures mène à la

définition de quelques propriétés relatives à la détermination d’un modèle ACP.
2.3 Propriétés
Généralement, la présence de bruit de mesures est inévitable dans les données. Sous
l’hypothèse de l’absence de perturbations et de défauts, il est possible de considérer que
le vecteur x est perturbé par un bruit v ∈ Rm de moyenne nulle :
x(k) = x̊(k) + v(k) (2.28)
où x̊(k) représente le vecteur de données en absence de bruit de mesures.
33
2.3.1 Modélisation en absence de bruit

Notons par Σ̊ la matrice de covariance des données x̊. Sa décomposition en valeurs
singulières peut s’exprimer comme suit :
1 T T
Σ̊ = X̊ X̊ = P̊ Λ̊ P̊ (2.29)
N
où X̊ représente la matrice des données supposées être sans bruit. Elle est exprimée en
fonction des observations x̊(k) comme suit :
X̊ = [x̊(1), · · · ,x̊(N )]T ∈ RN ×m (2.30)
En effet, le nombre optimal ` des CPs doit correspondre au rang q de la matrice Σ̊

car en présence des corrélations linéaires entre les variables, les (m − q) dernières valeurs
propres de Σ̊ sont nulles. Ainsi, les partitionnements appropriés des matrices P̊ et Λ̊
conduisent à réécrire cette dernière de la façon suivante :
ˆ
" # " #
ˆ P̊T
Λ̊ = Λ̊ 0
h i
= ˜ Σ̊ P̊ ˆ ˜ (2.31)
P̊
0 0(m−q) P̊T
ˆ
où Λ̊ ∈ Rq×q représente la matrice diagonale composée des q valeurs propres non nulles :
ˆ
Λ̊ = diag{λ̊1 , · · · , λ̊q } (2.32)
λ̊` , avec ` = {1, · · · , q}, décrit la variance de la è̀me CP des données étudiées en
l’absence de bruit de mesures. D’après l’équation (2.31), on peut déduire ce qui suit :
˜ ˜
P̊T Σ̊P̊ = 0(m−q) ∈ R(m−q)×(m−q) (2.33)
Ainsi, la substitution de la matrice Σ̊ par son expression donnée dans (2.29) mène à
la relation suivante :
˜ T ˜ ˜ T ˜

P̊T X̊ X̊ P̊ = X̊ P̊ X̊ P̊ = 0(m−q) (2.34)
Celle-ci implique que :

˜
X̊ P̊ = 0 ∈ RN ×(m−q) (2.35)
En tenant compte des observations x̊(k) qui constituent la matrice X̊, on peut égale-
ment déduire que :
˜
P̊T x̊(k) = 0 ∈ R(m−q) (2.36)
La relation précédente forme un système composé de (m − q) équations linéaires. En
effet, les (m − q) valeurs propres nulles de Σ̊ impliquent l’existence de (m − q) relations
linéaires entre les variables. Ainsi, ces équations représentent celles de redondance pré-
sentes entre les variables étudiées. En absence de bruit de mesures, les q valeurs propres
non nulles indiquent l’existence de q variables linéairement indépendantes.
34
2.3. Propriétés
Exemple 2.1 Détermination d’un modèle ACP en absence de bruit

Afin d’illustrer un exemple, on considère le système suivant :
(
y1 (k) = 2u1 (k) − u2 (k)
(2.37)
y2 (k) = u2 (k) + u3 (k)
y1 et y2 représentent les signaux de sorties d’un tel système. u1 , u2 et u3 sont les
signaux d’entrées dont les expressions en fonction du temps sont les suivantes :

 u1 (k) = 1 + sin(k/3)

u2 (k) = 2 cos(k/4) exp(−k/N ) (2.38)
 u (k) = log(u (k)2 )

3 2
On a construit une matrice de données X̊ composée de N = 2700 observations. Cha-

cune de ces dernières représente un vecteur des mesures associées aux variables étudiées :
x̊(k) = [u1 (k) u2 (k) u3 (k) y1 (k) y2 (k)]T . La décomposition en valeurs singulières de la
matrice de covariance Σ̊ de X̊ mène aux valeurs propres données par le tableau 2.1.
13.026 5.276 1.315 0 0
Table 2.1 – Valeurs propres de Σ̊ de l’exemple 2.1
On remarque l’existence de deux valeurs propres nulles ce qui explique l’existence de

deux équations de redondance dans le système. Les trois valeurs propres non nulles in-
diquent la présence de trois variables non corrélées qui représentent les entrées du système
dans cet exemple.
Le sous-espace résiduel est engendré par les deux derniers vecteurs propres dont les
transposées sont exprimées comme suit :

˜T 0.410 0.366 0.572 −0.205 −0.572
P̊ = (2.39)
0.733 −0.526 −0.160 −0.366 0.160
On peut alors déduire que les équations de redondance sont les suivantes :
(
0.410u1 (k) + 0.366u2 (k) + 0.572u3 (k) − 0.205y1 (k) − 0.572y2 (k) = 0 (a)
(2.40)
0.733u1 (k) − 0.526u2 (k) − 0.160u3 (k) − 0.366y1 (k) + 0.160y2 (k) = 0 (b)
A partir de l’équation (2.40.a), la variable y1 peut être exprimée en fonction des autres
variables de la manière suivante :
1
y1 (k) = (0.410u1 (k) + 0.366u2 (k) + 0.572u3 (k) − 0.572y2 (k)) (2.41)
0.205
En remplaçant la variable y1 de l’équation (2.40.b) par son expression donnée dans
(2.41), on peut déduire que :
y2 (k) = u2 (k) + u3 (k) (2.42)
Ainsi, la réinjection de celle-ci dans l’équation (2.41) mène à :
y1 (k) = 2u1 (k) − u2 (k) (2.43)
On peut alors conclure qu’il est possible de retrouver à partir des équations de redon-
dance le système initial donné par (2.37).
35
2.3.2 Modélisation en présence de bruit

D’après Li et Qin (2001), l’ACP fournit un modèle non biaisé uniquement dans le cas
particulier où les mesures des variables du processus sont entachées par un bruit blanc
(indépendant et identiquement distribué : i.i.d.).
Lorsque le bruit v est i.i.d. de variance identique σ 2 , l’expression de la matrice de
covariance des données bruitées est la suivante :
Σ = E{xxT } = PΛPT = Σ̊ + σ 2 Im (2.44)
Ainsi, Anderson (1963) a montré que les vecteurs propres des matrices Σ et Σ̊ sont
identiques. Pour ` = q CPs, il est alors possible d’exprimer la matrice C̃ comme suit :
˜˜
C̃ = P̊ P̊T (2.45)
Par conséquent, le vecteur résiduel ainsi que celui estimé d’une observation bruitée
x(k) sont respectivement exprimés de la manière suivante :
x̃(k) = C̃ (x̊(k) + v(k))

= C̃v(k) (2.46)
et
x̂(k) = Ĉ (x̊(k) + v(k)) (2.47)
En présence de bruit i.i.d., le modèle ACP est constitué de q CPs. Dans ce cas et
d’après l’équation (2.46), les données sans bruit ne sont pas projetées dans le sous-espace
résiduel. En effet, ce dernier ne peut contenir que le bruit de mesures. Cependant, le
sous-espace principal peut contenir les données non bruitées ainsi que le bruit.
2.4 Détermination d’une structure optimale du mo-

dèle ACP
En présence de bruit de mesures, les valeurs propres nulles de la matrice de covariance
indiquent l’existence de relations linéaires et les plus petites valeurs propres indiquent
l’existence de relations quasi-linéaires. Le choix du nombre de CPs joue donc un rôle crucial
dans la détermination des relations de redondance entre les variables. Toutefois, un tel
nombre révèle une difficulté pour sa détermination. Pour cela, de nombreux critères ont été
proposés dans la littérature afin d’offrir des solutions aidant dans le choix de la structure
adaptée du modèle ACP. D’une façon non exhaustive, nous avons choisi certains critères
parmi les plus connus afin de réaliser une étude comparative sur leurs performances.
2.4.1 Critères de la théorie de l’information

Dans le domaine du traitement du signal, l’identification des sources indépendantes
des signaux à partir d’un nombre fini d’observations bruitées est un problème crucial. Les
solutions proposées dans ce cadre peuvent être explorées avec l’ACP pour déterminer le
36
2.4. Détermination d’une structure optimale du modèle ACP
nombre des signaux non corrélés. En effet, un vecteur d’observation peut être modélisé
comme une superposition d’un nombre fini de signaux noyés dans un bruit additif. L’ob-
jectif est d’identifier ces signaux. Sous l’hypothèse que le bruit de mesures est i.i.d., sa
variance doit correspondre aux plus petites valeurs propres de la matrice de covariance. En
se basant sur le principe de la vraisemblance, deux critères AIC (Akaike, 1973) et MDL
(Rissanen, 1978) et (Schwarz, 1978) ont été proposés puis reformulés et adaptés par Wax
et Kailath (1985) afin d’être utiles dans le choix du nombre des CPs significatives. En
effet, le nombre des signaux non corrélés à identifier doit correspondre aux minima des
critères AIC et MDL dont les expressions sont respectivement données par :
AIC(`) = −2 log f (X|θ̂) + 2G(θ̂) (2.48)
MDL(`) = −2 log f (X|θ̂) + G(θ̂) log N (2.49)

avec !
m m
X 1 X
f (X|θ̂) = N log λa − N (m − `) log λ (2.50)
a=`+1
m − ` a=`+1 a
et
G(θ̂) = `(2m − `) (2.51)
où la fonction log représente l’opérateur du logarithme népérien. On remarque que les
premiers termes (à droite) des expressions (2.48) et (2.49) sont identiques et décroissants
en `. En revanche, les seconds termes sont croissants en `. Théoriquement, il existe un
minimum qui correspond à un nombre de CPs pour chacun des deux critères. Notam-
ment, Wax et Kailath (1985) ont montré que le critère MDL est capable d’estimer une
structure adaptée du modèle ACP sous l’hypothèse que le nombre d’observations consi-
dérées soit assez important. Tandis que celui d’AIC présente une tendance asymptotique
de surestimation du nombre des CPs retenues.
2.4.2 Critères heuristiques

La qualité des estimations par ACP dépend du choix du nombre des CPs retenues ou
encore de la dimension du sous-espace de représentation. Dans la suite, nous présentons
d’une façon non exhaustive les critères heuristiques les plus couramment utilisés.
2.4.2.1 Critère IE
L’analyse factorielle est une méthode conçue pour résoudre les problèmes multidi-
mensionnels. Elle exprime un ensemble de données sous forme d’une somme linéaire des
produits de fonctions. Ainsi, une réduction est réalisée afin de reproduire ces données à
partir d’un sous-espace composé uniquement des variables latentes significatives qui ont
été déterminées par l’analyse factorielle. Notamment, la première étape dans le processus
de cette méthode fait appelle à l’ACP qui consiste à déterminer ce nombre de facteurs
cachés. Puisque la reproduction des données engendre nécessairement des erreurs, Mali-
nowski (1977) distingue trois types d’erreurs qui sont : real error (RE), imbedded error
37
(IE) et extracted error (XE). En investiguant de prés le comportement de la fonction

IE, cette dernière a été considérée par Malinowski (1977) comme un critère capable de
déterminer la dimension d’un modèle ACP. Son expression dépend principalement des
valeurs propres résiduelles :
m
! 21
` X
IE(`) = λ (2.52)
N m(m − `) a=`+1 a
Chaque variable latente ou CP sélectionnée est composée des mesures observées et

des erreurs. Lorsque le sous-espace constitué par les variables latentes retenues n’est pas
encore optimal, le critère IE décroı̂t en ` en représentant par conséquent une mixture des
mesures observées et des erreurs. Au point où toute l’information normale est extraite, IE
devient croissant en ` en exprimant uniquement les erreurs. Une représentation convenable
des données est assurée par le nombre des CPs qui correspondent à la valeur minimale de
ce critère.
Bien que les critères AIC, MDL et IE soient développés dans différents domaines,
ils représentent deux points communs. En effet, ils se basent uniquement sur des valeurs
propres issues de la matrice de covariance des données. Par conséquent, ces dernières ne
doivent pas être normalisées. En outre, le bruit de mesures des variables est supposé être
indépendant et identiquement distribué.
2.4.2.2 Pourcentage cumulé de la variance

Les valeurs propres de la matrice de corrélation représentent les variances des CPs. Par
conséquent, elles ont été utilisées pour définir un critère PCV dans le but est la déter-
mination de la structure optimale d’un modèle ACP. Ce critère représente le pourcentage
de la variance expliquée par les CPs retenues comme suit :
 ` 
X
 λa 
 a=1 
PCV(`) = 100  X m
%
 (2.53)
λa
 
a=1
Généralement, on essaie de retenir avec ce critère un nombre de CPs ayant un PCV

compris entre 90% et 95% ou 99% de la variance totale. La règle de décision basée sur
un tel critère est très subjective, car il s’agit d’une réalisation d’un compromis entre une
variance maximale et un nombre minimal de CPs retenues. Le choix de la dimension du
modèle ACP est souvent difficile puisque ce critère est monotone croissant en `. En outre,
son efficacité à fournir le nombre optimal des CPs dépend fortement du rapport signal sur
bruit puisque la variance du bruit est inconnue.
2.4.2.3 Scree Test

Le Scree Test ou test du coude est une approche empirique proposée principalement
par Cattell (1966) pour la sélection du nombre optimal des CPs. Elle est basée sur un
38
test du coude de la courbe du pourcentage de la variance résiduelle dont l’expression est

la suivante :  m 
X
 λa 
 a=`+1 
PVR(`) = 100  X m
%
 (2.54)
λa
 
a=1
Ce critère présente une allure décroissante en `. Son principe est fondé sur l’idée
que la variance résiduelle devrait atteindre un état stationnaire lorsque les CPs ignorées
ressemblent à des erreurs aléatoires. Ainsi, le nombre des CPs à retenir est relatif au
premier point d’inflexion détecté sur la courbe.
On observe le graphique du critère PVR et on ne retient que les valeurs qui se trouvent
à gauche du point d’inflexion. Graphiquement, on part des composantes qui se trouvent
à droite, apportant le moins d’informations. On relie par une droite les points presque
alignés et on ne retient que les CPs qui sont au dessus de cette ligne. La mise en œuvre de
cette méthode est relativement facile, cependant dans certains cas il est difficile de trouver
un point d’inflexion ou le coude si la courbe décroı̂t lentement.
2.4.2.4 Critère de Guttman

Le critère de Guttman pour la détermination du nombre approprié des variables la-
tentes en analyse factorielle (ou le nombre des CPs significatives en ACP) a été initialement
proposé par Guttman (1954) puis adapté et popularisé par Kaiser (1961). En s’appuyant
sur un tel critère, on ne compte que les composantes ou facteurs avec des valeurs propres
supérieures à l’unité qui représente la moyenne arithmétique de toutes les valeurs propres
de la matrice de corrélation. L’expression de ce critère en ` est la suivante :
KG(`) = λ` (2.55)
Chaque CP retenue dans le modèle ACP contribue par sa variance. Ainsi, sa contri-
bution est considérée significative si elle dépasse la moyenne totale, sinon elle devrait être
écartée. Cette idée est justifiée par Guttman (1954) afin de fournir une borne inférieure
pour le nombre des variables latentes représentatives en considérant une matrice de cor-
rélation. Plus intuitivement, l’argument a été avancé afin d’exprimer qu’aucune CP dont
la variance est inférieure à celle d’une variable originelle ne peut être considérée comme
représentative.
La popularité du critère KG, par rapport à d’autres plus opérationnels et mieux jus-
tifiables, apparaı̂t plus particulièrement dans sa simplicité d’utilisation. Dans un cadre
d’une étude par simulation, Yeomans et Golder (1982) ont examiné de plus près le com-
portement de ce critère afin de montrer l’ampleur probable des erreurs introduites par son
utilisation sans précautions. Le seul cas où ce critère est efficace semble bien être lorsque
le nombre des composantes représentatives est beaucoup moins inférieur que celui des
variables originelles. Ainsi, la proportion de la variance de chaque variable, expliquée par
les CPs retenues, doit être élevée.
39
2.4.2.5 Autocorrélation
L’autocorrélation est une méthode qualitative proposée pour le choix d’un modèle
ACP. Généralement, les allures des CPs les plus significatives doivent être lisses tandis que
les autres liées principalement aux bruits présentent des fluctuations rapides et aléatoires.
Dans ce cadre, Shrager et Hendler (1982) ont proposé la fonction d’autocorrélation du
premier ordre comme une mesure quantitative de ce comportement :
N −1
E{t` (k)t` (k + 1)} 1 X
AC(`) = = t(k, `)t(k + 1, `) (2.56)
Var{t` (k)} (N − 1)λ` k=1
où t(k, `) représente la kème valeur de la è̀me colonne de la matrice des CPs notée T
dans l’équation (2.18).
Lorsqu’une CP est significative, son autocorrélation sera importante car il y aura
certainement une corrélation entre ses éléments qui correspondent aux différentes obser-
vations. En revanche et si elle est principalement associée à un bruit de mesures, peu de
corrélation est attendue entre ses éléments qui sont fortement aléatoires. Par conséquent,
son autocorrélation sera relativement faible. D’après Shrager et Hendler (1982), une valeur
d’autocorrélation supérieure à 0.5 indique que la CP correspondante est significative. Dans
le cas contraire, la composante en question est constituée principalement de bruit. Dans
ce cas, elle ne devrait pas être incluse dans le model. Le choix de la valeur d’un tel seuil est
considérablement arbitraire, ce qui représente l’inconvénient de ce critère. En outre, une
CP ayant une grande variance peut correspondre à une faible valeur d’autocorrélation, ce
qui lui risque d’être exclue du modèle.
2.4.2.6 Validation croisée

L’idée de la validation croisée est basée principalement sur la prédiction à travers
un modèle ACP d’une mesure xi (k) de la matrice de données X. Selon Wold (1978) et
Eastment et Krzanowski (1982), le nombre des CPs retenues est optimal si la moyenne de
la prédiction globale d’une telle mesure n’est plus significativement améliorée par l’ajout
de CPs supplémentaires. Ainsi, le modèle optimal est alors constitué du nombre minimum
des CPs nécessaires pour une prédiction adéquate.
Dans ce cadre, le critère qui découle de l’approche de la validation croisée représente
une minimisation de la somme des carrés des erreurs de prédiction. Il est connu sous le
nom de PRESS :
N m
1 X X (`)
PRESS(`) = (x̂ (k) − xi (k))2 (2.57)
N m k=1 i=1 i
(`)
où x̂i (k) représente la prédiction de xi (k), qui correspond à la kème mesure de la ième
variable, en utilisant un modèle ACP constitué de ` CPs.
Toutefois, on distingue dans la littérature deux façons différentes pour le calcul de ce
critère, car la manière de la prédiction proposée par Wold (1978) diffère de celle proposée
par Eastment et Krzanowski (1982). Indépendamment de cette différence, il est important
40
de mentionner que ce critère présente une complexité dans son implémentation ainsi qu’un
coût de calcul important.
Par ailleurs, Besse et Ferré (1993) ont montré théoriquement que l’usage du critère
PRESS n’apporte pas une règle de décision plus objective que les critères heuristiques.
Sous l’hypothèse que le nombre d’observations considérées est très important, un déve-
loppement de Taylor a permis à ces auteurs de montrer que la quantité PRESS peut être
approximée comme suit :
m
1 X
PRESS(`) ≈ λ (2.58)
m a=`+1 a
Ce critère est alors décroissant en `. Par conséquent, l’idée d’identifier la CP qui
correspond au minimum de PRESS ne peut servir dans le choix d’un modèle ACP. En
outre, ce critère est équivalent à ceux prenant simplement la part de la variance résiduelle
en particulier le critère PVR. Tandis que, Wold (1978) et Eastment et Krzanowski (1982)
ont également proposé l’investigation d’autres critères issues de la quantité PRESS qui
sont respectivement le ratio R et le critère W. L’utilisation des ces derniers pour le
choix de la dimension d’un modèle ACP est basée sur une comparaison de leurs valeurs à
des seuils jugés arbitraires dans la littérature limitant par conséquence de leurs efficacités.
Malgré la célébrité de la validation croisée, cette dernière n’est plus considérée avantageuse
par rapport aux restes des critères heuristiques. Pour cette raison, elle ne présentera pas
l’objectif de notre étude dans ce chapitre.
2.4.3 Minimisation de la variance de l’erreur de reconstruction

Le critère qui représente un objectif principal d’une étude dans ce chapitre est lié à
la variance de l’erreur de reconstruction ou la variance non reconstruite (VNR) (Dunia
et Qin, 1998b,c,a; Qin et Dunia, 2000). En effet, la qualité de la reconstruction est liée
à la capacité du modèle ACP à modéliser les relations de redondance entre les variables.
Ainsi, ce critère aide à définir le nombre des CPs exprimant une meilleure reconstruction.
Le principe de reconstruction représente une élimination de l’effet d’un défaut. Autre-
ment dit, cette approche estime le vecteur d’amplitudes d’un tel défaut.
Pour une raison de simplifications qui seront utiles pour le reste des chapitres, nous
définissons ici d’une manière générale l’expression d’un vecteur de données en présence
de défauts multidimensionnels. Nous notons par SJ le sous-espace caractéristique d’un
défaut réel FJ affectant un ensemble J constitué de r variables où r = dim(SJ ). Nous
considérons également ΞJ ∈ Rm×r une base orthonormée pour un tel sous-espace dont les
colonnes sont celles de la matrice identité et qui correspondent aux variables en défaut.
Posons x∗ (k) qui est supposé inconnu le vecteur de mesures collectées lors du fonction-
nement normal. En présence du défaut FJ , le vecteur x(k) peut s’écrire comme suit :
x(k) = x∗ (k) + ΞJ f(k) (2.59)

où f(k) ∈ Rr représente le vecteur d’amplitudes des composants de défaut à l’instant k.
On formule l’hypothèse que les données utilisées pour construire le modèle ACP sont
”saines”. Les données ”saines” correspondent à des données obtenues lors du fonctionne-
ment normal du système étudié.
41
2.4.3.1 Critère VNR

Dans l’objectif de choisir une structure adaptée du modèle ACP en s’appuyant sur l’ap-
proche de reconstruction, on suppose que les défauts sont unidimensionnels ou simples.
Cela signifie que la matrice orthonormée des directions ΞJ ainsi que le vecteur d’ampli-
tudes des composants de défaut f(k) dans l’équation (2.59) sont respectivement remplacés
par un vecteur ξj qui représente la jème colonne de la matrice identité et f (k) un sca-
laire qui désigne l’amplitude de défaut caractérisant la jème variable. Dans ce cadre, la
reconstruction d’une telle variable aboutit à un vecteur reconstruit d’observation ayant
l’expression suivante :
xj (k) = x∗ (k) = x(k) − ξj f (k)

= x(k) − ξ fˆ (k) j j (2.60)
où fˆj (k) est l’estimée de f (k) dans la direction de la jème variable. En effet, l’estimation de
l’amplitude f est optimale par minimisation de l’erreur quadratique résiduelle kC̃xj (k)k2
comme suit :
n o
fˆj (k) = arg min kC̃xj (k)k2
f (k)
= (ξjT C̃ξj )−1 ξjT C̃x(k) (2.61)
Par conséquent, le vecteur reconstruit d’observation aura la forme suivante :
xj (k) = (Im − ξj (ξjT C̃ξj )−1 ξjT C̃)x(k) (2.62)
Certainement, la reconstruction n’est possible que sous conditions. En effet, la jème

variable est reconstructible si ξjT C̃ξj 6= 0. Cela implique que le vecteur C̃ξj n’est pas nul.
Après avoir présenté le principe de reconstruction, la variance non reconstruite de la
jème variable est définie par :
n o
σj (`) = Var ξj (x − xj ) = Var fˆj
2
T

ξjT C̃ E xxT C̃ξj ξjT C̃ΣC̃ξj
= = T (2.63)
(ξjT C̃ξj )2 (ξj C̃ξj )2
On déduit qu’une telle variance représente tout simplement la variance de l’amplitude

estimée du défaut. Une telle variance justifie l’idée de son utilisation pour le choix d’un
modèle ACP. En effet, les données utilisées pour la modélisation sont supposées être sans
défauts. Ainsi, la reconstruction d’une variable donnée en utilisant un modèle judicieu-
sement choisi doit fournir une variance non reconstruite minimale. Puisqu’on dispose de
plusieurs variables qui doivent être étudiées simultanément, on doit alors identifier un
modèle ACP qui minimise la variance globale non reconstruite (VNR) représentée par la
somme suivante :
m m
X σj2 (`) X ξjT C̃ΣC̃ξj
VNR(`) = = (2.64)
ξ T Σξj
j=1 j j=1
(ξjT Σξj )(ξjT C̃ξj )2
42
Dans le but d’éviter les problèmes d’échelles des variances non reconstruites, il est
important de pondérer chaque σj2 par ξjT Σξj qui représente la variance originelle de la
jème variable. Evidemment, si les variables étudiées sont réduites alors ξjT Σξj = 1.
Le choix d’un modèle ACP en se basant sur ce critère s’est justifié par une sélection
du nombre optimal (òp ) des CPs offrant la meilleure reconstruction. Autrement dit, òp
doit assurer une variance non reconstruite minimale :
òp = arg min {VNR(`)} (2.65)
`
2.4.3.2 Consistance théorique du critère VNR

D’après Dunia et Qin (1998b,c,a) et Qin et Dunia (2000), ce critère doit nécessaire-
ment admettre un minimum qui correspond à un modèle optimal offrant une meilleure
reconstruction. Afin de montrer l’existence d’un tel minimum, Dunia et Qin (1998a) ont
décomposé la variance non reconstruite de la jème variable en deux variances en se basant
sur la propriété exprimée dans l’équation (2.24) et qui donne :
kξj k2 = kC̃ξj k2 + kĈξj k2 = 1 (2.66)
Ainsi, la variance de l’erreur de reconstruction individuelle d’une variable donnée peut
s’écrire comme suit :
ξjT C̃ΣC̃ξj ξjT C̃ΣC̃ξj
σj2 (`) = =
(ξjT C̃ξj )2 kC̃ξj k2 (1 − kĈξj k2 )
!
ξjT C̃ΣC̃ξj kĈξj k2
= 1+ (2.67)
kC̃ξj k2 1 − kĈξj k2
En posant
ξjT C̃ΣC̃ξj
σ̃j2 (`) = (2.68)
kC̃ξj k2
et !
kĈξj k2
σ̂j2 (`) = σ̃j2 (`) (2.69)
1 − kĈξj k2
la variance non reconstruite exprimée dans l’équation (2.67) n’est autre que :
σj2 (`) = σ̃j2 (`) + σ̂j2 (`) (2.70)
Dunia et Qin (1998a) ont montré que la fonction σ̃j2 est monotone décroissante en `.
Par ailleurs, la fonction σ̂j2 tend vers l’infini pour ` = m. En conséquence, la variance non
reconstruite σj2 doit obligatoirement avoir un minimum qui correspond à un nombre de
CPs ` ∈ [1, m]. Ces déductions peuvent être également étendues au critère VNR puisqu’il
représente la somme des variances non reconstruites de toutes les variables. Néanmoins,
on s’interroge si le nombre des CPs qui correspond à un tel minimum représente le nombre
théorique q défini auparavant. Dans ce cadre, Valle et al. (1999) ont étendu leurs travaux
afin d’établir des théorèmes sur la consistance d’un tel critère en montrant qu’il est capable
de définir correctement le nombre optimal des CPs sous des conditions qui dépendent de
la distribution du bruit de mesures.
43
Cas de bruit i.i.d. D’après (2.44), la matrice des valeurs propres, en présence d’un
bruit de mesures i.i.d. de variance σ 2 , peut être introduite de la façon suivante :
" #
ˆ 2
2
Λ = Λ̊ + σ Im = Λ̊ + σ Iq 0 (2.71)
0 σ 2 I(m−q)
ˆ
où Λ̊ et Λ̊ sont données respectivement par les équations (2.31) et (2.32).
T
Pour ` ≥ q, on a ξjT C̃ΣC̃ξj = σ 2 ξjT P̃P̃ ξj ce qui implique que la variance non recons-
truite de la jème variable peut s’exprimer comme suit :
σ2
σj2 (`) = T
∀`≥q (2.72)
ξjT P̃P̃ ξj
Dans le cas particulier où ` = q, on a :
σ2
σj2 (q) = T
(2.73)
ξjT P̃q P̃q ξj
avec la matrice des vecteurs propres P̃q est donnée par :

P̃q = pq+1 , · · · , p` , p`+1 , · · · , pm = pq+1 , · · · , p` , P̃ (2.74)
Celle-ci implique que :

T T
ξjT P̃q P̃q ξj ≥ ξjT P̃P̃ ξj (2.75)
ainsi,
σj2 (`) ≥ σj2 (q) ∀ ` ≥ q (2.76)
Indépendamment de la nature de la matrice Σ si elle représente une matrice de cova-
riance ou une matrice de corrélation, on a :
σj2 (`) σj2 (q)

≥ ∀`≥q (2.77)
ξjT Σξj ξjT Σξj
L’inégalité précédente nous permet de déduire que :
VNR(`) ≥ VNR(q) ∀ ` ≥ q (2.78)
d’où
arg min {VNR(`)} = q ∀`≥q (2.79)
`
Cette égalité prouve que le critère VNR ne surestime plus la dimension d’un modèle
ACP en présence de bruit i.i.d.
Par ailleurs et dans le cas où ` < q, la matrice des vecteurs propres P̃q sera englobée
dans P̃ comme suit :

P̃ = p`+1 , · · · , pq , P̃q pour ` < q (2.80)
44
2.5. Etude comparative des différents critères
Dans ce cas, Valle et al. (1999) ont montré que :

T
ξjT P̃P̃ ξj
σj2 (`) ≥ σj2 (q) si λ̊q ≥ T
σ2 ∀`<q (2.81)
ξjT P̃q P̃q ξj
Cette hypothèse mettra en évidence que la variance de la dernière CP théoriquement

significative doit être supérieure à la variance du bruit de mesures. Par conséquent, le
critère VNR définit correctement le nombre optimal des CPs sous une telle condition :
T
ξjT P̃P̃ ξj

2 `<q
arg min {VNR(`)} = q si λ̊q ≥ σ ∀ (2.82)
` T
ξjT P̃q P̃q ξj 1≤j≤m
Cas de bruit coloré Il semblerait que l’hypothèse qui consiste à considérer que le
bruit est blanc ne soit pas toujours adaptée. Il se peut qu’on préfère modéliser le bruit
différemment en le colorant i.e. soit en relâchant la contrainte que les variances sont
identiques soit que le bruit est indépendant, soit les deux. Dans la pratique, les variances
du bruit ne sont pas nécessairement identiques. Dans ce cas, la matrice des valeurs propres
prend la forme suivante :
2 2
Λ = diag{λ1 , λ2 , · · · , λq , σq+1 , · · · , σm } (2.83)
où les σi2 sont les variances du bruit. En suivant le même principe que celui du cas de
bruit i.i.d., Valle et al. (1999) ont montré que le critère VNR atteint son minimum à
` = q CPs si :
2 T
σq+1 ξjT P̃q P̃q ξj
2
≤ T
pour ` ≥ q (2.84)
σm ξ T P̃P̃ ξ j j
et
T !
ξjT P̃P̃ ξj 2
λq ≥ 1+ T
σq+1 pour ` < q (2.85)
ξjT P̃q P̃q ξj
L’interprétation de la première inégalité implique que l’étendue des variances du bruit
doit être faible ce qui implique également que ces variances doivent avoir des valeurs très
proches. Cependant, la deuxième condition indique que la qème CP qui est la dernière
supposée être théoriquement retenue doit avoir une variance au moins deux fois plus
supérieure que celle de la (q + 1)ème CP.
2.5 Etude comparative des différents critères

Les différents critères présentés dans ce chapitre vont être comparés vis-à-vis de leurs
efficacités et performances dans le choix de la dimension optimale du modèle ACP d’un
ensemble de données simulées. Pour évaluer ces critères plusieurs enjeux sont considé-
rés tels que le nombre de variables, le nombre d’observations et la variance du bruit de
mesures.
45
k
x̊1 (k) = 3 + exp(cos( 15π ))
1 k
x̊2 (k) = cos( 2πk ) sin( 2π )
x̊3 (k) = arctan(50πk) log(1 + x̊2 (k)2 )
x̊4 (k) = x̊1 (k) + 3x̊2 (k)
x̊5 (k) = x̊1 (k) − x̊2 (k)
x̊6 (k) = x̊1 (k) + x̊3 (k)
x̊7 (k) = x̊2 (k) + 3x̊3 (k)
10 π
x̊8 (k) = π arctan(tan( 200 (k − 100)))
x̊9 (k) = 10 cos(7πk)
x̊10 (k) = 2x̊8 (k) + x̊9 (k)
x̊11 (k) = −2x̊8 (k) + 3x̊9 (k)
x̊12 (k) = x̊2 (k) + x̊8 (k)
x̊13 (k) = (2 + cos(0.2πk))−1
40 9π
x̊14 (k) = π cos(7πk) arctan(tan( 200 (k − 900)))
x̊15 (k) = sgn(sin(0.007πk))
Table 2.2 – Expressions analytiques des variables simulées
2.5.1 Présentation et interprétation de l’exemple simulé

L’exemple de simulation comporte différents ensembles de variables. Nous considérons
un jeu de données qui fait apparaı̂tre des relations de redondance analytiques linéaires
et non linéaires ainsi que des variables indépendantes. Les relations non linéaires entre
quelques variables ne peuvent pas être exprimées dans un contexte d’une ACP linéaire.
Par conséquent, ces variables sont linéairement indépendantes.
Notons par x̊(k) = [x̊1 (k), · · · , x̊15 (k)]T ∈ R15 un vecteur de données composé des
mesures non bruitées prélevées au kème instant d’un ensemble de 15 variables. A titre
d’exemple, x̊j (k) représente la mesure non bruitée de la jème variable au kème instant. En
absence de bruit, les mesures des variables sont générées par les expressions analytiques
données dans le tableau 2.2.
L’interprétation théorique des équations du tableau 2.2 nous permet de déduire que
les variables x̊1 , x̊2 , x̊3 , x̊8 et x̊9 ne sont pas corrélées. Par contre, elles sont corrélées avec
d’autres variables. Cependant, les variables x̊13 , x̊14 et x̊15 sont linéairement indépendantes
et/ou quasi-indépendantes du reste des variables et entre elles. Afin de mieux interpréter
ces relations de dépendance, nous avons proposé d’investiguer les valeurs propres des
matrices de corrélation de quatre principales bases de données sans bruit de mesures. En
considérant des mesures normalisées, les matrices de corrélation de ces quatre groupes de
variables à étudier sont notées de la manière suivante :

Σ̊ = E x̊x̊T où, à l’instant k x̊(k) = [x̊1 (k), · · · , x̊12 (k)]T ∈ R12

(2.86)
A

Σ̊ = E x̊x̊T x̊(k) = [x̊1 (k), · · · , x̊13 (k)]T ∈ R13

où, à l’instant k (2.87)
B

Σ̊ = E x̊x̊T x̊(k) = [x̊1 (k), · · · , x̊14 (k)]T ∈ R14

C
46

Σ̊ = E x̊x̊T x̊(k) = [x̊1 (k), · · · , x̊15 (k)]T ∈ R15

D
Le premier ensemble de données noté A est composé des 12 premières variables du

tableau 2.2. Théoriquement, ce groupe présente 5 variables linéairement non corrélées.
Cela indique l’existence de 5 valeurs propres non nulles. Cette déduction est bien confir-
mée par les résultats données dans la deuxième colonne du tableau 2.3. L’addition de la
treizième variable à celles de l’ensemble A, permettra l’obtention d’un deuxième groupe
de variables B. La variable ajoutée est linéairement indépendante de toutes les variables.
Théoriquement, elle représente toute seule une CP en gardant sa variance originelle qui
vaut l’unité puisque les mesures sont normalisées. La troisième colonne du tableau 2.3
montre que la valeur propre λ̊6 est celle qui est associée à la variable indépendante x̊13 .
Ainsi, l’indépendance d’une telle variable se manifeste par l’insensibilité des autres valeurs
propres à sa présence car elles sont inchangées. Cette variable indépendante constitue une
CP ayant une variance moins faible qu’aux variances des autres CPs. Le groupe B dispose
alors de 6 valeurs propres non nulles.
Le troisième ensemble C est composé des quatorze premières variables. Cet ensemble
représente celui de B auquel on a ajouté la variable x̊14 . En absence du bruit de mesures,
l’ajout d’une telle variable à l’ensemble B a légèrement modifié trois valeurs propres parmi
les anciennes tout en produisant une nouvelle valeur propre λ̊7 proche de l’unité. L’inter-
prétation de la quatrième colonne du tableau 2.3 nous mène à conclure que la variable x̊14
est très légèrement corrélée avec x̊13 ainsi qu’avec d’autres variables difficilement identi-
fiables. En effet, les seules valeurs propres qui ont été perturbées par la présence de x̊14
sont λ̊6 qui correspond à la variable x̊13 ainsi que λ̊2 et λ̊3 . Par ailleurs, cette perturbation
peut être considérée très négligeable puisque λ̊6 et λ̊7 sont toutes les deux très proches
de l’unité. En conséquence, x̊13 et x̊14 sont linéairement quasi-indépendantes voire indé-
pendantes entres elles ainsi qu’aux autres variables. Notamment, l’ensemble C présente 7
valeurs propres non nulles.
Le quatrième groupe de données, noté D, est constitué de toutes les variables du ta-
bleau 2.2. D’après la cinquième colonne de ce tableau, on peut déduire que la variable
ajoutée x̊15 est indépendante puisque sa présence n’a aucun effet sur le reste des variables.
En effet, elle a produit une valeur propre égale à l’unité, en même temps les autres an-
ciennes valeurs propres n’ont subi aucun changement. Ce dernier groupe de variables
dispose donc de 8 CPs associées aux valeurs propres non nulles.
Dans la pratique, les mesures sont entachées de bruit. Pour cette raison, des bruits
i.i.d. de moyennes nulles et de variances identiques générées selon trois différents cas ont
été superposés aux variables du tableau 2.2.
Selon le principe d’utilisation des critères étudiés dans ce chapitre, nous avons dis-
tingué deux principales familles. La première représente des critères qui se réfèrent à des
seuils pour définir le nombre optimal des CPs. En revanche, la deuxième catégorie est
constituée des critères dont la minimisation par rapport au nombre des CPs peut indiquer
la dimension adéquate du modèle ACP.
Le premier cas correspond à la superposition d’un bruit i.i.d. de faible variance (σ 2 =
0.002) largement inférieure aux variances des variables originelles. Naturellement, les re-
lations linéaires entre les variables ne sont pas trop perturbées. Ainsi, les nombres opti-
47
Ensemble A Ensemble B Ensemble C Ensemble D

Σ̊ Σ̊ Σ̊ Σ̊
A B C D
λ̊1 2.92 2.92 2.92 2.92

λ̊2 2.77 2.77 2.78 2.78
λ̊3 2.69 2.69 2.70 2.70
λ̊4 2.10 2.10 2.10 2.10
λ̊5 1.51 1.51 1.51 1.51
λ̊6 0 1 1.08 1.08
λ̊7 0 0 0.90 1
λ̊8 0 0 0 0.90
λ̊9 0 0 0 0
λ̊10 0 0 0 0
λ̊11 0 0 0 0
λ̊12 0 0 0 0
λ̊13 X 0 0 0
λ̊14 X X 0 0
λ̊15 X X X 0
Table 2.3 – Valeurs propres des matrices de corrélation des quatre ensembles de variables
en absence du bruit de mesures et pour N = 1500 observations
maux des CPs qui constituent les modèles ACP dans chaque ensemble étudié de variables,
doivent correspondre aux nombres des valeurs propres non nulles du tableau 2.3.
Les courbes des critères étudiés pour la sélection du nombre des CPs dans les ensembles
de variables A, B, C et D dont chacun est constitué de 1500 observations, sont illustrées
respectivement par les figures 2.1, 2.2, 2.3 et 2.4. On note que les critères AIC, MDL, IE
et VNR sont exprimées en coordonnées semi-logarithmique afin que leurs courbes soient
mieux lisibles. Notamment, une majorité des critères étudiés est basée sur des données
initialement normalisées donc en utilisant les valeurs propres des matrices de corrélation.
Néanmoins, les critères AIC, MDL et IE utilisent des données non réduites puisqu’ils
ont été définis valables uniquement avec les valeurs propres des matrices de covariance.
2.5.2 Interprétations des critères basés sur des seuils

Pour le premier cas de cette étude qui correspond à des variables entachées d’un bruit
de faible variance, les nombres optimaux théoriques des CPs dans les ensembles A, B, C
et D sont respectivement 5, 6, 7 et 8 CPs. On observe clairement dans toutes les figures
(2.1, 2.2, 2.3 et 2.4) que les critères AC, KG, PCV et PVR ne peuvent en aucun cas
assurer d’une façon précise et objective les modèles optimaux.
En effet, le critère AC montre que la deuxième CP possède la plus faible valeur
d’autocorrélation. En outre, une telle valeur est très inférieure au seuil indiqué. Néanmoins,
quelques auteurs suggèrent parfois un ajustement d’un tel seuil afin qu’il soit adaptable
au critère. Il est bien évident qu’aucun ajustement ne peut apporter d’avantage puisque
la CP en question présente la plus faible valeur d’autocorrélation. L’inconvénient de ce
critère se résume dans le fait qu’une CP ayant une variance importante peut correspondre
malheureusement à une faible valeur d’autocorrélation.
Le critère KG a correctement indiqué le nombre optimal des CPs uniquement dans
48
0.8

0.6 4
0.4 10
0.2
0
−0.2
2 4 6 8 10 12 2 4 6 8 10 12
3

2 4
10
1
0
2 4 6 8 10 12 2 4 6 8 10 12
120 !"#

−2
10
100
80
2 4 6 8 10 12 2 4 6 8 10 12
43
60
40
4536"#
0
20 10
0
2 4 %$'&)6(+*-,/./021 8 10 12 2 4 %$'&)6(+*-,/./021 8 10 12
Figure 2.1 – Allures des critères de sélection pour l’ensemble A dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002
0.8

0.6
4
0.4 10
0.2
0
−0.2
2 4 6 8 10 12 2 4 6 8 10 12
3

2
4
10
1
0
2 4 6 8 10 12 2 4 6 8 10 12
120 −2 !"#

10
100
80
2 4 6 8 10 12 2 4 6 8 10 12
43
60
2
40 10
20 4536"#
0
2 4 %6$'&)(+*-,/./8021 10 12 2 4 %6$'& ( *-,/./8021 10 12
Figure 2.2 – Allures des critères de sélection pour l’ensemble B dont les variables sont
49
0.8

0.6
4
0.4 10
0.2
0
−0.2
2 4 6 8 10 12 14 2 4 6 8 10 12 14
3

2
4
10
1
0
2 4 6 8 10 12 14 2 4 6 8 10 12 14
120 !"#

−2
10
100
80
2 4 6 8 10 12 14 2 4 6 8 10 12 14
43
60
2
40 10
20 4:3;"#
0
2 4 %6 $'&)(+*-,/8./021 10 12 14 2 4 56 $6&7(8*,/8./091 10 12 14
Figure 2.3 – Allures des critères de sélection pour l’ensemble C dont les variables sont
0.8

0.6
4
0.4 10
0.2
0
2 4 6 8 10 12 14 2 4 6 8 10 12 14
3

2
4
10
1
0
2 4 6 8 10 12 14 2 4 6 8 10 12 14
120 !"#

−2
10
100
80
2 4 6 8 10 12 14 2 4 6 8 10 12 14
80 43 10
5
60
40
20 4536"#
0
2 4 %$'&)(+8*-,/./021 10
6 12 14 2 4 %$'& ( 8-* ,/./021 10
6 12 14
Figure 2.4 – Allures des critères de sélection pour l’ensemble D dont les variables sont
50
l’ensemble A. Cependant, sa performance de sélection a été dégradée dans le reste des

ensembles en manquant toujours une ou deux CPs par rapport aux nombres théoriques
prévus. Cette limitation s’explique par l’existence des variables quasi-indépendantes x̊13
et x̊14 dans les ensembles C et D. Ces deux variables ont produit deux valeurs propres
qui sont légèrement supérieure et inférieure à l’unité. En ajoutant un bruit, l’une des
deux valeurs propres n’a pas franchi le seuil de l’unité. En effet, le critère KG ignore
souvent les CPs qui correspondent aux variables indépendantes et plus particulièrement
quasi-indépendantes dans le cas de données normalisées. En considérant des matrices de
covariance, une variable indépendante ne peut être retenue par le critère KG que si sa
variance est supérieure à la moyenne arithmétique de toutes les valeurs propres. Cela
explique qu’une telle variable peut être retenue dans des cas et écartée dans d’autres.
En essayant d’expliquer une variabilité généralement supérieure à 80% de la variance
totale, le critère PCV montre une diversité de choix qui se complique proportionnellement
au nombre des variables considérées. En effet, il peut exister dans l’intervalle [80%, 99%]
plus qu’une CP qui peut satisfaire la contrainte. En plus, cette situation est très confron-
tée lorsque les valeurs propres significatives sont trop proches les unes des autres. Par
conséquent, la décision devient difficile voire même très subjective.
Le principe de l’utilisation du critère PVR se résume dans la recherche du coude ou
du point d’inflexion. D’après les figures 2.1, 2.2, 2.3 et 2.4, on observe très nettement
les points d’inflexion qui correspondent correctement aux nombres théoriques optimaux
des CPs dans chaque ensemble de variables. Cependant, et selon le principe conventionné
de l’utilisation de ce critère, on ne retient que les valeurs qui se trouvent à gauche du
point d’inflexion. De cette manière, on remarque l’existence en permanence d’une CP
manquante dans les modèles sélectionnés. Par conséquent, la meilleure solution semble
d’en compter également les points d’inflexion. En revanche, cette situation qui montre
clairement les points d’inflexion est très particulière pour deux raisons principales. Pre-
mièrement, la faiblesse de la variance du bruit considéré a rendu les valeurs propres si-
gnificatives assez distinctes des autres. Deuxièmement, le nombre des variables étudiées
n’est pas assez important. Si ces deux arguments ne sont pas vérifiés, la courbe du critère
PVR sera caractérisée par une lente décroissance. Par conséquent, on peut se confronter
à des situations où le point d’inflexion est quasiment inexistant.
2.5.3 Interprétations des critères minimisés

La deuxième catégorie est constituée des critères AIC, MDL, IE et VNR. Leurs
courbes pour le cas des données entachées par un bruit i.i.d. de variance identique assez
faible sont illustrées dans les deuxièmes colonnes des figures 2.1, 2.2, 2.3 et 2.4. L’avantage
dans l’utilisation de ces critères se manifeste dans l’objectivité des choix puisqu’ils se
basent sur leurs minima afin d’en définir un nombre optimal des CPs. En revanche, il
reste à évaluer la consistance de leurs performances.
Afin d’approfondir l’étude comparative entre ces quatre critères, nous avons réalisé
trois jeux de données pour chacun des ensembles A, B, C et D. Chaque jeu représente une
matrice de données composé de N observations et correspond à une variance particulière
du bruit i.i.d. Ainsi, les valeurs de ces variances sont respectivement σ 2 = 0.002, σ 2 = 0.2
puis σ 2 = 0.5. Puisque le bruit représente des variables aléatoires, une seule réalisation
51
peut ne pas exprimer continuellement le même minimum pour chaque critère. Pour cette
raison, chaque jeu de données a été simulé 1500 fois afin d’exprimer en pourcentage le
nombre des CPs retenues par chaque critère.
Le tableau 2.4 illustre les pourcentages des CPs retenues par les critères considérés
pour des jeux de données dont chacun est composé de N = 1500 observations. En re-
joignant les remarques données par Wax et Kailath (1985), ce tableau prouve que le
critère AIC surestime souvent le nombre des CPs. Pour un bruit i.i.d. de faible variance
(σ 2 = 0.002), le minimum d’un tel critère correspond dans 76.80%, 74.33%, 78.53% et
75.26% des réalisations à 5, 6, 7 et 8 CPs respectivement dans les ensembles A, B, C et D.
Malgré la légère variance du bruit considéré, ce critère a retenu dans approximativement
25% des cas des nombres de CPs supérieures à ceux nécessaires. Par conséquent, son in-
convénient se manifeste dans la surestimation de la structure du modèle. L’augmentation
de la variance du bruit modifie les relations entre les variables en causant certainement
l’apparition de nouvelles variables indépendantes. A ce stade, il est difficile de connaı̂tre
les nombres optimaux de CPs dans les jeux de données qui correspondent aux deux autres
variances du bruit. Cependant, et d’après les pourcentages exprimés dans le tableau 2.4,
le comportement du critère AIC est toujours fluctuant.
D’après le même tableau, nous remarquons que le critère VNR présente avec 100% des
réalisations un minimum pour 5 CPs dans les ensembles A, B, C et D qui correspondent
aux deux premiers cas des variances du bruit qui sont respectivement σ 2 = 0.002 et
σ 2 = 0.2. En revanche, ce critère indique avec plus de 97% un nombre de 4 CPs dans tous
les ensembles des variables en considérant un bruit de variance plus forte σ 2 = 0.5.
Puisque le premier cas présente des données entachées par un bruit de faible variance,
il peut être considéré comme une référence pour l’évaluation des critères étudiés car on
sait a priori les nombres optimaux des CPs dans chaque ensemble. Dans ce cas, le critère
VNR a défini correctement le nombre optimal des CPs uniquement dans l’ensemble A. En
investiguant la transition réalisée entre les ensembles étudiés, nous remarquons l’existence
d’une variable indépendante ou quasi-indépendante qui s’ajoute à chaque transition d’un
ensemble à l’autre dans le sens de A vers D. Notamment, les variables indépendantes
conservent leurs indépendances quelle que soit la valeur de la variance du bruit i.i.d.
En considérant cette propriété ainsi que les résultats exprimés par le tableau 2.4, on peut
déduire que le critère VNR ne prend pas en compte ce type des variables. Cette déduction
a été illustrée à travers un exemple simulé par Mnassri et al. (2010a). Néanmoins, elle n’a
pas été prouvée ou montrée théoriquement dans la littérature. Dans le cadre de cette thèse,
nous proposons dans l’annexe A une démonstration théorique prouvant la limitation du
critère VNR dans la sélection des CPs en présence des variables indépendantes et quasi-
indépendantes.
Une telle démonstration justifie les pourcentages donnés par ce critère dans le tableau
2.4 lors du premier cas de la variance du bruit. En augmentant cette variance (σ 2 = 0.2),
nous remarquons que le critère VNR maintient les mêmes résultats. Toutefois, l’augmen-
tation d’une telle variance peut causer l’apparition de variables indépendantes. Originel-
lement, l’ensemble A ne contient pas ce type de variables. Si les résultats de ce critère
sont inchangés en faisant varier la variance du bruit (σ 2 = 0.2), cela ne peut pas nier
la possibilité de leur apparition dans A puisqu’un tel critère est prouvé insensible à leur
présence.
52
Critère : AIC MDL IE VNR AIC MDL IE VNR AIC MDL IE VNR AIC MDL IE VNR
Bruit i.i.d. :
σ 2 = 0.002
5 CPs (%) 76.80 100 100 100 100 100 100
6 CPs (%) 18.40 74.33 100 100
7 CPs (%) 03.93 20.26 78.53 100 100
8 CPs (%) 00.60 04.53 16.46 75.26 100 100
9 CPs (%) 00.13 00.53 03.46 19.93
10 CPs (%) 00.13 00.26 01.00 03.66
Bruit i.i.d. :
σ 2 = 0.2
5 CPs (%) 77.73 100 100 100 00.33 79.60 100 100 100 100
6 CPs (%) 17.80 76.73 20.40 00.33 79.06 100
7 CPs (%) 03.06 17.80 76.00 20.93 00.20 79.53 100
8 CPs (%) 00.80 03.60 19.53 78.06 20.46
9 CPs (%) 00.46 01.40 03.20 17.40
10 CPs (%) 00.13 00.13 00.73 03.40
Bruit i.i.d. :
σ 2 = 0.5
4 CPs (%) 97.20 97.66 98.20 98.20
5 CPs (%) 75.73 100 100 02.80 47.00 100 100 02.33 01.80 01.80
6 CPs (%) 19.40 42.13 45.80 100 100
7 CPs (%) 03.53 08.53 41.86 44.93 100 100
8 CPs (%) 00.80 01.86 10.00 42.46
9 CPs (%) 00.33 00.46 01.80 10.40
10 CPs (%) 00.53 01.86
Table 2.4 – Pourcentage, par rapport à 1500 réalisations, des nombres de CPs retenues dans les ensembles des données par
les critères minimisés (N = 1500 observations générées selon trois différents cas de bruit i.i.d.)
53
Bruit i.i.d. : σ 2 = 0.2 Bruit i.i.d. : σ 2 = 0.5
` = 5 CPs ` = 4 CPs ` = 5 CPs
ξjT C̃ξj ξjT C̃ξj ξjT C̃ξj
j =1 0.593 0.653 0.604

j =2 0.611 0.706 0.628
j =3 0.398 0.965 0.362
j =4 0.575 0.674 0.584
j =5 0.629 0.622 0.622
j =6 0.624 0.622 0.616
j =7 0.579 0.760 0.593
j =8 0.544 0.548 0.544
j =9 0.628 0.629 0.628
j = 10 0.640 0.642 0.642
j = 11 0.611 0.611 0.610
j = 12 0.563 0.562 0.562
Table 2.5 – Coefficients diagonaux de la matrice C̃ de l’ensemble A et pour deux

différentes variances de bruit i.i.d.
D’après l’expression du critère VNR ainsi que la démonstration de l’annexe A, les

coefficients diagonaux (ξjT C̃ξj avec j = {1, · · · , m}) de la matrice C̃ peuvent nous aider
dans l’identification des variables indépendantes et quasi-indépendantes. Par ailleurs, nous
notons que cette technique ne garantit pas l’objectif désiré. Notamment, ces variables se
transforment en des CPs de variances hiérarchiquement moins importantes que celles
des premières CPs qui représentent les principales sources de corrélation. Ainsi, elles
contribuent très faiblement dans les vecteurs propres associés aux premières CPs. Cela
implique que les coefficients diagonaux qui leur correspondent dans C̃ sont très proches
de l’unité. En investiguant le tableau 2.5, la colonne qui correspond au cas d’un bruit
i.i.d. de variance σ 2 = 0.2 n’exprime pas de particularité intéressante dans les coefficients
diagonaux de C̃. On peut ainsi déduire qu’avec une telle variance du bruit, l’ensemble A
ne présente pas de variables indépendantes.
Dans le troisième cas qui correspond à des données entachées par un bruit i.i.d. de
variance plus élevée (σ 2 = 0.5), les pourcentages indiquent que le critère VNR a manqué
une CP. Ce résultat implique certainement qu’une variable qui représente une source de
corrélation s’est transformée avec l’effet du bruit en une variable indépendante ou quasi-
indépendante. Par conséquent, l’étendue de cette transformation peut toucher d’autres
variables en les rendant également indépendantes. Les variables touchées sont uniquement
celles qui dépendent de la source disparue. Ainsi, la propriété du critère VNR garantit
l’apparition d’au moins une variable indépendante dans l’ensemble A avec un bruit i.i.d. de
variance σ 2 = 0.5. D’après l’avant dernière colonne du tableau 2.5, les éléments diagonaux
de la matrice C̃ calculée à base des 4 CPs retenues par le critère VNR montre que la
troisième variable dispose d’un coefficient égale à 0.965. Par conséquent, cette variable
est devenue quasi-indépendante sous l’effet du bruit. Nous rappelons ainsi qu’elle a été
une source de corrélation. Malgré sa transformation, les autres variables n’ont pas été
influencées car leurs coefficients dans C̃ calculée à base de 5 CPs ne présentent pas des
valeurs proches de l’unité (dernière colonne du tableau 2.5).
Cette analyse nous permet de déduire les nombres optimaux théoriques des CPs sup-
54
posées être retenues dans les ensembles étudiés selon les différentes variances du bruit.
Indépendamment des critères utilisés, les ensembles de variables A, B, C et D disposent
respectivement de 5, 6, 7 et 8 CPs dans les trois différents cas du bruit i.i.d.
D’après le tableau 2.4, le critère IE retient avec une certitude de 100% un nombre
approprié de CPs pour chaque ensemble de variables et dans les différents cas du bruit.
En effet, il a correctement défini les nombres optimaux des CPs pour tous les ensembles
de variables durant le premier cas qui correspond à un du bruit de faible variance. Excep-
tionnellement, ce critère a manqué une CP dans les ensembles B, C et D pour les deux
autres cas où la variance du bruit est plus élevée. Plus particulièrement, la CP manquée
se déclare dans l’ensemble B entaché d’un bruit de variance σ 2 = 0.2. En absence de ce
dernier, nous rappelons que l’ensemble B se distingue par rapport à A par la variable in-
dépendante x̊13 (voir tableaux 2.2 et 2.3). Puisque ce critère a convenablement déterminé
le nombre des CPs dans l’ensemble A avec le même bruit, la CP manquée doit nécessaire-
ment correspondre à cette variable indépendante x̊13 . En s’appuyant sur cette déduction,
nous nous interrogeons alors sur la raison pour laquelle le critère IE a retenu les autres
variables indépendantes dans le reste des ensembles.
Nous notons que Malinowski (1977) a montré qu’un tel critère est monotone croissant
en ` en se limitant à l’intervalle [q, m − 1] où q désigne le nombre théorique des CPs
supposées être retenues. Cependant, cela n’implique pas nécessairement que le minimum
de ce critère correspond à q CPs pour toutes valeurs de ` ∈ [1, m − 1]. Pour cette raison,
nous avons établi dans l’annexe B une condition nécessaire et suffisante garantissant le
minimum de ce critère à q CPs. Théoriquement, le critère IE ne surestime pas la dimension
du modèle. Par contre, il peut abandonner quelques CPs dont les valeurs propres en
absence du bruit de mesures ne satisfont pas la condition établie (annexe B).
Avec des données non réduites, la variable indépendante x̊13 abandonnée par ce critère
dispose en l’absence du bruit d’une variance de 0.25. Ainsi, il a été supposé que q = 6
CPs dans l’ensemble B entaché d’un bruit i.i.d. de variance σ 2 = 0.2. En considérant ces
paramètres, nous pouvons prouver que la variance de la variable abandonnée ne satisfait
pas la condition établie par l’inégalité (B.6) dans l’annexe B. De la même manière, nous
pouvons vérifier également que cette variable n’est plus en mesure d’être retenue par le
critère IE non seulement dans l’ensemble B mais également dans C et D pour les deux
cas des variances du bruit (σ 2 = 0.2 et σ 2 = 0.5).
Puisque le critère IE ne surestime pas le nombre des CPs, cela justifie notre raison-
nement par l’apparition d’une variable indépendante qui n’a pas pu être retenue par le
critère VNR dans l’ensemble A contenant un bruit de variance σ 2 = 0.5.
Dans le premier cas qui correspond à un bruit i.i.d. de faible variance (σ 2 = 0.002),
le critère MDL exprime dans 100% des réalisations les nombres corrects de CPs pour
tous les ensembles de données (tableau 2.4). L’investigation du deuxième cas, caractérisé
par un bruit de variance σ 2 = 0.2, montre que ce critère a défini convenablement le
nombre théorique des CPs uniquement dans l’ensemble A. Dans le reste des ensembles, il
a exprimé avec 79% des nombres manquant une CP par rapport aux nombres théoriques
prévus. Dans le troisième cas du bruit, le critère a totalement manqué une CP dans
les ensembles B, C et D. En comparant les résultats de ce critère avec ceux donnés par
IE, nous remarquons que la CP non retenue par MDL est également liée à la variable
indépendante x̊13 .
55
Critère : AIC MDL IE VNR AIC MDL IE VNR AIC MDL IE VNR AIC MDL IE VNR
Bruit i.i.d. :
σ 2 = 0.002
5 CPs (%) 76.66 100 100 100 100 100 100
6 CPs (%) 18.53 76.93 100 100

7 CPs (%) 03.93 19.20 79.00 100 100
8 CPs (%) 00.60 03.06 17.26 77.73 100 100
9 CPs (%) 00.13 00.73 03.20 17.13
10 CPs (%) 00.13 00.40 03.73
Bruit i.i.d. :
σ 2 = 0.2
5 CPs (%) 78.40 100 100 100 100 100 100 100
6 CPs (%) 18.06 77.46 100 100
7 CPs (%) 02.93 18.33 79.00 100 100
8 CPs (%) 00.40 03.06 16.93 74.00 100
9 CPs (%) 00.13 00.86 03.06 21.06
10 CPs (%) 00.06 00.13 00.80 03.86
Bruit i.i.d. :
σ 2 = 0.5
4 CPs (%) 100 100 100 100
5 CPs (%) 74.13 100 100 01.93 99.40 100
6 CPs (%) 20.46 75.86 00.60 01.60 99.40 100
7 CPs (%) 04.13 17.80 77.60 00.60 02.06 99.06 100
8 CPs (%) 01.13 03.66 15.93 76.53 00.93
9 CPs (%) 00.13 00.60 03.80 17.40
10 CPs (%) 00.13 00.86 02.86
Table 2.6 – Pourcentage, par rapport à 1500 réalisations, des nombres de CPs retenues dans les ensembles des données par
les critères minimisés (N = 6000 observations générées selon trois différents cas de bruit i.i.d.)
56
Critère : MDL MDL MDL MDL
Bruit i.i.d. : σ 2 = 0.002

5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Bruit i.i.d. : σ 2 = 0.2
5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Bruit i.i.d. : σ2 = 0.5
5 CPs (%) 100 01.46
6 CPs (%) 98.53 01.53
7 CPs (%) 98.46 02.00
8 CPs (%) 98.00
Table 2.7 – Pourcentage, par rapport à 1500 réalisations, des nombres de CPs retenues
dans les ensembles des données par le critère MDL (N = 26000 observations générées
selon trois différents cas de bruit i.i.d.)
Néanmoins, Wax et Kailath (1985) ont montré que le nombre des CPs sélectionnées par
le critère MDL converge vers le nombre optimal en considérant un nombre d’observations
N assez important. Dans un premier temps, nous avons reconsidéré les mêmes ensembles
des variables avec les mêmes variances bu bruit mais pour un nombre d’observations N =
6000. Ainsi, nous avons refait le calcul des pourcentages des nombres de CPs retenues par
les critères étudiés (tableau 2.6). Ce calcul a été réalisé en considérant 1500 réalisations.
La comparaison des résultats du tableau 2.6 à ceux du tableau 2.4 ne montre pas
d’améliorations particulières aux niveaux des sélections par les critères AIC, IE et VNR.
Toutefois, le critère MDL a été remarquablement influencé par l’augmentation du nombre
d’observations en assurant avec une performance de 100% le nombre adéquat des CPs
dans tous les ensembles de variables entachées par un bruit de variance σ 2 = 0.2. Pour
le cas d’une variance σ 2 = 0.5, ce critère manque encore la CP posant le problème du
départ dans les ensembles B, C et D. Par contre, nous remarquons que les pourcentages
de sélection ont quand même subi une très légère modification suite à l’augmentation
du nombre d’observations. Malgré que ces observations soient largement suffisantes pour
décrire correctement le comportement du système étudié, il semblerait encore insuffisantes
pour que le critère MDL définisse correctement le nombre adéquat des CPs.
Dans ce cadre, nous avons augmenté le nombre d’observations à une valeur très im-
portante N = 26000. Les nouveaux pourcentages obtenus pour le critère concerné sont
affichés dans le tableau 2.7. D’après ce dernier, nous remarquons que le critère MDL
converge dans 98% des réalisations vers les nombres souhaités des CPs dans le cas d’un
bruit de variance σ 2 = 0.5. Pour les deux premiers cas du bruit, le critère atteint son
optimal avec un nombre d’observations N moins inférieur.
Il est ainsi clair que la performance du critère MDL est proportionnelle au nombre
d’observations. Dans la pratique, on dispose généralement d’un nombre fini d’observations.
Par conséquent, l’utilisation d’un tel critère malgré son efficacité prometteuse ne garantit
57
pas la convergence vers le nombre convenable des CPs. Si les observations disponibles sont
insuffisantes pour ce critère, ce dernier abandonne généralement les CPs qui correspondent
aux variables indépendantes ou quasi-indépendantes ayant de faibles variances.
2.6 Conclusion
Le principe mathématique d’une ACP des données sans bruit de mesures nous a permis
d’avoir une idée claire sur la définition d’une structure optimale d’un modèle ACP. Dans
la pratique, la détermination d’une telle structure n’est pas assez simple qu’on l’imagine
à cause de la présence du bruit dans les données. En se référant aux critères de choix de
la structure adaptée du modèle ACP qui existent dans la littérature, nous avons choisi
d’une manière non exhaustive quelques critères parmi les plus connus pour une évaluation
de leur performance sur un exemple simulé. Selon le principe d’utilisation de ces critères,
nous avons distingué deux principales familles.
La première présente des critères heuristiques qui se basent généralement sur des seuils
pour la sélection du nombre optimal des CPs tels que l’autocorrélation (AC), le critère de
Kaiser-Guttman (KG), le pourcentage cumulé de la variance (PCV) et le pourcentage
de la variance résiduelle (PVR). Dans ce chapitre, ces critères ont été utilisés sur des
données normalisées. Nous avons conclu à travers l’exemple de simulation qu’une décision
basée sur les deux critères PCV et PVR se complique avec l’augmentation du nombre
de variables étudiées ainsi que la variance du bruit. En effet, les allures des courbes
représentant les valeurs propres peuvent devenir très lentes, ce qui favorise l’inexistence
du point d’inflexion pour le critère PVR. Ceci implique également une multitude des
nombres de CPs dans l’intervalle de sélection pour le critère PCV. Quant à la décision
basée sur le critère KG, on constate qu’elle est discriminante car elle a éliminé les variables
indépendantes et quasi-indépendantes. En ce qui concerne le critère AC, son inconvénient
se résume principalement dans le fait qu’une CP significative peut avoir une faible valeur
d’autocorrélation qui ne lui permis pas d’être retenue par un tel critère. Malgré leurs
popularités, ces critères sont subjectifs et largement restreints en termes de décisions et
efficacités respectivement.
La deuxième famille est constituée des critères qui se basent sur la minimisation pour
déterminer la dimension du modèle ACP. Les trois premiers critères, notamment AIC,
MDL et IE possèdent deux points communs. Premièrement, leur utilisation n’est valable
qu’avec des données non réduites. Deuxièmement, le bruit de mesures est supposé être
indépendant et identiquement distribué. Le quatrième critère de cette famille représente la
variance non reconstruite (VNR). Ce dernier peut être utilisé aussi bien sur des données
réduites ou non réduites. Dans le cadre d’une ACP, il est cependant préférable que les
données soient exprimées dans la même échelle. Nous avons étudié le comportement du
critère VNR en considérant des données normalisées car il est en relation directe avec les
paramètres fournis par l’ACP.
Puisque les bruits de mesures représentent des variables aléatoires, une seule simulation
ne permet pas de juger l’efficacité de ces critères. Pour cette raison, nous avons établi des
pourcentages sur les nombres des CPs retenues par tous les critères en considérant 1500
réalisations. Ainsi, notre étude comparative a pris en compte plusieurs facteurs tels que
58
2.6. Conclusion
la nature des variables étudiées (corrélées ou indépendantes), la valeur de la variance du

bruit considéré et le nombre d’observations.
Selon les résultats de simulation, le critère AIC surestime souvent le nombre des CPs
nécessaires. L’avantage du critère VNR étant la considération de toutes les variables
étudiées dans la même échelle. Malgré cette caractéristique, nous avons découvert que
ce critère ne prend pas en compte les variables indépendantes et quasi-indépendantes
même si en absence du bruit ces variables disposent des variances non nulles. Dans ce
contexte, nous avons contribué par une démonstration théorique confirmant la limitation
de ce critère. En effet, nous avons montré que le nombre des CPs qui correspond au
minimum d’un tel critère ne change pas en ajoutant des variables indépendantes et quasi-
indépendantes. Autrement dit, le critère VNR est insensible à la présence de ce type
des variables. Ainsi, son minimum correspond au nombre des CPs uniquement pour les
variables qui sont linéairement corrélées.
Dans cette étude comparative, nous avons remarqué que le critère IE abandonne sou-
vent les CPs ayant de faibles variances bien qu’elles soient théoriquement supposées être
retenues dans le modèle. Ce critère ne surestime pas le nombre des CPs. Dans ce contexte,
nous avons étudié son expression afin de vérifier sa consistance théorique. Ainsi, nous avons
établi une condition nécessaire et suffisante permettant au critère IE de garantir son mi-
nimum qui correspond au nombre optimal des CPs. En effet, ce critère ne retient plus la
dernière CP si sa variance en l’absence du bruit est inférieure à une valeur établie par une
telle condition. Alors qu’en théorie cette CP doit être retenue. En outre, cette valeur est
proportionnelle au nombre des variables, ce qui présente un inconvénient majeur car cela
implique que la CP en question peut être retenue dans des cas et écartées dans d’autres.
Le MDL semble être le critère le plus efficace. Cependant, sa performance est pro-
portionnelle au nombre d’observations considérées. Sa sélection converge vers le nombre
correct des CPs si le nombre d’observations utilisées est assez important. Dans la pratique,
un système peut être suffisamment décrit par un nombre N d’observations. Ce nombre
peut être insuffisant pour que le critère MDL exprime correctement le nombre adéquat
des CPs. Dans ce cas, on ne peut pas savoir si un tel critère converge finalement vers le
nombre correct des CPs. D’après les résultats de simulation, nous avons remarqué que
si le nombre d’observations n’est pas suffisant, ce critère ne retient pas souvent les CPs
associées aux variables indépendantes de faibles variances.
Cette étude comparative entre les critères choisis nous a permis d’illustrer leurs in-
convénients et avantages. Dans ce cadre, seuls les critères MDL et VNR peuvent être
considérés intéressants vis-à-vis de leur comportement et principe respectivement. Cepen-
dant, ils présentent des inconvénients rendant souvent les décisions incertaines. Pour cette
raison, nous proposons dans le chapitre suivant d’autres critères utilisant le principe du
celui de VNR et assurant les résultats obtenus par celui de MDL avec des conditions
plus réalistes.
59
60
3
Contribution au choix d’un modèle optimal
par la variance non reconstruite
Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Détection et détectabilité de défauts . . . . . . . . . . . . . . . 64
3.2.1 Détectabilité généralisée de défauts . . . . . . . . . . . . . . . . 64
3.2.1.1 Indice T2 de Hotelling . . . . . . . . . . . . . . . . . 66
3.2.1.2 Indice SPE . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.1.3 Indice SWE . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.1.4 Indice combiné . . . . . . . . . . . . . . . . . . . . . . 69
3.2.1.5 Indice de Mahalanobis . . . . . . . . . . . . . . . . . . 70
3.2.2 Influence de la modélisation sur la détectabilité de défauts . . . 71
3.2.2.1 Effet d’une sous-estimation du modèle . . . . . . . . . 71
3.2.2.2 Effet d’une surestimation du modèle . . . . . . . . . . 72
3.3 Différentes variances non reconstruites . . . . . . . . . . . . . 73
3.3.1 Principe de la reconstruction unidimensionnelle . . . . . . . . . 73
3.3.2 Variance non reconstruite généralisée . . . . . . . . . . . . . . . 74
3.3.3 Comportements des différents critères VNR . . . . . . . . . . . 76
3.3.3.1 VNR utilisant l’indice SPE . . . . . . . . . . . . . . 76
3.3.3.2 VNR utilisant l’indice SWE . . . . . . . . . . . . . . 76
3.3.3.3 VNR utilisant l’indice T2 de Hotelling . . . . . . . . 77
3.3.3.4 VNR utilisant l’indice de Mahalanobis . . . . . . . . 78
3.3.3.5 VNR utilisant un indice exprimé dans le sous-espace
principal . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.3.3.6 VNR utilisant l’indice combiné . . . . . . . . . . . . 80
3.4 Nouveaux critères VNR . . . . . . . . . . . . . . . . . . . . . . 81
3.4.1 VNR utilisant un nouvel indice combiné . . . . . . . . . . . . 81
3.4.2 Changement de représentation des données . . . . . . . . . . . 83
61
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite
3.4.2.1 Motivation et théorie d’une nouvelle approche ACPVI 83

3.4.2.2 VNR basée sur l’ACPVI . . . . . . . . . . . . . . . . 86
3.4.2.3 Consistance théorique du critère VNRVI . . . . . . . 87
3.5 Résultats de simulation . . . . . . . . . . . . . . . . . . . . . . . 89
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
62
3.1. Introduction
3.1 Introduction
Les méthodes de détection et de localisation de défauts en s’appuyant sur l’ACP ont été
largement utilisées pour la surveillance de processus. Le principe de la surveillance basée
sur l’approche de l’ACP repose principalement sur une modélisation du comportement
de processus en fonctionnement normal. Les défauts sont alors détectés en comparant le
comportement observé par rapport à celui donné par le modèle ACP. En effet, la phase
de détection de défauts est liée à une étape de génération de résidus ou d’indices de
détection qui a pour but de générer à partir des mesures observées et d’un modèle ACP,
des signaux révélateurs de la présence de défauts. A partir de l’analyse de ces indices,
l’étape de détection doit alors indiquer l’existence ou non de défauts.
Dans ce cadre, quelques indices typiques pour la détection des fonctionnements anor-
maux ont été proposés dans la littérature (Qin, 2003). En revanche, la plupart des mé-
thodes de diagnostic utilisent plus particulièrement l’erreur quadratique de prédiction
(squared prediction error : SP E) et la statistique T 2 de Hotelling qui sont souvent connues
par les statistiques Q et D respectivement (Kresta et al., 1991; Kourti et MacGregor, 1995;
Dunia et al., 1996; Dunia et Qin, 1998c; Qin, 2003). On note que ces deux indices de détec-
tion jouent des rôles différents dans la stratégie de surveillance par ACP. La statistique T 2
décrit le comportement des variables du processus qui sont corrélées avec les composantes
principales, tandis que la statistique SP E dépend de toutes les variables à surveiller. En
outre, celle-ci représente un test global qui cumule les erreurs de modélisation présentes
sur chaque résidu (Harkat et al., 2006). L’indice SP E est utilisé dans le sous-espace rési-
duel. Tandis que l’indice T 2 de Hotelling est utilisé dans le sous-espace principal. L’indice
TH2 de Hawkins (Hawkins, 1974) aussi appelé SW E (squared weighted error ) représente
aussi les variations des données dans le sous-espace résiduel. Sa particularité par rapport
à l’indice SP E se manifeste par une pondération des résidus par les inverses des valeurs
propres résiduelles. Néanmoins, d’autres indices sensibles à l’ensemble de l’espace de re-
présentation des données ont été également utilisés comme la distance combinée (Yue et
Qin, 2001) et la distance de Mahalanobis. Dans le but d’améliorer les capacités de détec-
tion en utilisant la méthode d’ACP, un test basé sur les dernières composantes principales
a été proposé par Harkat et al. (2002, 2005, 2006).
Une telle description des indices de détection nous permettra de définir dans ce chapitre
de nouveaux critères de sélection du nombre optimal des CPs en se basant sur la variance
non reconstruite afin de remédier aux limitations des critères comparés dans le chapitre
précédent. En effet, toute procédure d’un diagnostic de défauts repose d’une manière
cruciale sur la précision et l’efficacité du critère considéré. Pour cela, nous allons prouver
théoriquement l’influence de la modélisation par ACP sur la détectabilité de défauts. En
s’appuyant sur le principe de la variance de l’erreur de reconstruction, il s’est avéré possible
d’établir une variance non reconstruite associée à chacun de ces indices de détection. Ce
résultat nous a permis de proposer un critère empirique relatif à la distance combinée
(Mnassri et al., 2010a). Ensuite, un nouveau critère de même type, basé sur une nouvelle
statistique combinée représente notre deuxième contribution (Mnassri et al., 2010b). Ces
contributions ont été également enrichies par un critère plus performant. Ce dernier est
basé sur un changement de représentation de données en envisageant que d’autres données
sont beaucoup mieux révélatrices d’informations que les données observées réellement.
63
Cela nous a permis de proposer une nouvelle théorie reposant sur une ACP de variances
inversées (ACPVI) (Mnassri et al., 2010c, 2011b). Ainsi, ce troisième critère de sélection,
appelé VNRVI, montrera une efficacité importante en remédiant au problème souvent
rencontré qui est relatif à la présence des variables indépendantes et quasi-indépendantes.
Les résultats de simulation valideront cette nouvelle approche.
3.2 Détection et détectabilité de défauts

Dans le cadre de l’ACP, tous les indices de détection disponibles dans la littérature
se caractérisent par une forme quadratique (Yue et Qin, 2001; Qin, 2003; Alcala et Qin,
2009, 2011). Par conséquent, les procédures de détection, isolation et diagnostic de défauts
peuvent être généralisées en considérant un indicateur généralisé ou unifié.
Le succès de l’utilisation de l’ACP pour la surveillance de processus a été enrichi par le
développement de certains concepts fondamentaux de performance comme la détectabilité
de défauts. En effet, la détectabilité représente la capacité d’un indice donné, à détecter la
présence de défauts. Dans la littérature, ce concept a été développé plus particulièrement
pour l’indice SP E et la distance T 2 de Hotelling (Dunia et Qin, 1998b,c,a; Yue et Qin,
2001; Qin, 2003). Pour cela, nous proposons une étude généralisée de détectabilité valable
pour tout indice de détection ayant une forme quadratique.
3.2.1 Détectabilité généralisée de défauts

Considérons γ et Γ2 respectivement un indice quadratique de détection et sa limite de
contrôle. γ peut être n’importe quel indice de détection parmi ceux qui existent dans la
littérature (voir tableau 3.1). Mathématiquement, γ représente une distance quadratique
qui est égale au carré de la norme euclidienne du vecteur x(k) projeté dans un sous-espace
1
vectoriel Sγ = span{M 2 } :
1
γ(k) = k M 2 x(k)k2 = xT (k) M x(k) (3.1)
1
où M 2 est une matrice semi-définie positive. k est le numéro de l’observation considérée.
En s’appuyant sur les travaux de Box (1954), le seuil de détection de la distance
quadratique γ pour un nombre d’observations N important peut être approximé par une
distribution de la forme gγ χ2(hγ ,α) , où χ2(hγ ,α) est la distribution du χ2 avec hγ degrés de
liberté et un seuil de signification α. On note que le niveau de confiance est égale à (1−α).
En se basant sur l’indice γ, le processus est considéré en fonctionnement normal à la kème
observation si :
γ(k) ≤ Γ2 = gγ χ2(hγ ,α) (3.2)

Les paramètres gγ et hγ peuvent être déterminés comme suit :
tr[(Σ M)2 ]
gγ = (3.3)
tr[Σ M]
64
3.2. Détection et détectabilité de défauts
Indice de détection Matrice caractéristique Limite de contrôle

1
γ M2 Γ2
1 T
T2 P̂Λ̂− 2 P̂ τ2
T
SP E P̃P̃ = C̃ δ2
1 T
SW E P̃Λ̃− 2 P̃ 2
1 T
ϕ δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ β2
1 1
D PΛ− 2 PT = Σ− 2 %2
Table 3.1 – Indices de détection
(tr[Σ M])2
hγ = (3.4)
tr[(Σ M)2 ]
où Σ est la matrice de covariance des données de X. L’expression tr[.] représente la trace
d’une matrice carrée.
Nous rappelons que la présence d’un défaut multiple FJ dans les données a été consi-
dérée par le vecteur de mesures en défaut donné par l’équation (2.59). A partir de cette
dernière et celle de (3.1), le vecteur duquel découle l’indice γ est exprimé par :
1 1 1 1
M 2 x(k) = M 2 (x∗ (k) + ΞJ f(k)) = M 2 x∗ (k) + M 2 ΞJ f(k) (3.5)
Deux conditions nécessaires doivent être considérées afin que le défaut FJ soit détec-
table par l’indice γ :
i. Sa projection dans le sous-espace engendré par les vecteurs colonnes de la matrice
1 1
M 2 ne devrait pas être nulle, i.e. k M 2 ΞJ f(k)k =
6 0;
ii. Son amplitude devrait être suffisamment large afin que l’indice de détection dépasse
sa limite de contrôle, i.e. γ(k) > Γ2 .
Pour déterminer la condition qui garantit la détection du défaut, nous avons besoin
1
d’exprimer la norme euclidienne du vecteur M 2 x(k) comme suit :
1 1 1 1 1
k M 2 x(k)k = k M 2 x∗ (k) + M 2 ΞJ f(k)k ≥ k M 2 ΞJ f(k)k − k M 2 x∗ (k)k (3.6)
Puisque x∗ représente un vecteur de mesures prélevées lors du fonctionnement normal,
alors :
1
k M 2 x∗ (k)k ≤ Γ (3.7)
La substitution de (3.7) dans (3.6) en considérant la positivité de la norme euclidienne
mène à l’inégalité suivante :
1 1
k M 2 x(k)k ≥ k M 2 ΞJ f(k)k − Γ ≥ 0 (3.8)
Afin que le défaut soit suffisamment détectable, la contrainte γ(k) > Γ2 devrait être
satisfaite. On doit alors imposer que
1 1
k M 2 x(k)k2 ≥ (k M 2 ΞJ f(k)k − Γ)2 > Γ2 (3.9)
65
La résolution de l’inégalité (3.9) mène au résultat suivant :

1
k M 2 ΞJ f(k)k > 2Γ (3.10)
Lorsque l’inégalité précédente est satisfaite, alors la détection du défaut FJ est garantie
en utilisant l’indice de détection γ. Cette condition suffisante (sur l’amplitude du défaut)
est valable pour tout indice de détection ayant une forme quadratique. En s’appuyant sur
une telle inégalité, nous allons exprimer dans la suite la détectabilité relative à chaque
indice donné dans le tableau 3.1.
3.2.1.1 Indice T2 de Hotelling

L’indice T 2 de Hotelling mesure les variations des projections dans le sous-espace
principal pondéré par les inverses des variances des ` premières CPs :
1 T
T 2(k) = kΛ̂− 2 t̂(k)k2 = t̂ (k)Λ̂−1 t̂(k)
T 1 T
= xT (k)P̂Λ̂−1 P̂ x(k) = kP̂Λ̂− 2 P̂ x(k)k2 (3.11)
En considérant un tel indice, le processus est supposé sous contrôle à la kème obser-
vation si :
T 2(k) ≤ τ 2 = gT 2 χ2(hT 2 ,α) (3.12)
où gT 2 et hT 2 sont calculés respectivement, à partir de (3.3) et (3.4), comme suit :
T
tr[(ΣP̂Λ̂−1 P̂ )2 ] tr[I` ]
gT 2 = T
= =1 (3.13)
tr[ΣP̂Λ̂−1 P̂ ] tr[I` ]
T
(tr[ΣP̂Λ̂−1 P̂ ])2 (tr[I` ])2
hT 2 = T
= = tr[I` ] = ` (3.14)
tr[(ΣP̂Λ̂−1 P̂ )2 ] tr[I` ]
Si le nombre d’observations N est faible, la limite de contrôle de la statistique T 2 de
Hotelling peut être approximée par la relation suivante :
`(N 2 − 1)
τ2 = F (3.15)
N (N − `) (`,N −`,α)
où F(`,N −`,α) représente la distribution de Fisher avec ` et (N − `) degrés de liberté ainsi
qu’un seuil de signification α.
Afin d’assurer la détection du défaut FJ , la condition suffisante de sa détectabilité par
l’indice T 2 de Hotelling en se référant à (3.10) est donnée par :
1 T
kP̂Λ̂− 2 P̂ ΞJ f(k)k > 2τ (3.16)
Cette condition a été établie par Yue et Qin (2001). D’après (2.46) et (2.47), les mesures
collectées sous des conditions de fonctionnement normal se projettent dans le sous-espace
principal. Par conséquent, la performance de l’indice T 2 de Hotelling dans la détection de
66
défauts peut être limitée car les variations des projections des défauts dans le sous-espace
principal peuvent être masquées par les variations normales. Nous avons montré que si
le choix du modèle ACP est optimal, un tel indice est dédié à la détection de défauts
des variables indépendantes et quasi-indépendantes (Mnassri et al., 2010a,b, 2011b,a).
Sous la contrainte d’optimalité du modèle ACP, les défauts portés par les directions de
ces variables se projettent totalement dans le sous-espace principal. Ainsi, leur détection
n’est possible qu’avec des indices calculés dans ce sous-espace.
3.2.1.2 Indice SPE

L’indice SP E assure la détection de défauts dans le sous-espace résiduel. Son expres-
sion, à l’instant k, est donnée par :
SP E(k) = kx̃(k)k2 = kC̃x(k)k2

= xT (k)C̃x(k) = kt̃(k)k2 (3.17)
La distance SP E est un indicateur global qui somme les résidus sans tenir compte
de leurs variances différentes. Toutefois, les résidus avec forte variance portent les erreurs
de modélisation produites par l’ACP. Ainsi, ils ont plus d’effets sur la quantité SP E
que les résidus ayant une faible variance et qui représentent réellement les relations de
redondance linéaires ou quasi-linéaires. Par conséquent, l’indice SP E est très sensible aux
erreurs de modélisation, ce qui peut entraı̂ner de nombreuses fausses alarmes ou l’absence
de la sensibilité à la détection de défauts en raison d’un seuil théorique élevé (Tharrault,
2008).
Avec un tel indice, le processus est considéré en fonctionnement normal à la kème
observation si :
SP E(k) ≤ δ 2 = gSP E χ2(hSP E ,α) (3.18)
où gSP E et hSP E sont respectivement données en se basant sur les expressions généralisées
(3.3) et (3.4) par :
Xm
λ2a
2 2
tr[(ΣC̃) ] tr[Λ̃ ] a=`+1
gSP E = = = m (3.19)
tr[ΣC̃] tr[Λ̃] X
λa
a=`+1
m
!2
X
λa
(tr[ΣC̃])2 (tr[Λ̃])2 a=`+1
hSP E = = = m (3.20)
tr[(ΣC̃)2 ] tr[Λ̃2 ] X
λ2a
a=`+1
Pm i
où λa représente la aème valeur propre de la matrice Σ. En posant θi = a=`+1 λa ,
nous retrouvons ainsi la formule connue dans la littérature pour le seuil de contrôle de
l’indice SP E. Il est important de mentionner qu’il existe également une autre expression
proposée par Jackson et Mudholkar (1979) pour le calcul d’une telle limite de contrôle.
67
Ainsi, Nomikos et MacGregor (1995) ont montré que les deux expressions donnent des
résultats identiques.
Le défaut FJ est garanti détectable par l’indice SP E si son amplitude calculée dans
le sous-espace résiduel respecte d’après (3.10) l’inégalité suivante :
kC̃ΞJ f(k)k > 2δ (3.21)
Nous notons également qu’une telle condition a été proposée dans des travaux anté-
rieurs (Dunia et Qin, 1998b,c,a; Yue et Qin, 2001; Qin, 2003). Dans la suite, nous allons
proposer les conditions suffisantes de détectabilité pour le reste des indices en se basant
sur notre étude généralisée développée dans la sous-section 3.2.1.
3.2.1.3 Indice SWE

L’indice TH2 de Hawkins ou SW E est généralement plus sensible aux défauts (Weste-
rhuis et al., 2000b). Il peut être défini comme l’indice SP E calculé avec des CPs résiduelles
pondérées. Aussi, son expression est une implémentation symétrique de la statistique T 2
de Hotelling dans le sous-espace résiduel :
1 T
SW E(k) = kΛ̃− 2 t̃(k)k2 = t̃ (k)Λ̃−1 t̃(k)
T 1 T
= xT (k)P̃Λ̃−1 P̃ x(k) = kP̃Λ̃− 2 P̃ x(k)k2 (3.22)
Un problème de conditionnement est considéré comme l’inconvénient d’un tel indice.

En effet, le calcul numérique de cet indice peut rencontrer des erreurs lorsque les dernières
valeurs propres de la matrice Σ sont très proches de zéro. Néanmoins, ce problème de
conditionnement apparaı̂t seulement en absence de bruit de mesures (Tharrault, 2008).
La présence d’erreurs de modélisation se traduit par une augmentation des variances
des projections dans le sous-espace résiduel. Ainsi, les fortes variances peuvent limiter la
performance de détection de défauts avec l’indice SP E. En effet, la pondération avec les
valeurs propres de Σ en utilisant l’indice SW E peut être considérée comme une solution
prometteuse. L’indice SW E est plus robuste pour la détection de défauts que celui du
SP E (Westerhuis et al., 2000b).
Le comportement du processus à la kème observation est considéré normal en se basant
sur l’indicateur SW E si :
SW E(k) ≤ 2 = gSW E χ2(hSW E ,α) (3.23)
En se référant aux formules (3.3) et (3.4), les paramètres gSW E et hSW E sont respec-
tivement exprimés comme suit :
T
tr[(ΣP̃Λ̃−1 P̃ )2 ] tr[Im−` ]
gSW E = T
= =1 (3.24)
tr[ΣP̃Λ̃−1 P̃ ] tr[Im−` ]
T
(tr[ΣP̃Λ̃−1 P̃ ])2 (tr[Im−` ])2
hSW E = T
= = tr[Im−` ] = m − ` (3.25)
tr[(ΣP̃Λ̃−1 P̃ )2 ] tr[Im−` ]
68
où Im−` ∈ R(m−`)×(m−`) représente la matrice identité.

Lorsque le nombre d’observations N est faible, la limite de contrôle de l’indice SW E
est approximée par une distribution de Fisher avec (m − `) et (N − m + `) degrés de
liberté et un seuil de signification α :
(m − `)(N 2 − 1)
2 = F (3.26)
N (N − m + `) (m−`,N −m+`,α)
D’après (3.10), le défaut FJ est garanti détectable par l’indice SW E si l’amplitude de
sa projection dans le sous-espace résiduel pondéré satisfait l’inégalité suivante :
1 T
kP̃Λ̃− 2 P̃ ΞJ f(k)k > 2 (3.27)
3.2.1.4 Indice combiné

D’après leurs expressions, et selon l’étude pratique, les indices SP E et T 2 de Hotelling
se comportent d’une manière complémentaire. Il est ainsi possible de combiner ces deux
indices en un seul afin de simplifier la tâche de détection de défauts (Yue et Qin, 2001). En
réalité, l’idée de la combinaison d’indices a été initialement proposée par Raich et Çinar
(1996) :
SP E(k) T 2(k)
R(k) = c + (1 − c) (3.28)
δ2 τ2
où c est une constante comprise dans l’intervalle [0, 1]. Dans ce cadre, les mêmes auteurs
suggèrent l’unité comme un seuil de contrôle pour cet indice ce qui a lourdement limité son
efficacité. En effet, cet indice peut conduire à des résultats erronés en présence d’un défaut
qui peut se manifester dans la possibilité d’avoir SP E > δ 2 et/ou T 2 > τ 2 , alors que lui-
même peut indiquer une situation normale. Pour cette raison, une forme quadratique
connue sous le nom de la distance combinée a été proposée par Yue et Qin (2001). Une
telle distance combine les statistiques SP E et T 2 de la manière suivante :
T
SP E(k) T 2(k) T C̃ P̂Λ̂−1 P̂
ϕ(k) = + = x (k)( + )x(k)
δ2 τ2 δ2 τ2
1 T
= k(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )x(k)k2 (3.29)
La matrice caractéristique de cet indice est semi-définie positive. Afin d’utiliser l’indice
combiné pour la détection de défauts, sa limite de contrôle est également établie en utili-
sant la distribution des formes quadratiques. Le processus est considéré en fonctionnement
normal à l’instant k si :
ϕ(k) ≤ β 2 = gϕ χ2(hϕ ,α) (3.30)
D’après (3.3) et (3.4), les paramètres gϕ et hϕ ont respectivement les expressions
suivantes :
Xm
−4
τ `+δ −4
λ2a
−2 −2 −1 T 2
tr[(Σ(δ C̃ + τ P̂Λ̂ P̂ )) ] a=`+1
gϕ = T
= m (3.31)
tr[Σ(δ −2 C̃ + τ −2 P̂Λ̂−1 P̂ )] τ −2 ` + δ −2
X
λa
a=`+1
69
m
!2
X
T
τ −2 ` + δ −2 λa
−2 −2 −1 2
(tr[Σ(δ C̃ + τ P̂Λ̂ P̂ )]) a=`+1
hϕ = T
= m (3.32)
tr[(Σ(δ −2 C̃ + τ −2 P̂Λ̂−1 P̂ ))2 ] τ −4 ` + δ −4
X
λ2a
a=`+1
L’indice combiné permet de contrôler le processus dans l’ensemble de l’espace. D’après

l’équation (3.10), le défaut FJ est garanti détectable si son amplitude exprimée dans
l’espace engendré par les vecteurs colonnes de la matrice caractéristique de cet indice
respecte l’inégalité suivante :
1 T
k(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )ΞJ f(k)k > 2β (3.33)
3.2.1.5 Indice de Mahalanobis

La distance de Mahalanobis correspond à celle de la T 2 de Hotelling étendue sur
l’ensemble de l’espace :
1
D(k) = xT (k)PΛ−1 PT x(k) = xT (k)Σ−1 x(k) = kΣ− 2 x(k)k2
1 1
= kPΛ− 2 PT x(k)k2 = kΛ− 2 t(k)k2 = tT (k)Λ−1 t(k) (3.34)
En présence de bruit de mesures, la matrice Σ est généralement de rang plein. Par
conséquent, elle est inversible ce qui permet d’éviter le problème de conditionnement
confronté également avec l’indice SW E.
Pour un nombre d’observations N important, le processus est considéré en fonction-
nement normal à l’instant k en se basant sur la distance de Mahalanobis si :
D(k) ≤ %2 = gD χ2(hD ,α) (3.35)
Par analogie avec la limite de contrôle de l’indice T 2 de Hotelling ou celle de SW E,
les coefficients gD et hD auront respectivement les valeurs 1 et m. En se référant aux
équations (3.3) et (3.4), on peut démontrer très aisément ces résultats :
tr[(ΣΣ−1 )2 ] tr[Im ]
gD = −1
= =1 (3.36)
tr[ΣΣ ] tr[Im ]
(tr[ΣΣ−1 ])2 (tr[Im ])2

hD = = = tr[Im ] = m (3.37)
tr[(ΣΣ−1 )2 ] tr[Im ]
Lorsque le nombre d’observations N est faible, un tel seuil est approximé par une
distribution de Fisher avec m et (N −m) degrés de liberté ainsi qu’un seuil de signification
α:
m(N 2 − 1)
%2 = F (3.38)
N (N − m) (m,N −m,α)
A partir de l’inégalité (3.10), la condition suffisante de détectabilité d’un défaut FJ
basée sur l’utilisation de la distance de Mahalanobis est donnée par :
1
kΣ− 2 ΞJ f(k)k > 2% (3.39)
70
3.2.2 Influence de la modélisation sur la détectabilité de défauts

Bien que le thème du choix d’une structure optimale du modèle ACP ait reçu une at-
tention considérable dans la littérature, l’objectif de l’optimalité est négligemment justifié
théoriquement. Autrement dit, on n’est pas certain des conséquences d’un choix arbitraire
du modèle ACP sur la démarche d’un diagnostic de défauts. Le point clé dans la construc-
tion d’un modèle ACP est de choisir un nombre adéquat de CPs afin de représenter le
système de façon optimale. Si le nombre retenu est inférieur à celui requis, la représentation
du processus sera incomplète. Par contre, si plus de CPs que nécessaires sont sélection-
nées, le modèle ACP sera surestimé et contiendra le bruit de mesures (Valle et al., 1999).
Néanmoins, ces arguments ainsi que d’autres sont difficiles à prouver mathématiquement.
Il se peut que les résultats obtenus par différents critères de choix d’un modèle ACP
se diffèrent de plus ou moins d’une seule CP par rapport au cas optimal. Malgré cette
faible différence, les effets peuvent avoir de lourdes conséquences, plus particulièrement
dans la qualité de détection de défauts. Pour cela, nous allons montrer que ce choix doit
être judicieux et peut être unique.
Puisque q représente le nombre optimal théorique des CPs, les vecteurs colonnes de la
1
matrice Mq2 engendrent le sous-espace optimal pour l’indice quadratique γ. Notre intérêt
est de savoir l’effet d’un changement de la dimension du modèle ACP sur la détectabilité
d’un défaut donné. Notamment, le plus intéressant est de se baser sur des hypothèses qui
sont vérifiées dans le sous-espace optimal. Ensuite, on vérifie si ces hypothèses sont encore
vérifiées ou non. Pour cela, nous supposons que le défaut considéré est garanti détectable
par l’indice γ exprimé dans le sous-espace optimal :
1
k Mq2 ΞJ f(k)k2 > 4Γ2q (3.40)
où Γ2q représente la limite de contrôle de l’indice γ dans le sous-espace optimal. En effet,
la considération d’un critère quelconque pour le choix du nombre des CPs peut engen-
drer un modèle ACP qui se diffère par rapport à celui optimal suite à une réduction ou
une augmentation du sous-espace optimal de γ. Par conséquent, nos démonstrations se
déroulent en deux étapes.
3.2.2.1 Effet d’une sous-estimation du modèle

Puisque les CPs sont orthogonales, une sous-estimation du modèle qui implique une
réduction du sous-espace optimal nous permet d’établir la relation suivante :
1 1 1
Mq2 = Md2− + Mred
2
(3.41)
1
où Md2− représente la matrice dont les vecteurs colonnes engendrent le sous-espace re-
1
tranché qui correspond aux CPs supprimées. Les vecteurs colonnes de la matrice Mred 2
engendrent le sous-espace réduit considéré optimal par un critère quelconque. Ainsi, nous
montrons que :
1 1 1 1
Md2− Mred
2
= Mred
2
Md2− = 0m ∈ Rm×m (3.42)
71
D’après (3.40), nous pouvons déduire ce qui suit :

1 1 1
k Mq2 ΞJ f(k)k2 = k Md2− ΞJ f(k)k2 + k Mred
2
ΞJ f(k)k2 > 4Γ2q (3.43)
Celle-ci peut nous permettre de définir le domaine de définition de l’amplitude du

défaut dans le sous-espace réduit :
1 1
k Mred
2
ΞJ f(k)k2 > 4Γ2q − k Md2− ΞJ f(k)k2 (3.44)
Afin de conserver la qualité de détection du défaut en réduisant le sous-espace optimal,

il faut que ce même défaut déjà garantit détectable dans un tel sous-espace demeure
1
garanti détectable dans le sous-espace réduit, i.e. k Mred
2
ΞJ f(k)k > 2Γred . Pour cela, nous
devons imposer ce qui suit :
1
4Γ2q − k Md2− ΞJ f(k)k2 ≥ 4Γ2red (3.45)
où Γ2red représente le seuil de contrôle de l’indice de détection dans le sous-espace réduit.
Ainsi, le défaut FJ reste garanti détectable suite à une réduction du sous-espace si son
amplitude exprimée dans le sous-espace retranché satisfait l’inégalité suivante :
1
q
k Md− ΞJ f(k)k ≤ 2 Γ2q − Γ2red
2
(3.46)
Cette inégalité n’est valable que si Γ2q ≥ Γ2red qui est généralement vérifiée. Elle re-
présente une condition suffisante sur l’amplitude du défaut dans le sous-espace retranché
afin qu’il reste garanti détectable même en réduisant le sous-espace optimal. Dans cette
optique, nous pouvons conclure que le sous-espace retranché doit être insensible au défaut
considéré. Ainsi, la majoration d’une telle amplitude prouve qu’une conservation de la
qualité de détection de défauts par réduction du sous-espace optimal n’est pas garantie.
3.2.2.2 Effet d’une surestimation du modèle

Une surestimation du modèle implique une augmentation du sous-espace optimal par
l’addition d’un ensemble de CPs. Cela nous permet d’écrire :
1 1 1
Maug
2
= Md2+ + Mq2 (3.47)
1 1
où Md2+ et Maug2
représentent deux matrices dont les vecteurs colonnes engendrent respec-
tivement le sous-espace ajouté qui correspond aux CPs insérées et le sous-espace augmenté
considéré optimal par un critère donné. L’orthogonalité de ces deux sous-espaces, nous
permet d’écrire ce qui suit :
1 1 1
k Maug
2
ΞJ f(k)k2 = k Md2+ ΞJ f(k)k2 + k Mq2 ΞJ f(k)k2 (3.48)
Puisque le défaut FJ est garanti détectable dans le sous-espace optimal (3.40), l’in-
égalité suivante est alors vraie :
1 1
k Maug
2
ΞJ f(k)k2 > k Md2+ ΞJ f(k)k2 + 4Γ2q (3.49)
72
3.3. Différentes variances non reconstruites
Afin de conserver la qualité de détection par addition de CPs supplémentaires, il

faut que le même défaut demeure garanti détectable dans le sous-espace augmenté. Par
conséquent, il faut s’assurer que :
1
k Md2+ ΞJ f(k)k2 + 4Γ2q ≥ 4Γ2aug (3.50)
ainsi,
1 q
k Md2+ ΞJ f(k)k ≥ 2 Γ2aug − Γ2q (3.51)
où Γ2aug représente la limite de contrôle de l’indice de détection dans le sous-espace aug-
menté. Evidemment, cette inégalité n’est valable que si Γ2aug ≥ Γ2q . Une telle inégalité
représente une condition de minoration sur l’amplitude du défaut dans le sous-espace
ajouté. Cette minoration implique qu’un tel sous-espace doit être sensible au défaut consi-
déré. Ainsi, la performance de détection prouvée dans le sous-espace optimal ne peut être
garantie conservée par augmentation du sous-espace si les CPs ajoutées sont insensibles
au défaut considéré.
Dans le cadre de l’utilisation de l’ACP pour une démarche de diagnostic, le nombre
de CPs retenues pour la construction d’un modèle ACP aura certainement un impact sur
les étapes d’une telle démarche notamment la détection et la localisation ou l’isolation de
défauts. Si le nombre de CPs retenues est inférieur à celui optimal, cela risque de perdre
des informations contenues dans les données initiales en projetant certaines variables dans
le sous-espace résiduel. Par conséquent, on pourrait avoir des résidus entachés ce qui
entraı̂ne des fausses alarmes. Dans le cas contraire, le modèle est surestimé, et il peut ne
pas permettre la détection de défauts.
3.3 Différentes variances non reconstruites

Le principe de l’approche de reconstruction des variables sera réalisé dans un contexte
de défauts unidimensionnels en supposant qu’il ne peut y exister qu’une seule variable
en défaut à chaque instant. Puisque les données collectées représentent le fonctionnement
normal de processus, les défauts supposés sont réellement nuls. Par conséquent, l’objectif
est de définir le modèle ACP permettant d’avoir une plus faible variance non reconstruite.
3.3.1 Principe de la reconstruction unidimensionnelle

Le vecteur de données exprimant la présence d’un défaut simple Fj affectant la jème
variable au kème instant peut être déduit de l’équation (2.59) en remplaçant respective-
ment ΞJ et f(k) par ξj et f (k). L’élimination de l’effet d’un tel défaut revient à estimer
un vecteur xj (k) insensible au défaut :
xj (k) = x(k) − ξj f (k)
= x(k) − ξ fˆ (k)
j j (3.52)
où fˆj ∈ R représente une estimation de f . Celle-ci permettra de calculer un indice de
détection associé non influencé par le défaut :
1
γj (k) = k M 2 xj (k)k2 (3.53)
73
Ainsi, une estimation optimale de l’amplitude du défaut est celle qui minimise l’indice
reconstruit γj (k) comme suit :
fˆj (k) = arg min γj (k)

(3.54)
f (k)
Cette minimisation est obtenue par l’application du principe des moindres carrés. En
conséquence, l’amplitude estimée du défaut ainsi que le vecteur de données dont la jème
variable est reconstruite sont respectivement exprimés par :
fˆj (k) = (ξjT M ξj )−1 ξjT M x(k) (3.55)
xj (k) = (Im − ξj (ξjT M ξj )−1 ξjT M)x(k) (3.56)

On peut déduire que la jème variable n’est reconstructible dans le sous-espace de γ
1
que si le terme ξjT M ξj est non nul. Cela implique que le vecteur M 2 ξj ne soit pas nul.
Pour une meilleure mise en évidence du principe de reconstruction d’une variable, nous
proposons de décomposer les vecteurs x(k), ξj et la matrice M comme suit :
     
xj− (k) ξj− M1 Mj− M2
x(k) =  xj (k)  , ξj =  1  et M = MTj− ξjT M ξj MTj+  (3.57)
xj+ (k) ξj+ MT2 Mj+ M3
où xj− (k) et xj+ (k) sont respectivement composés des (j−1) premières et (m−j) dernières
mesures du vecteur de données x(k). xj (k) représente la mesure de la jème variable au
kème instant. ξj− ∈ Rj−1 et ξj− ∈ Rm−j sont deux vecteurs nuls. MTj− et MTj+ sont deux
vecteurs composés respectivement des (j − 1) premières et (m − j) dernières valeurs de la
jème ligne de la matrice M. ξjT M ξj est la jème valeur diagonale de la matrice M.
A partir des équations (3.56) et (3.57), le vecteur de données dont la jème variable est
reconstruite peut s’écrire de la façon suivante :
 
xj− (k)
xj (k) = −(ξjT M ξj )−1 MTj− xj− (k) + MTj+ xj+ (k) 

(3.58)
xj+ (k)
D’après cette expression, seules les mesures des variables autres que celles de la variable
en question sont utilisées pour sa reconstruction. En outre, la contribution des autres va-
riables dans la reconstruction dépend de la dimension du modèle ACP considéré. Une
telle contribution peut être illustrée par les coefficients des vecteurs MTj− et MTj+ . Evi-
demment, les valeurs de ces coefficients changent en fonction du nombre des CPs utilisées
dans le modèle ACP.
3.3.2 Variance non reconstruite généralisée

La reconstruction d’une variable dans un sous-espace donné est basée sur l’estima-
tion de sa grandeur supposée être normale en utilisant les mesures des autres variables.
74
Néanmoins, la variance d’une telle variable ne peut être totalement reconstruite. Il est
donc possible d’en extraire une variance non reconstruite qui dépend de la dimension du
modèle ACP et du sous-espace dans lequel l’estimation est réalisée. Nous rappelons que
seule la variance non reconstruite relative à une estimation dans le sous-espace résiduel
a été étudiée dans la littérature (Dunia et Qin, 1998b,c,a; Qin et Dunia, 2000). Dans ce
cadre, nous avons proposé une variance non reconstruite généralisée relative à un indice
de détection quadratique quelconque (Mnassri et al., 2010a). Cette généralisation nous
a permis d’étudier la variance de l’erreur de reconstruction relative à chaque indice de
détection donné dans le tableau 3.1.
Considérons ej (k) ∈ Rm le vecteur qui représente l’erreur de reconstruction de la jème
variable au kème instant. Ainsi, l’erreur de reconstruction de cette variable est donnée
par :
ξjT ej (k) = ξjT (x(k) − xj (k)) = fˆj (k) = (ξjT M ξj )−1 ξjT M x(k) (3.59)
Cette expression montre que l’estimation de la jème variable dans n’importe quel
sous-espace est non biaisée. Puisque les données sont centrées, la moyenne de l’erreur de
reconstruction est nulle :
n o
E ξjT ej = E fˆj = (ξjT M ξj )−1 ξjT M E {x} = 0

(3.60)
La variance d’une telle erreur dans la direction de la variable en question dépend de

la dimension du modèle ACP. Etant donné que les données utilisées dans l’objectif d’une
modélisation par ACP sont censées être sans défauts, cela implique que le modèle ACP le
plus adapté doit assurer une erreur de reconstruction ayant le moins possible de variance.
Ainsi, on définit la variance de l’erreur de reconstruction de la jème variable comme suit :
n o2 n o
2 ˆ ˆ = E fˆj2
T
σγj (`) = Var ξj ej = E fj − E fj

ξjT M E xxT M ξj ξjT M Σ M ξj
= = (3.61)
(ξjT M ξj )2 (ξjT M ξj )2
L’objectif étant alors de définir le nombre de CPs qui minimise l’expression précédente
pour une meilleure reconstruction d’une variable donnée. En effet, le minimum de la
variance non reconstruite d’une variable correspond à un nombre de CPs qui peut être
diffèrent de celui obtenu pour une reconstruction optimale d’une autre variable. Pour cette
raison, ce compromis peut être résolu par la considération d’une variance non reconstruite
globale. Ainsi, l’objectif sera plutôt de définir un nombre de CPs qui minimise la variance
globale qui peut malheureusement ne pas assurer une variance non reconstruite minimale
pour chacune des variables. Puisque le critère global représente la somme des variances non
reconstruites individuelles des variables, il est préférable de les considérer dans la même
échelle en pondérant chacune par la variance originelle de sa variable. Par conséquent, le
critère de la variance non reconstruite globale relative à l’indice γ est donné par :
m σ 2 (`) m
X γj X ξjT M Σ M ξj
VNRγ (`) = = (3.62)
j=1
ξjT Σξj j=1
(ξjT Σξj )(ξjT M ξj )2
75
Dans le cadre d’une utilisation de la variance non reconstruite, nous considérons plus
particulièrement que les données de X sont centrées réduites. Par conséquent, Σ repré-
sente une matrice de corrélation, ce qui implique que ξjT Σξj = 1.
3.3.3 Comportements des différents critères VNR

A partir de l’expression généralisée de la variance non reconstruite, nous développons
et étudions théoriquement dans la suite les comportements des différents critères envisa-
geables qui sont relatifs aux indices de détection utilisés dans le cadre de l’ACP.
3.3.3.1 VNR utilisant l’indice SPE

En se référant au tableau 3.1, la matrice de l’indice SP E est M = C̃. La substitution
de celle-ci dans la formule de la variance non reconstruite généralisée (3.61), nous permet
de prouver en considérant l’équation (2.63) ce qui suit :
2
ξjT C̃ΣC̃ξj
σSP Ej (`) = = σj2 (`) (3.63)
(ξjT C̃ξj )2
Nous pouvons déduire que la variance non reconstruite d’une variable donnée en uti-
lisant l’indice SP E est égale à celle étudiée dans le deuxième chapitre. Par conséquent,
le critère de la variance globale de l’erreur de reconstruction relative à un tel indice n’est
autre que le critère VNR qui a été l’objet d’une étude dans le chapitre précédent :
m
X m
X
2
VNRSP E (`) = σSP Ej (`) = σj2 (`) = VNR(`) (3.64)
j=1 j=1
L’expression précédente représente l’unique critère proposé dans un contexte de choix

d’une dimension optimale d’un modèle ACP en s’appuyant sur l’idée de la variance non
reconstruite (Dunia et Qin, 1998b,c,a; Qin et Dunia, 2000).
3.3.3.2 VNR utilisant l’indice SWE

T
En remplaçant la matrice M exprimée dans l’équation (3.61) par P̃Λ̃−1 P̃ qui repré-
sente la matrice de l’indice SW E, la variance de l’erreur de reconstruction de la jème
variable en utilisant un tel indice est donnée par :
T T
2
ξjT P̃Λ̃−1 P̃ PΛPT P̃Λ̃−1 P̃ ξj 1
σSW Ej (`) = T
= T
(3.65)
(ξjT P̃Λ̃−1 P̃ ξj )2 ξjT P̃Λ̃−1 P̃ ξj
En effet, la matrice résiduelle des vecteurs propres ainsi que celle des valeurs propres
peuvent être réécrites respectivement comme suit :
h i
P̃ = p`+1 , P̃r (3.66)
76
et
λ 0
Λ̃ = `+1 (3.67)
0 Λ̃r
On peut alors déduire que :
T T
ξjT P̃Λ̃−1 P̃ ξj = λ−1 T T T −1
`+1 ξj p`+1 p`+1 ξj + ξj P̃r Λ̃r P̃r ξj (3.68)
Puisque λ−1 T T
`+1 ξj p`+1 p`+1 ξj ≥ 0, alors
T T
ξjT P̃Λ̃−1 P̃ ξj ≥ ξjT P̃r Λ̃−1
r P̃r ξj (3.69)
donc
1 1
T
≤ T
(3.70)
ξjT P̃Λ̃−1 P̃ ξj ξjT P̃r Λ̃−1
r P̃r ξj
D’après l’inégalité précédente et l’équation (3.65), on peut établir ce qui suit :

2 2
σSW Ej (`) ≤ σSW Ej (` + 1) (3.71)
L’inégalité (3.71) prouve que la variance non reconstruite d’une variable donnée en
utilisant l’indice SW E est monotone croissante en `. Ainsi, la variance globale de l’erreur
de reconstruction est également monotone croissante en ` :
m
X m
X
2 2
σSW Ej (`) ≤ σSW Ej (` + 1) (3.72)
j=1 j=1
d’où
VNRSW E (`) ≤ VNRSW E (` + 1) (3.73)
Par conséquent, le minimum d’un tel critère correspond toujours à une seule CP qui
est la première :
min VNRSW E (`) = 1 (3.74)
`
On peut conclure que la variance non reconstruite utilisant l’indice SW E ne peut pas
servir dans le choix d’un nombre optimal de CPs.
3.3.3.3 VNR utilisant l’indice T2 de Hotelling

La reconstruction de la jème variable en se basant sur l’indice T 2 de Hotelling génère
une variance non reconstruite dont l’expression est obtenue en substituant dans l’équation
T
(3.61) et d’après le tableau 3.1 la matrice M par P̂Λ̂−1 P̂ comme suit :
T T
ξjT P̂Λ̂−1 P̂ PΛPT P̂Λ̂−1 P̂ ξj 1
σT2 2j (`) = T
= T
(3.75)
(ξjT P̂Λ̂−1 P̂ ξj )2 ξjT P̂Λ̂−1 P̂ ξj
77
Notamment, l’augmentation de la dimension du sous-espace principal par l’addition

d’une CP supplémentaire implique que la nouvelle matrice des vecteurs propres ainsi que
celle des valeurs propres prennent respectivement les formes suivantes :
h i
P̂+ = P̂, p`+1 (3.76)

Λ̂ 0
Λ̂+ = (3.77)
0 λ`+1
Ce qui nous permet de déduire que :
1 1
σT2 2j (` + 1) = T
= T
(3.78)
ξjT P̂+ Λ̂−1
+ P̂+ ξj λ−1 T T T −1
`+1 ξj p`+1 p`+1 ξj + ξj P̂Λ̂ P̂ ξj
Puisque λ−1 T T
`+1 ξj p`+1 p`+1 ξj ≥ 0, alors
1 1
T
≥ T
(3.79)
ξjT P̂Λ̂−1 P̂ ξj ξjT P̂+ Λ̂−1
+ P̂+ ξj
donc
σT2 2j (`) ≥ σT2 2j (` + 1) (3.80)
et m m
X X
σT2 2j (`) ≥ σT2 2j (` + 1) (3.81)
j=1 j=1
Celle-ci implique que
VNRT 2 (`) ≥ VNRT 2 (` + 1) (3.82)
Cette inégalité prouve que le critère de la variance non reconstruite utilisant à l’indice
T 2 de Hotelling est monotone décroissant en `. En se basant sur ce critère, la meilleure
reconstruction est obtenue en considérant toutes les CPs puisque :
min VNRT 2 (`) = m (3.83)
`
En effet, la variance de l’erreur de reconstruction basée sur l’indice T 2 de Hotelling
est incapable de déterminer un modèle optimal.
3.3.3.4 VNR utilisant l’indice de Mahalanobis

D’après le tableau 3.1, la matrice de la distance de Mahalanobis est indépendante du
nombre des CPs. Par conséquence, la variance non reconstruite utilisant une telle distance
ne dépend pas également d’une dimension donnée :
2
ξjT PΛ−1 PT PΛPT PΛ−1 PT ξj 1 1
σD = T
= T
= (3.84)
j
(ξjT PΛ−1 P ξj )2 ξjT PΛ−1 P ξj ξjT Σ−1 ξj
ainsi,
m
X
2
VNRD = σD j
(3.85)
j=1
Il est clair que ce critère est constant. Ainsi, sa minimisation par rapport à ` n’est pas
possible et ne peut apporter aucun avantage pour le choix d’un nombre optimal de CPs.
78
3.3.3.5 VNR utilisant un indice exprimé dans le sous-espace principal

Nous proposons ici d’étudier la variance non reconstruite en utilisant un indice exprimé
dans le sous-espace principal autre que les indices de détection connus dans le cadre de
l’ACP. Cet indice est complémentaire à celui du SP E.
En effet, nous remarquons dans la littérature l’inexistence d’intérêt à l’étude de la
distance kx̂k2 malgré qu’elle représente une forme quadratique. La reconstruction d’une
variable donnée en se basant sur une telle distance produit une variance non reconstruite.
En substituant la matrice M dans (3.61) par Ĉ, l’expression de la variance de l’erreur de
reconstruction de la jème variable est la suivante :
! !
T T
2
ξj ĈΣ Ĉξ j ξj ĈΣ Ĉξ j 1
σkx̂jk
2 (`) =
T
= T T
= ûj (`)v̂j (`) (3.86)
(ξj Ĉξj ) 2 ξj Ĉξj ξj Ĉξj
avec
ξjT ĈΣĈξj
ûj (`) = (3.87)
ξjT Ĉξj
et
1
v̂j (`) = T (3.88)
ξj Ĉξj
L’ajout d’une CP supplémentaire dans le sous-espace principal nous permet d’écrire :
1 1
v̂j (` + 1) = T = T
(3.89)
ξj Ĉ+ ξj ξjT P̂+ P̂+ ξj
D’après l’équation (3.76), on peut déduire que :
T T
ξjT P̂+ P̂+ ξj = ξjT p`+1 pT`+1 ξj + ξjT P̂P̂ ξj (3.90)
Celle-ci implique que
T T
ξjT P̂+ P̂+ ξj ≥ ξjT P̂P̂ ξj (3.91)
ainsi,
v̂j (`) ≥ v̂j (` + 1) (3.92)
L’inégalité précédente prouve que la fonction v̂j est monotone décroissante en `. En ce
qui concerne la fonction ûj , nous proposons de calculer la différence suivante :
T T T T
ξjT P̂+ P̂+ ΣP̂+ P̂+ ξj ξjT P̂ P̂ ΣP̂ P̂ ξj
ûj (` + 1) − ûj (`) = T
− T
ξjT P̂+ P̂+ ξj ξjT P̂ P̂ ξj
T T
λ`+1 ξjT p`+1 pT`+1 ξj + ξjT P̂ Λ̂P̂ ξj ξjT P̂ Λ̂P̂ ξj
= T
− T
ξjT p`+1 pT`+1 ξj + ξjT P̂ P̂ ξj ξjT P̂ P̂ ξj
T T

ξjT p`+1 pT`+1 ξj λ`+1 ξjT P̂ P̂ ξj − ξjT P̂ Λ̂P̂ ξj
= T T
(ξjT P̂+ P̂+ ξj )(ξjT P̂ P̂ ξj )
ξjT p`+1 pT`+1 ξj
T T

= T T
ξj P̂(λ I
`+1 ` − Λ̂)P̂ ξj (3.93)
(ξjT P̂+ P̂+ ξj )(ξjT P̂ P̂ ξj )
79
où I` ∈ R`×` est une matrice identité. Notamment, toutes les valeurs propres de la matrice
diagonale Λ̂ sont supérieures ou égales à λ`+1 ce qui implique que tous les éléments de la
matrice diagonale (λ`+1 I` − Λ̂) sont alors négatifs ou nuls. Par conséquence, la différence
exprimée par l’équation précédente est négative ou nulle, ainsi :
ûj (`) ≥ ûj (` + 1) (3.94)
A partir des inégalités (3.94) et (3.92), nous pouvons déduire que :
ûj (`)v̂j (`) ≥ ûj (`+)v̂j (` + 1) (3.95)
ce qui nous permet également de déduire, d’après (3.86), que :
2 2
σkx̂ 2 (`) ≥ σkx̂ k2 (` + 1) (3.96)
jk j
En posant
m
X
2
VNRkx̂k2 (`) = σkx̂jk
2 (`) (3.97)
j=1
le critère qui représente la variance globale non reconstruite relative à l’indice considéré,
on peut conclure de l’inégalité (3.96) que :
VNRkx̂k2 (`) ≥ VNRkx̂k2 (` + 1) (3.98)
Ce critère est alors monotone décroissant en `. Evidemment, la meilleure reconstruction
est obtenue en considérant toutes les CPs dans le modèle ACP puisque :
min VNRkx̂k2 (`) = m (3.99)
`
Le comportement de cette variance non reconstruite ne peut pas servir pour le choix
d’un nombre optimal de CPs.
3.3.3.6 VNR utilisant l’indice combiné

D’après le tableau 3.1, les vecteurs colonnes de la matrice M de l’indice combiné
engendrent deux sous-espaces orthogonaux. La substitution d’une telle matrice dans l’ex-
pression (3.61), nous a permis de montrer que la variance non reconstruite de la jème
variable en s’appuyant sur cet indice peut s’écrire comme suit :
T
τ 4 ξjT C̃ΣC̃ξj + δ 4 ξjT P̂Λ̂−1 P̂ ξj
σϕ2 j (`, α) = 2 (3.100)
T
τ 2 ξjT C̃ξj + δ 2 ξjT P̂Λ̂−1 P̂ ξj
Cette expression dépend du nombre ` des CPs retenus. En outre, nous remarquons
qu’une telle variance dépend également des seuils de contrôle des indices SP E et T 2 de
Hotelling. Ces limites sont en fonction de ` et un seuil de signification α. Par conséquent,
la variance non reconstruite globale dépendra également des ces paramètres :
m
X
VNRϕ (`, α) = σϕ2 j (`, α) (3.101)
j=1
80
3.4. Nouveaux critères VNR
Cette équation présente un nouveau critère basé sur la variance non reconstruite rela-
tive à l’indice combiné. Nous notons qu’il n’a pas été étudié auparavant dans la littérature.
Jusqu’à ce stade, nous avons montré théoriquement que tous les critères qui se basent
sur la variance non reconstruite, à l’exception de celui de l’équation (3.101), ne peuvent
pas définir la dimension adaptée d’un modèle ACP voire la plupart de ces critères sont
inutiles pour effectuer une telle tâche. En revanche, l’unique critère dont nous ignorons
son comportement est celui relatif à l’indice combiné. Pour cette raison, ce critère a été
l’objet d’une étude sur un exemple simulé par Mnassri et al. (2010a). Nous avons remarqué
qu’il peut nous renseigner sur la dimension optimale en s’appuyant sur à un choix très
approprié du niveau de confiance (1 − α).
Afin d’assurer la détection de défauts, le seuil de signification α doit généralement
avoir des valeurs voisines de 5%. Malheureusement, ces valeurs sont inadéquates pour le
nouveau critère. En effet, nous avons constaté que α doit être proche de 80% pour que
le minimum de VNRϕ converge modérément vers le nombre désiré des CPs. Ce critère
est conçu pour un objectif primordial qui est la minimisation de la variance de l’erreur
de reconstruction. Toutefois, il est difficile d’expliquer théoriquement son comportement.
Pour cela, nous pouvons le considérer comme un critère empirique puisque son efficacité
s’appuie plus particulièrement sur l’expérience.
3.4 Nouveaux critères VNR

Dans l’objectif d’une sélection correcte de la dimension optimale d’un modèle ACP,
nous contribuons dans ce chapitre par deux autres nouveaux critères qui se basent sur la
théorie de la variance de l’erreur de reconstruction.
3.4.1 VNR utilisant un nouvel indice combiné

En se basant sur l’étude établie par Mnassri et al. (2010a) pour le critère VNRϕ ,
nous avons essayé de remédier à l’inconvénient de celui-ci par la proposition d’un nou-
veau critère plus consistant en utilisant une nouvelle distance combinée (Mnassri et al.,
2010b). Une caractéristique majeure constatée dans le premier critère réside dans son al-
lure fluctuante face aux valeurs du niveau de confiance (1 − α). Notre objectif prioritaire
est d’assurer par le nouveau critère une robustesse par rapport au choix de la valeur du
seuil de signification au moins dans l’intervalle couramment utilisé comme [1%, 5%].
D’après (3.100), nous constatons que le critère VNRϕ est exprimé en fonction de
l’inverse des valeurs propres. En effet, celles-ci ont une influence importante sur le com-
portement de ce critère. Dans ce cadre, Mnassri et al. (2010b) ont proposé un nouvel
indice combiné qui combine la statistique SP E et une nouvelle distance B exprimée dans
le sous-espace principal. La particularité de l’indice B se manifeste dans une matrice des
valeurs propres modifiées :
−1 T T
B(k) = kP̂Λ̂B 2 P̂ x(k)k2 = xT (k)P̂Λ̂−1
B P̂ x(k) (3.102)
81
avec
Λ2

0
ΛB = v (3.103)
0 I(m−v) + Λ(m−v)
où Λ̂B ∈ R`×` est une matrice diagonale constituée des ` premiers éléments de la matrice
diagonale ΛB . Evidemment, ` représente le nombre des CPs à retenir. I(m−v) est une
matrice identité d’ordre (m − v). v = {1, · · · , m} joue le rôle d’un deuxième paramètre
pour le critère proposé en représentant également un nombre de CPs qui servira dans
la minimisation par la suite. Λv ∈ Rv×v et Λ(m−v) ∈ R(m−v)×(m−v) sont deux matrices
diagonales contenant respectivement les v premières et (m − v) dernières valeurs propres
de la matrice Λ.
Nous constatons que cet indice ressemble dans sa forme générale à celui de la T 2 de
Hotelling. La modification est réalisée aux niveaux des valeurs propres de la matrice Λ.
L’utilisation de l’indice B pour la détection de défauts impose qu’on lui propose une limite
de contrôle. Puisque cet indice présente une forme quadratique, son seuil de détection peut
être déterminé en se référant à la théorie de Box (1954). En considérant un tel indice, le
processus est en fonctionnement normal au kème instant si :
B(k) ≤ b2 = gB χ2(hB ,α) (3.104)
avec
T
tr[(ΣP̂Λ̂−1 2
B P̂ ) ]
gB = T
(3.105)
tr[ΣP̂Λ̂−1
B P̂ ]
T
(tr[ΣP̂Λ̂−1
B P̂ ])
2
hB = T
(3.106)
tr[(ΣP̂Λ̂−1 2
B P̂ ) ]
Dans la pratique, on suggère généralement qu’on surveille le processus par un seul

indice plutôt que deux statistiques de détection séparées. Pour cela, nous avons proposé
de combiner l’indice B et celui du SP E en une seule statistique combinée comme suit :
1 SP E(k) B(k)
Ψ(k) = kΥ 2 x(k)k2 = + 2 (3.107)
δ2 b
où
1 −1 T
Υ 2 = δ −1 C̃ + b−1 P̂Λ̂B 2 P̂ (3.108)
Υ représente la matrice du nouvel indice combiné Ψ. Notamment, la reconstruction de
la jème variable en utilisant un tel indice engendre une variance non reconstruite dont
son expression est déterminée en remplaçant dans l’équation (3.61) M par Υ. Ainsi, nous
montrons qu’elle peut s’écrire comme suit :
T
2
b4 ξjT C̃ΣC̃ξj + δ 4 ξjT P̂Λ̂−1
B P̂ ξj
σΨ (`, v, α) = 2 (3.109)
j
2 T 2 T −1 T
b ξj C̃ξj + δ ξj P̂Λ̂B P̂ ξj
82
Cette variance dépend de deux paramètres principaux qui sont ` et v ainsi qu’un
paramètre de lissage α qui représente le seuil de signification. En revanche, le critère
global dépend uniquement de ` et α :
m X
X m
2
VNRΨ (`, α) = σΨ j
(`, v, α) (3.110)
v=1 j=1
Nous suggérons que le minimum de cette fonction peut correspondre au nombre op-
timal des CPs. En se basant sur un exemple simulé, nous avons observé que ce critère
peut déterminer correctement le nombre désiré des CPs avec des valeurs pour α qui sont
comprises entre 1% et 5% (Mnassri et al., 2010b). Notamment, ce critère montre des ré-
sultats plus corrects que ceux du critère utilisant le classique indice combiné. Cependant,
il demeure un critère empirique car seul l’expérience peut illustrer son efficacité.
3.4.2 Changement de représentation des données

La présence du seuil de signification dans les expressions des deux nouveaux critères
proposés précédemment pose souvent des difficultés en rendant les résultats et les décisions
incertains. Pour cette raison, nous avons étendu nos travaux dans ce cadre en proposant
également un troisième nouveau critère que nous considérons le mieux performant et le
plus consistant du point de vue théorique. Ce critère a été proposé initialement dans
Mnassri et al. (2010c) puis il a été rectifié et adapté théoriquement dans Mnassri et al.
(2011a).
3.4.2.1 Motivation et théorie d’une nouvelle approche ACPVI

Le nouveau critère est fondé sur l’idée d’une analyse en composantes principales pon-
dérées par leurs variances inversées (ACPVI, en anglais : Inverse-Variance Weighting
PCA (IVWPCA)). En considérant des données normalisées, nous avons montré dans le
deuxième chapitre que le critère VNR peut déterminer correctement le nombre optimal
des CPs seulement en absence des variables indépendantes et quasi-indépendantes. En ef-
fet, un tel critère est insensible à la présence de ce type de variables. En outre, nous notons
que ce critère peut également être plus limité en utilisant des données non normalisées.
Une variable indépendante ayant une variance très importante peut occuper le premier
ou le deuxième rang dans l’ordre d’importance des CPs en considérant la matrice de co-
variance. Dans ce cas et d’après la démonstration établie dans l’annexe A, le minimum du
critère VNR correspondra à un nombre de CPs qui ne peut pas dépasser le rang d’une
telle variable. Par conséquent, des CPs qui sont réellement significatives seront écartées.
Ce critère peut garantir la sélection de ces CPs uniquement si les variables indépendantes
et quasi-indépendantes disposent de variances moins inférieures aux valeurs propres de
telles CPs.
Nous recommandons alors l’utilisation d’un tel critère avec des données normalisées
car les CPs qui correspondent aux variables indépendantes sont hiérarchiquement pla-
cées après les CPs les plus significatives qui expriment de fortes corrélations. De cette
manière, on est confronté uniquement au problème d’identification de telles variables. No-
tamment, les variables indépendantes se caractérisent par une invariabilité en termes de
83
leurs indépendances ainsi que leurs variances même en cas d’inversion de la matrice de
corrélation.
Pour cette raison, l’idée principale s’appuie sur le principe des problèmes inverses
par un changement de représentation des données. Puisque la normalisation des données
influe souvent les relations linéaires entre les variables, nous supposons que les données
normalisées de la matrice X sont initialement issues d’une transformation linéaire d’autres
données Y ∈ RN ×m qui ne sont pas forcément normalisées. En notation vectorielle, cette
hypothèse se traduit par :
x(k) = Ay(k) (3.111)
A ∈ Rm×m est la matrice de transformation. y ∈ Rm représente le vecteur des données
desquelles sont extraites celles du vecteur x. A travers le changement de représentation,
nous devons assurer que les données de X sont normalisées. Dans ce contexte, on peut
établir ce qui suit :
Σ = E xxT = A E yyT AT

= ASAT (3.112)
où Σ et S sont respectivement la matrice de corrélation de X et la matrice de covariance

de Y.
Une contrainte que nous devons également l’assurer par une telle transformation li-
néaire concerne l’organisation des valeurs propres de Σ ainsi que celles de S. En effet,
nous souhaitons que leurs valeurs propres soient reliées en conservant un certain ordon-
nancement. Pour cela, la détermination des matrices A et S peut s’effectuer selon trois
possibilités. Cependant, une unique possibilité peut satisfaire nos hypothèses :
i. D’après les équations (2.13) et (3.112), nous pouvons supposer que A = P et S = Λ.
Avec ces considérations, le problème à résoudre se ramène au cas classique ;
ii. Puisque Σ doit être nécessairement une matrice de corrélation, on peut considérer
que S est la matrice de covariance de X et A est une matrice diagonale constituée
par les inverses des racines carrées des écarts types des variables originelles. Dans ce
cas, on serait confronté à une étude sur les données de X qui ne sont pas normalisées.
Par conséquent, le critère VNR ne peut pas assurer une optimalité dans la sélection
des CPs significatives, plus particulièrement en présence des variables indépendantes
de variances importantes ;
iii. La dernière et l’unique possibilité envisageable est de supposer que :
A=Σ (3.113)
et
S = Σ−1 (3.114)
En présence de bruit de mesures de variances non nulles, la matrice de corrélation
Σ est inversible. Ainsi, Σ−1 représente la matrice de covariance des données de Y. Par
conséquent, le vecteur de données y(k) peut s’écrire comme suit :
y(k) = Σ−1 x(k) (3.115)
84
Puisque P est une matrice orthonormée, i.e. P−1 = PT , la décomposition en valeurs

singulières de la matrice de covariance S des données de Y mène à la forme suivante :
S = Σ−1 = PΛ−1 PT (3.116)
L’interprétation théorique de l’équation précédente prouve que les variables de Y dis-

posent des mêmes CPs que celles des variables de X. La distinction se manifeste unique-
ment dans les variances de telles CPs. Posons h ∈ Rm le vecteur des CPs qui correspondent
aux données de Y, nous pouvons montrer que :
h(k) = PT y(k) = PT Σ−1 x(k)

= Λ−1 PT x(k) = Λ−1 t(k) (3.117)
où, d’après (2.15), t représente le vecteur des CPs de X. Puisque cesCPs sont caractérisées
par des variances qui sont égales aux valeurs propres de Σ, i.e. E ttT = Λ, on montre
alors que :
E hhT = Λ−1 E ttT Λ−1 = Λ−1

(3.118)
Par conséquent, nous déduisons que les CPs de Y sont les mêmes que celles de X
mais de variances inverses. Pour cette raison, nous avons appelé cette approche analyse
en composantes principales pondérées par leurs variances inversées (ACPVI).
D’après l’équation (3.116), nous remarquons qu’une telle décomposition engendre des
valeurs propres dans l’ordre croissant. Cependant, le principe communément connu par
une ACP est d’organiser les valeurs propres dans un ordre décroissant. Pour cela, l’équa-
tion (3.116) peut se réécrire comme suit :
S = GDGT (3.119)
avec

G = g1 , · · · , gm−q , gm−q+1 , · · · , gm = pm , · · · , pq+1 , pq , · · · , p1 (3.120)
et
D = diag{d1 , · · · , dm−q , dm−q+1 , · · · , dm } = diag{λ−1 −1 −1 −1

m , · · · , λq+1 , λq , · · · , λ1 } (3.121)
Puisque S est une matrice de covariance, cela semblerait contradictoire avec notre
recommandation concernant la nature des données sur lesquelles on doit appliquer un
critère basé sur le principe de la variance non reconstruite. Toutefois, l’organisation des
valeurs propres de cette matrice de covariance qui est obtenue par un changement de
représentation des données présentera un avantage majeur pour notre approche. Ainsi,
ce type de matrice de covariance qui représente l’inverse d’une matrice de corrélation
d’autres données sera le plus adapté pour une utilisation du critère VNR sur des données
non normalisées.
Nous avons supposé que q représente le nombre optimal des CPs pour les données de
X. En présence des variables indépendantes et/ou quasi-indépendantes, la qème CP repré-
sentera certainement l’une de ces variables. Ainsi, l’inversion de la matrice de corrélation
85
n’influe pas leurs natures. D’après (3.120) et (3.121), les q CPs significatives dans X se
transforment en des relations de redondance dans Y. Inversement, les (m − q) relations de
redondance dans X se transforment en des CPs significatives dans Y. Ces effets sont dus
aux inverses des valeurs propres résiduelles de Σ qui produisent des valeurs propres très
importantes dans Σ−1 . Evidemment s’il existe un ensemble de variables indépendantes
dans X, elles se mutent dans Y sans modification considérable dans leurs indépendances.
Ainsi, la dernière parmi elles sera associée au vecteur propre gm−q+1 (3.120).
Afin de sélectionner les q CPs de la matrice X, nous envisageons qu’il est plus facile
d’identifier les (m − q) CPs de la matrice Y en utilisant le principe de la variance non
reconstruite.
3.4.2.2 VNR basée sur l’ACPVI

Posons y∗ (k) le vecteur des données obtenues lors du fonctionnement normal. En
présence d’un défaut simple Wi porté par la ième direction ζi et d’amplitude w(k) à
l’instant k, le vecteur de données y(k) peut s’exprimer comme suit :
y(k) = y∗ (k) + ζi w(k) (3.122)
Le vecteur ζi ∈ Rm représente la ième colonne de la matrice identité. Il correspond à

la variable supposée en défaut. Ainsi, la reconstruction d’une telle variable engendre un
vecteur reconstruit de données comme suit :
yi (k) = y(k) − ζi ŵi (k) (3.123)
où ŵi est une estimation de w. Une telle estimation est optimale en minimisant l’erreur
quadratique d’estimation kZ̃yi (k)k2 de la façon suivante :
n o
2
ŵi (k) = arg min kZ̃yi (k)k
w(k)
= (ζiT Z̃ζi )−1 ζiT Z̃y(k) (3.124)
avec
T
Z̃ = G̃ G̃ (3.125)
Notamment, Z̃ est la matrice de projection dans le sous-espace résiduel de Y. G̃ ∈
m×(m−κ)
R est composée des (m − κ) derniers vecteurs propres de la matrice G et κ repré-
sente le nombre des CPs utilisées dans le modèle.
On note que la ième variable est reconstructible si ζiT Z̃ζi 6= 0, i.e. le vecteur Z̃ζi est
non nul.
Puisque les données de X sont centrées alors celles de Y le sont également. Par consé-
quent, la moyenne de ŵi est nulle. Ainsi, la variance de l’erreur de reconstruction de la
ième variable dans le sous-espace résiduel est définie par :
σi2 (κ) = Var ζiT (y − yi ) = Var {ŵi }

T
ζiT Z̃ E yyT Z̃ζi ζiT Z̃Σ−1 Z̃ζi ζiT G̃D̃G̃ ζi
= = = (3.126)
(ζiT Z̃ζi )2 (ζiT Z̃ζi )2 (ζiT Z̃ζi )2
86
On peut alors déduire le critère de la variance globale non reconstruite noté VNRVI
et qui dépend de κ comme suit :
m m m T
X σi2 (κ) X ζiT Z̃Σ−1 Z̃ζi X ζiT G̃D̃G̃ ζi
VNRVI(κ) = T −1
= = (3.127)
i=1
ζi Σ ζi i=1
(ζi
T −1
Σ ζi )(ζi
T
Z̃ζi ) 2
i=1
(ζi
T −1
Σ ζi )(ζi
T
Z̃ζi )2
Notons par κop le nombre optimal des CPs dans Y. En se basant sur ce critère, nous
suggérons que son minimum correspond à κop = (m − q) CPs :
κop = arg min {VNRVI(κ)} = m − q (3.128)

κ
Par conséquent, le nombre optimal des CPs de X est déduit de la manière suivante :
òp = q = m − κop = m − arg min {VNRVI(κ)} (3.129)

κ
3.4.2.3 Consistance théorique du critère VNRVI

En posant
ζiT Z̃Σ−1 Z̃ζi
ũ2i (κ) = (3.130)
(ζiT Z̃ζi )
et !
1 − ζiT Z̃ζi
û2i (κ) = ũ2i (κ) (3.131)
ζiT Z̃ζi
et d’après l’équation (3.126), la variance non reconstruite de la ième variable pondérée
par sa variance originelle peut s’exprimer comme suit :
σi2 (κ) ũ2i (κ) + û2i (κ)

= (3.132)
ζiT Σ−1 ζi ζiT Σ−1 ζi
Etant donné que la quantité ζiT Σ−1 ζi est une constante qui ne dépend pas de κ, notre
étude du comportement du nouveau critère peut se limiter aux deux termes ũ2i et û2i .
Dans ce cadre, nous avons montré théoriquement dans l’annexe C que la fonction ũ2i est
monotone décroissante en κ. D’autre part, le terme ζiT Z̃ζi tend vers zéro quand κ tend
vers m. Cela implique par conséquent que û2i devient croissante en montant rapidement
quand κ tend vers m. De cette manière, l’expression (3.132) doit avoir nécessairement un
minimum unique qui correspond à un nombre de CPs dans l’intervalle [1, m]. Ainsi, nous
pouvons déduire également que le critère VNRVI aura un seul minimum global pour un
nombre de CPs dans le même intervalle.
En revanche, il est crucial d’établir les conditions qui garantissent d’avoir théorique-
ment ce minimum en (m − q) CPs. Dans ce cadre, il semblerait nécessaire de connaı̂tre
tout d’abord la distribution du bruit dans les données de Y. Selon l’équation (2.28), le
vecteur de données y(k) peut s’écrire comme suit :
y(k) = Σ−1 x̊(k) + Σ−1 v(k) = ẙ(k) + w(k) (3.133)
87
où les vecteurs ẙ(k) et w(k) représentent respectivement les mesures sans bruit et le bruit
au kème instant. Ainsi, la matrice de covariance du bruit dans Y est donnée par :
E{wwT } = Σ−1 E{vvT }Σ−1 (3.134)
où E{vvT } représente la matrice de covariance du bruit dans les données de X. D’après
l’équation précédente, nous remarquons que le bruit dans Y dépend fortement de celui
dans X. Néanmoins, la matrice de covariance exprimée par une telle équation est généra-
lement non diagonale ce qui implique que le bruit w est coloré.
D’après la démonstration que nous avons établie dans l’annexe D, le critère VNRVI
garantit son minimum en κ = (m − q) CPs si :
T
dm−q+1 ζiT G̃q G̃q ζi
≤ T
pour κ ≥ m − q (3.135)
dm ζiT G̃ G̃ ζi
et
T
!
ζiT G̃ G̃ ζi
dm−q ≥ 1+ T
dm−q+1 pour κ < m − q (3.136)
ζiT G̃q G̃q ζi
où G̃ ∈ Rm×(m−κ) et G̃q ∈ Rm×q sont deux matrices constituées respectivement par les
(m − κ) et les q derniers vecteurs propres de la matrice G. Notamment, nous pouvons
réécrire les deux inégalités précédentes en fonction des valeurs propres de la matrice Σ.
Selon l’équation (3.121), elles se transforment respectivement comme suit :
T
λ1 ζiT G̃q G̃q ζi
≤ T
pour κ ≥ m − q (3.137)
λq ζiT G̃ G̃ ζi
et
T
!
ζiT G̃ G̃ ζi
λq ≥ 1+ T
λq+1 pour κ < m − q (3.138)
ζiT G̃q G̃q ζi
L’interprétation de l’inégalité (3.138) impose que la variance d’un signal quelconque
doit être plus grande que celle du bruit, ce qui représente une condition très ordinaire.
Cependant, la contrainte exprimée dans (3.137) signifie que les valeurs propres les plus
significatives (λ1 , · · · , λq ) doivent avoir des valeurs très proches les unes des autres. Toute-
fois, la présence des variables indépendantes et/ou quasi-indépendantes peut alléger une
telle contrainte en garantissant un minimum du critère VNRVI en (m − q) CPs pour
κ ≥ m − q. Cette déduction est affirmée grâce à la démonstration de l’annexe A qui
est également valable pour ce nouveau critère. Une telle démonstration prouve que ces
variables sont toujours considérées comme des CPs résiduelles. Effectivement, l’intérêt
de notre approche par la proposition de la matrice Y est d’avoir contrairement au cas
classique, un sous-espace résiduel inversé dont les premières CPs que constituant un tel
sous-espace représentent ce type de variables suivies par les CPs les plus significatives
dans X. Cette particularité du critère VNRVI peut garantir une sélection optimale des
CPs tout en considérant les variables indépendantes et quasi-indépendantes.
88
3.5. Résultats de simulation
3.5 Résultats de simulation

Afin d’illustrer les résultats obtenus par les critères proposés, nous avons considéré
le même exemple du deuxième chapitre. Nous rappelons qu’un tel exemple représente
quatre ensembles de variables A, B, C et D dont chacun a été généré selon trois cas
différents d’un bruit i.i.d. En s’appuyant sur l’analyse et les interprétations menées dans
le chapitre précédent, nous avons conclu que ces ensembles de variables sont constitués
respectivement de 5, 6, 7 et 8 CPs malgré le changement considérable de la variance du
bruit.
Notamment, les critères proposés dans ce chapitre se basent sur des minimisations
par rapport au nombre de CPs pour la détermination du modèle optimal. Exceptionnel-
lement, les critères VNRϕ et VNRΨ dépendent également d’un seuil de signification α.
Puisqu’on dispose d’une connaissance a priori sur les nombres optimaux des CPs consti-
tuant chaque ensemble des données, nous avons réalisé une étude de performance plus
particulièrement pour ces deux critères par rapport à 100 réalisations en variant le niveau
de confiance (1 − α) dans l’intervalle [1, 99]% avec un pas de 1%. Les figures 3.1, 3.2 et
3.3 affichent les pourcentages de sélections correctes des nombres appropriés des CPs dans
les bases des données étudiées respectivement pour les trois différents cas de bruit i.i.d.
Nous remarquons que le critère VNRϕ sélectionne dans plus de 80% des réalisations les
nombres désirés des CPs avec des valeurs de niveau de confiance généralement proches de
20%. En revanche, il montre parfois une allure fluctuante surtout lors d’un bruit de faibles
variances. En comparant les courbes des deux critères, nous observons clairement que ce-
lui du VNRΨ est beaucoup plus performant. Sa minimisation par rapport à ` converge
vers les nombres corrects des CPs en considérant des valeurs habituelles pour le seuil
de signification α. Il montre ainsi une amélioration prometteuse par rapport au critère
VNRϕ .
En considérant des seuil de signification α égaux à 80% pour VNRϕ et 2% pour
VNRΨ , les figures 3.4 et 3.5 illustrent les allures en ` de ces deux critères appliqués
sur les ensembles (A, B) et (C, D) respectivement pour un bruit i.i.d. de faible variance
(σ 2 = 0.002). Ces deux critères peuvent déterminer une dimension optimale d’un modèle
ACP sous la contrainte d’un choix très approprié des valeurs de leurs seuils de signification.
Face à la difficulté d’une telle tâche, le troisième nouveau critère VNRVI montre une
efficacité très avantageuse en évitant les problèmes des quantiles par la considération d’un
autre principe totalement différent. Selon les dernières courbes illustrées dans les premières
et deuxièmes colonnes des figures 3.4 et 3.5, les minima d’un tel critère correspondent à
κop = 7 CPs dans toutes les bases des données transformées qui sont associées à celles de
A, B, C et D. Ainsi, les nombres des variables m dans ces ensembles sont respectivement
12, 13, 14 et 15. En se basant sur l’équation (3.129), nous pouvons déduire que les nombres
optimaux des CPs dans les ensembles A, B, C et D sont respectivement 5, 6, 7 et 8 CPs.
Puisque le bruit de mesures est représenté par des variables aléatoires, une simple
réalisation ne peut pas valider ces résultats. De la même manière qu’au chapitre précédent,
nous avons calculé un pourcentage par rapport à 1500 réalisations des nombres de CPs
retenues à l’aide du critère VNRVI en se référant à l’équation (3.129). En considérant
un nombre d’observations N = 1500 dans les trois différents cas de bruit i.i.d., le tableau
3.2 prouve qu’un tel critère a déterminé dans 100% des réalisations les nombres désirés
89

100 100
80 80
60 60
40 40

"! %
& "!
20 20
$# $"! # &"!
0 0
20 40 60 80 100 20 40 60 80 100
() )
100 100
80 80
60 60
40 40

' "! * "!
20 20
# '"! # *"!
0 0
20 40 60 80 100 20 40 60 80 100
Figure 3.1 – Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et

VNRΨ sur tous les ensembles des variables avec un bruit i.i.d. de variance σ 2 = 0.002

100 100
80 80

60
"! 60

$# $"!
40 40

%
& "!
20 20
# &"!
0 0
20 40 60 80 100 20 40 60 80 100
() )
100 100
80 80
60 60
40 40

' "! * "!
20 20
# '"! # *"!
0 0
20 40 60 80 100 20 40 60 80 100

90
3.5. Résultats de simulation

100 100
80 80
60 60
40 40

!
# !
20 20
" ! " #!
0 0
20 40 60 80 100 20 40 60 80 100
%& &'
100 100
80 80
60 60
40 40

$ ! ( !
20 20
" $! " (!
0 0
20 40 60 80 100 20 40 60 80 100

9& &# 9< =
#"$&% ')( *,+-% .0/214356 77 "$&%#')( *>+-% ./)14356 77
2 2
10 10
0 1
10 10
2 4 6! 8 10 12 2 4 68! 10 12
2
10
"$&%#')( *)89% ./21 6 77 3 "$%#')( *)89% ./21 6 77
10
2
10
0
10
2 4 6! 8 10 12 2 4 6 8! 10 12
0
10
"$&%#')( *');% : 77 "$%#')( *');% : 77
: ! : !
2 4 6 8 10 12 2 4 6 8 10 12
Figure 3.4 – Allures des nouveaux critères appliquées sur les ensembles A et B, respec-
tivement en 1ère et 2ème colonne, en considérant un bruit i.i.d. de variance σ 2 = 0.002
91
' '$ =$'$

2 $#%'& (*) +-,.& /10325467 88 #%'&$(*) +>,.& /0*25467 88
10 10
2
1
10 1
10
2 4 6 !8!" 10 12 14 2 4 6 8!!" 10 12 14
#%'&$(*) +*9& /032 :7 88 #%&$(*) +*9& /032 :7 88
3
10
3
10
2
10
2
10
2 4 6 !8!" 10 12 14 2 4 6 8 !!" 10 12 14
#%'&$(*) +(*<& ; 88 #%&$(*) +(*<& ; 88
2 4
; 6 !8 !" 10 12 14 2 4 6
; 8!!"10
12 14
Figure 3.5 – Allures des nouveaux critères appliquées sur les ensembles C et D, respec-
tivement en 1ère et 2ème colonne, en considérant un bruit i.i.d. de variance σ 2 = 0.002
Critère : VNRVI VNRVI VNRVI VNRVI
Bruit i.i.d. : σ 2 = 0.002

5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Bruit i.i.d. : σ 2 = 0.2
5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Bruit i.i.d. : σ 2 = 0.5
5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Table 3.2 – Pourcentage, par rapport à 1500 réalisations, des nombres de CPs sélec-
tionnées dans les ensembles des données en se basant sur le critère VNRVI (N = 1500
observations générées selon trois différents cas de bruit i.i.d.)
92
3.6. Conclusion
des CPs. Son efficacité présente un avantage prometteur par rapport aux efficacités des
autres critères de sélection présentés dans cette thèse.
Avec le critère VNRVI, l’optimalité de sélection est assurée par un nombre d’observa-
tions N assez inférieur à celui exigé pour le critère MDL présenté au deuxième chapitre.
En comparant les résultats des tableaux 3.2 et 2.7, nous distinguons clairement la dif-
férence au niveau du nombre d’observations considérées. Dans ce contexte, le paramètre
N est exprimé implicitement dans l’expression du VNRVI car il influe sur les valeurs
et vecteurs propres considérés. Ainsi, cette influence sera négligeable voire nulle pour un
nombre N suffisant et fini dans le sens où la matrice de covariance des données demeure
constante.
3.6 Conclusion
Ce chapitre présente nos contributions dans le thème d’une modélisation optimale par
ACP en utilisant le principe de la variance non reconstruite. Face à l’abondance des critères
de sélection disponibles dans la littérature et qui ont montré effectivement une divergence
remarquable dans les résultats obtenus, nous avons motivé théoriquement l’importance
de la précision dans le choix d’une structure adaptée du modèle ACP. Dans la mesure où
celui-ci n’est pas optimal, une conséquence évidente est prouvée sur la détectabilité de
défauts et qui aura sans doute un effet également sur l’isolabilité de défauts.
En partant du principe de la variance de l’erreur de reconstruction, nous avons établi
une expression généralisée pour une telle variance valable pour tout un indice de détection
ayant une forme quadratique. Dans ce cadre, nous avons présenté les indices de détection
proposés dans la littérature. Ainsi, nous avons établi pour chacun de ces indices sa variance
non reconstruite en s’appuyant sur celle généralisée.
Cela nous a permis de conclure suite à une étude théorique des différentes variances
obtenues que la plupart, exceptant quelques-unes, sont inutiles pour le choix du modèle.
Plus particulièrement, nous avons montré que la variance relative à l’indice SP E n’est
autre que celle exprimée par le critère VNR étudié dans le deuxième chapitre. Ainsi, notre
contribution dans ce cadre est introduite par la variance non reconstruite (VNRϕ ) associée
à l’indice combiné. Celle-ci dépend du nombre des CPs considérées dans le modèle ainsi
qu’un seuil de signification qui caractérise les limites de contrôle des indices de détection.
Malheureusement, l’étude de ce critère n’a pas aboutit à une consistance théorique de
son comportement. En effet, seule l’expérience prouve qu’il est capable de déterminer la
dimension du modèle en se référant à un choix très approprié du seuil de signification
considéré. Dans ce contexte, nous avons proposé un deuxième nouveau critère (VNRΨ )
basé sur une nouvelle distance combinée. L’objectif étant de faciliter la tâche du choix de
la valeur d’un tel seuil. Le nouveau critère montre des résultats plus efficaces et mieux
stationnaires que ceux du VNRϕ . Toutefois, ils restent dans leurs globalités incertains
aussi faut-il disposer d’une connaissance a priori ou d’une expertise pour prendre la
décision convenable. En effet, nous avons considéré que ces critères sont empiriques car
ils s’appuient uniquement sur l’expérience.
La limitation qui a été prouvée théoriquement dans le chapitre précédent pour le cri-
tère VNR, a été un avantage d’une nouvelle proposition. Cette dernière est inspirée du
93
principe des problèmes inverses en proposant un changement de représentation des don-

nées. Nous avons supposé que les données normalisées de X observées réellement peuvent
être en réalité des dérives linéaires d’autres données de Y. Une ACP utilisant les nouvelles
données de Y engendre les mêmes CPs que celles de X mais de variances inversées. Pour
cela, la nouvelle approche est appelée ACPVI. En s’appuyant sur le principe de la variance
de l’erreur de reconstruction, nous avons proposé un nouveau critère VNRVI. En effet,
la détermination du nombre optimal des CPs dans Y en utilisant ce critère sert à déduire
celui de X en considérant évidemment les variables indépendantes et quasi-indépendantes.
En outre, nous avons établi théoriquement les conditions garantissant l’optimalité de sé-
lection par un tel critère. Les résultats de simulation ont validé notre théorie en prouvant
que le critère VNRVI apporte un avantage et une efficacité considérables par rapport à
tous les critères présentés dans le deuxième chapitre pour le choix de la structure adaptée
du modèle ACP.
94
4
Théorie d’un diagnostic de défauts par ACP
Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2 Isolation et isolabilité de défauts par reconstruction . . . . . 98
4.2.1 Généralisation de l’isolation et l’isolabilité de défauts . . . . . . 98
4.2.1.1 Isolation de défauts . . . . . . . . . . . . . . . . . . . 98
4.2.1.2 Isolabilité de défauts . . . . . . . . . . . . . . . . . . . 101
Isolabilité par reconstruction de l’indice SPE . . . . . . 102
Isolabilité par reconstruction de l’indice SWE . . . . . . 103
Isolabilité par reconstruction de l’indice T2 de Hotelling 103
Isolabilité par reconstruction de l’indice de Mahalanobis 104
Isolabilité par reconstruction de l’indice combiné . . . . 105
4.2.2 Analyse d’isolabilité par reconstruction de l’indice combiné ver-
sus celles de SPE et T2 de Hotelling . . . . . . . . . . . . . . . 105
4.3 Diagnostic de défauts simples par les contributions . . . . . . 107
4.3.1 Contributions par décomposition complète : CDC . . . . . . . 109
4.3.2 Contributions par décomposition partielle : PDC . . . . . . . . 109
4.3.2.1 PDC à l’indice T2 de Hotelling . . . . . . . . . . . . 109
4.3.2.2 PDC à l’indice SPE basée sur les résidus . . . . . . . 110
4.3.2.3 PDC à l’indice SPE basée sur les CPs résiduelles . . 111
4.3.2.4 PDC à un indice quadratique . . . . . . . . . . . . . 111
4.3.3 Contributions diagonales : DC . . . . . . . . . . . . . . . . . . 112
4.3.4 Contributions par reconstruction : RBC . . . . . . . . . . . . . 112
4.3.5 Contributions par angle : ABC . . . . . . . . . . . . . . . . . . 113
4.3.6 Analyse de diagnosticabilité . . . . . . . . . . . . . . . . . . . . 113
4.3.6.1 Diagnosticabilité de défauts par l’approche CDC . . . 114
4.3.6.2 Diagnosticabilité de défauts par l’approche PDC . . . 114
4.3.6.3 Diagnosticabilité de défauts par l’approche DC . . . . 114
4.3.6.4 Diagnosticabilité de défauts par l’approche RBC . . . 115
95
Chapitre 4. Théorie d’un diagnostic de défauts par ACP
4.4 Nouvelles approches pour un diagnostic de défauts multiples 115

4.4.1 Contributions par reconstruction multidimensionnelle . . . . . 116
4.4.2 RBC ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.5 Exemple de synthèse . . . . . . . . . . . . . . . . . . . . . . . . 119
4.5.1 Diagnostic d’un défaut simple . . . . . . . . . . . . . . . . . . . 122
4.5.2 Diagnostic de défauts multiples . . . . . . . . . . . . . . . . . . 123
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
96
4.1. Introduction
4.1 Introduction
La détection et le diagnostic de défauts sur les processus forment une démarche essen-
tielle afin de leur assurer un fonctionnement sûr et efficace. Selon Kariwala et al. (2010)
et Kourti (2005), une telle démarche peut se baser généralement sur des modèles quanti-
tatifs, des modèles qualitatifs ou l’historique de processus qui représente l’intérêt de cette
thèse. Dans ce contexte, le contrôle statistique de processus a reçu une attention ainsi
qu’un succès considérables aux niveaux des applications. Ce succès peut être attribué à la
disponibilité en permanence d’une grande quantité de données collectées lors du fonction-
nement normal de processus. Ainsi, ces données favorisent le développement des modèles
statistiques qui peuvent atteindre une grande précision dans la détection de toutes dévia-
tions par rapport à un fonctionnement normal. Dans ce cadre, l’ACP est une approche très
adaptée pour un contrôle statistique de processus. Ainsi, elle a été intensément explorée
dans le suivi et le diagnostic de plusieurs processus (Nomikos et MacGregor, 1995; Qin,
2003; Tharrault et al., 2008).
Dans la littérature, le thème du diagnostic de défauts a quand même reçu une attention
moins considérable que celui de la détection de défauts. L’approche la plus classique et en
même temps très populaire pour un diagnostic est basée sur l’analyse des contributions
(Nomikos et MacGregor, 1995; Yue et Qin, 2001; Qin, 2003; Alcala et Qin, 2009; Kariwala
et al., 2010; Alcala et Qin, 2011). Le principe des contributions s’appuie généralement
sur la quantification de la part de chaque variable dans le calcul d’un indice de détec-
tion donné. Dans ce cadre, nous avons proposé une nouvelle forme de contribution par
décomposition partielle de l’indice SP E (Mnassri et al., 2008b, 2009b). Une analyse de
diagnosticabilité de défauts basée sur les contributions montre que celles-ci garantissent un
diagnostic correct uniquement si les défauts sont simples (unidimensionnels) et de grandes
amplitudes. Dans le cas contraire, les approches des contributions peuvent généralement
considérer d’autres variables en défaut. Ainsi, il sera difficile d’isoler celles réellement en
défaut. En outre, les contributions ne permettent pas d’isolation des défauts multiples
où plusieurs variables sont simultanément en défaut en raison de la corrélation entre les
variables. Cette corrélation a été la clé d’un diagnostic mieux décisif basé sur l’approche
de reconstruction des indices de détection (Dunia et al., 1996; Dunia et Qin, 1998b,c,a;
Yue et Qin, 2001; Qin, 2003; Alcala et Qin, 2009, 2011). Le principe d’une telle méthode
s’est fondé sur l’élimination de l’influence de défauts sur l’indice de détection par une
reconstruction des variables à l’aide d’un modèle ACP.
Le succès de l’utilisation de l’ACP pour le diagnostic de défauts sur les processus en
utilisant l’approche de reconstruction a été enrichi par le développement d’un concept
fondamental qui représente l’isolabilité de défauts. On définit l’isolabilité comme étant la
capacité d’un diagnostic à retrouver les origines de défauts. Dans la littérature, un tel
concept a été négligemment étudié dans le cadre de l’ACP en le développant uniquement
pour une reconstruction de l’indice SP E (Dunia et Qin, 1998b,c,a; Qin, 2003). Ce cha-
pitre a pour objectif d’étendre et d’unifier un tel concept à tout indice de détection ayant
une forme quadratique. Ainsi, cette idée nous a permis la réalisation d’une analyse théo-
rique d’isolabilité de défauts par reconstruction de la distance combinée versus celles des
indice que combine en mettant en avant l’avantage que peut jouer une telle distance dans
l’isolation de défauts plus complexes (Mnassri et al., 2012a).
97
La contribution par reconstruction (reconstruction based contribution : RBC) a été

récemment proposée pour diagnostiquer les défauts simples ayant de grandes amplitudes
(Alcala et Qin, 2009, 2011). On note qu’une telle approche fait partie des méthodes des
contributions. Mnassri et al. (2012b) ont étendu cette approche afin d’assurer un diag-
nostic de défauts multiples. Pour cela, nous proposons dans ce chapitre une analyse de
diagnosticabilité montrant que la nouvelle contribution multidimensionnelle garantit un
diagnostic correct de défauts multiples de grandes amplitudes. Afin de ne pas se limiter
uniquement à ce type de défauts, l’objectif de ce chapitre représente également la propo-
sition d’une nouvelle méthode basée sur celle de RBC pour garantir une identification et
isolation de défauts détectables plus complexes. Généralement, l’isolation de ce type de
défauts s’appuie sur des seuils de validation. Pour cela, nous avons proposé une approche
dite RBC ratio (RBCr) (Mnassri et al., 2012b). Une diagnosticabilité de défauts basée
sur cette nouvelle méthode prouve une garantie d’un diagnostic correct sous la contrainte
que les amplitudes de tels défauts satisfont une condition suffisante d’isolabilité.
4.2 Isolation et isolabilité de défauts par reconstruc-

tion
En suivant une démarche semblable à celle de la détectabilité de défauts évoquée dans
la section 3.2 du troisième chapitre, nous pouvons ainsi généraliser l’étude d’isolation et
isolabilité de défauts par reconstruction d’un indice de détection quelconque ayant une
forme quadratique.
4.2.1 Généralisation de l’isolation et l’isolabilité de défauts

En s’appuyant sur l’approche de reconstruction, nous notons que les défauts simples
(unidimensionnels) représentent un cas particulier. Pour cela, nous envisageons une étude
plus généralisée en considérant des défauts multiples (multidimensionnels). Nous avons
supposé à partir de l’équation (2.59) qu’un J ème ensemble composé de r variables est
théoriquement affecté par un défaut réel noté FJ . Dans la pratique, un tel défaut est
inconnu ce qui a suscité une démarche pour son isolation.
4.2.1.1 Isolation de défauts

Afin d’identifier et isoler le défaut réel FJ qui est par hypothèse inconnu, le principe de
l’approche de reconstruction présume un défaut supposé ou assumé FI affectant un Ième
ensemble composé de r variables supposées en défaut. Ainsi, des reconstructions d’état
en se basant les indices de détection et un modèle ACP peuvent conduire à l’isolation du
défaut réel FJ . Nous rappelons que la reconstruction consiste à estimer un vecteur xI de
données reconstruites censées être insensibles au défaut assumé FI :
xI (k) = x(k) − ΞI f(k)

= x(k) − ΞI f̂I (k) (4.1)
98
4.2. Isolation et isolabilité de défauts par reconstruction
où f̂I (k) est une estimation optimale de f(k) qui représente le vecteur d’amplitudes des
composants du défaut dans les directions des variables constituant le Ième ensemble. Une
telle estimation est obtenue par une minimisation d’un indice de détection γI insensible
à un tel défaut :
f̂I (k) = arg min {γI (k)} (4.2)
f(k)
où
1
γI (k) = k M 2 xI (k)k2 (4.3)
On peut déduire que l’estimé du vecteur d’amplitudes du défaut supposé ainsi que
le vecteur de données reconstruites projeté dans le sous-espace engendré par les vecteurs
colonnes de la matrice M de γ sont respectivement donnés par :
f̂I (k) = (ΞTI M ΞI )−1 ΞTI M x(k) (4.4)
1 1 1 1
M 2 xI (k) = (Im − M 2 ΞI (ΞTI M ΞI )−1 ΞTI M 2 ) M 2 x(k) (4.5)
1
Le Ième ensemble de variables n’est reconstructible que si la matrice M ΞI est de2
plein rang colonne. Cela implique que les variables constituant un tel ensemble ne doivent
pas être colinéaires.
Dans le but d’une simplification d’écritures, une décomposition en valeurs singulières
1
de la matrice M 2 ΞI mene au résultat suivant :
1
M 2 ΞI = ΞoI DI VTI (4.6)
où ΞoI ∈ Rm×r et VI ∈ Rr×r sont deux matrices orthonormées. DI ∈ Rr×r est une matrice
1
diagonale contenant les r valeurs propres de la matrice M 2 ΞI . Ainsi, l’équation (4.5)
peut être réécrite comme suit :
1 1
M 2 xI (k) = (Im − ΞoI ΞoT
I ) M x(k)
2 (4.7)
On note que (Im − ΞoI ΞoT I ) est une matrice idempotente. Par conséquent, l’indice de
détection insensible au défaut supposé peut être exprimé comme suit :
1
γI (k) = k(Im − ΞoI ΞoT
I ) M x(k)k
2
2
1 1
= xT (k) M 2 (Im − ΞoI ΞoT
I ) M x(k)
2 (4.8)
Puisque le numéro I correspond à un ensemble composé de r variables supposées en
défaut, il représente alors un numéro combinatoire de scénarii de défauts à considérer :
m!
I = {1, · · · , } (4.9)
r!(m − r)!
où ! représente l’opérateur factoriel. Dans le cas de défauts simples, I = i = {1, · · · , m}.
En considérant le vecteur d’observation de l’équation (2.59) qui est composé du défaut
réel FJ , l’indice de détection insensible au défaut supposé FI pourra être exprimé en
fonction de celui réel comme suit :
1 1
∗
γI (k) = k(Im − ΞoI ΞoT o oT
I ) M x (k) + (Im − ΞI ΞI )ΞJ M f(k)k
2 2
2
(4.10)
A partir de cette expression, deux déductions sont envisageables :
99
i. Si la direction de reconstruction ΞI est celle du défaut réel, i.e. I = J , on peut

montrer que :
1
∗
γI=J (k) = k(Im − ΞoI=J ΞoT 2 2
I=J ) M x (k)k ≤ ΓI=J
2 (4.11)
où Γ2I=J est un seuil de contrôle défini de la même manière que celui exprimé dans
l’équation (4.13).
L’expression de l’indice γI=J implique que l’influence du défaut réel est complète-
ment annulée. Egalement, les valeurs d’un tel indice reconstruit sont inférieures au
seuil de détection Γ2 donné par l’équation (3.2).
ii. Si la direction de reconstruction ΞI est différente de celle du défaut réel ΞJ alors
l’indice reconstruit est probablement supérieur à un seuil de contrôle approprié.
Autrement dit, le principe de reconstruction assure qu’un défaut assumé FI ne peut
pas être identifié comme un candidat si :
1
γI (k) = k(Im − ΞoI ΞoT 2 2
I ) M x(k)k > ΓI
2 (4.12)
Γ2I représente une limite de contrôle pour l’indice reconstruit γI . Puisque ce dernier
est caractérisé par une forme quadratique, l’expression appropriée d’un tel seuil peut être
déterminée en s’appuyant sur les travaux de Box (1954) :
Γ2I = gγI χ2(hγ ,α) (4.13)

I
avec
1 1
tr[(Σ M 2 (Im − ΞoI ΞoT 2 2
I )M ) ]
gγI = 1 1 (4.14)
tr[Σ M 2 (Im − ΞoI ΞoT
I )M ]
2
et
1 1
(tr[Σ M 2 (Im − ΞoI ΞoT
I ) M ])
2 2
hγI = 1 1 (4.15)
tr[(Σ M 2 (Im − ΞoI ΞoT 2 2
I )M ) ]
Ainsi, tout défaut supposé ne vérifiant pas l’inégalité (4.12) est identifié avec celui
du défaut réel. Par conséquent, on peut soupçonner des variables outre celles réellement
en défaut. Selon l’indice γ avec lequel la reconstruction est réalisée, les ensembles Îγ de
variables considérées en défaut sont déterminés en obéissant à l’argument suivant :
Îγ = arg γI (k) ≤ Γ2I

(4.16)
I∈I
où I représente l’ensemble des combinaisons des directions de reconstructions possibles.

L’isolation du défaut réel consiste dans la réduction de l’ensemble Îγ en le rendant
composé uniquement de l’ensemble des variables réellement en défaut. Pour cela, plu-
sieurs facteurs entrent en vigueur tels que l’amplitude du défaut lui-même, l’ampleur de
la corrélation entre les variables ainsi que l’indice de détection considéré. Par conséquent,
l’élaboration d’un concept de performance qui représente l’isolabilité de défauts semblerait
cruciale.
100
4.2.1.2 Isolabilité de défauts

Dans le cadre de l’isolabilité, l’amplitude du défaut réel FJ doit être suffisamment
importante afin de garantir que les valeurs de γI soient supérieures à Γ2I . Cette contrainte
peut nous mener à la détermination d’une condition suffisante d’isolabilité de défauts.
Puisque le défaut réel étant FJ , on peut alors en se référant aux équations (4.7) et
(3.5) déduire ce qui suit :
1 1 1
∗
M 2 xI (k) = (Im − ΞoI ΞoT
I )(M x (k) + M ΞJ f(k))
2 2
1 1
∗
= (Im − ΞoI ΞoT 2
o oT
I ) M x (k) + (Im − ΞI ΞI ) M ΞJ f(k)
2 (4.17)
Celle-ci peut nous permettre d’écrire

1 1 1
∗
k M 2 xI (k)k ≥ k(Im − ΞoI ΞoT 2
o oT
I ) M ΞJ f(k)k − k(Im − ΞI ΞI ) M x (k)k
2 (4.18)
Puisque (Im −ΞoI ΞoT I ) est une matrice idempotente, on peut donc montrer en se basant
sur l’équation (3.7) que :
1 1
∗ ∗
k(Im − ΞoI ΞoT 2
o oT
I ) M x (k)k ≤ k(Im − ΞI ΞI )k × k M x (k)k ≤ Γ
2 (4.19)
Ainsi, la substitution de (4.19) dans (4.18) en considérant la positivité de la norme

euclidienne mène à l’inégalité suivante :
1 1
k M 2 xI (k)k ≥ k(Im − ΞoI ΞoT
I ) M ΞJ f(k)k − Γ ≥ 0
2 (4.20)
Afin que le défaut actuel FJ soit suffisamment isolable de celui assumé FI , la condition
nécessaire donnée par l’inégalité (4.12) doit être satisfaite. Par conséquent, l’inégalité
suivante doit être vérifiée :
1 1
k M 2 xI (k)k2 ≥ (k(Im − ΞoI ΞoT 2 2
I ) M ΞJ f(k)k − Γ) > ΓI
2 (4.21)
Ainsi, on déduit que l’amplitude du défaut réel doit satisfaire la condition suivante :
1
k(Im − ΞoI ΞoT
I ) M ΞJ f(k)k > Γ + ΓI
2 (4.22)
Néanmoins, le concept de l’isolabilité d’un défaut doit être établi une fois que le défaut
lui-même est garanti détectable. En considérant l’idempotence de la matrice (Im −ΞoI ΞoT I ),
on montre que :
1 1
k(Im − ΞoI ΞoT
I ) M ΞJ f(k)k ≤ k M ΞJ f(k)k
2 2 (4.23)
En se référant à l’inégalité (4.22), on peut déduire que :
1
k M 2 ΞJ f(k)k > Γ + ΓI (4.24)
D’après l’annexe E, nous montrons d’une manière générale que Γ ≥ ΓI . En s’appuyant

sur une telle relation ainsi que l’inégalité (3.10), la condition exprimée par (4.24) prouve
que le défaut FJ n’est pas garanti détectable. Cela signifie que la condition nécessaire
101
donnée par (4.12) est insuffisante pour garantir l’isolabilité d’un défaut. Pour cela, on doit
imposer l’hypothèse suivante :
γI (k) > Γ2 (4.25)
Celle-ci représente la nouvelle condition nécessaire qui doit être considérée plutôt que
celle de donnée par l’inégalité (4.12). Après reformulation du problème en considérant une
telle condition, le défaut réel FJ est garanti isolable de celui assumé FI par reconstruction
d’un indice quadratique γ quelconque si
1
k(Im − ΞoI ΞoT
I ) M ΞJ f(k)k > 2Γ
2 (4.26)
L’inégalité précédente représente la condition suffisante de l’isolabilité d’un défaut tout
en satisfaisant également sa détectabilité. Evidemment, elle représente une expression
unifiée vérifiant tout indice de détection ayant une forme quadratique (Mnassri et al.,
2012a).
En s’appuyant sur cette généralisation, nous pouvons aisément développer dans la
suite le concept d’isolation et isolabilité de défauts relatif à chacun des indices de détection
présentés dans le tableau 3.1.
Isolabilité par reconstruction de l’indice SPE En présence d’un défaut FJ détec-

table par l’indice SP E, i.e. SP E(k) > δ 2 , tout ensemble de variables I ∈ I est considéré
en défaut par reconstruction d’un tel indice si :
SP EI (k) = k(Im − Ξ̃oI Ξ̃oT 2 2 2
I )C̃x(k)k ≤ δI = gSP EI χ(hSP E ,α) (4.27)
I
où les paramètres gSP EI et hSP EI sont déterminés en utilisant respectivement les équations
1
(4.14) et (4.15) et en remplaçant les matrices M 2 et ΞoI respectivement par C̃ et Ξ̃oI .
Notamment, cette dernière est calculée en se basant sur l’équation (4.6), i.e.
T
C̃ΞI = Ξ̃oI D̃I ṼI (4.28)
Le développement des expressions correspondantes aux paramètres gSP EI et hSP EI ,
nous a permis de déduire que :
tr[Λ̃2 ] − 2 tr[P̃Λ̃2 P̃Ξ̃oI Ξ̃oT o oT 2
I ] + tr[(P̃Λ̃P̃Ξ̃I Ξ̃I ) ]
gSP EI = (4.29)
tr[Λ̃] − tr[P̃Λ̃P̃Ξ̃oI Ξ̃oT
I ]
et
(tr[Λ̃] − tr[P̃Λ̃P̃Ξ̃oI Ξ̃oT
I ])
2
hSP EI = (4.30)
tr[Λ̃2 ] − 2 tr[P̃Λ̃2 P̃Ξ̃oI Ξ̃oT o oT 2
I ] + tr[(P̃Λ̃P̃Ξ̃I Ξ̃I ) ]
Par déduction de l’inégalité (4.26), le défaut réel FJ est garanti isolable de celui
supposé FI par l’indice SP E si :
k(Im − Ξ̃oI Ξ̃oT
I )C̃ΞJ f(k)k > 2δ (4.31)
Nous rappelons qu’une telle condition d’isolabilité de défauts par reconstruction de
l’indice SP E est l’unique proposée dans la littérature par Dunia et Qin (1998b,c,a) et
Qin (2003). Dans ce cadre et grâce à l’équation (4.26), nous avons pu étendre une telle
étude au reste des indices (Mnassri et al., 2012a,b).
102
Isolabilité par reconstruction de l’indice SWE Lorsque l’indice SW E détecte la

présence du défaut FJ qui est supposé inconnu, i.e. SW E(k) > 2 , des reconstructions
successives d’un tel indice peuvent conduire à l’isolation du défaut. En revanche, il consi-
dère tout ensemble de variables I ∈ I en défaut si :
˜ o Ξ̃
SW EI (k) = k(Im − Ξ̃ ˜ oT − 12 T
P̃ x(k)k2 ≤ 2I = gSW EI χ2(hSW E
I I )P̃Λ̃ ,α) (4.32)
I
Les coefficients gSW EI et hSW EI peuvent être calculés en se référant respectivement

1
aux équations (4.14) et (4.15) et en substituant les matrices M 2 et ΞoI respectivement par
1 T ˜ o . En se basant sur l’équation (4.6), la matrice Ξ̃
P̃Λ̃− 2 P̃ et Ξ̃ ˜ o est déterminée comme
I I
suit :
1 T
P̃Λ̃− 2 P̃ ΞI = Ξ̃ ˜ ˜T
˜ o D̃
I I ṼI (4.33)
Ainsi, on peut montrer que :
gSW EI = 1 (4.34)
et
hSW EI = m − ` − r (4.35)
où r représente le nombre des variables constituant l’ensemble I.
D’après l’inégalité (4.26), l’indice SW E garantit l’isolation du défaut réel FJ de celui
supposé FI si :
k(Im − Ξ̃˜ o Ξ̃
˜ oT − 12 T
I I )P̃Λ̃ P̃ ΞJ f(k)k > 2 (4.36)
Isolabilité par reconstruction de l’indice T2 de Hotelling Un défaut réel FJ

ayant une amplitude qui satisfait la condition donnée par l’inégalité (3.16) est nécessai-
rement détecté par l’indice T 2 de Hotelling. Si à la kème observation on a T 2(k) > τ 2 ,
alors tout ensemble de variables I ∈ I est considéré responsable d’une telle situation si :
−2 1 T
T 2I (k) = k(Im − Ξ̌oI Ξ̌oT
I )P̂Λ̂ P̂ x(k)k2 ≤ τI2 = gT 2I χ2(hT 2 ,α) (4.37)
I
De la même manière qu’aux autres indices, les coefficients gT 2I et hT 2I sont calculés en

se basant sur les équations (4.14) et (4.15) respectivement et en remplaçant les matrices
1 1 T
M 2 et ΞoI respectivement par P̂Λ̂− 2 P̂ et Ξ̌oI . Cette dernière est déterminée à partir de
l’équation (4.6) comme suit :
1 T T
P̂Λ̂− 2 P̂ ΞI = Ξ̌oI ĎI V̌I (4.38)
Une simplification dans les expressions des deux coefficients permet de montrer que :
gT 2I = 1 (4.39)
et
hT 2I = ` − r (4.40)
Par définition, l’équation précédente représente le nombre de degrés de liberté relatifs
à l’indice T 2 où r variables ont été reconstruites. Un tel nombre doit être positif ou nul,
103
ce qui implique que le nombre maximal des variables qui peuvent être reconstruites simul-
tanément en utilisant la statistique T 2 de Hotelling doit respecter l’inégalité suivante :
r≤` (4.41)
D’autre part, ` représente le nombre optimal des CPs constituant le modèle ACP. Un
tel nombre est généralement très inférieur au nombre des variables du processus. Cela
peut limiter l’utilisation d’un tel indice dans la procédure d’isolation de défauts plus
particulièrement lorsque le nombre de variables qui sont simultanément en défaut est plus
grand que `.
Selon l’inégalité (4.26), l’indice T 2 de Hotelling peut garantir l’isolation du défaut réel
FJ de celui supposé FI si :
−2 1 T
k(Im − Ξ̌oI Ξ̌oT
I )P̂Λ̂ P̂ ΞJ f(k)k > 2τ (4.42)
Isolabilité par reconstruction de l’indice de Mahalanobis En se basant sur l’in-

égalité (3.39), tout défaut réel FJ ayant une amplitude qui peut satisfaire une telle inéga-
lité est garanti détectable par l’indice D de Mahalanobis. Le moment où cette distance
détecte l’existence d’un défaut, i.e. D(k) > %2 , alors tout ensemble de variables I ∈ I est
considéré en défaut lorsque :
1
−2
DI (k) = k(Im − Ξ̆oI Ξ̆oT
I )Σ x(k)k2 ≤ %2I = gDI χ2(hD ,α) (4.43)
I
En s’appuyant sur l’équation (4.6), la matrice Ξ̆oI est calculée comme suit :
1 T
Σ− 2 ΞI = Ξ̆oI D̆I V̆I (4.44)
Les paramètres gDI et hDI sont déterminés en utilisant respectivement les équations
1 1
(4.14) et (4.15) et en remplaçant les matrices M 2 et ΞoI respectivement par Σ− 2 et Ξ̆oI .
Cela nous a permis de déduire que :
gDI = 1 (4.45)
et
hDI = m − r (4.46)
Selon l’équation précédente, nous remarquons que le seul indice de détection permet-
tant une reconstruction simultanée d’un maximum de nombre des variables (r ≤ m) est
celui de Mahalanobis. Etant donné que le défaut réel est FJ , celui-ci est garanti isolable
de celui assumé FI au travers un tel indice si :
1
−2
k(Im − Ξ̆oI Ξ̆oT
I )Σ ΞJ f(k)k > 2% (4.47)
104
Isolabilité par reconstruction de l’indice combiné Outre que la reconstruction de

la distance de Mahalanobis, la reconstruction de l’indice combiné peut est être également
utilisée pour l’isolation des défauts en se basant sur l’ensemble de l’espace. Lorsque le
processus est détecté en fonctionnement anormal à la kème observation par la distance
combinée, i.e. ϕ(k) > β 2 , alors tout ensemble de variables I ∈ I vérifiant l’inégalité
suivante est identifié en défaut :
−1 −1 1 T
ϕI (k) = k(Im − Ξ̄oI Ξ̄oT
I )(δ C̃ + τ P̂Λ̂− 2 P̂ )x(k)k2 ≤ βI2 = gϕI χ2(hϕ ,α) (4.48)
I
Evidemment, la matrice orthonormée Ξ̄oI ∈ Rm×r est obtenue en vérifiant selon (4.6)
l’équation suivante :
1 T T
(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )ΞI = Ξ̄oI D̄I V̄I (4.49)
1
En substituant dans les équations (4.14) et (4.15) les matrices M 2 et ΞoI respective-
1 T
ment par (δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ ) et Ξ̄oI , on peut déterminer les expressions associées aux
paramètres gϕI et hϕI comme suit :
1 T 1 T
tr[(Σ(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )(Im − ΞoI ΞoT −1
I )(δ C̃ + τ
−1
P̂Λ̂− 2 P̂ ))2 ]
gϕI = T
(4.50)
tr[Σ(δ −2 C̃ + τ −2 P̂Λ̂−1 P̂ )(Im − ΞoI ΞoT
I )]
et
T
(tr[Σ(δ −2 C̃ + τ −2 P̂Λ̂−1 P̂ )(Im − ΞoI ΞoT
I )])
2
hϕI = 1 T 1 T
(4.51)
tr[(Σ(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )(Im − ΞoI ΞoT −1
I )(δ C̃ + τ
−1 P̂Λ̂− 2 P̂ ))2 ]
D’après la condition généralisée d’isolabilité exprimée dans l’inégalité (4.26), un défaut

réel FJ est garanti isolable de celui supposé FI par reconstruction de l’indice combiné
lorsque :
−1 −1 1 T
k(Im − Ξ̄oI Ξ̄oT
I )(δ C̃ + τ P̂Λ̂− 2 P̂ )ΞJ f(k)k > 2β (4.52)
4.2.2 Analyse d’isolabilité par reconstruction de l’indice com-

biné versus celles de SPE et T2 de Hotelling
L’avantage majeur le plus communément connu par l’utilisation de l’indice combiné
se résume dans la surveillance de processus à travers un seul indicateur en considérant le
sous-espace principal ainsi que celui résiduel. Néanmoins, nous ignorons encore d’autres
avantages que peut présenter une telle distance. Evidemment, cette dernière combine l’in-
dice SP E et celui du T 2 de Hotelling. L’intérêt d’une telle combinaison est négligemment
justifié théoriquement. Dans ce cadre, Mnassri et al. (2011b, 2012a) ont montré à travers
une analyse théorique que la reconstruction de l’indice combiné peut bénéficier d’un atout
plus avantageux dans la détection et l’isolation de défauts que les statistiques SP E et T 2.
Plus précisément, les travaux de Mnassri et al. (2011b) représentent une analyse de dé-
tectabilité de défauts par l’indice combiné versus celles des indices que combine. Puisque
l’isolabilité de défauts représente un concept plus généralisé que celui de la détectabilité,
105
nous limitons dans cette thèse à une analyse d’isolabilité par reconstruction de l’indice
combiné versus celles de SP E et T 2 de Hotelling.
A partir des inégalités (4.31), (4.42) et (4.52), on peut poser les vecteurs ũ(k), ǔ(k) et
ū(k) dont les normes conditionnent à la kème observation l’isolabilité du défaut réel FJ
de celui supposé FI par reconstruction des indices SP E, T 2 et ϕ respectivement :
ũ(k) = (Im − Ξ̃oI Ξ̃oT

I )C̃ΞJ f(k)
= (Im − Ξ̃oI Ξ̃oT
I )Ξ̃J f(k) (4.53)
−2 1 T
ǔ(k) = (Im − Ξ̌oI Ξ̌oT
I )P̂Λ̂ P̂ ΞJ f(k)
o oT
= (Im − Ξ̌I Ξ̌I )Ξ̌J f(k) (4.54)
−1 −1 1 T
ū(k) = (Im − Ξ̄oI Ξ̄oT
I )(δ C̃ + τ P̂Λ̂− 2 P̂ )ΞJ f(k)
= (Im − Ξ̄oI Ξ̄oT
I )Ξ̄J f(k) (4.55)
Dans ce cadre, Mnassri et al. (2012a) ont montré que :
ū(k) = δ −1 ũ(k) + τ −1 ǔ(k) + u(k) (4.56)
avec
u(k) = (δ −1 Ξ̃oI Ξ̃oT
I Ξ̃J + τ
−1 o oT
Ξ̌I Ξ̌I Ξ̌J − Ξ̄oI Ξ̄oT
I Ξ̄J )f(k) (4.57)
En montrant également qu’à tout instant k, les vecteurs ũ, ǔ et u sont orthogonaux
deux à deux :
ũ(k)⊥ǔ(k), ũ(k)⊥u(k) et ǔ(k)⊥u(k) (4.58)
D’après (4.58), (4.56) et (4.52), la garantie d’isolabilité du défaut réel FJ de celui
assumé FI par reconstruction de la distance combinée peut être réécrite de la manière
suivante :
kū(k)k2 = (δ −1 kũ(k)k)2 + (τ −1 kǔ(k)k)2 + ku(k)k2 > (2β)2 (4.59)
Puisque la norme euclidienne est positive ou nulle, le domaine de définition de l’inéga-
lité précédente représente la zone externe d’un quart de sphère de rayon 2β et caractérisée
par ses trois variables principales telles que δ −1 kũ(k)k, τ −1 kǔ(k)k et ku(k)k (voir figure
4.1). Ainsi, le vecteur ū(k) peut être exprimé dans une base orthonormée B d’un espace
vectoriel euclidien E3 de dimension 3 comme suit :
 −1 
δ kũ(k)k
ū(k) = τ −1 kǔ(k)k (4.60)
ku(k)k
Autrement dit, tout défaut réel FJ est garanti isolable de celui supposé FI par recons-
truction de l’indice combiné si le point correspondant ayant comme coordonnées celles du
vecteur (4.60) est situé en dehors du quart de la sphère (figure 4.1). En particulier, un
tel défaut n’est garanti isolable ni par l’indice SP E ni par la distance T 2 de Hotelling
si δ −1 kũ(k)k ≤ 2 et τ −1 kǔ(k)k ≤ 2 respectivement. Lorsqu’un tel point est situé dans la
106
4.3. Diagnostic de défauts simples par les contributions
Figure 4.1 – Sous-espace d’isolabilité de défauts par reconstruction de l’indice combiné

en fonction de ceux des indices SP E et T 2 de Hotelling
zone bleue en dessus du quart de la sphère de la figure 4.1, cela implique que le défaut
considéré est isolable uniquement par reconstruction de l’indice combiné. Par conséquent,
on peut déduire qu’il peut exister des défauts qui ne sont isolables ni par l’indice SP E ni
par celui de T 2 de Hotelling mais ils sont isolables par la distance combinée. Si β ≤ 1 et
le défaut est garanti isolable par reconstruction de l’indice SP E et/ou T 2, alors le même
défaut est également garanti isolable par reconstruction de l’indice combiné.
Bien qu’un tel indice combine les statistiques SP E et T 2 de Hotelling, on constate
théoriquement que son avantage en terme d’isolabilité de défauts par reconstruction ne
dépend pas de ceux des indices que combine. En outre, la distance combinée peut encore
être privilégiée dans ce cadre lorsque sa limite de contrôle β est faible.
4.3 Diagnostic de défauts simples par les contribu-

tions
Les approches les plus classiques et largement utilisées dans le cadre de l’ACP pour
un diagnostic de défauts se fondent sur le calcul des contributions (MacGregor et Kourti,
1995; Westerhuis et al., 2000a; Kourti, 2005; Conlin et al., 2000). Le principe de ces
méthodes consiste à calculer les contributions des différentes variables aux indicateurs
utilisés pour la détection de défauts. Ainsi, la variable ayant la plus grande contribution
est probablement en défaut. Bien entendu, les contributions sont dédiées au diagnostic de
107
Méthode Indice
SP E T2 ϕ γ
CDC Miller et al. (1998) Wise et al. (2006) Alcala et Qin (2011)
P DC Mnassri et al. (2008b, Nomikos et MacGregor Alcala et Qin (2011)

2009b) (1995)
DC Alcala et Qin (2011) Qin et al. (2001) Cherry et Qin (2006) Alcala et Qin (2011)
RBC Alcala et Qin (2009)
ABC Raich et Çinar (1996) et Yoon et MacGregor Alcala et Qin (2011)

(2001)
Table 4.1 – Différentes méthodes de contributions
défauts uniquement de type simple.

Dès leurs apparitions, les contributions n’ont pas cessé d’avoir une diversité dans leurs
expressions bien qu’elles n’aient eu ni définitions ni types uniques qui font l’unanimité.
Dans ce contexte, Alcala et Qin (2011) ont publié récemment un travail très intéressant
dans lequel ils ont distingué cinq principales familles de contributions. Les intérêts majeurs
d’un tel travail représentent le regroupement des contributions ainsi que l’appellation
des différents groupes ou familles distingués, la reformulation des expressions de telles
contributions sous une notation vectorielle simple ainsi que leur généralisation à tout
indice de détection ayant une forme quadratique.
Les différents groupes des contributions qui ont été distingués comprennent les contri-
butions par décomposition complète (complete decomposition contributions : CDC), les
contributions par décomposition partielle (partial decomposition contributions : P DC), les
contributions diagonales (diagonal contributions : DC), les contributions par reconstruc-
tion (reconstruction-based contributions : RBC) et les contributions par angle (angle-based
contributions : ABC).
Dans le but de généraliser les contributions à tout indice de détection ayant une forme
quadratique, Alcala et Qin (2011) se sont positionnés tout d’abord par rapport à ce qui
existe dans la littérature en mentionnant dans un tableau les auteurs ainsi que les indices
de détection sur lesquels se sont basées les différentes contributions existantes dans chaque
famille. Dans ce cadre, nous voudrions rectifier et compléter les informations contenues
dans un tel tableau en précisant que la contribution par décomposition partielle de l’indice
SP E et qui fait partie des contributions de type P DC a été initialement proposée et
appliquée à de différents exemples par Mnassri et al. (2008b,a). Puis, cette contribution
a été reformulée sous une autre forme par Mnassri et al. (2009b,a). Sous cette optique,
nous proposons à travers le tableau 4.1 un récapitulatif sur les différentes contributions
existantes dans la littérature, leurs auteurs ainsi que les indices de détection sur lesquels
ont été basées.
Avant d’entamer les descriptions théoriques de ces approches, nous précisons qu’elles
ont été proposées pour un diagnostic de défauts simples. Autrement dit, on doit supposer
qu’il ne peut y exister qu’une seule variable en défaut au kème instant. Notons par Fj un
défaut réel affectant la jème variable à un tel instant, ce qui permet d’écrire :
x(k) = x∗ (k) + ξj f (k) (4.61)
108
où ξj représente la jème colonne de la matrice identité indiquant la direction du défaut.

f (k) est un scalaire qui vaut l’amplitude du défaut à la kème observation.
De la même manière que pour l’approche de reconstruction, un tel défaut est réelle-
ment inconnu. Afin de le localiser en utilisant les approches des contributions, on calcule
la contribution de la ième variable tout en considérant que celle ayant la plus grande
contribution est probablement en défaut.
4.3.1 Contributions par décomposition complète : CDC

Un indice de détection donné peut être interprété comme une sommation des contribu-
tions de toutes les variables suite à une décomposition complète. Ce type des contributions
est largement utilisé dans l’industrie. Elles ont été initialement proposées par Miller et al.
(1998) en décomposant l’indice SP E ensuite par Wise et al. (2006) en décomposant la
distance T 2 de Hotelling. Récemment, Alcala et Qin (2011) ont généralisé ce type de dé-
composition à tout indice de détection ayant une forme quadratique en montrant d’après
(3.1) qu’un tel indice peut s’écrire comme suit :
m m
2 X
1 1
X
γ(k) = k M x(k)k =
2
T 2
ξi M x(k) =
2 CDCiγ (k) (4.62)
i=1 i=1
où ξi représente la ième colonne de la matrice identité. Ainsi, la contribution de type

CDC de la ième variable à l’indice γ au kème instant est la suivante :
1
2 1 1
CDCiγ (k) = ξiT M 2 x(k) = xT (k) M 2 ξi ξiT M 2 x(k) (4.63)
4.3.2 Contributions par décomposition partielle : PDC

La contribution par décomposition partielle décompose partiellement un indice de
détection. Cette notion de décomposition a été initialement proposée par Nomikos et
MacGregor (1995) pour l’indice T 2 de Hotelling.
4.3.2.1 PDC à l’indice T2 de Hotelling

En effet, la distance T 2 peut se décomposer de la façon suivante :
m `
!
TX X t (k)
T 2(k) = xT (k)P̂Λ̂−1 P̂ x(k) = a
pai xi (k) (4.64)
i=1 a=1
λ a
où ` est le nombre des CPs constituant le sous-espace principal. ta (k) représente la kème
mesure de la aème CP. λa est la aème valeur propre. pai désigne le ième élément du aème
vecteur propre. xi (k) représente la kème mesure de la ième variable.
1/2 2
(t /λ )
Posons ci a a comme étant la contribution de la ième variable dans le calcul du
carré de la aème CP normalisée :
(t /λa )2
1/2 ta (k)
ci a (k) = p x (k) (4.65)
λa ai i
109
On peut déduire que :

` `
X (t /λ )2
1/2 X ta (k)
P DCiT 2 (k) = ci a a (k) = p x (k) (4.66)
a=1 a=1
λa ai i
Puisque une telle contribution peut avoir des valeurs négatives, Nomikos et MacGregor
(1995) ont proposé d’annuler toutes les valeurs négatives données par (4.65) car leurs signes
sont opposés aux signes des carrés des CPs normalisées.
Dans ce cadre, nous avons constaté qu’il est possible de proposer selon deux façons
différentes une contribution de type P DC à l’indice SP E. Nous notons que leurs expres-
sions sans la négligence des valeurs négatives aboutissent à des résultats identiques. En
revanche, la différence se manifeste dans la manière d’éviter telles valeurs. En se basant
sur le fait que la statistique SP E peut être exprimée en fonction des résidus, la première
forme de contribution est calculée relativement à ces résidus (Mnassri et al., 2008b,a).
Également, on peut exprimer la même statistique en fonction des CPs résiduelles. Par
conséquent, la deuxième forme de cette contribution est déterminée en s’appuyant sur ces
CPs (Mnassri et al., 2009b,a).
4.3.2.2 PDC à l’indice SPE basée sur les résidus

En partant du principe que :
m
X m
X
SP E(k) = kC̃x(k)k = 2
x̃2i (k) = (xi (k) − x̂i (k))2 (4.67)
i=1 i=1
on remarque qu’une variable donnée contribue dans le calcul de son propre résidu ainsi
qu’aux résidus des autres (m − 1) variables. Ainsi, on peut montrer que la ième variable
contribue dans le carré de son propre résidu par :
x̃2
Ci i (k) = xi (k)x̃i (k)(1 − ĉii ) = xi (k)x̃i (k)c̃ii (4.68)
D’autre part, la même variable contribue dans le calcul du carré du résidu d’une autre
variable n 6= i par :
x̃2
ci n (k) = −xi (k)x̃n (k)ĉni = xi (k)x̃n (k)c̃ni (4.69)
D’après l’expression précédente, nous remarquons que :
x̃2 x̃2
Ci i (k) = ci n=i (k) (4.70)
Par conséquent, la ième variable contribue par décomposition partielle de l’indice SP E
en se basant sur les résidus par la quantité suivante :
m m m
x̃2 x̃2 x̃2
X X X
P DCiSP E (k) = Ci i (k) + ci n (k) = ci n (k) = xi (k)x̃n (k)c̃ni (4.71)
n=1 n=1 n=1
n6=i
où c̃ni représente le nème élément de la ième colonne de la matrice C̃. x̃n (k) est la nème
mesure du vecteur résiduel x̃(k).
Notamment, une telle contribution peut avoir des valeurs négatives. Pour cela, Mnassri
x̃2
et al. (2008b,a) ont décidé d’annuler toute valeur négative donnée par ci n (k) (4.69) afin
qu’elle ne soit pas opposée au signe du carré du résidu correspondant.
110
4.3.2.3 PDC à l’indice SPE basée sur les CPs résiduelles

En utilisant le même principe que celui utilisé par Nomikos et MacGregor (1995) pour
le calcul d’une contribution à l’indice T 2 de Hotelling, on note que la statistique SP E peut
être exprimée en fonction des CPs résiduelles. Ainsi, elle peut être décomposée comme
suit : !
Xm Xm
SP E(k) = kt̃(k)k2 = ta (k)pai xi (k) (4.72)
i=1 a=`+1
Dans ce cadre, Mnassri et al. (2009b,a) ont montré que la contribution de la ième
variable dans le calcul du carré de la aème CP résiduelle est donnée par :
t2
cia (k) = ta (k)pai xi (k) (4.73)
Par conséquent, la contribution de la ième variable par décomposition partielle de

l’indice SP E en se basant sur les CPs résiduelles est exprimée comme suit :
m m
t2
X X
P DCiSP E (k) = cia (k) = ta (k)pai xi (k) (4.74)
a=`+1 a=`+1
Afin qu’une telle contribution soit positive ou nulle, Mnassri et al. (2009b,a) ont pro-
posé d’annuler toute valeur négative donnée par l’expression (4.73) car elle est opposée
au signe du carré de la CP correspondante.
4.3.2.4 PDC à un indice quadratique

D’après l’équation (4.66), Alcala et Qin (2011) ont montré que la contribution à l’indice
T 2 de Hotelling peut s’écrire sous une forme vectorielle comme suit :
T
P DCiT 2 (k) = xT (k)P̂Λ̂−1 P̂ ξi ξiT x(k) (4.75)
On remarque qu’avec une telle écriture on ne peut pas appliquer le principe d’annula-
tion des contributions négatives par rapport à une CP normalisée.
Pour les deux formes de contributions proposées par décomposition partielle de l’indice
SP E en s’appuyant sur les résidus (4.71) ou sur les CPs résiduelles (4.74), nous avons
montré d’après l’annexe F qu’elles sont identiques. Toutefois, la différence dans leurs
résultats apparaı̂tra quand on annule les contributions négatives d’une variable donnée
relativement à un résidu ou à une CP résiduelle selon le principe de la technique utilisée.
Sans considération de ces annulations, nous avons montré que :
P DCiSP E (k) = xT (k)C̃ξi ξiT x(k) (4.76)
D’après les équations (4.75) et (4.76), on peut déduire que tout indice de détection γ
ayant une forme quadratique peut se décomposer partiellement comme suit :
m
X
γ(k) = xT (k) M ξi ξiT x(k) (4.77)
i=1
111
Ainsi, Alcala et Qin (2011) ont eu l’idée de déduire que la ième variable contribue par
décomposition partielle d’un indice quelconque ayant une forme quadratique par :
P DCiγ (k) = xT (k) M ξi ξiT x(k) (4.78)
On note que ce type des contributions peut donner des valeurs négatives.
4.3.3 Contributions diagonales : DC

La contribution diagonale par bloc a été initialement proposée par Qin et al. (2001)
en décomposant l’indice T 2 de Hotelling afin d’assurer une surveillance de processus par
multi-blocs. Evidemment, les blocs sont indépendants les uns des autres. Dans ce cadre,
Cherry et Qin (2006) ont étendu cette idée en utilisant la distance combinée.
Dans le cas particulier où chaque bloc est constitué d’une seule variable, l’indice T 2
de Hotelling correspondant est considéré comme une contribution diagonale qui peut être
définie de la manière suivante :
T
DCiT 2 (k) = xT (k)ξi ξiT P̂Λ̂−1 P̂ ξi ξiT x(k) (4.79)
Une telle contribution a été utilisée pour la surveillance d’un bloc donné qui est supposé
indépendant des autres blocs. Par conséquent, les contributions diagonales se réduisent
à une surveillance univariée. Dans le cas où un processus n’est pas décomposable en des
blocs, ces contributions ne sont pas recommandées pour une détection de défaut car elles
ignorent les corrélations entre les variables. Cependant, elles peuvent être utilisées comme
des techniques d’analyse des contributions pour un diagnostic de défauts.
D’après Alcala et Qin (2011), la contribution diagonale de la ième variable à un indice
γ ayant une forme quadratique peut se présenter comme suit :
DCiγ (k) = xT (k)ξi ξiT M ξi ξiT x(k) (4.80)
4.3.4 Contributions par reconstruction : RBC

Parmi les méthodes dédiées au diagnostic de défauts, Alcala et Qin (2009) ont récem-
ment proposé une approche de contributions par reconstruction. Elle est basée sur une
utilisation simultanée du principe de la contribution et celui de la reconstruction. Une
telle méthode est exceptionnellement proposée pour diagnostiquer les défauts simples.
Le principe de la contribution par reconstruction considère la quantité reconstruite
d’un indice de détection le long d’une direction d’une variable donnée comme étant la
contribution d’une telle variable. Dans le cas particulier où le défaut supposé FI est de
type simple ou unidimensionnel, i.e. I = i et ΞI = ξi , l’équation (4.8) correspond à l’indice
insensible à un tel défaut se réécrit de la façon suivante :
1 1
γi (k) = xT (k) M 2 (Im − ξio ξioT ) M 2 x(k)
1 1
= γ(k) − xT (k) M 2 ξio ξioT M 2 x(k)
1
= γ(k) − k M 2 ξ fˆ (k)k2
i i (4.81)
112
où fi est une estimation optimale de l’amplitude du défaut dans la direction de la ième
variable par reconstruction de l’indice γ. Le vecteur ξio est déterminé en utilisant le principe
de l’équation (4.6).
Selon Alcala et Qin (2009), la contribution de la ième variable par reconstruction de
l’indice γ représente le carré de la norme de l’amplitude estimée du défaut comme suit :
1
RBCiγ (k) = k M 2 ξi fî (k)k2
= xT (k) M ξi (ξiT M ξi )−1 ξiT M x(k)
xT (k) M ξi ξiT M x(k)
= (4.82)
ξiT M ξi
4.3.5 Contributions par angle : ABC

Dans le but d’extraire plus d’informations utiles sur les défauts, Raich et Çinar (1996)
et Yoon et MacGregor (2001) ont suggéré une contribution basée sur le calcul d’un angle
permettant ainsi un diagnostic plus facile. La contribution de la ième variable est liée à
l’angle entre le vecteur d’observation x(k) et le vecteur ξi qui représente la direction d’une
telle variable après qu’ils ont été projetés dans le sous-espace engendré par les vecteurs
1
colonnes de la matrice M 2 de l’indice de détection. Cette contribution n’est autre que le
carré du cosinus d’un tel angle comme suit :
 T 2
1 1
M
M 2 ξi 2 x(k)
xT (k) M ξi ξiT M x(k)
γ
ABCi (k) =   = T
 
1 1
k M 2 ξi k k M 2 x(k)k ξi M ξi xT (k) M x(k)
RBCiγ (k)
= (4.83)
γ(k)
On note que la contribution par reconstruction et celle par angle ne diffèrent que par
une constante prés qui est l’indice γ. Ce dernier est indépendant de la ième variable.
Par conséquent, les résultats d’un diagnostic de défauts basé sur ces deux approches
sont identiques. Dans le reste du chapitre, seule la contribution par reconstruction sera
considérée.
4.3.6 Analyse de diagnosticabilité

Afin d’analyser la diagnosticabilité de défauts en utilisant les méthodes des contribu-
tions, on peut considérer un type de défauts le plus simple et qui peut arriver souvent dans
un processus. Dans ce cas, l’utilisation de l’une de ces méthodes des contributions pour
un diagnostic de défauts de ce type doit nécessairement pointer vers la variable réellement
en défaut. Si la méthode désignée n’est pas en mesure d’accomplir cette tâche, alors il n’y
a aucune garantie qu’elle peut diagnostiquer correctement des défauts complexes.
En effet, les défauts les plus simples représentent souvent des biais. Puisque le défaut
réel affecte la jème variable (4.61), on peut supposer que son amplitude est très grande
113
par rapport aux mesures obtenues lors du fonctionnement normal. Ainsi, le vecteur d’ob-
servation en défaut se réécrit comme suit :
x(k) ≈ ξj f (k) (4.84)
4.3.6.1 Diagnosticabilité de défauts par l’approche CDC

La substitution de l’équation (4.84) dans celle de (4.63) mène aux résultats suivants :
( 1
(ξiT M 2 ξj )2 f 2 (k) pour i 6= j
CDCiγ (k) = 1 (4.85)
(ξjT M 2 ξj )2 f 2 (k) pour i = j
Ainsi, le diagnostic d’un tel défaut est garanti correct par l’utilisation de l’approche
CDC si :
1 1
(ξjT M 2 ξj )2 ≥ (ξiT M 2 ξj )2 (4.86)
Malheureusement, une telle inégalité n’est pas toujours vérifiée. Par conséquent, la
méthode CDC ne peut pas garantir un diagnostic correct de défauts.
4.3.6.2 Diagnosticabilité de défauts par l’approche PDC

En remplaçant l’équation (4.84) dans celle de (4.78), on peut montrer ce qui suit :
ξjT M ξi ξiT ξj f 2 (k) = 0 pour i 6= j

P DCiγ (k) = (4.87)
ξjT M ξj f 2 (k) ≥ 0 pour i = j
où ξjT M ξi ξiT ξj f 2 (k) = 0 car ξiT ξj = 0 ∀ i 6= j.

D’après les résultats de l’équation précédente, on remarque que les variables qui ne
sont pas réellement en défaut ne contribuent pas. Ainsi, seule la variable en défaut qui
contribue. Puisque ξjT M ξj ≥ 0, nous constatons également qu’une telle variable contribue
positivement. Par conséquent, l’approche P DC garantit un diagnostic correct de défauts
simples de grandes amplitudes.
4.3.6.3 Diagnosticabilité de défauts par l’approche DC

En s’appuyant sur le même principe utilisé avec les autres approches, la substitution
de l’expression de l’équation (4.84) dans celle de (4.80) nous permet de montrer que :
ξjT ξi ξiT M ξi ξiT ξj f 2 (k) = 0 pour i 6= j

DCiγ (k) = (4.88)
ξjT M ξj f 2 (k) ≥ 0 pour i = j
D’après cette équation, on constate que seule la variable réellement en défaut qui
contribue. Cela implique qu’une telle approche garantit un diagnostic correct de défauts
simples de grandes amplitudes.
114
4.4. Nouvelles approches pour un diagnostic de défauts multiples
4.3.6.4 Diagnosticabilité de défauts par l’approche RBC
La considération de l’équation (4.82) en tenant en compte de l’expression donnée par

l’équation (4.84) nous permet de déduire que :
 T 2
 (ξj M ξi ) 2
γ f (k) pour i 6= j
RBCi (k) = ξiT M ξi (4.89)
 T
ξj M ξj f 2 (k) pour i = j
Evidemment, un diagnostic de défauts par l’approche RBC est garanti correct si

γ
RBCi=j (k) ≥ RBCi6γ=j (k). Pour cela, on peut montrer que :
1 1
!2
(ξjT M ξi )2 (M 2 ξj )T (M 2 ξi )
= 1
ξiT M ξi k M 2 ξi k
1 1
!2
k M 2 ξj k k M 2 ξi k
≤ 1 = ξjT M ξj (4.90)
k M ξi k
2
Cette inégalité implique que les défauts simples d’importantes amplitudes sont garantis
correctement diagnosticables en utilisant la méthode RBC.
Pour un tel type de défauts, et selon les équations (4.87), (4.88) et (4.89), les contri-
butions qui correspondent à la variable réellement en défaut sont identiques en utilisant
les approches P DC, RBC et DC. En outre, les variables qui ne sont pas en défaut ne
contribuent pas en se basant plus particulièrement sur les deux méthodes P DC et DC.
Une telle propriété présente un avantage car la variable en défaut peut se distinguer plus
facilement des autres variables en utilisant ces deux approches plutôt que la RBC.
4.4 Nouvelles approches pour un diagnostic de dé-

fauts multiples
En analysant toutes les formes des contributions présentées dans ce chapitre, nous
constatons qu’elles ont été toutes exceptant celle de RBC déterminées par décomposi-
tion d’un indice de détection. Ainsi et pour chaque type de contribution, la somme des
contributions individuelles de toutes les variables doit reconstituer l’indice décomposé.
Néanmoins, les défauts peuvent être de type multiple. Par conséquent, l’utilisation de
ces approches des contributions pour un diagnostic de défauts multiples mène certaine-
ment à des résultats erronés. Ainsi, la solution envisageable est d’étendre ces contributions
aux cas multidimensionnels. Cependant, une décomposition multidimensionnelle d’un in-
dice de détection et qui doit également reconstituer la valeur d’un tel indice n’est pas
faisable. Puisque l’approche RBC n’est pas fondée sur le principe de décomposition, nous
nous sommes rendus compte qu’il est possible de l’étendre pour un diagnostic de défauts
multiples.
115
4.4.1 Contributions par reconstruction multidimensionnelle

Avant de commencer la présentation de la nouvelle approche multidimensionnelle, il
semblerait utile de montrer théoriquement l’invalidité d’un diagnostic basé sur la RBC
classique lors de la présence d’un défaut multiple. Pour cela, nous considérons le cas le plus
simple de défauts multidimensionnels en supposant que leurs amplitudes sont largement
supérieures aux mesures collectées lors du fonctionnement normal. L’équation (2.59) peut
être approximée par :
x(k) ≈ ΞJ f(k) (4.91)
Sans perte de généralité, nous supposons également que seules deux variables sont
réellement en défaut. Dans ce cadre, l’équation précédente peut se réécrire comme suit :

fj (k)
x(k) ≈ ΞJ f(k) = ξj1 ξj2 1
= ξj1 fj1 (k) + ξj2 fj2 (k) (4.92)
fj2 (k)
où les vecteurs ξj1 et ξj2 représentent respectivement les j1 ème et j2 ème colonnes de la ma-
trice identité. Les scalaires fj1 (k) et fj2 (k) correspondent aux amplitudes des composants
du défaut réel dans les directions de la j1 ème et la j2 ème variable respectivement.
La substitution de l’équation (4.92) dans celle de (4.82) nous permet de déduire que :
(ξjT1 M ξi )2 ξjT1 M ξi ξjT2 M ξi (ξjT2 M ξi )2

RBCi6γ={j } (k) = fj21 (k) + 2 fj1 (k)fj2 (k) + fj22 (k)
1 ,j2 ξiT M ξi ξiT M ξi ξiT M ξi
(4.93)
γ
(ξjT1 M ξj2 )2
RBCi=j (k) = ξjT1 M ξj1 fj21 (k) + 2ξjT1 M ξj2 fj1 (k)fj2 (k) + fj22 (k) (4.94)
1 ξjT1 M ξj1
γ
(ξjT1 M ξj2 )2
RBCi=j (k) = ξjT2 M ξj2 fj22 (k) + 2ξjT1 M ξj2 fj1 (k)fj2 (k) + fj21 (k) (4.95)
2 ξjT2 M ξj2
Les équations (4.93), (4.94) et (4.95) représentent les contributions par reconstructions
unidimensionnelles respectivement de la ième variable qui n’est pas en défaut, de la j1 ème
et la j2 ème variable réellement toutes les deux en défaut. Malgré que le défaut est carac-
térisé par une grande amplitude, l’analyse de la relation entre ces équations montre que
les contributions des variables en défaut ne peuvent pas être garanties supérieures à celles
des variables saines. Par conséquent, la contribution par reconstruction unidimensionnelle
ne garantit pas un diagnostic correct de défauts multiples.
Puisque le défaut réel FJ est inconnu, on adopte le même principe que dans la
deuxième section de ce chapitre en supposant un défaut assumé FI affectant un Ième
ensemble de variables. D’après l’équation (4.8), l’indice insensible à un tel défaut peut
être exprimé comme suit :
1 1
γI (k) = xT (k) M x(k) − xT (k) M 2 ΞoI ΞoT
I M x(k)
2
1 1
= γ(k) − xT (k) M 2 ΞoI ΞoT
I M x(k)
2 (4.96)
116
4.4. Nouvelles approches pour un diagnostic de défauts multiples
Par déduction, Mnassri et al. (2012b) ont proposé que la contribution du Ième en-
semble de variables par reconstruction multidimensionnelle de l’indice γ est la suivante :
1 1
RBCIγ (k) = k M 2 ΞI f̂I (k)k2 = kΞoI ΞoT
I M x(k)k
2
2
1 1
= xT (k) M 2 ΞoI ΞoT
I M x(k)
2 (4.97)
Afin d’établir une analyse de diagnosticabilité de défauts multiples de grandes ampli-

tudes en utilisant cette approche, la considération du défaut réel exprimé par l’équation
(4.91) nous a permis de montrer que :
( 1
γ kΞoI ΞoTI M ΞJ f(k)k
2 2
pour I =6 J
RBCI (k) = 1
2
(4.98)
k M 2 ΞJ f(k)k pour I = J
1 1
Puisque kΞoI ΞoT
I M ΞJ f(k)k ≤ k M ΞJ f(k)k, alors :
2 2
RBCJγ (k) ≥ RBCIγ (k) (4.99)
Cette inégalité implique que l’approche proposée garantit un diagnostic correct de

défauts multiples ayant de grandes amplitudes.
4.4.2 RBC ratio

D’après les analyses de diagnosticabilté, les approches des contributions peuvent ga-
rantir un diagnostic correct que dans le cas de défauts de grandes amplitudes. En revanche,
les défauts sont en réalité plus complexes. Autrement dit, ils peuvent avoir des faibles am-
plitudes comme ils peuvent être difficilement isolables les uns des autres (colinéarités entre
les variables). Pour cela, la comparaison d’un indicateur qui a pour objectif un diagnos-
tic de défauts par rapport à un seuil de décision ou de contrôle semblerait une solution
avantageuse.
Dans ce cadre, Alcala et Qin (2009) ont proposé une limite de contrôle pour la RBC
unidimensionnelle en se basant sur le fait qu’une telle approche dispose d’une forme qua-
dratique. Cependant, ils ont mentionné que ce seuil ne peut malheureusement pas être
utilisé pour l’identification de la variable en défaut à cause de l’effet de propagation de
celui-ci dans le calcul des contributions des autres variables. Ils ont montré comment le
défaut se propage dans les contributions sans pour autant montrer ses conséquences pour
une utilisation de la limite de contrôle.
Pour cette raison, nous avons établi théoriquement dans l’annexe G une condition
sur l’amplitude du défaut réel FJ permettant de garantir le dépassement de la RBC
d’un Ième ensemble de variables son correspondant seuil de contrôle. Une telle condition
prouve qu’à partir d’une amplitude donnée, il est possible d’identifier tous les ensembles
de variables comme étant en défaut si on choisit un diagnostic par l’approche RBC com-
parée à ses limites de contrôle. Par conséquent, l’utilisation d’une telle approche afin
de diagnostiquer les défauts demeure valide uniquement par évaluation de l’ampleur des
contributions des ensembles de variables.
117
Afin de remédier aux problèmes de diagnostic liés aux défauts complexes, nous avons
proposé une nouvelle approche de diagnostic plus performante en s’appuyant sur la RBC
multidimensionnelle comme suit :
γ(k)
RBCrIγ (k) = (4.100)
RBCIγ (k) + Γ2I
avec Γ2I représente le seuil de contrôle (4.13) de l’indice insensible au défaut supposé FI .
Nous avons appelé cette méthode par RBC ratio (Mnassri et al., 2012b) car elle dispose
de l’indice γ au numérateur comme un facteur commun pour les RBC ratio de tous les
ensembles de variables. Cependant, les termes de son dénominateur dont principalement
la RBC dépendent de l’ensemble de variables étudiées.
La théorie d’une diagnosticabilité de défauts en se basant sur cette méthode se dérou-
lera en deux étapes. Pour cet objectif, il est possible d’exprimer la RBCr en fonction des
indices γ et γI comme suit :
γ(k) γ(k)
RBCrIγ (k) = γ 2
= (4.101)
γ(k) − γ(k) + RBCI (k) + ΓI γ(k) − (γI (k) − Γ2I )
• 1er cas : I = J
A partir de l’inégalité (4.11), nous pouvons montrer que :
γ(k) − (γI=J (k) − Γ2I=J ) ≥ γ(k) (4.102)
Puisque γ(k) ≥ 0, l’inégalité suivante est vraie
γ(k) γ(k)
2
≤ =1 (4.103)
γ(k) − (γI=J (k) − ΓI=J ) γ(k)
ainsi
γ
RBCrI=J (k) ≤ 1 (4.104)
• 2ème cas : I =6 J
L’inégalité (4.25) présente la condition nécessaire afin que le défaut réel FJ soit
garanti isolable de celui assumé FI . Par conséquent, on peut montrer que :
0 ≤ Γ2 − Γ2I < γI (k) − Γ2I ≤ γ(k) (4.105)
Celle-ci nous permet de déduire que :
0 ≤ γ(k) − (γI (k) − Γ2I ) < γ(k) − (Γ2 − Γ2I ) ≤ γ(k) (4.106)
Puisque γ(k) ≥ 0, alors
γ(k) γ(k) γ(k)

2
> 2 2
≥ =1 (4.107)
γ(k) − (γI (k) − ΓI ) γ(k) − (Γ − ΓI ) γ(k)
ce qui implique que
RBCrI6γ =J > 1 (4.108)
118
4.5. Exemple de synthèse
Il est clair que la limite de contrôle de l’approche proposée est égale à l’unité. La
diagnosticabilité de défauts par une telle méthode montre que les valeurs de la RBCr des
variables réellement en défaut sont garanties inférieures à un tel seuil. Autrement dit, le
défaut réel FJ est garanti identifiable. En outre, elle garantit de rejeter la possibilité qu’un
défaut assumé soit identifié comme un candidat si la condition nécessaire d’isolabilité
de défauts de l’inégalité (4.25) est satisfaite. Nous rappelons qu’une telle condition est
équivalente à celle déduite dans l’inégalité (4.26). Par conséquent, les défauts complexes
et qui sont détectables sont garantis identifiables par l’approche RBCr. Ainsi, ils sont
garantis isolables si leurs amplitudes vérifient l’inégalité (4.26). Entre autre, tout ensemble
de variables I ∈ ÎRBCr est considéré en défaut par l’approche RBCr avec ÎRBCr vérifie
l’argument suivante :
ÎRBCr = arg {RBCrIγ (k) ≤ 1} (4.109)
I∈I
où I représente l’ensemble de toutes les combinaisons des directions de reconstructions

possibles.
4.5 Exemple de synthèse

Afin d’illustrer l’étude théorique de ce chapitre, nous avons considéré la simulation
d’un exemple de processus dont les variables sont décrites par leurs équations suivantes :
x̊1 (k) = 1 + u(k)2 + sin( k3 ) avec u(k) ∼ N (0, (0.02)2 )

x̊2 (k) = 2 sin( k6 ) cos( k4 ) exp(− Nk )
x̊3 (k) = log(x̊2 (k)2 )
x̊4 (k) = x̊1 (k) + x̊2 (k)
(4.110)
x̊5 (k) = x̊1 (k) − x̊2 (k)
x̊6 (k) = 2x̊1 (k) + x̊2 (k)
x̊7 (k) = x̊1 (k) + x̊3 (k)
x̊8 (k) ∼ N (0, 1)
On note que u et x̊8 représentent deux variables aléatoires normales centrées et d’écarts
types de 0, 02 et 1 respectivement. Un bruit blanc v constitué de 8 variables aléatoires
indépendantes et identiquement distribuées de moyennes nulles et d’écarts types iden-
tiques de 0, 7 a été superposé aux variables de l’équation (4.110). Ainsi, le kème vecteur
d’observation à 8 composantes est généré de la façon suivante :
x(k) = x̊(k) + v(k) (4.111)
où T
x̊(k) = x̊1 (k), . . . , x̊8 (k) (4.112)
et
v(k) ∼ N (08 , (0.7)2 I8 ) (4.113)
I8 représente une matrice identité d’ordre 8.
Une matrice de données X a été constituée de N = 3000 observations dont les 1500
premières qui représentent un fonctionnement normal du processus ont été réservées pour
119
3 3
10 10
2 2
10 10
&$ '

1 1
10 10
1 2 3 4
5 6 7 8 1 2 3 !4"#$ 5 % 6 7 8
Figure 4.2 – Sélection du nombre optimal des CPs
la construction d’un modèle ACP. Notamment, les données d’une telle matrice sont cen-
trées et réduites en utilisant les moyennes et les écarts types des données réservées au
modèle. Selon la figure 4.2, un tel modèle doit être constitué de 4 CPs. Le minimum du
critère VNR correspond à 3 CPs, ce qui implique l’existence de 3 importantes sources de
corrélation. Ainsi, le critère VNRVI indique l’existence d’une variable indépendante. En
effet, son minimum a été atteint pour κop = 4 CPs dans les données transformées de Y,
ce qui signifie selon le principe d’un tel critère que le nombre optimal des CPs dans les
données de X est q = 8 − κop = 4 CPs.
Dans le but d’illustrer un diagnostic de défauts en utilisant les différentes méthodes
décrites dans ce chapitre, trois défauts sont introduits aux données de la matrice X. Le
premier noté F{3} représente un défaut simple ayant une forme d’une dérive affectant la
troisième variable (x3 ) entre les instants 1550 et 1800 :
F{3} = ξ3 fx3 (k) (4.114)
Le vecteur ξ3 représente la troisième colonne de la matrice identité. Ainsi, le scalaire

fx3 (k) désigne l’amplitude d’un tel défaut à la kème observation :
fx3 (k) = 0.1(k − 1550) pour 1550 ≤ k ≤ 1800 (4.115)
Le deuxième et le troisième défaut notés respectivement F{1,7} et F{6,8} sont de type

multiple ayant également des formes de dérives. F{1,7} a été ajouté entre les observations
2000 à 2400 simultanément pour la première et la septième variable :

fx (k)
F{1,7} = Ξ{1,7} f(k) = ξ1 ξ7 1
(4.116)
fx7 (k)
où Ξ{1,7} est une matrice orthonormée composée de la première (ξ1 ) et la septième (ξ7 )
colonne de la matrice identité. f(k) est un vecteur constitué de fx1 (k) et fx7 (k) qui repré-
sentent les amplitudes au kème instant des composants du défaut dans les directions des
variables correspondantes, avec :
fx1 (k) = 0.3(k − 2000) pour 2000 ≤ k ≤ 2400

(4.117)
fx7 (k) = 0.02(2k − 2000) pour 2000 ≤ k ≤ 2400
120
5
0
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000
5
0
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000
5
0
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000
5
0
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000
5 2 3
0
1000 1200 1400 1600 18002000
!#"%$'&)(+*-,/.)01#%2200
$ 2400 2600 2800 3000
Figure 4.3 – Détection des défauts avec les différents indices
Le troisième défaut F{6,8} est introduit simultanément dans la sixième et la huitième

variable entre les instants 2600 et 2900 :

fx (k)
F{6,8} = Ξ{6,8} f(k) = ξ6 ξ8 6
(4.118)
fx8 (k)
Les amplitudes des composants d’un tel défaut dans les directions des variables cor-
respondantes sont identiques :
fx6 (k) = fx8 (k) = k − 2600 pour 2600 ≤ k ≤ 2900 (4.119)
Pour une interprétation plus facile des résultats, nous suggérons que tout indicateur
ayant pour objectifs la détection ou l’isolation d’un défaut suite à une comparaison par
rapport à un seuil soit pondéré par la valeur d’un tel seuil afin que la comparaison s’effectue
par rapport à l’unité. Pour les méthodes des contributions, l’affichage de leurs courbes
pour toutes les variables est très encombrant rendant ainsi la distinction d’une courbe
parmi d’autres très difficile voire impossible dans la même figure. Puisque nous avons
une connaissance a priori sur les défauts, nous proposons d’afficher dans les figures les
différences entre la contribution de la variable réellement en défaut et celles des autres
variables :
Contγj (k) − Contγi (k) (4.120)
121
où Contγj représente une contribution donnée. Dans le cas des défauts simples, j représente
le numéro de la variable réellement en défaut. En revanche et pour le cas des défauts mul-
tiples, l’index j devient J afin d’exprimer l’ensemble des variables réellement en défaut.
Si l’équation (4.120) aboutit à des valeurs négatives, cela implique que la contribution de
la (l’ensemble des) variable(s) réellement en défaut n’est pas la plus grande.
A partir de la figure 4.3, on constate que les défauts F{1,7} et F{6,8} ont été remar-
quablement détectés dès leurs apparitions par tous les indices de détection. Cependant,
celui du F{3} qui représente un défaut simple a été détecté avec des retards. Sa détec-
tion a commencé à partir des instants 1634, 1593, 1645 et 1593 respectivement par les
indicateurs SP E, SW E, ϕ et D. L’amplitude de ce défaut n’a pas permis celui-ci d’être
détectable en très grande partie plus particulièrement par l’indice T 2 de Hotelling.
4.5.1 Diagnostic d’un défaut simple

En interprétant les résultats obtenus par les approches dont l’objectif étant l’isolation
des défauts en se basant sur une comparaison de leurs valeurs par rapport à des seuils de
contrôle comme la reconstruction des indices de détection et la RBCr, le défaut simple
F{3} est non isolable en utilisant les statistiques SP E, SW E et T 2 (figures 4.4, 4.5 et 4.6
respectivement). D’après ces deux approches exprimées avec de tels indices de détection,
la septième variable est également considérée en défaut. Cela s’explique par une forte
colinéarité dans les sous-espaces engendrés par les vecteurs colonnes des matrices de tels
indices entre la variable x7 et celle réellement en défaut (x3 ). En se basant sur l’indice
combiné et celui de Mahalanobis (figures 4.7 et 4.8 respectivement), le défaut F{3} de-
vient isolable dans une grande partie d’observations. Une telle situation illustre clairement
l’analyse théorique d’isolabilité de défauts réalisée dans la sous-section 4.2.2 en montrant
que la reconstruction de la distance combinée peut jouer un rôle plus avantageux dans
l’isolation de défauts que des reconstructions séparées des indices que combine.
En se référant aux figures 4.4, 4.5 et 4.6, un diagnostic du défaut F{3} mené par
l’approche CDC en utilisant les indices SP E, SW E et T 2 n’est pas en mesure d’être
correct. Selon les courbes qui représentent les différences des contributions en respectant
l’équation (4.120), on remarque l’existence des valeurs négatives durant les observations
défectueuses. Cela implique que la contribution de la variable réellement en défaut par
décomposition complète de tels indices ne présente pas des valeurs plus supérieures que les
contributions des autres variables. Néanmoins, l’utilisation de cette approche en se basant
sur des décompositions de l’indice combiné ainsi que la distance de Mahalanobis a permis
une identification correcte de la variable en défaut à partir de la 1643ième observation
(figures 4.7 et 4.8 respectivement). Dans le cadre de ce défaut simple, l’interprétation des
résultats d’un diagnostic utilisant la méthode de contribution par reconstruction unidi-
mensionnelle RBC est la même que celle de CDC.
D’autre part, les contributions par décomposition partielle P DC et diagonale DC de
tous les indices de détection sans exception ont abouti à un diagnostic correct en identifiant
la variable réellement en défaut à partir de la 1643ème observation (figures 4.4 jusqu’à
4.8). Selon les analyses théoriques de diagnosticabilité, cela signifie que l’amplitude de ce
défaut a été considérée importante dès cette observation.
D’après les figures correspondantes, on déduit qu’un diagnostic basé sur une évaluation
122
Défaut Indice
SP E SW E T2 ϕ D
F{1,7} {1, 7} et {1, 3} {1, 7}, {1, 3} et {3, 7} {1, 7} {1, 7}
F{6,8} {1, 6}, {2, 6}, {3, 6}, {4, 6}, {6, 8} {6, 8} {6, 8}
{5, 6}, {6, 7} et {6, 8}
Table 4.2 – Ensembles des variables identifiés responsables des défauts multiples corres-
pondants par l’approche de reconstruction et la RBCr relativement aux indices
de l’ampleur des contributions peut conduire à des résultats erronés. Cela s’est justifiée
plus particulièrement par les contributions P DC et DC en utilisant les indices SP E,
SW E et D et les contributions CDC et RBC basées sur l’indice D. Ces indices de détec-
tion ont détecté l’existence du défaut F{3} plus tôt avant que celui-ci ne soit correctement
identifié par de telles contributions. Cependant, la méthode de reconstruction des indices
et celle de la RBCr garantissent une identification correcte de la variable en question
dès l’apparition du défaut. Tout dépend de la nature et de l’amplitude d’un tel défaut,
celui-ci peut ne pas être isolable. En effet, ces deux méthodes peuvent identifier également
d’autres variables en défaut.
4.5.2 Diagnostic de défauts multiples

En considérant les défauts multiples, les approches des contributions telles que CDC,
P DC et DC ne sont plus valables. En effet, seules la RBC multidimensionnelle, la re-
construction des indices et la RBCr peuvent être considérées.
Nous rappelons que le deuxième défaut F{1,7} a été introduit entre les instants 2000
et 2400 simultanément dans les directions des variables x1 et x7 . En investiguant les
figures 4.9, 4.10 et 4.11, l’approche de reconstruction ainsi que la RBCr ont correctement
identifié le défaut F{1,7} en utilisant les indices SP E, SW E et T 2 de Hotelling. Néanmoins,
un tel défaut est non isolable car l’ensemble des variables {1, 3} est également identifié
en défaut par ces deux méthodes en se basant sur les mêmes indices. En outre, ces deux
approches ont aussi identifié l’ensemble {3, 7} comme un candidat au défaut correspondant
en considérant exceptionnellement l’indice T 2 de Hotelling (figure 4.11). Le défaut F{1,7}
a été correctement isolé par les deux méthodes en utilisant l’indice combiné ainsi que la
distance de Mahalanobis (figures 4.12, 4.13 respectivement).
On note que dans le cas des défauts multiples, l’affichage de toutes les courbes dans
les figures correspondantes est parfois illisible. Pour cette raison, nous avons proposé le
tableau récapitulatif 4.2 présentant les résultats de ces deux approches pour les cas des
défauts multiples.
Un diagnostic du défaut F{1,7} par évaluation de l’ampleur de la contribution RBC
basée sur les indices SP E, SW E et T 2 n’est pas garanti correct (figures 4.9, 4.10 et
4.11 respectivement). En effet, l’utilisation de l’équation (4.120) a engendré des valeurs
négatives entre les instants 2000 et 2400, ce qui implique que l’ensemble des variables
réellement en défaut ne dispose pas de la plus grande contribution. D’après les figures
123
4
4 798 % 7:8 %;
2 2
0 0
−2 −2
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900
<>=@?

2.5
4
2 <> =@? A 9 B CED F
A 9B G D H
2 1.5
1
0
0.5
−2 0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900
4

1
0.8
2
798 9IJKL
0.6
97 8 9I M
0
0.4
−2
1500 !#"%$'1700
1600 &)(*+,.-0/2143.56(+ 1800 1900 1500 1600!#"%$'1700
&)(*+,.-0/2143.56(+ 1800 1900
Figure 4.4 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice SPE
5
4 78 $ 798 $:
2
0
−5 −2
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

2.5 ;=<?>
5 2 ;=<?> @BADCE FHG I
@BADC J G K
1.5
0
1
−5 0.5
0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

1
5
0.9
78 LMN O

0 0.8
7 8 L P
0.7
−5
0.6
1500 "!$#&1700
1600 %('*),+-/.10243/56'*,+ 1800 1900 1500 1600 "!$#&1700
%('*),+-/.10243/56'*,+ 1800 1900
Figure 4.5 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice SWE
124
8
6 798 # 7:8 #;
6
4
4
2 2
0 0
−2 −2
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900
8

2.5 <>= ?A@B
6 2 >< = ?A@
CED F
G D H
4 1.5
2 1
0 0.5
−2 0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900
8

1.5
798 9IJK L
97 8 9I M
6
1
4
2
0.5
0
−2 0
1500 !#"%1700
1600 $'&)(+*,.-0/2143.56&)+* 1800 1900 1500 !#"%1700
1600 $'&)(+*,.-0/2143.56&)+* 1800 1900
Figure 4.6 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice T2
6
6 465 475 8
4 4
2 2
0 0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900
6

6 9; :=< >? @BA C
4
9; :=< > D A E
4
2
2
0
0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900
6
3
465 6FGH I
4 2 64 5 6F J
2 1
0
0
1500 "1700
1600 !$#&%(')+*-,/.10+23#&(' 1800 1900 1500 "1700
1600 !$#&%(')+*-,/.10+23#&(' 1800 1900
Figure 4.7 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice ϕ
125
20 465 475

10 8
15
5 10
5
0
0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900
9;:=<

8
10
9;:=< >@? A
6 B ? C
5
4
0 2
0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900
40
2.5 465 6IJ
K L
30 2 64 5 6I
20 1.5
M
10 1
0 0.5
−10 0
1500 "1700
1600 !$#&%(')+*-,/.10+23#&(' 1800 1900 1500 1600 D; @1700
!E#&% ')+*F,&.10G2H#& ' 1800 1900
Figure 4.8 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice D
2.5

2

1.5
0.5
0
1900 2000 2100 2200 2300 2400 2500
2 (
!#"%$'& )!#"%*'&
1.5 (
!#"%$'& ,
+ !#"%*'&
1
0.5
0
1900 2000 2100 2200 2300 2400 2500
0.995
DEF
F!G"%*&
0.99 D F
!#"%$'&
0.985
1900 2000 2100 -/.0214362200
5879:;=<?>,@)A=BC70: 2300 2400 2500
Figure 4.9 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice SPE
126
2.5

2

1.5
0.5
0
1900 2000 2100 2200 2300 2400 2500
6 (
!#"%$'& )!#"%*'&
(
4 !#"%$'& ,
+ !#"%*'&
1900 2000 2100 2200 2300 2400 2500
0.998
FG
0.996 :!H"%*&
F
0.994 !#"%$'&
1900 2000 2100 -/.0214362200

587:9<;=?>A@,B)C?DE7:0<; 2300 2400 2500
Figure 4.10 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice
SWE
1.5

1
0.5
0
1900 2000 2100 2200 2300 2400 2500
5 #
"! $ %"!
4 #
3 "! '& %"!
2
1
0
1900 2000 2100 2200 2300 2400 2500
1
0.99
0.98
BC
0.97 6D E %!
B
0.96 "!
0.95
1900 2000 2100 (*),+.-0/22200
14365879;:=<'>$?;@A36+87 2300 2400 2500
T2
127
3

2
0
1900 2000 2100 2200 2300 2400 2500
1 !" #

! % $ #
0.5
1900 2000 2100 2200 2300 2400 2500
1.01
@A4 BC#
1.005 @
0.995
1900 2000 2100 &('*),+.-02200
/214365 798;:%<"=9>?14)65 2300 2400 2500
Figure 4.12 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice ϕ
3

2
0
1900 2000 2100 2200 2300 2400 2500
4 !
"#
!
2 %$ #
−2
1900 2000 2100 2200 2300 2400 2500
1.015 @A
4BC#
1.01 @

1.005
0.995
1900 2000 2100 &('*),+.-02200
/214365 798;:%<"=9>?14)65 2300 2400 2500
Figure 4.13 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice D
128
3

2
0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
'
3 "!$#&% (*)+!$&%
'
"!$#&% -
, *)+!$&%
2
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
0.999
0.998 EFG

G*)F!$%
0.997 E G
"!$#&%
0.996
2500 2550 2600 2650 2700.0/1325472750
698:;<>=@?-A(B>CD812800
; 2850 2900 2950 3000
SPE
3

2
0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
6 (
!#"%$'& )+*"%'&
(
4 !#"%$'& -
, +*"%'&
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
0.999
FG
;+*G"%&
0.998 F
!#"%$'&
0.997
2500 2550 2600 2650 2700.0/1325472750
698;:<=?>A@-B)C?DE8;12800
< 2850 2900 2950 3000
SWE
129
3

2
0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
3 "
! # !
2
−1
−2
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
1.002
0.998 ?

0.996 ?@
!
0.994
2500 2550 2600 2650 2700$&%('*),+.2750
-0/214357698#:<;7=>/2'42800
3 2850 2900 2950 3000
T2
3

2
0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
2

1.5
1
0.5
0
−0.5
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
1.002
0.998 :
; <0
0.996 :=

0.994
2500 2550 2600 2650 2700 "!$#&%(2750
'*),+.-0/2143 576289),!.2800
- 2850 2900 2950 3000
Figure 4.17 – Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice ϕ
130
4.6. Conclusion
3

2
0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
3 !
2

1
0
−1
−2
−3
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000
1.002
0.998 =

0.996 =>

0.994
2500 2550 2600 2650 2700"$#&%('*),2750
+.-0/2135476 8:95;<-0%22800
1 2850 2900 2950 3000
Figure 4.18 – Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice D
4.12, 4.13, nous constatons que cette méthode a assuré une plus grande contribution pour
l’ensemble des variable {1, 7}, ce qui signifie que le défaut F{1,7} est correctement identifié
par la RBC en utilisant les indices ϕ et D.
D’après le tableau 4.2 ainsi que les figures 4.16, 4.17 et 4.18, le défaut F{6,8} qui a
été introduit aux niveaux des variables x6 et x8 a été correctement localisé par les trois
approches en utilisant les indices T 2 de Hotelling, ϕ et D. Par ailleurs, l’investigation de ce
défaut avec l’approche de reconstruction et la RBCr en s’appuyant sur les indices SP E et
SW E a abouti à l’identification de sept ensembles de variables en défaut (voir tableau 4.2).
Les figures 4.14 et 4.15 montrent que l’ensemble {6, 8} composé des variables réellement
en défaut ainsi qu’à titre d’exemple l’ensemble {4, 6} disposent des courbes qui sont au
dessous de l’unité en particulier avec l’indice SP E. En se référant à l’équation (4.120),
l’approche de contribution multidimensionnelle (RBC) utilisant les indices SP E et SW E
a assuré des valeurs positives exceptionnellement durant les dernières observations du
défaut (figures 4.14 et 4.15). D’après l’analyse de diagnosticabilité, l’amplitude du défaut
F{6,8} durant ces quelques dernières observations est importante permettant ainsi à la
RBC de garantir un diagnostic correct.
4.6 Conclusion
Dans ce chapitre, nous avons étendu le concept d’isolabilité de défauts par l’approche
de reconstruction à tout indice de détection ayant une forme quadratique. Une telle gé-
néralisation nous a permis d’élaborer une analyse théorique d’isolabilité de défauts par
131
reconstruction de l’indice combiné versus celles des indices SP E et T 2 de Hotelling. Cette

analyse a mis en avant l’avantage que peut jouer la distance combinée dans l’isolation des
défauts affectant plus particulièrement des variables colinéaires. Malgré qu’une telle dis-
tance combine les indices SP E et T 2 de Hotelling, les propriétés qui peuvent caractériser
l’un comme l’autre de ces deux indices ne font pas nécessairement partie de celles de l’in-
dice combiné. En effet, il peut y exister des défauts qui ne sont garantis isolables ni par
l’indice SP E ni par celui du T 2, mais ils peuvent être garantis isolables par la distance
combinée.
Les contributions sont parmi les approches les plus classiquement utilisées pour un
diagnostic de défauts plus particulièrement de type simple. Dans ce cadre, nous avons
proposé une nouvelle forme de contribution basée sur la décomposition de l’indice SP E
et qui fait partie des contributions de type P DC. En considérant des défauts simples
ayant de grandes amplitudes, l’analyse de diagnosticabilité basée sur les approches des
contributions montre que seule la contribution de type CDC ne peut pas garantir un
diagnostic correct.
Puisque les défauts simples représentent un cas particulier, nous avons étendu la mé-
thode RBC au cas multidimensionnel en montrant que la nouvelle forme garantit un
diagnostic correct de défauts multiples de grandes amplitudes. Néanmoins, les défauts
peuvent être réellement beaucoup plus complexes (faibles amplitudes, colinéarités entre
des variables, etc.). Dans ce cas, un diagnostic basé sur l’évaluation de l’ampleur des
contributions aboutit sans doute à des conclusions erronées. Ainsi, les méthodes qui sem-
bleraient plus avantageuses représentent celles qui s’appuient sur des seuils de contrôle
pour conclure une décision comme l’approche de reconstruction des indices de détection.
Afin d’exploiter la méthode RBC pour un diagnostic de défauts complexes, nous avons
proposé une nouvelle approche appelée RBCr dont le seuil de contrôle est égale à l’unité.
La diagnosticabilité théorique basée sur une telle méthode montre qu’un défaut détectable
est garanti identifiable. Cependant, il est garanti isolable si son amplitude vérifie la même
condition suffisante d’isolabilité établie pour la méthode de reconstruction des indices de
détection.
En se basant sur un exemple simulé, toutes les approches présentées garantissent un
diagnostic correct dans le cas des défauts de grandes amplitudes. En revanche, les défauts
les plus complexes et qui sont détectables sont garantis uniquement identifiables par la
méthode de reconstruction des indices ainsi que la RBCr. L’approche RBC ne peut pas
garantir un diagnostic correct de ce type de défauts. Nous avons constaté également que ces
défauts ont été plus particulièrement mieux isolables en utilisant l’indice combiné ainsi que
celui de Mahalanobis. Dans ce cadre, on peut conclure que la méthode de reconstruction
des indices de détection et la RBCr sont plus avantageuses que l’approche RBC afin
d’aboutir à un diagnostic de défauts mieux décisif. Toutefois, la prise en considération des
résultats de toutes les approches peut conduire à distinguer les défauts.
132
L’analyse de données multivariées pour l’identification des états de fonctionnement

d’un processus présente des résultats intéressants pour les systèmes où il est difficile voire
impossible de leur établir un modèle complet. En effet, l’utilisation des méthodes statis-
tiques pour un diagnostic de défauts de processus est une alternative plus prometteuse
qu’une utilisation des méthodes qui se basent sur un modèle mathématique. Puisque l’ob-
jectif d’un diagnostic est de constater l’apparition de défauts puis d’en trouver les causes,
l’analyse des mesures des variables de processus permet d’identifier les causes car les états
de défaillances sont directement liés aux variables. Dans ce contexte, les méthodes ba-
sées sur l’analyse en composantes principales (ACP) sont très intéressantes pour la mise
en évidence des corrélations linéaires entre les variables du processus sans pour autant
formuler de façon explicite un modèle entrées/sorties du système.
En présentant le principe fondamental de l’ACP, cette dernière est prouvée comme
étant une approche de modélisation des relations linéaires entre les différentes variables
d’un processus. Ainsi, les paramètres du modèle représentent tout simplement les valeurs
et les vecteurs propres de la matrice de corrélation ou de covariance des données collectées
lors du fonctionnement normal du processus. Puisque les derniers vecteurs propres sont
associés à des composantes principales (CPs) généralement non porteuses d’informations
significatives, la tâche principale de l’ACP s’articule autour d’un choix d’une structure
adaptée du modèle ACP. Autrement dit, un tel modèle doit être constitué uniquement par
les quelques premières CPs les plus significatives. Dans ce cadre, nous avons réalisé qu’en
l’absence de bruit de mesures, le modèle ACP est composé de toutes les CPs ayant des
variances non nulles. Dans la pratique (présence de bruit), une détermination optimale de
la structure d’un tel modèle est beaucoup plus compliquée. Pour cette raison, plusieurs
critères de choix du nombre optimal des CPs ont été présentés et comparés pour une
évaluation de leurs performances vis-à-vis de plusieurs enjeux comme le bruit de mesures,
les types des variables considérées et le nombre d’observations utilisées pour la modélisa-
tion. Notre choix des critères porte sur deux principales familles. La première présente des
critères heuristiques qui se basent sur des seuils jugés subjectifs pour le choix du nombre
optimal des CPs. Malgré leur popularité, nous avons conclu à travers un exemple simulé
que ces critères demeurent très subjectifs et largement restreints en termes de décision et
efficacité respectivement.
La deuxième catégorie est constituée par des critères de minimisation par rapport
au nombre de CPs sélectionnées. Autrement dit, le numéro de la CP qui correspond au
minimum d’un critère donné représente le nombre des CPs constituant le modèle ACP.
Une telle famille a été composée de quatre critères qui sont AIC, MDL, IE et VNR.
133
Les trois premiers sont utilisables uniquement avec des données non normalisées entachées
par un bruit blanc. Le quatrième critère qui représente la variance non reconstruite est
originairement conçu afin qu’il soit valable indépendamment de la nature des données.
Toutefois, il est préférable que ces données soient exprimées dans la même échelle pour
une meilleure mise en évidence d’une ACP. Puisque le critère VNR est en relation directe
avec les paramètres fournis par l’ACP, nous avons étudié son comportement vis-à-vis des
données normalisées contrairement aux trois autres critères.
A partir des résultats de simulation, nous avons constaté que le critère AIC surestime
souvent le nombre utile des CPs. En s’appuyant sur une comparaison approfondie des
résultats de tous les critères présentés, le MDL semble être le critère le plus efficace.
Néanmoins, sa précision dans le choix de la dimension du modèle est fortement liée au
nombre N d’observations considérées pour la modélisation. Une sélection basée sur le
MDL converge vers le nombre correct des CPs lorsque le nombre d’observations est
assez important. En effet, le paramètre N entre en vigueur d’une façon explicite dans
l’expression d’un tel critère. Ainsi, l’optimalité est assurée d’un point de vue mathématique
lorsque N tend vers l’infini. Dans la pratique, un système est généralement représenté par
un nombre fini d’observations qui peut être pour autant insuffisant afin que le critère
MDL exprime convenablement le nombre nécessaire des CPs. Par conséquent, on ne peut
pas savoir si un tel critère converge finalement vers le nombre correct des CPs. D’après les
résultats de simulation et pour un nombre insuffisant d’observations, nous avons constaté
que ce critère ne retient pas souvent les CPs associées aux variables indépendantes de
faibles variances.
Le critère IE abandonne souvent les CPs de faibles variances bien qu’elles soient théo-
riquement supposées être retenues dans le modèle. Cet inconvénient a été montré théori-
quement dans le cadre de cette thèse. L’avantage dans l’utilisation du critère VNR étant
dans la considération des données normalisées, ce qui signifie que toutes les variables sont
exprimées dans la même échelle. Malgré cette caractéristique, nous avons remarqué qu’un
tel critère ne prend pas en compte les variables indépendantes et quasi-indépendantes
bien qu’en l’absence de bruit de mesures ces variables se transforment en des CPs dont
les variances sont non nulles. Dans se stade, nous avons également contribué par une dé-
monstration théorique confirmant la limitation de ce critère. En effet, nous avons montré
que le nombre des CPs qui correspond au minimum d’un tel critère est invariant en l’addi-
tion des variables indépendantes et quasi-indépendantes. Autrement dit, le critère VNR
est insensible à la présence de ce type des variables. Ainsi, son minimum correspond au
nombre des CPs uniquement pour les variables qui sont linéairement corrélées les unes
aux autres. En outre, une telle démonstration met en évidence l’inefficacité d’un tel critère
en considérant des données non normalisées présentant des variables indépendantes. La
synthèse d’une telle étude comparative nous a permis de conclure que seuls les critères
MDL et VNR peuvent être considérés intéressants à l’égard de leur comportement et
principe respectivement. Cependant, ils présentent des inconvénients rendant souvent les
décisions incertaines.
Dans le but d’exploiter le principe du critère VNR tout en comptant les variables
indépendantes et quasi-indépendantes, nous avons établi à travers une généralisation la
variance de l’erreur de reconstruction d’un indice quelconque ayant une forme quadratique.
Celle-ci a pour objectif de révéler la variance non reconstruite de chacun des indices de
134
détection connus dans le cadre de l’ACP. Notamment, la variance de l’erreur de recons-
truction de l’indice SP E n’est autre que le classique critère VNR. Les variances non
reconstruites relatives aux restes des indices représentent des nouveaux critères présentés
dans cette thèse. Une analyse théorique des comportements de tels critères nous a permis
de déduire que les variances non reconstruites des indices SW E, T 2 de Hotelling ainsi que
la distance de Mahalanobis ne peuvent pas être utilisées pour le choix d’un modèle ACP.
Par ailleurs, la particularité est constatée dans la variance de l’erreur de reconstruction
de l’indice combiné. Une telle variance dépend du nombre des CPs ainsi qu’un seuil de
signification introduit implicitement dans les limites de contrôle des indices que combine
la distance combinée. Dans ce cadre, il est difficile d’établir une consistance théorique de
ce nouveau critère. Par contre, les résultats de simulation ont montré qu’il est capable de
déterminer le nombre optimal des CPs en s’appuyant sur un choix très approprié et non
ordinaire du seuil de signification. Nous avons également constaté qu’il présente parfois
des résultats non stationnaires. Pour remédier à ces inconvénients, nous avons proposé
une variance non reconstruite relative à un nouvel indice combiné. L’objectif étant de
faciliter la tâche du choix de la valeur du seuil de signification. Le nouveau critère montre
des résultats plus efficaces et mieux stationnaires. Néanmoins, les deux critères propo-
sés demeurent dans leurs globalités incertains, aussi faut-il disposer d’une connaissance a
priori ou d’une expertise pour prendre la décision convenable. En effet, les deux critères
sont considérés comme étant empiriques car ils s’appuient uniquement sur l’expérience.
L’originalité principale dans nos contributions pour un choix optimal du modèle ACP
est introduite par la proposition d’un troisième critère noté VNRVI. Celui-ci représente
la variance de l’erreur de reconstruction relative à des nouvelles données. En s’appuyant
sur un changement de représentation des données, nous avons supposé que ces données
qui sont normalisées et observées réellement sont en réalité issues d’une transformation
linéaire d’autres données mieux exploitables en présence des variables indépendantes et
quasi-indépendantes. En se basant sur ce nouveau critère, la détermination du nombre
optimal des CPs des nouvelles données sert à déduire celui des données réellement ob-
servées en comptant évidemment ce type des variables. Dans ce cadre, nous avons établi
théoriquement les conditions garantissant l’optimalité de sélection à travers un tel critère.
Les résultats de simulation ont validé notre théorie en prouvant ainsi qu’un tel critère
étant plus efficace qu’aux autres critères présentés dans cette thèse.
Dans l’objectif d’un diagnostic de défauts par l’approche de reconstruction, la première
contribution était élaborée par une généralisation du concept d’isolabilité de défauts à tout
indice de détection ayant une forme quadratique. Cette généralisation nous a permis en
conséquence de réaliser une analyse théorique d’isolabilité de défauts par reconstruction
de l’indice combiné versus celles des indices que combine (SP E et T 2 de Hotelling). Une
telle analyse a mis en avant l’avantage que peut jouer la distance combinée dans l’isolation
des défauts caractérisant plus particulièrement les variables colinéaires. Ainsi, il peut y
exister des défauts qui ne sont garantis isolables ni par l’indice SP E ni par celui du T 2
par contre ils peuvent être garantis isolables uniquement par la distance combinée.
Dans le cadre d’un diagnostic de défauts basé sur les approches des contributions,
celles-ci sont dédiées pour diagnostiquer plus particulièrement les défauts simples. Ainsi,
nous avons proposé une nouvelle méthode de contribution par décomposition partielle de
l’indice SP E. Une analyse de diagnosticabilité de défauts basée sur une telle approche ga-
135
rantit un diagnostic correct de défauts simples ayant de grandes amplitudes. L’exclusivité

révélée par la présente thèse dans le domaine du diagnostic se manifeste également par
l’extension d’une approche de contribution dite RBC au diagnostic de défauts multiples.
Ainsi, l’analyse de diagnosticabilité de défauts en s’appuyant sur la nouvelle approche
montre que celle-ci garantit un diagnostic correct de défauts multiples de grandes ampli-
tudes. Afin de considérer la réalité complexe de défauts (faibles amplitudes, colinéarités
entre les variables), nous avons exploité la nouvelle approche RBC pour proposer une
nouvelle méthode de diagnostic appelée RBCr qui se base sur un seuil de contrôle égale à
l’unité. Nous avons montré théoriquement qu’un défaut détectable est garanti identifiable
par la présente méthode. Ainsi, ce défaut est garanti isolable si son amplitude satisfait une
condition d’isolabilité qui est identique à celle établie pour l’approche de reconstruction
des indices.
Les résultats de simulation montrent que toutes les approches présentées garantissent
un diagnostic correct dans le cas des défauts de grandes amplitudes, tandis que les défauts
complexes et qui sont détectables sont garantis uniquement identifiables par la méthode
de reconstruction des indices ainsi que la RBCr. Entre autre, l’approche RBC multidi-
mensionnelle ne peut pas garantir un diagnostic correct de ce type de défauts. Nous avons
constaté également que ces défauts ont été mieux isolables avec ces méthodes en utilisant
plus particulièrement l’indice combiné ainsi que celui de Mahalanobis. Sous cette optique,
nous avons pu conclure que la méthode de reconstruction des indices et celle de RBCr
sont généralement plus avantageuses que l’approche RBC afin d’aboutir à un diagnostic
concluant de défauts multiples. Il n’empêche que la prise en considération des résultats de
toutes les approches peut aider à l’isolation des défauts réels.
Dans un premier temps, les perspectives à envisager sont de tester expérimentalement
les méthodes proposées dans cette thèse sur des données expérimentales fournies par la
société STMicroelectronics afin de valider leur performance pour une possible mise en
œuvre industrielle.
Au niveau théorique, l’ACP robuste ainsi que celle à noyaux disposent en partie des
mêmes principes que l’ACP classique. Dans ce cadre, nous envisageons une extension de
nos travaux de recherche qui s’articulent autour d’un choix optimal du modèle ACP ainsi
qu’un diagnostic de défauts en considérant ces deux méthodes.
136
A
Limitation du critère VNR
Nous supposons qu’on dispose d’une matrice X ∈ RN ×m composée de N mesures pour

m variables qui sont toutes linéairement corrélées. Ainsi,
Σ = PΛPT ∈ Rm×m (A.1)
représente leur matrice de covariance ou de corrélation dans le cas où les données sont nor-
malisées. P et Λ représentent respectivement les matrices des vecteurs et valeurs propres
de Σ.
En présence d’un bruit de variance non nulle, il existe alors un nombre optimal de q CPs
assurant le minimum de la variance non reconstruite de chaque variable. En considérant
une matrice de corrélation donc les données sont normalisées, le minimum du critère VNR
est atteint pour ` = q :
q = arg min {VNR(`)} (A.2)
`
avec
m
X ξjT C̃ΣC̃ξj
VNR(`) = (A.3)
j=1
(ξjT C̃ξj )2
T
où C̃ = P̃P̃ et P̃ ∈ Rm×(m−`) est une matrice composée des (m − `) vecteurs propres
de la matrice P. Puisque le modèle optimal est engendré par les q premières CPs, une
subdivision appropriée de P nous permet d’écrire :

P = Û Ũ (A.4)
Û ∈ Rm×q et Ũ ∈ Rm×(m−q) sont deux matrices respectivement constituées des q premiers

et (m − q) derniers vecteurs propres de P.
Supposons qu’une nouvelle variable indépendante ou quasi-indépendante est ajoutée
à la matrice X. Cela nous permet de calculer une nouvelle matrice de corrélation, M ∈
R(m+1)×(m+1) , dont on peut montrer qu’elle peut avoir la forme suivante :

Σ
M= T = VDVT (A.5)
1
137
Annexe A. Limitation du critère VNR
avec ∈ Rm est un vecteur caractérisé par une norme qui tend vers zéro puisque la
variable ajoutée est indépendante. Ce vecteur est composé des coefficients de corrélation
d’une telle variable avec les autres. V et D représentent respectivement les matrices des
vecteurs et valeurs propres de M.
En considérant la condition d’indépendance de la variable ajoutée, kk ≈ 0, la matrice
V peut être exprimée approximativement en fonction de P en appliquant des subdivisions
appropriées :
Û φ2 Ũ
V≈ T (A.6)
φ1 ω φT3
où φ1 ∈ Rq , φ2 ∈ Rm et φ3 ∈ R(m−q) sont des vecteurs dont les normes tendent respecti-
vement vers des zéros ou également kφ1 k |ω|, kφ2 k |ω| et kφ3 k |ω|. Puisque V
est une matrice orthonormée, cela implique que |ω| est proche de l’unité.
Notons par z et ~ respectivement la nouvelle variance non reconstruite globale et
le nouveau paramètre qui désigne le nombre des CPs exprimés dans la nouvelle base de
données en prenant en considération la variable ajoutée :
m+1 T T
X ξiT ṼṼ MṼṼ ξi
z(~) = T
(A.7)
i=1 (ξiT ṼṼ ξi )2
avec Ṽ ∈ R(m+1)×(m+1−~) est constituée des (m + 1 − ~) derniers vecteurs propres de la

matrice V.
Afin d’étudier le comportement du critère z en utilisant les approximations proposées,
trois cas peuvent être illustrés :
1er cas : ~ ≤ q La prise en considération de ce cas implique que la matrice V doit

encore subir une décomposition comme suit :

Û1 Û2 φ2 Ũ
V≈ T (A.8)
φ11 φT12 ω φT3
où Û1 ∈ Rm×~ et Û2 ∈ Rm×(q−~) sont respectivement composées des ~ premiers et (q − ~)
derniers vecteurs de la matrice Û. φ11 ∈ R~ et φ12 ∈ R(q−~) sont deux vecteurs respecti-
vement constitués des ~ premiers et (q − ~) derniers éléments du vecteur φ1 .
Cette décomposition nous permet d’exprimer la matrice Ṽ comme suit :

Û2 φ2 Ũ
Ṽ = T (A.9)
φ12 ω φT3
En considérant les approximations présentées au départ, nous montrons que :
" #
T T
ṼṼ ≈ Û2 Û2 + ŨŨ θ
T
(A.10)
θT ω2
et " #
T T T T
ṼṼ MṼṼ ≈ Û2 Û2 ΣÛ2 Û2 + ŨŨ ΣŨŨ ψ
T T
T
(A.11)
ψ ω4
138
où θ ∈ Rm et ψ ∈ Rm . D’après ces deux dernières équations ainsi que celle de (A.7), le
critère z peut être exprimé comme suit :
T T
h T T
i
T
m
X i ξ Û Û
2 2 Σ Û Û
2 2 + ŨŨ ΣŨŨ ξi
z(~ ≤ q) ≈ 1 + h T T
i (A.12)
T 2
i=1 (ξi Û2 Û2 + ŨŨ ξi )
En outre, et pour ` = ~, la matrice résiduelle P̃ est composée de tous les vecteurs de

la matrice Ũ ainsi que les (q − ~) derniers vecteurs de Û, d’où :

P̃ = Û2 Ũ (A.13)
Puisque Û2 et Ũ sont orthogonales, nous montrons que le deuxième terme de l’équation
(A.12) représente l’expression du critère VNR(`) avec ` = ~ ≤ q :
T T
h T T
i
m ξ T Û Û ΣÛ Û + ŨŨ ΣŨŨ ξi m T T
X i 2 2 2 2 X ξiT P̃P̃ ΣP̃P̃ ξi
h T T
i = T
i=1 (ξi
T
Û Û
2 2 + ŨŨ ξi )2
i=1 (ξiT P̃P̃ ξi )2
m
X ξjT C̃ΣC̃ξj
=
j=1
(ξjT C̃ξj )2
= VNR(` ≤ q) (A.14)
Ceci implique que :

z(~ ≤ q) ≈ 1 + VNR(` = ~) (A.15)
2ème cas : ~ = q + 1 Ce cas représente le calcul du critère z lorsque le nombre des CPs
sélectionnées correspond à la variable intercalée. Autrement dit, cette dernière qui repré-
sente toute seule une CP sera considérée dans le sous-espace principal. D’après l’équation
(A.9), la matrice Ṽ aura la forme suivante :

Ũ
Ṽ = T (A.16)
φ3
Ainsi, on peut déduire que :

" T
#
T ŨŨ Ũφ3
ṼṼ ≈ T (A.17)
φT3 Ũ φT3 φ3
T
Puisque Ũ est une matrice orthonormée, c’est à dire Ũ Ũ = I(m−q) , nous pouvons
calculer ce qui suit :
" T T T
#
T T ŨŨ + Ũφ3 φT3 Ũ Ũφ3 + Ũφ3 φT3 Ũ
ṼṼ ṼṼ ≈ T T (A.18)
φT3 Ũ + φT3 φ3 φT3 Ũ φT3 φ3 + (φT3 φ3 )2
139
T
Puisque ṼṼ représente une matrice idempotente, i.e. :
T T T
ṼṼ ṼṼ = ṼṼ (A.19)
l’identification entre les termes des équations (A.17) et (A.18), nous mène à déduire que
Ũφ3 est un vecteur nul. Egalement, φT3 φ3 représente un scalaire qui tend vers zéro, ce qui
implique que (φT3 φ3 )2 est très négligeable devant φT3 φ3 . Ainsi, φT3 φ3 ≈ φT3 φ3 + (φT3 φ3 )2 . Ces
déductions nous permettent d’écrire :
" T T T
#
T
T T ŨŨ ΣŨŨ ŨŨ φ3 φ3
ṼṼ MṼṼ ≈ T (A.20)
φ3 φ3 ŨŨ φ3 φ3 + (φT3 φ3 )2
T T T
D’après (A.7),
m T T
1 X ξ T ŨŨ ΣŨŨ ξ
i i
z(~ = q + 1) ≈ 1 + T + (A.21)
φ3 φ3 i=1 (ξ T ŨŨT ξ )2
i i
En revanche, le troisième terme de l’équation précédente représente le critère VNR

pour ` = q CPs, ce qui implique :
1
z(~ = q + 1) ≈ 1 + + VNR(` = q) (A.22)
φT3 φ3
En notant que (φT3 φ3 )−1 tend vers l’infini.
3ème cas : ~ > q + 1 Ce cas sera représenté par une matrice résiduelle Ṽ composée des
(m + 1 − ~) dernières colonnes de la matrice V de l’équation (A.6) ou également (A.16).
Une décomposition appropriée du dernier bloc de V comme suit :

Ũ Ũ1 Ũ2
= T (A.23)
φT3 φ13 φT23
nous permet de déduire que :

Ũ
Ṽ = T2 (A.24)
φ23
où Ũ2 ∈ Rm×(m+1−~) est composée des (m + 1 − ~) derniers vecteurs propres de la matrice
P de l’équation (A.4). φ23 ∈ R(m+1−~) est un vecteur constitué des (m + 1 − ~) éléments
de φ3 . En appliquant les approximations nécessaires de la même manière qu’au deuxième
cas, nous pouvons montrer que :
" T
#
T Ũ2 Ũ2 Ũ2 φ23
ṼṼ ≈ T (A.25)
φT23 Ũ2 φT23 φ23
et " #
T T T
T Ũ2 Ũ2 ΣŨ2 Ũ2
T Ũ2 Ũ2 φT23 φ23
ṼṼ MṼṼ ≈ T (A.26)
φT23 φ23 T Ũ2 Ũ2 φT23 φ23 + (φT23 φ23 )2
140
ainsi
m T T
1 X ξ T Ũ Ũ ΣŨ Ũ ξ
i 2 2 2 2 i
z(~ > q + 1) ≈ 1 + T + T
(A.27)
φ23 φ23 i=1 T
(ξ Ũ Ũ ξ )2
i 2 2 i
Notamment, le troisième terme de cette équation correspond au critère VNR pour
` = (~ − 1) CPs, d’où :
1
z(~ > q + 1) ≈ 1 + + VNR(` = ~ − 1) (A.28)
φT23 φ23
où (φT23 φ23 )−1 croissant en ~ et qui tend vers l’infini.

Le regroupement des équations (A.15), (A.22) et (A.28) montre que le critère z s’écrit
comme suit :

 1 + VNR(~) pour ~≤q
T −1
z(~) ≈ 1 + (φ3 φ3 ) + VNR(q) pour ~=q+1 (A.29)
T −1
1 + (φ23 φ23 ) + VNR(~ − 1) pour ~>q+1

Nous notons d’après (A.23) que (φT23 φ23 )−1 ≥ (φT3 φ3 )−1 . Selon l’hypothèse de l’équation
(A.2), le minimum du critère VNR correspond à q CPs. Par conséquent, l’équation (A.29)
montre que :
arg min {z(~)} = arg min {VNR(`)} = q (A.30)
~ `
Cela implique que la variance non reconstruite ne prend plus en considération les
variables indépendantes et quasi-indépendantes. En effet, elle est insensible à leurs pré-
sences. Le nombre des CPs qui correspondent au minimum du critère VNR appliqué sur
des données normalisées représente tout simplement le nombre des CPs uniquement entre
les variables corrélées.
141
142
B
Limitation du critère IE
En présence d’un bruit i.i.d de variance identique σ 2 non nulle et d’après (2.71), les
valeurs propres de la matrice de covariance Σ représentent les éléments diagonaux de la
matrice suivante : " #
ˆ 2
Λ = Λ̊ + σ Iq 2 0 (B.1)
0 σ Im−q
ˆ
où Λ̊ ∈ Rq×q est la matrice diagonale donnée par (2.32). Elle est constituée par les q valeurs
propres non nulles de la matrice de covariance des variables étudiées sans la présence du
bruit de mesures.
Selon Malinowski (1977), le critère IE est supposé être efficace uniquement dans le
cas d’une matrice de covariance de données entachées par un bruit indépendant et iden-
tiquement distribué. Par conséquent, l’étude d’un tel critère se base principalement sur
l’équation (B.1). Afin d’établir une consistance théorique, Malinowski (1977) s’est limité à
l’étude du comportement de la fonction IE en montrant sa croissance au-delà de la qème
CP. Une telle propriété est justifiable car, d’après (B.1) et (2.52), ce critère peut s’écrire
pour un nombre de CPs supérieure ou égale à q comme suit :
12
`σ 2

IE(` ≥ q) = (B.2)
Nm
Cependant, l’interprétation correcte de l’équation (B.2) implique que le critère IE ne

surestime plus le nombre des CPs en considérant de telle hypothèse sur la distribution du
bruit. Afin d’assurer que le minimum de ce critère corresponde à q CPs, il faut analyser
son comportement pour toutes valeurs de `. Autrement dit, il faut prouver ou établir une
condition nécessaire garantissant la décroissance de ce critère en ` pour ` < q. Sous cette
condition, nous pouvons montrer que le critère IE peut s’exprimer comme suit :
q
! 12
2
` X `σ
IE(` < q) = λ̊a + (B.3)
N m(m − `) a=`+1 Nm
143
Annexe B. Limitation du critère IE
Puisque IE présente des valeurs positives ou nulles, on peut alors vérifier le signe de
la différence suivante pour étudier son comportement :
q
X
2
(m − `) (` − 1)λ̊` − (m − ` + 1)σ −m λ̊a
2 2 a=`+1
(IE(` − 1)) − (IE(`)) = (B.4)
N m(m − ` + 1)(m − `)
Notamment, le dénominateur de l’équation précédente est positif. Par conséquent, le

critère IE est monotone décroissant en ` pour ` < q si :
q
m X m−`+1
λ̊` − λ̊ ≥ σ2 (B.5)
(m − `)(` − 1) a=`+1 a `−1
Cette inégalité représente la condition nécessaire et suffisante pour que le critère IE

admette un minimum en q CPs. Nous notons qu’une telle condition n’a pas été établie au-
paravant dans la littérature. Elle représente une consistance théorique qui nous permettra
de mettre en évidence l’inconvénient du critère IE. Dans le cas particulier où ` = q, la
condition donnée par (B.5) nous permet de déduire que :

m−q+1
λ̊q ≥ σ2 (B.6)
q−1
Malgré que la qème CP dispose d’une variance (λ̊q ) non nulle en l’absence du bruit
de mesures, l’inégalité précédente prouve qu’une telle CP ne peut pas être retenue par le
critère IE si λ̊q ne satisfait pas une telle condition.
En outre, une telle condition est paramétrée en fonction du nombre des variables m
ainsi que le nombre q, ce qui représente un inconvénient majeur pour ce critère. A titre
d’exemple, on peut supposer une augmentation du nombre m de variables sans changement
de la valeur de q. Par conséquent, le terme à droite de l’inégalité (B.6) sera plus sévère,
ce qui augmentera la chance de l’élimination de la qème CP.
144
C
Démonstration de la décroissance d’une
fonction
Puisque κ représente la dimension du modèle ACP dans l’espace de représentation de

Y, le sous-espace résiduel est alors engendré par les (m − κ) derniers vecteurs propres
constituant la matrice résiduelle :

G̃ = gκ+1 , · · · , gm (C.1)
En augmentant la dimension du sous-espace principal par l’addition d’une CP sup-

plémentaire, celle-ci va être retranchée du sous-espace résiduel. Ainsi, la nouvelle matrice
réduite des vecteurs propres résiduels aura la forme suivante :

G̃r = gκ+2 , · · · , gm (C.2)
On peut alors déduire que :

h i
G̃ = gκ+1 , G̃r (C.3)
Ainsi, les mêmes remarques sont également valables pour les valeurs propres :

dκ+1 0
D̃ = (C.4)
0 D̃r
D’après les deux équations précédentes, celle de (3.130) peut se réécrire comme suit :
ζiT Z̃Σ−1 Z̃ζi T

T
−1
ũ2i (κ) = T T
= ζi G̃D̃G̃ ζi ζi G̃G̃ ζi
ζiT Z̃ζi
T
T
−1
= dκ+1 ζiT gκ+1 gTκ+1 ζi + ζiT G̃r D̃r G̃r ζi ζiT gκ+1 gTκ+1 ζi + ζiT G̃r G̃r ζi (C.5)
Afin de développer le terme inversé, nous avons utilisé la propriété suivante :

−1 −1
(a + b)−1 = a−1 − a−1 a−1 + b−1 a (C.6)
145
Annexe C. Démonstration de la décroissance d’une fonction
en posant
T
a = ζiT G̃r G̃r ζi et b = ζiT gκ+1 gTκ+1 ζi (C.7)
Par conséquent, et après simplifications, nous montrons que :
T
! !
T T T
ζi g κ+1 gκ+1 ζi ζ i G̃r G̃r ζi
ũ2i (κ) = ũ2i (κ + 1) + dκ+1 T T
(C.8)
ζiT G̃r G̃r ζi ζiT gκ+1 gTκ+1 ζi + ζiT G̃r G̃r ζi
avec −1
T T
ũ2i (κ + 1) = ζiT G̃r D̃r G̃r ζi ζiT G̃r G̃r ζi (C.9)
Ce qui permet de calculer la différence suivante :
 
T T
ζi gκ+1 gκ+1 ζi
ũ2i (κ) − ũ2i (κ + 1) =  T
T

ζiT gκ+1 gTκ+1 ζi + ζiT G̃r G̃r ζi ζiT G̃r G̃r ζi
T
T
× ζi G̃r dκ+1 Ir − D̃r G̃r ζi (C.10)
où Ir est une matrice identité de même dimension que celle de D̃r . Il est clair que :
 
T T
ζi gκ+1 gκ+1 ζi ≥0

T
T
(C.11)
T T T T
ζi gκ+1 gκ+1 ζi + ζi G̃r G̃r ζi ζi G̃r G̃r ζi

En outre, dκ+1 Ir − D̃r est une matrice diagonale ayant la forme suivante :
dκ+1 − dκ+2 ···

 
0 0
..
0 dκ+1 − dκ+3 0 .
 
dκ+1 Ir − D̃r =  ≥0 (C.12)
 
.
.. . ..
 0 0 
0 ··· 0 dκ+1 − dm
En conséquence, la forme quadratique suivante est positive ou nulle :

T
ζiT G̃r dκ+1 Ir − D̃r G̃r ζi ≥ 0 (C.13)
Donc
ũ2i (κ) ≥ ũ2i (κ + 1) (C.14)
Celle-ci prouve que la fonction ũ2i est monotone décroissante en κ.
146
D
Consistance théorique du critère VNRVI
D’après l’équation (3.126) et pour un nombre κ de CPs, la variance non reconstruite

de la ième variable de la matrice Y est réécrite comme suit :
T
ζiT G̃D̃G̃ ζi
σi2 (κ) = T
(D.1)
(ζiT G̃ G̃ ζi )2
avec G̃ ∈ Rm×(m−κ) est composée par les (m − κ) derniers vecteurs propres de la matrice
G de l’équation (3.120). Ainsi, D̃ ∈ R(m−κ)×(m−κ) est constituée des (m − κ) dernières
valeurs propres de la matrice D de l’équation (3.121).
Notons par G̃q ∈ Rm×q et D̃q ∈ Rq×q deux matrices composées par les q derniers
vecteurs et valeurs propres respectivement de G et D. Pour κ = m − q, on peut écrire ce
qui suit :
T
2
ζiT G̃q D̃q G̃q ζi dm−q+1
σi (κ = m − q) = T
≤ T
(D.2)
(ζiT G̃q G̃q ζi )2 ζiT G̃q G̃q ζi
1er cas : κ ≥ m − q Dans ce cas, on peut montrer que :

T
ζiT G̃D̃G̃ ζi dm
σi2 (κ) = T
≥ T
(D.3)
(ζiT G̃ G̃ ζi )2 ζiT G̃ G̃ ζi
Afin que σi2 soit monotone croissante, i.e. σi2 (κ ≥ m − q) ≥ σi2 (κ = m − q), il faut que :
dm−q+1 dm
T
≤ T
(D.4)
ζiT G̃q G̃q ζi ζiT G̃ G̃ ζi
Ce qui implique que :
T
dm−q+1 ζiT G̃q G̃q ζi
≤ T
(D.5)
dm ζiT G̃ G̃ ζi
147
Annexe D. Consistance théorique du critère VNRVI
2ème cas : κ < m − q En considérant ce cas, les matrices G̃ et D̃ peuvent être décom-
posées respectivement comme suit :
h i
G̃ = G̃1 G̃q (D.6)

D̃1 0
D̃ = (D.7)
0 D̃q
où G̃1 ∈ Rm×(m−κ−q) et D̃1 ∈ R(m−κ−q)×(m−κ−q) . Les matrices G̃q et D̃q sont celles utilisées
dans le 1er cas. Puisque G̃1 et G̃q sont orthogonales, on peut déduire que :
T T
ζiT G̃1 D̃1 G̃1 ζi ζiT G̃q D̃q G̃q ζi
σi2 (κ < m − q) = T
+ T
(D.8)
(ζiT G̃ G̃ ζi )2 (ζiT G̃ G̃ ζi )2
ainsi,
T T !
T (ζiT G̃q G̃q ζi )2 − (ζiT G̃ G̃ ζi )2
σi2 (κ < m − q) − σi2 (κ = m − q) = ζiT G̃q D̃q G̃q ζi T T
(ζiT G̃ G̃ ζi )2 (ζiT G̃q G̃q ζi )2
T
ζiT G̃1 D̃1 G̃1 ζi
+ T
T T !
T (ζiT G̃ G̃ ζi )2 − (ζiT G̃q G̃q ζi )2
≥ −ζiT G̃q D̃q G̃q ζi T T
(ζiT G̃ G̃ ζi )2 (ζiT G̃q G̃q ζi )2
T
ζiT G̃1 G̃1 ζi
+dm−q T
T T T T !
T T ζi G̃ G̃ ζi + ζi G̃q G̃q ζi
= dm−q − ζi G̃q D̃q G̃q ζi T
(ζiT G̃q G̃q ζi )2
T
ζiT G̃1 G̃1 ζi
× T
T T !
ζiT G̃ G̃ ζi + ζiT G̃q G̃q ζi
≥ dm−q − dm−q+1 T
(ζiT G̃q G̃q ζi )2
T
ζiT G̃1 G̃1 ζi
× T
(D.9)
Pour garantir que σi2 (κ < m − q) ≥ σi2 (κ = m − q), il faut que le terme à droite de la
dernière inégalité soit positif ou nul ce qui implique que :
T
!
ζiT G̃ G̃ ζi
dm−q ≥ 1 + T
dm−q+1 (D.10)
ζiT G̃q G̃q ζi
148
E
Relation entre un seuil de contrôle et celui
reconstruit
En supposant que la direction de reconstruction ΞI est la même que celle du défaut

réel et d’après l’équation (4.11), l’indice reconstruit γI=J ne dépend plus du vecteur d’am-
plitudes f du défaut. En outre, la zone de contrôle appropriée pour un tel indice demeure
la même indépendamment de f. Par conséquent, on peut calculer a priori la limite de
contrôle Γ2I en l’absence de défauts sur toutes les directions possibles ΞI où {I = 1, 2, · · · }.
De telles limites de contrôle demeurent également valides même en présence de défauts.
On pose γI∗ l’indice reconstruit dans la direction de ΞI en l’absence de défauts :
1
γI∗ (k) = k(Im − ΞoI ΞoT 2
∗ 2 2
I ) M x (k)k ≤ ΓI (E.1)
La forme d’un tel indice est équivalente à celle de γI=J lorsque la direction de re-
construction est la même que celle d’un défaut réel. Ainsi, son expression peut se réécrire
comme suit :
1 1
γI∗ (k) = k M 2 x∗ (k)k2 − kΞoI ΞoT ∗
I M x (k)k
2
2
1
= γ ∗ (k) − kΞoI ΞoT ∗
I M x (k)k
2
2
(E.2)
où γ ∗ représente l’indice de détection exprimé avec des mesures prélevées sous des condi-
tions normales en l’absence de défauts. D’après (3.7), on peut déduire que :
1
γ ∗ (k) = k M 2 x∗ (k)k2 ≤ Γ2 (E.3)
ainsi,
1
γI∗ (k) ≤ Γ2 − kΞoI ΞoT ∗
I M x (k)k
2
2
(E.4)
1
∗
Etant donné que kΞoI ΞoT 2
I M x (k)k représente une quantité aléatoire, la considéra-
2
tion de la moyenne de l’équation (E.2) donne :

1
E{γ ∗ (k) − γI∗ (k)} = E{kΞoI ΞoT ∗ 2
I M x (k)k }
2
1 1
∗ ∗T
= tr{ΞoI ΞoT o oT
I M E{x (k)x (k)} M ΞI ΞI }
2 2
= tr{ΞoI ΞoT
I M Σ} (E.5)
149
Annexe E. Relation entre un seuil de contrôle et celui reconstruit
Par conséquent, la réduction prévue dans l’indice γ ∗ due à la reconstruction dans Γ2I
est identique à tr{ΞoI ΞoT
I M Σ}. Ce résultat peut être utilisé pour estimer la limite de
contrôle de γI∗ lorsque celle-ci est caractérisée par la même loi de probabilité que celle de
γ ∗,
Γ2I = Γ2 − tr{ΞoI ΞoTI M Σ} (E.6)
Une telle équation implique que :
Γ2 ≥ Γ2I (E.7)
150
F
Démonstrations d’unification
Sous une notation vectorielle, les paramètres de l’équation (4.69) sont déterminés
comme suit :
xi (k) = ξiT x(k) (F.1)
x̃n (k) = ξnT C̃x(k) (F.2)
c̃ni = ξnT C̃ξi = ξiT C̃ξn (F.3)

où les vecteurs ξi et ξn représentent respectivement la ième et la nème colonne de la
matrice identité.
Puisque ces équations représentent des scalaires, nous pouvons déduire que :
x̃2
ci n (k) = xi (k)x̃n (k)c̃ni
= ξiT x(k)ξnT C̃x(k)ξnT C̃ξi
= xT (k)ξi ξiT C̃ξn ξnT C̃x(k)
= xT (k)C̃ξn ξnT C̃ξi ξiT x(k) (F.4)
Ainsi, l’équation (4.71) peut se réécrire en rappelant que C̃ est une matrice idempo-
tente comme suit :
Xm
P DCiSP E (k) = xi (k)x̃n (k)c̃ni
n=1
m
X
= xT (k)C̃ξn ξnT C̃ξi ξiT x(k)
n=1
= x (k)C̃ξi ξiT x(k)

T
(F.5)
Concernant la contribution par décomposition partielle de l’indice SP E basée sur les
CPs résiduelles, on peut écrire les scalaires de l’équation (4.73) sous une forme vectorielle
comme suit :
T
ta (k) = ζaT t̃(k) = ζaT P̃ x(k) (F.6)
151
Annexe F. Démonstrations d’unification
T
pai = ξiT P̃ζa = ζaT P̃ ξi (F.7)
avec ζa ∈ Rm−` est un vecteur qui représente la aème colonne d’une matrice identité
d’ordre (m − `).
Par conséquent, l’équation (4.73) peut être exprimée de la façon suivante :
t2
cia (k) = ta (k)pai xi (k)
T T
= ζaT P̃ x(k)ζaT P̃ ξi ξiT x(k)
T
= xT (k)P̃ζa ζaT P̃ ξi ξiT x(k) (F.8)
D’après l’équation (4.74), on peut alors déduire que :

m
t2
X
P DCiSP E (k) = cia (k)
a=`+1
m
X T
= xT (k)P̃ζa ζaT P̃ ξi ξiT x(k)
a=`+1
T
= xT (k)P̃P̃ ξi ξiT x(k)
= xT (k)C̃ξi ξiT x(k) (F.9)
On peut conclure que les contributions par décomposition partielle de l’indice SP E

en se basant sur les résidus (F.5) ou sur les CPs (F.9) sont théoriquement identiques. En
revanche, leurs résultats seront nécessairement différents lorsqu’on annule les contributions
négatives d’une variable donnée relativement à un résidu ou à une CP résiduelle selon le
principe de la méthode considérée.
152
G
Invalidité d’un diagnostic par comparaison
des RBC à leurs seuils de contrôle
D’après l’équation (4.97), l’expression de la RBC se caractérise par une forme qua-
dratique. Sous des conditions normales, les seuils de contrôle des RBC peuvent être dé-
terminés en s’appuyant sur les travaux de Box (1954) comme suit :
2 2
ηRBC γ = g
RBC γ χ(h γ ,α)
(G.1)
I I RBC
I
avec
1 1
tr[(Σ M 2 ΞoI ΞoT 2 2
I M ) ]
gRBC γ = 1 1 (G.2)
I
tr[Σ M 2 ΞoI ΞoT
I M ]
2
et
1 1
(tr[Σ M 2 ΞoI ΞoT
I M ])
2 2
hRBC γ = 1 1 (G.3)
I
tr[(Σ M 2 ΞoI ΞoT 2 2
I M ) ]
Dans le cas des défauts complexes, les mesures qui représentent le fonctionnement
normal ne peuvent pas être négligées, ce qui implique que l’équation (2.59) est reconsidérée
de nouveau. Selon l’équation (4.97), le vecteur qui mène à calculer la RBC du Ième
ensemble de variables peut être réécrit comme suit :
1 1 1
∗
ΞoI ΞoT 2
o oT 2
o oT
I M x(k) = ΞI ΞI M x (k) + ΞI ΞI M ΞI f(k)
2 (G.4)
ce qui peut nous permettre d’écrire :

1 1 1
∗
kΞoI ΞoT 2
o oT 2
o oT
I M x(k)k ≥ kΞI ΞI M ΞJ f(k)k − kΞI ΞI M x (k)k
2 (G.5)
On note que ΞoI ΞoT

I est une matrice idempotente. En se référant à l’équation (3.7), on
peut montrer que :
1 1
∗ ∗
kΞoI ΞoT 2
o oT
I M x (k)k ≤ kΞI ΞI k × k M x (k)k ≤ Γ
2 (G.6)
153
Annexe G. Invalidité d’un diagnostic par comparaison des RBC à leurs seuils de contrôle
Ainsi, la substitution de (G.6) dans (G.5) en considérant la positivité de la norme

euclidienne mène à l’inégalité suivante :
1 1
kΞoI ΞoT 2
o oT
I M x(k)k ≥ kΞI ΞI M ΞJ f(k)k − Γ ≥ 0
2 (G.7)
Afin d’assurer que l’effet de propagation du défaut réel FJ étant capable de rendre les
contributions des autres ensembles I de variables supérieures à leurs limites de contrôle,
il faut que RBCIγ (k) > ηRBC
2
γ . En revanche et dans le but qu’un tel défaut soit également
I
garanti détectable, on doit supposer que :
RBCIγ (k) > Γ2 (G.8)
En s’appuyant sur le principe utilisé dans l’annexe E, on peut montrer que :
Γ2 > ηRBC
2
γ (G.9)
I
Pour que l’inégalité (G.8) soit satisfaite, il est nécessaire d’imposer ce qui suit :
1 1
kΞoI ΞoT 2 o oT 2
I M x(k)k ≥ (kΞI ΞI M ΞJ f(k)k − Γ) > Γ
2 2
2
(G.10)
Ainsi, la résolution de l’inégalité précédente contraint que :

1
kΞoI ΞoT
I M ΞJ f(k)k > 2Γ
2 (G.11)
On déduit alors que tout défaut réel FJ dont l’amplitude satisfait une telle inégalité
garantit que la RBC du Ième ensemble de variables soit supérieure au seuil de contrôle
correspondant. Si l’amplitude d’un tel défaut est importante, il est possible d’identifier
tous les ensembles de variables comme responsables en procédant à un diagnostic de
défauts par l’approche RBC comparée à ses seuils de contrôle.
154
Références bibliographiques
Acosta, G., González, C.A., et Pulido, B. (2001). Basic tasks for knowledge-based su-
pervision in process control. Engineering Applications of Artificial Intelligence, 14(4),
441–455.
Adrot, O. (2000). Diagnostic à base de modèles incertains utilisant l’analyse par inter-
valles : l’approche bornante. Thèse de doctorat, Institut National Polytechnique de
Lorraine.
Akaike, H. (1973). Information theory and an extension of the maximum likelihood prin-
ciple. In Second International Symposium on Information Theory, 267–281. Tsahkadsor,
Armenian SSR.
Alcala, C.F. et Qin, S.J. (2009). Reconstruction-based contribution for process monitoring.
Automatica, 45(7), 1593–1600.
Alcala, C.F. et Qin, S.J. (2011). Analysis and generalization of fault diagnosis methods
for process monitoring. Journal of Process Control, 21(3), 322–330.
Alt, F.B. (1982). Bonferroni Inequalities and Intervals. In Encyclopedia of Statistical

Sciences, S. Kotz and N.L. Johnson, volume 1. John Wiley & Sons, Inc.
Anderson, T.W. (1963). Asymptotic Theory for Principal Component Analysis. Annals
of Mathematical Statistics, 34(1), 122–148.
Bartlett, M.S. (1954). A Note on the Multiplying Factors for Various χ2 Approximations.
Journal of the Royal Statistical Society. Series B (Methodological), 16(2), 296–298.
Basseville, M. et Nikiforov, I.V. (1993). Detection of Abrupt Changes : Theory and Ap-
plication. Prentice-Hall, Inc.
Besse, P. et Ferré, L. (1993). Sur l’usage de la validation croisée en analyse en composantes

principales. Revue de Statistique Appliquée, 41(1), 71–76.
Box, G.E.P. (1954). Some Theorems on Quadratic Forms Applied in the Study of Analysis
of Variance Problems, I. Effect of Inequality of Variance in the One-Way Classification.
Ann. Math. Statist., 25(2), 290–302.
Breuker, J. et Van De Velde, W. (1994). CommonKADS Library for expertise modelling :

reusable problem solving components. IOS Press.
155
Cattell, R.B. (1966). The Scree Test For The Number Of Factors. Multivariate Behavioral
Research, 1(2), 245–276.
Chen, J., Bandoni, A., et Romagnoli, J.A. (1996). Robust statistical process monitoring.
Computers & Chemical Engineering, 20, Supplement 1, S497–S502.
Cheng, S.W. et Thaga, K. (2006). Single Variables Control Charts : an Overview. Quality
and Reliability Engineering International, 22(7), 811–820.
Cherry, G.A. et Qin, S.J. (2006). Multiblock principal component analysis based on a
combined index for semiconductor fault detection and diagnosis. IEEE Transactions
on Semiconductor Manufacturing, 19(2), 159–172.
Choi, S.W., Lee, C., Lee, J.M., Park, J.H., et Lee, I.B. (2005). Fault detection and
identification of nonlinear processes based on kernel PCA. Chemometrics and Intelligent
Laboratory Systems, 75(1), 55–67.
Cinar, A., Palazoğlu, A., et Kayihan, F. (2007). Chemical process performance evaluation.
CRC Press.
Conlin, A.K., Martin, E.B., et Morris, A.J. (2000). Confidence limits for contribution
plots. Journal of Chemometrics, 14(5-6), 725–736.
Duncan, A.J. (1956). The Economic Design of x̄ Charts Used to Maintain Current Control
of the Process. Journal of the American Statistical Association, 51(274), 228–242.
Dunia, R. et Qin, S.J. (1998a). A unified geometric approach to process and sensor fault
identification and reconstruction : the unidimensional fault case. Computers & Chemical
Engineering, 22(7-8), 927–943.
Dunia, R. et Qin, S.J. (1998b). Joint diagnosis of process and sensor faults using principal
component analysis. Control Engineering Practice, 6(4), 457–469.
Dunia, R. et Qin, S.J. (1998c). Subspace Approach to Multidimensional Fault Identifica-

tion and Reconstruction. AIChE Journal, 44(8), 1813–1831.
Dunia, R., Qin, S.J., Edgar, T.F., et McAvoy, T.J. (1996). Identification of faulty sensors
using principal component analysis. AIChE Journal, 42(10), 2797–2812.
Eastment, H.T. et Krzanowski, W.J. (1982). Cross-Validatory Choice of the Number of

Components from a Principal Component Analysis. Technometrics, 24(1), 73–77.
Elbekkaye, Z. (1993). Maı̂trise de la qualité totale : outils de la maı̂trise statistique des

processus (MSP ou SPC). Hermes, Paris, France.
Feigenbaum, A.V. (1983). Total quality control. McGraw-Hill.
Fortuna, L., Graziani, S., Rizzo, A., et Xibilia, M.G. (2006). Soft Sensors for Monitoring
and Control of Industrial Processes (Advances in Industrial Control). Springer-Verlag
New York, Inc.
156
Gentil, S. (2007). Supervision des procédés complexes. Hermes Science Publications.
Gerlter, J.J. (1998). Fault Detection and Diagnosis in Engineering Systems. Marcel
Dekker.
Guttman, L. (1954). Some necessary conditions for common-factor analysis. Psychome-

trika, 19(2), 149–161.
Harkat, M.F. (2003). Détection et Localisation de Défauts par Analyse en Composantes

Principales. Thèse de doctorat, Institut National Polytechnique de Lorraine.
Harkat, M.F., Djelel, S., Doghmane, N., et Benouaret, M. (2007). Sensor Fault Detection,
Isolation and Reconstruction Using Nonlinear Principal Component Analysis. Interna-
tional Journal of Automation and Computing, 4(2), 149–155.
Harkat, M.F., Mourot, G., et Ragot, J. (2002). Différentes méthodes de localisation de

défauts basées sur les dernières composantes principales. In Conférence Internationale
Francophone d’Automatique. Nantes, France.
Harkat, M.F., Mourot, G., et Ragot, J. (2005). Diagnostic de fonctionnement de capteurs

d’un réseau de surveillance de la qualité de l’air par analyse en composantes principales.
Journal Européen des Systèmes Automatisés, 39(4), 417–436.
Harkat, M.F., Mourot, G., et Ragot, J. (2006). An improved PCA scheme for sensor FDI :
Application to an air quality monitoring network. Journal of Process Control, 16(6),
625–634.
Hawkins, D.M. (1974). The Detection of Errors in Multivariate Data Using Principal
Components. Journal of the American Statistical Association, 69(346), 340–344.
Hawkins, D.M. et Maboudou-Tchao, E.M. (2008). Multivariate Exponentially Weighted

Moving Covariance Matrix. Technometrics, 50(2), 155–166.
Hayter, A.J. et Tsui, K.L. (1994). Identification and Quantification In Multivariate Qua-
lity Control Problems. Journal of Quality Technology, 26(3), 197–208.
Healy, J.D. (1987). A Note on Multivariate CUSUM Procedures. Technometrics, 29(4),

409–412.
Hernández-De-León, H.R. (2006). Supervision et diagnostic des procédés de production

d’eau potable. Thèse de doctorat, Institut National des Sciences Appliquées de Toulouse.
Hotelling, H. (1933). Analysis of a complex of statistical variables into principal compo-

nents. Journal of Educational Psychology, 24(7), 498–520.
Hotelling, H. (1947). Selected Techniques of Statistical Analysis for Scientific and Indus-
trial Research and Production and Management Engineering, chapter Multivariate Qua-
lity Control, Illustrated by the Air Testing of Sample Bombsights, 111–184. McGraw-
Hill Book Company.
157
Huang, Y., Gertler, J., et McAvoy, T.J. (2000). Sensor and actuator fault isolation by
structured partial PCA with nonlinear extensions. Journal of Process Control, 10(5),
459–469.
Hubert, M., Rousseeuw, P.J., et Branden, K.V. (2005). ROBPCA : A New Approach to
Robust Principal Component Analysis. Technometrics, 47(1), 64–79.
Hunter, J.S. (1986). The exponentially weighted moving average. Journal of Quality
Technology, 18(4), 203–210.
Isermann, R. (1997). Supervision, fault-detection and fault-diagnosis methods – An in-

troduction. Control Engineering Practice, 5(5), 639–652.
Isermann, R. (2005). Model-based fault-detection and diagnosis – status and applications.

Annual Reviews in Control, 29(1), 71–85.
Isermann, R. (2011). Fault Diagnosis Applications : Model Based Condition Monitoring,

Actuators, Drives, Machinery, Plants, Sensors, and Fault-tolerant Systems. Springer.
Isermann, R. et Ballé, P. (1997). Trends in the application of model-based fault detection

and diagnosis of technical processes. Control Engineering Practice, 5(5), 709–719.
Jackson, J.E. (1980). Principal Components and Factor Analysis : Part I - Principal
Components. Journal of Quality Technology, 12(4), 201–213.
Jackson, J.E. (1991). A User’s Guide to Principal Components. John Wiley & Sons Inc.
Jackson, J.E. et Mudholkar, G.S. (1979). Control Procedures for Residuals Associated
with Principal Component Analysis. Technometrics, 21(3), 341–349.
Jia, F., Martin, E.B., et Morris, A.J. (1998). Non-linear Principal Components Analysis
for Process Fault Detection. Computers & Chemical Engineering, 22, Supplement 1,
S851–S854.
Jolliffe, I.T. (2002). Principal Component Analysis. Springer-Verlag, 2nd edition.
Kaiser, H.F. (1961). A note on Guttman’s lower bound for the number of common factors.
British Journal of Statistical Psychology, 14(1), 1–2.
Kariwala, V., Odiowei, P.E., Cao, Y., et Chen, T. (2010). A branch and bound method
for isolation of faulty variables through missing variables analysis. Journal of Process
Control, 20(10), 1198–1206.
Kourti, T. (2005). Application of latent variable methods to process control and multiva-
riate statistical process control in industry. International Journal of Adaptive Control
and Signal Processing, 19(4), 213–246.
Kourti, T. et MacGregor, J.F. (1995). Process analysis, monitoring and diagnosis, using
multivariate projection methods. Chemometrics and Intelligent Laboratory Systems,
28(1), 3–21.
158
Kourti, T. et MacGregor, J.F. (1996). Multivariate SPC Methods for Process and Product
Monitoring. Journal of Quality Technology, 28(4), 409–428.
Kourti, T., Nomikos, P., et MacGregor, J.F. (1995). Analysis, monitoring and fault diag-
nosis of batch process using multiblock and multiway PLS. Journal of Process Control,
5(4), 277–284.
Kresta, J.V., MacGregor, J.F., et Marlin, T.E. (1991). Multivariate statistical monitoring
of process operating performance. The Canadian Journal of Chemical Engineering,
69(1), 35–47.
Lawley, D.N. (1956). Tests of Significance for the Latent Roots of Covariance and Corre-
lation Matrices. Biometrika, 43(1/2), 128–136.
Lee, J.M., Yoo, C., Choi, S.W., Vanrolleghem, P.A., et Lee, I.B. (2004). Nonlinear process
monitoring using kernel principal component analysis. Chemical Engineering Science,
59(1), 223–234.
Li, W. et Qin, S.J. (2001). Consistent dynamic PCA based on errors-in-variables subspace
identification. Journal of Process Control, 11(6), 661–678.
Lowry, C.A., Woodall, W.H., Champ, C.W., et Rigdon, S.E. (1992). A Multivariate
Exponentially Weighted Moving Average Control Chart. Technometrics, 34(1), 46–53.
MacGregor, J.F. et Kourti, T. (1995). Statistical process control of multivariate processes.

Control Engineering Practice, 3(3), 403–414.
Malinowski, E.R. (1977). Determination of the number of factors and the experimental
error in a data matrix. Analytical Chemistry, 49(4), 612–617.
Mason, R.L., Tracy, N.D., et Young, J.C. (1995). Decomposition of T2 for Multivariate
Control Chart Interpretation. Journal of Quality Technology, 27(2), 109–119.
Mason, R.L., Tracy, N.D., et Young, J.C. (1996). Monitoring a Multivariate Step Process.
Journal of Quality Technology, 28(1), 39–50.
Miller, P., Swanson, R.E., et Heckler, C.E. (1998). Contribution plots : A missing link in
multivariate quality control. Applied Mathematics and Computer Science, 8(4), 775–
792.
Mnassri, B., Ananou, B., El Adel, E.M., Ouladsine, M., et Gasnier, F. (2008a). Détection
et localisation de défauts des Wafers par des approches statistiques multivarièes et calcul
des contributions. In Conférence Internationale Francophone d’Automatique. Bucarest,
Romanie.
Mnassri, B., El Adel, E.M., Ananou, B., et Ouladsine, M. (2009a). Détection et Identifica-
tion de défauts par Analyse en Composantes Principales. In 3èmes Journées Doctorales
/ Journées Nationales MACS. Angers, France.
159
Mnassri, B., El Adel, E.M., Ananou, B., et Ouladsine, M. (2009b). Fault Detection and
Diagnosis Based on PCA and a New Contribution Plots. In 7th IFAC Symposium on
Fault Detection, Supervision and Safety of Technical Processes, 834–839. Barcelona,
Spain.
Mnassri, B., El Adel, E.M., Ananou, B., et Ouladsine, M. (2010a). A Generalized Variance
of Reconstruction Error Criterion for Determining the Optimum Number of Principal
Components. In 18th Mediterranean Conference on Control and Automation, 868–873.
IEEE, Marrakech, Morocco.
Mnassri, B., El Adel, E.M., Ananou, B., et Ouladsine, M. (2010b). Selection of the Number
of Principal Components Based on the Fault Reconstruction Approach Applied to a
New Combined Index. In 49th IEEE Conference on Decision and Control, 3307–3312.
Atlanta, Georgia, USA.
Mnassri, B., El Adel, E.M., et Ouladsine, M. (2008b). Fault Localization Using Principal
Component Analysis Based on a New Contribution to the Squared Prediction Error.
In 16th Mediterranean Conference on Control and Automation, 65–70. IEEE, Ajaccio,
France.
Mnassri, B., El Adel, E.M., et Ouladsine, M. (2010c). New VRE Criterion to Select the
Optimum Number of PCs. In 11th International conference on Sciences and Techniques
of Automatic control & computer engineering, 1–13. Monastir, Tunisia.
Mnassri, B., El Adel, E.M., et Ouladsine, M. (2011a). Inverse-Variance Weighting PCA-

based VRE criterion to select the optimal number of PCs. In 18th IFAC World Congress,
2851–2856. Milano, Italy.
Mnassri, B., El Adel, E.M., et Ouladsine, M. (2011b). Une généralisation sur les conditions
suffisantes de détectabilité de défauts multidimensionnels par ACP. In Conférence
Méditerranéenne sur l’Ingénierie Sûre des Systèmes Complexes. Agadir, Maroc.
Mnassri, B., El Adel, E.M., et Ouladsine, M. (2012a). Unified Sufficient Conditions for
PCA-based Fault Detectability and Isolability. In 8th IFAC Symposium on Fault De-
tection, Supervision and Safety of Technical Processes, 421–426. Mexico City, Mexico.
Mnassri, B., Ouladsine, M., et El Adel, E.M. (2012b). Diagnostic de défauts par l’ap-
proche RBC ratio. In Conférence Internationale Francophone d’Automatique, 114–119.
Grenoble, France.
Montgomery, D.C. (2001). Introduction to statistical quality control. John Wiley.
Nenes, G. et Tagaras, G. (2007). The economically designed two-sided Bayesian control

chart. European Journal of Operational Research, 183(1), 263–277.
Niang, N. et Saporta, G. (1995). Période opérationnelle moyenne de la carte de moyennes

mobiles équipondérées pour le contrôle du centrage d’un procédé. Revue de Statistique
Appliquée, 43(3), 5–20.
160
Nomikos, P. (1996). Detection and diagnosis of abnormal batch operations based on
multi-way principal component analysis. ISA transactions, 35(3), 259–266.
Nomikos, P. et MacGregor, J.F. (1994). Monitoring Batch Processes Using Multiway

Principal Component Analysis. AIChE Journal, 40(8), 1361–1375.
Nomikos, P. et MacGregor, J.F. (1995). Multivariate SPC Charts for Monitoring Batch
Processes. Technometrics, 37(1), 41–59.
Page, E.S. (1954). Continuous Inspection Schemes. Biometrika, 41(1/2), 100–115.
Pearson, K. (1901). On Lines and Planes of Closest Fit to Systems of Points in Space.
Philosophical Magazine, 2(6), 559–572.
Ploix, S. (1998). Diagnostic des systèmes incertains : Approche bornante. Thèse de

doctorat, Université Henri Poincaré.
Qin, S.J. (2003). Statistical process monitoring : basics and beyond. Journal of Chemo-
metrics, 17(8–9), 480–502.
Qin, S.J. et Dunia, R. (2000). Determining the number of principal components for best
reconstruction. Journal of Process Control, 10(2), 245–250.
Qin, S.J., Valle, S., et Piovoso, M.J. (2001). On unifying multiblock analysis with appli-
cation to decentralized process monitoring. Journal of Chemometrics, 15(9), 715–742.
Raich, A. et Çinar, A. (1996). Statistical Process Monitoring and Disturbance Diagnosis

in Multivariable Continuous Processes. AIChE Journal, 42(4), 995–1009.
Ripoll, P. (1999). Conception d’un système de diagnostic flou appliqué au moteur auto-
mobile. Thèse de doctorat, Université de Savoie.
Rissanen, J. (1978). Modeling by shortest data description. Automatica, 14(5), 465–471.
Roberts, S.W. (1959). Control Chart Tests Based on Geometric Moving Averages. Tech-
nometrics, 1(3), 239–250.
Schölkopf, B., Smola, A., et Müller, K.R. (1998). Nonlinear Component Analysis as a
Kernel Eigenvalue Problem. Neural Computation, 10(5), 1299–1319.
Schwarz, G. (1978). Estimating the Dimension of a Model. The Annals of Statistics, 6(2),
461–464.
Shao, R., Jia, F., Martin, E.B., et Morris, A.J. (1999). Wavelets and non-linear principal
components analysis for process monitoring. Control Engineering Practice, 7(7), 865–
879.
Shewhart, W.A. (1931). Economic control of quality of manufactured product. American

Society for Quality Control.
161
Shrager, R.I. et Hendler, R.W. (1982). Titration of individual components in a mixture

with resolution of difference spectra, pKs, and redox transitions. Analytical Chemistry,
54(7), 1147–1152.
Smilde, A.K., Bro, R., et Geladi, P. (2004). Multi-way analysis with applications in the
chemical sciences. J. Wiley.
Sun, R., Tsung, F., et Qu, L. (2007). Evolving kernel principal component analysis for
fault diagnosis. Computers & Industrial Engineering, 53(2), 361–371.
Tamura, M. et Tsujita, S. (2007). A study on the number of principal components and

sensitivity of fault detection using PCA. Computers & Chemical Engineering, 31(9),
1035–1046.
Tharrault, Y. (2008). Diagnostic de fonctionnement par analyse en composantes prin-

cipales : Application à une station de traitement des eaux usées. Thèse de doctorat,
Institut National Polytechnique de Lorraine.
Tharrault, Y., Mourot, G., Ragot, J., et Maquin, D. (2008). Fault detection and isolation
with robust principal component analysis. Int. J. Appl. Math. Comput. Sci., 18(4),
429–442.
Tiplica, T. (2002). Contributions à la Maı̂trise Statistique des Processus Industriels Mul-

tivariés. Thèse de doctorat, Université d’Angers.
Valle, S., Li, W., et Qin, S.J. (1999). Selection of the Number of Principal Components :
The Variance of the Reconstruction Error Criterion with a Comparison to Other Me-
thods. Ind. Eng. Chem. Res., 38(11), 4389–4401.
Vargas, V.C.C., Lopes, L.F.D., et Souza, A.M. (2004). Comparative study of the perfor-
mance of the CuSum and EWMA control charts. Computers & Industrial Engineering,
46(4), 707–724.
Vellemans, P. (2006). Contribution à la conception d’un outil adapté à l’Opérateur Humain

pour la reconstruction d’une traçabilité « approchée ». Thèse de doctorat, Université de
Reims Champagne-Ardenne.
Verron, S., Tiplica, T., et Kobi, A. (2008). Fault detection and identification with a
new feature selection based on mutual information. Journal of Process Control, 18(5),
479–490.
Wang, H., Zhou, H., et Hang, B. (2004). Number selection of principal components with
optimized process monitoring performance. In 43th IEEE Conference on Decision and
Control, 4726–4731. Paradise Island, Bahamas.
Wax, M. et Kailath, T. (1985). Detection of signals by information theoretic criteria.

IEEE Transactions on Acoustics, Speech and Signal Processing, 33(2), 387–392.
162
Westerhuis, J.A., Gurden, S.P., et Smilde, A.K. (2000a). Generalized contribution plots
in multivariate statistical process monitoring. Chemometrics and Intelligent Laboratory
Systems, 51(1), 95–114.
Westerhuis, J.A., Gurden, S.P., et Smilde, A.K. (2000b). Standardized Q-statistic for
improved sensitivity in the monitoring of residuals in MSPC. Journal of Chemometrics,
14(4), 335–349.
Wise, B.M., Gallagher, N.B., Bro, R., Shaver, J.M., Windig, W., et Koch, R.S. (2006).
PLS Toolbox User Manual. Eigenvector Research, Inc., Wenatchee, USA.
Wold, S. (1978). Cross-Validatory Estimation of the Number of Components in Factor

and Principal Components Models. Technometrics, 20(4), 397–405.
Woodall, W.H. et Ncube, M.M. (1985). Multivariate CUSUM Quality-Control Procedures.

Technometrics, 27(3), 285–292.
Woodward, R.H. et Goldsmith, P.L. (1964). Cumulative sum techniques. Oliver & Boyd.
Yeomans, K.A. et Golder, P.A. (1982). The Guttman-Kaiser Criterion as a Predictor of

the Number of Common Factors. The Statistician, 31(3), 221–229.
Yoon, S. et MacGregor, J.F. (2001). Fault diagnosis with multivariate statistical models
part I : using steady state fault signatures. Journal of Process Control, 11(4), 387–400.
Yue, H.H. et Qin, S.J. (2001). Reconstruction-Based Fault Identification Using a Combi-
ned Index. Ind. Eng. Chem. Res., 40(20), 4403–4414.
Zaı̈di, A. (1989). SPC : Concepts, méthodologies et outils. Technique et Documentation,

Paris, France.
Zwingelstein, G. (1995). Diagnostic des défaillances : théorie et pratique pour les systèmes
industriels. Traité des nouvelles technologies. Série Diagnostic et maintenance. Hermès.
163
Résumé
Ce mémoire de thèse présente une étude fondamentale enrichie par des contributions qui sont articulées
autour de la modélisation de processus ainsi qu’un diagnostic de défauts en utilisant l’analyse en composantes
principales (ACP).
Dans l’objectif d’un choix optimal du modèle ACP, une étude comparative de quelques critères connus
dans la littérature nous a permis de conclure que le problème rencontré est souvent lié à une ignorance des
variables indépendantes et quasi-indépendantes. Dans ce cadre, nous avons réalisé deux démonstrations mettant
en évidence les limitations de deux critères en particulier la variance non reconstruite (VNR). En s’appuyant sur
le principe d’une telle variance, nous avons proposé trois nouveaux critères. Parmi eux, deux ont été considérés
comme étant empiriques car seule l’expérience permettra de prouver leur efficacité. Le troisième critère noté
VNRVI représente un remède à la limitation du critère VNR. Une étude de sa consistance théorique a permis
d’établir les conditions garantissant l’optimalité de son choix. Les résultats de simulation ont validé une telle
théorie en prouvant ainsi que le critère VNRVI étant plus efficace que ceux étudiés dans cette thèse.
Dans le cadre d’un diagnostic de défauts par ACP, l’approche de reconstruction des indices de détection ainsi
que celle des contributions ont été utilisées. A travers une étude de généralisation, nous avons étendu le concept
d’isolabilité de défauts par reconstruction à tout indice quadratique. Une telle généralisation nous a permis
d’élaborer une analyse théorique d’isolabilité de défauts par reconstruction de la distance combinée versus celles
des indices SP E et T 2 de Hotelling en mettant en avant l’avantage de l’utilisation d’une telle distance. D’autre
part, nous avons proposé une nouvelle méthode de contribution par décomposition partielle de l’indice SP E.
Cette approche garantit un diagnostic correct de défauts simples ayant de grandes amplitudes. Nous avons
également étendu une méthode de contribution classiquement connue par la RBC au cas multidimensionnel.
Ainsi, la nouvelle forme garantit un diagnostic correct de défauts multiples de grandes amplitudes. En considérant
la complexité de défauts, nous avons exploité la nouvelle approche de contribution RBC afin de proposer une
nouvelle qui s’appelle RBCr. Cette dernière s’appuie sur un seuil de tolérance pour l’isolation de défauts.
Une analyse de diagnosticabilité basée sur la RBCr montre que celle-ci garantit l’identification des défauts
détectables. Ces derniers sont garantis isolables si leurs amplitudes satisfont les mêmes conditions d’isolabilité
établies pour l’approche de reconstruction des indices.
Mots-clés : ACP, modélisation de processus, variance non reconstruite, détection et détectabilité de défauts,
isolation et isolabilité de défauts, reconstruction, contribution, diagnostic.
Abstract
This thesis presents a fundamental study enhanced by some contributions that are focused on process
modelling and fault diagnosis using principal component analysis (PCA).
In order to find an optimal PCA model, we have concluded through a comparative study of some popular
criteria that the problem is often related to an ignorance of the independent and quasi-independent variables. In
this framework, we have performed two demonstrations highlighting the limitations of two selection criteria in
particular the unreconstructed variance (VNR). Based on the principle of VNR approach, we have proposed
three new criteria, among them two methods were considered as empirical criteria because only the experience
will prove their effectiveness. However the third one which is noted VNRVI represents a cure for the limitation
of the classical VNR criterion. Thus, the conditions that ensure an optimal selection were derived according
to a theoretical consistency study of the VNRVI approach. The simulation results have successfully validated
the VNRVI criterion by proving that is more effective than the other studied criteria in the present thesis.
The reconstruction and contribution approaches were used for fault diagnosis using PCA. According to a
unified study, we have extended the fault isolability concept based on the reconstruction method to any detection
index which has a quadratic form. Such generalization has allowed us to develop a theoretical fault isolability
analysis based on the reconstruction of the combined index versus those of SP E and T 2 indices. This analysis has
highlighted the advantage of using the combined index for fault isolation. On the other hand, we have proposed
a new contribution approach by applying a partial decomposition of the SP E index. This approach guarantees
correct diagnosis of simple faults with large magnitudes. We have also extended the classical contribution
method of RBC to the multidimensional fault cases. Therefore, the new approach guarantees correct diagnosis
of multiple faults with large magnitudes. In order to consider the more complex faults, we have proposed a
new diagnosis method called RBCr. Based on a theoretical diagnosability analysis, such method guarantees the
identification of detectable complex faults. These faults are guaranteed isolable if their magnitudes satisfy the
same fault isolability conditions that are established for the reconstruction approach.
Keywords: PCA, process modelling, unreconstructed variance, fault detection and detectability, fault isolation
and isolability, reconstruction, contribution, diagnosis.
View publication stats

Thse Mnassri

Transféré par

Droits d'auteur :

Formats disponibles

Thse Mnassri

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Thse Mnassri

Transféré par

Droits d'auteur :

Formats disponibles

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

Multivariate data analysis and monitoring of industrial processes by principal

Article · October 2012

The user has requested enhancement of the downloaded file.

Analyse de données multivariées et

Thesis · October 2012

The user has requested enhancement of the downloaded file.

Analyse de données multivariées et

Doctorat de l’Université d’Aix-Marseille

Rapporteurs : José RAGOT Professeur à l’INPL, Université de Lorraine

Laboratoire des Sciences de l’Information et des Systèmes – UMR CNRS 7296

Je tiens tout d’abord à exprimer mes sincères remerciements à Messieurs Mustapha

Je souhaite ensuite exprimer toute ma gratitude à Monsieur José RAGOT, Professeur

Mes remerciements s’adressent également à Monsieur Jean-Marc THIRIET, Profes-

Table des figures ix

Conclusion générale & perspectives

Annexe A Limitation du critère VNR 137

Annexe B Limitation du critère IE 143

Annexe C Démonstration de la décroissance d’une fonction 145

Annexe D Consistance théorique du critère VNRVI 147

Annexe E Relation entre un seuil de contrôle et celui reconstruit 149

Annexe F Démonstrations d’unification 151

Annexe G Invalidité d’un diagnostic par comparaison des RBC à leurs

Références bibliographiques 155

1.1 Ordonnancement des anomalies selon leur criticité (Adrot, 2000) . . . . . . 9

3.1 Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et

4.1 Sous-espace d’isolabilité de défauts par reconstruction de l’indice combiné

suffisantes de détectabilité de défauts multidimensionnels par ACP. In Conférence

X ∈ RN ×m Matrice de données représentant le fonctionnement normal

Γ2 Seuil de contrôle correspondant à l’indice γ

variables limitent l’efficacité en terme d’isolation de défauts par l’interprétation directe de

2 Organisation du rapport de thèse

1.2 Supervision des processus

1.2.1 Concepts associés à la supervision des processus

différences provenant du fait que la supervision, la détection et le diagnostic de défauts

Limite de Limite de Plus de Criticité des

ractérisé par un ensemble d’observations en provenance d’un système physique et

1.2.2 Les étapes de la supervision

Connaissances sur le comportement

Détection : identification Identification

Symptômes, Attributs Prise de décisions

Surveillance Diagnostic Maintenance

Figure 1.2 – Les principales étapes de la supervision

1.3 Théorie de la surveillance et du diagnostic

1.3.2 Diagnostic de défauts

1.3.2.1 Caractéristiques des défauts

1.3.2.2 Principe du diagnostic

du défaut. Cette fonction devrait déterminer l’endroit de la panne (le composant

1.3.3 Critères de performance pour la détection et le diagnostic

1.4 Techniques statistiques pour la détection et le

1.4.1 Cartes de contrôle univariées

1.4.1.1 Définitions des cartes de contrôle

1.4.1.2 Rôle et critères de performance des cartes univariées

LI de Surveillance (-2 sigma)

Figure 1.3 – Carte de contrôle typique

corrective doit être entreprise pour l’identification et la suppression ou l’isolation de ces

étudiée, exprimé en nombre d’écarts types.

1.4.1.3 Aperçu sur les cartes univariées

où xi (k) est la mesure de la variable i au moment de l’échantillonnage k et µi représente