Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Thse Mnassri

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 185

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/281184194

Multivariate data analysis and monitoring of industrial processes by principal


component analysis

Article · October 2012

CITATIONS READS

0 82

1 author:

Baligh Mnassri
Aix-Marseille Université
15 PUBLICATIONS 189 CITATIONS

SEE PROFILE

All content following this page was uploaded by Baligh Mnassri on 08 April 2017.

The user has requested enhancement of the downloaded file.


See discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/256706411

Analyse de données multivariées et


surveillance des processus industriels par
analyse en composantes principales

Thesis · October 2012

CITATIONS READS

0 113

1 author:

Baligh Mnassri
Aix-Marseille Université
15 PUBLICATIONS 55 CITATIONS

SEE PROFILE

All content following this page was uploaded by Baligh Mnassri on 08 April 2017.

The user has requested enhancement of the downloaded file.


Université d’Aix-Marseille
École Doctorale en Mathématiques et Informatique de Marseille – ED 184

Analyse de données multivariées et


surveillance des processus industriels
par analyse en composantes principales

THÈSE
présentée et soutenue publiquement le 12 octobre 2012

pour l’obtention du

Doctorat de l’Université d’Aix-Marseille


Spécialité Automatique

par

Baligh MNASSRI

Composition du jury

Rapporteurs : José RAGOT Professeur à l’INPL, Université de Lorraine


Abdessamad KOBI Professeur à l’Université d’Angers
Examinateurs : Jean-Marc THIRIET Professeur à l’Université Joseph Fourier
Rachid OUTBIB Professeur à l’Université d’Aix-Marseille
Mustapha OULADSINE Professeur à l’Université d’Aix-Marseille
(Directeur de thèse)
El Mostafa EL ADEL Maı̂tre de Conférences à l’Université d’Aix-Marseille
(Co-directeur de thèse)
Invité : Jacques PINATON Ingénieur à STMicroelectronics Rousset

Laboratoire des Sciences de l’Information et des Systèmes – UMR CNRS 7296


Avenue Escadrille Normandie Niemen, 13397 Marseille Cedex 20
Tél : +33 (0)4 91 05 60 30 Fax : +33 (0)4 91 05 60 33
Mis en page avec la classe thloria.
Remerciements
Les travaux de recherche présentés dans ce mémoire ont été effectués au sein de l’équipe
ESCODI (EStimation COmmande et Diagnostic) dans le Laboratoire des Sciences de
l’Information et des Systèmes (LSIS – UMR 7296 CNRS).

Je tiens tout d’abord à exprimer mes sincères remerciements à Messieurs Mustapha


OULADSINE et El Mostafa EL ADEL pour leur constante disponibilité, leurs aides et
leurs encouragements qu’ils m’ont toujours prodigués ainsi que pour m’avoir fait bénéficier
amplement de leur rigueur scientifique, de leurs critiques objectives et de leurs conseils
avisés.

Je souhaite ensuite exprimer toute ma gratitude à Monsieur José RAGOT, Professeur


à l’INPL de l’Université de Lorraine, ainsi qu’à Monsieur Abdessamad KOBI, Professeur
à l’Université d’Angers, pour avoir accepté de juger ce travail en qualité de rapporteurs
et d’assister parmi le jury.

Mes remerciements s’adressent également à Monsieur Jean-Marc THIRIET, Profes-


seur à l’Université Joseph Fourier, à Monsieur Rachid OUTBIB, Professeur à l’Université
d’Aix-Marseille ainsi qu’à Monsieur Jacques PINATON, Ingénieur et chef d’équipe à ST-
Microelectronics Rousset, pour leur participation à ce jury de thèse.

Je n’oublie pas dans mes remerciements tous ceux et celles qui ont contribué à la
réussite de ces travaux, en particulier, Madame Bouchra ANANOU, Maı̂tre de Conférences
à l’Université d’Aix-Marseille.

Je remercie mes amis et mes collègues de laboratoire, pour l’ambiance conviviale qu’ils
ont contribuée à entretenir, les bons moments passés en leur compagnie ainsi que leur
sympathie.

Enfin, je ne saurais oublier de trop remercier mes parents pour leur soutien le long de
ce parcours.

i
ii
À mes très chers parents.
À ma femme et mon petit Yamène.
À mon frère et mes sœurs.

iii
iv
Table des matières

Table des figures ix

Références personnelles xi

Notations xiii

Introduction générale

1 Contexte et objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2 Organisation du rapport de thèse . . . . . . . . . . . . . . . . . . . . . . . 3

Chapitre 1
Supervision, surveillance et diagnostic

1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Supervision des processus . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Concepts associés à la supervision des processus . . . . . . . . . . . 7
1.2.2 Les étapes de la supervision . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Théorie de la surveillance et du diagnostic . . . . . . . . . . . . . . . . . . 10
1.3.1 La surveillance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Diagnostic de défauts . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 Critères de performance pour la détection et le diagnostic . . . . . . 14
1.4 Techniques statistiques pour la détection et le diagnostic . . . . . . . . . . 15
1.4.1 Cartes de contrôle univariées . . . . . . . . . . . . . . . . . . . . . . 15
1.4.2 Limitations des cartes univariées . . . . . . . . . . . . . . . . . . . 20
1.4.3 Extensions multivariées des cartes univariées . . . . . . . . . . . . . 21
1.4.4 Méthodes de projection . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.5 Interprétations des situations hors contrôle . . . . . . . . . . . . . . 25
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

v
Table des matières

Chapitre 2
Modélisation par analyse en composantes principales

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Analyse en composantes principales linéaire . . . . . . . . . . . . . . . . . 29
2.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Modélisation en absence de bruit . . . . . . . . . . . . . . . . . . . 34
2.3.2 Modélisation en présence de bruit . . . . . . . . . . . . . . . . . . . 36
2.4 Détermination d’une structure optimale du modèle ACP . . . . . . . . . . 36
2.4.1 Critères de la théorie de l’information . . . . . . . . . . . . . . . . . 36
2.4.2 Critères heuristiques . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.3 Minimisation de la variance de l’erreur de reconstruction . . . . . . 41
2.5 Etude comparative des différents critères . . . . . . . . . . . . . . . . . . . 45
2.5.1 Présentation et interprétation de l’exemple simulé . . . . . . . . . . 46
2.5.2 Interprétations des critères basés sur des seuils . . . . . . . . . . . . 48
2.5.3 Interprétations des critères minimisés . . . . . . . . . . . . . . . . . 51
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

Chapitre 3
Contribution au choix d’un modèle optimal par la variance non recons-
truite

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Détection et détectabilité de défauts . . . . . . . . . . . . . . . . . . . . . 64
3.2.1 Détectabilité généralisée de défauts . . . . . . . . . . . . . . . . . . 64
3.2.2 Influence de la modélisation sur la détectabilité de défauts . . . . . 71
3.3 Différentes variances non reconstruites . . . . . . . . . . . . . . . . . . . . 73
3.3.1 Principe de la reconstruction unidimensionnelle . . . . . . . . . . . 73
3.3.2 Variance non reconstruite généralisée . . . . . . . . . . . . . . . . . 74
3.3.3 Comportements des différents critères VNR . . . . . . . . . . . . . 76
3.4 Nouveaux critères VNR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
3.4.1 VNR utilisant un nouvel indice combiné . . . . . . . . . . . . . . . 81
3.4.2 Changement de représentation des données . . . . . . . . . . . . . . 83
3.5 Résultats de simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

vi
Chapitre 4
Théorie d’un diagnostic de défauts par ACP

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2 Isolation et isolabilité de défauts par reconstruction . . . . . . . . . . . . . 98
4.2.1 Généralisation de l’isolation et l’isolabilité de défauts . . . . . . . . 98
4.2.2 Analyse d’isolabilité par reconstruction de l’indice combiné versus
celles de SPE et T2 de Hotelling . . . . . . . . . . . . . . . . . . . 105
4.3 Diagnostic de défauts simples par les contributions . . . . . . . . . . . . . 107
4.3.1 Contributions par décomposition complète : CDC . . . . . . . . . . 109
4.3.2 Contributions par décomposition partielle : PDC . . . . . . . . . . 109
4.3.3 Contributions diagonales : DC . . . . . . . . . . . . . . . . . . . . . 112
4.3.4 Contributions par reconstruction : RBC . . . . . . . . . . . . . . . 112
4.3.5 Contributions par angle : ABC . . . . . . . . . . . . . . . . . . . . 113
4.3.6 Analyse de diagnosticabilité . . . . . . . . . . . . . . . . . . . . . . 113
4.4 Nouvelles approches pour un diagnostic de défauts multiples . . . . . . . . 115
4.4.1 Contributions par reconstruction multidimensionnelle . . . . . . . . 116
4.4.2 RBC ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.5 Exemple de synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
4.5.1 Diagnostic d’un défaut simple . . . . . . . . . . . . . . . . . . . . . 122
4.5.2 Diagnostic de défauts multiples . . . . . . . . . . . . . . . . . . . . 123
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

Conclusion générale & perspectives

Annexe A Limitation du critère VNR 137

Annexe B Limitation du critère IE 143

Annexe C Démonstration de la décroissance d’une fonction 145

Annexe D Consistance théorique du critère VNRVI 147

Annexe E Relation entre un seuil de contrôle et celui reconstruit 149

Annexe F Démonstrations d’unification 151

vii
Table des matières

Annexe G Invalidité d’un diagnostic par comparaison des RBC à leurs


seuils de contrôle 153

Références bibliographiques 155

viii
Table des figures

1.1 Ordonnancement des anomalies selon leur criticité (Adrot, 2000) . . . . . . 9


1.2 Les principales étapes de la supervision . . . . . . . . . . . . . . . . . . . . 10
1.3 Carte de contrôle typique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Illustration de l’inconvénient de l’utilisation des cartes univariées . . . . . . 21

2.1 Allures des critères de sélection pour l’ensemble A dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002 . . . . . . . . . . . . . 49
2.2 Allures des critères de sélection pour l’ensemble B dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002 . . . . . . . . . . . . . 49
2.3 Allures des critères de sélection pour l’ensemble C dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002 . . . . . . . . . . . . . 50
2.4 Allures des critères de sélection pour l’ensemble D dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002 . . . . . . . . . . . . . 50

3.1 Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et


VNRΨ sur tous les ensembles des variables avec un bruit i.i.d. de variance
σ 2 = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et
VNRΨ sur tous les ensembles des variables avec un bruit i.i.d. de variance
σ 2 = 0.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.3 Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et
VNRΨ sur tous les ensembles des variables avec un bruit i.i.d. de variance
σ 2 = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.4 Allures des nouveaux critères appliquées sur les ensembles A et B, respec-
tivement en 1ère et 2ème colonne, en considérant un bruit i.i.d. de variance
σ 2 = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
3.5 Allures des nouveaux critères appliquées sur les ensembles C et D, respec-
tivement en 1ère et 2ème colonne, en considérant un bruit i.i.d. de variance
σ 2 = 0.002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

4.1 Sous-espace d’isolabilité de défauts par reconstruction de l’indice combiné


en fonction de ceux des indices SP E et T 2 de Hotelling . . . . . . . . . . . 107
4.2 Sélection du nombre optimal des CPs . . . . . . . . . . . . . . . . . . . . . 120
4.3 Détection des défauts avec les différents indices . . . . . . . . . . . . . . . 121
4.4 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice SPE 124

ix
Table des figures

4.5 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice SWE 124
4.6 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice T2 . 125
4.7 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice ϕ . . 125
4.8 Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice D . 126
4.9 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice SPE 126
4.10 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice SWE 127
4.11 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice T2 127
4.12 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice ϕ . 128
4.13 Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice D . 128
4.14 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice SPE 129
4.15 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice SWE 129
4.16 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice T2 130
4.17 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice ϕ . 130
4.18 Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice D . 131

x
Références personnelles

Conférences nationales
– B. Mnassri, E.M. El Adel, B. Ananou, and M. Ouladsine. Détection et Identification
de défauts par Analyse en Composantes Principales. In 3èmes Journées Doctorales
/ Journées Nationales MACS, Angers, France, 2009.
– B. Mnassri. Diagnostic de Défauts par Analyse en Composantes Principales. In
6èmes Journées des Doctorants du LSIS, Giens, Hyères, France, 2009.

Conférences internationales
– B. Mnassri, B. Ananou, E.M. El Adel, M. Ouladsine and F. Gasnier. Détection
et localisation de défauts des Wafers par des approches statistiques multivarièes et
calcul des contributions. In Conférence Internationale Francophone d’Automatique,
Bucarest, Romanie, 2008.
– B. Mnassri and E.M. El Adel and M. Ouladsine. Fault Localization Using Principal
Component Analysis Based on a New Contribution to the Squared Prediction Error.
In 16th IEEE Mediterranean Conference on Control and Automation, pages 65–70,
Ajaccio, France, 2008.
– B. Mnassri, E.M. El Adel, B. Ananou, and M. Ouladsine. Fault Detection and
Diagnosis Based on PCA and a New Contribution Plots. In 7th IFAC Symposium
on Fault Detection, Supervision and Safety of Technical Processes, pages 834–839,
Barcelona, Spain, 2009.
– B. Mnassri, E.M. El Adel, B. Ananou, and M. Ouladsine. A Generalized Variance of
Reconstruction Error Criterion for Determining the Optimum Number of Principal
Components. In 18th IEEE Mediterranean Conference on Control and Automation,
pages 868–873, Marrakech, Morocco, 2010.
– B. Mnassri, E.M. El Adel, M. Ouladsine and B. Ananou. Selection of the Number
of Principal Components Based on the Fault Reconstruction Approach Applied to
a New Combined Index. In 49th IEEE Conference on Decision and Control, pages
3307–3312, Atlanta, Georgia, USA, 2010.
– B. Mnassri, E.M. El Adel and M. Ouladsine. New VRE Criterion to Select the Opti-
mum Number of PCs. In 11th International conference on Sciences and Techniques
of Automatic control & computer engineering, pages 1–13, Monastir, Tunisia, 2010.
– B. Mnassri, E.M. El Adel and M. Ouladsine. Une généralisation sur les conditions

xi
Références personnelles

suffisantes de détectabilité de défauts multidimensionnels par ACP. In Conférence


Méditerranéenne sur l’Ingénierie Sûre des Systèmes Complexes, Agadir, Maroc,
2011.
– B. Mnassri, E.M. El Adel and M. Ouladsine. Inverse-Variance Weighting PCA-based
VRE criterion to select the optimal number of PCs. In 18th IFAC World Congress,
pages 2851–2856, Milano, Italy, 2011.
– B. Mnassri, E.M. El Adel and M. Ouladsine. Unified Sufficient Conditions for PCA-
based Fault Detectability and Isolability. In 8th IFAC Symposium on Fault Detec-
tion, Supervision and Safety of Technical Processes, pages 421–426, Mexico City,
Mexico, 2012.
– B. Mnassri, M. Ouladsine and E.M. El Adel. Diagnostic de défauts par l’approche
RBC ratio. In Conférence Internationale Francophone d’Automatique, pages 114–
119, Grenoble, France, 2012.

xii
Notations

X ∈ RN ×m Matrice de données représentant le fonctionnement normal


du processus
x ∈ Rm Vecteur d’observation de mesures des variables de X
X̊ ∈ RN ×m Matrice de données représentant le fonctionnement normal
du processus en l’absence de bruit de mesures
x̊ ∈ Rm Vecteur d’observation en l’absence de bruit de mesures
Σ ∈ Rm×m Matrice de covariance ou de corrélation de X
Σ̊ ∈ Rm×m Matrice de covariance ou de corrélation de X̊
T ∈ RN ×m Matrice de composantes principales de X
t ∈ Rm Vecteur d’observation de composantes principales de X
N Nombre d’échantillons mesurés
m Nombre de variables mesurées
` Nombre de composantes principales retenues dans le mo-
dèle ACP qui correspond aux données de X
k Indice du temps (numéro d’observation)
Y ∈ RN ×m Nouvelles données issues d’une transformation linéaire de
celles de X
y ∈ Rm Vecteur d’observation de mesures des variables de Y
S = Σ−1 Matrice de covariance de Y
κ Nombre de composantes principales retenues dans le mo-
dèle ACP qui correspond aux données de Y
P ∈ Rm×m Matrice des vecteurs propres de Σ
Λ ∈ Rm×m Matrice des valeurs propres de Σ
λa aème valeur propre de Σ
pa ∈ Rm aème vecteur propre de Σ correspondant à λa
P̂ ∈ Rm×` Matrice des ` premiers vecteurs propres de Σ
P̃ ∈ Rm×(m−`) Matrice des (m − `) derniers vecteurs propres de Σ
Ĉ ∈ Rm×` Matrice représentant le modèle ACP des données de X
γ = xT M x Indice de détection quelconque ayant une forme quadra-
tique

xiii
Notations

Γ2 Seuil de contrôle correspondant à l’indice γ


M Matrice de γ
ξj ∈ Rm Vecteur qui représente la jème colonne de la matrice iden-
tité Im ∈ Rm×m
Fj Défaut réel de type simple porté par la direction de ξj
ΞJ ∈ Rm×r Matrice orthonormée composée des r correspondantes co-
lonnes de la matrice identité Im
FJ Défaut réel de type multiple porté par les directions qui
correspondent aux colonnes de ΞJ
r Nombre de variables réellement en défaut
J Index de l’ensemble composé par les r variables réellement
en défaut
I Index d’un ensemble composé par r variables supposées en
défaut
xi ∈ Rm Vecteur d’observation dont la ième variable est reconstruite
xI ∈ Rm Vecteur d’observation dont les variables constituant l’en-
semble I sont reconstruites

xiv
Introduction générale

1 Contexte et objectifs
L’anticipation et la correction à temps des pannes et des défaillances dues générale-
ment à des anomalies dans les procédés évitent sans doute la baisse de productivité des
processus industriels. En revanche, le moindre dysfonctionnement dans un processus peut
entraı̂ner de lourdes conséquences dans un monde économiquement parlant très concur-
rentiel où la qualité et plus particulièrement le rendement sont des atouts cruciaux. En
l’occurrence, le génie de l’homme qui est au service des besoins de celui-ci a été l’origine
des progrès industriels durant les derniers siècles favorisant pour autant les essors des
industries à risques. Celles-ci présentent des dangers potentiels qui ont plus ou moins dé-
frayé la chronique en émergeant ainsi le monde dans un tourbillonnement de mesures sur
la prévention de tels risques. Outre les enjeux économiques et ceux de la qualité des pro-
duits, il y a en réalité d’autres intérêts plus prioritaires afin d’assurer un fonctionnement
normal de processus. En effet, la détection ou même l’anticipation d’une défaillance au
début de son apparition peut éviter de grands dommages et catastrophes. Par conséquent,
la détection et le diagnostic de défauts des processus industriels représentent un intérêt
capital.
La connaissance profonde de la dynamique des processus est indispensable pour une
interprétation de leurs déréglages. En l’occurrence, les systèmes industriels se complexi-
fient avec l’automatisation des processus ainsi que d’autres facteurs. Malgré la complexité,
ils doivent assurer quand même les fonctions pour lesquelles ils ont été conçus, notam-
ment la sûreté de leur fonctionnement. Les processus complexes se caractérisent par un
environnement ouvert où l’incertitude, l’imprédictibilité et la dynamique des phénomènes
rendent les décisions difficiles (Gentil, 2007). Entre autres, et pour de tels processus ou
ceux de types boites noires, il est souvent compliqué de créer des modèles mathématiques.
Même si la réalisation de tels modèles est possible, les approches analytiques présentent
une description insuffisante des fonctionnements de processus. Néanmoins, les approches
permettant de définir les états de fonctionnement en s’appuyant sur l’analyse statistique
des données de ces processus peuvent jouer un rôle important pour la détection et le
diagnostic des défauts. Ainsi, les statistiques multivariées ont été l’origine de nombreuses
techniques exploitées pour un contrôle statistique.
En effet, les cartes de contrôle sont les outils finaux d’une mise en œuvre d’un contrôle
statistique de processus. Elles permettent la visualisation de l’évolution temporelle d’un
processus afin de détecter les changements susceptibles de modifier ses performances. En
revanche, la dimensionnalité des processus et les colinéarités qui peuvent exister entre les

1
Introduction générale

variables limitent l’efficacité en terme d’isolation de défauts par l’interprétation directe de


telles cartes. Pour cela, la réduction de la dimension de l’espace des variables en utilisant les
méthodes de projection comme l’analyse en composantes principales (ACP) peut révéler
des informations cachées mieux interprétables.
L’objectif de la réduction de données pour une analyse statistique multivariée est
d’assurer la simplicité pour la visualisation tout en conservant suffisamment d’informa-
tions pour une interprétation appropriée d’un déréglage. La plupart des approches qui
réduisent la dimension d’un espace multivarié s’appuient sur l’utilisation de ce qu’on
appelle variables latentes ou cachées. Ces dernières représentent des variables virtuelles
construites dans le but de comprendre un intérêt caractéristique qui ne peut pas être me-
suré directement. Bien que les variables latentes ne soient pas observables, elles ont quand
même un certain impact sur les variables originelles de processus et par conséquent, elles
sont soumises à une analyse. Les variables latentes sont généralement définies comme une
combinaison linéaire des variables originelles. Notamment, l’ACP qui est une méthode
révélatrice d’informations latentes est particulièrement adaptée à l’analyse des données
corrélées.
La surveillance et le diagnostic de défauts des processus en utilisant l’ACP ont reçu
une attention considérable. En effet, l’ACP permet de mettre en évidence les corrélations
linéaires significatives entre les variables du processus par la génération d’un modèle ACP
basé sur la connaissance issue du système sans pour autant ni formuler ni avoir une forme
explicite d’un modèle entrées/sorties. Ainsi, toutes les corrélations entre les différentes
variables sont prises en considération dans le modèle ACP. Cette approche représente un
outil de modélisation du comportement de processus plus particulièrement en fonctionne-
ment normal. Ainsi, les défauts sont alors détectés en comparant le comportement observé
à celui donné par le modèle ACP. Plus précisément, la phase de détection de défauts est
liée à une étape génératrice de résidus ou plutôt d’indices de détection basés sur une es-
timation paramétrique (Isermann, 2011). Une telle étape se résume dans la génération, à
partir des mesures observées et d’un modèle ACP représentant un fonctionnement nor-
mal du processus, des indices sous forme de signaux révélateurs de défauts. A partir de
la comparaison de ces signaux à des tolérances caractérisant le comportement normal en
considérant notamment leurs aspects non déterministes, l’étape de détection doit alors
indiquer la présence ou non de défauts (Kresta et al., 1991; Harkat, 2003).
La littérature révèle une abondance d’approches différentes qui ont pour autant un
seul objectif qui est le diagnostic de défauts par ACP. Or, la définition et le principe
mathématique de l’ACP ont déjà fait l’unanimité depuis des décennies. On se demande
alors pourquoi toutes ces contributions enrichissantes qui ne cessent d’accroı̂tre au fil du
temps en nombre ainsi qu’en forme ? En effet, une réponse apparaı̂t immédiatement :
l’ACP n’est qu’un outil mathématique dont la manière d’exploiter son avantage pour un
diagnostic se distingue et s’interprète différemment d’une approche à l’autre. Ainsi, la
question qui devrait être posée est plutôt comment exploite-t-on un tel outil ?
Puisque l’ACP est une méthode de projection afin de réduire les données, la première
étape lors de son utilisation repose sur la modélisation de processus en essayant de dé-
terminer une structure adaptée du modèle ACP. Dans ce cadre, la littérature a offert
plusieurs critères de choix de la dimension d’un tel modèle. Pour cela, nous allons essayer
de répondre à certaines interrogations. Notamment : pour quels objectifs et pourquoi ces

2
2. Organisation du rapport de thèse

critères ont-ils pris de différentes formes ? Sur quelles hypothèses sont-ils basés et quelles
sont leurs limitations ? Ces dernières sont-elles prouvables mathématiquement et ont-elles
un rapport avec un type particulier de variables ? Existe-t-il un inconvénient commun ?
La modélisation a-t-elle une influence sur la détectabilité de défauts et quelles solutions
pouvons-nous apporter ?
Un diagnostic de défauts par ACP est généralement basé sur deux principales ap-
proches. La première et la plus classique représente le calcul des contributions aux indices
de détection. La deuxième approche est fondée sur le principe de reconstruction de tels
indices. Sous cette optique, nos objectifs s’articulent autour des questions suivantes :
qu’est-ce qu’une contribution et pourquoi a-t-elle été proposée pour des indices particu-
liers et non pas pour d’autres ? Peut-elle garantir un diagnostic correct et pour quels types
de défauts est-elle valable ? Que pouvons-nous proposer comme améliorations ? Dans le
cadre de l’ACP, le concept d’isolabilité de défauts par reconstruction des indices de détec-
tion est négligemment étudié en le développant par reconstruction uniquement de l’indice
SP E. Pour cela, est-il possible d’étendre un tel concept aux autres indices ? Pour quelle
raison ?
La reconstruction aboutit à des indices de détection insensibles aux défauts et ayant
une forme quadratique permettant d’établir des seuils de tolérances pour l’isolation de
défauts complexes. Entre autre, quelques approches de contributions disposent aussi d’une
forme quadratique, ce qui permet d’établir des limites de contrôle. Dans ce cadre, on se
demande si ces limites sont-elles valides ? Sinon, que peut-on envisager comme solution
afin d’isoler les défauts complexes en utilisant le principe de contribution ? Enfin, peut-on
décider laquelle est meilleure pour un diagnostic fiable, l’approche des contributions ou
celle de reconstruction d’indices ?

2 Organisation du rapport de thèse


La présente thèse se divise en quatre chapitres organisés de la manière suivante :
Le premier chapitre présente des généralités principalement sur la détection et le diag-
nostic de défauts des processus. Les concepts généraux ainsi que les théories respecti-
vement de la supervision et plus particulièrement de la surveillance et le diagnostic de
processus sont introduits. Les caractéristiques de tels processus ainsi que d’autres enjeux
peuvent imposer des types de méthodes pour la surveillance et le diagnostic. En s’appuyant
sur les avantages d’un contrôle statistique de processus, ce chapitre présente également
un sommaire des techniques statistiques ainsi que leurs extensions et évolutions pour la
détection et le diagnostic des défauts de processus. L’objectif étant d’éclaircir l’intérêt
de l’utilisation des méthodes de projection comme l’analyse en composantes principales
linéaire et ses extensions.
Le deuxième chapitre présente un rappel du principe mathématique de l’ACP linéaire.
En prouvant qu’une telle approche est un outil de modélisation, un choix d’une structure
adaptée du modèle ACP reste une problématique. Pour cela, il semblerait utile de rappeler
les propriétés de la modélisation par ACP en essayant de comprendre la structure d’un
modèle optimal en l’absence de bruit. Dans la pratique, la présence de bruit dans les
données est inévitable compliquant ainsi la détermination d’une telle structure. Dans ce

3
Introduction générale

cadre, quelques critères de choix parmi les plus connus dans la littérature sont étudiés
et comparés les uns aux autres à travers un exemple simulé. Ce chapitre présente deux
démonstrations montrant les limitations de deux critères en concluant également que
le problème souvent rencontré par l’utilisation de tels critères est lié à la présence des
variables indépendantes et quasi-indépendantes.
Le troisième chapitre présente principalement nos contributions dans le choix d’un
modèle ACP en s’appuyant sur le principe de la variance de l’erreur de reconstruction.
Afin de prouver l’importance de la précision dans le choix de la dimension d’un tel modèle,
les concepts de la détection ainsi que la détectabilité de défauts sont introduits. L’objectif
étant de montrer les influences de la modélisation suite à une sous-estimation comme
une surestimation du modèle sur la qualité de la détection de défauts. En essayant de
remédier à l’inconvénient du critère classique de la variance non reconstruite dans le choix
du modèle, plusieurs autres variances sont révélées et analysées théoriquement. Cela a
permis la distinction d’un premier critère empirique suivi par la proposition d’un deuxième
nouveau critère du même principe mais basé sur la variance de l’erreur de reconstruction
d’un nouvel indice combiné. En s’appuyant sur un changement de représentation des
données, un troisième nouveau critère faisant la particularité est également proposé en
établissant théoriquement les conditions de son efficacité. Les performances des différents
critères proposés sont illustrées à travers l’exemple de simulation du deuxième chapitre.
Le quatrième et dernier chapitre est dédié à la théorie d’un diagnostic de défauts par
ACP en s’appuyant plus particulièrement sur deux principales approches telles que les
contributions et la reconstruction des indices de détection. Cette dernière garantit l’iden-
tification de tout type de défauts. Néanmoins, l’isolation de ces défauts n’est garantie que
sous une condition établie à l’aide d’un concept d’isolabilité de défauts. Celui-ci représente
un des principaux objectifs de ce chapitre. Un tel concept est étendu à tous les indices
de détection en permettant l’élaboration d’une analyse théorique d’isolabilité de défauts
par reconstruction de l’indice combiné versus une reconstruction des indices SP E et T 2
de Hotelling. Les contributions sont dédiées au diagnostic des défauts simples. Dans ce
cadre, une nouvelle méthode de contribution par décomposition de l’indice SP E est pro-
posée. Ce chapitre est également enrichi par deux nouvelles approches de contributions
dans l’objectif est de garantir un diagnostic correct de défauts multiples ayant de grandes
amplitudes et l’isolation de défauts plus complexes. Un exemple de synthèse est utilisé
pour appliquer les différentes méthodes proposées.

4
1
Supervision, surveillance et diagnostic

Sommaire
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Supervision des processus . . . . . . . . . . . . . . . . . . . . . 7
1.2.1 Concepts associés à la supervision des processus . . . . . . . . 7
1.2.2 Les étapes de la supervision . . . . . . . . . . . . . . . . . . . . 9
1.3 Théorie de la surveillance et du diagnostic . . . . . . . . . . . 10
1.3.1 La surveillance . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2 Diagnostic de défauts . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.2.1 Caractéristiques des défauts . . . . . . . . . . . . . . 12
1.3.2.2 Principe du diagnostic . . . . . . . . . . . . . . . . . . 13
1.3.3 Critères de performance pour la détection et le diagnostic . . . 14
1.4 Techniques statistiques pour la détection et le diagnostic . . 15
1.4.1 Cartes de contrôle univariées . . . . . . . . . . . . . . . . . . . 15
1.4.1.1 Définitions des cartes de contrôle . . . . . . . . . . . . 16
1.4.1.2 Rôle et critères de performance des cartes univariées . 16
1.4.1.3 Aperçu sur les cartes univariées . . . . . . . . . . . . 18
1.4.2 Limitations des cartes univariées . . . . . . . . . . . . . . . . . 20
1.4.3 Extensions multivariées des cartes univariées . . . . . . . . . . 21
1.4.4 Méthodes de projection . . . . . . . . . . . . . . . . . . . . . . 22
1.4.4.1 Intérêt de la projection . . . . . . . . . . . . . . . . . 23
1.4.4.2 Différentes extensions de l’ACP . . . . . . . . . . . . 23
1.4.5 Interprétations des situations hors contrôle . . . . . . . . . . . 25
1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5
Chapitre 1. Supervision, surveillance et diagnostic

1.1 Introduction
Dans les processus industriels, la majorité des pannes causant une baisse de la pro-
duction est généralement due à des anomalies dans le procédé qui n’ont pas été corrigées
à temps. En plus des contraintes de la qualité des produits et celles économiques, il y
a plusieurs autres intérêts afin d’assurer un fonctionnement normal pour ces processus.
La détection, ou même l’anticipation d’une défaillance au début de son apparition peut
éviter de grands dommages et catastrophes. Par conséquent, la détection et le diagnostic
des défaillances de processus représentent un intérêt capital.
Pour les processus complexes ou ceux de type boites noires, il est souvent très compli-
qué voire impossible de leur établir des modèles mathématiques. Même si la réalisation de
tels modèles est possible, les approches analytiques présentent toujours une vision insuffi-
sante des fonctionnements des processus (Verron et al., 2008). Une connaissance profonde
de la dynamique de ces processus est un atout primordial pour une interprétation fiable
de leurs déréglages. Dans ce cadre, les approches qui permettent l’identification des états
de fonctionnement en se basant sur l’analyse des informations extraites des données ou
des mesures des processus peuvent apportées une aide avantageuse pour la détection et
le diagnostic de défauts. Plus particulièrement, les approches statistiques sont parmi les
techniques les plus exploitées dans ce contexte.
La surveillance de processus en s’appuyant sur une analyse des mesures a pour but
la détection des variations survenues dans les variables caractéristiques de tels processus.
Pour prendre les actions correctives nécessaires afin d’améliorer le processus, un diagnostic
doit être mené pour l’isolation des défauts causant ces variations. Le principe d’une telle
analyse repose sur une maı̂trise ou un contrôle statistique de processus. Une telle discipline
est la traduction intégrale de celle en anglais statistical process control largement connue
dans la littérature sous l’abréviation du SPC. Le contrôle statistique de processus a été
initié par W.A. Shewhart en 1924 aux Etats-Unis. C’est en étudiant la variabilité des
particules dans des fluides que Shewhart a inventé la célèbre carte de contrôle (Shewhart,
1931). Oubliée depuis, ce n’est qu’à partir des années soixante après la deuxième guerre
mondiale qu’il y a eu réellement regain d’intérêt pour cette discipline, et c’est au Japon
qu’elle a vite pris racine. La maı̂trise statistique de processus a fortement contribué à
l’amélioration de la qualité des produits japonais, ce qui explique entre autre le fabuleux
succès industriel et économique qu’a connu ce pays. Son apparition en Europe débuta à
partir de la fin des années 70, poussée par les effets de la mondialisation, des échanges et
de l’accroissement de la concurrence internationale. Une telle maı̂trise statistique reposait
encore sur des techniques univariées. A cette époque, beaucoup d’améliorations ont été
proposées mais peu de chercheurs s’intéressaient à ces méthodes statistiques. L’activité
de recherche a connu une dynamique très importante à partir des années 80 (Zaı̈di, 1989;
Elbekkaye, 1993).
De nos jours, ces méthodes statistiques sont utilisées dans de nombreux secteurs pour
le contrôle des processus, la détection et la prévention de leurs défauts. Les cartes de
contrôle uni et/ou multivariées sont les outils finaux d’une mise en œuvre d’un contrôle
statistique de processus. Elles servent à visualiser l’évolution temporelle d’un processus
et à détecter les changements susceptibles de modifier ses performances. En revanche,
les corrélations entre les variables ont été une cause principale limitant l’efficacité de

6
1.2. Supervision des processus

l’utilisation de la carte univariée en ouvrant ainsi les portes aux notions multivariées.
La plus célèbre carte de contrôle multivariée est celle de la T 2 de Hotelling (Hotelling,
1947). Le contrôle multivarié a la capacité de combiner des mesures multidimensionnelles
en une seule mesure de performance. Néanmoins, la dimensionnalité des processus et
les colinéarités qui peuvent exister entre les variables limitent également l’efficacité en
termes de détection et d’isolation de défauts par l’interprétation directe de telle carte. La
réduction de la dimension de l’espace des variables en utilisant les méthodes de projection
comme l’analyse en composantes principales peut révéler des informations cachées mieux
interprétables et exploitables.
Ce chapitre tracera, dans la deuxième et la troisième section, les principaux concepts
définissant la supervision et plus particulièrement la surveillance et le diagnostic de pro-
cessus. La quatrième section présentera un sommaire des approches statistiques ainsi que
leurs extensions et évolutions pour la détection et le diagnostic. L’objectif de cette sec-
tion est de mettre en contexte l’intérêt de l’utilisation des méthodes de projection, en
particulier l’analyse en composantes principales linéaire et ses extensions.

1.2 Supervision des processus


Dans un contexte économique de productivité et de flexibilité, la supervision a béné-
ficié d’une avancée technologique exceptionnelle née du besoin d’un outil de visualisation
des processus industriels. A ses débuts, elle se composait d’un grand tableau mural re-
présentant la vision des opérateurs du processus industriel. Avec l’essor informatique, les
voyants ont été remplacés par des écrans et des claviers. Le but restait le même : contrôler
et commander un processus industriel.
La supervision établit l’état actuel du système pour pouvoir prendre des décisions
et pouvoir maintenir ses critères de performance (qualité, rentabilité, sûreté, etc.). Elle
consiste à surveiller l’état de fonctionnement d’un procédé pour l’amener et le maintenir
à son point de fonctionnement normal. En effet, la supervision a pour vocation première
d’émettre des alarmes dont l’objectif est d’attirer l’attention de l’opérateur de supervision
sur l’apparition d’un ou de plusieurs événements susceptibles d’affecter le bon fonctionne-
ment du système. Compte tenu de la complexité des procédés, la génération d’alarmes est
le moyen le plus employé pour avertir l’opérateur de l’occurrence d’un événement anormal.
Les alarmes sont donc liées aux dysfonctionnements pouvant apparaı̂tre sur le processus.
Pour cela, il est important de préciser le sens accordé aux termes employés pour évoquer
les dysfonctionnements pouvant survenir dans le système.

1.2.1 Concepts associés à la supervision des processus


Après avoir décrire le rôle de la supervision, il reste alors à présenter ses principales
étapes. Néanmoins, il est question de donner tout d’abord les différents concepts rencon-
trés dans la littérature concernant la supervision, la détection et le diagnostic de défauts,
car de bons supervision, détection et diagnostic nécessitent une bonne compréhension des
ces notions. En se référant à la littérature, on reconnaı̂t immédiatement que la termino-
logie dans ce domaine n’est pas uniforme. En effet, les définitions peuvent présenter des

7
Chapitre 1. Supervision, surveillance et diagnostic

différences provenant du fait que la supervision, la détection et le diagnostic de défauts


peuvent être abordés de différentes manières selon l’origine et la formation des interve-
nants (Zwingelstein, 1995; Isermann et Ballé, 1997; Hernández-De-León, 2006).
• Un système est dans un état de fonctionnement normal si ses variables carac-
téristiques (variables d’état, variables de sortie, variables d’entrée, paramètres du
système) demeurent au voisinage de leurs valeurs nominales. Le système est dit
défaillant dans le cas contraire ;
• Une anomalie représente une condition anormale diminuant ou supprimant l’ap-
titude d’un ensemble (de composants) à accomplir une fonction requise. Ce terme
générique permet de décrire tout ce qui n’est pas conforme à une référence ;
• Une défaillance est l’altération ou la cessation de l’aptitude d’un ensemble (de
composants) à accomplir sa ou ses fonctions requises avec les performances définies
dans les spécifications techniques. Après défaillance d’une entité, celle-ci est en état
de panne. La défaillance est un passage d’un état à un autre, par opposition à une
panne qui est un état ;
• Une dégradation caractérise le processus qui amène à un état défaillant du procédé ;
• Un défaut se définit comme une anomalie du comportement d’un système sans
forcément remettre en cause sa fonction mais peut présager d’une défaillance à
venir ;
• Une panne caractérise l’inaptitude d’un dispositif à accomplir une fonction requise.
Un système est généralement considéré en panne dès l’apparition d’une défaillance.
Ainsi, la panne est la cause de l’apparition des symptômes ;
• Un symptôme est l’événement qui révèle d’un dysfonctionnement. Il s’agit de l’effet
conséquent d’un comportement anormal. Ainsi, il est le seul signe dont dispose le
système de surveillance au moment de la détection d’une anomalie.
Pour parvenir à déterminer et caractériser les anomalies d’un système, on fait néces-
sairement référence à des informations sur le comportement et/ou le fonctionnement du
système considéré. Ces informations sont généralement extraites des observations de l’en-
vironnement du système ou de sa modélisation de connaissance. Pour cela, les définitions
des termes observation, mesure et signe (Zwingelstein, 1995; Ploix, 1998; Vellemans, 2006)
sembleraient également essentielles :
• Une observation est une information obtenue à partir du comportement ou du
fonctionnement réel du processus ;
• Une mesure est une observation élémentaire du fait qu’elle reflète une et une seule
grandeur physique. Elle est représentée par une variable dont le contenu est l’image
d’une grandeur physique. Son obtention s’effectue par l’intermédiaire d’un système
physique (capteur). Ainsi, les mesures peuvent être de différentes natures :
3 qualitatives : représentées par un ensemble fini de modalités dont chacune est
associée à un symbole ;
3 quantitatives : dont les valeurs appartiennent à l’ensemble des réels ;
3 logiques : valeurs tout ou rien {vrai, faux} souvent elles correspondent respecti-
vement aux valeurs {0, 1} ;
3 floues : représentées par des fonctions d’appartenance, dont les valeurs sont com-
prises dans l’intervalle [0, 1].
• Un signe est le caractère distinctif d’un état comportemental anormal. Il est ca-

8
1.2. Supervision des processus

}
Défaut

Défaillance Anomalies

Normal Panne

}
Signe
Observations
Symptôme

Limite de Limite de Plus de Criticité des


comportement fonctionnement fonctions anomalies
normal normal assurées

Figure 1.1 – Ordonnancement des anomalies selon leur criticité (Adrot, 2000)

ractérisé par un ensemble d’observations en provenance d’un système physique et


révèle la présence d’un défaut.
La distinction entre ces définitions est établie en considérant les aspects comportemen-
taux et fonctionnels (Ploix, 1998; Hernández-De-León, 2006). Un défaut (comportement)
n’entraı̂ne pas forcément une défaillance (fonctionnelle), c’est-à-dire une impossibilité pour
le procédé d’accomplir sa tâche. Le défaut n’induit pas nécessairement une défaillance mais
il en est la cause. En outre, une panne résulte toujours d’une ou de plusieurs défaillances
qui elles-mêmes résultent d’un ou de plusieurs défauts. Finalement, on utilise également
le terme plus générique d’anomalie pour évoquer une particularité non-conforme à une
référence comportementale ou fonctionnelle. Par mesure de simplicité, on peut employer
de façon équivalente les termes défaut, défaillance et panne puisqu’ils sont des anomalies.
La distinction entre les termes symptôme et signe s’apparente donc à la différence
entre les notions de défaut et de défaillance. Un symptôme révélateur d’une défaillance
est nécessairement un signe, alors qu’un défaut se manifeste à travers des signes qui
ne sont pas nécessairement des symptômes. Les symptômes et les signes sont alors des
observations. Dans ce cadre, Adrot (2000) a établi un ordonnancement des anomalies selon
leur criticité afin de révéler l’étendue de leurs effets sur le fonctionnement d’un processus
(figure 1.1).

1.2.2 Les étapes de la supervision


Le mot supervision est abondamment utilisé par la communauté des automaticiens.
Bien qu’il n’est pas évident d’en donner une définition qui fait l’unanimité. La supervision
est généralement présentée comme étant la commande et la surveillance de l’exécution
d’une opération ou d’un travail accompli par d’autres agents (hommes ou machines).
Notamment, elle regroupe l’ensemble des outils et méthodes qui permettent de conduire
des installations industrielles tant en fonctionnement normal qu’en présence de défaillances
ou de perturbations.
Pour mener correctement la supervision d’un processus, il est nécessaire de définir l’en-

9
Chapitre 1. Supervision, surveillance et diagnostic

Supervision

Connaissances sur le comportement


du système (modèle comportemental, Connaissances des modes
défauts, classes fonctionnelles, etc.) de fonctionnement

Détection : identification Identification


de l'état du système et isolation des causes
(normal ou anormal) de défaillance

Symptômes, Attributs Prise de décisions

Surveillance Diagnostic Maintenance

Acquisition Actions
mesures

Processus

Figure 1.2 – Les principales étapes de la supervision

semble des étapes que peut inclure. Dans ce cadre, la littérature a offert plusieurs propo-
sitions. Comme exemple, Breuker et Van De Velde (1994) ont fourni une large perspective
en suggérant que les étapes d’une supervision se succèdent en une chaı̂ne de planification,
prédiction, surveillance, diagnostic et affectation des tâches pour le contrôle du processus
et la manipulation des dispositifs. Néanmoins, il y a quelques tâches infaisables en ligne.
Ainsi, Acosta et al. (2001) ont encore utilisé une représentation plus différente en pro-
posant une supervision dite globale constituée de huit étapes fondamentales qui sont : la
surveillance, le diagnostic, l’évaluation d’état, le mode de fonctionnement, le pronostic, la
planification, l’interface HM et la validation des données.
Malgré la diversité des propositions, le plus souvent la supervision prend en compte
trois étapes principales, notamment la surveillance, le diagnostic et la reconfiguration (ou
prise de décision). Ces étapes peuvent être assurées par des algorithmes (machines) comme
par un ou plusieurs opérateurs humains.
L’étape de la surveillance (ou monitoring) traite les données recueillies en ligne afin
d’obtenir l’état de fonctionnement du processus. En présence des anomalies, le diagnostic
consiste à estimer leurs causes afin que des actions de corrections soient prises (reconfi-
guration). Dans ce contexte, la figure 1.2 présente un schéma récapitulatif retraçant les
principales étapes de la supervision d’un processus.

1.3 Théorie de la surveillance et du diagnostic


La thématique de la surveillance et du diagnostic des systèmes a fait l’objet de nom-
breux travaux de recherche depuis des années. La diversité dans les approches du diag-
nostic des systèmes semble être souvent le résultat de contextes différents notamment en
ce qui concerne les applications visées et le cahier des charges qui en résulte. Les infor-
mations relatives au système et aux types de défauts à détecter peuvent conduire à la

10
1.3. Théorie de la surveillance et du diagnostic

mise en œuvre de méthodes spécifiques. Par exemple, si seules des données entrée/sortie
sont disponibles sur le système, une méthode par apprentissage semblera naturellement
adaptée, par contre si un modèle mathématique est disponible, les méthodes analytiques
pourront être privilégiées.

1.3.1 La surveillance
La surveillance d’un système a pour objectif de déceler les comportements qui diffèrent
d’un fonctionnement normal. De manière générale, les méthodes de surveillance peuvent
être classées en deux catégories : celles pour qui seules les données acquises sur le processus
considéré permettant de caractériser son mode de fonctionnement et celles basées sur un
modèle décrivant le comportement du système à surveiller. Face à la complexité plus
particulièrement des grands systèmes, la surveillance se doit être robuste vis-à-vis des
incertitudes et erreurs qui entachent tant les modèles que les données.
Le rôle de la surveillance est de veiller sur les évolutions du comportement du sys-
tème et de collecter des informations pertinentes pour la prise de décisions dans le cas
d’une défaillance. Elle joue donc un rôle clef dans la phase d’exploitation des systèmes en
regroupant ainsi deux principales fonctions. Le suivi du système a pour objectif l’acqui-
sition de ses données. Ces dernières sont utilisées pour la reconstitution de l’état réel du
système. A partir de l’analyse en temps réel de données recueillies en ligne, la surveillance
nécessite donc une prise de décision rapide et implique, de ce fait, une prise en compte
impérative du facteur temps. La fonction du suivi maintient en permanence un historique
des traitements effectués ainsi qu’une trace des événements observés par la supervision.
En plus de l’acquisition de données, la deuxième fonction qui est la détection consiste
essentiellement à révéler la présence d’un défaut. Ceci implique qu’une telle fonction per-
met de déterminer la normalité ou l’anormalité du fonctionnement de processus. En outre,
elle peut être également révélatrice du moment de l’apparition de l’événement défectueux
(Isermann et Ballé, 1997; Fortuna et al., 2006).

1.3.2 Diagnostic de défauts


Un diagnostic est le raisonnement menant à l’identification de la cause (origine) d’une
anomalie (défaut, défaillance, panne) à partir des informations révélées par les observa-
tions (mesure, signe, symptôme). Le diagnostic établit un lien de cause à effet entre un
symptôme observé et la défaillance survenue, ses causes et ses conséquences. Dans ce
cadre, l’implantation d’une démarche du diagnostic doit apporter des réponses aux ques-
tions suivantes en ce qui concerne ses objectifs, ses principes de mises en œuvre et ses
critères d’évaluation :
• Objectifs : que veut-on surveiller ? Quels types de défauts doit-on détecter ?
• Principes : Quel est le principe du diagnostic à mettre en œuvre ?
• Critères : quelles sont les performances attendues ? Quels sont les indices d’évalua-
tion de ces performances ?

11
Chapitre 1. Supervision, surveillance et diagnostic

1.3.2.1 Caractéristiques des défauts

La première question que l’on se pose, lorsque l’on conçoit une démarche du diagnostic,
est de savoir ce que l’on veut détecter, c’est-à-dire de définir le type de dysfonctionnement
que l’on veut diagnostiquer et donc les défauts susceptibles d’altérer le bon fonctionnement
du système. Un défaut est défini comme une déviation non autorisée d’au moins une
propriété caractéristique d’une variable de son comportement acceptable. Par conséquent,
le défaut est un événement qui peut mener au dysfonctionnement du système. Dans ce
cadre, l’étude des caractéristiques des défauts a abouti à une distinction entre leurs classes,
types et formes (Isermann, 1997, 2005; Fortuna et al., 2006).
Pour le diagnostic, la façon dont les défauts agissent sur le système (défauts additifs
ou multiplicatifs) revêt un intérêt particulier. Ces classes de défauts sont aussi désignées
dans la littérature de la surveillance par les termes de défauts paramétriques (pour les
défauts multiplicatifs) et non paramétriques (pour les défauts additifs) :
• Défauts additifs : ce sont représentés par des signaux d’entrées du système. Ces
entrées sont inconnues et non contrôlées ;
• Défauts multiplicatifs : désignent un changement de la valeur d’un paramètre du
système (constante de temps d’un capteur par exemple).
Les défauts sont des événements qui apparaissent à différents endroits du système.
Cela a fait l’objet d’une distinction des types de défauts en fonction de leur localisation
ou de leurs sources :
• Défauts capteurs : ce type des défauts est la cause d’une mauvaise image de l’état
physique du système. Un défaut capteur partiel produit un signal avec plus ou moins
d’adéquation avec la valeur vraie de la variable à mesurer. Ceci peut se traduire par
une réduction de la valeur affichée par rapport à la valeur vraie, ou de la présence
d’un biais ou de bruit accru empêchant une bonne lecture. Un défaut capteur total
produit une valeur qui n’est pas en rapport avec la grandeur à mesurer ;
• Défauts actionneurs : ces défauts agissent au niveau de la partie opérative et dété-
riorent le signal d’entrée du système. Ils représentent une perte totale (défaillance)
ou partielle d’un actionneur agissant sur le système. Un exemple de perte totale
d’un actionneur est un actionneur qui est resté bloqué sur une position entraı̂nant
une incapacité à commander le système par le biais de cet actionneur. Les défauts
actionneurs partiels sont des actionneurs réagissant de manière similaire au régime
nominal mais en partie seulement, c’est-à-dire avec une certaine dégradation dans
leur action sur le système (perte de puissance d’un moteur, fuite dans un vérin,
etc.) ;
• Défauts composants ou systèmes : ce type des défauts provient du système lui-même ;
bien souvent les défauts n’appartenant pas à un défaut capteur ou actionneur sont
classés de manière arbitraire dans cette catégorie. Néanmoins, un défaut compo-
sant résulte de la casse ou de l’altération d’un composant du système réduisant les
capacités de celui-ci à effectuer une tâche. En pratique, ceci revient à considérer
une modification des caractéristiques du système proprement dit (une chaufferie est
cassée, un roulement est altéré, etc.).
On peut également citer d’autres types de défauts comme les défauts de l’unité de
traitement ou de commande et les défauts qui sont dus à l’opérateur humain. Qu’il s’agisse

12
1.3. Théorie de la surveillance et du diagnostic

des défauts inhérents aux capteurs, aux actionneurs ou aux composants du système, ils se
manifestent tous par une altération des signaux associés.
L’évolution temporelle des défauts mène à la distinction entre quatre formes tels que
les biais, les dégradations, les dérives et les points aberrants. Généralement, un biais cor-
respond à un saut brutal (brusque) du signal. Cependant, une dérive se manifeste par
une évolution anormale lente et continue du signal donc un éloignement progressif de sa
valeur nominale. Ainsi, les phénomènes de dérive sont plus longs à détecter du fait de
leur faible amplitude à l’origine et de leur lente évolution. En revanche, les dégradations
prennent souvent des valeurs aléatoires et n’obéissent à aucune loi de distribution. Les va-
leurs aberrantes sont des défauts dits fugitifs. Ces derniers affectent le système de manière
instantanée et leur cause est souvent due à un parasite, par exemple une perturbation élec-
tromagnétique. Les valeurs aberrantes correspondent à un écart important par rapport à
la valeur nominale du signal.

1.3.2.2 Principe du diagnostic


Selon, le contexte et le domaine d’application, le mot diagnostic peut avoir plusieurs
interprétations. Le diagnostic des systèmes a pour objectif de trouver la cause d’une
défaillance ou d’un défaut. Il peut être défini comme étant un processus d’identification
de la cause probable des défaillances à l’aide d’un raisonnement logique fondé sur un
ensemble d’informations provenant d’une inspection, d’un contrôle ou d’un test.
Dans un sens plus proche de la notion communément admise, un diagnostic peut
être vu comme une tentative pour expliquer un mauvais comportement du système en
analysant ses caractéristiques pertinentes qui sont souvent appelées symptômes ou parfois
indicateurs de défauts. Généralement, le diagnostic est toujours lié à l’observation des
symptômes. On note qu’un diagnostic est mieux connu et établi dans les cas des maladies
humaines plutôt que dans les défauts des systèmes (Fortuna et al., 2006).
Afin d’établir un diagnostic, il faut être capable de décrire une situation, de l’analyser
puis de l’interpréter. Cette démarche peut s’évoquer en trois étapes. La première consiste
à définir les caractéristiques ou les symptômes du processus. D’une manière générale, la
description d’une situation consiste en l’acquisition d’informations renseignant sur l’état
du système. Ces informations correspondent à des données recueillies par des capteurs
dans le cas des systèmes instrumentés ou de la description formelle d’un expert dans le
cas empirique. La deuxième étape représente une description des situations types. Ces
situations sont les états ou les modes que peut avoir un système tels que les modes
normaux, anormaux ou évolutifs. La dernière étape consiste à établir des liens entre les
symptômes et les situations types.
Plus généralement, un diagnostic est une exploitation de toute la connaissance acces-
sible et existante sur le système. Ainsi, et dans une première vue, une telle exploitation
peut s’articuler autour de trois fonctions principales (Isermann et Ballé, 1997; Gerlter,
1998; Fortuna et al., 2006) :
• La détection est une fonction alternative qui peut être attribuée à l’étape de sur-
veillance comme à celle du diagnostic ;
• L’identification a pour rôle de déterminer les caractéristiques de chacun des défauts ;
• La localisation, également appelée isolation, a pour but de remonter à l’origine

13
Chapitre 1. Supervision, surveillance et diagnostic

du défaut. Cette fonction devrait déterminer l’endroit de la panne (le composant


défectueux).
L’ensemble de ces trois fonctions forme souvent l’étape du diagnostic de défauts. Néan-
moins, certains auteurs se réfèrent plutôt au terme détection et diagnostic de défauts (en
anglais : Fault Detection and Diagnosis (FDD)), en considérant ainsi la détection comme
étant une fonction séparée, et notamment l’isolation et l’identification dans l’étape du
diagnostic de défauts (Isermann et Ballé, 1997; Gerlter, 1998; Fortuna et al., 2006).
Puisque les fonctions de détection et d’isolation sont absolument impératives dans
toute démarche ayant pour objectif le diagnostic d’un système, l’identification de défauts
(si utile) ne peut pas justifier la même importance qu’aux autres fonctions. Par conséquent,
les démarches du diagnostic les plus pratiques ne contiennent que les fonctions de détection
et d’isolation de défauts d’où l’appellation en anglais : Fault Detection and Isolation (FDI).
Ainsi, le mot ”diagnostic” est utilisé comme un simple synonyme du terme ”isolation”
(Gerlter, 1998).

1.3.3 Critères de performance pour la détection et le diagnostic


Les performances d’un diagnostic sont caractérisées par un certain nombre de critères
importants et quantifiables tels que la détectabilité, la robustesse, la rapidité des réponses,
la sensibilité aux erreurs de modélisation, le taux de fausses alarmes ou de non-détection,
l’isolabilité ainsi que des contraintes d’ordre économique et de mise en œuvre pratique
(Gerlter, 1998; Ripoll, 1999). De manière générale, on révèle :
• La détectabilité est l’aptitude de la méthode de détection à pouvoir déceler la pré-
sence d’une défaillance sur le processus. Elle est fortement liée aux indicateurs de
défauts qui doivent d’une certaine manière être sensibles à la défaillance que l’on
souhaite détecter ;
La sensibilité, la rapidité des réponses et la robustesse aux défauts résultent d’une
interaction entre les défauts d’une part et les bruits, les perturbations et les erreurs de
modélisation d’autre part. Dans la plupart des cas, il faudra se fixer un compromis entre
ces différentes propriétés (Gerlter, 1998).
• La sensibilité caractérise l’aptitude de la méthode de détection à détecter des défauts
d’une certaine amplitude. Elle dépend non seulement de la structure des résidus mais
aussi du rapport de l’amplitude du bruit de mesures et celle du défaut ;
• La rapidité des réponses représente la capacité de l’indice de détection à détecter la
présence des défauts en un minimum de retard de temps ;
• La robustesse détermine la capacité d’une telle méthode à détecter des défauts avec
peu de fausses alarmes en présence des bruits, des perturbations et des erreurs de
modélisation.
La performance de l’isolation de défauts dépend des propriétés physiques de l’instal-
lation à diagnostiquer, à savoir : l’amplitude des défauts, les bruits, les perturbations et
les erreurs de modélisation ainsi que la méthode du diagnostic elle-même. Les défauts
multiples sont en général plus difficiles à isoler que les défauts simples. En outre, l’in-
teraction entre les défauts et les perturbations, les bruits et les erreurs de modélisation
peut conduire à des décisions incertaines ou incorrectes. Certains défauts peuvent être
non isolables les uns des autres parce qu’ils agissent sur les installations physiques d’une

14
1.4. Techniques statistiques pour la détection et le diagnostic

manière indiscernable. En s’appuyant sur tous ces facteurs, l’isolabilité peut être définie
comme suit :
• L’isolabilité est la capacité du diagnostic à remonter directement à l’origine de la
défaillance. Cette dernière engendre souvent une cascade d’alarmes et il peut être
difficile de remonter au composant défaillant. Par conséquent, le degré d’isolabilité
des défaillances est lié à la structure des résidus rendus disponibles et à la méthode
mise en œuvre.
D’autres critères sont également à prendre en considération. Les coûts économiques
contraignent généralement la démarche adoptée pour un diagnostic. Les contraintes posées
ont pour objectif d’apporter des réponses à quelques interrogations comme : le diagnostic
nécessite-t-il des composants trop chers pour sa réalisation, le temps de développement
est-il trop important ? En effet, autant de points à vérifier afin de satisfaire le cahier des
charges.

1.4 Techniques statistiques pour la détection et le


diagnostic
De nombreuses techniques statistiques performantes qui ont été conçues pour le suivi
des processus peuvent fournir des moyens algorithmiques peu coûteux afin d’assurer et
maintenir la qualité des produits et la sécurité des processus sans avoir besoin de lourds
investissements dans le matériel. Ces techniques permettent également d’optimiser l’uti-
lisation et l’efficacité du matériel.
Le pilotage du processus pour le contrôle en cours de production augmente la rapidité
de correction d’un déréglage et contribue à diminuer la quantité de produits non conformes,
il est donc un facteur d’amélioration de la qualité et de la productivité.
Du point de vue historique, le contrôle statistique de la qualité est devenu un élément
essentiel des efforts de l’assurance qualité dans l’industrie avec l’introduction des cartes
de contrôle univariées par Shewhart (1931). Le contrôle statistique de la qualité recouvre
plusieurs aspects de la statistique industrielle en particulier le contrôle statistique de
processus qui regroupe toute méthode statistique conçue pour détecter des changements
dans un processus (Tiplica, 2002).
L’objectif d’un contrôle statistique de processus est de détecter l’apparition des chan-
gements opérationnels poussant le processus à dévier d’une cible souhaitée. Dans ce cadre,
la détection des changements est fondée sur des techniques statistiques qui se basent sur la
collecte, la classification, l’analyse et l’interprétation des données. Ces actions se suivent
par un diagnostic qui vise à localiser les causes profondes de ces changements en permet-
tant aux opérateurs de prendre les précautions nécessaires pour corriger la situation et
ramener le processus à son fonctionnement normal.

1.4.1 Cartes de contrôle univariées


Les approches traditionnelles d’évaluation des performances des processus s’appuient
sur les caractéristiques et les tendances temporelles des variables critiques (contrôlées
ou manipulées) de tels processus (Cinar et al., 2007). Les méthodes statistiques utilisées

15
Chapitre 1. Supervision, surveillance et diagnostic

pour le contrôle d’un processus font appel à la théorie de l’échantillonnage afin de savoir
si le processus a probablement dérivé en moyenne ou en dispersion. Dans ce contexte, il
convient tout d’abord de choisir une ou plusieurs caractéristiques représentant la qualité
du produit à contrôler. Pour chacune des caractéristiques retenues, un échantillon doit
être constitué périodiquement dans des conditions fixées à l’avance. Les résultats obte-
nus sur ces échantillons sont résumés par une ou plusieurs valeurs appelées statistiques
d’échantillon pouvant être par exemple la moyenne, l’écart type ou l’étendue. Ces statis-
tiques peuvent alors être portées sur un tracé, appelé carte de contrôle, où l’on reporte
généralement les statistiques d’échantillon par rapport à des limites de contrôle. La carte
de contrôle a été largement utilisée pour distinguer les causes des variations. Ainsi, un
point sur cette carte représente l’état du processus à un moment donné.

1.4.1.1 Définitions des cartes de contrôle


En essayant de définir une carte de contrôle, la littérature a révélé plusieurs défini-
tions. Dans ce contexte, Shewhart (1931) a considéré qu’une carte de contrôle peut servir
d’abord, pour définir l’objectif dont la gestion s’efforce d’atteindre par le processus. En-
suite, elle peut être utilisée comme un instrument pour atteindre cet objectif. Enfin, elle
peut servir comme un moyen pour juger si l’objectif a été atteint. D’après Duncan (1956),
les cartes de contrôle peuvent être considérées comme un outil statistique. Cependant,
Feigenbaum (1983) a défini la carte de contrôle comme un outil graphique pour la com-
paraison des caractéristiques du produit actuel avec celles de son passé.
D’après ces définitions, une carte de contrôle constitue à la fois un outil statistique et
graphique, qui permet de suivre dans le temps l’évolution des valeurs individuelles d’une
variable (caractéristique d’un produit ou paramètre d’un procédé), ou de la moyenne d’un
échantillon prélevé régulièrement, et de décider du temps d’intervention pour modifier
ou arrêter une évolution non désirée. Une carte de contrôle est généralement constituée
d’un axe horizontal correspond à une valeur cible de la variable surveillée ainsi que deux
limites de contrôle supérieure et inférieure. Ces limites ne sont pas déterminées de façon
arbitraire ni liées à des limites de spécification, mais plutôt par des critères statistiques.
Ainsi, les deux limites de contrôle forment ce qu’on appelle la zone de contrôle.

1.4.1.2 Rôle et critères de performance des cartes univariées


L’aspect préventif des cartes de contrôle consiste à anticiper une tendance à la dérive,
et à corriger en conséquence le processus à temps avant que des défauts ne soient produit.
Les cartes de contrôle ne doivent être introduites que si toutes les causes spéciales de
variation ont été éliminées, sinon, toute prédiction du comportement du processus serait
impossible.
Chaque carte comporte une ligne centrale, une limite inférieure et une limite supérieure
de contrôle et parfois des limites de surveillance. Les limites de contrôle jouent le rôle
d’alarmes (figure 1.3). En effet, lorsqu’un point se situe à l’intérieur des limites de contrôle,
le processus est dit sous contrôle ou libre de toutes causes assignables. Par contre, lorsque
celui-ci se situe à l’extérieur, alors il est probable que le processus est hors contrôle,
à savoir, des causes assignables sont probablement présentes. Dans ce cas, une action

16
1.4. Techniques statistiques pour la détection et le diagnostic

LS de Contrôle (3 sigma)
LS de Surveillance (2 sigma)

Cible

LI de Surveillance (-2 sigma)


LI de Contrôle (-3 sigma)

Observations (Temps)

Figure 1.3 – Carte de contrôle typique

corrective doit être entreprise pour l’identification et la suppression ou l’isolation de ces


causes. Sinon, les pièces produites ultérieurement auront probablement des défauts. Les
causes assignables également appelées des causes spéciales, sont une partie de la variabilité
dans un ensemble d’observations. Elles peuvent être attribuées à des causes spécifiques tels
que les opérateurs, les matériels ou les équipements. Les causes communes aussi appelées
causes de chance sont une partie d’une variabilité due uniquement à des forces aléatoires
qui ne peuvent pas être attribuées à des sources spécifiques.
Les limites de contrôle des cartes de Shewhart sont calculées de telle sorte que la
probabilité qu’un point tombe en dehors des limites alors que le processus est stable,
reste très faible. La carte de Shewhart habituellement utilisée est celle dont les limites
sont à une distance égale à plus ou moins 3σ de la moyenne de la statistique utilisée.
Ce qui correspond entre autres à une probabilité de 0.0027 (0.00135 sur chaque coté)
d’être en dehors des limites lorsque le processus est stable et ce sous l’hypothèse que la
variable observée suit une loi Gaussienne. Les limites de surveillance permettent d’attirer
l’attention sur un comportement qui n’est pas encore hors contrôle mais qui nécessite une
attention accrue et une surveillance particulière.
Les conclusions que l’on peut tirer de la position d’un point par rapport aux limites
de contrôle sont soumises aux incertitudes inhérentes aux fluctuations d’échantillonnages.
Dans ce cadre, deux sortes d’erreur sont alors possibles (dont les risques s’expriment par
des probabilités). La première est dite risque α consiste à conclure qu’un déréglage a
eu lieu alors qu’aucune cause n’est venue perturber le processus. Ce cas est également
désigné sous le nom de fausse alarme. La deuxième erreur représente le risque β qui
consiste à conclure que le processus est resté stable alors qu’une cause perturbatrice est
venue effectivement le dérégler.
Les cartes de contrôle se différencient non seulement par les méthodes de calcul des
limites et les statistiques utilisées, mais également par la rapidité avec laquelle un déréglage
est détecté. Cette rapidité se mesure en terme de période opérationnelle moyenne (Average
Run Length : ARL) qui est le nombre moyen d’échantillons successifs nécessaires pour
s’apercevoir du déréglage ou autrement dit, le temps moyen d’attente entre le moment où
le déréglage se produit et l’instant où la carte le signale. Cette rapidité dépend évidemment
du déréglage et elle est notée ARL(δ) où δ est le déréglage maximal toléré de la statistique

17
Chapitre 1. Supervision, surveillance et diagnostic

étudiée, exprimé en nombre d’écarts types.


Ainsi, une carte de contrôle est dite efficace pour la détection d’un déréglage δ si
ARL(δ) est faible. Cependant, il arrive que la carte signale une sortie des limites sans
qu’il ait eu un déréglage, l’ARL(0) correspondante est alors le nombre moyen de contrôle
avant une fausse alerte qui conduit à des efforts inutiles pour la recherche de causes
spéciales inexistantes. L’efficacité d’une carte de contrôle se mesure avec les deux ARL.
Une bonne carte doit réaliser un compromis entre la période opérationnelle moyenne en
cas de déréglage ARL(δ) et l’ARL(0). Souvent, on souhaite détecter un déréglage δ le plus
rapidement possible (la ARL correspond à δ doit être faible) en ayant le moins de fausses
alertes possible (l’ARL(0) doit être grande). De même, cette efficacité peut être exprimée
par la probabilité d’acceptation (Pa) de conclure à la stabilité d’un processus en fonction
du déréglage de celui-ci, autrement dit, la probabilité de se trouver entre les limites de
contrôle ou la probabilité de ne pas déceler un déréglage (risque β).

1.4.1.3 Aperçu sur les cartes univariées


De manière générale, les méthodes les plus classiques conçues pour un contrôle de
processus fournissent un groupe de tests statistiques univariées afin d’assurer qu’une va-
riable de qualité d’un processus est constamment sur sa cible. Dans ce cadre, le principe
de base dans la construction de la plupart des cartes univariées repose sur la notion de
test d’hypothèse. En considérant que le modèle théorique du processus suit une certaine
distribution de probabilité, l’hypothèse nulle (ou sous-contrôle) pour ses paramètres est
spécifiée. Lorsque les paramètres représentent la moyenne ou la variance du processus,
l’hypothèse alternative consistera dans le changement de tels paramètres (Tiplica, 2002).
De nombreuses cartes de contrôle qui reposent sur un test d’hypothèse comme celles
de Shewhart (Shewhart, 1931), les cartes à somme cumulée (cumulative sum : CUSUM)
(Page, 1954; Woodward et Goldsmith, 1964), les cartes de moyennes mobiles équipondé-
rées (moving average : MA) et les cartes à moyennes mobiles avec pondération exponen-
tielle (exponentially weighted moving average : EWMA) (Roberts, 1959; Hunter, 1986)
ont eu une contribution remarquable à l’amélioration de la qualité des processus.
Les premières cartes de contrôle utilisées sont dites cartes aux mesures de Shewhart.
Elles visent à définir le niveau de la qualité à atteindre et auquel la direction doit se référer,
à apporter une aide pour obtenir ce standard ou cible et à fournir un élément de jugement
pour décider si cette cible a été atteinte. Les cartes de Shewhart s’attachent aux variables
quantitatives (mesurables). Elles réunissent le contrôle du paramètre de centrage et celui
de la dispersion (étalement des valeurs de la distribution de la variable autour d’une valeur
centrale). Les cartes de Shewhart comprennent celles sur la moyenne X̄, sur l’étendue R
ou sur l’écart type S. D’après la figure 1.3, ces cartes traditionnelles aux mesures utilisent
à chaque instant t les seules mesures relatives à t. Elles détectent uniquement les dérives
rapides et les grands écarts de variation du processus. Par conséquent, elles ne sont pas
satisfaisantes lorsque les changements dans l’évolution des caractéristiques représentatives
d’un processus sont de faibles amplitudes.
Pour remédier au problème lié à la détection de faibles écarts de déréglage ainsi que
les lentes dérives, on utilise des cartes d’applications spécifiques. Ces cartes permettent
l’accumulation de l’information dans le temps en utilisant les observations à l’instant t et

18
1.4. Techniques statistiques pour la détection et le diagnostic

l’ensemble ou une partie des observations à des instants antérieurs à t comme le cas des
cartes CUSUM, MA et EWMA.
Les cartes CUSUM ont été initialement introduites par Page (1954). Elles sont parmi
les méthodes les plus efficaces, en accord avec les propriétés de leurs ARL, dans la détection
d’un changement d’ampleur connue dans la moyenne (Basseville et Nikiforov, 1993). En
effet, elles utilisent toutes les observations considérées durant l’échantillonnage. La carte
CUSUM consiste à représenter pour chaque variable la somme cumulée suivante :
t
X
(xi (k) − µi ) (1.1)
k=1

où xi (k) est la mesure de la variable i au moment de l’échantillonnage k et µi représente


la moyenne de cette variable.
Bien que l’on ait cru pendant de nombreuses décennies que la carte de Shewhart n’est
plus efficace dans la détection des faibles et moyennes variations dans un processus, des
travaux récents ont confirmé que la différence entre une telle carte et celle de CUSUM
n’est pas significative. En effet, Nenes et Tagaras (2007) ont comparé la performance
économique réalisée par ces deux cartes pour le suivi d’un processus. Ainsi, les résultats
de leur étude ont montré que l’avantage économique dans leurs utilisations est important
uniquement lorsque la taille d’un échantillon est contrainte à des faibles valeurs.
Les cartes MA n’utilisent que les w observations les plus récentes. A l’instant t, on
supprime la plus ancienne des moyennes des échantillons et on ajoute la plus récente
moyenne à l’ensemble. Ainsi, on calcule :
w

X
−1

 w


 xi (t − k + 1) si t ≥ w
k=1
Xt (1.2)
−1

 t xi (k) si t < w



k=1

Dans le cas particulier où w = 1, on retrouve les cartes de Shewhart. Intuitivement,


plus le déréglage est petit, plus l’ordre w de la MA doit être élevé pour une bonne détection.
Niang et Saporta (1995) ont constaté d’après une étude comparative que les cartes MA
remplacent avantageusement celles de Shewhart. D’après les mêmes auteurs, les cartes
MA sont moins utilisées que les cartes CUSUM et EWMA malgré qu’elles sont d’efficacité
comparable en étant d’utilisation aussi simple.
Les cartes EWMA utilisent un coefficient de pondération compris dans l’intervalle [0, 1]
ayant pour objectif l’oublie progressive des mesures antérieures. Dans le cas particulier
où un tel coefficient est égal à l’unité, la carte EWMA est identique à celle de Shewhart.
Plus la valeur du coefficient de pondération est faible, plus les petites dérives sont mieux
décelées par la carte EWMA. En s’appuyant sur l’idée que les mesures récentes observées
sur le processus peuvent contenir plus d’informations sur les anomalies que les anciennes
mesures, de différents poids peuvent être affectés aux données en fonction de leurs temps
d’acquisition. La carte EWMA permet d’augmenter le poids de façon exponentielle au fur
et à mesure que les observations sont plus récentes. Pour chaque variable, on fixe la valeur

19
Chapitre 1. Supervision, surveillance et diagnostic

de démarrage yi (0) = µi et on affiche sur la carte la statistique suivante :


yi (t) = rxi (t) + (1 − r)yi (t − 1) (1.3)
où r représente le paramètre de pondération.
En comparant la performance de la carte EWMA à celle de CUSUM dans la détection
des faibles dérives de la moyenne d’un processus, Vargas et al. (2004) ont observé suite
à une étude de simulation que la carte CUSUM ne détecte pratiquement pas des points
ayant des niveaux de variation particulière. Les points en question correspondent à des
situations hors contrôle. Cela a permis ces auteurs de conclure que la carte de contrôle
EWMA est mieux efficace que la carte CUSUM.

1.4.2 Limitations des cartes univariées


L’acquisition de données en considérant un grand nombre de variables sert à extraire
des informations sur tout régime efficace pour une surveillance et un diagnostic opération-
nels et fiables du processus. En revanche, la plupart des méthodes classiques de contrôle
statistique de processus fournissent des cartes de contrôle interprétables uniquement pour
un nombre réduit de variables. En outre, ces cartes présentent une explication des ten-
dances des variables les unes indépendamment des autres. Par conséquent, les cartes uni-
variées fournissent des informations quantitatives en ignorant l’effet de la corrélation entre
les variables.
Le problème rencontré avec une utilisation séparée des cartes de contrôle univariées
peut être illustré en se référant à la figure 1.4 (Kourti et MacGregor, 1995). Dans ce cas,
seulement deux variables corrélées x1 et x2 ont été considérées pour faciliter l’illustration.
Supposons que si le processus est dans un état sous contrôle où seules les variations des
causes communes sont présentes, x1 et x2 suivent une distribution multivariable normale.
L’ellipse représente alors le périmètre de la zone de confiance pour le processus multiva-
rié. Les points qui sont à l’intérieur de l’ellipse représentent un ensemble d’observations
en considérant une carte multivariée. Les mêmes observations sont également tracées en
considérant pour chaque variable sa propre carte univariée de Shewhart.
L’observation indiquée par le symbole ♦ est en dehors de la zone de confiance de la
carte multivariée. Le lot correspondant est clairement différent de la population normale
”sous contrôle” du produit. Toutefois, aucune des deux cartes univariées n’a indiqué la
présence d’un problème dans l’observation ♦ puisqu’elle se trouve dans leurs zones de
confiances situées entre leurs limites UCL et LCL. En effet, la véritable situation ne se
révèle qu’à travers le tracé multivarié des deux variables. D’après la figure 1.4, l’utilisation
des cartes univariées risque d’accepter un mauvais produit (lot ♦), mais aussi risque de
refuser un bon produit (lot F). Dans le cas de variables corrélées, les résultats obtenus
en considérant uniquement les cartes univariées sont erronés car la probabilité associée à
l’erreur de type I (l’erreur de première espèce ou le risque α) est plus grande.
Malgré les limitations des cartes de contrôle univariées, celles-ci continuent d’être
presque le seul outil de surveillance encore utilisé dans certaines industries (MacGre-
gor et Kourti, 1995). Alors que plusieurs extensions multivariées des cartes de Shewhart,
CUSUM et EWMA basées sur la statistique T 2 de Hotelling ont été proposées dans la
littérature.

20
1.4. Techniques statistiques pour la détection et le diagnostic

x1
UCL

x2
Cible

LCL
Observations (Temps) Observations (Temps)

Cible
UCL

LCL

Figure 1.4 – Illustration de l’inconvénient de l’utilisation des cartes univariées

1.4.3 Extensions multivariées des cartes univariées


Actuellement, suite à l’évolution remarquable de l’électronique et de l’informatique, on
a le moyen de faire mieux car, il faut être conscient, que le processus de fabrication n’est
jamais univarié (Tiplica, 2002). En effet, le processus de fabrication est régi par un grand
nombre de variables ou des facteurs qu’il faut maı̂triser simultanément afin de s’assurer
le succès de la démarche mise en œuvre et l’obtention des bons résultats. Un contrôle
de processus dont plusieurs variables sont simultanément considérées est appelé contrôle
multivarié.
Le contrôle des processus multivariés bénéficie de l’utilisation inhérente des méthodes
multivariées plutôt que d’une collection des méthodes univariées appliquées à des variables
séparées. Notamment, certaines techniques déployées pour assurer le contrôle de processus
multivarié sont des extensions multivariées des approches univariées. La première étude
originale abordant le contrôle de qualité multivariée a été introduite par Hotelling (1933,
1947). Ainsi, les extensions vers une représentation multivariée ont été découlées princi-
palement du principe classique de la carte de Shewhart. Les premières cartes multivariées
qui ont été développées représentent la carte χ2 et la carte T 2 de Hotelling. En effet,
ces deux cartes de contrôle utilisent seulement les observations à l’instant présent pour
déterminer l’état du processus. Elles sont donc moins performantes pour la détection des
faibles déréglages du processus (Jackson, 1991; Kourti et MacGregor, 1995; Tiplica, 2002).
Notamment, une détection mieux efficace de ce type de changements nécessite un
contrôle statistique basé sur l’accumulation de l’information des observations antérieures.
Pour cette raison, les cartes de contrôle MEWMA (Multivariate EWMA) et MCUSUM
(Multivariate CUSUM) ont été développées en analogie avec le cas univarié (Woodall et

21
Chapitre 1. Supervision, surveillance et diagnostic

Ncube, 1985; Healy, 1987; Lowry et al., 1992).


La carte MEWMA est parmi les cartes multivariées qui ont été conçues pour une
détection fiable des faibles changements, cependant, elle s’adresse généralement à des
changements dans le vecteur des moyennes. Dans l’objectif d’élaborer des procédures de
suivi de la variance au lieu de la moyenne du processus, Hawkins et Maboudou-Tchao
(2008) ont développé une approche dite MEWMA-CM, afin de surveiller la stabilité de la
matrice de covariance de processus.
Généralement, la moyenne et la variance de processus peuvent changer simultanément
durant la surveillance. Leur considération simultanée, pour des faibles changements et dans
un contexte multivarié, a reçu peu d’intérêt dans la littérature. Cheng et Thaga (2006)
ont fourni un aperçu sur les cartes de contrôle univariées dans un effort de construire une
carte permettant la surveillance simultanée de la moyenne et de la variance du processus
dans un contexte univarié. En raison de la complexité des distributions multivariées, cette
idée n’a pas pu être facilement étendue aux cas multivariés.
Bien que la littérature a fourni des preuves en faveur de l’intérêt de l’application du
contrôle statistique multivariée de processus, un certain nombre de limitations ont été
quand même inévitables. Lors de l’application des cartes de contrôle de Shewhart, l’utili-
sation des moyennes des sous-groupes améliore sensiblement leur performance. Cependant,
ce n’est pas toujours le cas lors de l’utilisation de la carte MCUSUM. En outre, les pro-
cédures de conception des cartes de contrôle multivariées présentent des calculs intensifs
(Montgomery, 2001). Ainsi, ces cartes sont efficaces lorsque le nombre des variables du
processus n’est pas grand. Les cartes de contrôle multivariées perdent de leur efficacité
en terme de détection des changements en augmentant le nombre des variables. En plus,
l’interprétation directe de ces cartes ne fournit pas les informations dont un opérateur a
besoin quand une anomalie est détectée.
Dans ce cadre, Jackson et Mudholkar (1979), Jackson (1980) et Kourti (2005) et plu-
sieurs autres auteurs ont recommandé les méthodes de projection qui sont révélatrices
d’informations cachées par la transformation de la corrélation entre les variables en un
ensemble de nouvelles variables indépendantes.

1.4.4 Méthodes de projection

Les méthodes d’analyse de données multivariées peuvent aider à la visualisation ainsi


que l’interprétation d’un ensemble d’observations qui décrivent un phénomène naturel ou
physique. La difficulté confrontée se manifeste souvent dans les phénomènes complexes qui
produisent ainsi une masse de données à analyser. Dans ce cadre, un ensemble particulier
de techniques permettant efficacement de surmonter une telle difficulté sont les méthodes
de projection. Leur objectif consiste à compresser les données afin d’extraire un résumé
de l’information que contiennent. Les techniques les plus connues sont l’analyse factorielle
(AF), l’analyse en composantes principales (ACP), l’analyse canonique (AC), la régression
sur composantes principales (RCP) et la projection dans les structures latentes (PSL),
également connue sous la dénomination de moindres carrés partiels.

22
1.4. Techniques statistiques pour la détection et le diagnostic

1.4.4.1 Intérêt de la projection

La réduction de la dimension d’un problème en supprimant certaines variables peut


conduire à une réduction de l’information utile et par conséquent à une interprétation erro-
née ou incomplète. Cependant, l’objectif de la réduction pour une analyse statistique mul-
tivariée est d’assurer la simplicité pour la visualisation, tout en conservant suffisamment
d’informations pour une interprétation appropriée et pertinente. Les méthodes utilisées
pour réduire la dimension d’un espace multivarié s’appuient sur le concept des variables
latentes ou cachées. Ces dernières représentent des variables virtuelles construites dans le
but de comprendre un intérêt caractéristique qui ne peut pas être mesuré directement.
Bien que les variables latentes ne soient pas observables, elles ont un certain impact sur
les variables mesurées ou originelles et, par conséquent, sont soumises à une analyse. Les
variables latentes sont généralement définies comme une combinaison linéaire des variables
originelles.
En essayant de surmonter les difficultés décrites auparavant, les méthodes multivariées
comme l’ACP et la PLS ont été appliquées. Elles sont particulièrement adaptées à des
données corrélées qui sont projetées sur des sous-espaces de dimensions réduites afin d’ex-
traire toutes informations pertinentes sur le processus. L’ACP est une méthode utilisée
pour expliquer la variabilité d’un ensemble de données en définissant un ensemble de vec-
teurs latents décrivant des directions principales non corrélées. Cette méthode sera étudier
avec plus de détail dans le chapitre suivant. La PLS est similaire à l’APC, sauf qu’elle
réduit simultanément la dimension de l’espace des variables de processus et celles de la
qualité pour trouver les vecteurs latents. L’application type de l’utilisation de la PSL est
de définir deux matrices de données. La première est notée Y contenant uniquement les
caractéristiques qualité de la production, alors que la deuxième matrice X contient toutes
les autres variables du processus. Ainsi, la PLS permet la maximisation de la covariance
entre la matrice de prédicteurs X et la matrice prédite Y. L’objectif est alors de trouver
les espaces de projection pour X et Y pour lesquels la corrélation entre les vecteurs di-
recteurs de chaque espace est la plus importante. Il existe de nombreux algorithmes de
calcul des espaces réduits pour la PSL.
Vu l’intérêt qu’a connu l’ACP, cette dernière constituera l’intérêt de nos travaux de
recherche menés par la présente thèse. Cette approche sera expliquée en détail de point
de vue théorique dans le chapitre suivant. Néanmoins, et pour illustrer l’importance de
l’ACP, nous présentons dans la suite un panorama non exhaustif de différentes extensions
qu’a connu cette méthode dans la littérature.

1.4.4.2 Différentes extensions de l’ACP

L’analyse en composantes principales est une étape clé pour une surveillance multiva-
riée de processus. Son efficacité dépend du modèle statistique généré qui dépend également
des données collectées. L’approche classique de l’ACP utilise un calcul préliminaire de la
moyenne des données et de leur matrice de covariance. La moyenne et la variance sont
sensibles à la présence de valeurs aberrantes. Ainsi, les résultats obtenus s’avèrent sou-
vent inexploitables car trop biaisés par l’influence de ces valeurs aberrantes. Pour tolérer
la présence de ces dernières, une ACP robuste peut être conduite en calculant une matrice

23
Chapitre 1. Supervision, surveillance et diagnostic

de covariance des données robuste (Chen et al., 1996; Hubert et al., 2005; Tharrault et al.,
2008).
Une autre extension possible de l’ACP est la prise en compte de la production par lots
(procédé batch). En effet, l’ACP classique fait la supposition que le procédé est stricte-
ment continu. Or, dans l’industrie, il est fréquent de trouver des procédés de fabrication
fonctionnant par lots. La technique la plus étudiée pour traiter ce genre de problème
est l’ACP multiéchelle (multiway PCA) (Nomikos et MacGregor, 1994; Nomikos, 1996;
Smilde et al., 2004). L’ACP multiéchelle est une extension à trois dimensions de l’ACP
classique. Les trois dimensions représentent respectivement les observations, les instants
d’observations et les lots (le raisonnement pour l’ACP classique n’est fait que sur deux
dimensions : les observations et les instants d’observations).
Le suivi de la performance des processus continus en utilisant des méthodes de projec-
tion multivariées comme l’ACP est étendu à des situations où les processus peuvent être
naturellement subdivisés en des sous-blocs. En effet, l’ACP multi-bloc (Kourti et al., 1995;
Qin et al., 2001; Cherry et Qin, 2006) permet d’établir des cartes de suivi pour chacun
des blocs ainsi que pour l’ensemble du processus. Quand un événement ou un défaut se
produit, l’utilisation de l’ACP multi-bloc peut détecter l’événement plus tôt en révélant
le bloc dans lequel l’événement est produit. Dans la même optique, l’ACP offre une autre
possibilité par l’utilisation des modèles partiels. On sous entend par ACP partielle, une
ACP effectuée sur des données collectées en écartant quelques variables. Les résidus géné-
rés pour la détection de défauts sont donc sensibles uniquement aux défauts associés aux
variables utilisées (Huang et al., 2000).
L’ACP classique est une méthode de projection linéaire où seules les dépendances li-
néaires ou quasi-linéaires entre les variables peuvent être révélées. Si les données traitées
présentent des comportements fortement non linéaires, l’ACP linéaire est incapable de
trouver une représentation compacte décrivant ces données. Par conséquent, l’extension
de l’ACP aux problèmes non linéaires a été abordée dans la littérature. Les réseaux neu-
ronaux ainsi que les fonctions noyaux peuvent bien être adaptés pour résoudre ce type de
problèmes.
Une nouvelle méthode d’ACP non linéaire basée sur une couche d’entrée de réseau de
neurones a été proposée par Jia et al. (1998), conjointement avec des cartes de contrôle non
paramétriques. Un autre algorithme d’ACP non linéaire utilisant les réseaux neuronaux
et les ondelettes a été proposé par Shao et al. (1999) pour le suivi des performances de
processus. En effet, la plupart des approches utilisent les réseaux de neurones MLP pour
l’obtention du modèle ACP non linéaire. Néanmoins, on rencontre souvent des problèmes
d’optimisation non linéaires telles que la convergence et l’initiation de ce type de réseaux.
Pour cette raison, Harkat (2003) et Harkat et al. (2007) ont proposé une approche d’ACP
non linéaire où le problème d’apprentissage se ramène à un problème de régression linéaire,
ainsi qu’un algorithme permettant de déterminer le nombre de composantes non linéaires
à retenir dans le modèle.
Une ACP à noyaux non linéaires à été initialement proposée par Schölkopf et al.
(1998). On peut calculer les composantes principales de manière efficace dans un espace
de dimension plus élevée lié à l’espace d’entrée par certaines fonctions noyaux. Une ACP
linéaire est ensuite appliquée sur les données projetées dans le nouvel espace (Lee et al.,
2004; Choi et al., 2005; Sun et al., 2007). L’ACP à noyaux peut être considérée comme

24
1.4. Techniques statistiques pour la détection et le diagnostic

une généralisation de l’ACP linéaire et particulièrement adaptée pour extraire des carac-
téristiques non linéaires de données. Néanmoins, un problème persistant dans le cadre de
l’ACP à noyaux réside dans le choix de la fonction noyau.

1.4.5 Interprétations des situations hors contrôle


Lorsqu’une carte de contrôle univariée signale une situation hors contrôle, l’opéra-
teur peut facilement envisager une solution au problème puisqu’une telle carte est liée
uniquement à une seule variable. En revanche, et dans le cas multivarié, une telle inter-
prétation n’est plus valable par l’intermédiaire d’une carte univariée puisqu’en présence
de la corrélation, un certain nombre de variables peuvent être généralement impliquées.
Comme il a été mentionné précédemment, les cartes multivariées de Shewhart, MCUSUM
et MEWMA, ainsi que les méthodes de projection comme l’ACP ont été utilisées princi-
palement pour la surveillance de processus. Ces méthodes sont en mesure seulement de
détecter une situation hors contrôle en signalant l’existence probable d’un défaut dans le
processus. Pour cela, l’identification de la (ou les) variable(s) responsable(s) de défauts a
été un sujet intéressant pour de nombreux chercheurs au cours des dernières années. Dans
cette section, quelques méthodes d’isolation de défauts ou d’interprétation d’une situation
hors contrôle sont présentées.
L’utilisation des cartes de contrôle univariées pour l’identification pose quelques pro-
blèmes liés à la probabilité globale des fausses alarmes qui n’est pas contrôlée ainsi qu’à
l’ignorance de la corrélation entre les variables. Pour contrôler la probabilité globale, Alt
(1982) a suggéré d’utiliser les cartes de contrôle univariées avec des limites ajustées de
type Bonferroni. Ainsi, Hayter et Tsui (1994) ont étendu cette idée en proposant une
procédure de construction précise et simultanée d’intervalles de confiance pour chaque
variable. Ceci a pour but d’offrir une identification plus aisée des variables probablement
responsables du problème.
Dans le contexte multivarié, Mason et al. (1995) ont proposé une idée basée sur la
décomposition de la statistique T 2 en des parties indépendantes, dont chacune reflète la
contribution d’une variable individuelle. Le problème de cette approche se résume dans
la non unicité d’une telle décomposition. Pour cela, Mason et al. (1996) ont présenté
également une procédure de contrôle alternative basée sur une double décomposition de
la statistique T 2.
Kourti et MacGregor (1996) ont développé différentes approches basées sur l’ACP.
Lorsqu’une situation hors contrôle est détectée, des contributions sont calculées pour
identifier les variables responsables. La contribution indique la valeur impliquée par chaque
variable dans le calcul de l’indice ou la statistique utilisée pour la détection. En effet, le
principe de la contribution des variables évite les problèmes d’interprétations physiques
des composantes principales. Les approches des contributions sont également investiguées
par Westerhuis et al. (2000a) et Alcala et Qin (2009, 2011).
Une approche de localisation de défauts basée sur le principe de la reconstruction à
été proposée dans la littérature (Dunia et Qin, 1998b; Qin, 2003). Cette méthode repose
sur l’estimation de l’amplitude du défaut en considérant la corrélation entre les variables.
Nous notons que les approches dédiées au diagnostic de défauts, comme les contribu-
tions et la reconstruction, seront détaillées lors du dernier chapitre.

25
Chapitre 1. Supervision, surveillance et diagnostic

1.5 Conclusion
Dans ce chapitre, nous avons présenté les différents concepts et définitions sur lesquels
se basent généralement la surveillance et le diagnostic de défauts d’un système. Parmi les
approches existantes dans la littérature, nous sommes plus particulièrement intéressés à
celles basées sur une analyse de données. Nous avons présenté des notions, très générales,
concernant les cartes de contrôle. Ainsi, nous avons évoqué la nécessité de l’application
des techniques relevant du contrôle statistique multivarié afin d’assurer le contrôle des
processus qui ne disposent pas d’un modèle mathématique qui soit complet. Nous avons
présenté, d’une manière non exhaustive, quelques unes des cartes de contrôle multivariées
les plus utilisées. Malgré leurs avantages par rapport aux cartes de contrôle univariées, un
problème très important qui reste à résoudre est la manière d’identifier la variable ou les
variables responsable(s) d’un fonctionnement anormal de processus.
Le nombre de variables surveillées dans un système ainsi que la corrélation limitent le
choix des méthodes utilisées pour l’obtention d’un diagnostic fiable. Dans ce cas, les mé-
thodes de projection peuvent être utilisées, en particulier l’ACP qui a l’avantage d’élaborer
un nombre réduit de cartes de contrôle ce qui peut faciliter l’analyse. Pour l’identification
des variables responsables de défauts, les méthodes de contributions ainsi que celle de
reconstruction sont liées aux paramètres de modèle ACP. Par conséquent, la fiabilité de
la détection et du diagnostic de défauts en s’appuyant sur l’ACP est principalement basée
sur l’optimalité de tel modèle. Dans le chapitre suivant, nous allons décrire plus en détail
l’approche d’ACP ainsi que la problématique liée au choix de modèle.

26
2
Modélisation par analyse en composantes
principales

Sommaire
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2 Analyse en composantes principales linéaire . . . . . . . . . . 29
2.3 Propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Modélisation en absence de bruit . . . . . . . . . . . . . . . . . 34
2.3.2 Modélisation en présence de bruit . . . . . . . . . . . . . . . . 36
2.4 Détermination d’une structure optimale du modèle ACP . . 36
2.4.1 Critères de la théorie de l’information . . . . . . . . . . . . . . 36
2.4.2 Critères heuristiques . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2.1 Critère IE . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2.2 Pourcentage cumulé de la variance . . . . . . . . . . . 38
2.4.2.3 Scree Test . . . . . . . . . . . . . . . . . . . . . . . . 38
2.4.2.4 Critère de Guttman . . . . . . . . . . . . . . . . . . . 39
2.4.2.5 Autocorrélation . . . . . . . . . . . . . . . . . . . . . 40
2.4.2.6 Validation croisée . . . . . . . . . . . . . . . . . . . . 40
2.4.3 Minimisation de la variance de l’erreur de reconstruction . . . . 41
2.4.3.1 Critère VNR . . . . . . . . . . . . . . . . . . . . . . . 42
2.4.3.2 Consistance théorique du critère VNR . . . . . . . . . 43
Cas de bruit i.i.d. . . . . . . . . . . . . . . . . . . . . . . 44
Cas de bruit coloré . . . . . . . . . . . . . . . . . . . . . 45
2.5 Etude comparative des différents critères . . . . . . . . . . . . 45
2.5.1 Présentation et interprétation de l’exemple simulé . . . . . . . 46
2.5.2 Interprétations des critères basés sur des seuils . . . . . . . . . 48
2.5.3 Interprétations des critères minimisés . . . . . . . . . . . . . . 51
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

27
Chapitre 2. Modélisation par analyse en composantes principales

2.1 Introduction
L’Analyse en Composantes Principales (ACP) est une méthode statistique multivariée
qui permet d’extraire les corrélations d’un ensemble de données à travers un ensemble de
fonctions empiriques orthogonales. Elle représente une méthode descriptive permettant
d’étudier les relations linéaires entre les variables sans tenir compte a priori d’une quel-
conque structure (Jolliffe, 2002). Ses origines historiques peuvent être remontées jusqu’aux
œuvres de E. Beltrami en Italie (1873) et C. Jordan en France (1874) puisque ce sont eux
qui ont formulé la décomposition en valeurs singulières (SVD) d’une matrice carrée (Cinar
et al., 2007). Cependant, la première application pratique de l’ACP peut être attribuée
au travail de Pearson (1901) en biologie, puis elle a été de nouveau développée et forma-
lisée par Hotelling (1933). Ensuite, elle est devenue une technique multivariée standard
(Jackson, 1991; Jolliffe, 2002).
Depuis les années 1970, de nombreux travaux ont proposé d’utiliser l’ACP comme
une technique de modélisation de processus à partir de laquelle un modèle ACP peut
être obtenu (Kresta et al., 1991; MacGregor et Kourti, 1995; Jolliffe, 2002). Ce modèle
est extrait en se basant sur un ensemble de données qui sont issues d’un fonctionnement
normal. Il permet d’estimer les variables ou les paramètres du processus à surveiller.
Ainsi, il peut être utilisé pour détecter les valeurs aberrantes dans les données, fournir la
réconciliation de données et surveiller les écarts par rapport à un fonctionnement normal.
L’utilisation fréquente de l’ACP dans plusieurs domaines s’est justifiée par sa réduc-
tion des données caractérisant un espace de grande dimension en un ensemble de com-
posantes principales (CPs) constituant un sous-espace de dimension réduite. Cependant,
l’optimalité d’une telle réduction réside dans la détermination du nombre de CPs les plus
significatives. Dans ce cadre, plusieurs critères et règles ont été proposés dans la littérature
afin de définir la dimension optimale d’un modèle ACP (Jackson, 1991; Valle et al., 1999;
Jolliffe, 2002). D’une façon non exhaustive, Jolliffe (2002) distingue selon son point de vue
trois différentes catégories de critères.
La première famille constitue des critères empiriques ou heuristiques dont la justifi-
cation de leur utilisation, malgré quelques tentatives pour les mettre sur une base plus
formelle, reste subjective comme le pourcentage de la variance totale ou également le test
du coude (Scree Test) proposé par Cattell (1966). Contrairement, la fonction d’imbedded
error (IE) de Malinowski (1977) et beaucoup d’autres critères qui proviennent générale-
ment de la communauté de la chimiometrie disposent des règles de décision plus objec-
tives et simples. Ces règles se basent souvent sur la minimisation d’un critère par rapport
au nombre des CPs. En revanche, la subjectivité s’exprime dans la théorie du critère
lui-même. La deuxième catégorie représente des approches basées sur une série de tests
d’hypothèses qui sont généralement très sophistiquées et surestiment souvent la dimen-
sion du modèle. A titre d’exemple, Bartlett (1954) et Lawley (1956) ont développé une
méthode dont le problème confronté est associé au choix des niveaux des seuils pour les
différents tests. La troisième catégorie constitue des critères basés sur des méthodes de
calculs intensifs comme la validation croisée qui permet le calcul d’un critère dit PRESS
(Wold, 1978; Eastment et Krzanowski, 1982). En effet, ce critère est fondé sur la capacité
prédictive des différents modèles ACP.
Notamment, la littérature a offert une autre catégorie de critères qu’on ne peut pas

28
2.2. Analyse en composantes principales linéaire

ignorer. Une telle catégorie intitulée la théorie de l’information est principalement issue
du domaine du traitement du signal. Notamment, elle est constituée de deux critères qui
sont communément connus sous les noms d’Akaike Information Criterion (AIC, Akaike
(1973)) et Minimum Description Lenght (MDL, Schwarz (1978) et Rissanen (1978)).
Différemment aux principes des critères classiques, de nouvelles approches proposent
de définir un modèle ACP afin d’assurer une meilleure détection et localisation des défauts
plutôt que d’offrir une meilleure approximation des données. Pour obtenir le modèle ACP
le plus sensible à un défaut, Wang et al. (2004) ont proposé d’utiliser un indice prenant
en compte l’amplitude minimale du défaut nécessaire afin d’assurer sa détection. Notam-
ment, cette approche nécessite une connaissance a priori sur les défauts. Plus récemment,
Tamura et Tsujita (2007) ont proposé une procédure permettant de définir la dimension
d’un modèle ACP en fonction des directions des défauts afin de leur offrir une meilleure
sensibilité. Puisque ces directions sont généralement inconnues, les mêmes auteurs sug-
gèrent de définir plusieurs modèles ACP. Par conséquent, une telle approche semble être
plus pratique en considérant uniquement les défauts simples. Cependant, elle est difficile-
ment utilisable dans le cas de défauts multiples où un grand nombre de modèles doivent
être considérés.
Le critère qui représente un intérêt majeur dans nos travaux de recherche se base sur
la minimisation de la variance de l’erreur de reconstruction également appelée la variance
non reconstruite (VNR) (Dunia et Qin, 1998b,c,a; Qin et Dunia, 2000). Son expression
représente la variance en fonction du nombre de CPs, de la différence entre une mesure
observée et son estimée obtenue en utilisant l’ensemble des mesures des autres variables.
En effet, nous montrerons que ce critère aide à identifier le nombre des axes principaux
uniquement entre les variables qui sont linéairement corrélées.
Ce chapitre présentera un rappel du principe mathématique de l’ACP linéaire dans
la deuxième section. Etant donné que cette méthode est considérée comme un outil de
modélisation, la problématique souvent confrontée lors de son utilisation représente le
choix de la dimension du modèle ACP. Pour cela, la troisième section définira quelques
propriétés liées à la détermination d’un modèle ACP en absence puis en présence de bruit.
Dans la pratique, le bruit de mesures ne peut pas être négligé, ce qui compliquera la
détermination de la structure optimale du modèle. Dans ce contexte, la quatrième section
présentera quelques critères de sélection parmi les plus connus dans la littérature. Ensuite,
une étude comparative des critères choisis sera présentée dans l’avant dernière section. Ceci
en considérant un exemple de synthèse. A travers ce dernier, nous contribuons par deux
démonstrations montrant les limitations de deux critères. Finalement, nous concluons ce
chapitre.

2.2 Analyse en composantes principales linéaire


L’ACP consiste à remplacer une famille de variables par de nouvelles variables appelées
CPs. Ces dernières sont de variances maximales et non corrélées deux à deux. Elles sont
des combinaisons linéaires des variables originelles.
Considérons un ensemble de données collectées lors d’un fonctionnement normal du

29
Chapitre 2. Modélisation par analyse en composantes principales

système étudié. Ces données peuvent être représentées par une matrice
X = [x(1), · · · , x(N )]T ∈ RN ×m (2.1)
où N représente le nombre des observations et m représente le nombre des variables
mesurées. Chaque ligne de la matrice de données X représente une observation sous forme
d’un vecteur de mesures collectées à un instant k, généralement centrées
x(k) = [x1 (k), · · · , xm (k)]T ∈ Rm (2.2)
où xj (k) avec j = {1, · · · , m} représente la mesure de la variable j à l’instant k. Par
définition, la matrice de covariance est donnée par :
1
Σ = E xxT = XT X ∈ Rm×m

(2.3)
N
Selon le principe de l’ACP, on suppose qu’un vecteur de composantes t̂ ∈ R` est
associé à chaque vecteur d’observation dont il optimise la représentation au sens de la
minimisation de l’erreur d’estimation de x ou la maximisation de la variance de t̂. A
chaque instant k, les vecteurs t̂ et x sont liés par une transformation linéaire de type
t̂(k) = P̂ T x(k) telle que la matrice de transformation P̂ ∈ Rm×` vérifie la condition
d’orthogonalité P̂ T P̂ = I` ∈ R`×` .
Les colonnes de la matrice P̂ sont les vecteurs d’une base orthonormée d’un sous-espace
`
R de représentation réduite des données initiales. La transformation linéaire se traduit
par la projection des données originelles exprimées dans un espace de dimension m vers
un sous-espace orthogonal de dimension `. Les composantes tj (k) avec j = {1, · · · , `}
du vecteur t̂(k) sont les projections des éléments du vecteur de données x(k) dans le
sous-espace R` .
L’optimisation de la représentation en se basant sur la matrice de projection P̂ est
obtenue par la minimisation de l’erreur quadratique d’estimation de x. Notons par P̂ la
matrice optimale de représentation, celle-ci peut être donnée par :
n o
P̂ = arg min Je (P̂ ) (2.4)

où Je représente le critère de l’erreur d’estimation par ACP qui devrait être minimisé.
Sous la contrainte d’orthogonalité de la matrice de projection P̂ , nous pouvons écrire :
 
2
 2 T
Je (P̂ ) = E kx − x̂k = E x − P̂ P̂ x
 T   n o
T T
= E x − P̂ t̂ x − P̂ t̂ = E x x − t̂ t̂
n T
o n T o
= E tr xxT − t̂ t̂ = tr {Σ} − E t̂ t̂


= tr {Σ} − Jv (P̂ ) (2.5)


où tr {.} désigne la trace d’une matrice carrée. Etant donné que le terme tr {Σ} est une
constante, la minimisation du critère Je revient à maximiser celui du Jv donné par :
( ` ) ` `
n T o X X X
t2j = E t2j =
 
Jv (P̂ ) = E t̂ t̂ = E Var tj (2.6)
j=1 j=1 j=1

30
2.2. Analyse en composantes principales linéaire

D’après l’équation précédente, la maximisation du critère Jv est équivalente à une


maximisation de la variance de la composante tj . Ainsi, le problème d’optimisation est
reformulé comme suit :
n o n o
P̂ = arg min Je (P̂ ) = arg max Jv (P̂ ) (2.7)
P̂ P̂

Pour déterminer les vecteurs colonnes de la matrice P̂, on note par t ∈ R la projection
du vecteur de données x le long d’une direction représentée par un vecteur unitaire p ∈ Rm .
La composante t est obtenue par le produit scalaire t = xT p = pT x sous la contrainte
kpk2 = pT p = 1. Notamment, elle représente une nouvelle variable ayant une moyenne et
une variance qui dépendent des propriétés statistiques de x comme suit :

E {t} = E pT x = pT E {x} = 0

(2.8)

Var {t} = E (t − E {t})2 = E t2


 

= E pT x xT p = pT E xxT p
   

= pT Σp (2.9)

La maximisation de la variance de projection, sous condition d’une norme unité du


vecteur p, représente un problème d’optimisation sous contrainte égalité qui peut être
formalisé par la fonction de Lagrange :

L(p, λ) = Jv (p) − λ pT p − 1 = pT Σp − λ pT p − 1
 
(2.10)

où λ ∈ R désigne le multiplicateur de Lagrange. En tenant compte de la symétrie de la


matrice Σ, le vecteur p maximisant le critère d’optimisation Jv est solution du système
d’équations suivant : (
∂L(p, λ)/∂p = Σp − λp = 0
(2.11)
∂L(p, λ)/∂λ = pT p − 1 = 0
Par conséquence, la résolution de ce système d’équations est identifiée comme un
problème d’estimation de valeurs et vecteurs propres normalisés de la matrice Σ. Un tel
système d’équations admet des solutions réelles de la variables λ obtenues par résolution
de l’équation caractéristique suivante :

Det {Σ − λIm } = 0 (2.12)

où Det {.} représente le déterminant d’une matrice carrée. Im est la matrice identité
d’ordre m. Les solutions de l’équation précédente représentent les valeurs propres de Σ.
A chaque valeur propre λ est associé un vecteur propre p vérifiant (Σ − λIm )p = 0.
Ceci permet d’avoir m vecteurs propres pi associés aux m valeurs propres λi de la ma-
trice Σ vérifiant ainsi la relation Σpi = λi pi avec i = {1, · · · , m}. Sous forme matricielle,
une telle relation mène à écrire ce qui suit :

ΣP = PΛ (2.13)

31
Chapitre 2. Modélisation par analyse en composantes principales

P = [p1 , · · · , pm ] ∈ Rm×m représente la matrice de projection de données. Elle est


orthonormée puisque ses colonnes correspondent aux vecteurs propres de Σ :

PT P = PPT = Im ∈ Rm×m (2.14)

Λ = diag {λ1 , · · · , λm } ∈ Rm×m représente la matrice diagonale constituée en éléments


diagonaux des valeurs propres de Σ.
D’après les équations (2.13) et (2.14), on peut déduire que PT ΣP = Λ. Ceci nous
permet de conclure que la première direction, ayant une variance maximale de projection
de données x, est portée par le vecteur propre p1 associé à la plus grande valeur propre λ1 .
Cette dernière représente la variance d’une telle direction. Le second axe factoriel aussi
rend la variance maximale tout en étant orthogonal au premier. Sa variance λ2 est moins
importante que celle qui correspond à la première direction. Par conséquent, les éléments
diagonaux de Λ sont arrangés dans l’ordre décroissant : λ1 ≥ · · · ≥ λm .
En considérant la matrice P, le vecteur de données x(k) peut se transformer sans
aucune perte d’informations en un vecteur de composantes principales (CPs) :

t(k) = [t1 (k), · · · , tm (k)]T = PT x(k) ∈ Rm (2.15)

où les CPs tj avec j = {1, · · · , m} sont définies par :

tj (k) = pTj x(k) = xT (k)pj (2.16)

Celles-ci sont statistiquement non corrélées :

E ti tj = E pTi xxT pj = pTi Σpj = 0 i 6= j


 
(2.17)

La notation sous forme matricielle nous permet de définir la matrice des CPs comme
suit :
T = [t(1), · · · , t(N )]T = XP ∈ RN ×m (2.18)
La détermination du vecteur de données x(k) à partir du vecteur associé des CPs t(k)
est donnée par :
Xm
x(k) = Pt(k) = pj tj (k) (2.19)
j=1

La réduction des données est réalisée à travers les ` premières CPs ayant les plus
grandes variances. En conséquence, les ` premiers vecteurs propres forment le sous-espace
vectoriel réduit pour les données initiales. L’estimation x̂(k) du vecteur de données x(k)
dans ce sous-espace réduit (souvent appelé sous-espace de représentation ou principal et
noté Ŝ) est donnée par :
T
x̂(k) = P̂t̂(k) = P̂P̂ x(k) = Ĉx(k) (2.20)

où la matrice optimale de représentation exprimée dans l’équation (2.7) est définie comme
suit :
P̂ = [p1 , · · · , p` ] ∈ Rm×` (2.21)

32
2.3. Propriétés

T
t̂(k) = P̂ x(k) ∈ R` représente le vecteur des ` premières CPs. La matrice Ĉ ∈ Rm×m
caractérise ainsi le modèle ACP.
Toutefois, la réduction de dimension engendre généralement une perte d’informations
qui sont récupérées dans un vecteur résiduel x̃(k). Ce dernier est exprimé dans un sous-
espace résiduel S̃ constitué par le reste des CPs associées aux (m − `) derniers vecteurs
propres :
T
x̃(k) = P̃t̃(k) = P̃P̃ x(k) = C̃x(k) (2.22)
avec
P̃ = p`+1 , · · · , pm ∈ Rm×(m−`)
 
(2.23)
et
T
C̃ = P̃P̃ = Im − Ĉ (2.24)
La matrice C̃ ∈ Rm×m décrit le modèle résiduel. On entrevoit ici que l’ACP est une
approche de modélisation permettant ainsi l’obtention d’un modèle ACP d’un système
étudié.
L’interprétation du principe de la modélisation par ACP représente un partitionnement
de l’espace Rm des mesures x(k) en un sous-espace principal Ŝ et un sous-espace résiduel
S̃. Par conséquent, le vecteur de mesures x(k) est décomposé comme suit :

x(k) = x̂(k) + x̃(k) (2.25)


Notamment, une propriété géométrique d’orthogonalité entre le vecteur estimé et celui
résiduel est toujours vérifiée puisque :

C̃Ĉ = ĈC̃ = 0m ∈ Rm×m (2.26)

Celle-ci implique que le sous-espace principal et le sous-espace résiduel sont orthogo-


naux pour toutes valeurs de `. Ainsi,

x̃T (k)x̂(k) = 0 (2.27)

Une analyse de la robustesse de l’ACP par rapport au bruit de mesures mène à la


définition de quelques propriétés relatives à la détermination d’un modèle ACP.

2.3 Propriétés
Généralement, la présence de bruit de mesures est inévitable dans les données. Sous
l’hypothèse de l’absence de perturbations et de défauts, il est possible de considérer que
le vecteur x est perturbé par un bruit v ∈ Rm de moyenne nulle :

x(k) = x̊(k) + v(k) (2.28)

où x̊(k) représente le vecteur de données en absence de bruit de mesures.

33
Chapitre 2. Modélisation par analyse en composantes principales

2.3.1 Modélisation en absence de bruit


Notons par Σ̊ la matrice de covariance des données x̊. Sa décomposition en valeurs
singulières peut s’exprimer comme suit :
1 T T
Σ̊ = X̊ X̊ = P̊ Λ̊ P̊ (2.29)
N
où X̊ représente la matrice des données supposées être sans bruit. Elle est exprimée en
fonction des observations x̊(k) comme suit :

X̊ = [x̊(1), · · · ,x̊(N )]T ∈ RN ×m (2.30)

En effet, le nombre optimal ` des CPs doit correspondre au rang q de la matrice Σ̊


car en présence des corrélations linéaires entre les variables, les (m − q) dernières valeurs
propres de Σ̊ sont nulles. Ainsi, les partitionnements appropriés des matrices P̊ et Λ̊
conduisent à réécrire cette dernière de la façon suivante :
ˆ
" # " #
ˆ P̊T
Λ̊ = Λ̊ 0
h i
= ˜ Σ̊ P̊ ˆ ˜ (2.31)

0 0(m−q) P̊T

ˆ
où Λ̊ ∈ Rq×q représente la matrice diagonale composée des q valeurs propres non nulles :
ˆ
Λ̊ = diag{λ̊1 , · · · , λ̊q } (2.32)

λ̊` , avec ` = {1, · · · , q}, décrit la variance de la `ème CP des données étudiées en
l’absence de bruit de mesures. D’après l’équation (2.31), on peut déduire ce qui suit :
˜ ˜
P̊T Σ̊P̊ = 0(m−q) ∈ R(m−q)×(m−q) (2.33)

Ainsi, la substitution de la matrice Σ̊ par son expression donnée dans (2.29) mène à
la relation suivante :
˜ T ˜ ˜ T ˜
   
P̊T X̊ X̊ P̊ = X̊ P̊ X̊ P̊ = 0(m−q) (2.34)

Celle-ci implique que :


˜
X̊ P̊ = 0 ∈ RN ×(m−q) (2.35)
En tenant compte des observations x̊(k) qui constituent la matrice X̊, on peut égale-
ment déduire que :
˜
P̊T x̊(k) = 0 ∈ R(m−q) (2.36)
La relation précédente forme un système composé de (m − q) équations linéaires. En
effet, les (m − q) valeurs propres nulles de Σ̊ impliquent l’existence de (m − q) relations
linéaires entre les variables. Ainsi, ces équations représentent celles de redondance pré-
sentes entre les variables étudiées. En absence de bruit de mesures, les q valeurs propres
non nulles indiquent l’existence de q variables linéairement indépendantes.

34
2.3. Propriétés

Exemple 2.1 Détermination d’un modèle ACP en absence de bruit


Afin d’illustrer un exemple, on considère le système suivant :
(
y1 (k) = 2u1 (k) − u2 (k)
(2.37)
y2 (k) = u2 (k) + u3 (k)
y1 et y2 représentent les signaux de sorties d’un tel système. u1 , u2 et u3 sont les
signaux d’entrées dont les expressions en fonction du temps sont les suivantes :

 u1 (k) = 1 + sin(k/3)

u2 (k) = 2 cos(k/4) exp(−k/N ) (2.38)
 u (k) = log(u (k)2 )

3 2

On a construit une matrice de données X̊ composée de N = 2700 observations. Cha-


cune de ces dernières représente un vecteur des mesures associées aux variables étudiées :
x̊(k) = [u1 (k) u2 (k) u3 (k) y1 (k) y2 (k)]T . La décomposition en valeurs singulières de la
matrice de covariance Σ̊ de X̊ mène aux valeurs propres données par le tableau 2.1.

13.026 5.276 1.315 0 0

Table 2.1 – Valeurs propres de Σ̊ de l’exemple 2.1

On remarque l’existence de deux valeurs propres nulles ce qui explique l’existence de


deux équations de redondance dans le système. Les trois valeurs propres non nulles in-
diquent la présence de trois variables non corrélées qui représentent les entrées du système
dans cet exemple.
Le sous-espace résiduel est engendré par les deux derniers vecteurs propres dont les
transposées sont exprimées comme suit :
 
˜T 0.410 0.366 0.572 −0.205 −0.572
P̊ = (2.39)
0.733 −0.526 −0.160 −0.366 0.160
On peut alors déduire que les équations de redondance sont les suivantes :
(
0.410u1 (k) + 0.366u2 (k) + 0.572u3 (k) − 0.205y1 (k) − 0.572y2 (k) = 0 (a)
(2.40)
0.733u1 (k) − 0.526u2 (k) − 0.160u3 (k) − 0.366y1 (k) + 0.160y2 (k) = 0 (b)
A partir de l’équation (2.40.a), la variable y1 peut être exprimée en fonction des autres
variables de la manière suivante :
1
y1 (k) = (0.410u1 (k) + 0.366u2 (k) + 0.572u3 (k) − 0.572y2 (k)) (2.41)
0.205
En remplaçant la variable y1 de l’équation (2.40.b) par son expression donnée dans
(2.41), on peut déduire que :
y2 (k) = u2 (k) + u3 (k) (2.42)
Ainsi, la réinjection de celle-ci dans l’équation (2.41) mène à :
y1 (k) = 2u1 (k) − u2 (k) (2.43)
On peut alors conclure qu’il est possible de retrouver à partir des équations de redon-
dance le système initial donné par (2.37).

35
Chapitre 2. Modélisation par analyse en composantes principales

2.3.2 Modélisation en présence de bruit


D’après Li et Qin (2001), l’ACP fournit un modèle non biaisé uniquement dans le cas
particulier où les mesures des variables du processus sont entachées par un bruit blanc
(indépendant et identiquement distribué : i.i.d.).
Lorsque le bruit v est i.i.d. de variance identique σ 2 , l’expression de la matrice de
covariance des données bruitées est la suivante :

Σ = E{xxT } = PΛPT = Σ̊ + σ 2 Im (2.44)

Ainsi, Anderson (1963) a montré que les vecteurs propres des matrices Σ et Σ̊ sont
identiques. Pour ` = q CPs, il est alors possible d’exprimer la matrice C̃ comme suit :
˜˜
C̃ = P̊ P̊T (2.45)

Par conséquent, le vecteur résiduel ainsi que celui estimé d’une observation bruitée
x(k) sont respectivement exprimés de la manière suivante :

x̃(k) = C̃ (x̊(k) + v(k))


= C̃v(k) (2.46)

et
x̂(k) = Ĉ (x̊(k) + v(k)) (2.47)
En présence de bruit i.i.d., le modèle ACP est constitué de q CPs. Dans ce cas et
d’après l’équation (2.46), les données sans bruit ne sont pas projetées dans le sous-espace
résiduel. En effet, ce dernier ne peut contenir que le bruit de mesures. Cependant, le
sous-espace principal peut contenir les données non bruitées ainsi que le bruit.

2.4 Détermination d’une structure optimale du mo-


dèle ACP
En présence de bruit de mesures, les valeurs propres nulles de la matrice de covariance
indiquent l’existence de relations linéaires et les plus petites valeurs propres indiquent
l’existence de relations quasi-linéaires. Le choix du nombre de CPs joue donc un rôle crucial
dans la détermination des relations de redondance entre les variables. Toutefois, un tel
nombre révèle une difficulté pour sa détermination. Pour cela, de nombreux critères ont été
proposés dans la littérature afin d’offrir des solutions aidant dans le choix de la structure
adaptée du modèle ACP. D’une façon non exhaustive, nous avons choisi certains critères
parmi les plus connus afin de réaliser une étude comparative sur leurs performances.

2.4.1 Critères de la théorie de l’information


Dans le domaine du traitement du signal, l’identification des sources indépendantes
des signaux à partir d’un nombre fini d’observations bruitées est un problème crucial. Les
solutions proposées dans ce cadre peuvent être explorées avec l’ACP pour déterminer le

36
2.4. Détermination d’une structure optimale du modèle ACP

nombre des signaux non corrélés. En effet, un vecteur d’observation peut être modélisé
comme une superposition d’un nombre fini de signaux noyés dans un bruit additif. L’ob-
jectif est d’identifier ces signaux. Sous l’hypothèse que le bruit de mesures est i.i.d., sa
variance doit correspondre aux plus petites valeurs propres de la matrice de covariance. En
se basant sur le principe de la vraisemblance, deux critères AIC (Akaike, 1973) et MDL
(Rissanen, 1978) et (Schwarz, 1978) ont été proposés puis reformulés et adaptés par Wax
et Kailath (1985) afin d’être utiles dans le choix du nombre des CPs significatives. En
effet, le nombre des signaux non corrélés à identifier doit correspondre aux minima des
critères AIC et MDL dont les expressions sont respectivement données par :

AIC(`) = −2 log f (X|θ̂) + 2G(θ̂) (2.48)

MDL(`) = −2 log f (X|θ̂) + G(θ̂) log N (2.49)


avec !
m m
X 1 X
f (X|θ̂) = N log λa − N (m − `) log λ (2.50)
a=`+1
m − ` a=`+1 a
et
G(θ̂) = `(2m − `) (2.51)
où la fonction log représente l’opérateur du logarithme népérien. On remarque que les
premiers termes (à droite) des expressions (2.48) et (2.49) sont identiques et décroissants
en `. En revanche, les seconds termes sont croissants en `. Théoriquement, il existe un
minimum qui correspond à un nombre de CPs pour chacun des deux critères. Notam-
ment, Wax et Kailath (1985) ont montré que le critère MDL est capable d’estimer une
structure adaptée du modèle ACP sous l’hypothèse que le nombre d’observations consi-
dérées soit assez important. Tandis que celui d’AIC présente une tendance asymptotique
de surestimation du nombre des CPs retenues.

2.4.2 Critères heuristiques


La qualité des estimations par ACP dépend du choix du nombre des CPs retenues ou
encore de la dimension du sous-espace de représentation. Dans la suite, nous présentons
d’une façon non exhaustive les critères heuristiques les plus couramment utilisés.

2.4.2.1 Critère IE
L’analyse factorielle est une méthode conçue pour résoudre les problèmes multidi-
mensionnels. Elle exprime un ensemble de données sous forme d’une somme linéaire des
produits de fonctions. Ainsi, une réduction est réalisée afin de reproduire ces données à
partir d’un sous-espace composé uniquement des variables latentes significatives qui ont
été déterminées par l’analyse factorielle. Notamment, la première étape dans le processus
de cette méthode fait appelle à l’ACP qui consiste à déterminer ce nombre de facteurs
cachés. Puisque la reproduction des données engendre nécessairement des erreurs, Mali-
nowski (1977) distingue trois types d’erreurs qui sont : real error (RE), imbedded error

37
Chapitre 2. Modélisation par analyse en composantes principales

(IE) et extracted error (XE). En investiguant de prés le comportement de la fonction


IE, cette dernière a été considérée par Malinowski (1977) comme un critère capable de
déterminer la dimension d’un modèle ACP. Son expression dépend principalement des
valeurs propres résiduelles :
m
! 21
` X
IE(`) = λ (2.52)
N m(m − `) a=`+1 a

Chaque variable latente ou CP sélectionnée est composée des mesures observées et


des erreurs. Lorsque le sous-espace constitué par les variables latentes retenues n’est pas
encore optimal, le critère IE décroı̂t en ` en représentant par conséquent une mixture des
mesures observées et des erreurs. Au point où toute l’information normale est extraite, IE
devient croissant en ` en exprimant uniquement les erreurs. Une représentation convenable
des données est assurée par le nombre des CPs qui correspondent à la valeur minimale de
ce critère.
Bien que les critères AIC, MDL et IE soient développés dans différents domaines,
ils représentent deux points communs. En effet, ils se basent uniquement sur des valeurs
propres issues de la matrice de covariance des données. Par conséquent, ces dernières ne
doivent pas être normalisées. En outre, le bruit de mesures des variables est supposé être
indépendant et identiquement distribué.

2.4.2.2 Pourcentage cumulé de la variance


Les valeurs propres de la matrice de corrélation représentent les variances des CPs. Par
conséquent, elles ont été utilisées pour définir un critère PCV dans le but est la déter-
mination de la structure optimale d’un modèle ACP. Ce critère représente le pourcentage
de la variance expliquée par les CPs retenues comme suit :
 ` 
X
 λa 
 a=1 
PCV(`) = 100  X m
%
 (2.53)
λa
 
a=1

Généralement, on essaie de retenir avec ce critère un nombre de CPs ayant un PCV


compris entre 90% et 95% ou 99% de la variance totale. La règle de décision basée sur
un tel critère est très subjective, car il s’agit d’une réalisation d’un compromis entre une
variance maximale et un nombre minimal de CPs retenues. Le choix de la dimension du
modèle ACP est souvent difficile puisque ce critère est monotone croissant en `. En outre,
son efficacité à fournir le nombre optimal des CPs dépend fortement du rapport signal sur
bruit puisque la variance du bruit est inconnue.

2.4.2.3 Scree Test


Le Scree Test ou test du coude est une approche empirique proposée principalement
par Cattell (1966) pour la sélection du nombre optimal des CPs. Elle est basée sur un

38
2.4. Détermination d’une structure optimale du modèle ACP

test du coude de la courbe du pourcentage de la variance résiduelle dont l’expression est


la suivante :  m 
X
 λa 
 a=`+1 
PVR(`) = 100  X m
%
 (2.54)
λa
 
a=1

Ce critère présente une allure décroissante en `. Son principe est fondé sur l’idée
que la variance résiduelle devrait atteindre un état stationnaire lorsque les CPs ignorées
ressemblent à des erreurs aléatoires. Ainsi, le nombre des CPs à retenir est relatif au
premier point d’inflexion détecté sur la courbe.
On observe le graphique du critère PVR et on ne retient que les valeurs qui se trouvent
à gauche du point d’inflexion. Graphiquement, on part des composantes qui se trouvent
à droite, apportant le moins d’informations. On relie par une droite les points presque
alignés et on ne retient que les CPs qui sont au dessus de cette ligne. La mise en œuvre de
cette méthode est relativement facile, cependant dans certains cas il est difficile de trouver
un point d’inflexion ou le coude si la courbe décroı̂t lentement.

2.4.2.4 Critère de Guttman


Le critère de Guttman pour la détermination du nombre approprié des variables la-
tentes en analyse factorielle (ou le nombre des CPs significatives en ACP) a été initialement
proposé par Guttman (1954) puis adapté et popularisé par Kaiser (1961). En s’appuyant
sur un tel critère, on ne compte que les composantes ou facteurs avec des valeurs propres
supérieures à l’unité qui représente la moyenne arithmétique de toutes les valeurs propres
de la matrice de corrélation. L’expression de ce critère en ` est la suivante :

KG(`) = λ` (2.55)

Chaque CP retenue dans le modèle ACP contribue par sa variance. Ainsi, sa contri-
bution est considérée significative si elle dépasse la moyenne totale, sinon elle devrait être
écartée. Cette idée est justifiée par Guttman (1954) afin de fournir une borne inférieure
pour le nombre des variables latentes représentatives en considérant une matrice de cor-
rélation. Plus intuitivement, l’argument a été avancé afin d’exprimer qu’aucune CP dont
la variance est inférieure à celle d’une variable originelle ne peut être considérée comme
représentative.
La popularité du critère KG, par rapport à d’autres plus opérationnels et mieux jus-
tifiables, apparaı̂t plus particulièrement dans sa simplicité d’utilisation. Dans un cadre
d’une étude par simulation, Yeomans et Golder (1982) ont examiné de plus près le com-
portement de ce critère afin de montrer l’ampleur probable des erreurs introduites par son
utilisation sans précautions. Le seul cas où ce critère est efficace semble bien être lorsque
le nombre des composantes représentatives est beaucoup moins inférieur que celui des
variables originelles. Ainsi, la proportion de la variance de chaque variable, expliquée par
les CPs retenues, doit être élevée.

39
Chapitre 2. Modélisation par analyse en composantes principales

2.4.2.5 Autocorrélation
L’autocorrélation est une méthode qualitative proposée pour le choix d’un modèle
ACP. Généralement, les allures des CPs les plus significatives doivent être lisses tandis que
les autres liées principalement aux bruits présentent des fluctuations rapides et aléatoires.
Dans ce cadre, Shrager et Hendler (1982) ont proposé la fonction d’autocorrélation du
premier ordre comme une mesure quantitative de ce comportement :
N −1
E{t` (k)t` (k + 1)} 1 X
AC(`) = = t(k, `)t(k + 1, `) (2.56)
Var{t` (k)} (N − 1)λ` k=1

où t(k, `) représente la kème valeur de la `ème colonne de la matrice des CPs notée T
dans l’équation (2.18).
Lorsqu’une CP est significative, son autocorrélation sera importante car il y aura
certainement une corrélation entre ses éléments qui correspondent aux différentes obser-
vations. En revanche et si elle est principalement associée à un bruit de mesures, peu de
corrélation est attendue entre ses éléments qui sont fortement aléatoires. Par conséquent,
son autocorrélation sera relativement faible. D’après Shrager et Hendler (1982), une valeur
d’autocorrélation supérieure à 0.5 indique que la CP correspondante est significative. Dans
le cas contraire, la composante en question est constituée principalement de bruit. Dans
ce cas, elle ne devrait pas être incluse dans le model. Le choix de la valeur d’un tel seuil est
considérablement arbitraire, ce qui représente l’inconvénient de ce critère. En outre, une
CP ayant une grande variance peut correspondre à une faible valeur d’autocorrélation, ce
qui lui risque d’être exclue du modèle.

2.4.2.6 Validation croisée


L’idée de la validation croisée est basée principalement sur la prédiction à travers
un modèle ACP d’une mesure xi (k) de la matrice de données X. Selon Wold (1978) et
Eastment et Krzanowski (1982), le nombre des CPs retenues est optimal si la moyenne de
la prédiction globale d’une telle mesure n’est plus significativement améliorée par l’ajout
de CPs supplémentaires. Ainsi, le modèle optimal est alors constitué du nombre minimum
des CPs nécessaires pour une prédiction adéquate.
Dans ce cadre, le critère qui découle de l’approche de la validation croisée représente
une minimisation de la somme des carrés des erreurs de prédiction. Il est connu sous le
nom de PRESS :
N m
1 X X (`)
PRESS(`) = (x̂ (k) − xi (k))2 (2.57)
N m k=1 i=1 i

(`)
où x̂i (k) représente la prédiction de xi (k), qui correspond à la kème mesure de la ième
variable, en utilisant un modèle ACP constitué de ` CPs.
Toutefois, on distingue dans la littérature deux façons différentes pour le calcul de ce
critère, car la manière de la prédiction proposée par Wold (1978) diffère de celle proposée
par Eastment et Krzanowski (1982). Indépendamment de cette différence, il est important

40
2.4. Détermination d’une structure optimale du modèle ACP

de mentionner que ce critère présente une complexité dans son implémentation ainsi qu’un
coût de calcul important.
Par ailleurs, Besse et Ferré (1993) ont montré théoriquement que l’usage du critère
PRESS n’apporte pas une règle de décision plus objective que les critères heuristiques.
Sous l’hypothèse que le nombre d’observations considérées est très important, un déve-
loppement de Taylor a permis à ces auteurs de montrer que la quantité PRESS peut être
approximée comme suit :
m
1 X
PRESS(`) ≈ λ (2.58)
m a=`+1 a
Ce critère est alors décroissant en `. Par conséquent, l’idée d’identifier la CP qui
correspond au minimum de PRESS ne peut servir dans le choix d’un modèle ACP. En
outre, ce critère est équivalent à ceux prenant simplement la part de la variance résiduelle
en particulier le critère PVR. Tandis que, Wold (1978) et Eastment et Krzanowski (1982)
ont également proposé l’investigation d’autres critères issues de la quantité PRESS qui
sont respectivement le ratio R et le critère W. L’utilisation des ces derniers pour le
choix de la dimension d’un modèle ACP est basée sur une comparaison de leurs valeurs à
des seuils jugés arbitraires dans la littérature limitant par conséquence de leurs efficacités.
Malgré la célébrité de la validation croisée, cette dernière n’est plus considérée avantageuse
par rapport aux restes des critères heuristiques. Pour cette raison, elle ne présentera pas
l’objectif de notre étude dans ce chapitre.

2.4.3 Minimisation de la variance de l’erreur de reconstruction


Le critère qui représente un objectif principal d’une étude dans ce chapitre est lié à
la variance de l’erreur de reconstruction ou la variance non reconstruite (VNR) (Dunia
et Qin, 1998b,c,a; Qin et Dunia, 2000). En effet, la qualité de la reconstruction est liée
à la capacité du modèle ACP à modéliser les relations de redondance entre les variables.
Ainsi, ce critère aide à définir le nombre des CPs exprimant une meilleure reconstruction.
Le principe de reconstruction représente une élimination de l’effet d’un défaut. Autre-
ment dit, cette approche estime le vecteur d’amplitudes d’un tel défaut.
Pour une raison de simplifications qui seront utiles pour le reste des chapitres, nous
définissons ici d’une manière générale l’expression d’un vecteur de données en présence
de défauts multidimensionnels. Nous notons par SJ le sous-espace caractéristique d’un
défaut réel FJ affectant un ensemble J constitué de r variables où r = dim(SJ ). Nous
considérons également ΞJ ∈ Rm×r une base orthonormée pour un tel sous-espace dont les
colonnes sont celles de la matrice identité et qui correspondent aux variables en défaut.
Posons x∗ (k) qui est supposé inconnu le vecteur de mesures collectées lors du fonction-
nement normal. En présence du défaut FJ , le vecteur x(k) peut s’écrire comme suit :

x(k) = x∗ (k) + ΞJ f(k) (2.59)


où f(k) ∈ Rr représente le vecteur d’amplitudes des composants de défaut à l’instant k.
On formule l’hypothèse que les données utilisées pour construire le modèle ACP sont
”saines”. Les données ”saines” correspondent à des données obtenues lors du fonctionne-
ment normal du système étudié.

41
Chapitre 2. Modélisation par analyse en composantes principales

2.4.3.1 Critère VNR


Dans l’objectif de choisir une structure adaptée du modèle ACP en s’appuyant sur l’ap-
proche de reconstruction, on suppose que les défauts sont unidimensionnels ou simples.
Cela signifie que la matrice orthonormée des directions ΞJ ainsi que le vecteur d’ampli-
tudes des composants de défaut f(k) dans l’équation (2.59) sont respectivement remplacés
par un vecteur ξj qui représente la jème colonne de la matrice identité et f (k) un sca-
laire qui désigne l’amplitude de défaut caractérisant la jème variable. Dans ce cadre, la
reconstruction d’une telle variable aboutit à un vecteur reconstruit d’observation ayant
l’expression suivante :

xj (k) = x∗ (k) = x(k) − ξj f (k)


= x(k) − ξ fˆ (k) j j (2.60)

où fˆj (k) est l’estimée de f (k) dans la direction de la jème variable. En effet, l’estimation de
l’amplitude f est optimale par minimisation de l’erreur quadratique résiduelle kC̃xj (k)k2
comme suit :
n o
fˆj (k) = arg min kC̃xj (k)k2
f (k)

= (ξjT C̃ξj )−1 ξjT C̃x(k) (2.61)

Par conséquent, le vecteur reconstruit d’observation aura la forme suivante :

xj (k) = (Im − ξj (ξjT C̃ξj )−1 ξjT C̃)x(k) (2.62)

Certainement, la reconstruction n’est possible que sous conditions. En effet, la jème


variable est reconstructible si ξjT C̃ξj 6= 0. Cela implique que le vecteur C̃ξj n’est pas nul.
Après avoir présenté le principe de reconstruction, la variance non reconstruite de la
jème variable est définie par :
n o
σj (`) = Var ξj (x − xj ) = Var fˆj
2
 T

ξjT C̃ E xxT C̃ξj ξjT C̃ΣC̃ξj
= = T (2.63)
(ξjT C̃ξj )2 (ξj C̃ξj )2

On déduit qu’une telle variance représente tout simplement la variance de l’amplitude


estimée du défaut. Une telle variance justifie l’idée de son utilisation pour le choix d’un
modèle ACP. En effet, les données utilisées pour la modélisation sont supposées être sans
défauts. Ainsi, la reconstruction d’une variable donnée en utilisant un modèle judicieu-
sement choisi doit fournir une variance non reconstruite minimale. Puisqu’on dispose de
plusieurs variables qui doivent être étudiées simultanément, on doit alors identifier un
modèle ACP qui minimise la variance globale non reconstruite (VNR) représentée par la
somme suivante :
m m
X σj2 (`) X ξjT C̃ΣC̃ξj
VNR(`) = = (2.64)
ξ T Σξj
j=1 j j=1
(ξjT Σξj )(ξjT C̃ξj )2

42
2.4. Détermination d’une structure optimale du modèle ACP

Dans le but d’éviter les problèmes d’échelles des variances non reconstruites, il est
important de pondérer chaque σj2 par ξjT Σξj qui représente la variance originelle de la
jème variable. Evidemment, si les variables étudiées sont réduites alors ξjT Σξj = 1.
Le choix d’un modèle ACP en se basant sur ce critère s’est justifié par une sélection
du nombre optimal (`op ) des CPs offrant la meilleure reconstruction. Autrement dit, `op
doit assurer une variance non reconstruite minimale :
`op = arg min {VNR(`)} (2.65)
`

2.4.3.2 Consistance théorique du critère VNR


D’après Dunia et Qin (1998b,c,a) et Qin et Dunia (2000), ce critère doit nécessaire-
ment admettre un minimum qui correspond à un modèle optimal offrant une meilleure
reconstruction. Afin de montrer l’existence d’un tel minimum, Dunia et Qin (1998a) ont
décomposé la variance non reconstruite de la jème variable en deux variances en se basant
sur la propriété exprimée dans l’équation (2.24) et qui donne :
kξj k2 = kC̃ξj k2 + kĈξj k2 = 1 (2.66)
Ainsi, la variance de l’erreur de reconstruction individuelle d’une variable donnée peut
s’écrire comme suit :
ξjT C̃ΣC̃ξj ξjT C̃ΣC̃ξj
σj2 (`) = =
(ξjT C̃ξj )2 kC̃ξj k2 (1 − kĈξj k2 )
!
ξjT C̃ΣC̃ξj kĈξj k2
= 1+ (2.67)
kC̃ξj k2 1 − kĈξj k2
En posant
ξjT C̃ΣC̃ξj
σ̃j2 (`) = (2.68)
kC̃ξj k2
et !
kĈξj k2
σ̂j2 (`) = σ̃j2 (`) (2.69)
1 − kĈξj k2
la variance non reconstruite exprimée dans l’équation (2.67) n’est autre que :
σj2 (`) = σ̃j2 (`) + σ̂j2 (`) (2.70)
Dunia et Qin (1998a) ont montré que la fonction σ̃j2 est monotone décroissante en `.
Par ailleurs, la fonction σ̂j2 tend vers l’infini pour ` = m. En conséquence, la variance non
reconstruite σj2 doit obligatoirement avoir un minimum qui correspond à un nombre de
CPs ` ∈ [1, m]. Ces déductions peuvent être également étendues au critère VNR puisqu’il
représente la somme des variances non reconstruites de toutes les variables. Néanmoins,
on s’interroge si le nombre des CPs qui correspond à un tel minimum représente le nombre
théorique q défini auparavant. Dans ce cadre, Valle et al. (1999) ont étendu leurs travaux
afin d’établir des théorèmes sur la consistance d’un tel critère en montrant qu’il est capable
de définir correctement le nombre optimal des CPs sous des conditions qui dépendent de
la distribution du bruit de mesures.

43
Chapitre 2. Modélisation par analyse en composantes principales

Cas de bruit i.i.d. D’après (2.44), la matrice des valeurs propres, en présence d’un
bruit de mesures i.i.d. de variance σ 2 , peut être introduite de la façon suivante :
" #
ˆ 2
2
Λ = Λ̊ + σ Im = Λ̊ + σ Iq 0 (2.71)
0 σ 2 I(m−q)

ˆ
où Λ̊ et Λ̊ sont données respectivement par les équations (2.31) et (2.32).
T
Pour ` ≥ q, on a ξjT C̃ΣC̃ξj = σ 2 ξjT P̃P̃ ξj ce qui implique que la variance non recons-
truite de la jème variable peut s’exprimer comme suit :

σ2
σj2 (`) = T
∀`≥q (2.72)
ξjT P̃P̃ ξj

Dans le cas particulier où ` = q, on a :

σ2
σj2 (q) = T
(2.73)
ξjT P̃q P̃q ξj

avec la matrice des vecteurs propres P̃q est donnée par :


   
P̃q = pq+1 , · · · , p` , p`+1 , · · · , pm = pq+1 , · · · , p` , P̃ (2.74)

Celle-ci implique que :


T T
ξjT P̃q P̃q ξj ≥ ξjT P̃P̃ ξj (2.75)
ainsi,
σj2 (`) ≥ σj2 (q) ∀ ` ≥ q (2.76)
Indépendamment de la nature de la matrice Σ si elle représente une matrice de cova-
riance ou une matrice de corrélation, on a :

σj2 (`) σj2 (q)


≥ ∀`≥q (2.77)
ξjT Σξj ξjT Σξj

L’inégalité précédente nous permet de déduire que :

VNR(`) ≥ VNR(q) ∀ ` ≥ q (2.78)

d’où
arg min {VNR(`)} = q ∀`≥q (2.79)
`

Cette égalité prouve que le critère VNR ne surestime plus la dimension d’un modèle
ACP en présence de bruit i.i.d.
Par ailleurs et dans le cas où ` < q, la matrice des vecteurs propres P̃q sera englobée
dans P̃ comme suit :
 
P̃ = p`+1 , · · · , pq , P̃q pour ` < q (2.80)

44
2.5. Etude comparative des différents critères

Dans ce cas, Valle et al. (1999) ont montré que :


T
ξjT P̃P̃ ξj
σj2 (`) ≥ σj2 (q) si λ̊q ≥ T
σ2 ∀`<q (2.81)
ξjT P̃q P̃q ξj

Cette hypothèse mettra en évidence que la variance de la dernière CP théoriquement


significative doit être supérieure à la variance du bruit de mesures. Par conséquent, le
critère VNR définit correctement le nombre optimal des CPs sous une telle condition :
T
ξjT P̃P̃ ξj

2 `<q
arg min {VNR(`)} = q si λ̊q ≥ σ ∀ (2.82)
` T
ξjT P̃q P̃q ξj 1≤j≤m

Cas de bruit coloré Il semblerait que l’hypothèse qui consiste à considérer que le
bruit est blanc ne soit pas toujours adaptée. Il se peut qu’on préfère modéliser le bruit
différemment en le colorant i.e. soit en relâchant la contrainte que les variances sont
identiques soit que le bruit est indépendant, soit les deux. Dans la pratique, les variances
du bruit ne sont pas nécessairement identiques. Dans ce cas, la matrice des valeurs propres
prend la forme suivante :
2 2
Λ = diag{λ1 , λ2 , · · · , λq , σq+1 , · · · , σm } (2.83)

où les σi2 sont les variances du bruit. En suivant le même principe que celui du cas de
bruit i.i.d., Valle et al. (1999) ont montré que le critère VNR atteint son minimum à
` = q CPs si :
2 T
σq+1 ξjT P̃q P̃q ξj
2
≤ T
pour ` ≥ q (2.84)
σm ξ T P̃P̃ ξ j j

et
T !
ξjT P̃P̃ ξj 2
λq ≥ 1+ T
σq+1 pour ` < q (2.85)
ξjT P̃q P̃q ξj
L’interprétation de la première inégalité implique que l’étendue des variances du bruit
doit être faible ce qui implique également que ces variances doivent avoir des valeurs très
proches. Cependant, la deuxième condition indique que la qème CP qui est la dernière
supposée être théoriquement retenue doit avoir une variance au moins deux fois plus
supérieure que celle de la (q + 1)ème CP.

2.5 Etude comparative des différents critères


Les différents critères présentés dans ce chapitre vont être comparés vis-à-vis de leurs
efficacités et performances dans le choix de la dimension optimale du modèle ACP d’un
ensemble de données simulées. Pour évaluer ces critères plusieurs enjeux sont considé-
rés tels que le nombre de variables, le nombre d’observations et la variance du bruit de
mesures.

45
Chapitre 2. Modélisation par analyse en composantes principales

k
x̊1 (k) = 3 + exp(cos( 15π ))
1 k
x̊2 (k) = cos( 2πk ) sin( 2π )
x̊3 (k) = arctan(50πk) log(1 + x̊2 (k)2 )
x̊4 (k) = x̊1 (k) + 3x̊2 (k)
x̊5 (k) = x̊1 (k) − x̊2 (k)
x̊6 (k) = x̊1 (k) + x̊3 (k)
x̊7 (k) = x̊2 (k) + 3x̊3 (k)
10 π
x̊8 (k) = π arctan(tan( 200 (k − 100)))
x̊9 (k) = 10 cos(7πk)
x̊10 (k) = 2x̊8 (k) + x̊9 (k)
x̊11 (k) = −2x̊8 (k) + 3x̊9 (k)
x̊12 (k) = x̊2 (k) + x̊8 (k)
x̊13 (k) = (2 + cos(0.2πk))−1
40 9π
x̊14 (k) = π cos(7πk) arctan(tan( 200 (k − 900)))
x̊15 (k) = sgn(sin(0.007πk))

Table 2.2 – Expressions analytiques des variables simulées

2.5.1 Présentation et interprétation de l’exemple simulé


L’exemple de simulation comporte différents ensembles de variables. Nous considérons
un jeu de données qui fait apparaı̂tre des relations de redondance analytiques linéaires
et non linéaires ainsi que des variables indépendantes. Les relations non linéaires entre
quelques variables ne peuvent pas être exprimées dans un contexte d’une ACP linéaire.
Par conséquent, ces variables sont linéairement indépendantes.
Notons par x̊(k) = [x̊1 (k), · · · , x̊15 (k)]T ∈ R15 un vecteur de données composé des
mesures non bruitées prélevées au kème instant d’un ensemble de 15 variables. A titre
d’exemple, x̊j (k) représente la mesure non bruitée de la jème variable au kème instant. En
absence de bruit, les mesures des variables sont générées par les expressions analytiques
données dans le tableau 2.2.
L’interprétation théorique des équations du tableau 2.2 nous permet de déduire que
les variables x̊1 , x̊2 , x̊3 , x̊8 et x̊9 ne sont pas corrélées. Par contre, elles sont corrélées avec
d’autres variables. Cependant, les variables x̊13 , x̊14 et x̊15 sont linéairement indépendantes
et/ou quasi-indépendantes du reste des variables et entre elles. Afin de mieux interpréter
ces relations de dépendance, nous avons proposé d’investiguer les valeurs propres des
matrices de corrélation de quatre principales bases de données sans bruit de mesures. En
considérant des mesures normalisées, les matrices de corrélation de ces quatre groupes de
variables à étudier sont notées de la manière suivante :
 
Σ̊ = E x̊x̊T où, à l’instant k x̊(k) = [x̊1 (k), · · · , x̊12 (k)]T ∈ R12

(2.86)
A

 
Σ̊ = E x̊x̊T x̊(k) = [x̊1 (k), · · · , x̊13 (k)]T ∈ R13

où, à l’instant k (2.87)
B
 
Σ̊ = E x̊x̊T x̊(k) = [x̊1 (k), · · · , x̊14 (k)]T ∈ R14

où, à l’instant k (2.88)
C

46
2.5. Etude comparative des différents critères

 
Σ̊ = E x̊x̊T x̊(k) = [x̊1 (k), · · · , x̊15 (k)]T ∈ R15

où, à l’instant k (2.89)
D

Le premier ensemble de données noté A est composé des 12 premières variables du


tableau 2.2. Théoriquement, ce groupe présente 5 variables linéairement non corrélées.
Cela indique l’existence de 5 valeurs propres non nulles. Cette déduction est bien confir-
mée par les résultats données dans la deuxième colonne du tableau 2.3. L’addition de la
treizième variable à celles de l’ensemble A, permettra l’obtention d’un deuxième groupe
de variables B. La variable ajoutée est linéairement indépendante de toutes les variables.
Théoriquement, elle représente toute seule une CP en gardant sa variance originelle qui
vaut l’unité puisque les mesures sont normalisées. La troisième colonne du tableau 2.3
montre que la valeur propre λ̊6 est celle qui est associée à la variable indépendante x̊13 .
Ainsi, l’indépendance d’une telle variable se manifeste par l’insensibilité des autres valeurs
propres à sa présence car elles sont inchangées. Cette variable indépendante constitue une
CP ayant une variance moins faible qu’aux variances des autres CPs. Le groupe B dispose
alors de 6 valeurs propres non nulles.
Le troisième ensemble C est composé des quatorze premières variables. Cet ensemble
représente celui de B auquel on a ajouté la variable x̊14 . En absence du bruit de mesures,
l’ajout d’une telle variable à l’ensemble B a légèrement modifié trois valeurs propres parmi
les anciennes tout en produisant une nouvelle valeur propre λ̊7 proche de l’unité. L’inter-
prétation de la quatrième colonne du tableau 2.3 nous mène à conclure que la variable x̊14
est très légèrement corrélée avec x̊13 ainsi qu’avec d’autres variables difficilement identi-
fiables. En effet, les seules valeurs propres qui ont été perturbées par la présence de x̊14
sont λ̊6 qui correspond à la variable x̊13 ainsi que λ̊2 et λ̊3 . Par ailleurs, cette perturbation
peut être considérée très négligeable puisque λ̊6 et λ̊7 sont toutes les deux très proches
de l’unité. En conséquence, x̊13 et x̊14 sont linéairement quasi-indépendantes voire indé-
pendantes entres elles ainsi qu’aux autres variables. Notamment, l’ensemble C présente 7
valeurs propres non nulles.
Le quatrième groupe de données, noté D, est constitué de toutes les variables du ta-
bleau 2.2. D’après la cinquième colonne de ce tableau, on peut déduire que la variable
ajoutée x̊15 est indépendante puisque sa présence n’a aucun effet sur le reste des variables.
En effet, elle a produit une valeur propre égale à l’unité, en même temps les autres an-
ciennes valeurs propres n’ont subi aucun changement. Ce dernier groupe de variables
dispose donc de 8 CPs associées aux valeurs propres non nulles.
Dans la pratique, les mesures sont entachées de bruit. Pour cette raison, des bruits
i.i.d. de moyennes nulles et de variances identiques générées selon trois différents cas ont
été superposés aux variables du tableau 2.2.
Selon le principe d’utilisation des critères étudiés dans ce chapitre, nous avons dis-
tingué deux principales familles. La première représente des critères qui se réfèrent à des
seuils pour définir le nombre optimal des CPs. En revanche, la deuxième catégorie est
constituée des critères dont la minimisation par rapport au nombre des CPs peut indiquer
la dimension adéquate du modèle ACP.
Le premier cas correspond à la superposition d’un bruit i.i.d. de faible variance (σ 2 =
0.002) largement inférieure aux variances des variables originelles. Naturellement, les re-
lations linéaires entre les variables ne sont pas trop perturbées. Ainsi, les nombres opti-

47
Chapitre 2. Modélisation par analyse en composantes principales

Ensemble A Ensemble B Ensemble C Ensemble D


       
Σ̊ Σ̊ Σ̊ Σ̊
A B C D

λ̊1 2.92 2.92 2.92 2.92


λ̊2 2.77 2.77 2.78 2.78
λ̊3 2.69 2.69 2.70 2.70
λ̊4 2.10 2.10 2.10 2.10
λ̊5 1.51 1.51 1.51 1.51
λ̊6 0 1 1.08 1.08
λ̊7 0 0 0.90 1
λ̊8 0 0 0 0.90
λ̊9 0 0 0 0
λ̊10 0 0 0 0
λ̊11 0 0 0 0
λ̊12 0 0 0 0
λ̊13 X 0 0 0
λ̊14 X X 0 0
λ̊15 X X X 0

Table 2.3 – Valeurs propres des matrices de corrélation des quatre ensembles de variables
en absence du bruit de mesures et pour N = 1500 observations

maux des CPs qui constituent les modèles ACP dans chaque ensemble étudié de variables,
doivent correspondre aux nombres des valeurs propres non nulles du tableau 2.3.
Les courbes des critères étudiés pour la sélection du nombre des CPs dans les ensembles
de variables A, B, C et D dont chacun est constitué de 1500 observations, sont illustrées
respectivement par les figures 2.1, 2.2, 2.3 et 2.4. On note que les critères AIC, MDL, IE
et VNR sont exprimées en coordonnées semi-logarithmique afin que leurs courbes soient
mieux lisibles. Notamment, une majorité des critères étudiés est basée sur des données
initialement normalisées donc en utilisant les valeurs propres des matrices de corrélation.
Néanmoins, les critères AIC, MDL et IE utilisent des données non réduites puisqu’ils
ont été définis valables uniquement avec les valeurs propres des matrices de covariance.

2.5.2 Interprétations des critères basés sur des seuils


Pour le premier cas de cette étude qui correspond à des variables entachées d’un bruit
de faible variance, les nombres optimaux théoriques des CPs dans les ensembles A, B, C
et D sont respectivement 5, 6, 7 et 8 CPs. On observe clairement dans toutes les figures
(2.1, 2.2, 2.3 et 2.4) que les critères AC, KG, PCV et PVR ne peuvent en aucun cas
assurer d’une façon précise et objective les modèles optimaux.
En effet, le critère AC montre que la deuxième CP possède la plus faible valeur
d’autocorrélation. En outre, une telle valeur est très inférieure au seuil indiqué. Néanmoins,
quelques auteurs suggèrent parfois un ajustement d’un tel seuil afin qu’il soit adaptable
au critère. Il est bien évident qu’aucun ajustement ne peut apporter d’avantage puisque
la CP en question présente la plus faible valeur d’autocorrélation. L’inconvénient de ce
critère se résume dans le fait qu’une CP ayant une variance importante peut correspondre
malheureusement à une faible valeur d’autocorrélation.
Le critère KG a correctement indiqué le nombre optimal des CPs uniquement dans

48
2.5. Etude comparative des différents critères

0.8  


0.6 4
0.4 10
0.2
0
−0.2
2 4 6 8 10 12 2 4 6 8 10 12

3    


2 4
10
1

0
2 4 6 8 10 12 2 4 6 8 10 12

120    !"#


−2
10

100

80
2 4 6 8 10 12 2 4 6 8 10 12

 43
60
40

4536"#
0
20 10

0
2 4 %$'&)6(+*-,/./021 8 10 12 2 4 %$'&)6(+*-,/./021 8 10 12

Figure 2.1 – Allures des critères de sélection pour l’ensemble A dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002

0.8  


0.6
4
0.4 10
0.2
0
−0.2
2 4 6 8 10 12 2 4 6 8 10 12

3    


2
4
10
1

0
2 4 6 8 10 12 2 4 6 8 10 12

120   −2  !"#


10

100

80
2 4 6 8 10 12 2 4 6 8 10 12

 43
60
2
40 10
20 4536"#
0
2 4 %6$'&)(+*-,/./8021 10 12 2 4 %6$'& ( *-,/./8021 10 12

Figure 2.2 – Allures des critères de sélection pour l’ensemble B dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002

49
Chapitre 2. Modélisation par analyse en composantes principales

0.8  


0.6
4
0.4 10
0.2
0
−0.2
2 4 6 8 10 12 14 2 4 6 8 10 12 14

3    


2
4
10
1

0
2 4 6 8 10 12 14 2 4 6 8 10 12 14

120    !"#


−2
10
100

80
2 4 6 8 10 12 14 2 4 6 8 10 12 14

 43
60
2
40 10
20 4:3;"#
0
2 4 %6 $'&)(+*-,/8./021 10 12 14 2 4 56 $6&7(8*,/8./091 10 12 14

Figure 2.3 – Allures des critères de sélection pour l’ensemble C dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002

0.8
 
0.6
4
0.4 10
0.2
0

2 4 6 8 10 12 14 2 4 6 8 10 12 14

3    


2
4
10
1

0
2 4 6 8 10 12 14 2 4 6 8 10 12 14

120    !"#


−2
10
100

80
2 4 6 8 10 12 14 2 4 6 8 10 12 14

80  43 10
5

60
40
20 4536"#
0
2 4 %$'&)(+8*-,/./021 10
6 12 14 2 4 %$'& ( 8-* ,/./021 10
6 12 14

Figure 2.4 – Allures des critères de sélection pour l’ensemble D dont les variables sont
entachées par un bruit i.i.d. de variance σ 2 = 0.002

50
2.5. Etude comparative des différents critères

l’ensemble A. Cependant, sa performance de sélection a été dégradée dans le reste des


ensembles en manquant toujours une ou deux CPs par rapport aux nombres théoriques
prévus. Cette limitation s’explique par l’existence des variables quasi-indépendantes x̊13
et x̊14 dans les ensembles C et D. Ces deux variables ont produit deux valeurs propres
qui sont légèrement supérieure et inférieure à l’unité. En ajoutant un bruit, l’une des
deux valeurs propres n’a pas franchi le seuil de l’unité. En effet, le critère KG ignore
souvent les CPs qui correspondent aux variables indépendantes et plus particulièrement
quasi-indépendantes dans le cas de données normalisées. En considérant des matrices de
covariance, une variable indépendante ne peut être retenue par le critère KG que si sa
variance est supérieure à la moyenne arithmétique de toutes les valeurs propres. Cela
explique qu’une telle variable peut être retenue dans des cas et écartée dans d’autres.
En essayant d’expliquer une variabilité généralement supérieure à 80% de la variance
totale, le critère PCV montre une diversité de choix qui se complique proportionnellement
au nombre des variables considérées. En effet, il peut exister dans l’intervalle [80%, 99%]
plus qu’une CP qui peut satisfaire la contrainte. En plus, cette situation est très confron-
tée lorsque les valeurs propres significatives sont trop proches les unes des autres. Par
conséquent, la décision devient difficile voire même très subjective.
Le principe de l’utilisation du critère PVR se résume dans la recherche du coude ou
du point d’inflexion. D’après les figures 2.1, 2.2, 2.3 et 2.4, on observe très nettement
les points d’inflexion qui correspondent correctement aux nombres théoriques optimaux
des CPs dans chaque ensemble de variables. Cependant, et selon le principe conventionné
de l’utilisation de ce critère, on ne retient que les valeurs qui se trouvent à gauche du
point d’inflexion. De cette manière, on remarque l’existence en permanence d’une CP
manquante dans les modèles sélectionnés. Par conséquent, la meilleure solution semble
d’en compter également les points d’inflexion. En revanche, cette situation qui montre
clairement les points d’inflexion est très particulière pour deux raisons principales. Pre-
mièrement, la faiblesse de la variance du bruit considéré a rendu les valeurs propres si-
gnificatives assez distinctes des autres. Deuxièmement, le nombre des variables étudiées
n’est pas assez important. Si ces deux arguments ne sont pas vérifiés, la courbe du critère
PVR sera caractérisée par une lente décroissance. Par conséquent, on peut se confronter
à des situations où le point d’inflexion est quasiment inexistant.

2.5.3 Interprétations des critères minimisés


La deuxième catégorie est constituée des critères AIC, MDL, IE et VNR. Leurs
courbes pour le cas des données entachées par un bruit i.i.d. de variance identique assez
faible sont illustrées dans les deuxièmes colonnes des figures 2.1, 2.2, 2.3 et 2.4. L’avantage
dans l’utilisation de ces critères se manifeste dans l’objectivité des choix puisqu’ils se
basent sur leurs minima afin d’en définir un nombre optimal des CPs. En revanche, il
reste à évaluer la consistance de leurs performances.
Afin d’approfondir l’étude comparative entre ces quatre critères, nous avons réalisé
trois jeux de données pour chacun des ensembles A, B, C et D. Chaque jeu représente une
matrice de données composé de N observations et correspond à une variance particulière
du bruit i.i.d. Ainsi, les valeurs de ces variances sont respectivement σ 2 = 0.002, σ 2 = 0.2
puis σ 2 = 0.5. Puisque le bruit représente des variables aléatoires, une seule réalisation

51
Chapitre 2. Modélisation par analyse en composantes principales

peut ne pas exprimer continuellement le même minimum pour chaque critère. Pour cette
raison, chaque jeu de données a été simulé 1500 fois afin d’exprimer en pourcentage le
nombre des CPs retenues par chaque critère.
Le tableau 2.4 illustre les pourcentages des CPs retenues par les critères considérés
pour des jeux de données dont chacun est composé de N = 1500 observations. En re-
joignant les remarques données par Wax et Kailath (1985), ce tableau prouve que le
critère AIC surestime souvent le nombre des CPs. Pour un bruit i.i.d. de faible variance
(σ 2 = 0.002), le minimum d’un tel critère correspond dans 76.80%, 74.33%, 78.53% et
75.26% des réalisations à 5, 6, 7 et 8 CPs respectivement dans les ensembles A, B, C et D.
Malgré la légère variance du bruit considéré, ce critère a retenu dans approximativement
25% des cas des nombres de CPs supérieures à ceux nécessaires. Par conséquent, son in-
convénient se manifeste dans la surestimation de la structure du modèle. L’augmentation
de la variance du bruit modifie les relations entre les variables en causant certainement
l’apparition de nouvelles variables indépendantes. A ce stade, il est difficile de connaı̂tre
les nombres optimaux de CPs dans les jeux de données qui correspondent aux deux autres
variances du bruit. Cependant, et d’après les pourcentages exprimés dans le tableau 2.4,
le comportement du critère AIC est toujours fluctuant.
D’après le même tableau, nous remarquons que le critère VNR présente avec 100% des
réalisations un minimum pour 5 CPs dans les ensembles A, B, C et D qui correspondent
aux deux premiers cas des variances du bruit qui sont respectivement σ 2 = 0.002 et
σ 2 = 0.2. En revanche, ce critère indique avec plus de 97% un nombre de 4 CPs dans tous
les ensembles des variables en considérant un bruit de variance plus forte σ 2 = 0.5.
Puisque le premier cas présente des données entachées par un bruit de faible variance,
il peut être considéré comme une référence pour l’évaluation des critères étudiés car on
sait a priori les nombres optimaux des CPs dans chaque ensemble. Dans ce cas, le critère
VNR a défini correctement le nombre optimal des CPs uniquement dans l’ensemble A. En
investiguant la transition réalisée entre les ensembles étudiés, nous remarquons l’existence
d’une variable indépendante ou quasi-indépendante qui s’ajoute à chaque transition d’un
ensemble à l’autre dans le sens de A vers D. Notamment, les variables indépendantes
conservent leurs indépendances quelle que soit la valeur de la variance du bruit i.i.d.
En considérant cette propriété ainsi que les résultats exprimés par le tableau 2.4, on peut
déduire que le critère VNR ne prend pas en compte ce type des variables. Cette déduction
a été illustrée à travers un exemple simulé par Mnassri et al. (2010a). Néanmoins, elle n’a
pas été prouvée ou montrée théoriquement dans la littérature. Dans le cadre de cette thèse,
nous proposons dans l’annexe A une démonstration théorique prouvant la limitation du
critère VNR dans la sélection des CPs en présence des variables indépendantes et quasi-
indépendantes.
Une telle démonstration justifie les pourcentages donnés par ce critère dans le tableau
2.4 lors du premier cas de la variance du bruit. En augmentant cette variance (σ 2 = 0.2),
nous remarquons que le critère VNR maintient les mêmes résultats. Toutefois, l’augmen-
tation d’une telle variance peut causer l’apparition de variables indépendantes. Originel-
lement, l’ensemble A ne contient pas ce type de variables. Si les résultats de ce critère
sont inchangés en faisant varier la variance du bruit (σ 2 = 0.2), cela ne peut pas nier
la possibilité de leur apparition dans A puisqu’un tel critère est prouvé insensible à leur
présence.

52
Ensemble A Ensemble B Ensemble C Ensemble D

Critère : AIC MDL IE VNR AIC MDL IE VNR AIC MDL IE VNR AIC MDL IE VNR

Bruit i.i.d. :
σ 2 = 0.002
5 CPs (%) 76.80 100 100 100 100 100 100
6 CPs (%) 18.40 74.33 100 100
7 CPs (%) 03.93 20.26 78.53 100 100
8 CPs (%) 00.60 04.53 16.46 75.26 100 100
9 CPs (%) 00.13 00.53 03.46 19.93
10 CPs (%) 00.13 00.26 01.00 03.66
Bruit i.i.d. :
σ 2 = 0.2
5 CPs (%) 77.73 100 100 100 00.33 79.60 100 100 100 100
6 CPs (%) 17.80 76.73 20.40 00.33 79.06 100
7 CPs (%) 03.06 17.80 76.00 20.93 00.20 79.53 100
8 CPs (%) 00.80 03.60 19.53 78.06 20.46
9 CPs (%) 00.46 01.40 03.20 17.40
10 CPs (%) 00.13 00.13 00.73 03.40
Bruit i.i.d. :
σ 2 = 0.5
4 CPs (%) 97.20 97.66 98.20 98.20
5 CPs (%) 75.73 100 100 02.80 47.00 100 100 02.33 01.80 01.80
6 CPs (%) 19.40 42.13 45.80 100 100
7 CPs (%) 03.53 08.53 41.86 44.93 100 100
8 CPs (%) 00.80 01.86 10.00 42.46
9 CPs (%) 00.33 00.46 01.80 10.40
10 CPs (%) 00.53 01.86

Table 2.4 – Pourcentage, par rapport à 1500 réalisations, des nombres de CPs retenues dans les ensembles des données par
les critères minimisés (N = 1500 observations générées selon trois différents cas de bruit i.i.d.)

53
2.5. Etude comparative des différents critères
Chapitre 2. Modélisation par analyse en composantes principales

Bruit i.i.d. : σ 2 = 0.2 Bruit i.i.d. : σ 2 = 0.5

` = 5 CPs ` = 4 CPs ` = 5 CPs

ξjT C̃ξj ξjT C̃ξj ξjT C̃ξj

j =1 0.593 0.653 0.604


j =2 0.611 0.706 0.628
j =3 0.398 0.965 0.362
j =4 0.575 0.674 0.584
j =5 0.629 0.622 0.622
j =6 0.624 0.622 0.616
j =7 0.579 0.760 0.593
j =8 0.544 0.548 0.544
j =9 0.628 0.629 0.628
j = 10 0.640 0.642 0.642
j = 11 0.611 0.611 0.610
j = 12 0.563 0.562 0.562

Table 2.5 – Coefficients diagonaux de la matrice C̃ de l’ensemble A et pour deux


différentes variances de bruit i.i.d.

D’après l’expression du critère VNR ainsi que la démonstration de l’annexe A, les


coefficients diagonaux (ξjT C̃ξj avec j = {1, · · · , m}) de la matrice C̃ peuvent nous aider
dans l’identification des variables indépendantes et quasi-indépendantes. Par ailleurs, nous
notons que cette technique ne garantit pas l’objectif désiré. Notamment, ces variables se
transforment en des CPs de variances hiérarchiquement moins importantes que celles
des premières CPs qui représentent les principales sources de corrélation. Ainsi, elles
contribuent très faiblement dans les vecteurs propres associés aux premières CPs. Cela
implique que les coefficients diagonaux qui leur correspondent dans C̃ sont très proches
de l’unité. En investiguant le tableau 2.5, la colonne qui correspond au cas d’un bruit
i.i.d. de variance σ 2 = 0.2 n’exprime pas de particularité intéressante dans les coefficients
diagonaux de C̃. On peut ainsi déduire qu’avec une telle variance du bruit, l’ensemble A
ne présente pas de variables indépendantes.
Dans le troisième cas qui correspond à des données entachées par un bruit i.i.d. de
variance plus élevée (σ 2 = 0.5), les pourcentages indiquent que le critère VNR a manqué
une CP. Ce résultat implique certainement qu’une variable qui représente une source de
corrélation s’est transformée avec l’effet du bruit en une variable indépendante ou quasi-
indépendante. Par conséquent, l’étendue de cette transformation peut toucher d’autres
variables en les rendant également indépendantes. Les variables touchées sont uniquement
celles qui dépendent de la source disparue. Ainsi, la propriété du critère VNR garantit
l’apparition d’au moins une variable indépendante dans l’ensemble A avec un bruit i.i.d. de
variance σ 2 = 0.5. D’après l’avant dernière colonne du tableau 2.5, les éléments diagonaux
de la matrice C̃ calculée à base des 4 CPs retenues par le critère VNR montre que la
troisième variable dispose d’un coefficient égale à 0.965. Par conséquent, cette variable
est devenue quasi-indépendante sous l’effet du bruit. Nous rappelons ainsi qu’elle a été
une source de corrélation. Malgré sa transformation, les autres variables n’ont pas été
influencées car leurs coefficients dans C̃ calculée à base de 5 CPs ne présentent pas des
valeurs proches de l’unité (dernière colonne du tableau 2.5).
Cette analyse nous permet de déduire les nombres optimaux théoriques des CPs sup-

54
2.5. Etude comparative des différents critères

posées être retenues dans les ensembles étudiés selon les différentes variances du bruit.
Indépendamment des critères utilisés, les ensembles de variables A, B, C et D disposent
respectivement de 5, 6, 7 et 8 CPs dans les trois différents cas du bruit i.i.d.
D’après le tableau 2.4, le critère IE retient avec une certitude de 100% un nombre
approprié de CPs pour chaque ensemble de variables et dans les différents cas du bruit.
En effet, il a correctement défini les nombres optimaux des CPs pour tous les ensembles
de variables durant le premier cas qui correspond à un du bruit de faible variance. Excep-
tionnellement, ce critère a manqué une CP dans les ensembles B, C et D pour les deux
autres cas où la variance du bruit est plus élevée. Plus particulièrement, la CP manquée
se déclare dans l’ensemble B entaché d’un bruit de variance σ 2 = 0.2. En absence de ce
dernier, nous rappelons que l’ensemble B se distingue par rapport à A par la variable in-
dépendante x̊13 (voir tableaux 2.2 et 2.3). Puisque ce critère a convenablement déterminé
le nombre des CPs dans l’ensemble A avec le même bruit, la CP manquée doit nécessaire-
ment correspondre à cette variable indépendante x̊13 . En s’appuyant sur cette déduction,
nous nous interrogeons alors sur la raison pour laquelle le critère IE a retenu les autres
variables indépendantes dans le reste des ensembles.
Nous notons que Malinowski (1977) a montré qu’un tel critère est monotone croissant
en ` en se limitant à l’intervalle [q, m − 1] où q désigne le nombre théorique des CPs
supposées être retenues. Cependant, cela n’implique pas nécessairement que le minimum
de ce critère correspond à q CPs pour toutes valeurs de ` ∈ [1, m − 1]. Pour cette raison,
nous avons établi dans l’annexe B une condition nécessaire et suffisante garantissant le
minimum de ce critère à q CPs. Théoriquement, le critère IE ne surestime pas la dimension
du modèle. Par contre, il peut abandonner quelques CPs dont les valeurs propres en
absence du bruit de mesures ne satisfont pas la condition établie (annexe B).
Avec des données non réduites, la variable indépendante x̊13 abandonnée par ce critère
dispose en l’absence du bruit d’une variance de 0.25. Ainsi, il a été supposé que q = 6
CPs dans l’ensemble B entaché d’un bruit i.i.d. de variance σ 2 = 0.2. En considérant ces
paramètres, nous pouvons prouver que la variance de la variable abandonnée ne satisfait
pas la condition établie par l’inégalité (B.6) dans l’annexe B. De la même manière, nous
pouvons vérifier également que cette variable n’est plus en mesure d’être retenue par le
critère IE non seulement dans l’ensemble B mais également dans C et D pour les deux
cas des variances du bruit (σ 2 = 0.2 et σ 2 = 0.5).
Puisque le critère IE ne surestime pas le nombre des CPs, cela justifie notre raison-
nement par l’apparition d’une variable indépendante qui n’a pas pu être retenue par le
critère VNR dans l’ensemble A contenant un bruit de variance σ 2 = 0.5.
Dans le premier cas qui correspond à un bruit i.i.d. de faible variance (σ 2 = 0.002),
le critère MDL exprime dans 100% des réalisations les nombres corrects de CPs pour
tous les ensembles de données (tableau 2.4). L’investigation du deuxième cas, caractérisé
par un bruit de variance σ 2 = 0.2, montre que ce critère a défini convenablement le
nombre théorique des CPs uniquement dans l’ensemble A. Dans le reste des ensembles, il
a exprimé avec 79% des nombres manquant une CP par rapport aux nombres théoriques
prévus. Dans le troisième cas du bruit, le critère a totalement manqué une CP dans
les ensembles B, C et D. En comparant les résultats de ce critère avec ceux donnés par
IE, nous remarquons que la CP non retenue par MDL est également liée à la variable
indépendante x̊13 .

55
Ensemble A Ensemble B Ensemble C Ensemble D
Critère : AIC MDL IE VNR AIC MDL IE VNR AIC MDL IE VNR AIC MDL IE VNR
Bruit i.i.d. :
σ 2 = 0.002
5 CPs (%) 76.66 100 100 100 100 100 100
Chapitre 2. Modélisation par analyse en composantes principales

6 CPs (%) 18.53 76.93 100 100


7 CPs (%) 03.93 19.20 79.00 100 100
8 CPs (%) 00.60 03.06 17.26 77.73 100 100
9 CPs (%) 00.13 00.73 03.20 17.13
10 CPs (%) 00.13 00.40 03.73
Bruit i.i.d. :
σ 2 = 0.2
5 CPs (%) 78.40 100 100 100 100 100 100 100
6 CPs (%) 18.06 77.46 100 100
7 CPs (%) 02.93 18.33 79.00 100 100
8 CPs (%) 00.40 03.06 16.93 74.00 100
9 CPs (%) 00.13 00.86 03.06 21.06
10 CPs (%) 00.06 00.13 00.80 03.86
Bruit i.i.d. :
σ 2 = 0.5
4 CPs (%) 100 100 100 100
5 CPs (%) 74.13 100 100 01.93 99.40 100
6 CPs (%) 20.46 75.86 00.60 01.60 99.40 100
7 CPs (%) 04.13 17.80 77.60 00.60 02.06 99.06 100
8 CPs (%) 01.13 03.66 15.93 76.53 00.93
9 CPs (%) 00.13 00.60 03.80 17.40
10 CPs (%) 00.13 00.86 02.86
Table 2.6 – Pourcentage, par rapport à 1500 réalisations, des nombres de CPs retenues dans les ensembles des données par
les critères minimisés (N = 6000 observations générées selon trois différents cas de bruit i.i.d.)

56
2.5. Etude comparative des différents critères

Ensemble A Ensemble B Ensemble C Ensemble D

Critère : MDL MDL MDL MDL

Bruit i.i.d. : σ 2 = 0.002


5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Bruit i.i.d. : σ 2 = 0.2
5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Bruit i.i.d. : σ2 = 0.5
5 CPs (%) 100 01.46
6 CPs (%) 98.53 01.53
7 CPs (%) 98.46 02.00
8 CPs (%) 98.00

Table 2.7 – Pourcentage, par rapport à 1500 réalisations, des nombres de CPs retenues
dans les ensembles des données par le critère MDL (N = 26000 observations générées
selon trois différents cas de bruit i.i.d.)

Néanmoins, Wax et Kailath (1985) ont montré que le nombre des CPs sélectionnées par
le critère MDL converge vers le nombre optimal en considérant un nombre d’observations
N assez important. Dans un premier temps, nous avons reconsidéré les mêmes ensembles
des variables avec les mêmes variances bu bruit mais pour un nombre d’observations N =
6000. Ainsi, nous avons refait le calcul des pourcentages des nombres de CPs retenues par
les critères étudiés (tableau 2.6). Ce calcul a été réalisé en considérant 1500 réalisations.
La comparaison des résultats du tableau 2.6 à ceux du tableau 2.4 ne montre pas
d’améliorations particulières aux niveaux des sélections par les critères AIC, IE et VNR.
Toutefois, le critère MDL a été remarquablement influencé par l’augmentation du nombre
d’observations en assurant avec une performance de 100% le nombre adéquat des CPs
dans tous les ensembles de variables entachées par un bruit de variance σ 2 = 0.2. Pour
le cas d’une variance σ 2 = 0.5, ce critère manque encore la CP posant le problème du
départ dans les ensembles B, C et D. Par contre, nous remarquons que les pourcentages
de sélection ont quand même subi une très légère modification suite à l’augmentation
du nombre d’observations. Malgré que ces observations soient largement suffisantes pour
décrire correctement le comportement du système étudié, il semblerait encore insuffisantes
pour que le critère MDL définisse correctement le nombre adéquat des CPs.
Dans ce cadre, nous avons augmenté le nombre d’observations à une valeur très im-
portante N = 26000. Les nouveaux pourcentages obtenus pour le critère concerné sont
affichés dans le tableau 2.7. D’après ce dernier, nous remarquons que le critère MDL
converge dans 98% des réalisations vers les nombres souhaités des CPs dans le cas d’un
bruit de variance σ 2 = 0.5. Pour les deux premiers cas du bruit, le critère atteint son
optimal avec un nombre d’observations N moins inférieur.
Il est ainsi clair que la performance du critère MDL est proportionnelle au nombre
d’observations. Dans la pratique, on dispose généralement d’un nombre fini d’observations.
Par conséquent, l’utilisation d’un tel critère malgré son efficacité prometteuse ne garantit

57
Chapitre 2. Modélisation par analyse en composantes principales

pas la convergence vers le nombre convenable des CPs. Si les observations disponibles sont
insuffisantes pour ce critère, ce dernier abandonne généralement les CPs qui correspondent
aux variables indépendantes ou quasi-indépendantes ayant de faibles variances.

2.6 Conclusion
Le principe mathématique d’une ACP des données sans bruit de mesures nous a permis
d’avoir une idée claire sur la définition d’une structure optimale d’un modèle ACP. Dans
la pratique, la détermination d’une telle structure n’est pas assez simple qu’on l’imagine
à cause de la présence du bruit dans les données. En se référant aux critères de choix de
la structure adaptée du modèle ACP qui existent dans la littérature, nous avons choisi
d’une manière non exhaustive quelques critères parmi les plus connus pour une évaluation
de leur performance sur un exemple simulé. Selon le principe d’utilisation de ces critères,
nous avons distingué deux principales familles.
La première présente des critères heuristiques qui se basent généralement sur des seuils
pour la sélection du nombre optimal des CPs tels que l’autocorrélation (AC), le critère de
Kaiser-Guttman (KG), le pourcentage cumulé de la variance (PCV) et le pourcentage
de la variance résiduelle (PVR). Dans ce chapitre, ces critères ont été utilisés sur des
données normalisées. Nous avons conclu à travers l’exemple de simulation qu’une décision
basée sur les deux critères PCV et PVR se complique avec l’augmentation du nombre
de variables étudiées ainsi que la variance du bruit. En effet, les allures des courbes
représentant les valeurs propres peuvent devenir très lentes, ce qui favorise l’inexistence
du point d’inflexion pour le critère PVR. Ceci implique également une multitude des
nombres de CPs dans l’intervalle de sélection pour le critère PCV. Quant à la décision
basée sur le critère KG, on constate qu’elle est discriminante car elle a éliminé les variables
indépendantes et quasi-indépendantes. En ce qui concerne le critère AC, son inconvénient
se résume principalement dans le fait qu’une CP significative peut avoir une faible valeur
d’autocorrélation qui ne lui permis pas d’être retenue par un tel critère. Malgré leurs
popularités, ces critères sont subjectifs et largement restreints en termes de décisions et
efficacités respectivement.
La deuxième famille est constituée des critères qui se basent sur la minimisation pour
déterminer la dimension du modèle ACP. Les trois premiers critères, notamment AIC,
MDL et IE possèdent deux points communs. Premièrement, leur utilisation n’est valable
qu’avec des données non réduites. Deuxièmement, le bruit de mesures est supposé être
indépendant et identiquement distribué. Le quatrième critère de cette famille représente la
variance non reconstruite (VNR). Ce dernier peut être utilisé aussi bien sur des données
réduites ou non réduites. Dans le cadre d’une ACP, il est cependant préférable que les
données soient exprimées dans la même échelle. Nous avons étudié le comportement du
critère VNR en considérant des données normalisées car il est en relation directe avec les
paramètres fournis par l’ACP.
Puisque les bruits de mesures représentent des variables aléatoires, une seule simulation
ne permet pas de juger l’efficacité de ces critères. Pour cette raison, nous avons établi des
pourcentages sur les nombres des CPs retenues par tous les critères en considérant 1500
réalisations. Ainsi, notre étude comparative a pris en compte plusieurs facteurs tels que

58
2.6. Conclusion

la nature des variables étudiées (corrélées ou indépendantes), la valeur de la variance du


bruit considéré et le nombre d’observations.
Selon les résultats de simulation, le critère AIC surestime souvent le nombre des CPs
nécessaires. L’avantage du critère VNR étant la considération de toutes les variables
étudiées dans la même échelle. Malgré cette caractéristique, nous avons découvert que
ce critère ne prend pas en compte les variables indépendantes et quasi-indépendantes
même si en absence du bruit ces variables disposent des variances non nulles. Dans ce
contexte, nous avons contribué par une démonstration théorique confirmant la limitation
de ce critère. En effet, nous avons montré que le nombre des CPs qui correspond au
minimum d’un tel critère ne change pas en ajoutant des variables indépendantes et quasi-
indépendantes. Autrement dit, le critère VNR est insensible à la présence de ce type
des variables. Ainsi, son minimum correspond au nombre des CPs uniquement pour les
variables qui sont linéairement corrélées.
Dans cette étude comparative, nous avons remarqué que le critère IE abandonne sou-
vent les CPs ayant de faibles variances bien qu’elles soient théoriquement supposées être
retenues dans le modèle. Ce critère ne surestime pas le nombre des CPs. Dans ce contexte,
nous avons étudié son expression afin de vérifier sa consistance théorique. Ainsi, nous avons
établi une condition nécessaire et suffisante permettant au critère IE de garantir son mi-
nimum qui correspond au nombre optimal des CPs. En effet, ce critère ne retient plus la
dernière CP si sa variance en l’absence du bruit est inférieure à une valeur établie par une
telle condition. Alors qu’en théorie cette CP doit être retenue. En outre, cette valeur est
proportionnelle au nombre des variables, ce qui présente un inconvénient majeur car cela
implique que la CP en question peut être retenue dans des cas et écartées dans d’autres.
Le MDL semble être le critère le plus efficace. Cependant, sa performance est pro-
portionnelle au nombre d’observations considérées. Sa sélection converge vers le nombre
correct des CPs si le nombre d’observations utilisées est assez important. Dans la pratique,
un système peut être suffisamment décrit par un nombre N d’observations. Ce nombre
peut être insuffisant pour que le critère MDL exprime correctement le nombre adéquat
des CPs. Dans ce cas, on ne peut pas savoir si un tel critère converge finalement vers le
nombre correct des CPs. D’après les résultats de simulation, nous avons remarqué que
si le nombre d’observations n’est pas suffisant, ce critère ne retient pas souvent les CPs
associées aux variables indépendantes de faibles variances.
Cette étude comparative entre les critères choisis nous a permis d’illustrer leurs in-
convénients et avantages. Dans ce cadre, seuls les critères MDL et VNR peuvent être
considérés intéressants vis-à-vis de leur comportement et principe respectivement. Cepen-
dant, ils présentent des inconvénients rendant souvent les décisions incertaines. Pour cette
raison, nous proposons dans le chapitre suivant d’autres critères utilisant le principe du
celui de VNR et assurant les résultats obtenus par celui de MDL avec des conditions
plus réalistes.

59
Chapitre 2. Modélisation par analyse en composantes principales

60
3
Contribution au choix d’un modèle optimal
par la variance non reconstruite

Sommaire
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.2 Détection et détectabilité de défauts . . . . . . . . . . . . . . . 64
3.2.1 Détectabilité généralisée de défauts . . . . . . . . . . . . . . . . 64
3.2.1.1 Indice T2 de Hotelling . . . . . . . . . . . . . . . . . 66
3.2.1.2 Indice SPE . . . . . . . . . . . . . . . . . . . . . . . . 67
3.2.1.3 Indice SWE . . . . . . . . . . . . . . . . . . . . . . . 68
3.2.1.4 Indice combiné . . . . . . . . . . . . . . . . . . . . . . 69
3.2.1.5 Indice de Mahalanobis . . . . . . . . . . . . . . . . . . 70
3.2.2 Influence de la modélisation sur la détectabilité de défauts . . . 71
3.2.2.1 Effet d’une sous-estimation du modèle . . . . . . . . . 71
3.2.2.2 Effet d’une surestimation du modèle . . . . . . . . . . 72
3.3 Différentes variances non reconstruites . . . . . . . . . . . . . 73
3.3.1 Principe de la reconstruction unidimensionnelle . . . . . . . . . 73
3.3.2 Variance non reconstruite généralisée . . . . . . . . . . . . . . . 74
3.3.3 Comportements des différents critères VNR . . . . . . . . . . . 76
3.3.3.1 VNR utilisant l’indice SPE . . . . . . . . . . . . . . 76
3.3.3.2 VNR utilisant l’indice SWE . . . . . . . . . . . . . . 76
3.3.3.3 VNR utilisant l’indice T2 de Hotelling . . . . . . . . 77
3.3.3.4 VNR utilisant l’indice de Mahalanobis . . . . . . . . 78
3.3.3.5 VNR utilisant un indice exprimé dans le sous-espace
principal . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.3.3.6 VNR utilisant l’indice combiné . . . . . . . . . . . . 80
3.4 Nouveaux critères VNR . . . . . . . . . . . . . . . . . . . . . . 81
3.4.1 VNR utilisant un nouvel indice combiné . . . . . . . . . . . . 81
3.4.2 Changement de représentation des données . . . . . . . . . . . 83

61
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

3.4.2.1 Motivation et théorie d’une nouvelle approche ACPVI 83


3.4.2.2 VNR basée sur l’ACPVI . . . . . . . . . . . . . . . . 86
3.4.2.3 Consistance théorique du critère VNRVI . . . . . . . 87
3.5 Résultats de simulation . . . . . . . . . . . . . . . . . . . . . . . 89
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

62
3.1. Introduction

3.1 Introduction
Les méthodes de détection et de localisation de défauts en s’appuyant sur l’ACP ont été
largement utilisées pour la surveillance de processus. Le principe de la surveillance basée
sur l’approche de l’ACP repose principalement sur une modélisation du comportement
de processus en fonctionnement normal. Les défauts sont alors détectés en comparant le
comportement observé par rapport à celui donné par le modèle ACP. En effet, la phase
de détection de défauts est liée à une étape de génération de résidus ou d’indices de
détection qui a pour but de générer à partir des mesures observées et d’un modèle ACP,
des signaux révélateurs de la présence de défauts. A partir de l’analyse de ces indices,
l’étape de détection doit alors indiquer l’existence ou non de défauts.
Dans ce cadre, quelques indices typiques pour la détection des fonctionnements anor-
maux ont été proposés dans la littérature (Qin, 2003). En revanche, la plupart des mé-
thodes de diagnostic utilisent plus particulièrement l’erreur quadratique de prédiction
(squared prediction error : SP E) et la statistique T 2 de Hotelling qui sont souvent connues
par les statistiques Q et D respectivement (Kresta et al., 1991; Kourti et MacGregor, 1995;
Dunia et al., 1996; Dunia et Qin, 1998c; Qin, 2003). On note que ces deux indices de détec-
tion jouent des rôles différents dans la stratégie de surveillance par ACP. La statistique T 2
décrit le comportement des variables du processus qui sont corrélées avec les composantes
principales, tandis que la statistique SP E dépend de toutes les variables à surveiller. En
outre, celle-ci représente un test global qui cumule les erreurs de modélisation présentes
sur chaque résidu (Harkat et al., 2006). L’indice SP E est utilisé dans le sous-espace rési-
duel. Tandis que l’indice T 2 de Hotelling est utilisé dans le sous-espace principal. L’indice
TH2 de Hawkins (Hawkins, 1974) aussi appelé SW E (squared weighted error ) représente
aussi les variations des données dans le sous-espace résiduel. Sa particularité par rapport
à l’indice SP E se manifeste par une pondération des résidus par les inverses des valeurs
propres résiduelles. Néanmoins, d’autres indices sensibles à l’ensemble de l’espace de re-
présentation des données ont été également utilisés comme la distance combinée (Yue et
Qin, 2001) et la distance de Mahalanobis. Dans le but d’améliorer les capacités de détec-
tion en utilisant la méthode d’ACP, un test basé sur les dernières composantes principales
a été proposé par Harkat et al. (2002, 2005, 2006).
Une telle description des indices de détection nous permettra de définir dans ce chapitre
de nouveaux critères de sélection du nombre optimal des CPs en se basant sur la variance
non reconstruite afin de remédier aux limitations des critères comparés dans le chapitre
précédent. En effet, toute procédure d’un diagnostic de défauts repose d’une manière
cruciale sur la précision et l’efficacité du critère considéré. Pour cela, nous allons prouver
théoriquement l’influence de la modélisation par ACP sur la détectabilité de défauts. En
s’appuyant sur le principe de la variance de l’erreur de reconstruction, il s’est avéré possible
d’établir une variance non reconstruite associée à chacun de ces indices de détection. Ce
résultat nous a permis de proposer un critère empirique relatif à la distance combinée
(Mnassri et al., 2010a). Ensuite, un nouveau critère de même type, basé sur une nouvelle
statistique combinée représente notre deuxième contribution (Mnassri et al., 2010b). Ces
contributions ont été également enrichies par un critère plus performant. Ce dernier est
basé sur un changement de représentation de données en envisageant que d’autres données
sont beaucoup mieux révélatrices d’informations que les données observées réellement.

63
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

Cela nous a permis de proposer une nouvelle théorie reposant sur une ACP de variances
inversées (ACPVI) (Mnassri et al., 2010c, 2011b). Ainsi, ce troisième critère de sélection,
appelé VNRVI, montrera une efficacité importante en remédiant au problème souvent
rencontré qui est relatif à la présence des variables indépendantes et quasi-indépendantes.
Les résultats de simulation valideront cette nouvelle approche.

3.2 Détection et détectabilité de défauts


Dans le cadre de l’ACP, tous les indices de détection disponibles dans la littérature
se caractérisent par une forme quadratique (Yue et Qin, 2001; Qin, 2003; Alcala et Qin,
2009, 2011). Par conséquent, les procédures de détection, isolation et diagnostic de défauts
peuvent être généralisées en considérant un indicateur généralisé ou unifié.
Le succès de l’utilisation de l’ACP pour la surveillance de processus a été enrichi par le
développement de certains concepts fondamentaux de performance comme la détectabilité
de défauts. En effet, la détectabilité représente la capacité d’un indice donné, à détecter la
présence de défauts. Dans la littérature, ce concept a été développé plus particulièrement
pour l’indice SP E et la distance T 2 de Hotelling (Dunia et Qin, 1998b,c,a; Yue et Qin,
2001; Qin, 2003). Pour cela, nous proposons une étude généralisée de détectabilité valable
pour tout indice de détection ayant une forme quadratique.

3.2.1 Détectabilité généralisée de défauts


Considérons γ et Γ2 respectivement un indice quadratique de détection et sa limite de
contrôle. γ peut être n’importe quel indice de détection parmi ceux qui existent dans la
littérature (voir tableau 3.1). Mathématiquement, γ représente une distance quadratique
qui est égale au carré de la norme euclidienne du vecteur x(k) projeté dans un sous-espace
1
vectoriel Sγ = span{M 2 } :
1
γ(k) = k M 2 x(k)k2 = xT (k) M x(k) (3.1)
1
où M 2 est une matrice semi-définie positive. k est le numéro de l’observation considérée.
En s’appuyant sur les travaux de Box (1954), le seuil de détection de la distance
quadratique γ pour un nombre d’observations N important peut être approximé par une
distribution de la forme gγ χ2(hγ ,α) , où χ2(hγ ,α) est la distribution du χ2 avec hγ degrés de
liberté et un seuil de signification α. On note que le niveau de confiance est égale à (1−α).
En se basant sur l’indice γ, le processus est considéré en fonctionnement normal à la kème
observation si :

γ(k) ≤ Γ2 = gγ χ2(hγ ,α) (3.2)


Les paramètres gγ et hγ peuvent être déterminés comme suit :

tr[(Σ M)2 ]
gγ = (3.3)
tr[Σ M]

64
3.2. Détection et détectabilité de défauts

Indice de détection Matrice caractéristique Limite de contrôle


1
γ M2 Γ2
1 T
T2 P̂Λ̂− 2 P̂ τ2
T
SP E P̃P̃ = C̃ δ2
1 T
SW E P̃Λ̃− 2 P̃ 2
1 T
ϕ δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ β2
1 1
D PΛ− 2 PT = Σ− 2 %2

Table 3.1 – Indices de détection

(tr[Σ M])2
hγ = (3.4)
tr[(Σ M)2 ]
où Σ est la matrice de covariance des données de X. L’expression tr[.] représente la trace
d’une matrice carrée.
Nous rappelons que la présence d’un défaut multiple FJ dans les données a été consi-
dérée par le vecteur de mesures en défaut donné par l’équation (2.59). A partir de cette
dernière et celle de (3.1), le vecteur duquel découle l’indice γ est exprimé par :
1 1 1 1
M 2 x(k) = M 2 (x∗ (k) + ΞJ f(k)) = M 2 x∗ (k) + M 2 ΞJ f(k) (3.5)
Deux conditions nécessaires doivent être considérées afin que le défaut FJ soit détec-
table par l’indice γ :
i. Sa projection dans le sous-espace engendré par les vecteurs colonnes de la matrice
1 1
M 2 ne devrait pas être nulle, i.e. k M 2 ΞJ f(k)k =
6 0;
ii. Son amplitude devrait être suffisamment large afin que l’indice de détection dépasse
sa limite de contrôle, i.e. γ(k) > Γ2 .
Pour déterminer la condition qui garantit la détection du défaut, nous avons besoin
1
d’exprimer la norme euclidienne du vecteur M 2 x(k) comme suit :
1 1 1 1 1
k M 2 x(k)k = k M 2 x∗ (k) + M 2 ΞJ f(k)k ≥ k M 2 ΞJ f(k)k − k M 2 x∗ (k)k (3.6)
Puisque x∗ représente un vecteur de mesures prélevées lors du fonctionnement normal,
alors :
1
k M 2 x∗ (k)k ≤ Γ (3.7)
La substitution de (3.7) dans (3.6) en considérant la positivité de la norme euclidienne
mène à l’inégalité suivante :
1 1
k M 2 x(k)k ≥ k M 2 ΞJ f(k)k − Γ ≥ 0 (3.8)
Afin que le défaut soit suffisamment détectable, la contrainte γ(k) > Γ2 devrait être
satisfaite. On doit alors imposer que
1 1
k M 2 x(k)k2 ≥ (k M 2 ΞJ f(k)k − Γ)2 > Γ2 (3.9)

65
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

La résolution de l’inégalité (3.9) mène au résultat suivant :


1
k M 2 ΞJ f(k)k > 2Γ (3.10)

Lorsque l’inégalité précédente est satisfaite, alors la détection du défaut FJ est garantie
en utilisant l’indice de détection γ. Cette condition suffisante (sur l’amplitude du défaut)
est valable pour tout indice de détection ayant une forme quadratique. En s’appuyant sur
une telle inégalité, nous allons exprimer dans la suite la détectabilité relative à chaque
indice donné dans le tableau 3.1.

3.2.1.1 Indice T2 de Hotelling


L’indice T 2 de Hotelling mesure les variations des projections dans le sous-espace
principal pondéré par les inverses des variances des ` premières CPs :
1 T
T 2(k) = kΛ̂− 2 t̂(k)k2 = t̂ (k)Λ̂−1 t̂(k)
T 1 T
= xT (k)P̂Λ̂−1 P̂ x(k) = kP̂Λ̂− 2 P̂ x(k)k2 (3.11)

En considérant un tel indice, le processus est supposé sous contrôle à la kème obser-
vation si :
T 2(k) ≤ τ 2 = gT 2 χ2(hT 2 ,α) (3.12)
où gT 2 et hT 2 sont calculés respectivement, à partir de (3.3) et (3.4), comme suit :
T
tr[(ΣP̂Λ̂−1 P̂ )2 ] tr[I` ]
gT 2 = T
= =1 (3.13)
tr[ΣP̂Λ̂−1 P̂ ] tr[I` ]

T
(tr[ΣP̂Λ̂−1 P̂ ])2 (tr[I` ])2
hT 2 = T
= = tr[I` ] = ` (3.14)
tr[(ΣP̂Λ̂−1 P̂ )2 ] tr[I` ]
Si le nombre d’observations N est faible, la limite de contrôle de la statistique T 2 de
Hotelling peut être approximée par la relation suivante :

`(N 2 − 1)
τ2 = F (3.15)
N (N − `) (`,N −`,α)

où F(`,N −`,α) représente la distribution de Fisher avec ` et (N − `) degrés de liberté ainsi
qu’un seuil de signification α.
Afin d’assurer la détection du défaut FJ , la condition suffisante de sa détectabilité par
l’indice T 2 de Hotelling en se référant à (3.10) est donnée par :
1 T
kP̂Λ̂− 2 P̂ ΞJ f(k)k > 2τ (3.16)

Cette condition a été établie par Yue et Qin (2001). D’après (2.46) et (2.47), les mesures
collectées sous des conditions de fonctionnement normal se projettent dans le sous-espace
principal. Par conséquent, la performance de l’indice T 2 de Hotelling dans la détection de

66
3.2. Détection et détectabilité de défauts

défauts peut être limitée car les variations des projections des défauts dans le sous-espace
principal peuvent être masquées par les variations normales. Nous avons montré que si
le choix du modèle ACP est optimal, un tel indice est dédié à la détection de défauts
des variables indépendantes et quasi-indépendantes (Mnassri et al., 2010a,b, 2011b,a).
Sous la contrainte d’optimalité du modèle ACP, les défauts portés par les directions de
ces variables se projettent totalement dans le sous-espace principal. Ainsi, leur détection
n’est possible qu’avec des indices calculés dans ce sous-espace.

3.2.1.2 Indice SPE


L’indice SP E assure la détection de défauts dans le sous-espace résiduel. Son expres-
sion, à l’instant k, est donnée par :

SP E(k) = kx̃(k)k2 = kC̃x(k)k2


= xT (k)C̃x(k) = kt̃(k)k2 (3.17)

La distance SP E est un indicateur global qui somme les résidus sans tenir compte
de leurs variances différentes. Toutefois, les résidus avec forte variance portent les erreurs
de modélisation produites par l’ACP. Ainsi, ils ont plus d’effets sur la quantité SP E
que les résidus ayant une faible variance et qui représentent réellement les relations de
redondance linéaires ou quasi-linéaires. Par conséquent, l’indice SP E est très sensible aux
erreurs de modélisation, ce qui peut entraı̂ner de nombreuses fausses alarmes ou l’absence
de la sensibilité à la détection de défauts en raison d’un seuil théorique élevé (Tharrault,
2008).
Avec un tel indice, le processus est considéré en fonctionnement normal à la kème
observation si :
SP E(k) ≤ δ 2 = gSP E χ2(hSP E ,α) (3.18)
où gSP E et hSP E sont respectivement données en se basant sur les expressions généralisées
(3.3) et (3.4) par :
Xm
λ2a
2 2
tr[(ΣC̃) ] tr[Λ̃ ] a=`+1
gSP E = = = m (3.19)
tr[ΣC̃] tr[Λ̃] X
λa
a=`+1

m
!2
X
λa
(tr[ΣC̃])2 (tr[Λ̃])2 a=`+1
hSP E = = = m (3.20)
tr[(ΣC̃)2 ] tr[Λ̃2 ] X
λ2a
a=`+1
Pm i
où λa représente la aème valeur propre de la matrice Σ. En posant θi = a=`+1 λa ,
nous retrouvons ainsi la formule connue dans la littérature pour le seuil de contrôle de
l’indice SP E. Il est important de mentionner qu’il existe également une autre expression
proposée par Jackson et Mudholkar (1979) pour le calcul d’une telle limite de contrôle.

67
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

Ainsi, Nomikos et MacGregor (1995) ont montré que les deux expressions donnent des
résultats identiques.
Le défaut FJ est garanti détectable par l’indice SP E si son amplitude calculée dans
le sous-espace résiduel respecte d’après (3.10) l’inégalité suivante :

kC̃ΞJ f(k)k > 2δ (3.21)

Nous notons également qu’une telle condition a été proposée dans des travaux anté-
rieurs (Dunia et Qin, 1998b,c,a; Yue et Qin, 2001; Qin, 2003). Dans la suite, nous allons
proposer les conditions suffisantes de détectabilité pour le reste des indices en se basant
sur notre étude généralisée développée dans la sous-section 3.2.1.

3.2.1.3 Indice SWE


L’indice TH2 de Hawkins ou SW E est généralement plus sensible aux défauts (Weste-
rhuis et al., 2000b). Il peut être défini comme l’indice SP E calculé avec des CPs résiduelles
pondérées. Aussi, son expression est une implémentation symétrique de la statistique T 2
de Hotelling dans le sous-espace résiduel :
1 T
SW E(k) = kΛ̃− 2 t̃(k)k2 = t̃ (k)Λ̃−1 t̃(k)
T 1 T
= xT (k)P̃Λ̃−1 P̃ x(k) = kP̃Λ̃− 2 P̃ x(k)k2 (3.22)

Un problème de conditionnement est considéré comme l’inconvénient d’un tel indice.


En effet, le calcul numérique de cet indice peut rencontrer des erreurs lorsque les dernières
valeurs propres de la matrice Σ sont très proches de zéro. Néanmoins, ce problème de
conditionnement apparaı̂t seulement en absence de bruit de mesures (Tharrault, 2008).
La présence d’erreurs de modélisation se traduit par une augmentation des variances
des projections dans le sous-espace résiduel. Ainsi, les fortes variances peuvent limiter la
performance de détection de défauts avec l’indice SP E. En effet, la pondération avec les
valeurs propres de Σ en utilisant l’indice SW E peut être considérée comme une solution
prometteuse. L’indice SW E est plus robuste pour la détection de défauts que celui du
SP E (Westerhuis et al., 2000b).
Le comportement du processus à la kème observation est considéré normal en se basant
sur l’indicateur SW E si :

SW E(k) ≤ 2 = gSW E χ2(hSW E ,α) (3.23)

En se référant aux formules (3.3) et (3.4), les paramètres gSW E et hSW E sont respec-
tivement exprimés comme suit :
T
tr[(ΣP̃Λ̃−1 P̃ )2 ] tr[Im−` ]
gSW E = T
= =1 (3.24)
tr[ΣP̃Λ̃−1 P̃ ] tr[Im−` ]

T
(tr[ΣP̃Λ̃−1 P̃ ])2 (tr[Im−` ])2
hSW E = T
= = tr[Im−` ] = m − ` (3.25)
tr[(ΣP̃Λ̃−1 P̃ )2 ] tr[Im−` ]

68
3.2. Détection et détectabilité de défauts

où Im−` ∈ R(m−`)×(m−`) représente la matrice identité.


Lorsque le nombre d’observations N est faible, la limite de contrôle de l’indice SW E
est approximée par une distribution de Fisher avec (m − `) et (N − m + `) degrés de
liberté et un seuil de signification α :
(m − `)(N 2 − 1)
2 = F (3.26)
N (N − m + `) (m−`,N −m+`,α)
D’après (3.10), le défaut FJ est garanti détectable par l’indice SW E si l’amplitude de
sa projection dans le sous-espace résiduel pondéré satisfait l’inégalité suivante :
1 T
kP̃Λ̃− 2 P̃ ΞJ f(k)k > 2 (3.27)

3.2.1.4 Indice combiné


D’après leurs expressions, et selon l’étude pratique, les indices SP E et T 2 de Hotelling
se comportent d’une manière complémentaire. Il est ainsi possible de combiner ces deux
indices en un seul afin de simplifier la tâche de détection de défauts (Yue et Qin, 2001). En
réalité, l’idée de la combinaison d’indices a été initialement proposée par Raich et Çinar
(1996) :
SP E(k) T 2(k)
R(k) = c + (1 − c) (3.28)
δ2 τ2
où c est une constante comprise dans l’intervalle [0, 1]. Dans ce cadre, les mêmes auteurs
suggèrent l’unité comme un seuil de contrôle pour cet indice ce qui a lourdement limité son
efficacité. En effet, cet indice peut conduire à des résultats erronés en présence d’un défaut
qui peut se manifester dans la possibilité d’avoir SP E > δ 2 et/ou T 2 > τ 2 , alors que lui-
même peut indiquer une situation normale. Pour cette raison, une forme quadratique
connue sous le nom de la distance combinée a été proposée par Yue et Qin (2001). Une
telle distance combine les statistiques SP E et T 2 de la manière suivante :
T
SP E(k) T 2(k) T C̃ P̂Λ̂−1 P̂
ϕ(k) = + = x (k)( + )x(k)
δ2 τ2 δ2 τ2
1 T
= k(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )x(k)k2 (3.29)
La matrice caractéristique de cet indice est semi-définie positive. Afin d’utiliser l’indice
combiné pour la détection de défauts, sa limite de contrôle est également établie en utili-
sant la distribution des formes quadratiques. Le processus est considéré en fonctionnement
normal à l’instant k si :
ϕ(k) ≤ β 2 = gϕ χ2(hϕ ,α) (3.30)
D’après (3.3) et (3.4), les paramètres gϕ et hϕ ont respectivement les expressions
suivantes :
Xm
−4
τ `+δ −4
λ2a
−2 −2 −1 T 2
tr[(Σ(δ C̃ + τ P̂Λ̂ P̂ )) ] a=`+1
gϕ = T
= m (3.31)
tr[Σ(δ −2 C̃ + τ −2 P̂Λ̂−1 P̂ )] τ −2 ` + δ −2
X
λa
a=`+1

69
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

m
!2
X
T
τ −2 ` + δ −2 λa
−2 −2 −1 2
(tr[Σ(δ C̃ + τ P̂Λ̂ P̂ )]) a=`+1
hϕ = T
= m (3.32)
tr[(Σ(δ −2 C̃ + τ −2 P̂Λ̂−1 P̂ ))2 ] τ −4 ` + δ −4
X
λ2a
a=`+1

L’indice combiné permet de contrôler le processus dans l’ensemble de l’espace. D’après


l’équation (3.10), le défaut FJ est garanti détectable si son amplitude exprimée dans
l’espace engendré par les vecteurs colonnes de la matrice caractéristique de cet indice
respecte l’inégalité suivante :
1 T
k(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )ΞJ f(k)k > 2β (3.33)

3.2.1.5 Indice de Mahalanobis


La distance de Mahalanobis correspond à celle de la T 2 de Hotelling étendue sur
l’ensemble de l’espace :
1
D(k) = xT (k)PΛ−1 PT x(k) = xT (k)Σ−1 x(k) = kΣ− 2 x(k)k2
1 1
= kPΛ− 2 PT x(k)k2 = kΛ− 2 t(k)k2 = tT (k)Λ−1 t(k) (3.34)
En présence de bruit de mesures, la matrice Σ est généralement de rang plein. Par
conséquent, elle est inversible ce qui permet d’éviter le problème de conditionnement
confronté également avec l’indice SW E.
Pour un nombre d’observations N important, le processus est considéré en fonction-
nement normal à l’instant k en se basant sur la distance de Mahalanobis si :
D(k) ≤ %2 = gD χ2(hD ,α) (3.35)
Par analogie avec la limite de contrôle de l’indice T 2 de Hotelling ou celle de SW E,
les coefficients gD et hD auront respectivement les valeurs 1 et m. En se référant aux
équations (3.3) et (3.4), on peut démontrer très aisément ces résultats :
tr[(ΣΣ−1 )2 ] tr[Im ]
gD = −1
= =1 (3.36)
tr[ΣΣ ] tr[Im ]

(tr[ΣΣ−1 ])2 (tr[Im ])2


hD = = = tr[Im ] = m (3.37)
tr[(ΣΣ−1 )2 ] tr[Im ]
Lorsque le nombre d’observations N est faible, un tel seuil est approximé par une
distribution de Fisher avec m et (N −m) degrés de liberté ainsi qu’un seuil de signification
α:
m(N 2 − 1)
%2 = F (3.38)
N (N − m) (m,N −m,α)
A partir de l’inégalité (3.10), la condition suffisante de détectabilité d’un défaut FJ
basée sur l’utilisation de la distance de Mahalanobis est donnée par :
1
kΣ− 2 ΞJ f(k)k > 2% (3.39)

70
3.2. Détection et détectabilité de défauts

3.2.2 Influence de la modélisation sur la détectabilité de défauts


Bien que le thème du choix d’une structure optimale du modèle ACP ait reçu une at-
tention considérable dans la littérature, l’objectif de l’optimalité est négligemment justifié
théoriquement. Autrement dit, on n’est pas certain des conséquences d’un choix arbitraire
du modèle ACP sur la démarche d’un diagnostic de défauts. Le point clé dans la construc-
tion d’un modèle ACP est de choisir un nombre adéquat de CPs afin de représenter le
système de façon optimale. Si le nombre retenu est inférieur à celui requis, la représentation
du processus sera incomplète. Par contre, si plus de CPs que nécessaires sont sélection-
nées, le modèle ACP sera surestimé et contiendra le bruit de mesures (Valle et al., 1999).
Néanmoins, ces arguments ainsi que d’autres sont difficiles à prouver mathématiquement.
Il se peut que les résultats obtenus par différents critères de choix d’un modèle ACP
se diffèrent de plus ou moins d’une seule CP par rapport au cas optimal. Malgré cette
faible différence, les effets peuvent avoir de lourdes conséquences, plus particulièrement
dans la qualité de détection de défauts. Pour cela, nous allons montrer que ce choix doit
être judicieux et peut être unique.
Puisque q représente le nombre optimal théorique des CPs, les vecteurs colonnes de la
1
matrice Mq2 engendrent le sous-espace optimal pour l’indice quadratique γ. Notre intérêt
est de savoir l’effet d’un changement de la dimension du modèle ACP sur la détectabilité
d’un défaut donné. Notamment, le plus intéressant est de se baser sur des hypothèses qui
sont vérifiées dans le sous-espace optimal. Ensuite, on vérifie si ces hypothèses sont encore
vérifiées ou non. Pour cela, nous supposons que le défaut considéré est garanti détectable
par l’indice γ exprimé dans le sous-espace optimal :
1
k Mq2 ΞJ f(k)k2 > 4Γ2q (3.40)

où Γ2q représente la limite de contrôle de l’indice γ dans le sous-espace optimal. En effet,
la considération d’un critère quelconque pour le choix du nombre des CPs peut engen-
drer un modèle ACP qui se diffère par rapport à celui optimal suite à une réduction ou
une augmentation du sous-espace optimal de γ. Par conséquent, nos démonstrations se
déroulent en deux étapes.

3.2.2.1 Effet d’une sous-estimation du modèle


Puisque les CPs sont orthogonales, une sous-estimation du modèle qui implique une
réduction du sous-espace optimal nous permet d’établir la relation suivante :
1 1 1
Mq2 = Md2− + Mred
2
(3.41)
1
où Md2− représente la matrice dont les vecteurs colonnes engendrent le sous-espace re-
1
tranché qui correspond aux CPs supprimées. Les vecteurs colonnes de la matrice Mred 2

engendrent le sous-espace réduit considéré optimal par un critère quelconque. Ainsi, nous
montrons que :
1 1 1 1
Md2− Mred
2
= Mred
2
Md2− = 0m ∈ Rm×m (3.42)

71
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

D’après (3.40), nous pouvons déduire ce qui suit :


1 1 1
k Mq2 ΞJ f(k)k2 = k Md2− ΞJ f(k)k2 + k Mred
2
ΞJ f(k)k2 > 4Γ2q (3.43)

Celle-ci peut nous permettre de définir le domaine de définition de l’amplitude du


défaut dans le sous-espace réduit :
1 1
k Mred
2
ΞJ f(k)k2 > 4Γ2q − k Md2− ΞJ f(k)k2 (3.44)

Afin de conserver la qualité de détection du défaut en réduisant le sous-espace optimal,


il faut que ce même défaut déjà garantit détectable dans un tel sous-espace demeure
1
garanti détectable dans le sous-espace réduit, i.e. k Mred
2
ΞJ f(k)k > 2Γred . Pour cela, nous
devons imposer ce qui suit :
1
4Γ2q − k Md2− ΞJ f(k)k2 ≥ 4Γ2red (3.45)

où Γ2red représente le seuil de contrôle de l’indice de détection dans le sous-espace réduit.
Ainsi, le défaut FJ reste garanti détectable suite à une réduction du sous-espace si son
amplitude exprimée dans le sous-espace retranché satisfait l’inégalité suivante :
1
q
k Md− ΞJ f(k)k ≤ 2 Γ2q − Γ2red
2
(3.46)

Cette inégalité n’est valable que si Γ2q ≥ Γ2red qui est généralement vérifiée. Elle re-
présente une condition suffisante sur l’amplitude du défaut dans le sous-espace retranché
afin qu’il reste garanti détectable même en réduisant le sous-espace optimal. Dans cette
optique, nous pouvons conclure que le sous-espace retranché doit être insensible au défaut
considéré. Ainsi, la majoration d’une telle amplitude prouve qu’une conservation de la
qualité de détection de défauts par réduction du sous-espace optimal n’est pas garantie.

3.2.2.2 Effet d’une surestimation du modèle


Une surestimation du modèle implique une augmentation du sous-espace optimal par
l’addition d’un ensemble de CPs. Cela nous permet d’écrire :
1 1 1
Maug
2
= Md2+ + Mq2 (3.47)
1 1
où Md2+ et Maug2
représentent deux matrices dont les vecteurs colonnes engendrent respec-
tivement le sous-espace ajouté qui correspond aux CPs insérées et le sous-espace augmenté
considéré optimal par un critère donné. L’orthogonalité de ces deux sous-espaces, nous
permet d’écrire ce qui suit :
1 1 1
k Maug
2
ΞJ f(k)k2 = k Md2+ ΞJ f(k)k2 + k Mq2 ΞJ f(k)k2 (3.48)

Puisque le défaut FJ est garanti détectable dans le sous-espace optimal (3.40), l’in-
égalité suivante est alors vraie :
1 1
k Maug
2
ΞJ f(k)k2 > k Md2+ ΞJ f(k)k2 + 4Γ2q (3.49)

72
3.3. Différentes variances non reconstruites

Afin de conserver la qualité de détection par addition de CPs supplémentaires, il


faut que le même défaut demeure garanti détectable dans le sous-espace augmenté. Par
conséquent, il faut s’assurer que :
1
k Md2+ ΞJ f(k)k2 + 4Γ2q ≥ 4Γ2aug (3.50)
ainsi,
1 q
k Md2+ ΞJ f(k)k ≥ 2 Γ2aug − Γ2q (3.51)
où Γ2aug représente la limite de contrôle de l’indice de détection dans le sous-espace aug-
menté. Evidemment, cette inégalité n’est valable que si Γ2aug ≥ Γ2q . Une telle inégalité
représente une condition de minoration sur l’amplitude du défaut dans le sous-espace
ajouté. Cette minoration implique qu’un tel sous-espace doit être sensible au défaut consi-
déré. Ainsi, la performance de détection prouvée dans le sous-espace optimal ne peut être
garantie conservée par augmentation du sous-espace si les CPs ajoutées sont insensibles
au défaut considéré.
Dans le cadre de l’utilisation de l’ACP pour une démarche de diagnostic, le nombre
de CPs retenues pour la construction d’un modèle ACP aura certainement un impact sur
les étapes d’une telle démarche notamment la détection et la localisation ou l’isolation de
défauts. Si le nombre de CPs retenues est inférieur à celui optimal, cela risque de perdre
des informations contenues dans les données initiales en projetant certaines variables dans
le sous-espace résiduel. Par conséquent, on pourrait avoir des résidus entachés ce qui
entraı̂ne des fausses alarmes. Dans le cas contraire, le modèle est surestimé, et il peut ne
pas permettre la détection de défauts.

3.3 Différentes variances non reconstruites


Le principe de l’approche de reconstruction des variables sera réalisé dans un contexte
de défauts unidimensionnels en supposant qu’il ne peut y exister qu’une seule variable
en défaut à chaque instant. Puisque les données collectées représentent le fonctionnement
normal de processus, les défauts supposés sont réellement nuls. Par conséquent, l’objectif
est de définir le modèle ACP permettant d’avoir une plus faible variance non reconstruite.

3.3.1 Principe de la reconstruction unidimensionnelle


Le vecteur de données exprimant la présence d’un défaut simple Fj affectant la jème
variable au kème instant peut être déduit de l’équation (2.59) en remplaçant respective-
ment ΞJ et f(k) par ξj et f (k). L’élimination de l’effet d’un tel défaut revient à estimer
un vecteur xj (k) insensible au défaut :
xj (k) = x(k) − ξj f (k)
= x(k) − ξ fˆ (k)
j j (3.52)
où fˆj ∈ R représente une estimation de f . Celle-ci permettra de calculer un indice de
détection associé non influencé par le défaut :
1
γj (k) = k M 2 xj (k)k2 (3.53)

73
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

Ainsi, une estimation optimale de l’amplitude du défaut est celle qui minimise l’indice
reconstruit γj (k) comme suit :

fˆj (k) = arg min γj (k)



(3.54)
f (k)

Cette minimisation est obtenue par l’application du principe des moindres carrés. En
conséquence, l’amplitude estimée du défaut ainsi que le vecteur de données dont la jème
variable est reconstruite sont respectivement exprimés par :

fˆj (k) = (ξjT M ξj )−1 ξjT M x(k) (3.55)

xj (k) = (Im − ξj (ξjT M ξj )−1 ξjT M)x(k) (3.56)


On peut déduire que la jème variable n’est reconstructible dans le sous-espace de γ
1
que si le terme ξjT M ξj est non nul. Cela implique que le vecteur M 2 ξj ne soit pas nul.
Pour une meilleure mise en évidence du principe de reconstruction d’une variable, nous
proposons de décomposer les vecteurs x(k), ξj et la matrice M comme suit :
     
xj− (k) ξj− M1 Mj− M2
x(k) =  xj (k)  , ξj =  1  et M = MTj− ξjT M ξj MTj+  (3.57)
xj+ (k) ξj+ MT2 Mj+ M3

où xj− (k) et xj+ (k) sont respectivement composés des (j−1) premières et (m−j) dernières
mesures du vecteur de données x(k). xj (k) représente la mesure de la jème variable au
kème instant. ξj− ∈ Rj−1 et ξj− ∈ Rm−j sont deux vecteurs nuls. MTj− et MTj+ sont deux
vecteurs composés respectivement des (j − 1) premières et (m − j) dernières valeurs de la
jème ligne de la matrice M. ξjT M ξj est la jème valeur diagonale de la matrice M.
A partir des équations (3.56) et (3.57), le vecteur de données dont la jème variable est
reconstruite peut s’écrire de la façon suivante :
 
xj− (k)
xj (k) = −(ξjT M ξj )−1 MTj− xj− (k) + MTj+ xj+ (k) 

(3.58)
xj+ (k)

D’après cette expression, seules les mesures des variables autres que celles de la variable
en question sont utilisées pour sa reconstruction. En outre, la contribution des autres va-
riables dans la reconstruction dépend de la dimension du modèle ACP considéré. Une
telle contribution peut être illustrée par les coefficients des vecteurs MTj− et MTj+ . Evi-
demment, les valeurs de ces coefficients changent en fonction du nombre des CPs utilisées
dans le modèle ACP.

3.3.2 Variance non reconstruite généralisée


La reconstruction d’une variable dans un sous-espace donné est basée sur l’estima-
tion de sa grandeur supposée être normale en utilisant les mesures des autres variables.

74
3.3. Différentes variances non reconstruites

Néanmoins, la variance d’une telle variable ne peut être totalement reconstruite. Il est
donc possible d’en extraire une variance non reconstruite qui dépend de la dimension du
modèle ACP et du sous-espace dans lequel l’estimation est réalisée. Nous rappelons que
seule la variance non reconstruite relative à une estimation dans le sous-espace résiduel
a été étudiée dans la littérature (Dunia et Qin, 1998b,c,a; Qin et Dunia, 2000). Dans ce
cadre, nous avons proposé une variance non reconstruite généralisée relative à un indice
de détection quadratique quelconque (Mnassri et al., 2010a). Cette généralisation nous
a permis d’étudier la variance de l’erreur de reconstruction relative à chaque indice de
détection donné dans le tableau 3.1.
Considérons ej (k) ∈ Rm le vecteur qui représente l’erreur de reconstruction de la jème
variable au kème instant. Ainsi, l’erreur de reconstruction de cette variable est donnée
par :
ξjT ej (k) = ξjT (x(k) − xj (k)) = fˆj (k) = (ξjT M ξj )−1 ξjT M x(k) (3.59)
Cette expression montre que l’estimation de la jème variable dans n’importe quel
sous-espace est non biaisée. Puisque les données sont centrées, la moyenne de l’erreur de
reconstruction est nulle :
n o
E ξjT ej = E fˆj = (ξjT M ξj )−1 ξjT M E {x} = 0

(3.60)

La variance d’une telle erreur dans la direction de la variable en question dépend de


la dimension du modèle ACP. Etant donné que les données utilisées dans l’objectif d’une
modélisation par ACP sont censées être sans défauts, cela implique que le modèle ACP le
plus adapté doit assurer une erreur de reconstruction ayant le moins possible de variance.
Ainsi, on définit la variance de l’erreur de reconstruction de la jème variable comme suit :
 n o2  n o
2 ˆ ˆ = E fˆj2
 T
σγj (`) = Var ξj ej = E fj − E fj

ξjT M E xxT M ξj ξjT M Σ M ξj
= = (3.61)
(ξjT M ξj )2 (ξjT M ξj )2

L’objectif étant alors de définir le nombre de CPs qui minimise l’expression précédente
pour une meilleure reconstruction d’une variable donnée. En effet, le minimum de la
variance non reconstruite d’une variable correspond à un nombre de CPs qui peut être
diffèrent de celui obtenu pour une reconstruction optimale d’une autre variable. Pour cette
raison, ce compromis peut être résolu par la considération d’une variance non reconstruite
globale. Ainsi, l’objectif sera plutôt de définir un nombre de CPs qui minimise la variance
globale qui peut malheureusement ne pas assurer une variance non reconstruite minimale
pour chacune des variables. Puisque le critère global représente la somme des variances non
reconstruites individuelles des variables, il est préférable de les considérer dans la même
échelle en pondérant chacune par la variance originelle de sa variable. Par conséquent, le
critère de la variance non reconstruite globale relative à l’indice γ est donné par :
m σ 2 (`) m
X γj X ξjT M Σ M ξj
VNRγ (`) = = (3.62)
j=1
ξjT Σξj j=1
(ξjT Σξj )(ξjT M ξj )2

75
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

Dans le cadre d’une utilisation de la variance non reconstruite, nous considérons plus
particulièrement que les données de X sont centrées réduites. Par conséquent, Σ repré-
sente une matrice de corrélation, ce qui implique que ξjT Σξj = 1.

3.3.3 Comportements des différents critères VNR


A partir de l’expression généralisée de la variance non reconstruite, nous développons
et étudions théoriquement dans la suite les comportements des différents critères envisa-
geables qui sont relatifs aux indices de détection utilisés dans le cadre de l’ACP.

3.3.3.1 VNR utilisant l’indice SPE


En se référant au tableau 3.1, la matrice de l’indice SP E est M = C̃. La substitution
de celle-ci dans la formule de la variance non reconstruite généralisée (3.61), nous permet
de prouver en considérant l’équation (2.63) ce qui suit :

2
ξjT C̃ΣC̃ξj
σSP Ej (`) = = σj2 (`) (3.63)
(ξjT C̃ξj )2

Nous pouvons déduire que la variance non reconstruite d’une variable donnée en uti-
lisant l’indice SP E est égale à celle étudiée dans le deuxième chapitre. Par conséquent,
le critère de la variance globale de l’erreur de reconstruction relative à un tel indice n’est
autre que le critère VNR qui a été l’objet d’une étude dans le chapitre précédent :
m
X m
X
2
VNRSP E (`) = σSP Ej (`) = σj2 (`) = VNR(`) (3.64)
j=1 j=1

L’expression précédente représente l’unique critère proposé dans un contexte de choix


d’une dimension optimale d’un modèle ACP en s’appuyant sur l’idée de la variance non
reconstruite (Dunia et Qin, 1998b,c,a; Qin et Dunia, 2000).

3.3.3.2 VNR utilisant l’indice SWE


T
En remplaçant la matrice M exprimée dans l’équation (3.61) par P̃Λ̃−1 P̃ qui repré-
sente la matrice de l’indice SW E, la variance de l’erreur de reconstruction de la jème
variable en utilisant un tel indice est donnée par :
T T
2
ξjT P̃Λ̃−1 P̃ PΛPT P̃Λ̃−1 P̃ ξj 1
σSW Ej (`) = T
= T
(3.65)
(ξjT P̃Λ̃−1 P̃ ξj )2 ξjT P̃Λ̃−1 P̃ ξj

En effet, la matrice résiduelle des vecteurs propres ainsi que celle des valeurs propres
peuvent être réécrites respectivement comme suit :
h i
P̃ = p`+1 , P̃r (3.66)

76
3.3. Différentes variances non reconstruites

et  
λ 0
Λ̃ = `+1 (3.67)
0 Λ̃r
On peut alors déduire que :
T T
ξjT P̃Λ̃−1 P̃ ξj = λ−1 T T T −1
`+1 ξj p`+1 p`+1 ξj + ξj P̃r Λ̃r P̃r ξj (3.68)

Puisque λ−1 T T
`+1 ξj p`+1 p`+1 ξj ≥ 0, alors

T T
ξjT P̃Λ̃−1 P̃ ξj ≥ ξjT P̃r Λ̃−1
r P̃r ξj (3.69)

donc
1 1
T
≤ T
(3.70)
ξjT P̃Λ̃−1 P̃ ξj ξjT P̃r Λ̃−1
r P̃r ξj

D’après l’inégalité précédente et l’équation (3.65), on peut établir ce qui suit :


2 2
σSW Ej (`) ≤ σSW Ej (` + 1) (3.71)

L’inégalité (3.71) prouve que la variance non reconstruite d’une variable donnée en
utilisant l’indice SW E est monotone croissante en `. Ainsi, la variance globale de l’erreur
de reconstruction est également monotone croissante en ` :
m
X m
X
2 2
σSW Ej (`) ≤ σSW Ej (` + 1) (3.72)
j=1 j=1

d’où
VNRSW E (`) ≤ VNRSW E (` + 1) (3.73)
Par conséquent, le minimum d’un tel critère correspond toujours à une seule CP qui
est la première :
min VNRSW E (`) = 1 (3.74)
`

On peut conclure que la variance non reconstruite utilisant l’indice SW E ne peut pas
servir dans le choix d’un nombre optimal de CPs.

3.3.3.3 VNR utilisant l’indice T2 de Hotelling


La reconstruction de la jème variable en se basant sur l’indice T 2 de Hotelling génère
une variance non reconstruite dont l’expression est obtenue en substituant dans l’équation
T
(3.61) et d’après le tableau 3.1 la matrice M par P̂Λ̂−1 P̂ comme suit :
T T
ξjT P̂Λ̂−1 P̂ PΛPT P̂Λ̂−1 P̂ ξj 1
σT2 2j (`) = T
= T
(3.75)
(ξjT P̂Λ̂−1 P̂ ξj )2 ξjT P̂Λ̂−1 P̂ ξj

77
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

Notamment, l’augmentation de la dimension du sous-espace principal par l’addition


d’une CP supplémentaire implique que la nouvelle matrice des vecteurs propres ainsi que
celle des valeurs propres prennent respectivement les formes suivantes :
h i
P̂+ = P̂, p`+1 (3.76)
 
Λ̂ 0
Λ̂+ = (3.77)
0 λ`+1
Ce qui nous permet de déduire que :
1 1
σT2 2j (` + 1) = T
= T
(3.78)
ξjT P̂+ Λ̂−1
+ P̂+ ξj λ−1 T T T −1
`+1 ξj p`+1 p`+1 ξj + ξj P̂Λ̂ P̂ ξj

Puisque λ−1 T T
`+1 ξj p`+1 p`+1 ξj ≥ 0, alors
1 1
T
≥ T
(3.79)
ξjT P̂Λ̂−1 P̂ ξj ξjT P̂+ Λ̂−1
+ P̂+ ξj

donc
σT2 2j (`) ≥ σT2 2j (` + 1) (3.80)
et m m
X X
σT2 2j (`) ≥ σT2 2j (` + 1) (3.81)
j=1 j=1
Celle-ci implique que
VNRT 2 (`) ≥ VNRT 2 (` + 1) (3.82)
Cette inégalité prouve que le critère de la variance non reconstruite utilisant à l’indice
T 2 de Hotelling est monotone décroissant en `. En se basant sur ce critère, la meilleure
reconstruction est obtenue en considérant toutes les CPs puisque :
min VNRT 2 (`) = m (3.83)
`
En effet, la variance de l’erreur de reconstruction basée sur l’indice T 2 de Hotelling
est incapable de déterminer un modèle optimal.

3.3.3.4 VNR utilisant l’indice de Mahalanobis


D’après le tableau 3.1, la matrice de la distance de Mahalanobis est indépendante du
nombre des CPs. Par conséquence, la variance non reconstruite utilisant une telle distance
ne dépend pas également d’une dimension donnée :
2
ξjT PΛ−1 PT PΛPT PΛ−1 PT ξj 1 1
σD = T
= T
= (3.84)
j
(ξjT PΛ−1 P ξj )2 ξjT PΛ−1 P ξj ξjT Σ−1 ξj
ainsi,
m
X
2
VNRD = σD j
(3.85)
j=1
Il est clair que ce critère est constant. Ainsi, sa minimisation par rapport à ` n’est pas
possible et ne peut apporter aucun avantage pour le choix d’un nombre optimal de CPs.

78
3.3. Différentes variances non reconstruites

3.3.3.5 VNR utilisant un indice exprimé dans le sous-espace principal


Nous proposons ici d’étudier la variance non reconstruite en utilisant un indice exprimé
dans le sous-espace principal autre que les indices de détection connus dans le cadre de
l’ACP. Cet indice est complémentaire à celui du SP E.
En effet, nous remarquons dans la littérature l’inexistence d’intérêt à l’étude de la
distance kx̂k2 malgré qu’elle représente une forme quadratique. La reconstruction d’une
variable donnée en se basant sur une telle distance produit une variance non reconstruite.
En substituant la matrice M dans (3.61) par Ĉ, l’expression de la variance de l’erreur de
reconstruction de la jème variable est la suivante :
! !
T T
2
ξj ĈΣ Ĉξ j ξj ĈΣ Ĉξ j 1
σkx̂jk
2 (`) =
T
= T T
= ûj (`)v̂j (`) (3.86)
(ξj Ĉξj ) 2 ξj Ĉξj ξj Ĉξj
avec
ξjT ĈΣĈξj
ûj (`) = (3.87)
ξjT Ĉξj
et
1
v̂j (`) = T (3.88)
ξj Ĉξj
L’ajout d’une CP supplémentaire dans le sous-espace principal nous permet d’écrire :
1 1
v̂j (` + 1) = T = T
(3.89)
ξj Ĉ+ ξj ξjT P̂+ P̂+ ξj
D’après l’équation (3.76), on peut déduire que :
T T
ξjT P̂+ P̂+ ξj = ξjT p`+1 pT`+1 ξj + ξjT P̂P̂ ξj (3.90)
Celle-ci implique que
T T
ξjT P̂+ P̂+ ξj ≥ ξjT P̂P̂ ξj (3.91)
ainsi,
v̂j (`) ≥ v̂j (` + 1) (3.92)
L’inégalité précédente prouve que la fonction v̂j est monotone décroissante en `. En ce
qui concerne la fonction ûj , nous proposons de calculer la différence suivante :
T T T T
ξjT P̂+ P̂+ ΣP̂+ P̂+ ξj ξjT P̂ P̂ ΣP̂ P̂ ξj
ûj (` + 1) − ûj (`) = T
− T
ξjT P̂+ P̂+ ξj ξjT P̂ P̂ ξj
T T
λ`+1 ξjT p`+1 pT`+1 ξj + ξjT P̂ Λ̂P̂ ξj ξjT P̂ Λ̂P̂ ξj
= T
− T
ξjT p`+1 pT`+1 ξj + ξjT P̂ P̂ ξj ξjT P̂ P̂ ξj
T T
 
ξjT p`+1 pT`+1 ξj λ`+1 ξjT P̂ P̂ ξj − ξjT P̂ Λ̂P̂ ξj
= T T
(ξjT P̂+ P̂+ ξj )(ξjT P̂ P̂ ξj )
ξjT p`+1 pT`+1 ξj 
T T

= T T
ξj P̂(λ I
`+1 ` − Λ̂)P̂ ξj (3.93)
(ξjT P̂+ P̂+ ξj )(ξjT P̂ P̂ ξj )

79
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

où I` ∈ R`×` est une matrice identité. Notamment, toutes les valeurs propres de la matrice
diagonale Λ̂ sont supérieures ou égales à λ`+1 ce qui implique que tous les éléments de la
matrice diagonale (λ`+1 I` − Λ̂) sont alors négatifs ou nuls. Par conséquence, la différence
exprimée par l’équation précédente est négative ou nulle, ainsi :
ûj (`) ≥ ûj (` + 1) (3.94)
A partir des inégalités (3.94) et (3.92), nous pouvons déduire que :
ûj (`)v̂j (`) ≥ ûj (`+)v̂j (` + 1) (3.95)
ce qui nous permet également de déduire, d’après (3.86), que :
2 2
σkx̂ 2 (`) ≥ σkx̂ k2 (` + 1) (3.96)
jk j

En posant
m
X
2
VNRkx̂k2 (`) = σkx̂jk
2 (`) (3.97)
j=1

le critère qui représente la variance globale non reconstruite relative à l’indice considéré,
on peut conclure de l’inégalité (3.96) que :
VNRkx̂k2 (`) ≥ VNRkx̂k2 (` + 1) (3.98)
Ce critère est alors monotone décroissant en `. Evidemment, la meilleure reconstruction
est obtenue en considérant toutes les CPs dans le modèle ACP puisque :
min VNRkx̂k2 (`) = m (3.99)
`

Le comportement de cette variance non reconstruite ne peut pas servir pour le choix
d’un nombre optimal de CPs.

3.3.3.6 VNR utilisant l’indice combiné


D’après le tableau 3.1, les vecteurs colonnes de la matrice M de l’indice combiné
engendrent deux sous-espaces orthogonaux. La substitution d’une telle matrice dans l’ex-
pression (3.61), nous a permis de montrer que la variance non reconstruite de la jème
variable en s’appuyant sur cet indice peut s’écrire comme suit :
T
τ 4 ξjT C̃ΣC̃ξj + δ 4 ξjT P̂Λ̂−1 P̂ ξj
σϕ2 j (`, α) = 2 (3.100)
T
τ 2 ξjT C̃ξj + δ 2 ξjT P̂Λ̂−1 P̂ ξj

Cette expression dépend du nombre ` des CPs retenus. En outre, nous remarquons
qu’une telle variance dépend également des seuils de contrôle des indices SP E et T 2 de
Hotelling. Ces limites sont en fonction de ` et un seuil de signification α. Par conséquent,
la variance non reconstruite globale dépendra également des ces paramètres :
m
X
VNRϕ (`, α) = σϕ2 j (`, α) (3.101)
j=1

80
3.4. Nouveaux critères VNR

Cette équation présente un nouveau critère basé sur la variance non reconstruite rela-
tive à l’indice combiné. Nous notons qu’il n’a pas été étudié auparavant dans la littérature.
Jusqu’à ce stade, nous avons montré théoriquement que tous les critères qui se basent
sur la variance non reconstruite, à l’exception de celui de l’équation (3.101), ne peuvent
pas définir la dimension adaptée d’un modèle ACP voire la plupart de ces critères sont
inutiles pour effectuer une telle tâche. En revanche, l’unique critère dont nous ignorons
son comportement est celui relatif à l’indice combiné. Pour cette raison, ce critère a été
l’objet d’une étude sur un exemple simulé par Mnassri et al. (2010a). Nous avons remarqué
qu’il peut nous renseigner sur la dimension optimale en s’appuyant sur à un choix très
approprié du niveau de confiance (1 − α).
Afin d’assurer la détection de défauts, le seuil de signification α doit généralement
avoir des valeurs voisines de 5%. Malheureusement, ces valeurs sont inadéquates pour le
nouveau critère. En effet, nous avons constaté que α doit être proche de 80% pour que
le minimum de VNRϕ converge modérément vers le nombre désiré des CPs. Ce critère
est conçu pour un objectif primordial qui est la minimisation de la variance de l’erreur
de reconstruction. Toutefois, il est difficile d’expliquer théoriquement son comportement.
Pour cela, nous pouvons le considérer comme un critère empirique puisque son efficacité
s’appuie plus particulièrement sur l’expérience.

3.4 Nouveaux critères VNR


Dans l’objectif d’une sélection correcte de la dimension optimale d’un modèle ACP,
nous contribuons dans ce chapitre par deux autres nouveaux critères qui se basent sur la
théorie de la variance de l’erreur de reconstruction.

3.4.1 VNR utilisant un nouvel indice combiné


En se basant sur l’étude établie par Mnassri et al. (2010a) pour le critère VNRϕ ,
nous avons essayé de remédier à l’inconvénient de celui-ci par la proposition d’un nou-
veau critère plus consistant en utilisant une nouvelle distance combinée (Mnassri et al.,
2010b). Une caractéristique majeure constatée dans le premier critère réside dans son al-
lure fluctuante face aux valeurs du niveau de confiance (1 − α). Notre objectif prioritaire
est d’assurer par le nouveau critère une robustesse par rapport au choix de la valeur du
seuil de signification au moins dans l’intervalle couramment utilisé comme [1%, 5%].
D’après (3.100), nous constatons que le critère VNRϕ est exprimé en fonction de
l’inverse des valeurs propres. En effet, celles-ci ont une influence importante sur le com-
portement de ce critère. Dans ce cadre, Mnassri et al. (2010b) ont proposé un nouvel
indice combiné qui combine la statistique SP E et une nouvelle distance B exprimée dans
le sous-espace principal. La particularité de l’indice B se manifeste dans une matrice des
valeurs propres modifiées :

−1 T T
B(k) = kP̂Λ̂B 2 P̂ x(k)k2 = xT (k)P̂Λ̂−1
B P̂ x(k) (3.102)

81
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

avec
Λ2
 
0
ΛB = v (3.103)
0 I(m−v) + Λ(m−v)

où Λ̂B ∈ R`×` est une matrice diagonale constituée des ` premiers éléments de la matrice
diagonale ΛB . Evidemment, ` représente le nombre des CPs à retenir. I(m−v) est une
matrice identité d’ordre (m − v). v = {1, · · · , m} joue le rôle d’un deuxième paramètre
pour le critère proposé en représentant également un nombre de CPs qui servira dans
la minimisation par la suite. Λv ∈ Rv×v et Λ(m−v) ∈ R(m−v)×(m−v) sont deux matrices
diagonales contenant respectivement les v premières et (m − v) dernières valeurs propres
de la matrice Λ.
Nous constatons que cet indice ressemble dans sa forme générale à celui de la T 2 de
Hotelling. La modification est réalisée aux niveaux des valeurs propres de la matrice Λ.
L’utilisation de l’indice B pour la détection de défauts impose qu’on lui propose une limite
de contrôle. Puisque cet indice présente une forme quadratique, son seuil de détection peut
être déterminé en se référant à la théorie de Box (1954). En considérant un tel indice, le
processus est en fonctionnement normal au kème instant si :

B(k) ≤ b2 = gB χ2(hB ,α) (3.104)

avec
T
tr[(ΣP̂Λ̂−1 2
B P̂ ) ]
gB = T
(3.105)
tr[ΣP̂Λ̂−1
B P̂ ]

T
(tr[ΣP̂Λ̂−1
B P̂ ])
2
hB = T
(3.106)
tr[(ΣP̂Λ̂−1 2
B P̂ ) ]

Dans la pratique, on suggère généralement qu’on surveille le processus par un seul


indice plutôt que deux statistiques de détection séparées. Pour cela, nous avons proposé
de combiner l’indice B et celui du SP E en une seule statistique combinée comme suit :

1 SP E(k) B(k)
Ψ(k) = kΥ 2 x(k)k2 = + 2 (3.107)
δ2 b

où
1 −1 T
Υ 2 = δ −1 C̃ + b−1 P̂Λ̂B 2 P̂ (3.108)
Υ représente la matrice du nouvel indice combiné Ψ. Notamment, la reconstruction de
la jème variable en utilisant un tel indice engendre une variance non reconstruite dont
son expression est déterminée en remplaçant dans l’équation (3.61) M par Υ. Ainsi, nous
montrons qu’elle peut s’écrire comme suit :
T
2
b4 ξjT C̃ΣC̃ξj + δ 4 ξjT P̂Λ̂−1
B P̂ ξj
σΨ (`, v, α) = 2 (3.109)
j
2 T 2 T −1 T
b ξj C̃ξj + δ ξj P̂Λ̂B P̂ ξj

82
3.4. Nouveaux critères VNR

Cette variance dépend de deux paramètres principaux qui sont ` et v ainsi qu’un
paramètre de lissage α qui représente le seuil de signification. En revanche, le critère
global dépend uniquement de ` et α :
m X
X m
2
VNRΨ (`, α) = σΨ j
(`, v, α) (3.110)
v=1 j=1

Nous suggérons que le minimum de cette fonction peut correspondre au nombre op-
timal des CPs. En se basant sur un exemple simulé, nous avons observé que ce critère
peut déterminer correctement le nombre désiré des CPs avec des valeurs pour α qui sont
comprises entre 1% et 5% (Mnassri et al., 2010b). Notamment, ce critère montre des ré-
sultats plus corrects que ceux du critère utilisant le classique indice combiné. Cependant,
il demeure un critère empirique car seul l’expérience peut illustrer son efficacité.

3.4.2 Changement de représentation des données


La présence du seuil de signification dans les expressions des deux nouveaux critères
proposés précédemment pose souvent des difficultés en rendant les résultats et les décisions
incertains. Pour cette raison, nous avons étendu nos travaux dans ce cadre en proposant
également un troisième nouveau critère que nous considérons le mieux performant et le
plus consistant du point de vue théorique. Ce critère a été proposé initialement dans
Mnassri et al. (2010c) puis il a été rectifié et adapté théoriquement dans Mnassri et al.
(2011a).

3.4.2.1 Motivation et théorie d’une nouvelle approche ACPVI


Le nouveau critère est fondé sur l’idée d’une analyse en composantes principales pon-
dérées par leurs variances inversées (ACPVI, en anglais : Inverse-Variance Weighting
PCA (IVWPCA)). En considérant des données normalisées, nous avons montré dans le
deuxième chapitre que le critère VNR peut déterminer correctement le nombre optimal
des CPs seulement en absence des variables indépendantes et quasi-indépendantes. En ef-
fet, un tel critère est insensible à la présence de ce type de variables. En outre, nous notons
que ce critère peut également être plus limité en utilisant des données non normalisées.
Une variable indépendante ayant une variance très importante peut occuper le premier
ou le deuxième rang dans l’ordre d’importance des CPs en considérant la matrice de co-
variance. Dans ce cas et d’après la démonstration établie dans l’annexe A, le minimum du
critère VNR correspondra à un nombre de CPs qui ne peut pas dépasser le rang d’une
telle variable. Par conséquent, des CPs qui sont réellement significatives seront écartées.
Ce critère peut garantir la sélection de ces CPs uniquement si les variables indépendantes
et quasi-indépendantes disposent de variances moins inférieures aux valeurs propres de
telles CPs.
Nous recommandons alors l’utilisation d’un tel critère avec des données normalisées
car les CPs qui correspondent aux variables indépendantes sont hiérarchiquement pla-
cées après les CPs les plus significatives qui expriment de fortes corrélations. De cette
manière, on est confronté uniquement au problème d’identification de telles variables. No-
tamment, les variables indépendantes se caractérisent par une invariabilité en termes de

83
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

leurs indépendances ainsi que leurs variances même en cas d’inversion de la matrice de
corrélation.
Pour cette raison, l’idée principale s’appuie sur le principe des problèmes inverses
par un changement de représentation des données. Puisque la normalisation des données
influe souvent les relations linéaires entre les variables, nous supposons que les données
normalisées de la matrice X sont initialement issues d’une transformation linéaire d’autres
données Y ∈ RN ×m qui ne sont pas forcément normalisées. En notation vectorielle, cette
hypothèse se traduit par :
x(k) = Ay(k) (3.111)
A ∈ Rm×m est la matrice de transformation. y ∈ Rm représente le vecteur des données
desquelles sont extraites celles du vecteur x. A travers le changement de représentation,
nous devons assurer que les données de X sont normalisées. Dans ce contexte, on peut
établir ce qui suit :

Σ = E xxT = A E yyT AT
 

= ASAT (3.112)

où Σ et S sont respectivement la matrice de corrélation de X et la matrice de covariance


de Y.
Une contrainte que nous devons également l’assurer par une telle transformation li-
néaire concerne l’organisation des valeurs propres de Σ ainsi que celles de S. En effet,
nous souhaitons que leurs valeurs propres soient reliées en conservant un certain ordon-
nancement. Pour cela, la détermination des matrices A et S peut s’effectuer selon trois
possibilités. Cependant, une unique possibilité peut satisfaire nos hypothèses :
i. D’après les équations (2.13) et (3.112), nous pouvons supposer que A = P et S = Λ.
Avec ces considérations, le problème à résoudre se ramène au cas classique ;
ii. Puisque Σ doit être nécessairement une matrice de corrélation, on peut considérer
que S est la matrice de covariance de X et A est une matrice diagonale constituée
par les inverses des racines carrées des écarts types des variables originelles. Dans ce
cas, on serait confronté à une étude sur les données de X qui ne sont pas normalisées.
Par conséquent, le critère VNR ne peut pas assurer une optimalité dans la sélection
des CPs significatives, plus particulièrement en présence des variables indépendantes
de variances importantes ;
iii. La dernière et l’unique possibilité envisageable est de supposer que :

A=Σ (3.113)

et
S = Σ−1 (3.114)
En présence de bruit de mesures de variances non nulles, la matrice de corrélation
Σ est inversible. Ainsi, Σ−1 représente la matrice de covariance des données de Y. Par
conséquent, le vecteur de données y(k) peut s’écrire comme suit :

y(k) = Σ−1 x(k) (3.115)

84
3.4. Nouveaux critères VNR

Puisque P est une matrice orthonormée, i.e. P−1 = PT , la décomposition en valeurs


singulières de la matrice de covariance S des données de Y mène à la forme suivante :

S = Σ−1 = PΛ−1 PT (3.116)

L’interprétation théorique de l’équation précédente prouve que les variables de Y dis-


posent des mêmes CPs que celles des variables de X. La distinction se manifeste unique-
ment dans les variances de telles CPs. Posons h ∈ Rm le vecteur des CPs qui correspondent
aux données de Y, nous pouvons montrer que :

h(k) = PT y(k) = PT Σ−1 x(k)


= Λ−1 PT x(k) = Λ−1 t(k) (3.117)

où, d’après (2.15), t représente le vecteur des CPs de X. Puisque cesCPs sont caractérisées
par des variances qui sont égales aux valeurs propres de Σ, i.e. E ttT = Λ, on montre
alors que :
E hhT = Λ−1 E ttT Λ−1 = Λ−1
 
(3.118)
Par conséquent, nous déduisons que les CPs de Y sont les mêmes que celles de X
mais de variances inverses. Pour cette raison, nous avons appelé cette approche analyse
en composantes principales pondérées par leurs variances inversées (ACPVI).
D’après l’équation (3.116), nous remarquons qu’une telle décomposition engendre des
valeurs propres dans l’ordre croissant. Cependant, le principe communément connu par
une ACP est d’organiser les valeurs propres dans un ordre décroissant. Pour cela, l’équa-
tion (3.116) peut se réécrire comme suit :

S = GDGT (3.119)

avec
   
G = g1 , · · · , gm−q , gm−q+1 , · · · , gm = pm , · · · , pq+1 , pq , · · · , p1 (3.120)

et

D = diag{d1 , · · · , dm−q , dm−q+1 , · · · , dm } = diag{λ−1 −1 −1 −1


m , · · · , λq+1 , λq , · · · , λ1 } (3.121)

Puisque S est une matrice de covariance, cela semblerait contradictoire avec notre
recommandation concernant la nature des données sur lesquelles on doit appliquer un
critère basé sur le principe de la variance non reconstruite. Toutefois, l’organisation des
valeurs propres de cette matrice de covariance qui est obtenue par un changement de
représentation des données présentera un avantage majeur pour notre approche. Ainsi,
ce type de matrice de covariance qui représente l’inverse d’une matrice de corrélation
d’autres données sera le plus adapté pour une utilisation du critère VNR sur des données
non normalisées.
Nous avons supposé que q représente le nombre optimal des CPs pour les données de
X. En présence des variables indépendantes et/ou quasi-indépendantes, la qème CP repré-
sentera certainement l’une de ces variables. Ainsi, l’inversion de la matrice de corrélation

85
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

n’influe pas leurs natures. D’après (3.120) et (3.121), les q CPs significatives dans X se
transforment en des relations de redondance dans Y. Inversement, les (m − q) relations de
redondance dans X se transforment en des CPs significatives dans Y. Ces effets sont dus
aux inverses des valeurs propres résiduelles de Σ qui produisent des valeurs propres très
importantes dans Σ−1 . Evidemment s’il existe un ensemble de variables indépendantes
dans X, elles se mutent dans Y sans modification considérable dans leurs indépendances.
Ainsi, la dernière parmi elles sera associée au vecteur propre gm−q+1 (3.120).
Afin de sélectionner les q CPs de la matrice X, nous envisageons qu’il est plus facile
d’identifier les (m − q) CPs de la matrice Y en utilisant le principe de la variance non
reconstruite.

3.4.2.2 VNR basée sur l’ACPVI


Posons y∗ (k) le vecteur des données obtenues lors du fonctionnement normal. En
présence d’un défaut simple Wi porté par la ième direction ζi et d’amplitude w(k) à
l’instant k, le vecteur de données y(k) peut s’exprimer comme suit :

y(k) = y∗ (k) + ζi w(k) (3.122)

Le vecteur ζi ∈ Rm représente la ième colonne de la matrice identité. Il correspond à


la variable supposée en défaut. Ainsi, la reconstruction d’une telle variable engendre un
vecteur reconstruit de données comme suit :

yi (k) = y(k) − ζi ŵi (k) (3.123)

où ŵi est une estimation de w. Une telle estimation est optimale en minimisant l’erreur
quadratique d’estimation kZ̃yi (k)k2 de la façon suivante :
n o
2
ŵi (k) = arg min kZ̃yi (k)k
w(k)

= (ζiT Z̃ζi )−1 ζiT Z̃y(k) (3.124)

avec
T
Z̃ = G̃ G̃ (3.125)
Notamment, Z̃ est la matrice de projection dans le sous-espace résiduel de Y. G̃ ∈
m×(m−κ)
R est composée des (m − κ) derniers vecteurs propres de la matrice G et κ repré-
sente le nombre des CPs utilisées dans le modèle.
On note que la ième variable est reconstructible si ζiT Z̃ζi 6= 0, i.e. le vecteur Z̃ζi est
non nul.
Puisque les données de X sont centrées alors celles de Y le sont également. Par consé-
quent, la moyenne de ŵi est nulle. Ainsi, la variance de l’erreur de reconstruction de la
ième variable dans le sous-espace résiduel est définie par :

σi2 (κ) = Var ζiT (y − yi ) = Var {ŵi }



 T
ζiT Z̃ E yyT Z̃ζi ζiT Z̃Σ−1 Z̃ζi ζiT G̃D̃G̃ ζi
= = = (3.126)
(ζiT Z̃ζi )2 (ζiT Z̃ζi )2 (ζiT Z̃ζi )2

86
3.4. Nouveaux critères VNR

On peut alors déduire le critère de la variance globale non reconstruite noté VNRVI
et qui dépend de κ comme suit :
m m m T
X σi2 (κ) X ζiT Z̃Σ−1 Z̃ζi X ζiT G̃D̃G̃ ζi
VNRVI(κ) = T −1
= = (3.127)
i=1
ζi Σ ζi i=1
(ζi
T −1
Σ ζi )(ζi
T
Z̃ζi ) 2
i=1
(ζi
T −1
Σ ζi )(ζi
T
Z̃ζi )2

Notons par κop le nombre optimal des CPs dans Y. En se basant sur ce critère, nous
suggérons que son minimum correspond à κop = (m − q) CPs :

κop = arg min {VNRVI(κ)} = m − q (3.128)


κ

Par conséquent, le nombre optimal des CPs de X est déduit de la manière suivante :

`op = q = m − κop = m − arg min {VNRVI(κ)} (3.129)


κ

3.4.2.3 Consistance théorique du critère VNRVI


En posant
ζiT Z̃Σ−1 Z̃ζi
ũ2i (κ) = (3.130)
(ζiT Z̃ζi )
et !
1 − ζiT Z̃ζi
û2i (κ) = ũ2i (κ) (3.131)
ζiT Z̃ζi
et d’après l’équation (3.126), la variance non reconstruite de la ième variable pondérée
par sa variance originelle peut s’exprimer comme suit :

σi2 (κ) ũ2i (κ) + û2i (κ)


= (3.132)
ζiT Σ−1 ζi ζiT Σ−1 ζi

Etant donné que la quantité ζiT Σ−1 ζi est une constante qui ne dépend pas de κ, notre
étude du comportement du nouveau critère peut se limiter aux deux termes ũ2i et û2i .
Dans ce cadre, nous avons montré théoriquement dans l’annexe C que la fonction ũ2i est
monotone décroissante en κ. D’autre part, le terme ζiT Z̃ζi tend vers zéro quand κ tend
vers m. Cela implique par conséquent que û2i devient croissante en montant rapidement
quand κ tend vers m. De cette manière, l’expression (3.132) doit avoir nécessairement un
minimum unique qui correspond à un nombre de CPs dans l’intervalle [1, m]. Ainsi, nous
pouvons déduire également que le critère VNRVI aura un seul minimum global pour un
nombre de CPs dans le même intervalle.
En revanche, il est crucial d’établir les conditions qui garantissent d’avoir théorique-
ment ce minimum en (m − q) CPs. Dans ce cadre, il semblerait nécessaire de connaı̂tre
tout d’abord la distribution du bruit dans les données de Y. Selon l’équation (2.28), le
vecteur de données y(k) peut s’écrire comme suit :

y(k) = Σ−1 x̊(k) + Σ−1 v(k) = ẙ(k) + w(k) (3.133)

87
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

où les vecteurs ẙ(k) et w(k) représentent respectivement les mesures sans bruit et le bruit
au kème instant. Ainsi, la matrice de covariance du bruit dans Y est donnée par :

E{wwT } = Σ−1 E{vvT }Σ−1 (3.134)

où E{vvT } représente la matrice de covariance du bruit dans les données de X. D’après
l’équation précédente, nous remarquons que le bruit dans Y dépend fortement de celui
dans X. Néanmoins, la matrice de covariance exprimée par une telle équation est généra-
lement non diagonale ce qui implique que le bruit w est coloré.
D’après la démonstration que nous avons établie dans l’annexe D, le critère VNRVI
garantit son minimum en κ = (m − q) CPs si :
T
dm−q+1 ζiT G̃q G̃q ζi
≤ T
pour κ ≥ m − q (3.135)
dm ζiT G̃ G̃ ζi
et
T
!
ζiT G̃ G̃ ζi
dm−q ≥ 1+ T
dm−q+1 pour κ < m − q (3.136)
ζiT G̃q G̃q ζi
où G̃ ∈ Rm×(m−κ) et G̃q ∈ Rm×q sont deux matrices constituées respectivement par les
(m − κ) et les q derniers vecteurs propres de la matrice G. Notamment, nous pouvons
réécrire les deux inégalités précédentes en fonction des valeurs propres de la matrice Σ.
Selon l’équation (3.121), elles se transforment respectivement comme suit :
T
λ1 ζiT G̃q G̃q ζi
≤ T
pour κ ≥ m − q (3.137)
λq ζiT G̃ G̃ ζi
et
T
!
ζiT G̃ G̃ ζi
λq ≥ 1+ T
λq+1 pour κ < m − q (3.138)
ζiT G̃q G̃q ζi
L’interprétation de l’inégalité (3.138) impose que la variance d’un signal quelconque
doit être plus grande que celle du bruit, ce qui représente une condition très ordinaire.
Cependant, la contrainte exprimée dans (3.137) signifie que les valeurs propres les plus
significatives (λ1 , · · · , λq ) doivent avoir des valeurs très proches les unes des autres. Toute-
fois, la présence des variables indépendantes et/ou quasi-indépendantes peut alléger une
telle contrainte en garantissant un minimum du critère VNRVI en (m − q) CPs pour
κ ≥ m − q. Cette déduction est affirmée grâce à la démonstration de l’annexe A qui
est également valable pour ce nouveau critère. Une telle démonstration prouve que ces
variables sont toujours considérées comme des CPs résiduelles. Effectivement, l’intérêt
de notre approche par la proposition de la matrice Y est d’avoir contrairement au cas
classique, un sous-espace résiduel inversé dont les premières CPs que constituant un tel
sous-espace représentent ce type de variables suivies par les CPs les plus significatives
dans X. Cette particularité du critère VNRVI peut garantir une sélection optimale des
CPs tout en considérant les variables indépendantes et quasi-indépendantes.

88
3.5. Résultats de simulation

3.5 Résultats de simulation


Afin d’illustrer les résultats obtenus par les critères proposés, nous avons considéré
le même exemple du deuxième chapitre. Nous rappelons qu’un tel exemple représente
quatre ensembles de variables A, B, C et D dont chacun a été généré selon trois cas
différents d’un bruit i.i.d. En s’appuyant sur l’analyse et les interprétations menées dans
le chapitre précédent, nous avons conclu que ces ensembles de variables sont constitués
respectivement de 5, 6, 7 et 8 CPs malgré le changement considérable de la variance du
bruit.
Notamment, les critères proposés dans ce chapitre se basent sur des minimisations
par rapport au nombre de CPs pour la détermination du modèle optimal. Exceptionnel-
lement, les critères VNRϕ et VNRΨ dépendent également d’un seuil de signification α.
Puisqu’on dispose d’une connaissance a priori sur les nombres optimaux des CPs consti-
tuant chaque ensemble des données, nous avons réalisé une étude de performance plus
particulièrement pour ces deux critères par rapport à 100 réalisations en variant le niveau
de confiance (1 − α) dans l’intervalle [1, 99]% avec un pas de 1%. Les figures 3.1, 3.2 et
3.3 affichent les pourcentages de sélections correctes des nombres appropriés des CPs dans
les bases des données étudiées respectivement pour les trois différents cas de bruit i.i.d.
Nous remarquons que le critère VNRϕ sélectionne dans plus de 80% des réalisations les
nombres désirés des CPs avec des valeurs de niveau de confiance généralement proches de
20%. En revanche, il montre parfois une allure fluctuante surtout lors d’un bruit de faibles
variances. En comparant les courbes des deux critères, nous observons clairement que ce-
lui du VNRΨ est beaucoup plus performant. Sa minimisation par rapport à ` converge
vers les nombres corrects des CPs en considérant des valeurs habituelles pour le seuil
de signification α. Il montre ainsi une amélioration prometteuse par rapport au critère
VNRϕ .
En considérant des seuil de signification α égaux à 80% pour VNRϕ et 2% pour
VNRΨ , les figures 3.4 et 3.5 illustrent les allures en ` de ces deux critères appliqués
sur les ensembles (A, B) et (C, D) respectivement pour un bruit i.i.d. de faible variance
(σ 2 = 0.002). Ces deux critères peuvent déterminer une dimension optimale d’un modèle
ACP sous la contrainte d’un choix très approprié des valeurs de leurs seuils de signification.
Face à la difficulté d’une telle tâche, le troisième nouveau critère VNRVI montre une
efficacité très avantageuse en évitant les problèmes des quantiles par la considération d’un
autre principe totalement différent. Selon les dernières courbes illustrées dans les premières
et deuxièmes colonnes des figures 3.4 et 3.5, les minima d’un tel critère correspondent à
κop = 7 CPs dans toutes les bases des données transformées qui sont associées à celles de
A, B, C et D. Ainsi, les nombres des variables m dans ces ensembles sont respectivement
12, 13, 14 et 15. En se basant sur l’équation (3.129), nous pouvons déduire que les nombres
optimaux des CPs dans les ensembles A, B, C et D sont respectivement 5, 6, 7 et 8 CPs.
Puisque le bruit de mesures est représenté par des variables aléatoires, une simple
réalisation ne peut pas valider ces résultats. De la même manière qu’au chapitre précédent,
nous avons calculé un pourcentage par rapport à 1500 réalisations des nombres de CPs
retenues à l’aide du critère VNRVI en se référant à l’équation (3.129). En considérant
un nombre d’observations N = 1500 dans les trois différents cas de bruit i.i.d., le tableau
3.2 prouve qu’un tel critère a déterminé dans 100% des réalisations les nombres désirés

89
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

     

100 100

80 80

 60  60

40 40
      
    
    "!     %
   & "!
20    20   
  $#  $"!   #  &"!
0 0
20 40  60 80 100 20 40  60 80 100

   () )

100 100

80 80

 60  60

40 40
     
       ' "!        * "!
20    20   
   #  '"!    #  *"!
0 0
20 40  60 80 100 20 40  60 80 100

Figure 3.1 – Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et


VNRΨ sur tous les ensembles des variables avec un bruit i.i.d. de variance σ 2 = 0.002
     

100 100

80 80
   
 60     
    "!  60
  
  $#  $"!
40 40
  
    %
   & "!
20 20   
  #  &"!
0 0
20 40  60 80 100 20 40  60 80 100

   () )

100 100

80 80

 60  60

40 40
     
       ' "!        * "!
20    20   
   #  '"!    #  *"!
0 0
20 40  60 80 100 20 40  60 80 100

Figure 3.2 – Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et


VNRΨ sur tous les ensembles des variables avec un bruit i.i.d. de variance σ 2 = 0.2

90
3.5. Résultats de simulation

     

100 100

80 80

 60  60

40 40
     
    
    !     
   # !
20    20   
  "  !   "  #!
0 0
20 40  60 80 100 20 40  60 80 100

   %& &'

100 100

80 80

 60  60

40 40
     
       $ !        ( !
20    20   
   "  $!    "  (!
0 0
20 40  60 80 100 20 40  60 80 100

Figure 3.3 – Pourcentages de sélections correctes en fonction de (1 − α) par VNRϕ et


VNRΨ sur tous les ensembles des variables avec un bruit i.i.d. de variance σ 2 = 0.5
      9& &# 9< =  
#"$&% ')( *,+-% .0/214356 77 "$&%#')( *>+-% ./)14356 77
2 2
10 10

0 1
10 10

2 4  6! 8 10 12 2 4  68! 10 12

2
10
"$&%#')( *)89% ./21  6 77 3 "$%#')( *)89% ./21  6 77
10

2
10

0
10
2 4  6! 8 10 12 2 4  6  8! 10 12

0
10
"$&%#')( *');% : 77 "$%#')( *');% : 77

: ! : !
2 4 6 8 10 12 2 4 6 8 10 12

Figure 3.4 – Allures des nouveaux critères appliquées sur les ensembles A et B, respec-
tivement en 1ère et 2ème colonne, en considérant un bruit i.i.d. de variance σ 2 = 0.002

91
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

      ' '$ =$'$


2 $#%'& (*) +-,.& /10325467 88 #%'&$(*) +>,.& /0*25467 88
10 10
2

1
10 1
10

2 4  6 !8!" 10 12 14 2 4 6 8!!" 10 12 14

#%'&$(*) +*9& /032 :7 88 #%&$(*) +*9& /032 :7 88
3
10
3
10

2
10
2
10

2 4  6   !8!" 10 12 14 2 4 6   8 !!" 10 12 14

#%'&$(*) +(*<& ; 88 #%&$(*) +(*<& ; 88

2 4
; 6 !8 !" 10 12 14 2 4 6
; 8!!"10
 12 14

Figure 3.5 – Allures des nouveaux critères appliquées sur les ensembles C et D, respec-
tivement en 1ère et 2ème colonne, en considérant un bruit i.i.d. de variance σ 2 = 0.002

Ensemble A Ensemble B Ensemble C Ensemble D

Critère : VNRVI VNRVI VNRVI VNRVI

Bruit i.i.d. : σ 2 = 0.002


5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Bruit i.i.d. : σ 2 = 0.2
5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100
Bruit i.i.d. : σ 2 = 0.5
5 CPs (%) 100
6 CPs (%) 100
7 CPs (%) 100
8 CPs (%) 100

Table 3.2 – Pourcentage, par rapport à 1500 réalisations, des nombres de CPs sélec-
tionnées dans les ensembles des données en se basant sur le critère VNRVI (N = 1500
observations générées selon trois différents cas de bruit i.i.d.)

92
3.6. Conclusion

des CPs. Son efficacité présente un avantage prometteur par rapport aux efficacités des
autres critères de sélection présentés dans cette thèse.
Avec le critère VNRVI, l’optimalité de sélection est assurée par un nombre d’observa-
tions N assez inférieur à celui exigé pour le critère MDL présenté au deuxième chapitre.
En comparant les résultats des tableaux 3.2 et 2.7, nous distinguons clairement la dif-
férence au niveau du nombre d’observations considérées. Dans ce contexte, le paramètre
N est exprimé implicitement dans l’expression du VNRVI car il influe sur les valeurs
et vecteurs propres considérés. Ainsi, cette influence sera négligeable voire nulle pour un
nombre N suffisant et fini dans le sens où la matrice de covariance des données demeure
constante.

3.6 Conclusion
Ce chapitre présente nos contributions dans le thème d’une modélisation optimale par
ACP en utilisant le principe de la variance non reconstruite. Face à l’abondance des critères
de sélection disponibles dans la littérature et qui ont montré effectivement une divergence
remarquable dans les résultats obtenus, nous avons motivé théoriquement l’importance
de la précision dans le choix d’une structure adaptée du modèle ACP. Dans la mesure où
celui-ci n’est pas optimal, une conséquence évidente est prouvée sur la détectabilité de
défauts et qui aura sans doute un effet également sur l’isolabilité de défauts.
En partant du principe de la variance de l’erreur de reconstruction, nous avons établi
une expression généralisée pour une telle variance valable pour tout un indice de détection
ayant une forme quadratique. Dans ce cadre, nous avons présenté les indices de détection
proposés dans la littérature. Ainsi, nous avons établi pour chacun de ces indices sa variance
non reconstruite en s’appuyant sur celle généralisée.
Cela nous a permis de conclure suite à une étude théorique des différentes variances
obtenues que la plupart, exceptant quelques-unes, sont inutiles pour le choix du modèle.
Plus particulièrement, nous avons montré que la variance relative à l’indice SP E n’est
autre que celle exprimée par le critère VNR étudié dans le deuxième chapitre. Ainsi, notre
contribution dans ce cadre est introduite par la variance non reconstruite (VNRϕ ) associée
à l’indice combiné. Celle-ci dépend du nombre des CPs considérées dans le modèle ainsi
qu’un seuil de signification qui caractérise les limites de contrôle des indices de détection.
Malheureusement, l’étude de ce critère n’a pas aboutit à une consistance théorique de
son comportement. En effet, seule l’expérience prouve qu’il est capable de déterminer la
dimension du modèle en se référant à un choix très approprié du seuil de signification
considéré. Dans ce contexte, nous avons proposé un deuxième nouveau critère (VNRΨ )
basé sur une nouvelle distance combinée. L’objectif étant de faciliter la tâche du choix de
la valeur d’un tel seuil. Le nouveau critère montre des résultats plus efficaces et mieux
stationnaires que ceux du VNRϕ . Toutefois, ils restent dans leurs globalités incertains
aussi faut-il disposer d’une connaissance a priori ou d’une expertise pour prendre la
décision convenable. En effet, nous avons considéré que ces critères sont empiriques car
ils s’appuient uniquement sur l’expérience.
La limitation qui a été prouvée théoriquement dans le chapitre précédent pour le cri-
tère VNR, a été un avantage d’une nouvelle proposition. Cette dernière est inspirée du

93
Chapitre 3. Contribution au choix d’un modèle optimal par la variance non reconstruite

principe des problèmes inverses en proposant un changement de représentation des don-


nées. Nous avons supposé que les données normalisées de X observées réellement peuvent
être en réalité des dérives linéaires d’autres données de Y. Une ACP utilisant les nouvelles
données de Y engendre les mêmes CPs que celles de X mais de variances inversées. Pour
cela, la nouvelle approche est appelée ACPVI. En s’appuyant sur le principe de la variance
de l’erreur de reconstruction, nous avons proposé un nouveau critère VNRVI. En effet,
la détermination du nombre optimal des CPs dans Y en utilisant ce critère sert à déduire
celui de X en considérant évidemment les variables indépendantes et quasi-indépendantes.
En outre, nous avons établi théoriquement les conditions garantissant l’optimalité de sé-
lection par un tel critère. Les résultats de simulation ont validé notre théorie en prouvant
que le critère VNRVI apporte un avantage et une efficacité considérables par rapport à
tous les critères présentés dans le deuxième chapitre pour le choix de la structure adaptée
du modèle ACP.

94
4
Théorie d’un diagnostic de défauts par ACP

Sommaire
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.2 Isolation et isolabilité de défauts par reconstruction . . . . . 98
4.2.1 Généralisation de l’isolation et l’isolabilité de défauts . . . . . . 98
4.2.1.1 Isolation de défauts . . . . . . . . . . . . . . . . . . . 98
4.2.1.2 Isolabilité de défauts . . . . . . . . . . . . . . . . . . . 101
Isolabilité par reconstruction de l’indice SPE . . . . . . 102
Isolabilité par reconstruction de l’indice SWE . . . . . . 103
Isolabilité par reconstruction de l’indice T2 de Hotelling 103
Isolabilité par reconstruction de l’indice de Mahalanobis 104
Isolabilité par reconstruction de l’indice combiné . . . . 105
4.2.2 Analyse d’isolabilité par reconstruction de l’indice combiné ver-
sus celles de SPE et T2 de Hotelling . . . . . . . . . . . . . . . 105
4.3 Diagnostic de défauts simples par les contributions . . . . . . 107
4.3.1 Contributions par décomposition complète : CDC . . . . . . . 109
4.3.2 Contributions par décomposition partielle : PDC . . . . . . . . 109
4.3.2.1 PDC à l’indice T2 de Hotelling . . . . . . . . . . . . 109
4.3.2.2 PDC à l’indice SPE basée sur les résidus . . . . . . . 110
4.3.2.3 PDC à l’indice SPE basée sur les CPs résiduelles . . 111
4.3.2.4 PDC à un indice quadratique . . . . . . . . . . . . . 111
4.3.3 Contributions diagonales : DC . . . . . . . . . . . . . . . . . . 112
4.3.4 Contributions par reconstruction : RBC . . . . . . . . . . . . . 112
4.3.5 Contributions par angle : ABC . . . . . . . . . . . . . . . . . . 113
4.3.6 Analyse de diagnosticabilité . . . . . . . . . . . . . . . . . . . . 113
4.3.6.1 Diagnosticabilité de défauts par l’approche CDC . . . 114
4.3.6.2 Diagnosticabilité de défauts par l’approche PDC . . . 114
4.3.6.3 Diagnosticabilité de défauts par l’approche DC . . . . 114
4.3.6.4 Diagnosticabilité de défauts par l’approche RBC . . . 115

95
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

4.4 Nouvelles approches pour un diagnostic de défauts multiples 115


4.4.1 Contributions par reconstruction multidimensionnelle . . . . . 116
4.4.2 RBC ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.5 Exemple de synthèse . . . . . . . . . . . . . . . . . . . . . . . . 119
4.5.1 Diagnostic d’un défaut simple . . . . . . . . . . . . . . . . . . . 122
4.5.2 Diagnostic de défauts multiples . . . . . . . . . . . . . . . . . . 123
4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

96
4.1. Introduction

4.1 Introduction
La détection et le diagnostic de défauts sur les processus forment une démarche essen-
tielle afin de leur assurer un fonctionnement sûr et efficace. Selon Kariwala et al. (2010)
et Kourti (2005), une telle démarche peut se baser généralement sur des modèles quanti-
tatifs, des modèles qualitatifs ou l’historique de processus qui représente l’intérêt de cette
thèse. Dans ce contexte, le contrôle statistique de processus a reçu une attention ainsi
qu’un succès considérables aux niveaux des applications. Ce succès peut être attribué à la
disponibilité en permanence d’une grande quantité de données collectées lors du fonction-
nement normal de processus. Ainsi, ces données favorisent le développement des modèles
statistiques qui peuvent atteindre une grande précision dans la détection de toutes dévia-
tions par rapport à un fonctionnement normal. Dans ce cadre, l’ACP est une approche très
adaptée pour un contrôle statistique de processus. Ainsi, elle a été intensément explorée
dans le suivi et le diagnostic de plusieurs processus (Nomikos et MacGregor, 1995; Qin,
2003; Tharrault et al., 2008).
Dans la littérature, le thème du diagnostic de défauts a quand même reçu une attention
moins considérable que celui de la détection de défauts. L’approche la plus classique et en
même temps très populaire pour un diagnostic est basée sur l’analyse des contributions
(Nomikos et MacGregor, 1995; Yue et Qin, 2001; Qin, 2003; Alcala et Qin, 2009; Kariwala
et al., 2010; Alcala et Qin, 2011). Le principe des contributions s’appuie généralement
sur la quantification de la part de chaque variable dans le calcul d’un indice de détec-
tion donné. Dans ce cadre, nous avons proposé une nouvelle forme de contribution par
décomposition partielle de l’indice SP E (Mnassri et al., 2008b, 2009b). Une analyse de
diagnosticabilité de défauts basée sur les contributions montre que celles-ci garantissent un
diagnostic correct uniquement si les défauts sont simples (unidimensionnels) et de grandes
amplitudes. Dans le cas contraire, les approches des contributions peuvent généralement
considérer d’autres variables en défaut. Ainsi, il sera difficile d’isoler celles réellement en
défaut. En outre, les contributions ne permettent pas d’isolation des défauts multiples
où plusieurs variables sont simultanément en défaut en raison de la corrélation entre les
variables. Cette corrélation a été la clé d’un diagnostic mieux décisif basé sur l’approche
de reconstruction des indices de détection (Dunia et al., 1996; Dunia et Qin, 1998b,c,a;
Yue et Qin, 2001; Qin, 2003; Alcala et Qin, 2009, 2011). Le principe d’une telle méthode
s’est fondé sur l’élimination de l’influence de défauts sur l’indice de détection par une
reconstruction des variables à l’aide d’un modèle ACP.
Le succès de l’utilisation de l’ACP pour le diagnostic de défauts sur les processus en
utilisant l’approche de reconstruction a été enrichi par le développement d’un concept
fondamental qui représente l’isolabilité de défauts. On définit l’isolabilité comme étant la
capacité d’un diagnostic à retrouver les origines de défauts. Dans la littérature, un tel
concept a été négligemment étudié dans le cadre de l’ACP en le développant uniquement
pour une reconstruction de l’indice SP E (Dunia et Qin, 1998b,c,a; Qin, 2003). Ce cha-
pitre a pour objectif d’étendre et d’unifier un tel concept à tout indice de détection ayant
une forme quadratique. Ainsi, cette idée nous a permis la réalisation d’une analyse théo-
rique d’isolabilité de défauts par reconstruction de la distance combinée versus celles des
indice que combine en mettant en avant l’avantage que peut jouer une telle distance dans
l’isolation de défauts plus complexes (Mnassri et al., 2012a).

97
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

La contribution par reconstruction (reconstruction based contribution : RBC) a été


récemment proposée pour diagnostiquer les défauts simples ayant de grandes amplitudes
(Alcala et Qin, 2009, 2011). On note qu’une telle approche fait partie des méthodes des
contributions. Mnassri et al. (2012b) ont étendu cette approche afin d’assurer un diag-
nostic de défauts multiples. Pour cela, nous proposons dans ce chapitre une analyse de
diagnosticabilité montrant que la nouvelle contribution multidimensionnelle garantit un
diagnostic correct de défauts multiples de grandes amplitudes. Afin de ne pas se limiter
uniquement à ce type de défauts, l’objectif de ce chapitre représente également la propo-
sition d’une nouvelle méthode basée sur celle de RBC pour garantir une identification et
isolation de défauts détectables plus complexes. Généralement, l’isolation de ce type de
défauts s’appuie sur des seuils de validation. Pour cela, nous avons proposé une approche
dite RBC ratio (RBCr) (Mnassri et al., 2012b). Une diagnosticabilité de défauts basée
sur cette nouvelle méthode prouve une garantie d’un diagnostic correct sous la contrainte
que les amplitudes de tels défauts satisfont une condition suffisante d’isolabilité.

4.2 Isolation et isolabilité de défauts par reconstruc-


tion
En suivant une démarche semblable à celle de la détectabilité de défauts évoquée dans
la section 3.2 du troisième chapitre, nous pouvons ainsi généraliser l’étude d’isolation et
isolabilité de défauts par reconstruction d’un indice de détection quelconque ayant une
forme quadratique.

4.2.1 Généralisation de l’isolation et l’isolabilité de défauts


En s’appuyant sur l’approche de reconstruction, nous notons que les défauts simples
(unidimensionnels) représentent un cas particulier. Pour cela, nous envisageons une étude
plus généralisée en considérant des défauts multiples (multidimensionnels). Nous avons
supposé à partir de l’équation (2.59) qu’un J ème ensemble composé de r variables est
théoriquement affecté par un défaut réel noté FJ . Dans la pratique, un tel défaut est
inconnu ce qui a suscité une démarche pour son isolation.

4.2.1.1 Isolation de défauts


Afin d’identifier et isoler le défaut réel FJ qui est par hypothèse inconnu, le principe de
l’approche de reconstruction présume un défaut supposé ou assumé FI affectant un Ième
ensemble composé de r variables supposées en défaut. Ainsi, des reconstructions d’état
en se basant les indices de détection et un modèle ACP peuvent conduire à l’isolation du
défaut réel FJ . Nous rappelons que la reconstruction consiste à estimer un vecteur xI de
données reconstruites censées être insensibles au défaut assumé FI :

xI (k) = x(k) − ΞI f(k)


= x(k) − ΞI f̂I (k) (4.1)

98
4.2. Isolation et isolabilité de défauts par reconstruction

où f̂I (k) est une estimation optimale de f(k) qui représente le vecteur d’amplitudes des
composants du défaut dans les directions des variables constituant le Ième ensemble. Une
telle estimation est obtenue par une minimisation d’un indice de détection γI insensible
à un tel défaut :
f̂I (k) = arg min {γI (k)} (4.2)
f(k)

où
1
γI (k) = k M 2 xI (k)k2 (4.3)
On peut déduire que l’estimé du vecteur d’amplitudes du défaut supposé ainsi que
le vecteur de données reconstruites projeté dans le sous-espace engendré par les vecteurs
colonnes de la matrice M de γ sont respectivement donnés par :
f̂I (k) = (ΞTI M ΞI )−1 ΞTI M x(k) (4.4)

1 1 1 1
M 2 xI (k) = (Im − M 2 ΞI (ΞTI M ΞI )−1 ΞTI M 2 ) M 2 x(k) (4.5)
1
Le Ième ensemble de variables n’est reconstructible que si la matrice M ΞI est de2

plein rang colonne. Cela implique que les variables constituant un tel ensemble ne doivent
pas être colinéaires.
Dans le but d’une simplification d’écritures, une décomposition en valeurs singulières
1
de la matrice M 2 ΞI mene au résultat suivant :
1
M 2 ΞI = ΞoI DI VTI (4.6)
où ΞoI ∈ Rm×r et VI ∈ Rr×r sont deux matrices orthonormées. DI ∈ Rr×r est une matrice
1
diagonale contenant les r valeurs propres de la matrice M 2 ΞI . Ainsi, l’équation (4.5)
peut être réécrite comme suit :
1 1
M 2 xI (k) = (Im − ΞoI ΞoT
I ) M x(k)
2 (4.7)
On note que (Im − ΞoI ΞoT I ) est une matrice idempotente. Par conséquent, l’indice de
détection insensible au défaut supposé peut être exprimé comme suit :
1
γI (k) = k(Im − ΞoI ΞoT
I ) M x(k)k
2
2
1 1
= xT (k) M 2 (Im − ΞoI ΞoT
I ) M x(k)
2 (4.8)
Puisque le numéro I correspond à un ensemble composé de r variables supposées en
défaut, il représente alors un numéro combinatoire de scénarii de défauts à considérer :
m!
I = {1, · · · , } (4.9)
r!(m − r)!
où ! représente l’opérateur factoriel. Dans le cas de défauts simples, I = i = {1, · · · , m}.
En considérant le vecteur d’observation de l’équation (2.59) qui est composé du défaut
réel FJ , l’indice de détection insensible au défaut supposé FI pourra être exprimé en
fonction de celui réel comme suit :
1 1

γI (k) = k(Im − ΞoI ΞoT o oT
I ) M x (k) + (Im − ΞI ΞI )ΞJ M f(k)k
2 2
2
(4.10)
A partir de cette expression, deux déductions sont envisageables :

99
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

i. Si la direction de reconstruction ΞI est celle du défaut réel, i.e. I = J , on peut


montrer que :
1

γI=J (k) = k(Im − ΞoI=J ΞoT 2 2
I=J ) M x (k)k ≤ ΓI=J
2 (4.11)

où Γ2I=J est un seuil de contrôle défini de la même manière que celui exprimé dans
l’équation (4.13).
L’expression de l’indice γI=J implique que l’influence du défaut réel est complète-
ment annulée. Egalement, les valeurs d’un tel indice reconstruit sont inférieures au
seuil de détection Γ2 donné par l’équation (3.2).
ii. Si la direction de reconstruction ΞI est différente de celle du défaut réel ΞJ alors
l’indice reconstruit est probablement supérieur à un seuil de contrôle approprié.
Autrement dit, le principe de reconstruction assure qu’un défaut assumé FI ne peut
pas être identifié comme un candidat si :
1
γI (k) = k(Im − ΞoI ΞoT 2 2
I ) M x(k)k > ΓI
2 (4.12)

Γ2I représente une limite de contrôle pour l’indice reconstruit γI . Puisque ce dernier
est caractérisé par une forme quadratique, l’expression appropriée d’un tel seuil peut être
déterminée en s’appuyant sur les travaux de Box (1954) :

Γ2I = gγI χ2(hγ ,α) (4.13)


I

avec
1 1
tr[(Σ M 2 (Im − ΞoI ΞoT 2 2
I )M ) ]
gγI = 1 1 (4.14)
tr[Σ M 2 (Im − ΞoI ΞoT
I )M ]
2

et
1 1
(tr[Σ M 2 (Im − ΞoI ΞoT
I ) M ])
2 2
hγI = 1 1 (4.15)
tr[(Σ M 2 (Im − ΞoI ΞoT 2 2
I )M ) ]

Ainsi, tout défaut supposé ne vérifiant pas l’inégalité (4.12) est identifié avec celui
du défaut réel. Par conséquent, on peut soupçonner des variables outre celles réellement
en défaut. Selon l’indice γ avec lequel la reconstruction est réalisée, les ensembles Îγ de
variables considérées en défaut sont déterminés en obéissant à l’argument suivant :

Îγ = arg γI (k) ≤ Γ2I



(4.16)
I∈I

où I représente l’ensemble des combinaisons des directions de reconstructions possibles.


L’isolation du défaut réel consiste dans la réduction de l’ensemble Îγ en le rendant
composé uniquement de l’ensemble des variables réellement en défaut. Pour cela, plu-
sieurs facteurs entrent en vigueur tels que l’amplitude du défaut lui-même, l’ampleur de
la corrélation entre les variables ainsi que l’indice de détection considéré. Par conséquent,
l’élaboration d’un concept de performance qui représente l’isolabilité de défauts semblerait
cruciale.

100
4.2. Isolation et isolabilité de défauts par reconstruction

4.2.1.2 Isolabilité de défauts


Dans le cadre de l’isolabilité, l’amplitude du défaut réel FJ doit être suffisamment
importante afin de garantir que les valeurs de γI soient supérieures à Γ2I . Cette contrainte
peut nous mener à la détermination d’une condition suffisante d’isolabilité de défauts.
Puisque le défaut réel étant FJ , on peut alors en se référant aux équations (4.7) et
(3.5) déduire ce qui suit :
1 1 1

M 2 xI (k) = (Im − ΞoI ΞoT
I )(M x (k) + M ΞJ f(k))
2 2

1 1

= (Im − ΞoI ΞoT 2
o oT
I ) M x (k) + (Im − ΞI ΞI ) M ΞJ f(k)
2 (4.17)

Celle-ci peut nous permettre d’écrire


1 1 1

k M 2 xI (k)k ≥ k(Im − ΞoI ΞoT 2
o oT
I ) M ΞJ f(k)k − k(Im − ΞI ΞI ) M x (k)k
2 (4.18)

Puisque (Im −ΞoI ΞoT I ) est une matrice idempotente, on peut donc montrer en se basant
sur l’équation (3.7) que :
1 1
∗ ∗
k(Im − ΞoI ΞoT 2
o oT
I ) M x (k)k ≤ k(Im − ΞI ΞI )k × k M x (k)k ≤ Γ
2 (4.19)

Ainsi, la substitution de (4.19) dans (4.18) en considérant la positivité de la norme


euclidienne mène à l’inégalité suivante :
1 1
k M 2 xI (k)k ≥ k(Im − ΞoI ΞoT
I ) M ΞJ f(k)k − Γ ≥ 0
2 (4.20)

Afin que le défaut actuel FJ soit suffisamment isolable de celui assumé FI , la condition
nécessaire donnée par l’inégalité (4.12) doit être satisfaite. Par conséquent, l’inégalité
suivante doit être vérifiée :
1 1
k M 2 xI (k)k2 ≥ (k(Im − ΞoI ΞoT 2 2
I ) M ΞJ f(k)k − Γ) > ΓI
2 (4.21)

Ainsi, on déduit que l’amplitude du défaut réel doit satisfaire la condition suivante :
1
k(Im − ΞoI ΞoT
I ) M ΞJ f(k)k > Γ + ΓI
2 (4.22)

Néanmoins, le concept de l’isolabilité d’un défaut doit être établi une fois que le défaut
lui-même est garanti détectable. En considérant l’idempotence de la matrice (Im −ΞoI ΞoT I ),
on montre que :
1 1
k(Im − ΞoI ΞoT
I ) M ΞJ f(k)k ≤ k M ΞJ f(k)k
2 2 (4.23)
En se référant à l’inégalité (4.22), on peut déduire que :
1
k M 2 ΞJ f(k)k > Γ + ΓI (4.24)

D’après l’annexe E, nous montrons d’une manière générale que Γ ≥ ΓI . En s’appuyant


sur une telle relation ainsi que l’inégalité (3.10), la condition exprimée par (4.24) prouve
que le défaut FJ n’est pas garanti détectable. Cela signifie que la condition nécessaire

101
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

donnée par (4.12) est insuffisante pour garantir l’isolabilité d’un défaut. Pour cela, on doit
imposer l’hypothèse suivante :
γI (k) > Γ2 (4.25)
Celle-ci représente la nouvelle condition nécessaire qui doit être considérée plutôt que
celle de donnée par l’inégalité (4.12). Après reformulation du problème en considérant une
telle condition, le défaut réel FJ est garanti isolable de celui assumé FI par reconstruction
d’un indice quadratique γ quelconque si
1
k(Im − ΞoI ΞoT
I ) M ΞJ f(k)k > 2Γ
2 (4.26)
L’inégalité précédente représente la condition suffisante de l’isolabilité d’un défaut tout
en satisfaisant également sa détectabilité. Evidemment, elle représente une expression
unifiée vérifiant tout indice de détection ayant une forme quadratique (Mnassri et al.,
2012a).
En s’appuyant sur cette généralisation, nous pouvons aisément développer dans la
suite le concept d’isolation et isolabilité de défauts relatif à chacun des indices de détection
présentés dans le tableau 3.1.

Isolabilité par reconstruction de l’indice SPE En présence d’un défaut FJ détec-


table par l’indice SP E, i.e. SP E(k) > δ 2 , tout ensemble de variables I ∈ I est considéré
en défaut par reconstruction d’un tel indice si :
SP EI (k) = k(Im − Ξ̃oI Ξ̃oT 2 2 2
I )C̃x(k)k ≤ δI = gSP EI χ(hSP E ,α) (4.27)
I

où les paramètres gSP EI et hSP EI sont déterminés en utilisant respectivement les équations
1
(4.14) et (4.15) et en remplaçant les matrices M 2 et ΞoI respectivement par C̃ et Ξ̃oI .
Notamment, cette dernière est calculée en se basant sur l’équation (4.6), i.e.
T
C̃ΞI = Ξ̃oI D̃I ṼI (4.28)
Le développement des expressions correspondantes aux paramètres gSP EI et hSP EI ,
nous a permis de déduire que :
tr[Λ̃2 ] − 2 tr[P̃Λ̃2 P̃Ξ̃oI Ξ̃oT o oT 2
I ] + tr[(P̃Λ̃P̃Ξ̃I Ξ̃I ) ]
gSP EI = (4.29)
tr[Λ̃] − tr[P̃Λ̃P̃Ξ̃oI Ξ̃oT
I ]

et
(tr[Λ̃] − tr[P̃Λ̃P̃Ξ̃oI Ξ̃oT
I ])
2
hSP EI = (4.30)
tr[Λ̃2 ] − 2 tr[P̃Λ̃2 P̃Ξ̃oI Ξ̃oT o oT 2
I ] + tr[(P̃Λ̃P̃Ξ̃I Ξ̃I ) ]
Par déduction de l’inégalité (4.26), le défaut réel FJ est garanti isolable de celui
supposé FI par l’indice SP E si :
k(Im − Ξ̃oI Ξ̃oT
I )C̃ΞJ f(k)k > 2δ (4.31)
Nous rappelons qu’une telle condition d’isolabilité de défauts par reconstruction de
l’indice SP E est l’unique proposée dans la littérature par Dunia et Qin (1998b,c,a) et
Qin (2003). Dans ce cadre et grâce à l’équation (4.26), nous avons pu étendre une telle
étude au reste des indices (Mnassri et al., 2012a,b).

102
4.2. Isolation et isolabilité de défauts par reconstruction

Isolabilité par reconstruction de l’indice SWE Lorsque l’indice SW E détecte la


présence du défaut FJ qui est supposé inconnu, i.e. SW E(k) > 2 , des reconstructions
successives d’un tel indice peuvent conduire à l’isolation du défaut. En revanche, il consi-
dère tout ensemble de variables I ∈ I en défaut si :
˜ o Ξ̃
SW EI (k) = k(Im − Ξ̃ ˜ oT − 12 T
P̃ x(k)k2 ≤ 2I = gSW EI χ2(hSW E
I I )P̃Λ̃ ,α) (4.32)
I

Les coefficients gSW EI et hSW EI peuvent être calculés en se référant respectivement


1
aux équations (4.14) et (4.15) et en substituant les matrices M 2 et ΞoI respectivement par
1 T ˜ o . En se basant sur l’équation (4.6), la matrice Ξ̃
P̃Λ̃− 2 P̃ et Ξ̃ ˜ o est déterminée comme
I I
suit :
1 T
P̃Λ̃− 2 P̃ ΞI = Ξ̃ ˜ ˜T
˜ o D̃
I I ṼI (4.33)
Ainsi, on peut montrer que :
gSW EI = 1 (4.34)
et
hSW EI = m − ` − r (4.35)
où r représente le nombre des variables constituant l’ensemble I.
D’après l’inégalité (4.26), l’indice SW E garantit l’isolation du défaut réel FJ de celui
supposé FI si :
k(Im − Ξ̃˜ o Ξ̃
˜ oT − 12 T
I I )P̃Λ̃ P̃ ΞJ f(k)k > 2 (4.36)

Isolabilité par reconstruction de l’indice T2 de Hotelling Un défaut réel FJ


ayant une amplitude qui satisfait la condition donnée par l’inégalité (3.16) est nécessai-
rement détecté par l’indice T 2 de Hotelling. Si à la kème observation on a T 2(k) > τ 2 ,
alors tout ensemble de variables I ∈ I est considéré responsable d’une telle situation si :
−2 1 T
T 2I (k) = k(Im − Ξ̌oI Ξ̌oT
I )P̂Λ̂ P̂ x(k)k2 ≤ τI2 = gT 2I χ2(hT 2 ,α) (4.37)
I

De la même manière qu’aux autres indices, les coefficients gT 2I et hT 2I sont calculés en


se basant sur les équations (4.14) et (4.15) respectivement et en remplaçant les matrices
1 1 T
M 2 et ΞoI respectivement par P̂Λ̂− 2 P̂ et Ξ̌oI . Cette dernière est déterminée à partir de
l’équation (4.6) comme suit :
1 T T
P̂Λ̂− 2 P̂ ΞI = Ξ̌oI ĎI V̌I (4.38)

Une simplification dans les expressions des deux coefficients permet de montrer que :

gT 2I = 1 (4.39)

et
hT 2I = ` − r (4.40)
Par définition, l’équation précédente représente le nombre de degrés de liberté relatifs
à l’indice T 2 où r variables ont été reconstruites. Un tel nombre doit être positif ou nul,

103
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

ce qui implique que le nombre maximal des variables qui peuvent être reconstruites simul-
tanément en utilisant la statistique T 2 de Hotelling doit respecter l’inégalité suivante :

r≤` (4.41)

D’autre part, ` représente le nombre optimal des CPs constituant le modèle ACP. Un
tel nombre est généralement très inférieur au nombre des variables du processus. Cela
peut limiter l’utilisation d’un tel indice dans la procédure d’isolation de défauts plus
particulièrement lorsque le nombre de variables qui sont simultanément en défaut est plus
grand que `.
Selon l’inégalité (4.26), l’indice T 2 de Hotelling peut garantir l’isolation du défaut réel
FJ de celui supposé FI si :

−2 1 T
k(Im − Ξ̌oI Ξ̌oT
I )P̂Λ̂ P̂ ΞJ f(k)k > 2τ (4.42)

Isolabilité par reconstruction de l’indice de Mahalanobis En se basant sur l’in-


égalité (3.39), tout défaut réel FJ ayant une amplitude qui peut satisfaire une telle inéga-
lité est garanti détectable par l’indice D de Mahalanobis. Le moment où cette distance
détecte l’existence d’un défaut, i.e. D(k) > %2 , alors tout ensemble de variables I ∈ I est
considéré en défaut lorsque :
1
−2
DI (k) = k(Im − Ξ̆oI Ξ̆oT
I )Σ x(k)k2 ≤ %2I = gDI χ2(hD ,α) (4.43)
I

En s’appuyant sur l’équation (4.6), la matrice Ξ̆oI est calculée comme suit :

1 T
Σ− 2 ΞI = Ξ̆oI D̆I V̆I (4.44)

Les paramètres gDI et hDI sont déterminés en utilisant respectivement les équations
1 1
(4.14) et (4.15) et en remplaçant les matrices M 2 et ΞoI respectivement par Σ− 2 et Ξ̆oI .
Cela nous a permis de déduire que :

gDI = 1 (4.45)

et
hDI = m − r (4.46)

Selon l’équation précédente, nous remarquons que le seul indice de détection permet-
tant une reconstruction simultanée d’un maximum de nombre des variables (r ≤ m) est
celui de Mahalanobis. Etant donné que le défaut réel est FJ , celui-ci est garanti isolable
de celui assumé FI au travers un tel indice si :
1
−2
k(Im − Ξ̆oI Ξ̆oT
I )Σ ΞJ f(k)k > 2% (4.47)

104
4.2. Isolation et isolabilité de défauts par reconstruction

Isolabilité par reconstruction de l’indice combiné Outre que la reconstruction de


la distance de Mahalanobis, la reconstruction de l’indice combiné peut est être également
utilisée pour l’isolation des défauts en se basant sur l’ensemble de l’espace. Lorsque le
processus est détecté en fonctionnement anormal à la kème observation par la distance
combinée, i.e. ϕ(k) > β 2 , alors tout ensemble de variables I ∈ I vérifiant l’inégalité
suivante est identifié en défaut :
−1 −1 1 T
ϕI (k) = k(Im − Ξ̄oI Ξ̄oT
I )(δ C̃ + τ P̂Λ̂− 2 P̂ )x(k)k2 ≤ βI2 = gϕI χ2(hϕ ,α) (4.48)
I

Evidemment, la matrice orthonormée Ξ̄oI ∈ Rm×r est obtenue en vérifiant selon (4.6)
l’équation suivante :
1 T T
(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )ΞI = Ξ̄oI D̄I V̄I (4.49)
1
En substituant dans les équations (4.14) et (4.15) les matrices M 2 et ΞoI respective-
1 T
ment par (δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ ) et Ξ̄oI , on peut déterminer les expressions associées aux
paramètres gϕI et hϕI comme suit :

1 T 1 T
tr[(Σ(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )(Im − ΞoI ΞoT −1
I )(δ C̃ + τ
−1
P̂Λ̂− 2 P̂ ))2 ]
gϕI = T
(4.50)
tr[Σ(δ −2 C̃ + τ −2 P̂Λ̂−1 P̂ )(Im − ΞoI ΞoT
I )]

et
T
(tr[Σ(δ −2 C̃ + τ −2 P̂Λ̂−1 P̂ )(Im − ΞoI ΞoT
I )])
2
hϕI = 1 T 1 T
(4.51)
tr[(Σ(δ −1 C̃ + τ −1 P̂Λ̂− 2 P̂ )(Im − ΞoI ΞoT −1
I )(δ C̃ + τ
−1 P̂Λ̂− 2 P̂ ))2 ]

D’après la condition généralisée d’isolabilité exprimée dans l’inégalité (4.26), un défaut


réel FJ est garanti isolable de celui supposé FI par reconstruction de l’indice combiné
lorsque :
−1 −1 1 T
k(Im − Ξ̄oI Ξ̄oT
I )(δ C̃ + τ P̂Λ̂− 2 P̂ )ΞJ f(k)k > 2β (4.52)

4.2.2 Analyse d’isolabilité par reconstruction de l’indice com-


biné versus celles de SPE et T2 de Hotelling
L’avantage majeur le plus communément connu par l’utilisation de l’indice combiné
se résume dans la surveillance de processus à travers un seul indicateur en considérant le
sous-espace principal ainsi que celui résiduel. Néanmoins, nous ignorons encore d’autres
avantages que peut présenter une telle distance. Evidemment, cette dernière combine l’in-
dice SP E et celui du T 2 de Hotelling. L’intérêt d’une telle combinaison est négligemment
justifié théoriquement. Dans ce cadre, Mnassri et al. (2011b, 2012a) ont montré à travers
une analyse théorique que la reconstruction de l’indice combiné peut bénéficier d’un atout
plus avantageux dans la détection et l’isolation de défauts que les statistiques SP E et T 2.
Plus précisément, les travaux de Mnassri et al. (2011b) représentent une analyse de dé-
tectabilité de défauts par l’indice combiné versus celles des indices que combine. Puisque
l’isolabilité de défauts représente un concept plus généralisé que celui de la détectabilité,

105
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

nous limitons dans cette thèse à une analyse d’isolabilité par reconstruction de l’indice
combiné versus celles de SP E et T 2 de Hotelling.
A partir des inégalités (4.31), (4.42) et (4.52), on peut poser les vecteurs ũ(k), ǔ(k) et
ū(k) dont les normes conditionnent à la kème observation l’isolabilité du défaut réel FJ
de celui supposé FI par reconstruction des indices SP E, T 2 et ϕ respectivement :

ũ(k) = (Im − Ξ̃oI Ξ̃oT


I )C̃ΞJ f(k)
= (Im − Ξ̃oI Ξ̃oT
I )Ξ̃J f(k) (4.53)

−2 1 T
ǔ(k) = (Im − Ξ̌oI Ξ̌oT
I )P̂Λ̂ P̂ ΞJ f(k)
o oT
= (Im − Ξ̌I Ξ̌I )Ξ̌J f(k) (4.54)

−1 −1 1 T
ū(k) = (Im − Ξ̄oI Ξ̄oT
I )(δ C̃ + τ P̂Λ̂− 2 P̂ )ΞJ f(k)
= (Im − Ξ̄oI Ξ̄oT
I )Ξ̄J f(k) (4.55)

Dans ce cadre, Mnassri et al. (2012a) ont montré que :

ū(k) = δ −1 ũ(k) + τ −1 ǔ(k) + u(k) (4.56)

avec
u(k) = (δ −1 Ξ̃oI Ξ̃oT
I Ξ̃J + τ
−1 o oT
Ξ̌I Ξ̌I Ξ̌J − Ξ̄oI Ξ̄oT
I Ξ̄J )f(k) (4.57)
En montrant également qu’à tout instant k, les vecteurs ũ, ǔ et u sont orthogonaux
deux à deux :
ũ(k)⊥ǔ(k), ũ(k)⊥u(k) et ǔ(k)⊥u(k) (4.58)
D’après (4.58), (4.56) et (4.52), la garantie d’isolabilité du défaut réel FJ de celui
assumé FI par reconstruction de la distance combinée peut être réécrite de la manière
suivante :
kū(k)k2 = (δ −1 kũ(k)k)2 + (τ −1 kǔ(k)k)2 + ku(k)k2 > (2β)2 (4.59)
Puisque la norme euclidienne est positive ou nulle, le domaine de définition de l’inéga-
lité précédente représente la zone externe d’un quart de sphère de rayon 2β et caractérisée
par ses trois variables principales telles que δ −1 kũ(k)k, τ −1 kǔ(k)k et ku(k)k (voir figure
4.1). Ainsi, le vecteur ū(k) peut être exprimé dans une base orthonormée B d’un espace
vectoriel euclidien E3 de dimension 3 comme suit :
 −1 
δ kũ(k)k
ū(k) = τ −1 kǔ(k)k (4.60)
ku(k)k

Autrement dit, tout défaut réel FJ est garanti isolable de celui supposé FI par recons-
truction de l’indice combiné si le point correspondant ayant comme coordonnées celles du
vecteur (4.60) est situé en dehors du quart de la sphère (figure 4.1). En particulier, un
tel défaut n’est garanti isolable ni par l’indice SP E ni par la distance T 2 de Hotelling
si δ −1 kũ(k)k ≤ 2 et τ −1 kǔ(k)k ≤ 2 respectivement. Lorsqu’un tel point est situé dans la

106
4.3. Diagnostic de défauts simples par les contributions

Figure 4.1 – Sous-espace d’isolabilité de défauts par reconstruction de l’indice combiné


en fonction de ceux des indices SP E et T 2 de Hotelling

zone bleue en dessus du quart de la sphère de la figure 4.1, cela implique que le défaut
considéré est isolable uniquement par reconstruction de l’indice combiné. Par conséquent,
on peut déduire qu’il peut exister des défauts qui ne sont isolables ni par l’indice SP E ni
par celui de T 2 de Hotelling mais ils sont isolables par la distance combinée. Si β ≤ 1 et
le défaut est garanti isolable par reconstruction de l’indice SP E et/ou T 2, alors le même
défaut est également garanti isolable par reconstruction de l’indice combiné.
Bien qu’un tel indice combine les statistiques SP E et T 2 de Hotelling, on constate
théoriquement que son avantage en terme d’isolabilité de défauts par reconstruction ne
dépend pas de ceux des indices que combine. En outre, la distance combinée peut encore
être privilégiée dans ce cadre lorsque sa limite de contrôle β est faible.

4.3 Diagnostic de défauts simples par les contribu-


tions
Les approches les plus classiques et largement utilisées dans le cadre de l’ACP pour
un diagnostic de défauts se fondent sur le calcul des contributions (MacGregor et Kourti,
1995; Westerhuis et al., 2000a; Kourti, 2005; Conlin et al., 2000). Le principe de ces
méthodes consiste à calculer les contributions des différentes variables aux indicateurs
utilisés pour la détection de défauts. Ainsi, la variable ayant la plus grande contribution
est probablement en défaut. Bien entendu, les contributions sont dédiées au diagnostic de

107
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

Méthode Indice

SP E T2 ϕ γ

CDC Miller et al. (1998) Wise et al. (2006) Alcala et Qin (2011)

P DC Mnassri et al. (2008b, Nomikos et MacGregor Alcala et Qin (2011)


2009b) (1995)

DC Alcala et Qin (2011) Qin et al. (2001) Cherry et Qin (2006) Alcala et Qin (2011)

RBC Alcala et Qin (2009)

ABC Raich et Çinar (1996) et Yoon et MacGregor Alcala et Qin (2011)


(2001)

Table 4.1 – Différentes méthodes de contributions

défauts uniquement de type simple.


Dès leurs apparitions, les contributions n’ont pas cessé d’avoir une diversité dans leurs
expressions bien qu’elles n’aient eu ni définitions ni types uniques qui font l’unanimité.
Dans ce contexte, Alcala et Qin (2011) ont publié récemment un travail très intéressant
dans lequel ils ont distingué cinq principales familles de contributions. Les intérêts majeurs
d’un tel travail représentent le regroupement des contributions ainsi que l’appellation
des différents groupes ou familles distingués, la reformulation des expressions de telles
contributions sous une notation vectorielle simple ainsi que leur généralisation à tout
indice de détection ayant une forme quadratique.
Les différents groupes des contributions qui ont été distingués comprennent les contri-
butions par décomposition complète (complete decomposition contributions : CDC), les
contributions par décomposition partielle (partial decomposition contributions : P DC), les
contributions diagonales (diagonal contributions : DC), les contributions par reconstruc-
tion (reconstruction-based contributions : RBC) et les contributions par angle (angle-based
contributions : ABC).
Dans le but de généraliser les contributions à tout indice de détection ayant une forme
quadratique, Alcala et Qin (2011) se sont positionnés tout d’abord par rapport à ce qui
existe dans la littérature en mentionnant dans un tableau les auteurs ainsi que les indices
de détection sur lesquels se sont basées les différentes contributions existantes dans chaque
famille. Dans ce cadre, nous voudrions rectifier et compléter les informations contenues
dans un tel tableau en précisant que la contribution par décomposition partielle de l’indice
SP E et qui fait partie des contributions de type P DC a été initialement proposée et
appliquée à de différents exemples par Mnassri et al. (2008b,a). Puis, cette contribution
a été reformulée sous une autre forme par Mnassri et al. (2009b,a). Sous cette optique,
nous proposons à travers le tableau 4.1 un récapitulatif sur les différentes contributions
existantes dans la littérature, leurs auteurs ainsi que les indices de détection sur lesquels
ont été basées.
Avant d’entamer les descriptions théoriques de ces approches, nous précisons qu’elles
ont été proposées pour un diagnostic de défauts simples. Autrement dit, on doit supposer
qu’il ne peut y exister qu’une seule variable en défaut au kème instant. Notons par Fj un
défaut réel affectant la jème variable à un tel instant, ce qui permet d’écrire :

x(k) = x∗ (k) + ξj f (k) (4.61)

108
4.3. Diagnostic de défauts simples par les contributions

où ξj représente la jème colonne de la matrice identité indiquant la direction du défaut.


f (k) est un scalaire qui vaut l’amplitude du défaut à la kème observation.
De la même manière que pour l’approche de reconstruction, un tel défaut est réelle-
ment inconnu. Afin de le localiser en utilisant les approches des contributions, on calcule
la contribution de la ième variable tout en considérant que celle ayant la plus grande
contribution est probablement en défaut.

4.3.1 Contributions par décomposition complète : CDC


Un indice de détection donné peut être interprété comme une sommation des contribu-
tions de toutes les variables suite à une décomposition complète. Ce type des contributions
est largement utilisé dans l’industrie. Elles ont été initialement proposées par Miller et al.
(1998) en décomposant l’indice SP E ensuite par Wise et al. (2006) en décomposant la
distance T 2 de Hotelling. Récemment, Alcala et Qin (2011) ont généralisé ce type de dé-
composition à tout indice de détection ayant une forme quadratique en montrant d’après
(3.1) qu’un tel indice peut s’écrire comme suit :
m  m
2 X
1 1
X
γ(k) = k M x(k)k =
2
T 2
ξi M x(k) =
2 CDCiγ (k) (4.62)
i=1 i=1

où ξi représente la ième colonne de la matrice identité. Ainsi, la contribution de type


CDC de la ième variable à l’indice γ au kème instant est la suivante :
 1
2 1 1
CDCiγ (k) = ξiT M 2 x(k) = xT (k) M 2 ξi ξiT M 2 x(k) (4.63)

4.3.2 Contributions par décomposition partielle : PDC


La contribution par décomposition partielle décompose partiellement un indice de
détection. Cette notion de décomposition a été initialement proposée par Nomikos et
MacGregor (1995) pour l’indice T 2 de Hotelling.

4.3.2.1 PDC à l’indice T2 de Hotelling


En effet, la distance T 2 peut se décomposer de la façon suivante :
m `
!
TX X t (k)
T 2(k) = xT (k)P̂Λ̂−1 P̂ x(k) = a
pai xi (k) (4.64)
i=1 a=1
λ a

où ` est le nombre des CPs constituant le sous-espace principal. ta (k) représente la kème
mesure de la aème CP. λa est la aème valeur propre. pai désigne le ième élément du aème
vecteur propre. xi (k) représente la kème mesure de la ième variable.
1/2 2
(t /λ )
Posons ci a a comme étant la contribution de la ième variable dans le calcul du
carré de la aème CP normalisée :
(t /λa )2
1/2 ta (k)
ci a (k) = p x (k) (4.65)
λa ai i

109
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

On peut déduire que :


` `
X (t /λ )2
1/2 X ta (k)
P DCiT 2 (k) = ci a a (k) = p x (k) (4.66)
a=1 a=1
λa ai i
Puisque une telle contribution peut avoir des valeurs négatives, Nomikos et MacGregor
(1995) ont proposé d’annuler toutes les valeurs négatives données par (4.65) car leurs signes
sont opposés aux signes des carrés des CPs normalisées.
Dans ce cadre, nous avons constaté qu’il est possible de proposer selon deux façons
différentes une contribution de type P DC à l’indice SP E. Nous notons que leurs expres-
sions sans la négligence des valeurs négatives aboutissent à des résultats identiques. En
revanche, la différence se manifeste dans la manière d’éviter telles valeurs. En se basant
sur le fait que la statistique SP E peut être exprimée en fonction des résidus, la première
forme de contribution est calculée relativement à ces résidus (Mnassri et al., 2008b,a).
Également, on peut exprimer la même statistique en fonction des CPs résiduelles. Par
conséquent, la deuxième forme de cette contribution est déterminée en s’appuyant sur ces
CPs (Mnassri et al., 2009b,a).

4.3.2.2 PDC à l’indice SPE basée sur les résidus


En partant du principe que :
m
X m
X
SP E(k) = kC̃x(k)k = 2
x̃2i (k) = (xi (k) − x̂i (k))2 (4.67)
i=1 i=1
on remarque qu’une variable donnée contribue dans le calcul de son propre résidu ainsi
qu’aux résidus des autres (m − 1) variables. Ainsi, on peut montrer que la ième variable
contribue dans le carré de son propre résidu par :
x̃2
Ci i (k) = xi (k)x̃i (k)(1 − ĉii ) = xi (k)x̃i (k)c̃ii (4.68)
D’autre part, la même variable contribue dans le calcul du carré du résidu d’une autre
variable n 6= i par :
x̃2
ci n (k) = −xi (k)x̃n (k)ĉni = xi (k)x̃n (k)c̃ni (4.69)
D’après l’expression précédente, nous remarquons que :
x̃2 x̃2
Ci i (k) = ci n=i (k) (4.70)
Par conséquent, la ième variable contribue par décomposition partielle de l’indice SP E
en se basant sur les résidus par la quantité suivante :
m m m
x̃2 x̃2 x̃2
X X X
P DCiSP E (k) = Ci i (k) + ci n (k) = ci n (k) = xi (k)x̃n (k)c̃ni (4.71)
n=1 n=1 n=1
n6=i

où c̃ni représente le nème élément de la ième colonne de la matrice C̃. x̃n (k) est la nème
mesure du vecteur résiduel x̃(k).
Notamment, une telle contribution peut avoir des valeurs négatives. Pour cela, Mnassri
x̃2
et al. (2008b,a) ont décidé d’annuler toute valeur négative donnée par ci n (k) (4.69) afin
qu’elle ne soit pas opposée au signe du carré du résidu correspondant.

110
4.3. Diagnostic de défauts simples par les contributions

4.3.2.3 PDC à l’indice SPE basée sur les CPs résiduelles


En utilisant le même principe que celui utilisé par Nomikos et MacGregor (1995) pour
le calcul d’une contribution à l’indice T 2 de Hotelling, on note que la statistique SP E peut
être exprimée en fonction des CPs résiduelles. Ainsi, elle peut être décomposée comme
suit : !
Xm Xm
SP E(k) = kt̃(k)k2 = ta (k)pai xi (k) (4.72)
i=1 a=`+1

Dans ce cadre, Mnassri et al. (2009b,a) ont montré que la contribution de la ième
variable dans le calcul du carré de la aème CP résiduelle est donnée par :
t2
cia (k) = ta (k)pai xi (k) (4.73)

Par conséquent, la contribution de la ième variable par décomposition partielle de


l’indice SP E en se basant sur les CPs résiduelles est exprimée comme suit :
m m
t2
X X
P DCiSP E (k) = cia (k) = ta (k)pai xi (k) (4.74)
a=`+1 a=`+1

Afin qu’une telle contribution soit positive ou nulle, Mnassri et al. (2009b,a) ont pro-
posé d’annuler toute valeur négative donnée par l’expression (4.73) car elle est opposée
au signe du carré de la CP correspondante.

4.3.2.4 PDC à un indice quadratique


D’après l’équation (4.66), Alcala et Qin (2011) ont montré que la contribution à l’indice
T 2 de Hotelling peut s’écrire sous une forme vectorielle comme suit :
T
P DCiT 2 (k) = xT (k)P̂Λ̂−1 P̂ ξi ξiT x(k) (4.75)

On remarque qu’avec une telle écriture on ne peut pas appliquer le principe d’annula-
tion des contributions négatives par rapport à une CP normalisée.
Pour les deux formes de contributions proposées par décomposition partielle de l’indice
SP E en s’appuyant sur les résidus (4.71) ou sur les CPs résiduelles (4.74), nous avons
montré d’après l’annexe F qu’elles sont identiques. Toutefois, la différence dans leurs
résultats apparaı̂tra quand on annule les contributions négatives d’une variable donnée
relativement à un résidu ou à une CP résiduelle selon le principe de la technique utilisée.
Sans considération de ces annulations, nous avons montré que :

P DCiSP E (k) = xT (k)C̃ξi ξiT x(k) (4.76)

D’après les équations (4.75) et (4.76), on peut déduire que tout indice de détection γ
ayant une forme quadratique peut se décomposer partiellement comme suit :
m
X
γ(k) = xT (k) M ξi ξiT x(k) (4.77)
i=1

111
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

Ainsi, Alcala et Qin (2011) ont eu l’idée de déduire que la ième variable contribue par
décomposition partielle d’un indice quelconque ayant une forme quadratique par :

P DCiγ (k) = xT (k) M ξi ξiT x(k) (4.78)

On note que ce type des contributions peut donner des valeurs négatives.

4.3.3 Contributions diagonales : DC


La contribution diagonale par bloc a été initialement proposée par Qin et al. (2001)
en décomposant l’indice T 2 de Hotelling afin d’assurer une surveillance de processus par
multi-blocs. Evidemment, les blocs sont indépendants les uns des autres. Dans ce cadre,
Cherry et Qin (2006) ont étendu cette idée en utilisant la distance combinée.
Dans le cas particulier où chaque bloc est constitué d’une seule variable, l’indice T 2
de Hotelling correspondant est considéré comme une contribution diagonale qui peut être
définie de la manière suivante :
T
DCiT 2 (k) = xT (k)ξi ξiT P̂Λ̂−1 P̂ ξi ξiT x(k) (4.79)

Une telle contribution a été utilisée pour la surveillance d’un bloc donné qui est supposé
indépendant des autres blocs. Par conséquent, les contributions diagonales se réduisent
à une surveillance univariée. Dans le cas où un processus n’est pas décomposable en des
blocs, ces contributions ne sont pas recommandées pour une détection de défaut car elles
ignorent les corrélations entre les variables. Cependant, elles peuvent être utilisées comme
des techniques d’analyse des contributions pour un diagnostic de défauts.
D’après Alcala et Qin (2011), la contribution diagonale de la ième variable à un indice
γ ayant une forme quadratique peut se présenter comme suit :

DCiγ (k) = xT (k)ξi ξiT M ξi ξiT x(k) (4.80)

4.3.4 Contributions par reconstruction : RBC


Parmi les méthodes dédiées au diagnostic de défauts, Alcala et Qin (2009) ont récem-
ment proposé une approche de contributions par reconstruction. Elle est basée sur une
utilisation simultanée du principe de la contribution et celui de la reconstruction. Une
telle méthode est exceptionnellement proposée pour diagnostiquer les défauts simples.
Le principe de la contribution par reconstruction considère la quantité reconstruite
d’un indice de détection le long d’une direction d’une variable donnée comme étant la
contribution d’une telle variable. Dans le cas particulier où le défaut supposé FI est de
type simple ou unidimensionnel, i.e. I = i et ΞI = ξi , l’équation (4.8) correspond à l’indice
insensible à un tel défaut se réécrit de la façon suivante :
1 1
γi (k) = xT (k) M 2 (Im − ξio ξioT ) M 2 x(k)
1 1
= γ(k) − xT (k) M 2 ξio ξioT M 2 x(k)
1
= γ(k) − k M 2 ξ fˆ (k)k2
i i (4.81)

112
4.3. Diagnostic de défauts simples par les contributions

où fi est une estimation optimale de l’amplitude du défaut dans la direction de la ième
variable par reconstruction de l’indice γ. Le vecteur ξio est déterminé en utilisant le principe
de l’équation (4.6).
Selon Alcala et Qin (2009), la contribution de la ième variable par reconstruction de
l’indice γ représente le carré de la norme de l’amplitude estimée du défaut comme suit :
1
RBCiγ (k) = k M 2 ξi fˆi (k)k2
= xT (k) M ξi (ξiT M ξi )−1 ξiT M x(k)
xT (k) M ξi ξiT M x(k)
= (4.82)
ξiT M ξi

4.3.5 Contributions par angle : ABC


Dans le but d’extraire plus d’informations utiles sur les défauts, Raich et Çinar (1996)
et Yoon et MacGregor (2001) ont suggéré une contribution basée sur le calcul d’un angle
permettant ainsi un diagnostic plus facile. La contribution de la ième variable est liée à
l’angle entre le vecteur d’observation x(k) et le vecteur ξi qui représente la direction d’une
telle variable après qu’ils ont été projetés dans le sous-espace engendré par les vecteurs
1
colonnes de la matrice M 2 de l’indice de détection. Cette contribution n’est autre que le
carré du cosinus d’un tel angle comme suit :
  T 2
1 1
M
M 2 ξi 2 x(k)
xT (k) M ξi ξiT M x(k)
γ
ABCi (k) =   = T
 
1 1
k M 2 ξi k k M 2 x(k)k ξi M ξi xT (k) M x(k)

RBCiγ (k)
= (4.83)
γ(k)

On note que la contribution par reconstruction et celle par angle ne diffèrent que par
une constante prés qui est l’indice γ. Ce dernier est indépendant de la ième variable.
Par conséquent, les résultats d’un diagnostic de défauts basé sur ces deux approches
sont identiques. Dans le reste du chapitre, seule la contribution par reconstruction sera
considérée.

4.3.6 Analyse de diagnosticabilité


Afin d’analyser la diagnosticabilité de défauts en utilisant les méthodes des contribu-
tions, on peut considérer un type de défauts le plus simple et qui peut arriver souvent dans
un processus. Dans ce cas, l’utilisation de l’une de ces méthodes des contributions pour
un diagnostic de défauts de ce type doit nécessairement pointer vers la variable réellement
en défaut. Si la méthode désignée n’est pas en mesure d’accomplir cette tâche, alors il n’y
a aucune garantie qu’elle peut diagnostiquer correctement des défauts complexes.
En effet, les défauts les plus simples représentent souvent des biais. Puisque le défaut
réel affecte la jème variable (4.61), on peut supposer que son amplitude est très grande

113
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

par rapport aux mesures obtenues lors du fonctionnement normal. Ainsi, le vecteur d’ob-
servation en défaut se réécrit comme suit :

x(k) ≈ ξj f (k) (4.84)

4.3.6.1 Diagnosticabilité de défauts par l’approche CDC


La substitution de l’équation (4.84) dans celle de (4.63) mène aux résultats suivants :
( 1
(ξiT M 2 ξj )2 f 2 (k) pour i 6= j
CDCiγ (k) = 1 (4.85)
(ξjT M 2 ξj )2 f 2 (k) pour i = j

Ainsi, le diagnostic d’un tel défaut est garanti correct par l’utilisation de l’approche
CDC si :
1 1
(ξjT M 2 ξj )2 ≥ (ξiT M 2 ξj )2 (4.86)

Malheureusement, une telle inégalité n’est pas toujours vérifiée. Par conséquent, la
méthode CDC ne peut pas garantir un diagnostic correct de défauts.

4.3.6.2 Diagnosticabilité de défauts par l’approche PDC


En remplaçant l’équation (4.84) dans celle de (4.78), on peut montrer ce qui suit :

ξjT M ξi ξiT ξj f 2 (k) = 0 pour i 6= j



P DCiγ (k) = (4.87)
ξjT M ξj f 2 (k) ≥ 0 pour i = j

où ξjT M ξi ξiT ξj f 2 (k) = 0 car ξiT ξj = 0 ∀ i 6= j.


D’après les résultats de l’équation précédente, on remarque que les variables qui ne
sont pas réellement en défaut ne contribuent pas. Ainsi, seule la variable en défaut qui
contribue. Puisque ξjT M ξj ≥ 0, nous constatons également qu’une telle variable contribue
positivement. Par conséquent, l’approche P DC garantit un diagnostic correct de défauts
simples de grandes amplitudes.

4.3.6.3 Diagnosticabilité de défauts par l’approche DC


En s’appuyant sur le même principe utilisé avec les autres approches, la substitution
de l’expression de l’équation (4.84) dans celle de (4.80) nous permet de montrer que :

ξjT ξi ξiT M ξi ξiT ξj f 2 (k) = 0 pour i 6= j



DCiγ (k) = (4.88)
ξjT M ξj f 2 (k) ≥ 0 pour i = j

D’après cette équation, on constate que seule la variable réellement en défaut qui
contribue. Cela implique qu’une telle approche garantit un diagnostic correct de défauts
simples de grandes amplitudes.

114
4.4. Nouvelles approches pour un diagnostic de défauts multiples

4.3.6.4 Diagnosticabilité de défauts par l’approche RBC

La considération de l’équation (4.82) en tenant en compte de l’expression donnée par


l’équation (4.84) nous permet de déduire que :
 T 2
 (ξj M ξi ) 2
γ f (k) pour i 6= j
RBCi (k) = ξiT M ξi (4.89)
 T
ξj M ξj f 2 (k) pour i = j

Evidemment, un diagnostic de défauts par l’approche RBC est garanti correct si


γ
RBCi=j (k) ≥ RBCi6γ=j (k). Pour cela, on peut montrer que :

1 1
!2
(ξjT M ξi )2 (M 2 ξj )T (M 2 ξi )
= 1
ξiT M ξi k M 2 ξi k
1 1
!2
k M 2 ξj k k M 2 ξi k
≤ 1 = ξjT M ξj (4.90)
k M ξi k
2

Cette inégalité implique que les défauts simples d’importantes amplitudes sont garantis
correctement diagnosticables en utilisant la méthode RBC.
Pour un tel type de défauts, et selon les équations (4.87), (4.88) et (4.89), les contri-
butions qui correspondent à la variable réellement en défaut sont identiques en utilisant
les approches P DC, RBC et DC. En outre, les variables qui ne sont pas en défaut ne
contribuent pas en se basant plus particulièrement sur les deux méthodes P DC et DC.
Une telle propriété présente un avantage car la variable en défaut peut se distinguer plus
facilement des autres variables en utilisant ces deux approches plutôt que la RBC.

4.4 Nouvelles approches pour un diagnostic de dé-


fauts multiples
En analysant toutes les formes des contributions présentées dans ce chapitre, nous
constatons qu’elles ont été toutes exceptant celle de RBC déterminées par décomposi-
tion d’un indice de détection. Ainsi et pour chaque type de contribution, la somme des
contributions individuelles de toutes les variables doit reconstituer l’indice décomposé.
Néanmoins, les défauts peuvent être de type multiple. Par conséquent, l’utilisation de
ces approches des contributions pour un diagnostic de défauts multiples mène certaine-
ment à des résultats erronés. Ainsi, la solution envisageable est d’étendre ces contributions
aux cas multidimensionnels. Cependant, une décomposition multidimensionnelle d’un in-
dice de détection et qui doit également reconstituer la valeur d’un tel indice n’est pas
faisable. Puisque l’approche RBC n’est pas fondée sur le principe de décomposition, nous
nous sommes rendus compte qu’il est possible de l’étendre pour un diagnostic de défauts
multiples.

115
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

4.4.1 Contributions par reconstruction multidimensionnelle


Avant de commencer la présentation de la nouvelle approche multidimensionnelle, il
semblerait utile de montrer théoriquement l’invalidité d’un diagnostic basé sur la RBC
classique lors de la présence d’un défaut multiple. Pour cela, nous considérons le cas le plus
simple de défauts multidimensionnels en supposant que leurs amplitudes sont largement
supérieures aux mesures collectées lors du fonctionnement normal. L’équation (2.59) peut
être approximée par :
x(k) ≈ ΞJ f(k) (4.91)
Sans perte de généralité, nous supposons également que seules deux variables sont
réellement en défaut. Dans ce cadre, l’équation précédente peut se réécrire comme suit :
 
  fj (k)
x(k) ≈ ΞJ f(k) = ξj1 ξj2 1
= ξj1 fj1 (k) + ξj2 fj2 (k) (4.92)
fj2 (k)

où les vecteurs ξj1 et ξj2 représentent respectivement les j1 ème et j2 ème colonnes de la ma-
trice identité. Les scalaires fj1 (k) et fj2 (k) correspondent aux amplitudes des composants
du défaut réel dans les directions de la j1 ème et la j2 ème variable respectivement.
La substitution de l’équation (4.92) dans celle de (4.82) nous permet de déduire que :

(ξjT1 M ξi )2 ξjT1 M ξi ξjT2 M ξi (ξjT2 M ξi )2


RBCi6γ={j } (k) = fj21 (k) + 2 fj1 (k)fj2 (k) + fj22 (k)
1 ,j2 ξiT M ξi ξiT M ξi ξiT M ξi
(4.93)

γ
(ξjT1 M ξj2 )2
RBCi=j (k) = ξjT1 M ξj1 fj21 (k) + 2ξjT1 M ξj2 fj1 (k)fj2 (k) + fj22 (k) (4.94)
1 ξjT1 M ξj1

γ
(ξjT1 M ξj2 )2
RBCi=j (k) = ξjT2 M ξj2 fj22 (k) + 2ξjT1 M ξj2 fj1 (k)fj2 (k) + fj21 (k) (4.95)
2 ξjT2 M ξj2

Les équations (4.93), (4.94) et (4.95) représentent les contributions par reconstructions
unidimensionnelles respectivement de la ième variable qui n’est pas en défaut, de la j1 ème
et la j2 ème variable réellement toutes les deux en défaut. Malgré que le défaut est carac-
térisé par une grande amplitude, l’analyse de la relation entre ces équations montre que
les contributions des variables en défaut ne peuvent pas être garanties supérieures à celles
des variables saines. Par conséquent, la contribution par reconstruction unidimensionnelle
ne garantit pas un diagnostic correct de défauts multiples.
Puisque le défaut réel FJ est inconnu, on adopte le même principe que dans la
deuxième section de ce chapitre en supposant un défaut assumé FI affectant un Ième
ensemble de variables. D’après l’équation (4.8), l’indice insensible à un tel défaut peut
être exprimé comme suit :
1 1
γI (k) = xT (k) M x(k) − xT (k) M 2 ΞoI ΞoT
I M x(k)
2

1 1
= γ(k) − xT (k) M 2 ΞoI ΞoT
I M x(k)
2 (4.96)

116
4.4. Nouvelles approches pour un diagnostic de défauts multiples

Par déduction, Mnassri et al. (2012b) ont proposé que la contribution du Ième en-
semble de variables par reconstruction multidimensionnelle de l’indice γ est la suivante :
1 1
RBCIγ (k) = k M 2 ΞI f̂I (k)k2 = kΞoI ΞoT
I M x(k)k
2
2

1 1
= xT (k) M 2 ΞoI ΞoT
I M x(k)
2 (4.97)

Afin d’établir une analyse de diagnosticabilité de défauts multiples de grandes ampli-


tudes en utilisant cette approche, la considération du défaut réel exprimé par l’équation
(4.91) nous a permis de montrer que :
( 1
γ kΞoI ΞoTI M ΞJ f(k)k
2 2
pour I =6 J
RBCI (k) = 1
2
(4.98)
k M 2 ΞJ f(k)k pour I = J

1 1
Puisque kΞoI ΞoT
I M ΞJ f(k)k ≤ k M ΞJ f(k)k, alors :
2 2

RBCJγ (k) ≥ RBCIγ (k) (4.99)

Cette inégalité implique que l’approche proposée garantit un diagnostic correct de


défauts multiples ayant de grandes amplitudes.

4.4.2 RBC ratio


D’après les analyses de diagnosticabilté, les approches des contributions peuvent ga-
rantir un diagnostic correct que dans le cas de défauts de grandes amplitudes. En revanche,
les défauts sont en réalité plus complexes. Autrement dit, ils peuvent avoir des faibles am-
plitudes comme ils peuvent être difficilement isolables les uns des autres (colinéarités entre
les variables). Pour cela, la comparaison d’un indicateur qui a pour objectif un diagnos-
tic de défauts par rapport à un seuil de décision ou de contrôle semblerait une solution
avantageuse.
Dans ce cadre, Alcala et Qin (2009) ont proposé une limite de contrôle pour la RBC
unidimensionnelle en se basant sur le fait qu’une telle approche dispose d’une forme qua-
dratique. Cependant, ils ont mentionné que ce seuil ne peut malheureusement pas être
utilisé pour l’identification de la variable en défaut à cause de l’effet de propagation de
celui-ci dans le calcul des contributions des autres variables. Ils ont montré comment le
défaut se propage dans les contributions sans pour autant montrer ses conséquences pour
une utilisation de la limite de contrôle.
Pour cette raison, nous avons établi théoriquement dans l’annexe G une condition
sur l’amplitude du défaut réel FJ permettant de garantir le dépassement de la RBC
d’un Ième ensemble de variables son correspondant seuil de contrôle. Une telle condition
prouve qu’à partir d’une amplitude donnée, il est possible d’identifier tous les ensembles
de variables comme étant en défaut si on choisit un diagnostic par l’approche RBC com-
parée à ses limites de contrôle. Par conséquent, l’utilisation d’une telle approche afin
de diagnostiquer les défauts demeure valide uniquement par évaluation de l’ampleur des
contributions des ensembles de variables.

117
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

Afin de remédier aux problèmes de diagnostic liés aux défauts complexes, nous avons
proposé une nouvelle approche de diagnostic plus performante en s’appuyant sur la RBC
multidimensionnelle comme suit :
γ(k)
RBCrIγ (k) = (4.100)
RBCIγ (k) + Γ2I

avec Γ2I représente le seuil de contrôle (4.13) de l’indice insensible au défaut supposé FI .
Nous avons appelé cette méthode par RBC ratio (Mnassri et al., 2012b) car elle dispose
de l’indice γ au numérateur comme un facteur commun pour les RBC ratio de tous les
ensembles de variables. Cependant, les termes de son dénominateur dont principalement
la RBC dépendent de l’ensemble de variables étudiées.
La théorie d’une diagnosticabilité de défauts en se basant sur cette méthode se dérou-
lera en deux étapes. Pour cet objectif, il est possible d’exprimer la RBCr en fonction des
indices γ et γI comme suit :

γ(k) γ(k)
RBCrIγ (k) = γ 2
= (4.101)
γ(k) − γ(k) + RBCI (k) + ΓI γ(k) − (γI (k) − Γ2I )
• 1er cas : I = J
A partir de l’inégalité (4.11), nous pouvons montrer que :

γ(k) − (γI=J (k) − Γ2I=J ) ≥ γ(k) (4.102)

Puisque γ(k) ≥ 0, l’inégalité suivante est vraie

γ(k) γ(k)
2
≤ =1 (4.103)
γ(k) − (γI=J (k) − ΓI=J ) γ(k)

ainsi
γ
RBCrI=J (k) ≤ 1 (4.104)
• 2ème cas : I =6 J
L’inégalité (4.25) présente la condition nécessaire afin que le défaut réel FJ soit
garanti isolable de celui assumé FI . Par conséquent, on peut montrer que :

0 ≤ Γ2 − Γ2I < γI (k) − Γ2I ≤ γ(k) (4.105)

Celle-ci nous permet de déduire que :

0 ≤ γ(k) − (γI (k) − Γ2I ) < γ(k) − (Γ2 − Γ2I ) ≤ γ(k) (4.106)

Puisque γ(k) ≥ 0, alors

γ(k) γ(k) γ(k)


2
> 2 2
≥ =1 (4.107)
γ(k) − (γI (k) − ΓI ) γ(k) − (Γ − ΓI ) γ(k)
ce qui implique que
RBCrI6γ =J > 1 (4.108)

118
4.5. Exemple de synthèse

Il est clair que la limite de contrôle de l’approche proposée est égale à l’unité. La
diagnosticabilité de défauts par une telle méthode montre que les valeurs de la RBCr des
variables réellement en défaut sont garanties inférieures à un tel seuil. Autrement dit, le
défaut réel FJ est garanti identifiable. En outre, elle garantit de rejeter la possibilité qu’un
défaut assumé soit identifié comme un candidat si la condition nécessaire d’isolabilité
de défauts de l’inégalité (4.25) est satisfaite. Nous rappelons qu’une telle condition est
équivalente à celle déduite dans l’inégalité (4.26). Par conséquent, les défauts complexes
et qui sont détectables sont garantis identifiables par l’approche RBCr. Ainsi, ils sont
garantis isolables si leurs amplitudes vérifient l’inégalité (4.26). Entre autre, tout ensemble
de variables I ∈ ÎRBCr est considéré en défaut par l’approche RBCr avec ÎRBCr vérifie
l’argument suivante :
ÎRBCr = arg {RBCrIγ (k) ≤ 1} (4.109)
I∈I

où I représente l’ensemble de toutes les combinaisons des directions de reconstructions


possibles.

4.5 Exemple de synthèse


Afin d’illustrer l’étude théorique de ce chapitre, nous avons considéré la simulation
d’un exemple de processus dont les variables sont décrites par leurs équations suivantes :

x̊1 (k) = 1 + u(k)2 + sin( k3 ) avec u(k) ∼ N (0, (0.02)2 )


x̊2 (k) = 2 sin( k6 ) cos( k4 ) exp(− Nk )
x̊3 (k) = log(x̊2 (k)2 )
x̊4 (k) = x̊1 (k) + x̊2 (k)
(4.110)
x̊5 (k) = x̊1 (k) − x̊2 (k)
x̊6 (k) = 2x̊1 (k) + x̊2 (k)
x̊7 (k) = x̊1 (k) + x̊3 (k)
x̊8 (k) ∼ N (0, 1)

On note que u et x̊8 représentent deux variables aléatoires normales centrées et d’écarts
types de 0, 02 et 1 respectivement. Un bruit blanc v constitué de 8 variables aléatoires
indépendantes et identiquement distribuées de moyennes nulles et d’écarts types iden-
tiques de 0, 7 a été superposé aux variables de l’équation (4.110). Ainsi, le kème vecteur
d’observation à 8 composantes est généré de la façon suivante :

x(k) = x̊(k) + v(k) (4.111)

où  T
x̊(k) = x̊1 (k), . . . , x̊8 (k) (4.112)
et
v(k) ∼ N (08 , (0.7)2 I8 ) (4.113)
I8 représente une matrice identité d’ordre 8.
Une matrice de données X a été constituée de N = 3000 observations dont les 1500
premières qui représentent un fonctionnement normal du processus ont été réservées pour

119
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

3 3
10 10

2 2
10 10

    &$ '


1 1
10 10

1 2 3 4 
5 6 7 8 1 2 3 !4"#$ 5 % 6 7 8

Figure 4.2 – Sélection du nombre optimal des CPs

la construction d’un modèle ACP. Notamment, les données d’une telle matrice sont cen-
trées et réduites en utilisant les moyennes et les écarts types des données réservées au
modèle. Selon la figure 4.2, un tel modèle doit être constitué de 4 CPs. Le minimum du
critère VNR correspond à 3 CPs, ce qui implique l’existence de 3 importantes sources de
corrélation. Ainsi, le critère VNRVI indique l’existence d’une variable indépendante. En
effet, son minimum a été atteint pour κop = 4 CPs dans les données transformées de Y,
ce qui signifie selon le principe d’un tel critère que le nombre optimal des CPs dans les
données de X est q = 8 − κop = 4 CPs.
Dans le but d’illustrer un diagnostic de défauts en utilisant les différentes méthodes
décrites dans ce chapitre, trois défauts sont introduits aux données de la matrice X. Le
premier noté F{3} représente un défaut simple ayant une forme d’une dérive affectant la
troisième variable (x3 ) entre les instants 1550 et 1800 :

F{3} = ξ3 fx3 (k) (4.114)

Le vecteur ξ3 représente la troisième colonne de la matrice identité. Ainsi, le scalaire


fx3 (k) désigne l’amplitude d’un tel défaut à la kème observation :

fx3 (k) = 0.1(k − 1550) pour 1550 ≤ k ≤ 1800 (4.115)

Le deuxième et le troisième défaut notés respectivement F{1,7} et F{6,8} sont de type


multiple ayant également des formes de dérives. F{1,7} a été ajouté entre les observations
2000 à 2400 simultanément pour la première et la septième variable :
 
  fx (k)
F{1,7} = Ξ{1,7} f(k) = ξ1 ξ7 1
(4.116)
fx7 (k)

où Ξ{1,7} est une matrice orthonormée composée de la première (ξ1 ) et la septième (ξ7 )
colonne de la matrice identité. f(k) est un vecteur constitué de fx1 (k) et fx7 (k) qui repré-
sentent les amplitudes au kème instant des composants du défaut dans les directions des
variables correspondantes, avec :

fx1 (k) = 0.3(k − 2000) pour 2000 ≤ k ≤ 2400



(4.117)
fx7 (k) = 0.02(2k − 2000) pour 2000 ≤ k ≤ 2400

120
4.5. Exemple de synthèse

5 

0
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000

5  

0
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000

5  

0
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000

5  

0
1000 1200 1400 1600 1800 2000 2200 2400 2600 2800 3000

5 2 3

0
1000 1200 1400 1600 18002000
!#"%$'&)(+*-,/.)01#%2200
$ 2400 2600 2800 3000

Figure 4.3 – Détection des défauts avec les différents indices

Le troisième défaut F{6,8} est introduit simultanément dans la sixième et la huitième


variable entre les instants 2600 et 2900 :
 
  fx (k)
F{6,8} = Ξ{6,8} f(k) = ξ6 ξ8 6
(4.118)
fx8 (k)
Les amplitudes des composants d’un tel défaut dans les directions des variables cor-
respondantes sont identiques :
fx6 (k) = fx8 (k) = k − 2600 pour 2600 ≤ k ≤ 2900 (4.119)

Pour une interprétation plus facile des résultats, nous suggérons que tout indicateur
ayant pour objectifs la détection ou l’isolation d’un défaut suite à une comparaison par
rapport à un seuil soit pondéré par la valeur d’un tel seuil afin que la comparaison s’effectue
par rapport à l’unité. Pour les méthodes des contributions, l’affichage de leurs courbes
pour toutes les variables est très encombrant rendant ainsi la distinction d’une courbe
parmi d’autres très difficile voire impossible dans la même figure. Puisque nous avons
une connaissance a priori sur les défauts, nous proposons d’afficher dans les figures les
différences entre la contribution de la variable réellement en défaut et celles des autres
variables :
Contγj (k) − Contγi (k) (4.120)

121
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

où Contγj représente une contribution donnée. Dans le cas des défauts simples, j représente
le numéro de la variable réellement en défaut. En revanche et pour le cas des défauts mul-
tiples, l’index j devient J afin d’exprimer l’ensemble des variables réellement en défaut.
Si l’équation (4.120) aboutit à des valeurs négatives, cela implique que la contribution de
la (l’ensemble des) variable(s) réellement en défaut n’est pas la plus grande.
A partir de la figure 4.3, on constate que les défauts F{1,7} et F{6,8} ont été remar-
quablement détectés dès leurs apparitions par tous les indices de détection. Cependant,
celui du F{3} qui représente un défaut simple a été détecté avec des retards. Sa détec-
tion a commencé à partir des instants 1634, 1593, 1645 et 1593 respectivement par les
indicateurs SP E, SW E, ϕ et D. L’amplitude de ce défaut n’a pas permis celui-ci d’être
détectable en très grande partie plus particulièrement par l’indice T 2 de Hotelling.

4.5.1 Diagnostic d’un défaut simple


En interprétant les résultats obtenus par les approches dont l’objectif étant l’isolation
des défauts en se basant sur une comparaison de leurs valeurs par rapport à des seuils de
contrôle comme la reconstruction des indices de détection et la RBCr, le défaut simple
F{3} est non isolable en utilisant les statistiques SP E, SW E et T 2 (figures 4.4, 4.5 et 4.6
respectivement). D’après ces deux approches exprimées avec de tels indices de détection,
la septième variable est également considérée en défaut. Cela s’explique par une forte
colinéarité dans les sous-espaces engendrés par les vecteurs colonnes des matrices de tels
indices entre la variable x7 et celle réellement en défaut (x3 ). En se basant sur l’indice
combiné et celui de Mahalanobis (figures 4.7 et 4.8 respectivement), le défaut F{3} de-
vient isolable dans une grande partie d’observations. Une telle situation illustre clairement
l’analyse théorique d’isolabilité de défauts réalisée dans la sous-section 4.2.2 en montrant
que la reconstruction de la distance combinée peut jouer un rôle plus avantageux dans
l’isolation de défauts que des reconstructions séparées des indices que combine.
En se référant aux figures 4.4, 4.5 et 4.6, un diagnostic du défaut F{3} mené par
l’approche CDC en utilisant les indices SP E, SW E et T 2 n’est pas en mesure d’être
correct. Selon les courbes qui représentent les différences des contributions en respectant
l’équation (4.120), on remarque l’existence des valeurs négatives durant les observations
défectueuses. Cela implique que la contribution de la variable réellement en défaut par
décomposition complète de tels indices ne présente pas des valeurs plus supérieures que les
contributions des autres variables. Néanmoins, l’utilisation de cette approche en se basant
sur des décompositions de l’indice combiné ainsi que la distance de Mahalanobis a permis
une identification correcte de la variable en défaut à partir de la 1643ième observation
(figures 4.7 et 4.8 respectivement). Dans le cadre de ce défaut simple, l’interprétation des
résultats d’un diagnostic utilisant la méthode de contribution par reconstruction unidi-
mensionnelle RBC est la même que celle de CDC.
D’autre part, les contributions par décomposition partielle P DC et diagonale DC de
tous les indices de détection sans exception ont abouti à un diagnostic correct en identifiant
la variable réellement en défaut à partir de la 1643ème observation (figures 4.4 jusqu’à
4.8). Selon les analyses théoriques de diagnosticabilité, cela signifie que l’amplitude de ce
défaut a été considérée importante dès cette observation.
D’après les figures correspondantes, on déduit qu’un diagnostic basé sur une évaluation

122
4.5. Exemple de synthèse

Défaut Indice
SP E SW E T2 ϕ D
F{1,7} {1, 7} et {1, 3} {1, 7}, {1, 3} et {3, 7} {1, 7} {1, 7}

F{6,8} {1, 6}, {2, 6}, {3, 6}, {4, 6}, {6, 8} {6, 8} {6, 8}
{5, 6}, {6, 7} et {6, 8}

Table 4.2 – Ensembles des variables identifiés responsables des défauts multiples corres-
pondants par l’approche de reconstruction et la RBCr relativement aux indices

de l’ampleur des contributions peut conduire à des résultats erronés. Cela s’est justifiée
plus particulièrement par les contributions P DC et DC en utilisant les indices SP E,
SW E et D et les contributions CDC et RBC basées sur l’indice D. Ces indices de détec-
tion ont détecté l’existence du défaut F{3} plus tôt avant que celui-ci ne soit correctement
identifié par de telles contributions. Cependant, la méthode de reconstruction des indices
et celle de la RBCr garantissent une identification correcte de la variable en question
dès l’apparition du défaut. Tout dépend de la nature et de l’amplitude d’un tel défaut,
celui-ci peut ne pas être isolable. En effet, ces deux méthodes peuvent identifier également
d’autres variables en défaut.

4.5.2 Diagnostic de défauts multiples


En considérant les défauts multiples, les approches des contributions telles que CDC,
P DC et DC ne sont plus valables. En effet, seules la RBC multidimensionnelle, la re-
construction des indices et la RBCr peuvent être considérées.
Nous rappelons que le deuxième défaut F{1,7} a été introduit entre les instants 2000
et 2400 simultanément dans les directions des variables x1 et x7 . En investiguant les
figures 4.9, 4.10 et 4.11, l’approche de reconstruction ainsi que la RBCr ont correctement
identifié le défaut F{1,7} en utilisant les indices SP E, SW E et T 2 de Hotelling. Néanmoins,
un tel défaut est non isolable car l’ensemble des variables {1, 3} est également identifié
en défaut par ces deux méthodes en se basant sur les mêmes indices. En outre, ces deux
approches ont aussi identifié l’ensemble {3, 7} comme un candidat au défaut correspondant
en considérant exceptionnellement l’indice T 2 de Hotelling (figure 4.11). Le défaut F{1,7}
a été correctement isolé par les deux méthodes en utilisant l’indice combiné ainsi que la
distance de Mahalanobis (figures 4.12, 4.13 respectivement).
On note que dans le cas des défauts multiples, l’affichage de toutes les courbes dans
les figures correspondantes est parfois illisible. Pour cette raison, nous avons proposé le
tableau récapitulatif 4.2 présentant les résultats de ces deux approches pour les cas des
défauts multiples.
Un diagnostic du défaut F{1,7} par évaluation de l’ampleur de la contribution RBC
basée sur les indices SP E, SW E et T 2 n’est pas garanti correct (figures 4.9, 4.10 et
4.11 respectivement). En effet, l’utilisation de l’équation (4.120) a engendré des valeurs
négatives entre les instants 2000 et 2400, ce qui implique que l’ensemble des variables
réellement en défaut ne dispose pas de la plus grande contribution. D’après les figures

123
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

4
     4 798 %   7:8 %;   
2 2

0 0

−2 −2
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

<>=@?
 
    
     2.5
4
2 <> =@? A 9 B  CED F
A 9B G D H
2 1.5

1
0
0.5

−2 0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

4
  
     1

0.8
2

798 9IJKL 
0.6

97 8 9I M 
0
0.4
−2
1500 !#"%$'1700
1600 &)(*+,.-0/2143.56(+ 1800 1900 1500 1600!#"%$'1700
&)(*+,.-0/2143.56(+ 1800 1900

Figure 4.4 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice SPE

5
     4 78 $   798 $:  
2
0

−5 −2
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

 
     
      2.5 ;=<?>
5 2 ;=<?> @BADCE FHG I
@BADC J G K
1.5
0
1

−5 0.5

0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

    
     1
5
0.9

78 LMN O 


0 0.8

7 8 L P
0.7
−5
0.6
1500  "!$#&1700
1600 %('*),+-/.10243/56'*,+ 1800 1900 1500 1600  "!$#&1700
%('*),+-/.10243/56'*,+ 1800 1900

Figure 4.5 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice SWE

124
4.5. Exemple de synthèse

8
        6 798 #   7:8 #;   
6
4
4

2 2

0 0

−2 −2
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

8  
     
      2.5 <>=  ?A@B
6 2 ><  =  ?A@ 
CED F
 G D H
4 1.5

2 1

0 0.5

−2 0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

8
    
      1.5
798 9IJK  L
97 8 9I M  
6
1
4

2
0.5
0

−2 0
1500 !#"%1700
1600 $'&)(+*,.-0/2143.56&)+* 1800 1900 1500 !#"%1700
1600 $'&)(+*,.-0/2143.56&)+* 1800 1900

Figure 4.6 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice T2

6
     6 465    475 8    
4 4

2 2

0 0

1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

6  
      
     
6 9; :=< >? @BA C
4
9; :=< >  D A E
4

2
2
0
0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

6
     3
465 6FGH  I
4 2 64 5 6F J  
2 1

0
0
1500  "1700
1600 !$#&%(')+*-,/.10+23#&(' 1800 1900 1500  "1700
1600 !$#&%(')+*-,/.10+23#&(' 1800 1900

Figure 4.7 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice ϕ

125
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

     20 465  475 


10   8   
15

5 10

5
0
0

1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

9;:=< 
 
      
      8
10
9;:=<   >@? A
6   B ? C
5
4

0 2

0
1500 1600 1700 1800 1900 1500 1600 1700 1800 1900

40
     2.5 465 6IJ
K  L
30 2 64 5 6I 
20 1.5
M 
10 1

0 0.5

−10 0
1500  "1700
1600 !$#&%(')+*-,/.10+23#&(' 1800 1900 1500 1600 D; @1700
!E#&% ')+*F,&.10G2H#& ' 1800 1900

Figure 4.8 – Diagnostic du défaut F{3} par différentes méthodes basées sur l’indice D

2.5
  
   
2 
     
1.5

0.5

0
1900 2000 2100 2200 2300 2400 2500

2   (
!#"%$'& )!#"%*'&
1.5    ( 
!#"%$'& ,
+ !#"%*'&
1

0.5

0
1900 2000 2100 2200 2300 2400 2500

0.995
  DEF
F!G"%*&
0.99   D F
!#"%$'&
0.985
1900 2000 2100 -/.0214362200
5879:;=<?>,@)A=BC70: 2300 2400 2500

Figure 4.9 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice SPE

126
4.5. Exemple de synthèse

2.5
    
2

    
1.5

0.5

0
1900 2000 2100 2200 2300 2400 2500

6  (
!#"%$'& )!#"%*'&
  ( 
4 !#"%$'& ,
+ !#"%*'&

1900 2000 2100 2200 2300 2400 2500

0.998
FG
0.996 :!H"%*&
F 
0.994 !#"%$'&

1900 2000 2100 -/.0214362200


587:9<;=?>A@,B)C?DE7:0<; 2300 2400 2500

Figure 4.10 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice
SWE

1.5
  
   
     
1

0.5

0
1900 2000 2100 2200 2300 2400 2500

5  #
  "! $  %"!
4   # 
3   "! '&   %"!
2
1
0
1900 2000 2100 2200 2300 2400 2500

1
0.99
0.98
BC
0.97 6D E %!
B 
0.96   "!
0.95
1900 2000 2100 (*),+.-0/22200
14365879;:=<'>$?;@A36+87 2300 2400 2500

Figure 4.11 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice
T2

127
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

3
     
    
2

0
1900 2000 2100 2200 2300 2400 2500

1    !" # 


    ! % $ # 
0.5

1900 2000 2100 2200 2300 2400 2500

1.01
@A4 BC# 
1.005 @   

0.995
1900 2000 2100 &('*),+.-02200
/214365 798;:%<"=9>?14)65 2300 2400 2500

Figure 4.12 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice ϕ

3
     
    
2

0
1900 2000 2100 2200 2300 2400 2500

4  !
  "# 
  ! 
2   %$ # 

−2

1900 2000 2100 2200 2300 2400 2500

1.015 @A
4BC# 
1.01 @ 
 
1.005

0.995
1900 2000 2100 &('*),+.-02200
/214365 798;:%<"=9>?14)65 2300 2400 2500

Figure 4.13 – Diagnostic du défaut F{1,7} par différentes méthodes basées sur l’indice D

128
4.5. Exemple de synthèse

3
  
   
  
2    

0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

  '
3  "!$#&% (*)+!$&%
    '  
 "!$#&% -
, *)+!$&%
2

2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

0.999

0.998   EFG


G*)F!$%
0.997   E G
 "!$#&%
0.996
2500 2550 2600 2650 2700.0/1325472750
698:;<>=@?-A(B>CD812800
; 2850 2900 2950 3000

Figure 4.14 – Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice
SPE

3
    
   
2

0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

6  (
!#"%$'& )+*"%'&
  ( 
4 !#"%$'& -
, +*"%'&

2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

0.999
FG
;+*G"%&
0.998 F 
!#"%$'&
0.997
2500 2550 2600 2650 2700.0/1325472750
698;:<=?>A@-B)C?DE8;12800
< 2850 2900 2950 3000

Figure 4.15 – Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice
SWE

129
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

3
  
   
2     

0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

3  "
   ! #   !
2

−1

−2
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

1.002

0.998 ? 
  
0.996 ?@
   !
0.994
2500 2550 2600 2650 2700$&%('*),+.2750
-0/214357698#:<;7=>/2'42800
3 2850 2900 2950 3000

Figure 4.16 – Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice
T2

3
    

     
2

0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

2  
    
1.5
1
0.5
0
−0.5
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

1.002

0.998 : 
 ; <0
0.996 :=
 
0.994
2500 2550 2600 2650 2700 "!$#&%(2750
'*),+.-0/2143 576289),!.2800
- 2850 2900 2950 3000

Figure 4.17 – Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice ϕ

130
4.6. Conclusion

3
    

2   

0
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

3  !
2
      

1
0
−1
−2
−3
2500 2550 2600 2650 2700 2750 2800 2850 2900 2950 3000

1.002

0.998 = 
 
0.996 =>
  
0.994
2500 2550 2600 2650 2700"$#&%('*),2750
+.-0/2135476 8:95;<-0%22800
1 2850 2900 2950 3000

Figure 4.18 – Diagnostic du défaut F{6,8} par différentes méthodes basées sur l’indice D

4.12, 4.13, nous constatons que cette méthode a assuré une plus grande contribution pour
l’ensemble des variable {1, 7}, ce qui signifie que le défaut F{1,7} est correctement identifié
par la RBC en utilisant les indices ϕ et D.
D’après le tableau 4.2 ainsi que les figures 4.16, 4.17 et 4.18, le défaut F{6,8} qui a
été introduit aux niveaux des variables x6 et x8 a été correctement localisé par les trois
approches en utilisant les indices T 2 de Hotelling, ϕ et D. Par ailleurs, l’investigation de ce
défaut avec l’approche de reconstruction et la RBCr en s’appuyant sur les indices SP E et
SW E a abouti à l’identification de sept ensembles de variables en défaut (voir tableau 4.2).
Les figures 4.14 et 4.15 montrent que l’ensemble {6, 8} composé des variables réellement
en défaut ainsi qu’à titre d’exemple l’ensemble {4, 6} disposent des courbes qui sont au
dessous de l’unité en particulier avec l’indice SP E. En se référant à l’équation (4.120),
l’approche de contribution multidimensionnelle (RBC) utilisant les indices SP E et SW E
a assuré des valeurs positives exceptionnellement durant les dernières observations du
défaut (figures 4.14 et 4.15). D’après l’analyse de diagnosticabilité, l’amplitude du défaut
F{6,8} durant ces quelques dernières observations est importante permettant ainsi à la
RBC de garantir un diagnostic correct.

4.6 Conclusion
Dans ce chapitre, nous avons étendu le concept d’isolabilité de défauts par l’approche
de reconstruction à tout indice de détection ayant une forme quadratique. Une telle gé-
néralisation nous a permis d’élaborer une analyse théorique d’isolabilité de défauts par

131
Chapitre 4. Théorie d’un diagnostic de défauts par ACP

reconstruction de l’indice combiné versus celles des indices SP E et T 2 de Hotelling. Cette


analyse a mis en avant l’avantage que peut jouer la distance combinée dans l’isolation des
défauts affectant plus particulièrement des variables colinéaires. Malgré qu’une telle dis-
tance combine les indices SP E et T 2 de Hotelling, les propriétés qui peuvent caractériser
l’un comme l’autre de ces deux indices ne font pas nécessairement partie de celles de l’in-
dice combiné. En effet, il peut y exister des défauts qui ne sont garantis isolables ni par
l’indice SP E ni par celui du T 2, mais ils peuvent être garantis isolables par la distance
combinée.
Les contributions sont parmi les approches les plus classiquement utilisées pour un
diagnostic de défauts plus particulièrement de type simple. Dans ce cadre, nous avons
proposé une nouvelle forme de contribution basée sur la décomposition de l’indice SP E
et qui fait partie des contributions de type P DC. En considérant des défauts simples
ayant de grandes amplitudes, l’analyse de diagnosticabilité basée sur les approches des
contributions montre que seule la contribution de type CDC ne peut pas garantir un
diagnostic correct.
Puisque les défauts simples représentent un cas particulier, nous avons étendu la mé-
thode RBC au cas multidimensionnel en montrant que la nouvelle forme garantit un
diagnostic correct de défauts multiples de grandes amplitudes. Néanmoins, les défauts
peuvent être réellement beaucoup plus complexes (faibles amplitudes, colinéarités entre
des variables, etc.). Dans ce cas, un diagnostic basé sur l’évaluation de l’ampleur des
contributions aboutit sans doute à des conclusions erronées. Ainsi, les méthodes qui sem-
bleraient plus avantageuses représentent celles qui s’appuient sur des seuils de contrôle
pour conclure une décision comme l’approche de reconstruction des indices de détection.
Afin d’exploiter la méthode RBC pour un diagnostic de défauts complexes, nous avons
proposé une nouvelle approche appelée RBCr dont le seuil de contrôle est égale à l’unité.
La diagnosticabilité théorique basée sur une telle méthode montre qu’un défaut détectable
est garanti identifiable. Cependant, il est garanti isolable si son amplitude vérifie la même
condition suffisante d’isolabilité établie pour la méthode de reconstruction des indices de
détection.
En se basant sur un exemple simulé, toutes les approches présentées garantissent un
diagnostic correct dans le cas des défauts de grandes amplitudes. En revanche, les défauts
les plus complexes et qui sont détectables sont garantis uniquement identifiables par la
méthode de reconstruction des indices ainsi que la RBCr. L’approche RBC ne peut pas
garantir un diagnostic correct de ce type de défauts. Nous avons constaté également que ces
défauts ont été plus particulièrement mieux isolables en utilisant l’indice combiné ainsi que
celui de Mahalanobis. Dans ce cadre, on peut conclure que la méthode de reconstruction
des indices de détection et la RBCr sont plus avantageuses que l’approche RBC afin
d’aboutir à un diagnostic de défauts mieux décisif. Toutefois, la prise en considération des
résultats de toutes les approches peut conduire à distinguer les défauts.

132
Conclusion générale & perspectives

L’analyse de données multivariées pour l’identification des états de fonctionnement


d’un processus présente des résultats intéressants pour les systèmes où il est difficile voire
impossible de leur établir un modèle complet. En effet, l’utilisation des méthodes statis-
tiques pour un diagnostic de défauts de processus est une alternative plus prometteuse
qu’une utilisation des méthodes qui se basent sur un modèle mathématique. Puisque l’ob-
jectif d’un diagnostic est de constater l’apparition de défauts puis d’en trouver les causes,
l’analyse des mesures des variables de processus permet d’identifier les causes car les états
de défaillances sont directement liés aux variables. Dans ce contexte, les méthodes ba-
sées sur l’analyse en composantes principales (ACP) sont très intéressantes pour la mise
en évidence des corrélations linéaires entre les variables du processus sans pour autant
formuler de façon explicite un modèle entrées/sorties du système.
En présentant le principe fondamental de l’ACP, cette dernière est prouvée comme
étant une approche de modélisation des relations linéaires entre les différentes variables
d’un processus. Ainsi, les paramètres du modèle représentent tout simplement les valeurs
et les vecteurs propres de la matrice de corrélation ou de covariance des données collectées
lors du fonctionnement normal du processus. Puisque les derniers vecteurs propres sont
associés à des composantes principales (CPs) généralement non porteuses d’informations
significatives, la tâche principale de l’ACP s’articule autour d’un choix d’une structure
adaptée du modèle ACP. Autrement dit, un tel modèle doit être constitué uniquement par
les quelques premières CPs les plus significatives. Dans ce cadre, nous avons réalisé qu’en
l’absence de bruit de mesures, le modèle ACP est composé de toutes les CPs ayant des
variances non nulles. Dans la pratique (présence de bruit), une détermination optimale de
la structure d’un tel modèle est beaucoup plus compliquée. Pour cette raison, plusieurs
critères de choix du nombre optimal des CPs ont été présentés et comparés pour une
évaluation de leurs performances vis-à-vis de plusieurs enjeux comme le bruit de mesures,
les types des variables considérées et le nombre d’observations utilisées pour la modélisa-
tion. Notre choix des critères porte sur deux principales familles. La première présente des
critères heuristiques qui se basent sur des seuils jugés subjectifs pour le choix du nombre
optimal des CPs. Malgré leur popularité, nous avons conclu à travers un exemple simulé
que ces critères demeurent très subjectifs et largement restreints en termes de décision et
efficacité respectivement.
La deuxième catégorie est constituée par des critères de minimisation par rapport
au nombre de CPs sélectionnées. Autrement dit, le numéro de la CP qui correspond au
minimum d’un critère donné représente le nombre des CPs constituant le modèle ACP.
Une telle famille a été composée de quatre critères qui sont AIC, MDL, IE et VNR.

133
Conclusion générale & perspectives

Les trois premiers sont utilisables uniquement avec des données non normalisées entachées
par un bruit blanc. Le quatrième critère qui représente la variance non reconstruite est
originairement conçu afin qu’il soit valable indépendamment de la nature des données.
Toutefois, il est préférable que ces données soient exprimées dans la même échelle pour
une meilleure mise en évidence d’une ACP. Puisque le critère VNR est en relation directe
avec les paramètres fournis par l’ACP, nous avons étudié son comportement vis-à-vis des
données normalisées contrairement aux trois autres critères.
A partir des résultats de simulation, nous avons constaté que le critère AIC surestime
souvent le nombre utile des CPs. En s’appuyant sur une comparaison approfondie des
résultats de tous les critères présentés, le MDL semble être le critère le plus efficace.
Néanmoins, sa précision dans le choix de la dimension du modèle est fortement liée au
nombre N d’observations considérées pour la modélisation. Une sélection basée sur le
MDL converge vers le nombre correct des CPs lorsque le nombre d’observations est
assez important. En effet, le paramètre N entre en vigueur d’une façon explicite dans
l’expression d’un tel critère. Ainsi, l’optimalité est assurée d’un point de vue mathématique
lorsque N tend vers l’infini. Dans la pratique, un système est généralement représenté par
un nombre fini d’observations qui peut être pour autant insuffisant afin que le critère
MDL exprime convenablement le nombre nécessaire des CPs. Par conséquent, on ne peut
pas savoir si un tel critère converge finalement vers le nombre correct des CPs. D’après les
résultats de simulation et pour un nombre insuffisant d’observations, nous avons constaté
que ce critère ne retient pas souvent les CPs associées aux variables indépendantes de
faibles variances.
Le critère IE abandonne souvent les CPs de faibles variances bien qu’elles soient théo-
riquement supposées être retenues dans le modèle. Cet inconvénient a été montré théori-
quement dans le cadre de cette thèse. L’avantage dans l’utilisation du critère VNR étant
dans la considération des données normalisées, ce qui signifie que toutes les variables sont
exprimées dans la même échelle. Malgré cette caractéristique, nous avons remarqué qu’un
tel critère ne prend pas en compte les variables indépendantes et quasi-indépendantes
bien qu’en l’absence de bruit de mesures ces variables se transforment en des CPs dont
les variances sont non nulles. Dans se stade, nous avons également contribué par une dé-
monstration théorique confirmant la limitation de ce critère. En effet, nous avons montré
que le nombre des CPs qui correspond au minimum d’un tel critère est invariant en l’addi-
tion des variables indépendantes et quasi-indépendantes. Autrement dit, le critère VNR
est insensible à la présence de ce type des variables. Ainsi, son minimum correspond au
nombre des CPs uniquement pour les variables qui sont linéairement corrélées les unes
aux autres. En outre, une telle démonstration met en évidence l’inefficacité d’un tel critère
en considérant des données non normalisées présentant des variables indépendantes. La
synthèse d’une telle étude comparative nous a permis de conclure que seuls les critères
MDL et VNR peuvent être considérés intéressants à l’égard de leur comportement et
principe respectivement. Cependant, ils présentent des inconvénients rendant souvent les
décisions incertaines.
Dans le but d’exploiter le principe du critère VNR tout en comptant les variables
indépendantes et quasi-indépendantes, nous avons établi à travers une généralisation la
variance de l’erreur de reconstruction d’un indice quelconque ayant une forme quadratique.
Celle-ci a pour objectif de révéler la variance non reconstruite de chacun des indices de

134
détection connus dans le cadre de l’ACP. Notamment, la variance de l’erreur de recons-
truction de l’indice SP E n’est autre que le classique critère VNR. Les variances non
reconstruites relatives aux restes des indices représentent des nouveaux critères présentés
dans cette thèse. Une analyse théorique des comportements de tels critères nous a permis
de déduire que les variances non reconstruites des indices SW E, T 2 de Hotelling ainsi que
la distance de Mahalanobis ne peuvent pas être utilisées pour le choix d’un modèle ACP.
Par ailleurs, la particularité est constatée dans la variance de l’erreur de reconstruction
de l’indice combiné. Une telle variance dépend du nombre des CPs ainsi qu’un seuil de
signification introduit implicitement dans les limites de contrôle des indices que combine
la distance combinée. Dans ce cadre, il est difficile d’établir une consistance théorique de
ce nouveau critère. Par contre, les résultats de simulation ont montré qu’il est capable de
déterminer le nombre optimal des CPs en s’appuyant sur un choix très approprié et non
ordinaire du seuil de signification. Nous avons également constaté qu’il présente parfois
des résultats non stationnaires. Pour remédier à ces inconvénients, nous avons proposé
une variance non reconstruite relative à un nouvel indice combiné. L’objectif étant de
faciliter la tâche du choix de la valeur du seuil de signification. Le nouveau critère montre
des résultats plus efficaces et mieux stationnaires. Néanmoins, les deux critères propo-
sés demeurent dans leurs globalités incertains, aussi faut-il disposer d’une connaissance a
priori ou d’une expertise pour prendre la décision convenable. En effet, les deux critères
sont considérés comme étant empiriques car ils s’appuient uniquement sur l’expérience.
L’originalité principale dans nos contributions pour un choix optimal du modèle ACP
est introduite par la proposition d’un troisième critère noté VNRVI. Celui-ci représente
la variance de l’erreur de reconstruction relative à des nouvelles données. En s’appuyant
sur un changement de représentation des données, nous avons supposé que ces données
qui sont normalisées et observées réellement sont en réalité issues d’une transformation
linéaire d’autres données mieux exploitables en présence des variables indépendantes et
quasi-indépendantes. En se basant sur ce nouveau critère, la détermination du nombre
optimal des CPs des nouvelles données sert à déduire celui des données réellement ob-
servées en comptant évidemment ce type des variables. Dans ce cadre, nous avons établi
théoriquement les conditions garantissant l’optimalité de sélection à travers un tel critère.
Les résultats de simulation ont validé notre théorie en prouvant ainsi qu’un tel critère
étant plus efficace qu’aux autres critères présentés dans cette thèse.
Dans l’objectif d’un diagnostic de défauts par l’approche de reconstruction, la première
contribution était élaborée par une généralisation du concept d’isolabilité de défauts à tout
indice de détection ayant une forme quadratique. Cette généralisation nous a permis en
conséquence de réaliser une analyse théorique d’isolabilité de défauts par reconstruction
de l’indice combiné versus celles des indices que combine (SP E et T 2 de Hotelling). Une
telle analyse a mis en avant l’avantage que peut jouer la distance combinée dans l’isolation
des défauts caractérisant plus particulièrement les variables colinéaires. Ainsi, il peut y
exister des défauts qui ne sont garantis isolables ni par l’indice SP E ni par celui du T 2
par contre ils peuvent être garantis isolables uniquement par la distance combinée.
Dans le cadre d’un diagnostic de défauts basé sur les approches des contributions,
celles-ci sont dédiées pour diagnostiquer plus particulièrement les défauts simples. Ainsi,
nous avons proposé une nouvelle méthode de contribution par décomposition partielle de
l’indice SP E. Une analyse de diagnosticabilité de défauts basée sur une telle approche ga-

135
Conclusion générale & perspectives

rantit un diagnostic correct de défauts simples ayant de grandes amplitudes. L’exclusivité


révélée par la présente thèse dans le domaine du diagnostic se manifeste également par
l’extension d’une approche de contribution dite RBC au diagnostic de défauts multiples.
Ainsi, l’analyse de diagnosticabilité de défauts en s’appuyant sur la nouvelle approche
montre que celle-ci garantit un diagnostic correct de défauts multiples de grandes ampli-
tudes. Afin de considérer la réalité complexe de défauts (faibles amplitudes, colinéarités
entre les variables), nous avons exploité la nouvelle approche RBC pour proposer une
nouvelle méthode de diagnostic appelée RBCr qui se base sur un seuil de contrôle égale à
l’unité. Nous avons montré théoriquement qu’un défaut détectable est garanti identifiable
par la présente méthode. Ainsi, ce défaut est garanti isolable si son amplitude satisfait une
condition d’isolabilité qui est identique à celle établie pour l’approche de reconstruction
des indices.
Les résultats de simulation montrent que toutes les approches présentées garantissent
un diagnostic correct dans le cas des défauts de grandes amplitudes, tandis que les défauts
complexes et qui sont détectables sont garantis uniquement identifiables par la méthode
de reconstruction des indices ainsi que la RBCr. Entre autre, l’approche RBC multidi-
mensionnelle ne peut pas garantir un diagnostic correct de ce type de défauts. Nous avons
constaté également que ces défauts ont été mieux isolables avec ces méthodes en utilisant
plus particulièrement l’indice combiné ainsi que celui de Mahalanobis. Sous cette optique,
nous avons pu conclure que la méthode de reconstruction des indices et celle de RBCr
sont généralement plus avantageuses que l’approche RBC afin d’aboutir à un diagnostic
concluant de défauts multiples. Il n’empêche que la prise en considération des résultats de
toutes les approches peut aider à l’isolation des défauts réels.
Dans un premier temps, les perspectives à envisager sont de tester expérimentalement
les méthodes proposées dans cette thèse sur des données expérimentales fournies par la
société STMicroelectronics afin de valider leur performance pour une possible mise en
œuvre industrielle.
Au niveau théorique, l’ACP robuste ainsi que celle à noyaux disposent en partie des
mêmes principes que l’ACP classique. Dans ce cadre, nous envisageons une extension de
nos travaux de recherche qui s’articulent autour d’un choix optimal du modèle ACP ainsi
qu’un diagnostic de défauts en considérant ces deux méthodes.

136
A
Limitation du critère VNR

Nous supposons qu’on dispose d’une matrice X ∈ RN ×m composée de N mesures pour


m variables qui sont toutes linéairement corrélées. Ainsi,

Σ = PΛPT ∈ Rm×m (A.1)

représente leur matrice de covariance ou de corrélation dans le cas où les données sont nor-
malisées. P et Λ représentent respectivement les matrices des vecteurs et valeurs propres
de Σ.
En présence d’un bruit de variance non nulle, il existe alors un nombre optimal de q CPs
assurant le minimum de la variance non reconstruite de chaque variable. En considérant
une matrice de corrélation donc les données sont normalisées, le minimum du critère VNR
est atteint pour ` = q :
q = arg min {VNR(`)} (A.2)
`
avec
m
X ξjT C̃ΣC̃ξj
VNR(`) = (A.3)
j=1
(ξjT C̃ξj )2
T
où C̃ = P̃P̃ et P̃ ∈ Rm×(m−`) est une matrice composée des (m − `) vecteurs propres
de la matrice P. Puisque le modèle optimal est engendré par les q premières CPs, une
subdivision appropriée de P nous permet d’écrire :
 
P = Û Ũ (A.4)

Û ∈ Rm×q et Ũ ∈ Rm×(m−q) sont deux matrices respectivement constituées des q premiers


et (m − q) derniers vecteurs propres de P.
Supposons qu’une nouvelle variable indépendante ou quasi-indépendante est ajoutée
à la matrice X. Cela nous permet de calculer une nouvelle matrice de corrélation, M ∈
R(m+1)×(m+1) , dont on peut montrer qu’elle peut avoir la forme suivante :
 
Σ 
M= T = VDVT (A.5)
 1

137
Annexe A. Limitation du critère VNR

avec  ∈ Rm est un vecteur caractérisé par une norme qui tend vers zéro puisque la
variable ajoutée est indépendante. Ce vecteur est composé des coefficients de corrélation
d’une telle variable avec les autres. V et D représentent respectivement les matrices des
vecteurs et valeurs propres de M.
En considérant la condition d’indépendance de la variable ajoutée, kk ≈ 0, la matrice
V peut être exprimée approximativement en fonction de P en appliquant des subdivisions
appropriées :  
Û φ2 Ũ
V≈ T (A.6)
φ1 ω φT3
où φ1 ∈ Rq , φ2 ∈ Rm et φ3 ∈ R(m−q) sont des vecteurs dont les normes tendent respecti-
vement vers des zéros ou également kφ1 k  |ω|, kφ2 k  |ω| et kφ3 k  |ω|. Puisque V
est une matrice orthonormée, cela implique que |ω| est proche de l’unité.
Notons par z et ~ respectivement la nouvelle variance non reconstruite globale et
le nouveau paramètre qui désigne le nombre des CPs exprimés dans la nouvelle base de
données en prenant en considération la variable ajoutée :
m+1 T T
X ξiT ṼṼ MṼṼ ξi
z(~) = T
(A.7)
i=1 (ξiT ṼṼ ξi )2

avec Ṽ ∈ R(m+1)×(m+1−~) est constituée des (m + 1 − ~) derniers vecteurs propres de la


matrice V.
Afin d’étudier le comportement du critère z en utilisant les approximations proposées,
trois cas peuvent être illustrés :

1er cas : ~ ≤ q La prise en considération de ce cas implique que la matrice V doit


encore subir une décomposition comme suit :
 
Û1 Û2 φ2 Ũ
V≈ T (A.8)
φ11 φT12 ω φT3

où Û1 ∈ Rm×~ et Û2 ∈ Rm×(q−~) sont respectivement composées des ~ premiers et (q − ~)
derniers vecteurs de la matrice Û. φ11 ∈ R~ et φ12 ∈ R(q−~) sont deux vecteurs respecti-
vement constitués des ~ premiers et (q − ~) derniers éléments du vecteur φ1 .
Cette décomposition nous permet d’exprimer la matrice Ṽ comme suit :
 
Û2 φ2 Ũ
Ṽ = T (A.9)
φ12 ω φT3
En considérant les approximations présentées au départ, nous montrons que :
" #
T T
ṼṼ ≈ Û2 Û2 + ŨŨ θ
T
(A.10)
θT ω2

et " #
T T T T
ṼṼ MṼṼ ≈ Û2 Û2 ΣÛ2 Û2 + ŨŨ ΣŨŨ ψ
T T
T
(A.11)
ψ ω4

138
où θ ∈ Rm et ψ ∈ Rm . D’après ces deux dernières équations ainsi que celle de (A.7), le
critère z peut être exprimé comme suit :
T T
h T T
i
T
m
X i ξ Û Û
2 2 Σ Û Û
2 2 + ŨŨ ΣŨŨ ξi
z(~ ≤ q) ≈ 1 + h T T
i (A.12)
T 2
i=1 (ξi Û2 Û2 + ŨŨ ξi )

En outre, et pour ` = ~, la matrice résiduelle P̃ est composée de tous les vecteurs de


la matrice Ũ ainsi que les (q − ~) derniers vecteurs de Û, d’où :
 
P̃ = Û2 Ũ (A.13)

Puisque Û2 et Ũ sont orthogonales, nous montrons que le deuxième terme de l’équation
(A.12) représente l’expression du critère VNR(`) avec ` = ~ ≤ q :
T T
h T T
i
m ξ T Û Û ΣÛ Û + ŨŨ ΣŨŨ ξi m T T
X i 2 2 2 2 X ξiT P̃P̃ ΣP̃P̃ ξi
h T T
i = T
i=1 (ξi
T
Û Û
2 2 + ŨŨ ξi )2
i=1 (ξiT P̃P̃ ξi )2
m
X ξjT C̃ΣC̃ξj
=
j=1
(ξjT C̃ξj )2
= VNR(` ≤ q) (A.14)

Ceci implique que :


z(~ ≤ q) ≈ 1 + VNR(` = ~) (A.15)

2ème cas : ~ = q + 1 Ce cas représente le calcul du critère z lorsque le nombre des CPs
sélectionnées correspond à la variable intercalée. Autrement dit, cette dernière qui repré-
sente toute seule une CP sera considérée dans le sous-espace principal. D’après l’équation
(A.9), la matrice Ṽ aura la forme suivante :
 

Ṽ = T (A.16)
φ3

Ainsi, on peut déduire que :


" T
#
T ŨŨ Ũφ3
ṼṼ ≈ T (A.17)
φT3 Ũ φT3 φ3

T
Puisque Ũ est une matrice orthonormée, c’est à dire Ũ Ũ = I(m−q) , nous pouvons
calculer ce qui suit :
" T T T
#
T T ŨŨ + Ũφ3 φT3 Ũ Ũφ3 + Ũφ3 φT3 Ũ
ṼṼ ṼṼ ≈ T T (A.18)
φT3 Ũ + φT3 φ3 φT3 Ũ φT3 φ3 + (φT3 φ3 )2

139
Annexe A. Limitation du critère VNR

T
Puisque ṼṼ représente une matrice idempotente, i.e. :
T T T
ṼṼ ṼṼ = ṼṼ (A.19)

l’identification entre les termes des équations (A.17) et (A.18), nous mène à déduire que
Ũφ3 est un vecteur nul. Egalement, φT3 φ3 représente un scalaire qui tend vers zéro, ce qui
implique que (φT3 φ3 )2 est très négligeable devant φT3 φ3 . Ainsi, φT3 φ3 ≈ φT3 φ3 + (φT3 φ3 )2 . Ces
déductions nous permettent d’écrire :
" T T T
#
T
T T ŨŨ ΣŨŨ ŨŨ φ3 φ3
ṼṼ MṼṼ ≈ T (A.20)
φ3 φ3  ŨŨ φ3 φ3 + (φT3 φ3 )2
T T T

D’après (A.7),
m T T
1 X ξ T ŨŨ ΣŨŨ ξ
i i
z(~ = q + 1) ≈ 1 + T + (A.21)
φ3 φ3 i=1 (ξ T ŨŨT ξ )2
i i

En revanche, le troisième terme de l’équation précédente représente le critère VNR


pour ` = q CPs, ce qui implique :
1
z(~ = q + 1) ≈ 1 + + VNR(` = q) (A.22)
φT3 φ3

En notant que (φT3 φ3 )−1 tend vers l’infini.

3ème cas : ~ > q + 1 Ce cas sera représenté par une matrice résiduelle Ṽ composée des
(m + 1 − ~) dernières colonnes de la matrice V de l’équation (A.6) ou également (A.16).
Une décomposition appropriée du dernier bloc de V comme suit :
   
Ũ Ũ1 Ũ2
= T (A.23)
φT3 φ13 φT23

nous permet de déduire que :  



Ṽ = T2 (A.24)
φ23
où Ũ2 ∈ Rm×(m+1−~) est composée des (m + 1 − ~) derniers vecteurs propres de la matrice
P de l’équation (A.4). φ23 ∈ R(m+1−~) est un vecteur constitué des (m + 1 − ~) éléments
de φ3 . En appliquant les approximations nécessaires de la même manière qu’au deuxième
cas, nous pouvons montrer que :
" T
#
T Ũ2 Ũ2 Ũ2 φ23
ṼṼ ≈ T (A.25)
φT23 Ũ2 φT23 φ23
et " #
T T T
T Ũ2 Ũ2 ΣŨ2 Ũ2
T Ũ2 Ũ2 φT23 φ23
ṼṼ MṼṼ ≈ T (A.26)
φT23 φ23 T Ũ2 Ũ2 φT23 φ23 + (φT23 φ23 )2

140
ainsi
m T T
1 X ξ T Ũ Ũ ΣŨ Ũ ξ
i 2 2 2 2 i
z(~ > q + 1) ≈ 1 + T + T
(A.27)
φ23 φ23 i=1 T
(ξ Ũ Ũ ξ )2
i 2 2 i
Notamment, le troisième terme de cette équation correspond au critère VNR pour
` = (~ − 1) CPs, d’où :
1
z(~ > q + 1) ≈ 1 + + VNR(` = ~ − 1) (A.28)
φT23 φ23

où (φT23 φ23 )−1 croissant en ~ et qui tend vers l’infini.


Le regroupement des équations (A.15), (A.22) et (A.28) montre que le critère z s’écrit
comme suit :

 1 + VNR(~) pour ~≤q
T −1
z(~) ≈ 1 + (φ3 φ3 ) + VNR(q) pour ~=q+1 (A.29)
T −1
1 + (φ23 φ23 ) + VNR(~ − 1) pour ~>q+1

Nous notons d’après (A.23) que (φT23 φ23 )−1 ≥ (φT3 φ3 )−1 . Selon l’hypothèse de l’équation
(A.2), le minimum du critère VNR correspond à q CPs. Par conséquent, l’équation (A.29)
montre que :
arg min {z(~)} = arg min {VNR(`)} = q (A.30)
~ `

Cela implique que la variance non reconstruite ne prend plus en considération les
variables indépendantes et quasi-indépendantes. En effet, elle est insensible à leurs pré-
sences. Le nombre des CPs qui correspondent au minimum du critère VNR appliqué sur
des données normalisées représente tout simplement le nombre des CPs uniquement entre
les variables corrélées.

141
Annexe A. Limitation du critère VNR

142
B
Limitation du critère IE

En présence d’un bruit i.i.d de variance identique σ 2 non nulle et d’après (2.71), les
valeurs propres de la matrice de covariance Σ représentent les éléments diagonaux de la
matrice suivante : " #
ˆ 2
Λ = Λ̊ + σ Iq 2 0 (B.1)
0 σ Im−q
ˆ
où Λ̊ ∈ Rq×q est la matrice diagonale donnée par (2.32). Elle est constituée par les q valeurs
propres non nulles de la matrice de covariance des variables étudiées sans la présence du
bruit de mesures.
Selon Malinowski (1977), le critère IE est supposé être efficace uniquement dans le
cas d’une matrice de covariance de données entachées par un bruit indépendant et iden-
tiquement distribué. Par conséquent, l’étude d’un tel critère se base principalement sur
l’équation (B.1). Afin d’établir une consistance théorique, Malinowski (1977) s’est limité à
l’étude du comportement de la fonction IE en montrant sa croissance au-delà de la qème
CP. Une telle propriété est justifiable car, d’après (B.1) et (2.52), ce critère peut s’écrire
pour un nombre de CPs supérieure ou égale à q comme suit :
 12
`σ 2

IE(` ≥ q) = (B.2)
Nm

Cependant, l’interprétation correcte de l’équation (B.2) implique que le critère IE ne


surestime plus le nombre des CPs en considérant de telle hypothèse sur la distribution du
bruit. Afin d’assurer que le minimum de ce critère corresponde à q CPs, il faut analyser
son comportement pour toutes valeurs de `. Autrement dit, il faut prouver ou établir une
condition nécessaire garantissant la décroissance de ce critère en ` pour ` < q. Sous cette
condition, nous pouvons montrer que le critère IE peut s’exprimer comme suit :

q
! 12
2
` X `σ
IE(` < q) = λ̊a + (B.3)
N m(m − `) a=`+1 Nm

143
Annexe B. Limitation du critère IE

Puisque IE présente des valeurs positives ou nulles, on peut alors vérifier le signe de
la différence suivante pour étudier son comportement :
  q
X
2
(m − `) (` − 1)λ̊` − (m − ` + 1)σ −m λ̊a
2 2 a=`+1
(IE(` − 1)) − (IE(`)) = (B.4)
N m(m − ` + 1)(m − `)

Notamment, le dénominateur de l’équation précédente est positif. Par conséquent, le


critère IE est monotone décroissant en ` pour ` < q si :
q  
m X m−`+1
λ̊` − λ̊ ≥ σ2 (B.5)
(m − `)(` − 1) a=`+1 a `−1

Cette inégalité représente la condition nécessaire et suffisante pour que le critère IE


admette un minimum en q CPs. Nous notons qu’une telle condition n’a pas été établie au-
paravant dans la littérature. Elle représente une consistance théorique qui nous permettra
de mettre en évidence l’inconvénient du critère IE. Dans le cas particulier où ` = q, la
condition donnée par (B.5) nous permet de déduire que :
 
m−q+1
λ̊q ≥ σ2 (B.6)
q−1

Malgré que la qème CP dispose d’une variance (λ̊q ) non nulle en l’absence du bruit
de mesures, l’inégalité précédente prouve qu’une telle CP ne peut pas être retenue par le
critère IE si λ̊q ne satisfait pas une telle condition.
En outre, une telle condition est paramétrée en fonction du nombre des variables m
ainsi que le nombre q, ce qui représente un inconvénient majeur pour ce critère. A titre
d’exemple, on peut supposer une augmentation du nombre m de variables sans changement
de la valeur de q. Par conséquent, le terme à droite de l’inégalité (B.6) sera plus sévère,
ce qui augmentera la chance de l’élimination de la qème CP.

144
C
Démonstration de la décroissance d’une
fonction

Puisque κ représente la dimension du modèle ACP dans l’espace de représentation de


Y, le sous-espace résiduel est alors engendré par les (m − κ) derniers vecteurs propres
constituant la matrice résiduelle :
 
G̃ = gκ+1 , · · · , gm (C.1)

En augmentant la dimension du sous-espace principal par l’addition d’une CP sup-


plémentaire, celle-ci va être retranchée du sous-espace résiduel. Ainsi, la nouvelle matrice
réduite des vecteurs propres résiduels aura la forme suivante :
 
G̃r = gκ+2 , · · · , gm (C.2)

On peut alors déduire que :


h i
G̃ = gκ+1 , G̃r (C.3)

Ainsi, les mêmes remarques sont également valables pour les valeurs propres :
 
dκ+1 0
D̃ = (C.4)
0 D̃r

D’après les deux équations précédentes, celle de (3.130) peut se réécrire comme suit :

ζiT Z̃Σ−1 Z̃ζi T


 T
−1
ũ2i (κ) = T T
= ζi G̃D̃G̃ ζi ζi G̃G̃ ζi
ζiT Z̃ζi
 T
 T
−1
= dκ+1 ζiT gκ+1 gTκ+1 ζi + ζiT G̃r D̃r G̃r ζi ζiT gκ+1 gTκ+1 ζi + ζiT G̃r G̃r ζi (C.5)

Afin de développer le terme inversé, nous avons utilisé la propriété suivante :


−1 −1
(a + b)−1 = a−1 − a−1 a−1 + b−1 a (C.6)

145
Annexe C. Démonstration de la décroissance d’une fonction

en posant
T
a = ζiT G̃r G̃r ζi et b = ζiT gκ+1 gTκ+1 ζi (C.7)
Par conséquent, et après simplifications, nous montrons que :
T
! !
T T T
ζi g κ+1 gκ+1 ζi ζ i G̃r G̃r ζi
ũ2i (κ) = ũ2i (κ + 1) + dκ+1 T T
(C.8)
ζiT G̃r G̃r ζi ζiT gκ+1 gTκ+1 ζi + ζiT G̃r G̃r ζi
avec  −1
T T
ũ2i (κ + 1) = ζiT G̃r D̃r G̃r ζi ζiT G̃r G̃r ζi (C.9)
Ce qui permet de calculer la différence suivante :
 
T T
ζi gκ+1 gκ+1 ζi
ũ2i (κ) − ũ2i (κ + 1) =   T
 T

ζiT gκ+1 gTκ+1 ζi + ζiT G̃r G̃r ζi ζiT G̃r G̃r ζi
   T 
T
× ζi G̃r dκ+1 Ir − D̃r G̃r ζi (C.10)

où Ir est une matrice identité de même dimension que celle de D̃r . Il est clair que :
 
T T
ζi gκ+1 gκ+1 ζi ≥0

T
 T
(C.11)
T T T T
ζi gκ+1 gκ+1 ζi + ζi G̃r G̃r ζi ζi G̃r G̃r ζi
 
En outre, dκ+1 Ir − D̃r est une matrice diagonale ayant la forme suivante :

dκ+1 − dκ+2 ···


 
0 0
..
0 dκ+1 − dκ+3 0 .
 
dκ+1 Ir − D̃r =  ≥0 (C.12)
 
.
.. . ..
 0 0 
0 ··· 0 dκ+1 − dm

En conséquence, la forme quadratique suivante est positive ou nulle :


  T
ζiT G̃r dκ+1 Ir − D̃r G̃r ζi ≥ 0 (C.13)

Donc
ũ2i (κ) ≥ ũ2i (κ + 1) (C.14)
Celle-ci prouve que la fonction ũ2i est monotone décroissante en κ.

146
D
Consistance théorique du critère VNRVI

D’après l’équation (3.126) et pour un nombre κ de CPs, la variance non reconstruite


de la ième variable de la matrice Y est réécrite comme suit :
T
ζiT G̃D̃G̃ ζi
σi2 (κ) = T
(D.1)
(ζiT G̃ G̃ ζi )2

avec G̃ ∈ Rm×(m−κ) est composée par les (m − κ) derniers vecteurs propres de la matrice
G de l’équation (3.120). Ainsi, D̃ ∈ R(m−κ)×(m−κ) est constituée des (m − κ) dernières
valeurs propres de la matrice D de l’équation (3.121).
Notons par G̃q ∈ Rm×q et D̃q ∈ Rq×q deux matrices composées par les q derniers
vecteurs et valeurs propres respectivement de G et D. Pour κ = m − q, on peut écrire ce
qui suit :
T
2
ζiT G̃q D̃q G̃q ζi dm−q+1
σi (κ = m − q) = T
≤ T
(D.2)
(ζiT G̃q G̃q ζi )2 ζiT G̃q G̃q ζi

1er cas : κ ≥ m − q Dans ce cas, on peut montrer que :


T
ζiT G̃D̃G̃ ζi dm
σi2 (κ) = T
≥ T
(D.3)
(ζiT G̃ G̃ ζi )2 ζiT G̃ G̃ ζi

Afin que σi2 soit monotone croissante, i.e. σi2 (κ ≥ m − q) ≥ σi2 (κ = m − q), il faut que :

dm−q+1 dm
T
≤ T
(D.4)
ζiT G̃q G̃q ζi ζiT G̃ G̃ ζi
Ce qui implique que :
T
dm−q+1 ζiT G̃q G̃q ζi
≤ T
(D.5)
dm ζiT G̃ G̃ ζi

147
Annexe D. Consistance théorique du critère VNRVI

2ème cas : κ < m − q En considérant ce cas, les matrices G̃ et D̃ peuvent être décom-
posées respectivement comme suit :
h i
G̃ = G̃1 G̃q (D.6)

 
D̃1 0
D̃ = (D.7)
0 D̃q
où G̃1 ∈ Rm×(m−κ−q) et D̃1 ∈ R(m−κ−q)×(m−κ−q) . Les matrices G̃q et D̃q sont celles utilisées
dans le 1er cas. Puisque G̃1 et G̃q sont orthogonales, on peut déduire que :
T T
ζiT G̃1 D̃1 G̃1 ζi ζiT G̃q D̃q G̃q ζi
σi2 (κ < m − q) = T
+ T
(D.8)
(ζiT G̃ G̃ ζi )2 (ζiT G̃ G̃ ζi )2
ainsi,
T T !
T (ζiT G̃q G̃q ζi )2 − (ζiT G̃ G̃ ζi )2
σi2 (κ < m − q) − σi2 (κ = m − q) = ζiT G̃q D̃q G̃q ζi T T
(ζiT G̃ G̃ ζi )2 (ζiT G̃q G̃q ζi )2
T
ζiT G̃1 D̃1 G̃1 ζi
+ T
(ζiT G̃ G̃ ζi )2
T T !
T (ζiT G̃ G̃ ζi )2 − (ζiT G̃q G̃q ζi )2
≥ −ζiT G̃q D̃q G̃q ζi T T
(ζiT G̃ G̃ ζi )2 (ζiT G̃q G̃q ζi )2
T
ζiT G̃1 G̃1 ζi
+dm−q T
(ζiT G̃ G̃ ζi )2
T T T T !
T T ζi G̃ G̃ ζi + ζi G̃q G̃q ζi
= dm−q − ζi G̃q D̃q G̃q ζi T
(ζiT G̃q G̃q ζi )2
T
ζiT G̃1 G̃1 ζi
× T
(ζiT G̃ G̃ ζi )2
T T !
ζiT G̃ G̃ ζi + ζiT G̃q G̃q ζi
≥ dm−q − dm−q+1 T
(ζiT G̃q G̃q ζi )2
T
ζiT G̃1 G̃1 ζi
× T
(D.9)
(ζiT G̃ G̃ ζi )2
Pour garantir que σi2 (κ < m − q) ≥ σi2 (κ = m − q), il faut que le terme à droite de la
dernière inégalité soit positif ou nul ce qui implique que :
T
!
ζiT G̃ G̃ ζi
dm−q ≥ 1 + T
dm−q+1 (D.10)
ζiT G̃q G̃q ζi

148
E
Relation entre un seuil de contrôle et celui
reconstruit

En supposant que la direction de reconstruction ΞI est la même que celle du défaut


réel et d’après l’équation (4.11), l’indice reconstruit γI=J ne dépend plus du vecteur d’am-
plitudes f du défaut. En outre, la zone de contrôle appropriée pour un tel indice demeure
la même indépendamment de f. Par conséquent, on peut calculer a priori la limite de
contrôle Γ2I en l’absence de défauts sur toutes les directions possibles ΞI où {I = 1, 2, · · · }.
De telles limites de contrôle demeurent également valides même en présence de défauts.
On pose γI∗ l’indice reconstruit dans la direction de ΞI en l’absence de défauts :
1
γI∗ (k) = k(Im − ΞoI ΞoT 2
∗ 2 2
I ) M x (k)k ≤ ΓI (E.1)
La forme d’un tel indice est équivalente à celle de γI=J lorsque la direction de re-
construction est la même que celle d’un défaut réel. Ainsi, son expression peut se réécrire
comme suit :
1 1
γI∗ (k) = k M 2 x∗ (k)k2 − kΞoI ΞoT ∗
I M x (k)k
2
2
1
= γ ∗ (k) − kΞoI ΞoT ∗
I M x (k)k
2
2
(E.2)
où γ ∗ représente l’indice de détection exprimé avec des mesures prélevées sous des condi-
tions normales en l’absence de défauts. D’après (3.7), on peut déduire que :
1
γ ∗ (k) = k M 2 x∗ (k)k2 ≤ Γ2 (E.3)
ainsi,
1
γI∗ (k) ≤ Γ2 − kΞoI ΞoT ∗
I M x (k)k
2
2
(E.4)
1

Etant donné que kΞoI ΞoT 2
I M x (k)k représente une quantité aléatoire, la considéra-
2

tion de la moyenne de l’équation (E.2) donne :


1
E{γ ∗ (k) − γI∗ (k)} = E{kΞoI ΞoT ∗ 2
I M x (k)k }
2

1 1
∗ ∗T
= tr{ΞoI ΞoT o oT
I M E{x (k)x (k)} M ΞI ΞI }
2 2

= tr{ΞoI ΞoT
I M Σ} (E.5)

149
Annexe E. Relation entre un seuil de contrôle et celui reconstruit

Par conséquent, la réduction prévue dans l’indice γ ∗ due à la reconstruction dans Γ2I
est identique à tr{ΞoI ΞoT
I M Σ}. Ce résultat peut être utilisé pour estimer la limite de
contrôle de γI∗ lorsque celle-ci est caractérisée par la même loi de probabilité que celle de
γ ∗,
Γ2I = Γ2 − tr{ΞoI ΞoTI M Σ} (E.6)
Une telle équation implique que :

Γ2 ≥ Γ2I (E.7)

150
F
Démonstrations d’unification

Sous une notation vectorielle, les paramètres de l’équation (4.69) sont déterminés
comme suit :
xi (k) = ξiT x(k) (F.1)

x̃n (k) = ξnT C̃x(k) (F.2)

c̃ni = ξnT C̃ξi = ξiT C̃ξn (F.3)


où les vecteurs ξi et ξn représentent respectivement la ième et la nème colonne de la
matrice identité.
Puisque ces équations représentent des scalaires, nous pouvons déduire que :
x̃2
ci n (k) = xi (k)x̃n (k)c̃ni
= ξiT x(k)ξnT C̃x(k)ξnT C̃ξi
= xT (k)ξi ξiT C̃ξn ξnT C̃x(k)
= xT (k)C̃ξn ξnT C̃ξi ξiT x(k) (F.4)
Ainsi, l’équation (4.71) peut se réécrire en rappelant que C̃ est une matrice idempo-
tente comme suit :
Xm
P DCiSP E (k) = xi (k)x̃n (k)c̃ni
n=1
m
X
= xT (k)C̃ξn ξnT C̃ξi ξiT x(k)
n=1

= x (k)C̃ξi ξiT x(k)


T
(F.5)
Concernant la contribution par décomposition partielle de l’indice SP E basée sur les
CPs résiduelles, on peut écrire les scalaires de l’équation (4.73) sous une forme vectorielle
comme suit :
T
ta (k) = ζaT t̃(k) = ζaT P̃ x(k) (F.6)

151
Annexe F. Démonstrations d’unification

T
pai = ξiT P̃ζa = ζaT P̃ ξi (F.7)
avec ζa ∈ Rm−` est un vecteur qui représente la aème colonne d’une matrice identité
d’ordre (m − `).
Par conséquent, l’équation (4.73) peut être exprimée de la façon suivante :
t2
cia (k) = ta (k)pai xi (k)
T T
= ζaT P̃ x(k)ζaT P̃ ξi ξiT x(k)
T
= xT (k)P̃ζa ζaT P̃ ξi ξiT x(k) (F.8)

D’après l’équation (4.74), on peut alors déduire que :


m
t2
X
P DCiSP E (k) = cia (k)
a=`+1
m
X T
= xT (k)P̃ζa ζaT P̃ ξi ξiT x(k)
a=`+1
T
= xT (k)P̃P̃ ξi ξiT x(k)
= xT (k)C̃ξi ξiT x(k) (F.9)

On peut conclure que les contributions par décomposition partielle de l’indice SP E


en se basant sur les résidus (F.5) ou sur les CPs (F.9) sont théoriquement identiques. En
revanche, leurs résultats seront nécessairement différents lorsqu’on annule les contributions
négatives d’une variable donnée relativement à un résidu ou à une CP résiduelle selon le
principe de la méthode considérée.

152
G
Invalidité d’un diagnostic par comparaison
des RBC à leurs seuils de contrôle

D’après l’équation (4.97), l’expression de la RBC se caractérise par une forme qua-
dratique. Sous des conditions normales, les seuils de contrôle des RBC peuvent être dé-
terminés en s’appuyant sur les travaux de Box (1954) comme suit :
2 2
ηRBC γ = g
RBC γ χ(h γ ,α)
(G.1)
I I RBC
I

avec
1 1
tr[(Σ M 2 ΞoI ΞoT 2 2
I M ) ]
gRBC γ = 1 1 (G.2)
I
tr[Σ M 2 ΞoI ΞoT
I M ]
2

et
1 1
(tr[Σ M 2 ΞoI ΞoT
I M ])
2 2
hRBC γ = 1 1 (G.3)
I
tr[(Σ M 2 ΞoI ΞoT 2 2
I M ) ]

Dans le cas des défauts complexes, les mesures qui représentent le fonctionnement
normal ne peuvent pas être négligées, ce qui implique que l’équation (2.59) est reconsidérée
de nouveau. Selon l’équation (4.97), le vecteur qui mène à calculer la RBC du Ième
ensemble de variables peut être réécrit comme suit :
1 1 1

ΞoI ΞoT 2
o oT 2
o oT
I M x(k) = ΞI ΞI M x (k) + ΞI ΞI M ΞI f(k)
2 (G.4)

ce qui peut nous permettre d’écrire :


1 1 1

kΞoI ΞoT 2
o oT 2
o oT
I M x(k)k ≥ kΞI ΞI M ΞJ f(k)k − kΞI ΞI M x (k)k
2 (G.5)

On note que ΞoI ΞoT


I est une matrice idempotente. En se référant à l’équation (3.7), on
peut montrer que :
1 1
∗ ∗
kΞoI ΞoT 2
o oT
I M x (k)k ≤ kΞI ΞI k × k M x (k)k ≤ Γ
2 (G.6)

153
Annexe G. Invalidité d’un diagnostic par comparaison des RBC à leurs seuils de contrôle

Ainsi, la substitution de (G.6) dans (G.5) en considérant la positivité de la norme


euclidienne mène à l’inégalité suivante :
1 1
kΞoI ΞoT 2
o oT
I M x(k)k ≥ kΞI ΞI M ΞJ f(k)k − Γ ≥ 0
2 (G.7)

Afin d’assurer que l’effet de propagation du défaut réel FJ étant capable de rendre les
contributions des autres ensembles I de variables supérieures à leurs limites de contrôle,
il faut que RBCIγ (k) > ηRBC
2
γ . En revanche et dans le but qu’un tel défaut soit également
I
garanti détectable, on doit supposer que :

RBCIγ (k) > Γ2 (G.8)

En s’appuyant sur le principe utilisé dans l’annexe E, on peut montrer que :

Γ2 > ηRBC
2
γ (G.9)
I

Pour que l’inégalité (G.8) soit satisfaite, il est nécessaire d’imposer ce qui suit :
1 1
kΞoI ΞoT 2 o oT 2
I M x(k)k ≥ (kΞI ΞI M ΞJ f(k)k − Γ) > Γ
2 2
2
(G.10)

Ainsi, la résolution de l’inégalité précédente contraint que :


1
kΞoI ΞoT
I M ΞJ f(k)k > 2Γ
2 (G.11)

On déduit alors que tout défaut réel FJ dont l’amplitude satisfait une telle inégalité
garantit que la RBC du Ième ensemble de variables soit supérieure au seuil de contrôle
correspondant. Si l’amplitude d’un tel défaut est importante, il est possible d’identifier
tous les ensembles de variables comme responsables en procédant à un diagnostic de
défauts par l’approche RBC comparée à ses seuils de contrôle.

154
Références bibliographiques

Acosta, G., González, C.A., et Pulido, B. (2001). Basic tasks for knowledge-based su-
pervision in process control. Engineering Applications of Artificial Intelligence, 14(4),
441–455.

Adrot, O. (2000). Diagnostic à base de modèles incertains utilisant l’analyse par inter-
valles : l’approche bornante. Thèse de doctorat, Institut National Polytechnique de
Lorraine.

Akaike, H. (1973). Information theory and an extension of the maximum likelihood prin-
ciple. In Second International Symposium on Information Theory, 267–281. Tsahkadsor,
Armenian SSR.

Alcala, C.F. et Qin, S.J. (2009). Reconstruction-based contribution for process monitoring.
Automatica, 45(7), 1593–1600.

Alcala, C.F. et Qin, S.J. (2011). Analysis and generalization of fault diagnosis methods
for process monitoring. Journal of Process Control, 21(3), 322–330.

Alt, F.B. (1982). Bonferroni Inequalities and Intervals. In Encyclopedia of Statistical


Sciences, S. Kotz and N.L. Johnson, volume 1. John Wiley & Sons, Inc.

Anderson, T.W. (1963). Asymptotic Theory for Principal Component Analysis. Annals
of Mathematical Statistics, 34(1), 122–148.

Bartlett, M.S. (1954). A Note on the Multiplying Factors for Various χ2 Approximations.
Journal of the Royal Statistical Society. Series B (Methodological), 16(2), 296–298.

Basseville, M. et Nikiforov, I.V. (1993). Detection of Abrupt Changes : Theory and Ap-
plication. Prentice-Hall, Inc.

Besse, P. et Ferré, L. (1993). Sur l’usage de la validation croisée en analyse en composantes


principales. Revue de Statistique Appliquée, 41(1), 71–76.

Box, G.E.P. (1954). Some Theorems on Quadratic Forms Applied in the Study of Analysis
of Variance Problems, I. Effect of Inequality of Variance in the One-Way Classification.
Ann. Math. Statist., 25(2), 290–302.

Breuker, J. et Van De Velde, W. (1994). CommonKADS Library for expertise modelling :


reusable problem solving components. IOS Press.

155
Références bibliographiques

Cattell, R.B. (1966). The Scree Test For The Number Of Factors. Multivariate Behavioral
Research, 1(2), 245–276.

Chen, J., Bandoni, A., et Romagnoli, J.A. (1996). Robust statistical process monitoring.
Computers & Chemical Engineering, 20, Supplement 1, S497–S502.

Cheng, S.W. et Thaga, K. (2006). Single Variables Control Charts : an Overview. Quality
and Reliability Engineering International, 22(7), 811–820.

Cherry, G.A. et Qin, S.J. (2006). Multiblock principal component analysis based on a
combined index for semiconductor fault detection and diagnosis. IEEE Transactions
on Semiconductor Manufacturing, 19(2), 159–172.

Choi, S.W., Lee, C., Lee, J.M., Park, J.H., et Lee, I.B. (2005). Fault detection and
identification of nonlinear processes based on kernel PCA. Chemometrics and Intelligent
Laboratory Systems, 75(1), 55–67.

Cinar, A., Palazoğlu, A., et Kayihan, F. (2007). Chemical process performance evaluation.
CRC Press.

Conlin, A.K., Martin, E.B., et Morris, A.J. (2000). Confidence limits for contribution
plots. Journal of Chemometrics, 14(5-6), 725–736.

Duncan, A.J. (1956). The Economic Design of x̄ Charts Used to Maintain Current Control
of the Process. Journal of the American Statistical Association, 51(274), 228–242.

Dunia, R. et Qin, S.J. (1998a). A unified geometric approach to process and sensor fault
identification and reconstruction : the unidimensional fault case. Computers & Chemical
Engineering, 22(7-8), 927–943.

Dunia, R. et Qin, S.J. (1998b). Joint diagnosis of process and sensor faults using principal
component analysis. Control Engineering Practice, 6(4), 457–469.

Dunia, R. et Qin, S.J. (1998c). Subspace Approach to Multidimensional Fault Identifica-


tion and Reconstruction. AIChE Journal, 44(8), 1813–1831.

Dunia, R., Qin, S.J., Edgar, T.F., et McAvoy, T.J. (1996). Identification of faulty sensors
using principal component analysis. AIChE Journal, 42(10), 2797–2812.

Eastment, H.T. et Krzanowski, W.J. (1982). Cross-Validatory Choice of the Number of


Components from a Principal Component Analysis. Technometrics, 24(1), 73–77.

Elbekkaye, Z. (1993). Maı̂trise de la qualité totale : outils de la maı̂trise statistique des


processus (MSP ou SPC). Hermes, Paris, France.

Feigenbaum, A.V. (1983). Total quality control. McGraw-Hill.

Fortuna, L., Graziani, S., Rizzo, A., et Xibilia, M.G. (2006). Soft Sensors for Monitoring
and Control of Industrial Processes (Advances in Industrial Control). Springer-Verlag
New York, Inc.

156
Gentil, S. (2007). Supervision des procédés complexes. Hermes Science Publications.

Gerlter, J.J. (1998). Fault Detection and Diagnosis in Engineering Systems. Marcel
Dekker.

Guttman, L. (1954). Some necessary conditions for common-factor analysis. Psychome-


trika, 19(2), 149–161.

Harkat, M.F. (2003). Détection et Localisation de Défauts par Analyse en Composantes


Principales. Thèse de doctorat, Institut National Polytechnique de Lorraine.

Harkat, M.F., Djelel, S., Doghmane, N., et Benouaret, M. (2007). Sensor Fault Detection,
Isolation and Reconstruction Using Nonlinear Principal Component Analysis. Interna-
tional Journal of Automation and Computing, 4(2), 149–155.

Harkat, M.F., Mourot, G., et Ragot, J. (2002). Différentes méthodes de localisation de


défauts basées sur les dernières composantes principales. In Conférence Internationale
Francophone d’Automatique. Nantes, France.

Harkat, M.F., Mourot, G., et Ragot, J. (2005). Diagnostic de fonctionnement de capteurs


d’un réseau de surveillance de la qualité de l’air par analyse en composantes principales.
Journal Européen des Systèmes Automatisés, 39(4), 417–436.

Harkat, M.F., Mourot, G., et Ragot, J. (2006). An improved PCA scheme for sensor FDI :
Application to an air quality monitoring network. Journal of Process Control, 16(6),
625–634.

Hawkins, D.M. (1974). The Detection of Errors in Multivariate Data Using Principal
Components. Journal of the American Statistical Association, 69(346), 340–344.

Hawkins, D.M. et Maboudou-Tchao, E.M. (2008). Multivariate Exponentially Weighted


Moving Covariance Matrix. Technometrics, 50(2), 155–166.

Hayter, A.J. et Tsui, K.L. (1994). Identification and Quantification In Multivariate Qua-
lity Control Problems. Journal of Quality Technology, 26(3), 197–208.

Healy, J.D. (1987). A Note on Multivariate CUSUM Procedures. Technometrics, 29(4),


409–412.

Hernández-De-León, H.R. (2006). Supervision et diagnostic des procédés de production


d’eau potable. Thèse de doctorat, Institut National des Sciences Appliquées de Toulouse.

Hotelling, H. (1933). Analysis of a complex of statistical variables into principal compo-


nents. Journal of Educational Psychology, 24(7), 498–520.

Hotelling, H. (1947). Selected Techniques of Statistical Analysis for Scientific and Indus-
trial Research and Production and Management Engineering, chapter Multivariate Qua-
lity Control, Illustrated by the Air Testing of Sample Bombsights, 111–184. McGraw-
Hill Book Company.

157
Références bibliographiques

Huang, Y., Gertler, J., et McAvoy, T.J. (2000). Sensor and actuator fault isolation by
structured partial PCA with nonlinear extensions. Journal of Process Control, 10(5),
459–469.

Hubert, M., Rousseeuw, P.J., et Branden, K.V. (2005). ROBPCA : A New Approach to
Robust Principal Component Analysis. Technometrics, 47(1), 64–79.

Hunter, J.S. (1986). The exponentially weighted moving average. Journal of Quality
Technology, 18(4), 203–210.

Isermann, R. (1997). Supervision, fault-detection and fault-diagnosis methods – An in-


troduction. Control Engineering Practice, 5(5), 639–652.

Isermann, R. (2005). Model-based fault-detection and diagnosis – status and applications.


Annual Reviews in Control, 29(1), 71–85.

Isermann, R. (2011). Fault Diagnosis Applications : Model Based Condition Monitoring,


Actuators, Drives, Machinery, Plants, Sensors, and Fault-tolerant Systems. Springer.

Isermann, R. et Ballé, P. (1997). Trends in the application of model-based fault detection


and diagnosis of technical processes. Control Engineering Practice, 5(5), 709–719.

Jackson, J.E. (1980). Principal Components and Factor Analysis : Part I - Principal
Components. Journal of Quality Technology, 12(4), 201–213.

Jackson, J.E. (1991). A User’s Guide to Principal Components. John Wiley & Sons Inc.

Jackson, J.E. et Mudholkar, G.S. (1979). Control Procedures for Residuals Associated
with Principal Component Analysis. Technometrics, 21(3), 341–349.

Jia, F., Martin, E.B., et Morris, A.J. (1998). Non-linear Principal Components Analysis
for Process Fault Detection. Computers & Chemical Engineering, 22, Supplement 1,
S851–S854.

Jolliffe, I.T. (2002). Principal Component Analysis. Springer-Verlag, 2nd edition.

Kaiser, H.F. (1961). A note on Guttman’s lower bound for the number of common factors.
British Journal of Statistical Psychology, 14(1), 1–2.

Kariwala, V., Odiowei, P.E., Cao, Y., et Chen, T. (2010). A branch and bound method
for isolation of faulty variables through missing variables analysis. Journal of Process
Control, 20(10), 1198–1206.

Kourti, T. (2005). Application of latent variable methods to process control and multiva-
riate statistical process control in industry. International Journal of Adaptive Control
and Signal Processing, 19(4), 213–246.

Kourti, T. et MacGregor, J.F. (1995). Process analysis, monitoring and diagnosis, using
multivariate projection methods. Chemometrics and Intelligent Laboratory Systems,
28(1), 3–21.

158
Kourti, T. et MacGregor, J.F. (1996). Multivariate SPC Methods for Process and Product
Monitoring. Journal of Quality Technology, 28(4), 409–428.

Kourti, T., Nomikos, P., et MacGregor, J.F. (1995). Analysis, monitoring and fault diag-
nosis of batch process using multiblock and multiway PLS. Journal of Process Control,
5(4), 277–284.

Kresta, J.V., MacGregor, J.F., et Marlin, T.E. (1991). Multivariate statistical monitoring
of process operating performance. The Canadian Journal of Chemical Engineering,
69(1), 35–47.

Lawley, D.N. (1956). Tests of Significance for the Latent Roots of Covariance and Corre-
lation Matrices. Biometrika, 43(1/2), 128–136.

Lee, J.M., Yoo, C., Choi, S.W., Vanrolleghem, P.A., et Lee, I.B. (2004). Nonlinear process
monitoring using kernel principal component analysis. Chemical Engineering Science,
59(1), 223–234.

Li, W. et Qin, S.J. (2001). Consistent dynamic PCA based on errors-in-variables subspace
identification. Journal of Process Control, 11(6), 661–678.

Lowry, C.A., Woodall, W.H., Champ, C.W., et Rigdon, S.E. (1992). A Multivariate
Exponentially Weighted Moving Average Control Chart. Technometrics, 34(1), 46–53.

MacGregor, J.F. et Kourti, T. (1995). Statistical process control of multivariate processes.


Control Engineering Practice, 3(3), 403–414.

Malinowski, E.R. (1977). Determination of the number of factors and the experimental
error in a data matrix. Analytical Chemistry, 49(4), 612–617.

Mason, R.L., Tracy, N.D., et Young, J.C. (1995). Decomposition of T2 for Multivariate
Control Chart Interpretation. Journal of Quality Technology, 27(2), 109–119.

Mason, R.L., Tracy, N.D., et Young, J.C. (1996). Monitoring a Multivariate Step Process.
Journal of Quality Technology, 28(1), 39–50.

Miller, P., Swanson, R.E., et Heckler, C.E. (1998). Contribution plots : A missing link in
multivariate quality control. Applied Mathematics and Computer Science, 8(4), 775–
792.

Mnassri, B., Ananou, B., El Adel, E.M., Ouladsine, M., et Gasnier, F. (2008a). Détection
et localisation de défauts des Wafers par des approches statistiques multivarièes et calcul
des contributions. In Conférence Internationale Francophone d’Automatique. Bucarest,
Romanie.

Mnassri, B., El Adel, E.M., Ananou, B., et Ouladsine, M. (2009a). Détection et Identifica-
tion de défauts par Analyse en Composantes Principales. In 3èmes Journées Doctorales
/ Journées Nationales MACS. Angers, France.

159
Références bibliographiques

Mnassri, B., El Adel, E.M., Ananou, B., et Ouladsine, M. (2009b). Fault Detection and
Diagnosis Based on PCA and a New Contribution Plots. In 7th IFAC Symposium on
Fault Detection, Supervision and Safety of Technical Processes, 834–839. Barcelona,
Spain.

Mnassri, B., El Adel, E.M., Ananou, B., et Ouladsine, M. (2010a). A Generalized Variance
of Reconstruction Error Criterion for Determining the Optimum Number of Principal
Components. In 18th Mediterranean Conference on Control and Automation, 868–873.
IEEE, Marrakech, Morocco.

Mnassri, B., El Adel, E.M., Ananou, B., et Ouladsine, M. (2010b). Selection of the Number
of Principal Components Based on the Fault Reconstruction Approach Applied to a
New Combined Index. In 49th IEEE Conference on Decision and Control, 3307–3312.
Atlanta, Georgia, USA.

Mnassri, B., El Adel, E.M., et Ouladsine, M. (2008b). Fault Localization Using Principal
Component Analysis Based on a New Contribution to the Squared Prediction Error.
In 16th Mediterranean Conference on Control and Automation, 65–70. IEEE, Ajaccio,
France.

Mnassri, B., El Adel, E.M., et Ouladsine, M. (2010c). New VRE Criterion to Select the
Optimum Number of PCs. In 11th International conference on Sciences and Techniques
of Automatic control & computer engineering, 1–13. Monastir, Tunisia.

Mnassri, B., El Adel, E.M., et Ouladsine, M. (2011a). Inverse-Variance Weighting PCA-


based VRE criterion to select the optimal number of PCs. In 18th IFAC World Congress,
2851–2856. Milano, Italy.

Mnassri, B., El Adel, E.M., et Ouladsine, M. (2011b). Une généralisation sur les conditions
suffisantes de détectabilité de défauts multidimensionnels par ACP. In Conférence
Méditerranéenne sur l’Ingénierie Sûre des Systèmes Complexes. Agadir, Maroc.

Mnassri, B., El Adel, E.M., et Ouladsine, M. (2012a). Unified Sufficient Conditions for
PCA-based Fault Detectability and Isolability. In 8th IFAC Symposium on Fault De-
tection, Supervision and Safety of Technical Processes, 421–426. Mexico City, Mexico.

Mnassri, B., Ouladsine, M., et El Adel, E.M. (2012b). Diagnostic de défauts par l’ap-
proche RBC ratio. In Conférence Internationale Francophone d’Automatique, 114–119.
Grenoble, France.

Montgomery, D.C. (2001). Introduction to statistical quality control. John Wiley.

Nenes, G. et Tagaras, G. (2007). The economically designed two-sided Bayesian control


chart. European Journal of Operational Research, 183(1), 263–277.

Niang, N. et Saporta, G. (1995). Période opérationnelle moyenne de la carte de moyennes


mobiles équipondérées pour le contrôle du centrage d’un procédé. Revue de Statistique
Appliquée, 43(3), 5–20.

160
Nomikos, P. (1996). Detection and diagnosis of abnormal batch operations based on
multi-way principal component analysis. ISA transactions, 35(3), 259–266.

Nomikos, P. et MacGregor, J.F. (1994). Monitoring Batch Processes Using Multiway


Principal Component Analysis. AIChE Journal, 40(8), 1361–1375.

Nomikos, P. et MacGregor, J.F. (1995). Multivariate SPC Charts for Monitoring Batch
Processes. Technometrics, 37(1), 41–59.

Page, E.S. (1954). Continuous Inspection Schemes. Biometrika, 41(1/2), 100–115.

Pearson, K. (1901). On Lines and Planes of Closest Fit to Systems of Points in Space.
Philosophical Magazine, 2(6), 559–572.

Ploix, S. (1998). Diagnostic des systèmes incertains : Approche bornante. Thèse de


doctorat, Université Henri Poincaré.

Qin, S.J. (2003). Statistical process monitoring : basics and beyond. Journal of Chemo-
metrics, 17(8–9), 480–502.

Qin, S.J. et Dunia, R. (2000). Determining the number of principal components for best
reconstruction. Journal of Process Control, 10(2), 245–250.

Qin, S.J., Valle, S., et Piovoso, M.J. (2001). On unifying multiblock analysis with appli-
cation to decentralized process monitoring. Journal of Chemometrics, 15(9), 715–742.

Raich, A. et Çinar, A. (1996). Statistical Process Monitoring and Disturbance Diagnosis


in Multivariable Continuous Processes. AIChE Journal, 42(4), 995–1009.

Ripoll, P. (1999). Conception d’un système de diagnostic flou appliqué au moteur auto-
mobile. Thèse de doctorat, Université de Savoie.

Rissanen, J. (1978). Modeling by shortest data description. Automatica, 14(5), 465–471.

Roberts, S.W. (1959). Control Chart Tests Based on Geometric Moving Averages. Tech-
nometrics, 1(3), 239–250.

Schölkopf, B., Smola, A., et Müller, K.R. (1998). Nonlinear Component Analysis as a
Kernel Eigenvalue Problem. Neural Computation, 10(5), 1299–1319.

Schwarz, G. (1978). Estimating the Dimension of a Model. The Annals of Statistics, 6(2),
461–464.

Shao, R., Jia, F., Martin, E.B., et Morris, A.J. (1999). Wavelets and non-linear principal
components analysis for process monitoring. Control Engineering Practice, 7(7), 865–
879.

Shewhart, W.A. (1931). Economic control of quality of manufactured product. American


Society for Quality Control.

161
Références bibliographiques

Shrager, R.I. et Hendler, R.W. (1982). Titration of individual components in a mixture


with resolution of difference spectra, pKs, and redox transitions. Analytical Chemistry,
54(7), 1147–1152.

Smilde, A.K., Bro, R., et Geladi, P. (2004). Multi-way analysis with applications in the
chemical sciences. J. Wiley.

Sun, R., Tsung, F., et Qu, L. (2007). Evolving kernel principal component analysis for
fault diagnosis. Computers & Industrial Engineering, 53(2), 361–371.

Tamura, M. et Tsujita, S. (2007). A study on the number of principal components and


sensitivity of fault detection using PCA. Computers & Chemical Engineering, 31(9),
1035–1046.

Tharrault, Y. (2008). Diagnostic de fonctionnement par analyse en composantes prin-


cipales : Application à une station de traitement des eaux usées. Thèse de doctorat,
Institut National Polytechnique de Lorraine.

Tharrault, Y., Mourot, G., Ragot, J., et Maquin, D. (2008). Fault detection and isolation
with robust principal component analysis. Int. J. Appl. Math. Comput. Sci., 18(4),
429–442.

Tiplica, T. (2002). Contributions à la Maı̂trise Statistique des Processus Industriels Mul-


tivariés. Thèse de doctorat, Université d’Angers.

Valle, S., Li, W., et Qin, S.J. (1999). Selection of the Number of Principal Components :
The Variance of the Reconstruction Error Criterion with a Comparison to Other Me-
thods. Ind. Eng. Chem. Res., 38(11), 4389–4401.

Vargas, V.C.C., Lopes, L.F.D., et Souza, A.M. (2004). Comparative study of the perfor-
mance of the CuSum and EWMA control charts. Computers & Industrial Engineering,
46(4), 707–724.

Vellemans, P. (2006). Contribution à la conception d’un outil adapté à l’Opérateur Humain


pour la reconstruction d’une traçabilité « approchée ». Thèse de doctorat, Université de
Reims Champagne-Ardenne.

Verron, S., Tiplica, T., et Kobi, A. (2008). Fault detection and identification with a
new feature selection based on mutual information. Journal of Process Control, 18(5),
479–490.

Wang, H., Zhou, H., et Hang, B. (2004). Number selection of principal components with
optimized process monitoring performance. In 43th IEEE Conference on Decision and
Control, 4726–4731. Paradise Island, Bahamas.

Wax, M. et Kailath, T. (1985). Detection of signals by information theoretic criteria.


IEEE Transactions on Acoustics, Speech and Signal Processing, 33(2), 387–392.

162
Westerhuis, J.A., Gurden, S.P., et Smilde, A.K. (2000a). Generalized contribution plots
in multivariate statistical process monitoring. Chemometrics and Intelligent Laboratory
Systems, 51(1), 95–114.

Westerhuis, J.A., Gurden, S.P., et Smilde, A.K. (2000b). Standardized Q-statistic for
improved sensitivity in the monitoring of residuals in MSPC. Journal of Chemometrics,
14(4), 335–349.

Wise, B.M., Gallagher, N.B., Bro, R., Shaver, J.M., Windig, W., et Koch, R.S. (2006).
PLS Toolbox User Manual. Eigenvector Research, Inc., Wenatchee, USA.

Wold, S. (1978). Cross-Validatory Estimation of the Number of Components in Factor


and Principal Components Models. Technometrics, 20(4), 397–405.

Woodall, W.H. et Ncube, M.M. (1985). Multivariate CUSUM Quality-Control Procedures.


Technometrics, 27(3), 285–292.

Woodward, R.H. et Goldsmith, P.L. (1964). Cumulative sum techniques. Oliver & Boyd.

Yeomans, K.A. et Golder, P.A. (1982). The Guttman-Kaiser Criterion as a Predictor of


the Number of Common Factors. The Statistician, 31(3), 221–229.

Yoon, S. et MacGregor, J.F. (2001). Fault diagnosis with multivariate statistical models
part I : using steady state fault signatures. Journal of Process Control, 11(4), 387–400.

Yue, H.H. et Qin, S.J. (2001). Reconstruction-Based Fault Identification Using a Combi-
ned Index. Ind. Eng. Chem. Res., 40(20), 4403–4414.

Zaı̈di, A. (1989). SPC : Concepts, méthodologies et outils. Technique et Documentation,


Paris, France.

Zwingelstein, G. (1995). Diagnostic des défaillances : théorie et pratique pour les systèmes
industriels. Traité des nouvelles technologies. Série Diagnostic et maintenance. Hermès.

163
Résumé
Ce mémoire de thèse présente une étude fondamentale enrichie par des contributions qui sont articulées
autour de la modélisation de processus ainsi qu’un diagnostic de défauts en utilisant l’analyse en composantes
principales (ACP).
Dans l’objectif d’un choix optimal du modèle ACP, une étude comparative de quelques critères connus
dans la littérature nous a permis de conclure que le problème rencontré est souvent lié à une ignorance des
variables indépendantes et quasi-indépendantes. Dans ce cadre, nous avons réalisé deux démonstrations mettant
en évidence les limitations de deux critères en particulier la variance non reconstruite (VNR). En s’appuyant sur
le principe d’une telle variance, nous avons proposé trois nouveaux critères. Parmi eux, deux ont été considérés
comme étant empiriques car seule l’expérience permettra de prouver leur efficacité. Le troisième critère noté
VNRVI représente un remède à la limitation du critère VNR. Une étude de sa consistance théorique a permis
d’établir les conditions garantissant l’optimalité de son choix. Les résultats de simulation ont validé une telle
théorie en prouvant ainsi que le critère VNRVI étant plus efficace que ceux étudiés dans cette thèse.
Dans le cadre d’un diagnostic de défauts par ACP, l’approche de reconstruction des indices de détection ainsi
que celle des contributions ont été utilisées. A travers une étude de généralisation, nous avons étendu le concept
d’isolabilité de défauts par reconstruction à tout indice quadratique. Une telle généralisation nous a permis
d’élaborer une analyse théorique d’isolabilité de défauts par reconstruction de la distance combinée versus celles
des indices SP E et T 2 de Hotelling en mettant en avant l’avantage de l’utilisation d’une telle distance. D’autre
part, nous avons proposé une nouvelle méthode de contribution par décomposition partielle de l’indice SP E.
Cette approche garantit un diagnostic correct de défauts simples ayant de grandes amplitudes. Nous avons
également étendu une méthode de contribution classiquement connue par la RBC au cas multidimensionnel.
Ainsi, la nouvelle forme garantit un diagnostic correct de défauts multiples de grandes amplitudes. En considérant
la complexité de défauts, nous avons exploité la nouvelle approche de contribution RBC afin de proposer une
nouvelle qui s’appelle RBCr. Cette dernière s’appuie sur un seuil de tolérance pour l’isolation de défauts.
Une analyse de diagnosticabilité basée sur la RBCr montre que celle-ci garantit l’identification des défauts
détectables. Ces derniers sont garantis isolables si leurs amplitudes satisfont les mêmes conditions d’isolabilité
établies pour l’approche de reconstruction des indices.

Mots-clés : ACP, modélisation de processus, variance non reconstruite, détection et détectabilité de défauts,
isolation et isolabilité de défauts, reconstruction, contribution, diagnostic.

Abstract
This thesis presents a fundamental study enhanced by some contributions that are focused on process
modelling and fault diagnosis using principal component analysis (PCA).
In order to find an optimal PCA model, we have concluded through a comparative study of some popular
criteria that the problem is often related to an ignorance of the independent and quasi-independent variables. In
this framework, we have performed two demonstrations highlighting the limitations of two selection criteria in
particular the unreconstructed variance (VNR). Based on the principle of VNR approach, we have proposed
three new criteria, among them two methods were considered as empirical criteria because only the experience
will prove their effectiveness. However the third one which is noted VNRVI represents a cure for the limitation
of the classical VNR criterion. Thus, the conditions that ensure an optimal selection were derived according
to a theoretical consistency study of the VNRVI approach. The simulation results have successfully validated
the VNRVI criterion by proving that is more effective than the other studied criteria in the present thesis.
The reconstruction and contribution approaches were used for fault diagnosis using PCA. According to a
unified study, we have extended the fault isolability concept based on the reconstruction method to any detection
index which has a quadratic form. Such generalization has allowed us to develop a theoretical fault isolability
analysis based on the reconstruction of the combined index versus those of SP E and T 2 indices. This analysis has
highlighted the advantage of using the combined index for fault isolation. On the other hand, we have proposed
a new contribution approach by applying a partial decomposition of the SP E index. This approach guarantees
correct diagnosis of simple faults with large magnitudes. We have also extended the classical contribution
method of RBC to the multidimensional fault cases. Therefore, the new approach guarantees correct diagnosis
of multiple faults with large magnitudes. In order to consider the more complex faults, we have proposed a
new diagnosis method called RBCr. Based on a theoretical diagnosability analysis, such method guarantees the
identification of detectable complex faults. These faults are guaranteed isolable if their magnitudes satisfy the
same fault isolability conditions that are established for the reconstruction approach.

Keywords: PCA, process modelling, unreconstructed variance, fault detection and detectability, fault isolation
and isolability, reconstruction, contribution, diagnosis.
View publication stats

Vous aimerez peut-être aussi