Tel 00006003
Tel 00006003
Tel 00006003
THESE
présentée à
pour obtenir le
par
Je souhaite remercier très vivement la personne sans laquelle tout ceci n’existerait
pas. J’exprime en effet toute ma profonde gratitude à Daniel RACOCEANU,
maître de conférences à l’Université de Franche-Comté, non seulement pour son
encadrement de très haut niveau, ses précieux conseils et orientations, mais
également pour sa disponibilité et son dévouement. Je le remercie de m’avoir
toujours poussé vers l’avant, pour toute la confiance qu’il a porté en moi et qui
m’a permis d’acquérir une précieuse expérience du métier d’enseignant chercheur.
Je le remercie tout simplement pour sa sincère amitié et ses précieuses qualités
humaines.
Je remercie messieurs les membres du jury pour la caution qu’ils ont bien voulu
apporter à ce travail. J’adresse mes remerciements aux :
• professeur Alain BOURJAULT de l’ENSMM de Besançon et directeur
du Laboratoire d’Automatique de Besançon (LAB). Je le remercie
particulièrement de m’avoir accueilli dans son laboratoire et d’avoir
accepté de présider le jury de soutenance,
• professeur Denis HAMAD de l'Université du Littoral Côte d'Opale,
professeur Daniel NOYES de l’ENI de Tarbes et professeur Jean-Pierre
THOMESSE de l'ENSEM-INPL de Nancy pour leur travail de lecture
critique du manuscrit,
• professeur Jean-Marc FAURE de l'ISMCM-CEST de Paris de m’avoir
honoré en acceptant d’être examinateur,
• monsieur Raphaël LABOURIER Président Directeur Général de la
société AVENSY Ingénierie de Besançon pour toute la confiance qu’il a
accordée à nos travaux de recherche. Je le remercie personnellement et au
nom de l’équipe de maintenance et sûreté de fonctionnement pour sa
collaboration, et pour l’ensemble des ressources humaines et matérielles
mises à notre disposition durant la phase d’exploitation industrielle.
Je suis très reconnaissant aux membres de l’équipe ISA du LURPA et
particulièrement à Bruno, Olivier et au professeur J.M Faure pour leurs précieux
conseils qui m’ont permis de bien préparer mon exposé de soutenance.
Ces années de thèse ont été pour moi l’occasion de connaître des personnes
exceptionnelles qui m’ont tout simplement offert leur sincère amitié, et avec qui
j’ai partagé d’agréables moments. Je remercie très chaleureusement Ivana, Elena,
Mikky, Floriana, Lumi, Roberto, Slava, Alexei et sa femme Natacha, Nico et
enfin Vadime pour tout ce qu’on a vécu ensemble.
Je remercie bien particulièrement ma petite Magda pour tout ce qu’elle fait pour
moi.
Enfin, merci à mes parents pour toute l’éducation qu’ils m’ont inculquée et
surtout de m’avoir encouragé et permis de réaliser une thèse de doctorat.
Table des matières i
Notations et Abréviations.............................................................................. 10
Chapitre I : Surveillance des équipements de production ............................ 14
I.1. Introduction.................................................................................................................... 16
I.2. Définitions...................................................................................................................... 17
Dégradation ...................................................................................................................... 17
Défaillance ....................................................................................................................... 18
Panne ................................................................................................................................ 18
Mode de fonctionnement.................................................................................................. 18
Surveillance...................................................................................................................... 19
Détection .......................................................................................................................... 20
Diagnostic......................................................................................................................... 20
Surveillance prédictive..................................................................................................... 21
Détection prédictive ......................................................................................................... 22
Diagnostic prédictif .......................................................................................................... 22
I.3. Méthodes de surveillance............................................................................................... 24
I.3.1. Méthodes de surveillance avec modèles ................................................................. 25
I.3.1.1. Redondances physiques et analytiques ............................................................ 25
I.3.1.2. Méthodes d’estimation paramétrique............................................................... 27
I.3.2. Méthodes de surveillance sans modèles ................................................................. 29
I.3.2.1. Surveillance avec outils statistiques................................................................. 29
a) Test de franchissement de seuil............................................................................ 29
b) Test de moyenne .................................................................................................. 30
c) Test de variance.................................................................................................... 30
I.3.2.2. Surveillance par reconnaissance des formes.................................................... 31
a) Reconnaissance des formes par outils statistiques ............................................... 31
Cas gaussien ......................................................................................................... 34
b) Reconnaissance des formes par une approche floue............................................ 35
Fuzzification......................................................................................................... 35
Défuzzification ..................................................................................................... 37
c) Reconnaissance des formes par réseaux de neurones .......................................... 38
I.4. Conclusion ..................................................................................................................... 39
Table des matières ii
Introduction Générale
4
Introduction Générale
5
Introduction Générale
conséquent, une architecture neuronale temporelle (dynamique). C’est dans ce contexte que se
positionnent nos travaux de recherches.
Initiée par la mise à notre disposition par IBM (par son intermédiaire Silicon Recognition -
France) d’une carte neuronale statique ZISC (Zero Instruction Set Computer), notre
problématique de recherche a débouché finalement sur un réseau neuronal dynamique
(temporel) appelé RRFR (Réseau de neurones Récurrent à Fonctions de base Radiales) qui se
trouve au cœur d’un partenariat entre le LAB et une entreprise (PME) bisontine, présente sur
le marché de la maintenance industrielle. Cette société dénommée AVENSY Ingénierie,
développe essentiellement des produits de gestion de production et de suivi de maintenance
temps réel accessibles à distance via Internet. Le traitement temps réel est obtenu grâce aux
architectures des Automates Programmables Industriels (API). L’accessibilité distante via le
protocole TCP/IP est obtenue grâce au Coupleur Ethernet serveur Web des automates de
nouvelle génération.
La collaboration entre le LAB et AVENSY a donné naissance à un outil neuronal de
surveillance temps réel entièrement paramétrable (apprentissage) à distance par le serveur
Web de l’automate. L’idée d’une éventuelle commercialisation du produit nous a incité à
déposer un brevet d’invention.
L’organisation du rapport
Le rapport est organisé en six chapitres qui peuvent être résumés comme suit :
Le premier chapitre est dédié à la surveillance des équipements de production. Les
méthodologies de surveillance sont généralement divisées en deux groupes : méthodologies
de surveillance avec modèle et sans modèle. Les premières se basent sur l'existence d'un
modèle formel de l’équipement et utilisent généralement les techniques de l'automatique. La
deuxième catégorie de méthodologies est plus intéressante dès lors qu'un modèle de
l’équipement est inexistant ou difficile à obtenir. Dans ce cas, on utilise les outils de la
statistique et de l'Intelligence Artificielle. La fonction surveillance est alors vue comme une
application de reconnaissance des formes. Les formes représentent le vecteur d’entrée
composé par les différentes données de l’équipement (données mesurables et qualifiables) et
les classes correspondent aux différents modes de fonctionnement.
L’objet du deuxième chapitre est la présentation d’un état de l’art sur l’application des
réseaux de neurones à la surveillance des systèmes de production. Les avantages les plus
importants que l’on peut attribuer à une application de surveillance par réseaux de neurones
sont : la modélisation et l’estimation de fonctions non linéaires par apprentissage, la fusion de
données, la généralisation et la reconstruction des signaux capteurs. Deux architectures
neuronales sont généralement utilisées pour des tâches de surveillance : le Perceptron Multi
Couches (PMC) et les Réseaux à base de Fonctions Radiales (RFR). Des différences majeures
existent entres ces deux architectures qui ont une représentation globale pour le PMC et locale
6
Introduction Générale
pour les RFR. La représentation locale est plus avantageuse pour la surveillance que la
représentation globale. L’un de ces avantages est que contrairement au PMC, les RFR sont
capables de dire « je ne sais pas ». Cette caractéristique propre aux approches locales, est
indispensable afin d’assurer la sûreté de fonctionnement d’une surveillance industrielle.
La représentation du temps dans les réseaux de neurones représente une caractéristique
essentielle dans la perspective d’une surveillance industrielle dynamique. Les réseaux de
neurones statiques présentés au deuxième chapitre peuvent offrir des solutions très
intéressantes dans des applications de reconnaissance des formes ou approximation de
fonctions, mais ne peuvent en aucun cas être appliqués sur des données où le temps joue un
rôle déterminant dans la résolution du problème. Le troisième chapitre présente ainsi une
synthèse des architectures des réseaux de neurones temporels qui existent en littérature, avec
les techniques d’apprentissage appropriées.
Parmi toutes les architectures neuronales étudiées au troisième chapitre, celle qui semble la
mieux adaptée aux problématiques de la surveillance dynamique est l’architecture des réseaux
de neurones récurrents. Seuls les réseaux de neurones récurrents possèdent une mémoire
dynamique interne. L’inconvénient majeur de ces réseaux récurrents est la lourdeur ainsi que
la complexité de leur phase d’apprentissage. Pour contourner cet obstacle, une façon simple
est de prendre en compte l’aspect temporel d’une manière interne au réseau de neurones par
des récurrences locales. Ces récurrence locales sont tolérées uniquement au niveau du neurone
lui même, sans trop compliquer l’architecture globale du réseau de neurones. Le quatrième
chapitre est donc consacré à l’étude de ces réseaux à représentation locale du temps qui sont
appelés architectures LRGF : Locally Recurrent Globally Feedforward ou architectures
Localement Récurrente Globalement Feedforward. Le but de ce quatrième chapitre est de
démontrer, grâce à des développements mathématiques appuyés par des simulations
informatiques, que les architectures LRGF possèdent des caractéristiques dynamiques très
intéressantes. Deux types d’architectures LRGF existent en littérature : une architecture à
retour local de la sortie du neurone et une architecture à retour local de l’activation du
neurone. Cette étude nous permet de justifier le choix du type de mémoire dynamique afin de
proposer une nouvelle architecture d’un réseau RFR récurrent. Le Réseau Récurrent à
Fonctions de base Radiales que nous proposons profite donc des performances des réseaux
RFR avec l’aspect dynamique à la fois performant et simple des architectures LRGF.
Après avoir présenté au chapitre IV une étude sur les réseaux LRGF, nous allons dans le
cinquième chapitre évaluer les performances du réseau RRFR avec sa mémoire dynamique sur
trois types d’applications dynamiques : la reconnaissance de séquences booléennes et réelles,
la prédiction de séries temporelles et, enfin, la reproduction de séries temporelles. Ces trois
types d’applications sont très importants en surveillance dynamique. Nous verrons que
l’architecture LRGF adoptée permet au réseau RRFR d’acquérir des propriétés dynamiques
tout en gardant la simplicité et l’efficacité des réseaux RFR. La phase de paramétrage du
réseau RRFR est effectuée par une version améliorée de l’algorithme d’apprentissage des k-
moyennes que nous proposons. En effet, la version simple présente quelques faiblesses qui
7
Introduction Générale
seront mises en évidence à travers quelques tests. La version proposée procure à la phase
d’apprentissage une stabilité du résultat avec une plus grande robustesse par rapport à la phase
de paramétrage de l’algorithme.
Le dernier chapitre est dédié à la présentation d’une exploitation industrielle innovante sur
laquelle a débouché notre étude. L’externalisation de la maintenance commence à prendre une
certaine ampleur au sein des entreprises soucieuses de réduire les coûts de la maintenance.
Les avantages de cette externalisation sont entre autres : d’un côté une meilleure connaissance
du budget de la maintenance donc une meilleure maîtrise des coûts, et d’un autre côté la
capacité de se recentrer sur son véritable métier, en confiant cette fonction à des
professionnels pouvant ainsi assurer une maintenance distante des moyens de production. La
solution que nous développons dans ce sixième chapitre s’encadre tout à fait dans ce contexte
de e-maintenance. Le réseau RRFR développé dans nos travaux de recherche est ainsi
structuré en un programme évolutif en langage automate assurant ainsi une surveillance
dynamique en temps réel. Le choix d’une architecture LRGF comme mémoire dynamique
d’un réseau RFR est très avantageux pour une telle implémentation. L’apprentissage du réseau
RRFR est entièrement géré à distance, par connexion TCP/IP. Cette exploitation a fait l’objet
d’un prototypage et d’un dépôt de brevet et se trouve actuellement, en phase d’étude de
marché dans le cadre d’un projet de collaboration entre le LAB et notre partenaire industriel
AVENSY.
8
Notations et Abréviations
Notations et Abréviations
Notations et Abréviations
11
Notations et Abréviations
1
E (.) Erreur quadratique de sortie ( E = ∑ (ζ i − οi )2 )
2 i
η Paramètre de l’apprentissage
θ Seuil pour l’apprentissage
Ψ Fonction d’énergie du réseau de Hopfield
µi Vecteur prototype (centre) du neurone gaussien
12
13
Chapitre I
Chapitre I
I.1. Introduction
Dans un grand nombre d'applications industrielles, une demande croissante est apparue en
matière de remplacement des politiques de maintenance curative par des stratégies de
maintenance préventive. Cette mutation d’une situation où on « subit les pannes » à une
situation où on « maîtrise les pannes », nécessite quelques moyens technologiques ainsi que
la connaissance de techniques d’analyse appropriées. La fonction surveillance en continu de
l'évolution de l’équipement à travers des données quantifiables et qualifiables permet ainsi de
prévenir un dysfonctionnement avant qu'il n'arrive et d'écarter les fausses alarmes qui peuvent
ralentir la production (Basseville, 1996). De nombreux auteurs ont abordé le domaine de la
surveillance industrielle mettant ainsi en évidence l’intérêt croissant manifesté par la
communauté scientifique et les industriels par rapport à cette problématique. Nous pouvons
citer sans souci d’exhaustivité les travaux suivants : (Combacau, 1991), (Devauchelle, 1991),
(Toguyeni, 1992), (Poulard, 1996), (Cussenot, 1996), (Evsukoff, 1998), (Weber, 1999),
(Zhang, 1999), (Combastel, 2000), (Lefebvre, 2000).
L’objectif de ce chapitre est de présenter les techniques les plus courantes en surveillance
d’équipements industriels. Dans la littérature associée à ce domaine, on peut trouver plusieurs
définitions quelquefois divergentes. C’est pourquoi nous nous positionnons dans la première
partie de ce chapitre, en donnant des définitions des mots clés qui sont utiles pour la
compréhension de ce rapport.
Les méthodologies de surveillance sont généralement divisées en deux groupes :
méthodologies de surveillance avec modèle et sans modèle (Dash et al., 2000). Les premières
se basent sur l'existence d'un modèle formel de l’équipement et utilisent généralement les
techniques de l'automatique (Combacau, 1991). La deuxième catégorie de méthodologies est
plus intéressante dès lors qu'un modèle de l’équipement est inexistant ou difficile à obtenir.
Dans ce cas, on utilise les outils de la statistique et de l'Intelligence Artificielle. La fonction
surveillance est alors vue comme une application de reconnaissance des formes. Les formes
représentent le vecteur d’entrée composé par les différentes données de l’équipement
(données mesurables et qualifiables), et les classes représentent les différents modes de
fonctionnement.
16
Chapitre I : Surveillance des équipements de production
Notons que les deux approches Automatiques / Intelligence Artificielle peuvent être
combinées pour profiter de certains avantages de chacune et avoir ainsi une certaine
complémentarité (Dubuisson, 2001). Les méthodes de l’Automatique1 sont par nature proches
du système surveillé puisqu’elles travaillent directement à partir des données issues des
capteurs ; elles sont ainsi principalement utilisées pour la génération d’alarmes. Les méthodes
de l’Intelligence Artificielle sont, elles, plus tournées vers la communication avec l’opérateur
et se focalisent plus sur la transformation d’un ensemble d’informations brutes et non reliées
entre elles en une information interprétable directement par l’opérateur chargé de la conduite ;
elles sont donc utilisées pour l’interprétation des alarmes et l’aide à la décision (Basseville et
al., 1996). D’autres réflexions sur la complémentarité entre ces deux domaines peuvent être
trouvées dans (Dubois et al., 1994). On peut citer également quelques travaux où les deux
techniques Automatique/Intelligence Artificielle ont été conjointement utilisées : (Katsillis et
al., 1997), (Loiez, 1997), (Washio et al., 1998), (Hines et al., 1995), (Vemuri, 1997), (Vemuri
et al., 1998).
I.2. Définitions
La diversité des définitions trouvées dans différents travaux fait que nous avons jugé
important d’établir un lexique sur les termes qui seront utiles pour la compréhension du
présent rapport. Ces définitions ont été extraites pour certaines à partir des références
suivantes : (Villemeur, 1988), (Dubuisson, 1990), (Combacau, 1991), (Toguyeni, 1992),
(Zwingelstein, 1995), (Basseville et al., 1996), (Lefebvre, 2000). On peut toutefois trouver en
littérature des définitions qui sont complètement différentes de celles que nous proposons,
mais ceci nous permet de présenter notre point de vue de la surveillance industrielle.
Dégradation
Une dégradation représente une perte de performances d'une des fonctions assurées par
un équipement.
,
Si les performances sont au-dessous du seuil d'arrêt défini dans les spécifications
fonctionnelles de cet équipement, il n'y a plus dégradation mais défaillance.
1
En particulier les méthodes statistiques du traitement du signal
17
Chapitre I : Surveillance des équipements de production
Défaillance
Une défaillance est l'altération ou la cessation de l'aptitude d'un ensemble à accomplir sa
ou ses fonctions requises avec les performances définies dans les spécifications techniques.
,
On peut classer les défaillances selon leur degré de sévérité par :
• Défaillance critique : nécessite une intervention d'urgence,
• Défaillance significative : nécessite un processus de traitement,
• Défaillance absorbable : pouvant être ignorée dans un premier temps.
Panne
Une panne est l'inaptitude d'une entité (composant ou système) à assurer une fonction
requise.
,
Si nous écartons la possibilité d'erreurs de conception, la définition précédente implique
que toute défaillance entraîne une panne. La défaillance correspond à un événement et la
panne à un état. Sur le plan temporel, la défaillance correspond à une date et la panne à une
durée comprise entre la date d'occurrence de la défaillance et la date de fin de réparation.
Mode de fonctionnement
Un système présente généralement plusieurs modes de fonctionnement. On peut observer
des modes de plusieurs types parmi lesquels :
• Mode de fonctionnement nominal : c’est le mode où l’équipement ou le système
industriel remplit sa mission dans les conditions de fonctionnement requises par le
constructeur et avec les exigences attendues de l’exploitant.
• Mode de fonctionnement dégradé : qui correspond soit à l’accomplissement partiel
de la mission, soit à l’accomplissement de celle-ci avec des performances moindre.
En d’autres termes, il y a eu dégradation dans l’équipement ou le système mais pas
de défaillance.
• Mode de défaillance : qui correspond à des mauvais fonctionnements du système,
c'est-à-dire qu’il y a eu défaillance soit après dégradation soit défaillance brusque.
Un mode de défaillance est caractérisé par les effets causés par cette défaillance.
Ces effets peuvent être mesurables ou qualifiables. En faisant une analyse de cause
à effet de la défaillance, on peut associer le mode de défaillance à toute cette
analyse faite par un expert. En d’autres termes, à chaque mode de défaillance, on
associe une décision et une interprétation possible. Chaque équipement ou système
peut posséder qu’un seul mode nominal ; par contre, il possède plusieurs modes de
défaillance.
18
Chapitre I : Surveillance des équipements de production
Surveillance
La surveillance est un dispositif passif, informationnel qui analyse l'état du système et
fournit des indicateurs. La surveillance consiste notamment à détecter et classer les
défaillances en observant l'évolution du système puis à les diagnostiquer en localisant les
éléments défaillants et en identifiant les causes premières.
,
La surveillance se compose donc de deux fonctions principales qui sont la détection et le
diagnostic. La Figure 1 montre une architecture générale d’un système de surveillance. Les
principales raisons qui conduisent à surveiller un système sont :
• La conduite : qu’il s’agit d’optimiser et qui est une tâche en ligne (production
maximale, sécurité, non dégradation des équipements). Ceci passe par la surveillance
du procédé afin de détecter toute anomalie de fonctionnement et de l’identifier aussi
bien que possible. Ce type d’action est aussi appelé supervision : surveillance +
conduite.
19
Chapitre I : Surveillance des équipements de production
Actionneurs
Capteurs
Système
Supervision
Surveillance Conduite
Signaux
Décisions
Interprétation
Identification
Localisation
Organe Cause
Génération Alarmes identifié identifiée Aide à la
d’alarmes décision
Figure 1. Architecture générale d’un système de supervision en ligne (Basseville et al., 1996)
Détection
Pour détecter les défaillances du système, il faut être capable de classer les situations
observables comme étant normales ou anormales.
,
Cette classification n'est pas triviale, étant donné le manque d'information qui caractérise
généralement les situations anormales. Une simplification communément adoptée consiste à
considérer comme anormale toute situation qui n'est pas normale.
Diagnostic
L'objectif de la fonction diagnostic est de rechercher les causes et de localiser les organes
qui ont entraîné une observation particulière.
,
Cette fonction se décompose en deux fonctions élémentaires : localisation et identification.
A partir de l'observation d'un état de panne, la fonction diagnostic est chargée de retrouver la
faute qui en est à l'origine. Ce problème est difficile à résoudre. En effet si, pour une faute
donnée, il est facile de prédire la panne résultante, la démarche inverse qui consiste à
identifier la faute à partir de ses effets, est beaucoup plus ardue. Une défaillance peut
20
Chapitre I : Surveillance des équipements de production
généralement être expliquée par plusieurs fautes. Il s'agit alors de confronter les observations
pour fournir la bonne explication (Figure 2).
Localisation
La localisation permet de déterminer le sous-ensemble fonctionnel défaillant.
,
Identification de la cause
Cette dernière étape consiste à déterminer les causes qui ont mené à une situation
anormale.
,
Ces causes peuvent être internes (sous-ensembles défaillants faisant partie de
l’équipement), ou bien externes à l’équipement.
Faute 1 Faute 2
Défaillance 1 Défaillance 2
? ?
Panne 1
Figure 2. Difficulté du diagnostic. Deux fautes conduisent à la même panne ce qui complique
l’opération inverse, en l’occurrence le diagnostic.
21
Chapitre I : Surveillance des équipements de production
Détection prédictive
La détection prédictive consiste à prédire une défaillance future. En d’autres termes, le but
de la détection prédictive est de détecter une dégradation (Figure 3) au lieu d’une
défaillance, pour le cas de la détection classique.
,
Pour résumer toutes les définitions que nous avons présentées précédemment, nous
illustrons sur la Figure 3 un exemple de surveillance d’un équipement industriel. La
dégradation de l’équipement est caractérisée par toute la période où l’amplitude des
vibrations croit sans que le signal n’atteigne le seuil d’alarme. La détection du franchissement
de ce seuil provoque une génération d’alarme synonyme d’un événement de défaillance.
L’équipement se trouve alors dans une situation de panne. Un diagnostic permet de localiser
l’organe de l’équipement qui est à l’origine de ces vibrations (Tige A) et d’identifier la cause
qui a provoquée ces vibrations (un desserrement d’un boulon). Mettre en place un système de
surveillance prédictive consiste donc à pouvoir détecter la dégradation avant l’événement
défaillance par une génération de pré-alarme. Le diagnostic prédictif devra prédire que c’est la
tige A qui vibre à cause du desserrement d’un boulon.
Après avoir présenté les éléments de base du domaine concerné par nos contributions, nous
considérons utile d’approfondir les techniques les plus importantes liées à la surveillance
industrielle.
22
Chapitre I : Surveillance des équipements de production
Amplitude Défaillance
Seuil d’alarme
Détection d’une
défaillance
Dégradation Panne
Temps Génération d’alarme
Diagnostic prédictif
Desserrement d’un
boulon
Desserrement d’un
Action préventive boulon
Aide à la décision
préventive
Equipement industriel
Aide à la décision
Action corrective
Expert humain
23
Chapitre I : Surveillance des équipements de production
Surveillance industrielle
Méthodes d’estimation
Test de variance Réseaux de neurones paramétrique
Les méthodes de surveillance industrielle telle qu’elles sont présentées dans ce paragraphe
sont illustrées sur la Figure 4. L’existence d’un modèle formel ou mathématique de
l’équipement détermine la méthode de surveillance utilisée. La surveillance avec modèle se
compose essentiellement de deux techniques : méthodes de redondance physique et analytique
et méthodes d’estimation paramétrique. D’un autre côté, les méthodes qui ne se basent pas sur
l’existence du modèle se divisent en deux catégories : méthodes utilisant des outils
statistiques et méthodes de reconnaissance des formes. Les outils statistiques établissent des
tests sur les signaux d’acquisition. Ces tests ne sont capables d’assurer que la fonction
détection de défaillances. Par contre, les techniques de surveillance par reconnaissance des
formes sont plus élaborées par rapport aux simples tests statistiques et sont capables de
détecter et de diagnostiquer les défaillances.
24
Chapitre I : Surveillance des équipements de production
Les méthodes de surveillance avec modèle ont pour principe de comparer les mesures
effectuées sur le système aux informations fournies par le modèle (Frank, 1990). Tout écart
est alors synonyme d’une défaillance. Les outils de la théorie de la décision sont ensuite
utilisés pour déterminer si cet écart est dû à des aléas normaux comme, par exemple, le bruit
de mesure ou s’il traduit une défaillance du système. Ces méthodes peuvent être séparées en
deux techniques : techniques de redondance physique et analytique et techniques d’estimation
paramétrique. Ces deux techniques seront présentées brièvement. Toutefois, pour plus de
détails, nous renvoyons le lecteur aux références suivantes : (Willsky, 1976), (Isermann,
1984), (Basseville, 1988), (Gertler, 1988), (Patton et al., 1989), (Frank, 1990), (Combacau,
1991), (Basseville et al., 1993), (Cussenot, 1996), (Gertler, 1998), (Weber, 1999), (Tromp,
2000), (Combastel, 2000).
a) Redondances physiques
Afin de fiabiliser la détection des défaillances à partir des signaux mesurés, il faut un
moyen pour distinguer les défaillances capteurs des défaillances système. La méthode la plus
simple consiste à utiliser la redondance physique. Il s’agit de doubler ou tripler des
composantes de mesure du système. Si ces composantes identiques placées dans le même
environnement émettent des signaux identiques, on considère que ces composants sont dans
un état de fonctionnement nominal et, dans le cas contraire, on considère qu’une défaillance
capteur s’est produite dans au moins une des composantes (Zhang, 1999). Cette méthode par
redondance physique a l’avantage d’être conceptuellement simple mais est coûteuse à être
mise en œuvre et conduit à des installations encombrantes. Elle est, par conséquent, utilisée
uniquement pour la surveillance des sous-ensembles critiques d’un système. Un autre
inconvénient est que les composantes identiques fabriquées dans la même série peuvent se
dégrader de la même façon et tomber en panne en même temps. Pour pallier ce dernier
inconvénient, on peut utiliser des composantes différentes qui remplissent la même fonction.
b) Redondances analytiques
25
Chapitre I : Surveillance des équipements de production
caractère non linéaire, il est possible, afin de disposer d’un modèle plus simple, d’opérer une
linéarisation autour d’un point de fonctionnement.
Le modèle d’espace d’état discret échantillonné relie le vecteur d’état x(k) au vecteur
d’entrée u(k) et au vecteur de sortie y(k) du système à surveiller par l’intermédiaire des
matrices A, B et C (indépendante du temps) sous la forme :
x(k + 1) = Ax(k ) + Bu (k )
[1]
y (k ) = Cx(k )
Les défaillances et les perturbations qui peuvent survenir dans le procédé peuvent être
alors modélisées à partir de ces équations. Les fautes Fp (k ) et le bruit bp (k ) du procédé sont
représentés de façon additive :
Les erreurs de mesures Fu (k ) et Fy (k ) des entrées et des sorties ainsi que les bruits
bu (k ) et by (k ) sont modélisés par les relations :
u (k ) = u (k ) + Fu (k ) + bu (k )
[3]
y (k ) = y (k ) + F (k ) + b (k )
y y
Les différences entre les matrices de paramètres du modèle et celles du système réel se
traduisent par :
i i = B + ∆B(k ), C
A = A + ∆A(k ), B i = C + ∆C (k ) [4]
Le but des méthodes de redondance analytique est d’estimer l’état du système afin de le
comparer à son état réel. L’estimation de l’état du système peut être réalisée soit à l’aide de
techniques d’estimation d’état, soit par obtention de relations de redondance analytique.
Le but des techniques d’estimation d’état est de reconstruire au moyen d’observateur, les
états et les sorties du système, à partir des entrées et des sorties mesurées (Frank, 1990). On
disposera donc d’une estimation du vecteur d’état et du vecteur de sortie du système, vecteur
qui correspond généralement aux grandeurs mesurables. Ces sorties estimées sont alors
comparées aux sorties réelles et tout écart est révélateur d’une défaillance. La théorie de la
26
Chapitre I : Surveillance des équipements de production
décision est ensuite utilisée pour déterminer si l’écart observé est dû à des aléas normaux du
fonctionnement ou à des défaillances.
Les relations de redondance analytique sont utilisées lorsque le modèle fait intervenir des
grandeurs mesurables. Les relations de redondance analytique sont des relations entre les
variables disponibles du système, prises dans une fenêtre temporelle. La redondance directe
est la méthode la plus simple pour éliminer le vecteur d’état x(k). Elle se produit parmi les
capteurs qui mesurent les grandeurs qui sont reliées par les relations algébriques du modèle.
C'est-à-dire que ces grandeurs sont reliées de façon à ce que la grandeur que mesure un
capteur puisse être déterminée par les valeurs instantanées délivrées pas les autres capteurs.
Dans les deux méthodes (estimation d’état et relations de redondance analytique) on
dispose d’une estimation de l’état du système. La comparaison avec son état réel fournit alors
une quantité appelée résidu qui va servir à déterminer si le système est dans un état défaillant
ou non. Un résidu idéal doit rester à zéro en absence de panne et s’éloigner de zéro en
présence de panne. A cause des erreurs de modélisation et des bruits de mesures, un résidu
réel est souvent différent de zéro. Pour les pannes additives dans les systèmes d’états linéaires
à paramètres constants dans le temps, la génération et l’évaluation de résidus ont été
largement étudiées, tant du point de vue déterministe que stochastique (Willsky, 1976),
(Patton et al., 1989), (Frank, 1990), (Basseville et al., 1993), (Basseville, 1997), (Gertler,
1998), (Chen et al., 1999). En revanche, en ce qui concerne les pannes non additives, même
pour les systèmes d’état linéaires, les résultats connus sont moins abondants (Zhang, 1999).
La situation est encore moins florissante pour les systèmes non linéaires. Toutefois, pour
surveiller les pannes d’amplitude faible, une démarche générale a été développée à l’IRISA2
(Zhang, 1999) qui, s’appuyant sur une approche locale, permet de concevoir des algorithmes
pour la génération de résidus à partir des fonctions d’estimation et pour leur évaluation. Elle
s’applique à une large classe de systèmes non linéaires avec des pannes additives ou non.
2
Institut de Recherche en Informatique et Systèmes Aléatoires.
27
Chapitre I : Surveillance des équipements de production
d’estimation paramétrique est qu’on effectue, pour les premières, la comparaison entre l’état
estimé et l’état théorique du système, alors que pour les secondes, on compare les paramètres
estimés aux paramètres théoriques du système.
La procédure générale d’estimation paramétrique pour la surveillance peut être décrite en 5
étapes (Isermann, 1984) :
• établissement du modèle mathématique du procédé dans les conditions normales
de fonctionnement, à partir de considérations théoriques :
y (t ) = f (u (t ); θ) [5]
dans lequel u(t) et y(t) désignent respectivement les entrées et les sorties du système et
θ représente le vecteur des paramètres du modèle.
• Détermination des relations entre les paramètres physiques du modèle θ et les
paramètres physiques du procédé p :
θ = g (p) [6]
dans lequel p désigne les constantes physiques du système, supposées connues, qui
sont modifiées lorsqu’une défaillance survient.
• Estimation θ des paramètres θ du modèle à l’aide de l’équation [5] et à partir des
mesures des entrées u(t) et des sorties y(t) du système en fonctionnement réel
p (t ) = g −1 (θ (t )) [8]
28
Chapitre I : Surveillance des équipements de production
définis. Nous pouvons citer à titre d’exemple les travaux réalisés par Desforges (Desforges,
1999) qui se basent exactement sur la technique d’estimation paramétrique. Un réseau de
neurones sert à estimer les paramètres physiques d’une machine outil à partir de la mesure du
courant, tension et vitesse de rotation de l’axe de la machine outil. Les valeurs estimées sont
utilisées comme base pour la détection et le diagnostic des défaillances.
Nombreuses sont les applications industrielles dont le modèle est difficile, voire impossible
à obtenir suite à une complexité accrue ou à de nombreuses reconfigurations intervenants
durant le processus de production. Pour ce type d’applications industrielles, les seules
méthodes de surveillance opérationnelles sont celles sans modèle. Deux solutions existent
dans ce cas : surveillance avec des tests statistiques et surveillance par reconnaissance des
formes. La première technique est moins élaborée que la deuxième dans le sens où elle ne
remplit qu’une partie de la surveillance, à savoir la détection des défaillances. Nous
détaillerons donc un peu plus la partie surveillance par reconnaissance des formes. Trois
approches sont alors utilisées : approche probabiliste, approche floue et approche neuronale
(Dubuisson et al., 2001).
Les outils statistiques de détection de défaillances consistent à supposer que les signaux
fournis par les capteurs possèdent certaines propriétés statistiques. On effectue alors quelques
tests qui permettent de vérifier si ces propriétés sont présentes dans un échantillon des signaux
mesurés de taille n (appelé fenêtre d’observation glissante). On considère que le signal mesuré
est une variable aléatoire notée par γ . Nous ne présentons que trois tests statistiques, mais
une grande variété de tests, applicables sur un échantillon de mesures, peut être trouvée dans
(Basseville, 1988).
Le test le plus simple est de comparer ponctuellement les signaux avec des seuils
préétablis. Le franchissement de ce seuil par un des signaux capteurs génère une alarme. On
peut trouver dans l’industrie deux types de seuils. Un premier type est dit seuil de pré-alarme
qui permet d’entreprendre une action de maintenance préventive ; le second type est le seuil
d’alarme qui impose l’arrêt de la production et l’engagement d’une action de maintenance
corrective. Ce type de méthode est très simple à mettre en œuvre mais ne permet pas d’établir
29
Chapitre I : Surveillance des équipements de production
un diagnostic des défaillances. Cette méthode est aussi très sensible aux fausses alarmes
(Figure 5).
Amplitude
Fausse alarme
Dégradation
Seuil d’alarme
Temps
b) Test de moyenne
t
y = 1
∑
n i = t − n +1
yi [9]
Ceci rejoint le principe du calcul des tendances, une des techniques les plus simples de la
maintenance prédictive.
c) Test de variance
On peut également calculer la variance d’un signal. Tant que cette variance se situe dans
une bande située autour de sa valeur nominale, l’évolution du système est supposée normale.
La variance de l’échantillon est définie par :
2 1 t
σl = ∑ ( yi − y)2
n i = t − n +1
[10]
30
Chapitre I : Surveillance des équipements de production
Les probabilités a priori Pr(α i ) des classes α1 , α 2 ,......, α M sont connues. Deux cas sont
possibles :
• Toutes les classes sont connues et dans ce cas on obtient la somme de toutes les
probabilités égale à un (équation [11]). Cette situation est appelée cas d’un monde fermé.
∑ Pr(α ) = 1
i =1
i
[11]
• Dans le deuxième cas, toutes les classes ne sont pas connues. On utilise alors une
classe α 0 appelée classe de rejet en distance pour combler le manque d’information sur le
problème. Cette classe représente donc le mélange de toutes les autres classes non identifiées
par l'utilisateur. C'est ce dernier qui lui associera une probabilité, en fonction de son degré de
connaissance ou d'ignorance du système. Ce cas est qualifié de monde ouvert. On obtient donc
la relation suivante :
31
Chapitre I : Surveillance des équipements de production
∑ Pr(α ) = 1
i =0
i
[12]
M
ϕ (x) = ∑ Pr(α i )ϕ (x / α i ) [13]
i =0
M
R (x) = ∑ C (d(x), α j ) Pr(α j / x) [14]
j =0
Pr(α j )ϕ (x / α j )
Pr(α j / x) = [15]
ϕ ( x)
l
R peut être moyenné pour tous les vecteurs x : On obtient ainsi le risque moyen R
l = R (x)ϕ (x)dx
R ∫ [16]
La règle minimisant ce critère est appelée règle de Bayes ou règle du risque minimum
(Fukunaga, 1990). Cette règle consiste à choisir la décision d(x) qui minimise [14] et [16].
Pour fixer les coûts des décisions en surveillance, on adopte souvent la procédure
suivante :
32
Chapitre I : Surveillance des équipements de production
1 i ≠ j
C (i, α j ) = i, j = 0, M
0 i = j [17]
C (−1, α j ) = a
• si d(x) = -1
• si d(x) = i
• soit le vecteur x est rejeté en ambiguïté entre deux ou plusieurs classes connues
On préfère dans ce cas ne pas le classer plutôt que de risquer de commettre une erreur.
• soit le vecteur x est rejeté en distance comme n’appartenant à aucune des classes
connues
• soit le vecteur x est rejeté en ambiguïté entre une ou plusieurs classes connues et la
classe de rejet en distance
33
Chapitre I : Surveillance des équipements de production
On préfère dans ce cas ne pas prendre de décision plutôt que d’associer le vecteur x à
une classe ou de le rejeter en distance comme membre d’une nouvelle classe.
Cas gaussien
La plupart du temps, on ne dispose pas de loi de probabilité des vecteurs formes dans
chaque classe. On peut toutefois considérer que chaque vecteur x obéit à une loi de Gauss
dans chaque classe, loi dont on ignore les paramètres. Les paramètres de ces lois doivent être
estimés. On doit alors disposer d'échantillons de vecteurs pour chaque classe que l'on prend en
considération dans le système de décision.
La densité de probabilité d’une loi gaussienne s’écrit :
1 1
ϕ (x / α i ) = exp − 2 (x − µ i )(x − µ i )t [24]
2σ
d
σ 2 (2π ) 2
Si l’on prend un cas monodimensionnel, on peut représenter les quatre règles de décision
citées précédemment (équations [20], [21], [22], [23]) sur la Figure 6.
Comme nous l’avons dit précédemment, les paramètres des distributions gaussiennes ne
sont pas a priori connus. Ces paramètres sont le vecteur espérance mathématique µ i et la
variance σ 2i . Il faut donc disposer d’un échantillon de vecteurs indépendant pour chaque
classe. Soient donc x1 , x 2 ,..., x N cet échantillon appartenant à la classe α i . Un des moyens de
déterminer ces paramètres est l'estimateur du maximum de vraisemblance. On obtient alors :
N
^ 1
µi =
N
∑x
j =1
j
[27]
1 N
σm2i = ∑ (x j − µli )(x j − µli )t [28]
N − 1 j =1
34
Chapitre I : Surveillance des équipements de production
Pr(α1 )ϕ ( x / α1 ) Pr(α 2 )ϕ ( x / α 2 )
µ1 µ2
Rejet en distance
En reconnaissance des formes par approche floue, les classes sont représentées par des
sous-ensembles flous. Une fonction d’appartenance quantifie le degré d’appartenance λi (x)
de chaque vecteur x à la classe α i . Généralement, on donne pour chaque vecteur x l’ensemble
des degrés d’appartenance à toutes les classes (λ1 (x),....λM (x)) . La mise en œuvre d’une
méthode de classification floue implique deux étapes : la construction des fonctions
d’appartenance et la définition des règles de décision.
L’un des premiers algorithmes proposés pour construire automatiquement des fonctions
d’appartenance dites aussi partition floue, est l’algorithme (Fuzzy k-Means) ou algorithme des
centres mobiles flou, introduit par (Dunn, 1974) et (Bezdek, 1974). Cet algorithme non
supervisé consiste à minimiser itérativement un critère en fonction d’une matrice de partition
floue U = [ λk (xi ) ]( k =1, M ;i =1, N ) et V = (µ1 ,....µ M ) de la forme :
35
Chapitre I : Surveillance des équipements de production
N M
J m (U ,V ) = ∑∑ λk (xi ) m d k (xi ) 2 [29]
i =1 k =1
∑ λ (x ) = 1
k =1
k i ∀i, [31]
N
0 < ∑ λk (xi ) < N ∀k , [32]
i =1
2
où d k (xi ) 2 = xi − µ k représente la distance euclidienne entre le vecteur d’entrée xi et le
prototype µ k (ou noyau) de la classe α k , m est un paramètre appelé fuzzyfier ( m ≥ 1 ).
L’ensemble des vecteurs d’apprentissage est constitué de N vecteurs {x1, x2,…,xN}
susceptibles d’appartenir à M classes {α1 , α 2 ,..., α M } .
La solution qui minimise Jm ([29]) est donnée par les deux conditions suivantes :
∑
N
i =1 k
λ ( xi ) m xi
µk = ∀k [33]
∑
N
i =1
λk (xi ) m
1
λk (xi ) = [34]
∑ ( d (x ) / d (x ) )
M 2 /( m −1)
j =1 k i j i
Les prototypes ainsi que les fonctions d’appartenance sont calculés d’une manière
itérative :
o Initialisation de la matrice de partition floue U0, t = 0 ;
o Faire
t ← t +1
Calcul de la matrice des prototypes Vt avec l’équation [33]
Mise à jour de la matrice de partition floue Ut avec l’équation [34]
o Jusqu’à U t − U t −1 ≤ ε
36
Chapitre I : Surveillance des équipements de production
Ayant calculé la matrice de partition floue U = [ λk (x) ]( k =1, M ) qui représente donc les degrés
d’appartenance du vecteur x aux différentes classes, il reste à en déduire le choix d’une action
γ (x) . Une étude comparative entre plusieurs règles de décision a été réalisée par (Masson et
al., 1996). Le cas le plus simple serait d’avoir chaque action γ k (x) qui représente l’affectation
du vecteur x à la classe α k . Dans ce cas, on pourrait appliquer le principe du maximum
d’appartenance (Pal, 77), qui consiste à choisir la classe ayant le plus haut degré
d’appartenance :
γ k si ℜ(x) = {k }
γ (x) = γ d si ℜ(x) = ∅ [38]
γ si ℜ(x) > 1
0
L’inconvénient de la règle précédente est le fait que les deux options de rejet sont
contrôlées par le même paramètre θ k . La règle dite du rapport d’appartenance, proposée par
Frélicot (Frélicot, 1992) se base sur le rapport :
37
Chapitre I : Surveillance des équipements de production
λm (x)
υ= [39]
λ p ( x)
avec
Les réseaux de neurones sont des outils de l’intelligence artificielle, capables d’effectuer
des opérations de classification. Leur fonctionnement est basé sur les principes de
fonctionnement des neurones biologiques. Leur principal avantage par rapport aux autres
outils est leur capacité d’apprentissage et de généralisation de leurs connaissances à des
entrées inconnues. Les réseaux de neurones peuvent être également implémentés en circuits
électroniques, offrant ainsi la possibilité d’un traitement temps réel. Le processus
d’apprentissage est donc une phase très importante pour la réussite d’une telle opération.
Plusieurs types de réseaux de neurones et plusieurs algorithmes d’apprentissage existent en
littérature.
Une des qualités de ce type d’outil est son adéquation pour la mise au point de systèmes de
surveillance modernes, capables de s’adapter à un système complexe avec reconfigurations
multiples. Nous leur dédions l’ensemble du chapitre suivant. Nous présentons ainsi les deux
architectures les plus utilisées en surveillance industrielle, à savoir le Perceptron Multi
Couches (PMC) et les Réseaux à Fonctions de base Radiales (RFR). La Figure 7 montre
l’architecture générale d’une application de surveillance par reconnaissance des formes avec
réseaux de neurones. L’expert humain joue un rôle très important dans ce type d’application.
Toute la phase d’apprentissage supervisé du réseau de neurones dépend de son analyse des
modes de fonctionnement du système. Chaque mode est caractérisé par un ensemble de
données recueillies sur le système. A chaque mode, on associe une expertise faite par l’expert.
38
Chapitre I : Surveillance des équipements de production
Cette association (ensemble de données - modes de fonctionnement) sera apprise par le réseau
de neurones. Après cette phase d’apprentissage, le réseau de neurones associera les classes
représentant les modes de fonctionnement aux formes d’entrée caractérisées par les données
du système.
Expert Humain
Procédé industriel
Base
Base de
de
données
Apprentissage
Réseau de neurones
I.4. Conclusion
39
Chapitre I : Surveillance des équipements de production
être classé comme anormal. C’est alors que la fonction diagnostic doit localiser l’organe
défaillant et identifier les causes ayant provoqué ces situations de défaillance. Cette opération
est souvent menée par un expert et dans certains cas exige des connaissances poussées sur
l’équipement.
Le classement des techniques de surveillance est fonction de l’existence ou non d’un
modèle formel de l’équipement à surveiller. Nous avons donc présenté, d’une part, les
méthodes qui ne se basent pas sur l’existence de ce modèle, c'est-à-dire les outils statistiques
et les techniques de reconnaissance des formes et, d’autre part, celles qui l’utilisent, à savoir
les méthodes d’estimation d’état et d’estimation paramétrique (techniques de l’Automatique).
Ces dernières techniques ont pour principe de comparer l’état théorique du système fourni par
le modèle avec son état courant donné par les observations. Souvent, pour des équipements
complexes, ces modèles sont difficiles à mettre en œuvre et, quand ces modèles existent, leur
réponse est souvent entachée d’incertitudes de modélisation. Ces incertitudes sont dues au fait
qu’on ne peut pas cerner tous les paramètres physiques d’un équipement. Les incertitudes de
modélisation ainsi que les bruits de mesures sont pris en compte d’une manière explicite par
le modèle. Généralement, les paramètres inconnus, appelés perturbations, sont pris en compte
dans le modèle d’une manière additive, les erreurs de modélisation d’une manière
multiplicative et les bruits de mesure par la conception de résidus robustes généralement
obtenus grâce à des techniques de découplage et des techniques de filtrage du signal. Les
techniques de l’Intelligence Artificielle ne se basent pas sur le modèle de l’équipement et
prennent en compte les perturbations ainsi que les bruits de mesure, d’une manière implicite.
La surveillance à base de modèle est souvent opérée hors ligne, empêchant ainsi des
traitements temps réel. En revanche, l’Intelligence Artificielle offre des outils totalement
découplés de la structure du système, permettant un suivi temps réel de l’évolution de celui-ci.
Le raisonnement en ligne fait que l’approche de l’Intelligence Artificielle est plus robuste à
des changements de modes opératoires comme pour les systèmes ayant plusieurs
configurations. Elle est donc évolutive.
L’approche de surveillance par reconnaissance des formes, munie des notions de rejet
(d’ambiguïté et de distance) et de la possibilité d’adaptation s'est donc montrée performante
pour résoudre des problèmes de surveillance. En effet, la connaissance existante sur les
différents modes de fonctionnement d'un système est toujours incomplète.
Le rejet d’ambiguïté permet de ne pas prendre une décision trop hâtive par rapport aux
modes de fonctionnement identifiés. L’expert devra alors décider parmi deux ou plusieurs
solutions proposées.
Le rejet de distance permet de tenir compte du caractère incomplet de la connaissance et
l’adaptation périodiquement réalisée met en évidence de nouvelles classes. Il convient aussi
d’interpréter physiquement ces classes en termes de causes des modes de fonctionnement.
Cela ne peut être réalisé que par un expert.
40
Chapitre I : Surveillance des équipements de production
41
42
43
Chapitre II
Résumé : Les avantages les plus importants que l’on peut attribuer
à une application de surveillance par réseaux de neurones sont : la
modélisation et estimation de fonctions non linéaires par
apprentissage, la fusion de données et la généralisation et
reconstruction des signaux capteurs. Deux architectures neuronales
sont généralement utilisées pour des tâches de surveillance : le
Perceptron Multi Couches et les Réseaux à base de Fonctions
Radiales. Des différences majeures existent entres ces deux
architectures qui ont une représentation globale pour le PMC et
locale pour les RFR. La représentation locale est plus avantageuse
pour la surveillance que la représentation globale. L’un des
avantages est que contrairement au PMC, les RFR sont capables
de dire « je ne sais pas ».
Abstract : The most important advantages of a neural network
monitoring application are : the modeling and the estimation of
non linear functions by learning, the data fusion and finally the
generalization and reconstruction of sensors signals. Two neural
networks are generally used in the monitoring application: Multi
Layer Perceptron and Radial Basis Function network. Several
differences exist between these two architectures which have a
global representation for the MLP and a local one for the RBF.
The local representation is more advantageous for the monitoring
than the global one. One of the advantages is that contrary to the
MLP, the RBF is able to say " I do not know ".
Chapitre II : Application des réseaux de neurones en surveillance
45
Chapitre II : Application des réseaux de neurones en surveillance
Chapitre II
II.1. Introduction
Dans la plupart des modélisations des systèmes industriels, des incertitudes persistent entre
le comportement du système réel et l’évolution du modèle. Ces incertitudes sont dues, d’un
côté, aux manques de connaissances exhaustives sur le fonctionnement de l’équipement et,
d’un autre côté, le modèle ne prend en compte qu’une partie des paramètres qui influent sur
l’évolution de la sortie. Par ailleurs, dans certains cas, ce modèle est quasiment impossible à
obtenir.
Les réseaux de neurones peuvent fournir une solution intéressante pour des problématiques
de surveillance d’équipements industriels. En effet, le chapitre précédent montre que leur
utilisation ne nécessite pas l’existence d’une modélisation formelle de cet équipement. Par
ailleurs, leurs capacités de mémorisation, d’apprentissage et d’adaptation représentent des
fonctions très utiles à tout système de surveillance autonome.
Ce chapitre est structuré en trois parties. Une première partie est consacrée à la
présentation des réseaux de neurones artificiels. Nous commençons par donner une brève
présentation de l’évolution historique de cet axe de recherche dont la première inspiration
biologique remonte à 1890. Avant de présenter le principe de fonctionnement des neurones
artificiels, nous décrivons les bases essentielles des neurones biologiques. Nous concluons
cette partie en présentant les propriétés les plus importantes des réseaux de neurones
artificiels.
La deuxième partie de ce chapitre est consacrée aux architectures neuronales les plus
utilisées en surveillance industrielle qui sont : le Perceptron Multi Couches et les Réseaux à
base de Fonctions Radiales et, avec un degré moindre, le modèle de Hopfield et celui de
Kohonen. Nous présentons ainsi leur principe de fonctionnement avec les différents
algorithmes d’apprentissage.
46
Chapitre II : Application des réseaux de neurones en surveillance
Dans la troisième partie du chapitre, nous verrons comment les réseaux de neurones
artificiels sont appliqués en surveillance. Deux types d’applications sont ainsi présentées : la
reconnaissance des formes et l’approximation de fonctions.
Dans le premier type d’application, les réseaux de neurones servent à reconnaître le mode
de fonctionnement ou de dysfonctionnement à partir des paramètres de surveillance3. Ces
données représentent le vecteur forme qui caractérise chaque mode. L’identification d’un
mode de défaillance à partir du vecteur forme est vue comme la détection d’une défaillance,
puisque le système est sorti de la classe qui représente le mode nominal.
Dans le deuxième type d’application, les réseaux de neurones sont utilisés comme un
approximateur universel. Ils offrent ainsi une identification de l’équipement (pour le
pronostic) sous la forme d’une boîte noire en utilisant les techniques d’apprentissage.
II.2.1. Historique
47
Chapitre II : Application des réseaux de neurones en surveillance
avec les Perceptrons Multi Couches. M. Minsky et S. Papert publient ensuite en 1969 un
ouvrage qui met en évidence les limitations théoriques du Perceptron. Ces limitations
concernent l’impossibilité de traiter des problèmes non linéaires en utilisant ce modèle.
Quelques années d’ombre se sont ensuite succédées de 1967 à 1982. Le renouveau de cette
discipline reprend en 1982 grâce à J. J. Hopfield, un physicien reconnu. Au travers d’un
article court, clair et bien écrit, il présente une théorie du fonctionnement et des possibilités
des réseaux de neurones. Il faut remarquer la présentation anticonformiste de son article.
Alors que les auteurs s’acharnent jusqu’alors à proposer une structure et une loi
d’apprentissage, puis à étudier les propriétés émergentes, J. J. Hopfield fixe préalablement le
comportement à atteindre par son modèle et construit, à partir de là la structure et la loi
d’apprentissage correspondant au résultat escompté. Ce modèle est aujourd’hui encore très
utilisé pour des problèmes d'optimisation. On peut citer encore la Machine de Boltzmann en
1983 qui était le premier modèle connu, apte à traiter de manière satisfaisante les limitations
recensées dans le cas du Perceptron. Mais l’utilisation pratique s’avère difficile, la
convergence de l’algorithme étant extrêmement longue (les temps de calcul sont
considérables). C’est ensuite qu’en 1985 la rétro-propagation de gradient apparaît. C’est un
algorithme d’apprentissage adapté au Perceptron Multi Couches. Sa découverte est réalisée
par trois groupes de chercheurs indépendants. Dès cette découverte, nous avons la possibilité
de réaliser une fonction non linéaire d’entrée/sortie sur un réseau, en décomposant cette
fonction en une suite d’étapes linéairement séparables. Enfin, en 1989 Moody et Darken
exploitent quelques résultats de l’interpolation multi variables pour proposer le Réseau à
Fonctions de base Radiales (RFR), connu sous l’appellation anglophone Radial Basis
Function network (RBF). Ce type de réseau se distingue des autres types de réseaux de
neurones par sa représentation locale.
48
Chapitre II : Application des réseaux de neurones en surveillance
-a- -b-
49
Chapitre II : Application des réseaux de neurones en surveillance
neurone artificiel. Chaque neurone artificiel est un processeur élémentaire. Il reçoit un nombre
variable d'entrées en provenance de neurones amont. A chacune de ces entrées est associée un
poids w, abréviation de weight (poids en anglais), représentatif de la force de la connexion.
Chaque processeur élémentaire est doté d'une sortie unique, qui se ramifie ensuite pour
alimenter un nombre variable de neurones aval. A chaque connexion est associée un poids.
ξ1
wi1
yi = f ( ai )
ai f
wij
ξj
ai = ∑ j wij ξ j [41]
A partir de cette valeur, une fonction de transfert calcule la valeur de l'état du neurone.
C'est cette valeur qui sera transmise aux neurones aval. Il existe de nombreuses formes
possibles pour la fonction de transfert. Les plus courantes sont présentées sur la Figure 12. On
remarquera qu'à la différence des neurones biologiques dont l'état est binaire, la plupart des
50
Chapitre II : Application des réseaux de neurones en surveillance
fonctions de transfert sont continues, offrant une infinité de valeurs possibles comprises dans
l'intervalle [0, +1] ou [-1, +1].
+1 +1 +1 +1
S a S a S a S a
-1 -1 -1 -1
Figure 12. Différents types de fonctions de transfert pour le neurone artificiel. a) fonction à
seuil du neurone de Mc Culloch et W. Pitts (1949), b) linéaire par morceaux du modèle
Adaline de Widrow et Hoff (1960), c) sigmoïde d’un réseau Perceptron Multi Couches de
Rosenblatt (1962), d) gaussienne du réseau RFR de Moody et Darken (1989)4.
L’une des caractéristiques les plus complexes du fonctionnement de notre cerveau est bien
la phase d’apprentissage. C’est une phase au bout de laquelle certaines modifications
s’opèrent entre les connexions des neurones : certaines sont renforcées et d’autres affaiblies
ou carrément inhibitrices. Le cerveau converge alors vers un comportement souhaité : par
exemple l’apprentissage d’une langue, ou encore l’apprentissage par un enfant à reconnaître
son environnement. Ceci nous emmène à la notion de mémoire qui donne au cerveau la
capacité de retrouver des expériences passées. Le cerveau possède plusieurs types de
mémoires. Nous ne nous attarderons pas sur ces différents types de mémoires mais tout ce que
nous pouvons retenir c’est que le cerveau humain procède par association. Cela permet par
exemple de retrouver une information à partir d’éléments incomplets ou imprécis (bruités).
Par exemple, le fait de voir un bout d’une photographie qu’on connaît déjà est suffisant pour
que notre cerveau soit capable de la reconnaître. Dans le paragraphe suivant, nous détaillerons
d’avantage cette importante caractéristique des réseaux de neurones artificiels, plus connue
comme capacité de généralisation. Le mécanisme de l’association permet aussi au cerveau de
converger vers un état à partir d’un autre état. Par exemple, le fait de passer devant une
boulangerie nous fait rappeler qu’on devait acheter du pain. Cette deuxième importante
caractéristique est aussi connue sous le nom de mémoire adressée par le contenu, dont le
4
Pour le cas de la fonction gaussienne, l’activation a n’est pas la même que celle représentée par l’expression
[41], mais représente un calcul de distance euclidienne. Nous détaillerons plus loin cette fonction.
51
Chapitre II : Application des réseaux de neurones en surveillance
modèle de Hopfield s’en inspire. Par analogie avec les réseaux de neurones biologiques, les
réseaux de neurones artificiels tentent de reproduire les caractéristiques les plus importantes
du comportement biologique, à savoir l’apprentissage, la généralisation et l’association.
L’apprentissage des réseaux de neurones artificiels est une phase qui permet de déterminer
ou de modifier les paramètres du réseau, afin d’adopter un comportement désiré. Plusieurs
algorithmes d’apprentissage ont été développés depuis la première règle d’apprentissage de
Hebb en 1949. Nous présentons au paragraphe 3 une partie de ces algorithmes
d’apprentissage qui sont classés en deux catégories : supervisé et non supervisé.
Dans l’apprentissage supervisé, un superviseur (ou expert humain) fournit une valeur ou un
vecteur ζ de sortie (appelé cible ou sortie désirée) que le réseau de neurones doit associer au
vecteur d’entrée x. L’apprentissage consiste dans ce cas à modifier les paramètres du réseau
de neurones afin de minimiser l’erreur entre la sortie cible et la sortie réelle du réseau de
neurones.
Dans l’apprentissage non supervisé, les données ne contiennent pas d’informations sur une
sortie désirée. Il n’y a pas de superviseur. Il s’agit de déterminer les paramètres du réseau de
neurones suivant un critère à définir.
52
Chapitre II : Application des réseaux de neurones en surveillance
d’autres termes, tandis que le réseau apprend dans une région de l’espace des données, le
modèle peut oublier ce qu’il a appris dans d’autres régions.
La figure ci-dessous illustre la différence de généralisation entre les deux architectures
neuronales caractérisées par les deux fonctions d’activation (locale pour le RFR et globale
pour le PMC) :
X2 X2
X1 X1
–a– –b–
Figure 13. Différence des capacités de généralisation entre le PMC (a) et les RFR (b).
Cette capacité de généralisation est très liée à la notion de sur-apprentissage5. Ces deux
caractéristiques sont complètement antagonistes. On parle de sur-apprentissage quand le
réseau a trop parfaitement appris les exemples proposés. Il sera donc incapable de généraliser.
Ceci est appelé calcul de la complexité du réseau de neurones. En pratique, on effectue un
apprentissage sur un sous ensemble S de l’espace de données D. Le réseau est alors testé sur
un ensemble de test T ne faisant pas partie de l’apprentissage. On calcule alors la moyenne
des erreurs quadratiques sur l’ensemble S appelée ‘erreur base apprentissage’ et sur
l’ensemble de test T appelée ‘erreur base test’. Plus on agrandit l’ensemble S, plus l’erreur
base apprentissage diminue, plus l’erreur base test augmente. Le réseau perd dans ce cas là
ses capacités de généralisation. La Figure 14 illustre clairement ce compromis entre sur-
apprentissage, sous-apprentissage et bonne généralisation.
5
Over-fitting en anglais.
53
Chapitre II : Application des réseaux de neurones en surveillance
Base test
Erreur moyenne
Base apprentissage
Complexité k du modèle
k optimal
Figure 14. Complexité d’un réseau de neurones : pour trouver un compromis entre erreur
apprentissage et erreur test, on compare pour différentes complexités k du modèle, l’erreur
moyenne sur la base d’apprentissage et sur une base de test indépendante. La complexité
optimale du modèle correspond à la valeur de k pour laquelle l’erreur sur la base de test est
minimale.
Les techniques de surveillance par réseaux de neurones sont fondées sur l’existence d’une
base de données d’apprentissage et non sur l’existence d’un modèle formel ou fonctionnel de
l’équipement. Le principe d’une telle application est de trouver une relation entre une (des)
variable(s) d’entrée et une (des) variable(s) de sortie. Les variables d’entrée peuvent être
quantifiables (sorties capteurs) ou qualifiables (observations faites par l’opérateur). A partir
de ces variables d’entrée, le réseau de neurones donne une réponse caractérisée par deux types
de variables de sortie. Des variables de sortie réelles qui peuvent représenter une sortie
estimée d’un paramètre de surveillance ou des variables de sortie catégorielles qui
représentent l’état de fonctionnement de l’équipement. Selon la nature de ces données en
sortie, il existe deux types d’applications. Le premier type est une application
d’approximation de fonctions, qui consiste à estimer une sortie mesurée de l’équipement.
Dans ce cas, les réseaux de neurones sont utilisés en tant qu’approximateur universel et
fournissent un modèle sous la forme d’une boîte noire du système. Ceci n’est autre que de
l’identification des processus industriels. Comme pour les méthodes à base de modèle,
décrites au chapitre précédent, la comparaison de la sortie du réseau de neurones avec celle du
système réel donne un résidu qui servira à déterminer si le système est dans un état défaillant
ou pas. Le deuxième type d’application considère le problème de la surveillance comme un
54
Chapitre II : Application des réseaux de neurones en surveillance
Données quantifiables
I1
t
Données de
sortie Identification
I2 de processus
Reconnaissance
Données qualifiables
de forme
I3
• Mode nominal
• Mode dégradé
• Mode de défaillance 1
Réseau de neurones
Procédé industriel
Données qualifiables
Koivo (Koivo, 1994) a publié un article de synthèse sur l’application des réseaux de
neurones en surveillance industrielle. Cet article présente les architectures neuronales les plus
utilisées dans ce domaine avec des résultats pratiques dans des applications de diagnostic en
statique et en dynamique. Trois types de réseaux de neurones ont été testés : le Perceptron
Multi Couche, le Réseau à Fonctions de base Radiales et la carte de Kohonen. Les deux
premiers réseaux donnent d’assez bons résultats en classification et en identification de
processus. Les RFR peuvent se montrer plus performants que les PMC à condition de
déterminer judicieusement leurs paramètres. Par contre, le réseau de Kohonen n’est pas aussi
performant que les deux premiers mais ses capacités d’auto-adaptation (apprentissage non
supervisé) sont très appréciées. L’auteur insiste dans sa conclusion sur la pertinence du choix
du type de réseaux de neurones en fonction de l’application. Les types de réseaux de neurones
les plus utilisés en surveillance s’avèrent donc être :
• Le Réseau à Fonctions de base Radiales (RFR),
• Le Perceptron Multi Couches (PMC),
6
On rencontre souvent en littérature les termes classification ou discrimination associés au domaine de la
reconnaissance des formes.
55
Chapitre II : Application des réseaux de neurones en surveillance
et avec un degré moindre les mémoires auto associatives (modèle de Hopflield) et la carte de
Kohonen. Chaque type de réseau de neurones a ses avantages et ses inconvénients selon
l’application que l’on fait. Au paragraphe suivant nous allons présenter le principe de
fonctionnement de chacune des quatre architectures.
7
En anglais, ce type de réseau est appelé : Multi Layer Perceptron (MLP)
56
Chapitre II : Application des réseaux de neurones en surveillance
k=N
Oi = f (ai ) = f ( ∑ wik ξ k ) [42]
k =1
où wik est le poids de la connexion qui relie l’unité k à l’unité i, ai est l’activation de l’unité i, f
est la fonction d’activation des unités (Figure 16). Cette fonction d’activation est du type
fonction à seuil avec l’expression suivante :
+1 si x ≥ θ
f ( x) = [43]
−1 si x < θ
ξ1
ο1
ο2
ξk
wik
οi
ξN
Le rôle de l’apprentissage est de modifier les poids des connexions entre les neurones
d’entrée et ceux de sortie, de manière à obtenir une réponse que l’on souhaite reproduire par
le réseau de neurones. Rosenblatt s’est inspiré de la règle de Hebb pour la modification des
poids. Son principe est de rajouter, dans le cas où la sortie obtenue ο℘
i du réseau est différente
de la sortie désirée ζ i , une quantité ∆wik aux poids de chaque connexion. Dans le cas
℘
où ∆wik est la quantité ajoutée au poids wik . Pour chaque exemple ℘ de l’ensemble des
exemples d’apprentissage, on peut ainsi écrire :
∆wik = η (ζ i℘ − ο℘
i )ξ k
℘
[45]
57
Chapitre II : Application des réseaux de neurones en surveillance
Cette procédure d’apprentissage pour le Perceptron simple peut converger vers un état des
poids des connexions donnant de bons résultats, à la seule condition que le problème soit
linéairement séparable. Malheureusement, un grand nombre de problèmes rencontrés en
pratique, ne sont pas linéairement séparables. Le Perceptron possède tout de même une bonne
capacité de généralisation.
f (ai ) = ai [46]
L’avantage d’utiliser des unités linéaires est qu’elles permettent de calculer une fonction de
coût qui évalue l’erreur que commet le réseau. Cette erreur peut être définie en fonction des
erreurs entre réponses désirées et réponses obtenues par le réseau. Cette erreur est donc
fonction des poids du réseau :
1 1
E ( w) = ∑
2 i℘
(ζ i℘ − ο℘
i ) =
2
∑ (ζ i℘ − ∑k wik ξ k℘ )2
2 i℘
[47]
L’objectif de l’apprentissage est de modifier les valeurs des poids du réseau de façon à
minimiser cette erreur. Il s’agit donc de descendre le long de la surface définie par l’erreur
dans l’espace des poids du réseau. L’algorithme de descente du gradient suggère de changer
chaque poids wik d’une quantité ∆wik proportionnelle au gradient de l’erreur :
∂E
∆wik = −η = η ∑ (ζ i℘ − ο℘
i )ξ k
℘
[48]
∂wik ℘
On peut également effectuer une modification des poids à chaque exemple d’entrée ℘ . On
obtient alors :
∆wik = η (ζ i℘ − ο℘
i )ξ k = ηϑi ξ i
℘ ℘ ℘
[49]
ϑi℘ = ζ i℘ − ο℘
i [50]
58
Chapitre II : Application des réseaux de neurones en surveillance
Cette règle d’apprentissage est généralement appelée la règle Delta ou règle de Widrow-
Hoff. Elle converge vers la solution des moindres carrés qui minimise la fonction d’erreur E.
II.3.1.3. La rétropropagation
Un des désavantages du Perceptron est qu’il minimise une erreur en tout ou rien à cause de
sa fonction d’activation (expression [43]). Il ne prend donc pas en compte la notion de
distance. De ce fait, il est très peu robuste. La règle d’apprentissage de Widrow-Hoff (règle de
Delta) ne travaille plus en tout ou rien mais minimise une fonction d’erreur quadratique, donc
plus robuste. Malheureusement, cette règle ne peut s’appliquer que sur des réseaux à une
seule couche de poids adaptatifs. C’est donc en étendant la règle de Widrow-Hoff que
plusieurs équipes de chercheurs (Le Cun, 1985) et (Werbos, 1974) ont développé un
algorithme d’apprentissage appelé rétropropagation du gradient de l’erreur, généralisé
ensuite par l’équipe de Rummelhart en 1986 (Rummelhart et al., 1986). Cet algorithme
fournit une façon de modifier les poids des connexions de toutes les couches d’un Perceptron
Multi Couches (PMC).
Soit le réseau à deux couches décrit par la Figure 17 dans lequel les unités de sortie sont
notées οi , les unités cachées ν j et les unités d’entrée ξ k . Les connexions des unités d’entrée
aux unités cachées sont notées w jk et celles des unités cachées aux unités de sortie par wij .
L’entrée k a pour valeur ξ k℘ lorsque la donnée ℘ est présentée au réseau. Ces valeurs peuvent
être binaires (0/1 ou +1/-1) ou continues.
ξ1
ν1 ο1
ξ2
ν2
ο2
νj
οi
ξk
w jk wij
Pour la donnée d’entrée ℘ , la valeur de sortie de l’unité cachée j est donnée par :
59
Chapitre II : Application des réseaux de neurones en surveillance
ν ℘j = f (a℘j ) = f (∑ w jk ξ k℘ ) [51]
k
i = f ( ai ) = f ( ∑ wijν j )
ο℘ ℘ ℘
j
[52]
1
E℘ = ∑ (ο℘i − ζ ℘i )2 et E = ∑ E℘ [53]
2 i ℘
∂E ∂E℘
∆w = −η = −η ∑ [54]
∂w ℘ ∂w
Cette règle d’apprentissage est généralement appelée la règle de delta généralisée. Dans
l’expression [53], seule la sortie οi dépend du paramètre w . Selon la position des poids des
connexions, deux cas se présentent :
• Cas des connexions entre la couche cachée et celle de sortie ( wij ) :
Pour le cas des neurones de sortie, l’expression [54] devient fonction du paramètre wij qui
influe uniquement sur la sortie du neurone d’indice i. Nous pouvons donc décomposer la
dérivée de l’expression [54] par :
℘
[56]
60
Chapitre II : Application des réseaux de neurones en surveillance
∂E℘ ∂E℘ ∂ν j ∂a j
℘ ℘
∂E℘
= ℘ ℘ = ℘ f j' (a℘j )ξ k℘ [57]
∂w jk ∂ν j ∂a j ∂w jk ∂ν j
∆w jk = η ∑ f j' (a℘j )ξ k℘ ∑ (ζ i℘ − ο℘ ' ℘
i ) f i ( ai ) wij [59]
℘ i
Après avoir calculé la variation des poids des connexions pour tous les neurones de sortie
(expression [56]), on calcule alors la variation des poids des connexions de la couche cachée
(expression [59]). On met ainsi à jour les poids des connexions de la couche de sortie jusqu’à
la couche d’entrée : on rétropropage ainsi le signal d’erreur. C’est de là que vient le nom de
cet algorithme : rétropropagation du gradient de l’erreur. Du fait de sommer les ∆wij pour
tous les vecteurs ℘ de la base d’apprentissage puis de remettre à jour les poids avec la
variation totale ainsi calculée, l’algorithme est appelé gradient total. Une autre façon de faire,
appelée version séquentielle, modifie les poids des connexions après chaque présentation d’un
vecteur d’entrée ℘ . Une version stochastique permet de prendre en compte les vecteurs
d’apprentissage ℘ d’une façon aléatoire.
L’algorithme de rétropropagation du gradient de l’erreur a permis de dépasser les limites
du Perceptron simple. Il s’avère capable de résoudre un grand nombre de problèmes de
classification et de reconnaissance des formes et a donné lieu à beaucoup d’applications. Cet
algorithme souffre néanmoins de nombreux défauts, parmi lesquels :
• Une des limitations importantes est le temps de calcul : l’apprentissage est très long ;
• Une grande sensibilité aux conditions initiales, c'est-à-dire à la manière dont sont
initialisés les poids des connexions ;
• De nombreux problèmes sont dus à la géométrie de la fonction d’erreur : minimums
locaux. Ce problème est en partie résolu avec le gradient stochastique, mais il subsiste
quand même ;
• Le problème de dimensionnement du réseau. La rétropropagation apprend une base
d’apprentissage sur un réseau dont la structure est fixée a priori. La structure est
définie par le nombre de couches cachées, le nombre de neurones par couches et la
topologie des connexions. Un mauvais choix de structure peut dégrader
considérablement les performances du réseau.
61
Chapitre II : Application des réseaux de neurones en surveillance
Le modèle de Hopfield est basé sur le concept de mémoire adressée par le contenu :
Mémoire Associative. A partir d’un réseau entièrement connecté, un apprentissage basé sur la
règle de Hebb est proposé. Chaque information mémorisée représente un point stable de
l’espace d’état vers lequel l’évolution du système aboutit à partir d’un point initial voisin
correspondant à une version déformée de l’information mémorisée. Autrement dit, l’espace
d’état du système comporte des attracteurs qui correspondent aux informations mémorisées.
L’architecture du réseau est telle que chaque neurone est connecté à tous les autres sauf à
lui même. L’architecture du réseau de Hopfield est symétrique ; c'est-à-dire le poids wij de la
connexion entre le neurone i et le neurone j est identique à w ji , poids de la connexion entre
les neurones j et i.
L’évolution du réseau peut être conduite suivant plusieurs stratégies. Une évolution
synchrone conduit à calculer l’état de tous les neurones du réseau à chaque unité de temps.
Une autre possibilité consiste à mettre à jour un seul neurone à la fois de façon asynchrone.
Ainsi, soit un neurone est choisi de façon aléatoire à chaque pas de temps, soit chaque
neurone met à jour son état indépendamment des autres selon une probabilité par unité de
temps déterminée.
Les connexions entre les neurones d’un réseau à n cellules peuvent être représentées par
une matrice n × n :
οi = sgn(∑ wijο j − θi )
j
[61]
+1 si x ≥ 0
sgn( x) = [62]
−1 si x < 0
Tout le problème consiste donc à déterminer, s’il existe, l’ensemble des poids wij qui
permettent au réseau de se comporter comme une mémoire adressée par le contenu. La
condition irrévocable de convergence du réseau de Hopfield vers un état stable est que la
62
Chapitre II : Application des réseaux de neurones en surveillance
matrice des poids des connexions w ([60]) soit symétrique et de diagonale égale à zéro
(Hopfield, 1982). La particularité du réseau de Hopfield est que son évolution vers un état
stable est caractérisée par une fonction Ψ (ο) appelée fonction d’énergie. La valeur de cette
fonction d’énergie dépend du vecteur d’états ο des neurones et de la matrice w :
1
Ψ (ο) = − οwοt + θ οt [63]
2
1 n n n
Ψ (ο) = − ∑∑
2 j =1 i =1
wijοiο j + ∑ θiοi
i =1
[64]
Le réseau de Hopfield converge vers un des états stables (états attracteurs) correspondant à
un minimum local de la fonction d’énergie Ψ (ο) (Rojas, 1996). Pour définir les états stables à
mémoriser par le réseau, il faut donc trouver la matrice des poids w qui minimise la fonction
d’énergie.
Il a été observé que, dans de nombreuses zones du cortex cérébral, des colonnes voisines
ont tendance à réagir à des entrées similaires. Dans les aires visuelles, par exemple, deux
colonnes proches sont en correspondance avec deux cellules proches de la rétine (Hubel et al.,
1977). Des observations identiques ont pu être faites dans le bulbe olfactif ou dans l'appareil
auditif (Knudsen et al., 1979). Ces observations ont mené Kohonen (Kohonen, 1989) à
proposer un modèle de carte topologique auto-adaptative qui permet de coder des motifs
présentés en entrée, tout en conservant la topologie de l'espace d'entrée.
Dans la plupart des applications, les neurones d'une carte de Kohonen sont disposés sur
une grille 2D (Figure 18). Chaque neurone i de la carte effectue un calcul de la distance
euclidienne entre le vecteur d’entrée ξ et le vecteur poids w i .
Dans les réseaux de Kohonen, la mise à jour des paramètres des neurones s’effectue sur
tout un voisinage d’un neurone i. Un rayon de voisinage r représente donc la longueur du
voisinage d’un neurone i en terme de nombre de neurones. On définit alors une fonction
=(i, k ) égale à 1 pour tous les neurones k voisins du neurone i compris dans le rayon r et égale
à zéro pour tous les autres neurones. L’algorithme d’apprentissage de la carte de Kohonen se
présente comme suit :
• Initialiser aléatoirement les vecteurs w i . On donne une valeur initiale au rayon r et
au taux d’apprentissage η .
63
Chapitre II : Application des réseaux de neurones en surveillance
Sortie
Carte de
Kohonen
wi
Entrée
Les réseaux de neurones à fonctions de base radiales sont des réseaux de type feedforward8
avec une seule couche cachée (Figure 19). L’utilisation de ces réseaux remonte aux années
8
feedforward est l’appellation anglophone des réseaux à propagation avant
64
Chapitre II : Application des réseaux de neurones en surveillance
soixante-dix par (Hardy, 1971), (Agteberg, 1974), (Schagen, 1979) pour résoudre des
problèmes d’interpolation multi variables. Les bases théoriques de ces réseaux ont été ensuite
approfondies par (Powell, 1987), (Poggio et al., 1989) et (Moody et al., 1989). D’autres
travaux se sont succédés où l’application des RFR a été élargie à d’autres domaines, à savoir
la prédiction de l’évolution des systèmes dynamiques (Broomhead et al., 1988), (Casdagli,
1989) et la classification de phonèmes (Renals et al., 1989). La particularité de ces réseaux
réside dans le fait qu’ils sont capables de fournir une représentation locale de l'espace grâce à
des fonctions de base radiales φ ( . ) dont l'influence est restreinte à une certaine zone de cet
espace ( . représente la norme euclidienne).
φj ( x) = φ ( x − µ j , σ j )
x1
x2
x3
Deux paramètres sont associés à cette fonction de base : un vecteur de référence µj appelé
centre ou prototype et la dimension σ i du champ d'influence appelé rayon d’influence. La
réponse de la fonction de base dépend donc de la distance du vecteur d'entrée x au vecteur
prototype µj, et de la taille du champ d'influence :
φ j ( x) = φ j ( x − µ j , σ j ) [66]
Définition 1
Une fonction g de ]0, +∞[ dans \ est dite définie positive si et seulement si
la fonction x 6 g ( x ) est absolument décroissante.
65
Chapitre II : Application des réseaux de neurones en surveillance
Définition 2
La fonction de base la plus utilisée est la gaussienne (Figure 20). Elle s'exprime, sous sa
forme la plus générale, par :
1
φ j (x) = exp(− (x − µ j )(x − µ j )t ) [67]
2σ 2j
y ( x) =
∑ w φ ( x)
j j j
[68]
∑ φ ( x)j j
• Non-Normalisé :
y ( x) = ∑ j w j φ j ( x) [69]
66
Chapitre II : Application des réseaux de neurones en surveillance
La raison essentielle du choix de la gaussienne comme fonction de base des RFR est que
cette fonction est factorisable. En effet, on peut facilement démontrer que parmi toutes les
fonctions de base respectant la condition de Micchelli (Micchelli, 1986), la gaussienne est la
seule fonction qui peut être décomposée en produit de fonctions gaussiennes
unidimensionnelles :
2
x-µ ( xi − µi )2
− −
φ ( x) = e = ∏i e [70]
2
2σ 2σ 2
9
Generalized Radial Basis Functions (GRBF)
67
Chapitre II : Application des réseaux de neurones en surveillance
x1
Π
x2
x3
x2 x2
2σ 2σ 1
µ2 µ2
2σ 2σ 2 2σ 2
2σ
2σ 2σ 1
µ1 x1 µ1 x1
-a- -b-
Figure 22. Intérêt de la factorisation de la fonction gaussienne. a) matrice de variance-
covariance diagonale (RFR sphérique), b) matrice de variance-covariance complète (RFR
Elliptique ou Généralisé).
Prototype
Classe B Classe B Classe B
Champ
d’influence Classe A Classe A
Classe A
68
Chapitre II : Application des réseaux de neurones en surveillance
N
h(x) = ∑ wnφ ( x − µ n ) [71]
n =1
Tout le problème de l’interpolation consiste donc à résoudre les N équations linéaires pour
trouver les coefficients inconnus qui sont les poids wn :
Φ.w = ζ [73]
La condition de Micchelli (Micchelli, 1986) sur les fonctions de base gaussienne permet
d’avoir la matrice Φ = [φij = φ ( µi − µ j , σ j )] inversible. Par conséquent, le vecteur de
pondération peut s’écrire sous la forme suivante avec w = [ wn ]n =1,..., N :
w = Φ-1 .ζ [74]
En pratique, le problème d'interpolation n'est pas toujours intéressant. Les données sont
généralement bruitées et l'interpolation utilisant toutes les données de l'apprentissage
provoque un sur-apprentissage et par conséquent, une faible généralisation. Si, en revanche,
on considère un nombre de fonctions de base inférieur à celui des données d’apprentissage,
les paramètres de ces fonctions de base peuvent être ajustés par apprentissage afin de
minimiser l’erreur quadratique. Ainsi, au lieu de combiner des fonctions de base fixes, on
combine des fonctions dont la forme elle-même est ajustée par des paramètres. On comprend
que ces degrés de liberté supplémentaires permettent de réaliser une fonction donnée avec un
plus petit nombre de fonctions élémentaires. On obtient alors un modèle non linéaire par
69
Chapitre II : Application des réseaux de neurones en surveillance
rapport à ses paramètres. Nous verrons plus loin les différents algorithmes d’apprentissage qui
peuvent être utilisés pour déterminer les paramètres des fonctions de base.
b) Classification
Les RFR sont également utilisés dans des problèmes de classification. En théorie de la
classification probabiliste, la loi du vecteur x quand on ne connaît pas sa classe
d'appartenance est donnée par la loi mélange ϕ (x) :
M
ϕ (x) = ∑ Pr(α k )ϕ (x / α k ) [75]
k =0
M
f (x) = ∑ wik φk (x) [76]
k =0
avec wik représentant le poids de la connexion entre le kéme neurone radial et le iéme neurone
de sortie. D'après cette représentation, les centres des gaussiennes peuvent être considérés
comme étant des vecteurs représentatifs. La sortie des unités cachées représente la probabilité
a posteriori d'appartenance du vecteur d'entrée x à la classe ( α k ). Les poids des connexions
représentent la probabilité a priori des classes. La sortie de tout le réseau représente la
probabilité a posteriori de la classe de sortie Ci.
f (x / α k ) Pr(α k )
φk ( x ) = = Pr(α k / x) [77]
∑
M
k =1
f (x / α k ) Pr(α k )
et
Pr(α k / Ci ) Pr(Ci )
wik = = Pr(Ci / α k ) [78]
Pr(α k )
L'apprentissage des RFR permet de déterminer les paramètres de ces réseaux qui sont :
• les centres des fonctions radiales (prototypes) µ j ,
70
Chapitre II : Application des réseaux de neurones en surveillance
a) Techniques supervisées
E = ∑ En
n
[79]
avec :
1
En = ∑
2 k
(ζ kn − yk (x n )) 2 [80]
xn − µ j
∆µ j = η 2φ j (x )
n
(∑ (ζ kn − yk (x n )) wkj ) [82]
σ 2
j k
2
xn − µ j
∆σ j = η3φ j (x )
n
(∑ (ζ kn − yk (x n )) wkj ) [83]
σ 3
j k
71
Chapitre II : Application des réseaux de neurones en surveillance
b) Techniques heuristiques
Le principe de ces techniques est de déterminer les paramètres du réseau d'une manière
itérative. Généralement, on commence par initialiser le réseau sur un centre avec un rayon
d'influence initial ( µ 0 , σ 0 ). Les centres des prototypes µi sont créés au fur et à mesure de la
présentation des vecteurs d'apprentissage. L'étape suivante a pour but de modifier les rayons
d'influence et les poids des connexions (σ i , wi ) (uniquement les poids entre la couche
intermédiaire – neurones gaussiens – et la couche de sortie). Nous présentons par la suite
quelques heuristiques utilisées dans ce sens :
72
Chapitre II : Application des réseaux de neurones en surveillance
φ A B
xA xn xB x
Figure 24 Ajustement des rayons d’influence avec un seul seuil θ (algorithme RCE). Pas
d’ajout de prototype pour le nouveau vecteur d’entrée ( φ B ( xn ) > θ ). Le seuil θ permet de
réduire les zones de conflits par les relations suivantes : φ B ( xA ) < θ , φ A ( xn ) < θ , φ A ( xB ) < θ .
Cette technique, extraite partiellement de l'algorithme RCE, est utilisée pour des
applications en classification (discrimination). Le principe de la technique est d'introduire
deux seuils θ − et θ + afin de réduire les zones de conflit entre prototypes (problème essentiel
rencontré dans l'algorithme RCE). Pour assurer la convergence de l'algorithme
d'apprentissage, le réseau doit satisfaire les deux inégalités [84] ci-après pour chaque vecteur
x de classe c de la base d'apprentissage (Figure 25).
∃i : φic (x) ≥ θ +
[84]
∀k ≠ c, ∀j : φ jk (x) < θ −
Les auteurs ont testé cette technique simple d'apprentissage sur plusieurs bases de données,
en comparant les performances du DDA avec d'autres techniques d'apprentissage ainsi qu'avec
les performances du PMC (Perceptron Multi Couche). D’une part, les résultats du DDA
semblent nettement meilleurs que les autres, surtout en terme de nombre d'itérations avant que
l'apprentissage converge. A titre d'exemple, pour une application sur le problème des deux
spirales10 (Berthold et al., 1995), le réseau RFR « boosté » par la technique DDA a convergé
au bout de 4 périodes (ici une période représente un cycle de présentation de tous les vecteurs
de la base d'apprentissage), alors que le PMC avec l'algorithme de rétro-propagation, a
convergé au bout de 40000 périodes. D'autre part, tous les vecteurs faisant partie de la base
d'apprentissage ont été correctement classés avec le RFR, résultat qui n'est pas forcement
obtenu avec le PMC. Cet exemple montre clairement la différence en classification entre la
représentation locale des RFR et globale du PMC.
10
Problème type de classification (Lang et al., 1988)
73
Chapitre II : Application des réseaux de neurones en surveillance
φ A B
θ+
θ−
xA xn xB
x
Vecteur d'entrée
(classe B)
Figure 25. Ajustement des rayons d’influence avec deux seuils θ − et θ + (algorithme DDA).
Pas d’ajout de prototype pour le nouveau vecteur d’entrée ( φ B ( xn ) > θ + ). Le seuil θ − permet de
réduire les zones de conflits par les relations suivantes : φ B ( xA ) < θ − , φ A ( xn ) < θ − , φ A ( xB ) < θ − .
Le pseudo code suivant présente une itération d'apprentissage d'un vecteur x de classe c:
74
Chapitre II : Application des réseaux de neurones en surveillance
Ces techniques permettent d'estimer les paramètres du RFR en deux phases : une première
phase sert à déterminer les centres et les rayons des fonctions de base. Dans cette étape, on
utilise uniquement les vecteurs d'entrée. L'apprentissage est considéré comme étant non
supervisé. La deuxième phase a pour but de calculer les poids des connexions de la couche
cachée vers la couche de sortie (apprentissage supervisé).
1
µ j ≈ µˆ j =
Nj
∑x
x∈χ j
[85]
La convergence de l’algorithme est prononcée à la stabilité des centres des nuages de points.
On calcule alors la matrice de covariance de la fonction gaussienne. Celle-ci est estimée par
l'expression de la covariance simple ci-dessous :
1
σ 2 j ≈ σˆ 2j =
Nj
∑χ (x − µˆ
x∈
j )(x − µˆ j )t [86]
j
75
Chapitre II : Application des réseaux de neurones en surveillance
• Maximum d'appartenance
Cette technique, utilisée dans les applications de classification, prend les valeurs les plus
importantes des fonctions de base φi (x) :
N
φmax = max φi [87]
i =1
où N est le nombre de fonctions de base pour toutes les classes. La sortie du réseau de
neurones est alors donnée par :
y = classe(φmax ) [88]
76
Chapitre II : Application des réseaux de neurones en surveillance
{( x , ζ )}
N
n n
système linéaire. Soit, en effet, un échantillon d'apprentissage . On suppose que
n =1
le Réseau à Fonctions de base Radiales comporte M sorties. On cherche les poids w qui
minimisent le risque empirique:
2
N M
J
N M
Remp = ∑∑ ( yi (x ) − ζ ) = ∑∑ ∑ wikφk (x n ) − ζ in
n
i
n 2
[89]
n =1 i =1 n =1 i =1 k =1
Les conditions d’optimalités sont donc obtenues en annulant la dérivée de cette quantité
par rapport à wik , on obtient alors :
N J N
Si la matrice Φt Φ est non singulière11, la solution optimale pour les poids, à fonctions de
base fixées, s'écrit :
Nous présentons dans cette partie une liste non exhaustive de quelques travaux sur les
applications de surveillance industrielle. D’autres références non citées dans cette partie
peuvent être trouvées dans (Koivo, 1994), (Bernauer, 1996), (Dubuisson, 2001). Ce que l’on
peut retenir de cet état de l’art est que les réseaux de neurones sont : soit utilisés comme outil
secondaire pour la surveillance, c'est-à-dire comme approximateur de fonctions pour
l’identification des systèmes dynamiques grâce à une boîte noire neuronale ; soit comme outil
principal de détection et diagnostic, en l’occurrence tous les travaux de classification. Les
réseaux de neurones peuvent fournir, dans certains cas, des solutions plus intéressantes que les
11
Condition respectée pour les fonctions gaussiennes (voir condition de (Micchelli, 1986)).
77
Chapitre II : Application des réseaux de neurones en surveillance
La relation entrées-sorties d’un réseau de neurones peut avoir pour objet, non pas de
donner un diagnostic direct, mais de reconstruire une quantité utile à une décision ultérieure.
La variable de sortie n’est donc pas une variable catégorielle mais une variable réelle. Les
réseaux de neurones sont dans ce cas utilisés comme un approximateur de fonctions non
linéaires liant les variables de sortie aux variables d’entrée du système industriel. Ils
représentent donc une boîte noire non linéaire modélisant le système. Cette boîte noire peut
être dynamique ou statique, selon la nature du réseau de neurones (réseaux de neurones
temporels ou statiques). L’avantage d’une telle technique de modélisation est qu’aucune
connaissance (mathématique, physique ou autre) du système à modéliser n’est nécessaire. Le
réseau de neurones intègre implicitement ces connaissances à travers le processus
d’apprentissage. La réussite d’une telle technique de modélisation est donc tributaire du
processus d’apprentissage.
Les travaux présentés par (Böhme et al., 1999) constituent une application très intéressante
de détection et localisation des défauts capteurs d’une centrale d’épuration hydraulique. Ceci
est effectué par la reconstruction des signaux capteurs avec une comparaison de deux
architectures neuronales : le Perceptron Multi Couches comparé à la carte de Kohonen. Le
PMC est constitué de cinq couches, six neurones d’entrée et six neurones de sortie. Son
objectif est de reconstituer six mesures de six sorties capteurs après un apprentissage par
rétro-propagation. Dans ce cas, ce réseau peut donc être considéré comme une mémoire auto
associative. La détection ainsi que la localisation sont effectuées après une phase de
comparaison avec seuillage de la sortie estimée avec la sortie réelle du capteur. Cette mémoire
auto associative est donc comparée à la carte de Kohonen appelée carte topologique auto
adaptative. Cette carte contient 15*15 neurones avec un vecteur d’entrée de 6 neurones
(dimension de l’ensemble des sorties capteurs). Chaque neurone de la carte est caractérisé par
un prototype et un paramètre définissant le rayon d’influence, déterminés par le processus
d’apprentissage non supervisé. Pour chaque vecteur d’entrée, la réponse est donnée par un
neurone gagnant qui correspond à celui dont la réponse de la fonction gaussienne est la plus
importante. D’après la conclusion des auteurs, les deux techniques ont des performances
similaires. Ces réseaux ont été testés sur deux types de fautes isolées et une succession de
78
Chapitre II : Application des réseaux de neurones en surveillance
deux fautes. La carte de Kohonen se montre plus rapide pour la détection et l’identification du
capteur défaillant. La technique devient insignifiante si plus de 50% des variables d’entrée
sont erronées.
Une autre application de surveillance d’un moteur utilisant le même principe est présentée
dans (Petsche et al., 1996). Un Perceptron à trois couches utilisé comme mémoire auto
associative sert à reconstituer le spectre du courant électrique. Après un apprentissage par
l’algorithme de rétro-propagation, la sortie de la mémoire auto associative est comparée à
celle du spectre original. Tout écart supérieur à un seuil est synonyme de défaillance. Dans
(Vemuri, 1997)-(Vemuri et al., 1998) les réseaux de neurones ont été utilisés comme outils
complémentaires à la modélisation d’un manipulateur robot. Un Perceptron à trois couches
sert à estimer une fonction inconnue du modèle mathématique de fonctionnement du robot.
Cette fonction représente des perturbations (défaillances) du manipulateur. L’apprentissage
des paramètres du réseau s’effectue séquentiellement. La détection d’une défaillance se
traduit par une génération de résidus. La variable de sortie du modèle de fonctionnement
nominal (valeur estimée) est comparée à celle mesurée sur le robot. L’originalité de cette
application se situe dans la modélisation non-linéaire du fonctionnement du manipulateur où
les défaillances sont une fonction du temps, contrairement aux autres méthodes classiques où
les modèles sont linéaires avec des défaillances additives. Dans (Lopes et al., 1999) deux
PMC à trois couches sont utilisés pour une application d’estimation et de prédiction de la
qualité des pièces qui sortent d’un moule à injection. Un PMC sert à prédire (reconnaître) la
classe représentant la qualité de ces pièces, et un autre PMC pour quantifier cette qualité. Les
deux réseaux ont été appris par rétro-propagation (1000 itérations pour le premier et 6000
pour le deuxième).
Lors de la mise en place d’un système de surveillance par reconnaissance des formes,
l’expert est censé connaître les modes de bon fonctionnement et certains des modes de
défaillances. Une grande partie des modes de bon fonctionnement est généralement fournie
par les données du constructeur de l’équipement. Par contre, les informations concernant les
modes de défaillance peuvent provenir de deux origines différentes : soit fournies par le
constructeur ou par le bureau des études (provenance de haut), soit collectées en cours de
fonctionnement de l’équipement (provenance de bas). Ces connaissances sont emmagasinées
dans un historique de fonctionnement (base de données). Celui-ci contient les différentes
relations de "causes à effets" des situations de dysfonctionnement d’un équipement.
L’opération de diagnostic menée par l’expert est souvent très complexe12 et demande des
connaissances ainsi qu’un raisonnement, généralement difficiles à formaliser. Les
informations contenues dans l’historique de fonctionnement, représentent la base
d’apprentissage supervisé du réseau de neurones (Figure 26). La réussite d’une telle
12
Complexité qui dépend du type de défaillance et aussi de la complexité de l’équipement.
79
Chapitre II : Application des réseaux de neurones en surveillance
application est donc tributaire de la qualité des informations contenues dans l’historique de
fonctionnement.
Données Constructeur
Bureau des études Provenance de Haut
I1
I2
Surveillance I3
Les variables d'entrée peuvent être constituées par les différents paramètres mesurés sur le
procédé. On cherche à associer un mode de fonctionnement (fonctionnement nominal,
dégradé, …) à ces variables d'entrée. Les variables de sortie sont alors des variables
catégorielles où chaque catégorie représente un mode de fonctionnement. La relation entrées-
sorties représente dans ce cas directement l'opération de diagnostic (Dubuisson, 2001).
L’application décrite dans (Terstyanszky et al., 2002) est caractéristique de cette démarche.
Un réseau RFR est utilisé pour le diagnostic de défaillance d’un véhicule mobile autonome
(AMV : Autonomous Mobile Vehicle). Le réseau de neurones associe cinq modes de
défaillance à neuf variables mesurées en entrée. Les auteurs mettent en évidence les capacités
du réseau RFR à reconnaître des nouvelles situations jusqu’alors non apprises. Cette capacité
de généralisation locale des réseaux RFR est souvent appréciée dans les applications de
surveillance industrielle.
Un autre exemple d’application des réseaux de neurones en surveillance par
reconnaissance des formes est présenté dans (Keller et al., 1994). Les auteurs ont utilisé deux
80
Chapitre II : Application des réseaux de neurones en surveillance
13
Réseau de neurones dans lequel tous les neurones ont une fonction d’activation linéaire.
81
Chapitre II : Application des réseaux de neurones en surveillance
induire ainsi l’expert en erreur. Les auteurs ont tout de même choisi le PMC, malgré les
arguments précédemment évoqués. La raison essentielle de leur choix est que leur base de
connaissance (base d’apprentissage) était assez exhaustive pour couvrir la quasi-totalité de
l’espace des données d’entrée. Cette technique hybride semble donner des résultats assez
satisfaisants. L’intérêt majeur des réseaux de neurones dans cette application par rapport aux
autres méthodes classiques de détection des défaillances, concerne la résolution du problème
de la redondance des alarmes.
Une autre application de détection et diagnostic par reconnaissance des formes sur un
problème d’hypovigilance d’un conducteur est présentée dans (Hernandez, 1999). Les auteurs
ont utilisé deux techniques hybrides : la technique des Ensembles Flous Multidimensionnels14
et la technique des Réseaux de neurones à base de Fonctions Radiales Généralisés15. Le
problème consiste à associer des modes de conduite (normal, fatigue, alcool et inattention) à
un ensemble de sorties capteurs. Ce problème devient très complexe si l’on souhaite
modéliser le comportement du conducteur. Les techniques de l’IA sont donc indispensables
dans une telle situation où les connaissances du système sont très minimes. Le traitement des
chevauchements des classes de la base d’apprentissage (base de données superposées) est
l’une des raisons du choix des auteurs pour les deux outils cités précédemment. Un test de
chevauchement et décision finale permet de quantifier la proportion du chevauchement des
classes de sortie. Les performances des deux techniques (EFM et RFRG) semblent être
identiques avec un taux de réussite du diagnostic compris entre 78% et 90%.
Les applications précédentes montrent que les réseaux de neurones peuvent fournir des
solutions très intéressantes pour les problèmes de surveillance sans modèle. Toutefois, un
aspect fort important n’a pas encore été abordé jusque là, à savoir la dynamique du système à
surveiller. En effet, toutes les applications présentées ne traitent que l’aspect statique des
données capteurs. Ce type de traitement ne permet pas d’apprendre la dynamique d’un signal
capteur afin de prédire une défaillance, ni même d’apprendre des séquences de
fonctionnement d’un système à événements discrets. Les réseaux de neurones temporels (qui
feront l’objet du chapitre suivant) offrent cette possibilité de prise en compte de l’aspect
temporel des données.
Nous pouvons citer quelques travaux de surveillance par reconnaissance des formes avec
réseaux de neurones temporels. Les travaux présentés dans (Bernauer et al., 1993) et
(Demmou et al., 1995) traitent d’un problème de détection et diagnostic d’une cellule flexible
d’assemblage. Un réseau de neurones récurrents permet d’apprendre des séquences
temporelles booléennes qui représentent des gammes de bon fonctionnement. Après une
14
Multidimensional Fuzzy Sets
15
Generalized Radial Basis Functions
82
Chapitre II : Application des réseaux de neurones en surveillance
phase d’apprentissage assez complexe, le réseau est capable de détecter des situations de
défaillance système et de localiser l’origine de la défaillance. L’article présenté par
(Rengaswamy et al., 1995) constitue une autre application très intéressante des réseaux de
neurones pour la surveillance dynamique d’une unité de craquage catalytique fluide
(FCCU16). Un Perceptron à trois couches permet de prendre en compte l’évolution temporelle
des signaux capteurs. 21 défaillances sont associées aux variations de 7 sorties capteurs. Le
diagnostic s’effectue grâce à une base de connaissance sous forme d’un arbre de défaillance
reliant les effets constatés sur le système aux causes potentielles (les 21 défaillances du
système). Les effets constatés sur le système sont caractérisés par le type d’évolution des
sorties capteurs (brusque changement, évolution exponentielle, faible palier de dégradation,
important palier de dégradation, …etc.). Cette classification des signaux en fonction de leur
évolution est effectuée par des réseaux de neurones à trois couches, un réseau par signal
capteur. L’aspect temporel des signaux est pris en compte par cinq neurones d’entrée. Chaque
neurone d’entrée représente une réponse d’un capteur pris à différents intervalles de temps
(x(t),..x(t-4)). Chaque neurone de la couche de sortie représente la classe du type d’évolution
du signal. Le réseau est capable de distinguer sept classes différentes appelées primitives :
trois droites (horizontale, croissante et décroissante) et quatre courbes (deux croissantes -
convexe et concave- et deux décroissantes -convexe et concave-). L’apprentissage de 100
formes par l’algorithme de rétro-propagation a nécessité prés de 5000 itérations. La technique
a été testée sur 63 cas de défaillances avec, pour chaque défaillance, trois degrés de sévérité.
La technique semble donner de bons résultats en diagnostic, par contre aucun degré de
sévérité n’a pu être estimé.
Les réseaux de neurones peuvent aussi être des outils assez efficaces pour des applications
de prédiction ou pronostic où l’aspect dynamique (temporel) joue un rôle très important. Les
résultats présentés dans (Chang et al., 2001) semblent être très prometteurs pour des
applications de prédiction neuronale des systèmes non-linéaires. Les auteurs ont appliqué un
réseau RFR avec une fenêtre temporelle pour la prédiction des inondations d’un important
fleuve situé à Taiwan sur un horizon de trois heures. Les paramètres du réseau sont
déterminés en deux phases : une phase non supervisée avec l’algorithme Fuzzy Min-Max et
une phase supervisée avec la méthode de régression linéaire. Le réseau donne d’assez bons
résultats sur plusieurs points tests. Nous pouvons encore citer les travaux de (Freitas et al.,
1999) pour la détection des défaillances d’un actionneur pneumatique. Le principe de la
méthode consiste à comparer la sortie estimée avec celle du système réel. Après avoir intégré
le résultat de la comparaison, le signal de sortie du système et le signal de commande, un
PMC a pour rôle de reconnaître les modes de fonctionnement à partir de ces trois derniers
signaux. L’estimation de la sortie de l’actionneur est assurée par un réseau de neurones
récurrent (dynamique). L’estimation d’un tel système peut être très complexe avec d’autres
outils mathématiques classique, car le système est non seulement non linéaire mais loin d’être
périodique. La modélisation se fait par apprentissage. Notons que les réseaux de neurones
statiques sont incapables de modéliser un tel système.
16
Fluidized Catalytic Cracking Unit
83
Chapitre II : Application des réseaux de neurones en surveillance
II.5. Conclusion
84
Chapitre II : Application des réseaux de neurones en surveillance
nouveau vecteur n’aura d’influences que sur le voisinage proche du nouveau neurone
mémorisant ce nouveau vecteur. Cette deuxième caractéristique importante ne s’applique pas
aux architectures globales (PMC) car l’ensemble des neurones du réseau participe à
l’élaboration de la sortie. Dans ce cas, si le réseau apprend dans une région de l’espace des
données, le modèle peut oublier ce qu’il a appris dans d’autres régions. Le PMC se montre
ainsi moins robuste.
Ces arguments justifient le choix des RFR comme architecture neuronale la mieux adaptée
aux problématiques de surveillance industrielle, d’autant plus que l’apprentissage des RFR est
beaucoup plus souple et moins coûteux en temps de calcul. Par ailleurs, grâce à leur approche
locale, les RFR présentent une sûreté de fonctionnement intéressante en surveillance.
Le deuxième critère tout aussi important en surveillance est la prise en compte de la
dynamique du système. Cette dynamique permet de mieux identifier les modes de défaillance
(fausses alarmes et vraies dégradations) et de pouvoir anticiper sur l’évolution d’un
équipement (surveillance préventive). Nous concluons l’état de l’art des réseaux de neurones
en surveillance en montrant que certaines fonctions ne peuvent être réalisées que par la prise
en compte de l’aspect temporel.
Le chapitre suivant approfondit la notion de réseaux de neurones dynamiques. Il a pour
objet la présentation des réseaux de neurones temporels, avec leur représentation spatiale et
dynamique du temps.
85
86
87
Chapitre III
89
Chapitre III : Représentation du temps dans les Réseaux de Neurones
Chapitre III
III.1. Introduction
90
Chapitre III : Représentation du temps dans les Réseaux de Neurones
Les réseaux de neurones temporels sont divisés en deux grandes familles : les réseaux à
représentation externe du temps, et ceux à représentation interne. Nous nous sommes
principalement intéressés aux réseaux récurrents qui sont une sous catégorie des réseaux à
représentation interne du temps. Nous argumenterons le choix des réseaux de neurones
récurrents par une analyse critique des deux façons de représenter le temps.
La prise en compte de l’aspect temporel des données par les réseaux de neurones artificiels
nécessite certaines modifications architecturales des modèles neuronaux statiques présentés au
chapitre précédent. Il existe en littérature deux façons distinctes d’aborder le temps par les
réseaux de neurones (Chappelier et al., 1996), (Chappelier, 1996) : dans la première, le temps
est représenté comme un mécanisme externe au réseau de neurones. Des retards (ou
temporisations) servent à mémoriser les données d’entrée pendant une certaine durée τ i . On
présente au réseau un vecteur d’entrée comportant les données à l’instant t et ceux des instants
t − τ i (avec i = 1,...N ). On obtient alors une fenêtre temporelle de taille N+1. Cette technique
a l’avantage de pouvoir utiliser les architectures de réseaux de neurones statiques. La prise en
compte de l’aspect temporel est complètement transparente (Figure 27.a). Cette technique est
aussi appelée représentation spatiale du temps selon Elman (Elman, 1990). Par contre, dans
la deuxième façon de prendre en compte le temps, le réseau de neurones est capable de traiter
le temps sans aucun mécanisme externe (Figure 27.b). Cette représentation est appelée
représentation interne selon Chappelier et représentation dynamique selon Elman. Nous
présentons sur la Figure 28 les différentes façons de prendre en compte le temps dans les
réseaux de neurones selon Chappelier et Grumbach. On peut également voir que la
représentation interne se divise en deux possibilités : soit que le temps est pris en compte
implicitement par la récurrence des connexions (réseaux de neurones récurrents), soit qu’il est
pris en compte d’une manière explicite. Dans ce dernier cas, deux types de réseaux existent :
dans le premier cas, les temporisations apparaissent au niveau des connexions. Dans ce type
de réseaux, les connexions entre neurones possèdent non seulement des pondérations mais
aussi des retards τ i . L’apprentissage de ces réseaux consiste alors à trouver les valeurs des
pondérations et des retards. Le deuxième cas de la prise en compte explicite du temps se situe
au niveau du neurone. On trouve alors soit des modèles biologiques ayant le souci de
reproduire des comportements biologiques des neurones, soit des modèles où le temps est pris
en compte par des mécanismes algébriques afin de résoudre des problèmes d’ingénierie, sans
forcement se soucier de l’aspect biologique.
Sans souci d’exhaustivité, nous avons donné quelques architectures de réseaux de neurones
temporels pour chaque façon de représenter le temps. Ces types de réseaux temporels sont
encadrés sur la Figure 28. Certains types de réseaux seront détaillés dans ce chapitre, tandis
que d’autres seront simplement cités en indiquant les références bibliographiques
correspondantes.
91
Chapitre III : Représentation du temps dans les Réseaux de Neurones
Sortie à l’instant k
Variables d’état à
l’instant k
τ τ
Retards unitaires
-a- -b-
Figure 27. Exploitation des réseaux statiques pour des traitements dynamiques par utilisation
de fenêtre temporelle (a) ou par utilisation de connexions récurrentes (b).
Réseaux de neurones
temporels
(NETalk)
(TDNN) Le temps est explicite Le temps est implicite :
(TDRBF) Réseaux Récurrents
GRGF LRGF
(Hopfield) Retour local de la
(Jordan) sortie,
(Elman) Retour local de
(Moakes) l’activation.
Le temps au niveau Le temps au niveau 2
des connexions du neurone (R BF de Frasconi) (Présentés au
(Mak) chapitre suivant)
(Miyoshi)
(ATDNN)
(Jacquemin)
(Amit)
(Back-Tsoi) Modèle fonction Modèle
(DeVries- du temps biologique
Principe)
(Béroule)
Le modèle de Integrate and
Vaucher Fire
Figure 28. Représentation du temps dans les réseaux de neurones. Nous détaillerons dans ce
chapitre les représentations Globalement Récurrentes Globalement Feedforward (GRGF).
Les représentations Localement Récurrentes Globalement Feedforward (LRGF) font l’objet
du chapitre suivant (Chapitre IV).
92
Chapitre III : Représentation du temps dans les Réseaux de Neurones
La façon la plus simple et immédiate de représenter le temps dans les réseaux de neurones
est d’utiliser une représentation spatiale du temps. L’information temporelle contenue dans
les données est alors transformée en une information spatiale, c’est à dire une forme qu’il
s’agit de reconnaître. Dès lors, les techniques de classification par réseaux de neurones
habituellement employées deviennent applicables. Cette transformation du temporel en spatial
s’obtient par l’utilisation classique de ligne à retard. Au lieu de présenter au réseau chaque
événement, dès son apparition, il convient d’attendre un certain temps avant de procéder à la
classification de la forme obtenue. Chaque retard temporel représente une dimension de la
représentation spatiale. Ce type de représentation du temps fait donc appel à un mécanisme
externe qui est chargé de retarder ou de retenir un certain temps les données, ce qui conduit à
l’appeler également représentation externe du temps. Nous présentons dans cette partie trois
architectures neuronales utilisant ce principe : le NETtalk, le TDNN et le TDRBF.
Le NETtalk est l’une des premières applications des réseaux de neurones dans le domaine
du traitement de la parole. Le but est d’apprendre à un réseau de neurones à prononcer un
texte en anglais à partir des phrases proposées, lettre par lettre, à l’entrée du réseau. NETtalk
utilise une représentation spatiale du temps sous la forme d’une fenêtre temporelle d’une
longueur de 7 lettres. L’objectif est alors de prononcer correctement le phonème qui se trouve
au centre de la fenêtre. Le réseau est constitué d’une couche d’entrée de 7x29 neurones
(chaque lettre est codée sur 29 neurones), d’une couche cachée de 80 neurones et d’une
couche de sortie de 26 neurones (Figure 29). L’apprentissage est réalisé avec l’algorithme de
rétropropagation du gradient.
26 neurones de sortie
80 neurones cachés
93
Chapitre III : Représentation du temps dans les Réseaux de Neurones
En 1989, l’équipe de A. Waibel (Waibel et al., 1989) a voulu introduire une architecture
neuronale appliquée toujours au domaine de la reconnaissance de la parole. Ce réseau de
neurones devait satisfaire certaines conditions parmi lesquelles :
• le réseau doit contenir suffisamment de couches et d’interactions entre ces couches
pour pouvoir apprendre des données complexes non linéaires,
• le réseau doit être capable de représenter les relations temporelles entre les
données d’entrée,
• le réseau doit être insensible aux positions temporelles absolues des données,
• l’algorithme d’apprentissage ne doit également pas prendre en compte les positions
absolues des données,
• le nombre de poids dans tout le réseau doit être considérablement petit par rapport
au nombre des données d’apprentissage. Cette condition permet au réseau
d’encoder certaines régularités des données.
Le principe de base de la prise en compte de l’aspect temporel par le TDNN est d’utiliser
des retards temporels τ n (Time Delay) pour chaque neurone (Figure 30), où n varie de 0 à N.
Ce dernier effectue alors une sommation pondérée par les poids de ses connexions amont, et
donne en réponse la sortie de sa fonction d’activation (la sigmoïde). La Figure 31 montre la
topologie complète du TDNN telle utilisée par A. Waibel (Waibel et al., 1989) pour
l’apprentissage de trois phonèmes : « B », « D » et « G ». La première couche contient 15
vecteurs. Chaque vecteur contient 16 acquisitions de parole à différentes fréquences
comprises entre 141 Hz et 5437 Hz (donc un total de 240 neurones). Cette couche est
entièrement connectée à la première couche cachée dont les neurones ont des retards de N=2.
En d’autres termes, chaque neurone de cette couche est connecté à 48 neurones amont. Cette
première couche cachée est également entièrement connectée à la deuxième couche cachée
qui contient des retards de N=4 ; donc chaque neurone de cette couche est connecté à 40
neurones amont. La dernière couche permet d’intégrer le résultat obtenu sur l’ensemble des
données d’entrée. Chaque phonème est représenté par un neurone de sortie connecté à 9
neurones amont.
L’apprentissage du TDNN est réalisé avec l’algorithme de rétropropagation. Les auteurs
n’ont pas utilisé la méthode classique de mise à jour des poids des connexions où chaque
poids est ajusté par rapport à son gradient d’erreur. L’ensemble des connexions d’une même
ligne17 ayant le même retard n est ajusté par la même valeur. Cette valeur correspond à la
moyenne des erreurs de tous les neurones de cette ligne (neurones ayant le même retard n). Si
l’on considère par exemple les connexions entre les neurones des premières lignes de la
17
Une ligne de neurones de chaque couche de la Figure 31
94
Chapitre III : Représentation du temps dans les Réseaux de Neurones
couche d’entrée et de la première couche cachée, le calcul de la variation moyenne des poids
s’effectue comme suit :
1 i =13 n
∆wn = ∑ ∆wi
13 i =1
[93]
avec win qui représente le poids de la connexion du iéme neurone de la première ligne de
neurones de la première couche cachée ayant un retard de n (Figure 31).
Wi + N
τN
xi
Wi +1
τ1
Wi
W j+ N
τN
xj
W j +1
τ1
Wj
Figure 30. Représentation d’une unité du TDNN. Des retards temporels τ n sont appliqués à
chaque entrée. Une fenêtre temporelle de taille N+1 est ainsi obtenue (n= 0,…,N).
B D G
Couche de sortie
Intégration
95
Chapitre III : Représentation du temps dans les Réseaux de Neurones
L’apprentissage du TDNN reste tout de même assez lent, environ 50 000 itérations pour un
apprentissage de 800 données. Le choix de la taille de la fenêtre temporelle de la couche
d’entrée est particulier à ce type d’application ; par contre, la fenêtre de la première couche
cachée a été choisie arbitrairement. Les auteurs ont comparé les performances du TDNN avec
celles des chaînes de Markov cachées ou Hidden Markov Model –HMM–. Le TDNN a un taux
de réussite de 98,5 % contre 93,7 % pour les HMM.
III.2.1.3. TDRBF (Time Delay Radial Basis Function) (Berthold, 1994 –a–)
Le TDRBF a été introduit par Berthold en 1994 (Berthold, 1994 –a–) pour la
reconnaissance de phonèmes. Ce réseau combine les caractéristiques du TDNN et des RFR18.
En d’autres termes, le TDRBF profite du traitement spatial des données d’entrée du TDNN et
de la souplesse de l’apprentissage des RFR. Nous montrons sur la Figure 32 l’architecture du
réseau. Une fenêtre temporelle constituée de plusieurs vecteurs d’entrée à différents instants
(t, t-1,….,t- ∆ t) peut être vue comme un seul vecteur de grande taille. Chaque neurone caché
calcule alors la distance par rapport à son prototype et donne en sortie la réponse de sa
fonction d’activation. Pour la simplicité du calcul, l’auteur a utilisé une fonction porte au lieu
d’une fonction gaussienne. La sortie du réseau est obtenue par le calcul suivant :
∆t n −1
d (t ) = ∑∑ ( xiτ − µi ,τ ) 2 [94]
τ =0 i =0
d(t) est la distance euclidienne des vecteurs d'entrée ( xiτ : ieme composant du vecteur
d'entrée à l’instant t − τ ) au vecteur prototype ( µi ,τ ) du neurone RFR. La réponse de ce
neurone en fonction d’un rayon σ est alors :
1 d (t ) ≤ σ
Π (t ) = [95]
0 sinon
18
Nous rappelons que l’appellation francophone des RBF est Réseaux à Fonctions de base Radiales.
96
Chapitre III : Représentation du temps dans les Réseaux de Neurones
données d’entrée. Les auteurs ont utilisé la sigmoïde comme fonction d’activation de la
couche d’intégration.
x0∆t x00
Vecteur d'entrée
xn∆−t 1 xn0−1
temps
t-∆t t-1 t
Couche d'intégration Σ
Couche RFR
Couche d'entrée
Temps
t-6 t-1 t
Figure 33. La structure du 3(5)-TDRBF. Pour des raisons de simplicité, une seule classe a été
représentée. En réalité, chaque classe a son neurone d’intégration.
Le seul réglage nécessaire pour ce type de réseau correspond à trouver la relation entre
l'espace temps de la couche RFR (noté x précédemment) et la taille de la fenêtre de la couche
d'intégration (noté y précédemment). Ce dernier a été ajusté par tâtonnement. L’apprentissage
du réseau consiste à déterminer les prototypes ainsi que les rayons d’influence des neurones
RFR. Les auteurs ont utilisé l’algorithme RCE que nous avons décrit au chapitre précédent.
Le TDRBF a été testé sur une base de données de reconnaissances de phonèmes japonais.
Plusieurs combinaisons x(y) ont été testées (de 1(15) à 15(1)). Les meilleurs résultats ont été
obtenus avec les combinaisons 7(9) et 8(8). Ces résultats sont pratiquement semblables à ceux
97
Chapitre III : Représentation du temps dans les Réseaux de Neurones
obtenus avec le TDNN (taux de reconnaissance égal à : 98,3 % pour le TDRBF et 98,5 % pour
le TDNN). Par contre, au niveau de la rapidité de convergence et de la simplicité de
l’algorithme d’apprentissage, le TDRBF se montre beaucoup plus performant que le TDNN
(10 itérations pour le TDRBF contre 50 pour le TDNN). Notons qu’une itération
d’apprentissage du TDRBF et beaucoup plus courte que celle du TDNN. Le TDRBF est encore
plus performant avec l’algorithme d’apprentissage DDA (Berthold, 1994 –b–) présenté au
chapitre précédent (5 itérations d’apprentissage pour le TDRBF contre 50 pour le TDNN).
Pour finir, on peut également citer d’autres applications du TDRBF pour la reconnaissance
d’expression du visage (Howell et al., 1997) et de mouvement (Howell et al.,1998-a-),
(Howell et al.,1998-b-).
La connectivité des unités dans les réseaux de neurones récurrents ne se limite pas, comme
dans le cas des réseaux à propagation avant (feedforward), à des architectures dans lesquelles
l'information se propage de l'entrée vers la sortie, couche après couche. Tout type de
connexion est admis, c'est à dire d'un neurone à n'importe quel autre, y compris lui-même. En
d’autres termes, lorsqu’on se déplace dans le réseau en suivant le sens des connexions, il est
possible de trouver au moins un chemin qui revient à son point de départ. Un tel chemin est
désigné sous le terme de cycle. Une grandeur, à un instant donné, ne peut pas être fonction de
sa propre valeur au même instant. Par conséquent, tout cycle du graphe des connexions d’un
réseau de neurones récurrent doit comprendre au moins une connexion de retard unitaire
(Dreyfus et al., 2002). Ceci donne lieu à des comportements dynamiques fort intéressants
mais qui peuvent être très complexes (Haykin, 1999). Contrairement aux réseaux de neurones
statiques où cette dynamique est totalement absente [96], la loi d’évolution en temps continu
des réseaux dynamiques peut être définie par l’équation différentielle [97] (Pearlmutter,
1990), (Warwick et al., 1992).
98
Chapitre III : Représentation du temps dans les Réseaux de Neurones
dyi N
βi = − yi + f (ai ) , ai = ∑ ( wij y j ) + ξi [97]
dt j =1
wi1
ν1
ν2 wi 2
νn win ai yi
∑ f(.)
ξi
wi1
y1
y2 wi 2
.
wiN ai βi−1 yi yi
yN ∑ f(.) +
∑ ∫
ξi -
yi (t + 1) = f (ai (t )) [98]
99
Chapitre III : Représentation du temps dans les Réseaux de Neurones
Dans l’architecture proposée par Jordan, les unités de la couche de sortie sont dupliquées
sur une couche appelée couche de contexte. Les unités de cette couche tiennent également
compte de leur propre état à l’instant précédent. Cette connexion récurrente d’une unité de
contexte à elle-même lui donne une dynamique ou une mémoire individuelle. L’activation de
chaque unité de cette couche est calculée selon l’équation suivante :
100
Chapitre III : Représentation du temps dans les Réseaux de Neurones
Ci (t + 1) = α Ci (t ) + Oi (t ) [99]
En supposant α<1 et les sorties Oi fixes, les unités de la couche de contexte exhibent un
comportement d’oubli où leur sortie décroîtrait vers Oi/(1-α), oubliant progressivement leurs
états précédents.
O(t)
Couche de sortie
Couche cachée
α C(t)
Elman s’est inspiré en grande partie du réseau de Jordan pour proposer son architecture
(Figure 37). Cette fois-ci, ce sont les unités de la couche cachée qui sont dupliquées dans la
couche contexte avec un poids unitaire. L’apprentissage s’effectue par l’algorithme de
rétropropagation et ne concerne que les poids de propagation avant.
101
Chapitre III : Représentation du temps dans les Réseaux de Neurones
O(t)
Couche de sortie
Couche cachée
1
C(t)
Le modèle de la Figure 38 introduit par Moakes (Moakes et al., 1994) représente une
architecture particulière des réseaux RFR : Réseau Récurrent à Fonctions de base Radiales
(RRBF)19 appliqué au traitement dynamique de la parole. Ce réseau combine récurrence des
connexions et fenêtre temporelle. Des retards τ n et τ m sont associés respectivement au signal
d’entrée s(k-1) et au signal de sortie y(k) rebouclé sur l’entrée du réseau. La sortie y(k)
représente la prédiction à l’instant k du signal d’entrée s(k-1). Ce réseau peut être vu comme
un réseau RFR statique avec le vecteur d’entrée suivant :
19
Recurrent Radial Basis Function networks
102
Chapitre III : Représentation du temps dans les Réseaux de Neurones
s(k-1)
τn y(k)
∑
y(k-1)
τm
La Figure 39 présente une autre architecture de réseau RFR récurrent. La récurrence des
connexions se situe au niveau des sorties de chaque neurone gaussien. La réponse de sortie du
réseau à l’instant t pour chaque vecteur d’entrée x(t) est :
M
y (t ) = ∑ wi hi (x(t )) [101]
i =1
avec :
M
hi (x(t )) = φi ( x(t ) − µ i ) + ∑ uik hk (x(t − 1)) [102]
k =1
103
Chapitre III : Représentation du temps dans les Réseaux de Neurones
y(t)
w1 wM
+ +
φ1 (x(t )) φM (x(t ))
x(t)
Le réseau proposé par Miyoshi présenté sur la Figure 40 a été conçu pour l’identification et
la prédiction des systèmes dynamiques chaotiques. Ce réseau récurrent se compose de
plusieurs sous réseaux RFR. Chaque sous réseau r (r = 1,….,N) contient K cellules
gaussiennes et un neurone de sortie de fonction d’activation linéaire. L’expression de sortie de
ces sous réseaux est la suivante :
i=K
g r = ∑ φir wir [103]
i =1
où wir est le poids de la connexion entre le neurone de sortie du sous réseau r et le ième
neurone gaussien ayant comme expression de sortie :
N ( x j − µ rji ) 2
φir = ∏ exp − [104]
2(σ rji ) 2
j =1
104
Chapitre III : Représentation du temps dans les Réseaux de Neurones
dx
= g avec x(t0 ) = x0 [105]
dt
La sortie de réseau y = [ yi ]i =1,..., M est représentée par une partie du vecteur g comme le
montre la Figure 40 (avec M<N). Cette architecture a été reprise par (Honda et al. 1998) qui a
proposé un algorithme d’apprentissage.
φ11
w11
g1 y1
∑
w1K
φ 1
K
x1 (t )
φ1r
w1r
xr (t ) gr yr
∑
wKr
φKr
gM yM
x N (t )
φ1N
w1N
gN
∑
wKN
φ N
K
105
Chapitre III : Représentation du temps dans les Réseaux de Neurones
avec si (t ) |i =1,.., n représentant les entrées du réseau à l’instant t, et yi (t − 1) |i =1,..,m les sorties des
neurones sigmoïdes de la deuxième couche cachée à l’instant t-1.
Ce réseau de neurones a été appliqué sur un problème d’apprentissage de séquences d’une
grammaire d’un automate à états finis. La même application avec une architecture légèrement
différente d’un RFR récurrent peut être trouvée dans (Sorel et al., 2000), et avec un PMC
récurrent dans (Giles et al., 1992).
Couche de sortie
Couche de neurones
sigmoïdes
Couche de neurones
gaussiens
Couche d’entrée
Ce type d’algorithme d’apprentissage permet d’affecter aux poids des connexions les
valeurs assurant la convergence vers un point d’équilibre. Néanmoins, la convergence de ce
type d’algorithme souffre dans certains cas d’une dépendance des conditions initiales. La
Figure 42 montre qu’un changement infinitésimal des conditions initiales ou de la pente d’un
point intermédiaire sur la trajectoire, peut changer le point d’équilibre vers lequel le système
évolue (Pearlmutter, 1990).
106
Chapitre III : Représentation du temps dans les Réseaux de Neurones
a b
Figure 42. Exemple de stabilisation vers deux points d’équilibre différents à partir de deux
points quasiment semblables.
• Rétropropagation récurrente
Soit le réseau récurrent de la Figure 43 ayant N neurones. Parmi ces N neurones, certains
peuvent être des neurones d’entrée avec comme valeur d’entrée ξi℘ pour la donnée ℘ , et
ξi℘ = 0 pour les autres neurones. De même, certains peuvent être des neurones de sortie
possédant pour sortie désirée (ou cible) ζ i℘ . Dans la suite, l’indice ℘ sera volontairement
omis et f est la fonction d’activation des N neurones ayant pour sortie ν i . L’algorithme de
rétropropagation récurrente a été proposé par Pineda (Pineda, 1987) et Almeida (Almeida,
1988) qui ont remarqué que l’algorithme de rétropropagation du gradient est un cas particulier
d’un gradient de l’erreur plus globale.
ξ1
ζ1
ξ2
ζ2
ζm
ξi
107
Chapitre III : Représentation du temps dans les Réseaux de Neurones
dν i
βi = −ν i + f (∑ ( wijν j ) + ξi ) [107]
dt j
La méthode conduit à supposer qu’au moins un tel point fixe existe et qu’il constitue un
attracteur stable de l’espace d’état du réseau.
La mesure de l’erreur habituellement considérée est l’erreur des moindres carrés définie
par :
1
E= ∑ Ek2
2 k
[109]
avec
∂E ∂ν k
∆wpq = −η = η ∑ Ek [111]
∂wpq k ∂wpq
où pour calculer ∂ν k / ∂wpq il faut dériver l’équation [108], ce qui donne pour l’unité i :
∂ν i ∂ν j
= f ′(ai ) δ ipν q + ∑ wij [112]
∂wpq j ∂wpq
1 si i = j
δ ij = [113]
0 si non
108
Chapitre III : Représentation du temps dans les Réseaux de Neurones
∂ν j
∑L
j
ij
∂wpq
= δ ip f ′(ai )ν q [114]
où
∂ν k
= ( L−1 ) kp f ′(a p )ν q [116]
∂wpq
∆wpq = ηϑ pν q [118]
avec
avec
Yp = ∑ Ek ( L−1 ) kp [121]
k
En utilisant une nouvelle inversion de matrices, il est possible d’obtenir des équations
linéaires en Yp
109
Chapitre III : Représentation du temps dans les Réseaux de Neurones
∑Y L
p
p pi = Ei [122]
Yi = g ∑ ( f ′(a p ) wpiYp ) + Ei [123]
p
On remarque que cette équation est de la même forme que l’équation du point d’équilibre
[108] avec la fonction linéaire g ( x) = x . Cette équation peut être résolue en considérant
l’évolution d’un nouveau réseau, appelé réseau de propagation de l’erreur, qui a pour
dynamique celle définie de façon analogue à [107] par l’équation :
dYi
βi = −Yi + g (∑ ( f ′(a p ) wpiYp ) + Ei ) [124]
dt p
Trajectory Learning
110
Chapitre III : Représentation du temps dans les Réseaux de Neurones
Propagation Through Time : BPTT (Werbos, 1990), (Rumelhart et al., 1986) ; la Propagation
Avant ou Forward Propagation appelé aussi Real Time Recurrent Learning : RTRL
(Williams et al., 1989) ; la Propagation Avant Rapide ou Fast Forward Propagation : FFP
(Toomarian et al., 1991) ; l’approche par Fonction de Green ou Green Function : GF (Sun et
al., 1992) et enfin l’approche par Block Update : BU (Schmidhuber, 1992). D’autres
algorithmes d’apprentissage ont été proposés ces dernières années parmi lesquels : Temporal
Recurrent Back-Propagation qui se trouve à la croisée du BPTT et l’algorithme de
rétropropagation récurrente par (Aussem, 1995) ; Recursive Back-Propagation (RBP) et sa
version temps réel Causal Recursive Back-Propagation (CRBP) par (Campolucci et al.,
1999), une autre technique qui se base sur une approximation du gradient de l’erreur proposée
par (Atiya et al., 2000) et, enfin, une technique d’apprentissage appelée Statistical
Approximation Learning (SAL) appliquée à une architecture de réseau récurrent bien
particulière appelée Simultaneous Recurrent Networks (SRN) proposée par (Sakai et al.,
2002). Nous présentons les deux algorithmes d’apprentissage les plus utilisés pour les réseaux
de neurones récurrents : BPTT et RTRL.
Soit un réseau de neurones récurrent entièrement connecté où chaque unité est connectée à
n’importe quelle autre unité. Supposons que l’évolution du réseau soit menée de façon
synchrone en temps discret et donc que chaque neurone du réseau ait pour équation de mise à
jour :
ν i (t + 1) = f ( ai (t ) ) = f ∑ ( wijν j (t )) + ξi (t ) [125]
j
111
Chapitre III : Représentation du temps dans les Réseaux de Neurones
1 W12 2 t=4
W21
W11 W22
W12 1 2
t=3
W21
W11 W22 W12
1 2 W11 W22
W21
1 2 t=2
W12 W21
W11 W22
1 2 t=1
Le réseau ainsi déplié est de type feedforward et peut faire l’objet d’un apprentissage par
une version légèrement modifiée de l’algorithme de rétropropagation. Chaque unité calcule
ainsi la somme pondérée de ses entrées où, lorsqu’elle existe, l’entrée ou la cible de l’unité i à
l’instant t est appliquée à l’unité ν it . Dans le cas des unités de sortie, l’erreur doit être
appliquée non seulement sur la dernière couche mais également sur toutes les autres et doit
être propagée des couches où elle est apparue vers les couches inférieures. Le calcul de cette
erreur entre les bornes [t0 , t1 ] est le suivant :
1 t1 N
E (t0 , t1 ) = ∑∑
2 t =t0 i =1
Ei (t ) 2 [126]
avec
La difficulté de l’algorithme vient du fait que toutes les copies des poids wij doivent rester
identiques alors que l’application de l’algorithme de rétropropagation entraînerait un
incrément de ∆wij différent pour chaque copie. La solution consiste à ajouter tous les
incréments et à modifier les valeurs des copies des poids de la quantité obtenue.
∂E (t0 , t1 ) t1 N
∂ν (t )
∆wpq = −η = η ∑∑ Ei (t ) i [128]
∂wpq t =t0 i =1 ∂wpq
112
Chapitre III : Représentation du temps dans les Réseaux de Neurones
∂E (t ) N
∂ν (t )
∆wpq (t ) = −η = η ∑ Ei (t ) i [129]
∂wpq i =1 ∂wpq
avec Ei (t ) l’erreur commise à chaque instant t par les neurones de sortie (équation [127]).
D’après l’équation [125], on obtient :
∂ν i (t ) ∂ν j (t − 1)
= f ′ ( ai (t − 1) ) δ ipν q (t − 1) + ∑ wij [130]
∂wpq j ∂wpq
où δ ij est le symbole de Kronecker (voir [113]). Notons que cette démarche est analogue à
celle utilisée habituellement sur les réseaux à propagation avant, qui consiste à appliquer les
modifications aux poids après chaque exemple au lieu d’attendre la fin du cycle complet de
présentation des données. Par ailleurs, cette technique ne garantit pas le suivi du gradient total
de l’erreur de toute une séquence d’apprentissage (Tsoi et al., 1994). En effet, la trajectoire
suivie par le réseau dans l’espace d’état dépend des modifications apportées aux poids à
chaque instant. Cet effet peut être éliminé soit en prenant un taux d’apprentissage assez faible
pour diminuer les variations ∆wpq (t ) de l’équation [129] (Williams et al., 1989), soit des
techniques d’apprentissage du second ordre (Le Cun et al., 1990), (Hassibi et al., 1993) et
(Svarer et al., 1993). Il existe aussi une variante du RTRL appelée Teacher-Forced Real-Time
Recurrent Learning (Jordan, 1986-b-), (Pineda, 1988) qui force la sortie du réseau aux valeurs
20
On peut trouver en littérature l’appellation « Forward Propagation : FP»
21
Off-line technique
113
Chapitre III : Représentation du temps dans les Réseaux de Neurones
désirées. La mise à jours des poids des connexions ([129]) s’effectue uniquement sur
l’ensemble des neurones qui ne sont pas des neurones de sortie.
Une des représentations explicites du temps dans les réseaux de neurones est l’utilisation
des retards aux niveaux des connexions. La différence entre ce type de réseau de neurones et
les réseaux récurrents se situe au niveau sens de la propagation du signal. Les réseaux à délais
au niveau des connexions sont des réseaux feedforward. La Figure 45 montre un exemple
d’un réseau de neurones avec des délais internes au niveau des connexions. Ce modèle
introduit par Day et Davenport (Day et al., 1993) est appelé Adaptative Time-Delay Neural
Network : ATDNN.
wgj1
τ gj1 g τ hg1
whg1
τ gj 2 wij1
whi1
τ hi1
τ ij1 wij1 h
j i
whi 2
τ hi 2
τ hj1 whj1
114
Chapitre III : Représentation du temps dans les Réseaux de Neurones
rétropropagation du gradient de l’erreur. Parmi les réseaux à retard que l’on peut trouver en
littérature, on peut citer le modèle de Béroule (Béroule, 1985), le modèle d’Amit (Amit,
1988), le modèle de Back-Tsoi (Back et al., 1990), le modèle de DeVries-Principe (DeVries
et al., 1991) et le réseau de Jacquemin (Jacquemin, 1994).
Figure 46. Sommation spatio-temporelle : addition des potentiels évoqués à la fois dans
l'espace et dans le temps. a) 2 potentiels évoqués (repérés par les flèches) ne dépassent pas la
valeur seuil. b) 2 potentiels évoqués qui dépassant la valeur seuil génèrent un potentiel
d'action.
Le temps peut également être traité localement au niveau du neurone, ce qui permet
d’avoir une certaine robustesse temporelle : deux entrées d’un neurone donné ne doivent plus
être nécessairement synchrones pour avoir un certain effet (Chapellier, 1996). Ce modèle de
neurone temporel peut être réalisé de deux manières différentes : soit en gardant les propriétés
biologiques d’un neurone soit en construisant un modèle pour résoudre un problème
« d’ingénierie » sans autre type de préoccupations (ignorant complètement l’aspect
biologique). Le premier cas conduit à des modèles plus ou moins compliqués. Il existe de
nombreux modèles d’inspiration biologique. La plus grande classe est ainsi formée par ce que
l’on nomme les modèles « Integrate and Fire » (Koch, 1999), (Liu et al., 2001). Leur principe
est de sommer spatialement et temporellement « Integrate » les entrées leur provenant.
Lorsque cette somme dépasse un seuil qui leur est propre, ils émettent « Fire » une impulsion
(potentiel d’action) (Figure 46). Ces modèles possèdent ainsi des propriétés temporelles
inspirées des neurones biologiques tout en permettant un calcul rapide. Le second point de
vue consiste à temporaliser les modèles existants performants du point de vue statique. On
peut citer par exemple l’approche de Vaucher (Vaucher, 1993) qui a temporalisé un modèle
115
Chapitre III : Représentation du temps dans les Réseaux de Neurones
statique d’une façon purement algébrique. Le corps de représentation d’un PMC n’est plus
dans le domaine des réels ( \ ) mais dans celui des complexes ( ^ ).
Les réseaux de neurones temporels se divisent donc en deux grandes catégories : réseaux
de neurones dynamiques et spatiaux. Ces deux représentations du temps correspondent
respectivement à une représentation interne et externe du temps. Les topologies des réseaux
de neurones pour chaque représentation temporelle sont complètement différentes et chacune
possède ses avantages et ses inconvénients.
Nous définissons trois types d’applications des réseaux de neurones temporels pour la
surveillance dynamique industrielle : la reconnaissance de séquences temporelles (booléennes
et réelles), la prédiction temporelle et la reproduction de séquences temporelles.
• La reconnaissance de séquences temporelles :
La reconnaissance de séquences temporelles consiste à produire une réponse spécifique
lorsqu’une séquence particulière se produit à l’entrée du réseau. En d’autres termes, le rôle du
réseau de neurones dans ce cas est de reconnaître une séquence temporelle bien particulière
(application de reconnaissance des formes). C’est le cas par exemple de la reconnaissance de
la parole où la sortie du réseau indique le mot qui vient d’être émis.
En surveillance, ce type d’application est utilisé selon deux manières différentes : la
reconnaissance d’une séquence booléenne et la reconnaissance d’une séquence réelle. Pour le
cas d’une séquence booléenne, le réseau de neurones est utilisé pour surveiller tout un
Système à Evénements Discrets (SED). Les variables d’entrée au réseau de neurones sont de
type booléen (événementiel). Dans le deuxième cas, le réseau de neurones surveille un signal
capteur d’un équipement industriel (variable de surveillance de type réel). Le but est de
reconnaître un palier d’une dégradation précoce de l’équipement et d’éliminer les pics de
changements brusques du signal, synonymes de fausses alarmes.
• La prédiction temporelle :
La prédiction temporelle consiste à donner une valeur future d’un signal capteur d’un
équipement industriel ( s (t + n) avec n > 0 ) à partir des connaissances aux instants présents et
passés de ce signal ( s(t ), s(t − 1),.... ). En surveillance dynamique, ce type d’application est très
important car prédire l’évolution d’un paramètre d’un équipement permet d’anticiper
l’évolution future du signal d’un capteur afin de prendre des décisions préventives. Le réseau
de neurones est dans ce cas utilisé comme approximateur universel (modélisation dynamique
de l’équipement à surveiller).
116
Chapitre III : Représentation du temps dans les Réseaux de Neurones
Reproduction de
non non non non oui
séquences
Tableau 1. Résultats comparatifs entre les performances des architectures temporelles citées
dans ce chapitre (voir Figure 28).
Les réseaux spatiaux (TDNN et TDRBF) ainsi que les réseaux dynamiques à délais
(ATDNN) se prêtent bien aux problèmes de reconnaissance de séquences. Les fenêtres
temporelles dans le premier cas et les délais au niveau des connexions dans le deuxième cas
permettent au réseau de neurones de prendre en compte un certain passé du signal afin de
pouvoir donner une réponse par rapport à toute une séquence. Les réseaux biologiques, en
particulier les réseaux Integrate and Fire, sont également capables de reproduire ce type de
comportement. L’utilisation des réseaux spatiaux peut être plus souple que les deux autres
architectures puisqu’un simple ajout d’une fenêtre temporelle peut rendre les architectures
feedforward statiques capables de traiter le temps. L’inconvénient majeur de la représentation
spatiale du temps est qu’elle suppose l'existence d'une interface avec le monde extérieur dont
le rôle est de retarder ou de retenir les données jusqu'au moment de leur utilisation par le
117
Chapitre III : Représentation du temps dans les Réseaux de Neurones
réseau : comment connaître l'instant où les données doivent être traitées ? La longueur de la
fenêtre temporelle est finie et déterminée a priori, soit par la plus longue information à traiter,
soit en supposant la même longueur pour toutes les données. C’est donc bien dans la nature
même de la représentation spatiale que se pose la difficulté de différencier une position
temporelle relative d'une position temporelle absolue (Elman, 1990).
Les architectures à représentation spatiale du temps peuvent également être utilisées pour
des applications de prédiction de séries temporelles (prédire la valeur de x(t + θ ) à partir des
connaissances des valeurs [ x(t − i ) ]i =0,...,α ) (Chang et al., 2001).
Par contre, aucune des architectures neuronales temporelles, excepté les réseaux récurrents,
n’est capable de reproduire des séquences temporelles. La raison est que seuls les réseaux
récurrents possèdent des mémoires dynamiques grâce à la récurrence des connexions
(Aussem, 1995). Le signal d’entrée ne se propage pas seulement de la couche d’entrée vers la
couche de sortie comme dans les réseaux feedforward, mais se rétropropage également de la
sortie vers l’entrée. Cette boucle fermée permet au réseau de garder en mémoire une trace
interne d’un signal d’entrée, par exemple une impulsion, et de reproduire en sortie une
séquence temporelle grâce aux algorithmes d’apprentissage de type trajectory learning. D’un
autre côté, les temps d'apprentissage ainsi que les ressources informatiques nécessaires à leur
mise en œuvre peuvent être relativement importants (Bernauer, 1996).
Le domaine d’application des réseaux récurrents semble être plus large que les autres
architectures. Leur application dans des problématiques de surveillance dynamique peut être
plus prometteuse que les autres architectures.
III.3. Conclusion
Nous avons abordé dans ce troisième chapitre un aspect fort important en surveillance : la
prise en compte de la dimension temporelle. Nous avons donné un état de l’art aussi large que
possible des différentes façons de prendre en compte cet aspect temporel par les réseaux de
neurones, les différentes architectures de réseaux de neurones temporels et la façon dont est
mené l’apprentissage temporel.
Cette étude nous a permis de conclure que les façons d’aborder le temps par les réseaux de
neurones sont nombreuses de même que les travaux et publications concernant les
applications et les architectures de réseaux de neurones temporels. Néanmoins, à travers la
liste de références non exhaustives mais représentatives que nous avons consulté, nous
remarquons deux représentations temporelles des réseaux de neurones : une représentation
spatiale ou externe et une représentation dynamique ou interne. Nous nous sommes
principalement attachés à exposer les modèles à représentation interne du temps, obtenue par
l’utilisation de connexions récurrentes. Les raisons évoquées pour ce choix sont :
118
Chapitre III : Représentation du temps dans les Réseaux de Neurones
• d’un côté la prise en compte du temps est implicite, c'est-à-dire qu’on n’a pas
besoin d’avoir un mécanisme externe pour retarder les données d’entrée (comme
pour la représentation spatiale du temps),
• d’un autre côté, les réseaux récurrents sont bien les seuls réseaux à posséder une
mémoire dynamique interne à travers la récurrence des connexions. Cette mémoire
leur permet, non seulement de reconnaître des séquences temporelles et de faire de
la prédiction de séries temporelles (comme les autres représentations temporelles)
mais aussi d’apprendre à reproduire des séquences temporelles.
En contre partie, la présentation des principaux algorithmes d’apprentissage des réseaux
récurrents montre que la phase de calcul des poids des connexions est très laborieuse. Les
temps d’apprentissage et les ressources informatiques nécessaires à leur mise en œuvre sont
relativement importants. Leur application en surveillance dynamique peut être très complexe,
surtout pour des traitements en temps réel. Le développement d’un outil de surveillance
neuronal qui soit à la fois dynamique et facile à paramétrer à distance via la couche de
communication TCP/IP se montre souvent plus délicat à mettre en œuvre avec un réseau
entièrement récurrent (globalement récurrent).
Ce coût est parfois considérablement réduit lorsque le problème est résolu à l’aide de
réseaux partiellement récurrents. Une autre façon encore plus simple de reproduire une
mémoire dynamique interne sans trop compliquer l’architecture neuronale est d’utiliser des
réseaux localement récurrents appelés réseaux LRGF : Locally Recurrent Globally
Feedforward ou architecture Localement Récurrente Globalement Feedforward. Dans ce type
d’architecture, la récurrence des connexions est présente uniquement au sein du neurone lui-
même. Ceci réduit considérablement le processus d’apprentissage tout en gardant un aspect
dynamique fort important du réseau de neurones récurrent.
Afin de pouvoir bénéficier de tous ces avantages, nous exploitons cette solution de
récurrences locales pour proposer une nouvelle architecture de réseau RFR dynamique plus
souple avec un algorithme d’apprentissage simplifié. Dans ce sens, le chapitre suivant marque
une première étape de notre contribution en présentant le RRFR (Réseau Récurrent à
Fonctions de base Radiales) et, plus particulièrement, en effectuant une étude approfondie de
sa mémoire dynamique interne. Nous donnons ainsi les différentes architectures des réseaux
localement récurrents (architectures LRGF), avec des développements mathématiques
associés aux différents comportements dynamiques de chaque architecture.
119
120
121
Chapitre IV
123
Chapitre IV : Mémoire dynamique du réseau RRFR
Chapitre IV
Proposition d’un réseau de neurones dynamique : Le RRFR
IV.1. Introduction
Le chapitre précédent montre que parmi l’ensemble des représentations temporelles, les
réseaux de neurones récurrents sont les plus performants pour des applications de surveillance
dynamique. Les réseaux de neurones récurrents se montrent favorables aux trois types
d’applications des réseaux de neurones temporels en surveillance dynamique, à savoir la
reconnaissance de séquences temporelles, la prédiction temporelle et la reproduction de
séquences temporelles. Les réseaux récurrents sont donc les seuls à posséder une mémoire
dynamique interne. Les techniques d’apprentissage de ces réseaux sont souvent très lourdes à
mettre en œuvre. Une application de surveillance dynamique avec ce type de réseaux de
neurones peut être très compliquée à cause de cette phase d’apprentissage très complexe et
surtout coûteuse en temps de calcul. Le développement d’un outil de surveillance dynamique
paramétrable à distance via le Web peut être très difficile à développer avec les réseaux de
neurones globalement récurrents. Pour éviter cette complexité du processus d’apprentissage,
une façon simple d’avoir une mémoire dynamique interne au réseau de neurones est d’utiliser
des récurrences locales au niveau du neurone lui-même. Ce type bien particulier de réseaux de
neurones récurrents est appelé représentation Localement Récurrente Globalement
Feedforward ou Locally Recurrent Globally Feedforward.
L’utilisation des récurrences locales au niveau du neurone permet d’avoir une mémoire
dynamique interne au réseau de neurones. Nous adoptons ce type de mémoire dynamique
pour proposer un réseau RFR dynamique appelé RRFR : Réseau Récurrent à Base de
Fonctions Radiales. Le réseau que nous proposons possède alors deux types de mémoire : une
mémoire statique grâce aux neurones gaussiens de la couche cachée et une mémoire
dynamique grâce aux neurones localement récurrents de la couche d’entrée. Le réseau RRFR
proposé profite de l’aspect dynamique des représentations LRGF tout en gardant la simplicité
et l’efficacité des réseaux RFR.
Ce quatrième chapitre est structuré en trois parties. Dans la première partie, nous
présentons l’architecture générale du réseau RRFR. En deuxième partie, nous présentons une
124
Chapitre IV : Mémoire dynamique du réseau RRFR
Pour aller dans le sens du principe de la parcimonie22 des réseaux de neurones, on peut se
poser la question suivante : Pourquoi compliquer l’architecture d’un réseau de neurones avec
des récurrences globales quand on peut simplifier le réseau en utilisant des récurrences
locales ? Cette question résume en quelque sorte notre souci pour proposer un outil neuronal
pour la surveillance dynamique. Cet outil de surveillance devrait être à la fois capable de
prendre en compte l’aspect dynamique des données d’entrée, afin de pouvoir détecter une
dégradation ou prédire l’évolution d’une sortie capteur, d’apprendre en continu les différents
modes de fonctionnement d’un équipement sans avoir à oublier les connaissances
précédemment acquises et surtout de garder une certaine simplicité d’utilisation du réseau de
neurones pour des applications industrielles. L’architecture neuronale que nous proposons
s’inspire des avantages des réseaux RFR et de ceux des réseaux récurrents. La Figure 47
présente l’architecture du RFR récurrent que nous proposons, appelé réseau RRFR : Réseau
Récurrent à Base de Fonctions Radiales. Le réseau RRFR est composé de trois couches :
22
Un réseau de neurones est dit parcimonieux : pour obtenir un modèle non linéaire de précision donnée, un
réseau de neurones a besoin de moins de paramètres ajustables que les méthodes de régression classique
(polynomiale). Le principe de la parcimonie est donc de réduire le nombre de paramètres ajustables du réseau
de neurones.
125
Chapitre IV : Mémoire dynamique du réseau RRFR
Entrée
ξ1
ξ2
ξ3
A3
Couche de
A1 A2 décision
Mémoire
Dynamique Mémoire
Statique
126
Chapitre IV : Mémoire dynamique du réseau RRFR
La façon la plus simple de représenter le temps d’une manière implicite par la récurrence
des connexions est de le représenter localement au niveau du neurone sans trop compliquer
l’architecture du réseau de neurones. Cette représentation locale du temps est appelée
architecture LRGF : Locally Recurrent Globally Feedforward ou architecture Localement
Récurrente Globalement Feedforward. Cette appellation reflète clairement le principe de
fonctionnement de ces réseaux : les récurrences des connexions ne sont permises que
localement au niveau du neurone (Locally Recurrent), la propagation du signal s’effectue
comme pour les réseaux statiques à propagation avant (Globally Feedforward). Une étude a
été réalisée par A.C. Tsoi et A.D. Back (Tsoi et al., 1994) sur les différentes architectures
LRGF existantes en littérature. D’après cette étude, les auteurs ont classé les architectures
LRGF en trois catégories :
• Les architectures à retour local synaptique (Local Synapse Feedback),
• Les architectures à retour local de l’activation (Local Activation Feedback),
• Les architectures à retour local de la sortie du neurone (Local Output Feedback).
Les architectures à retour local de l’activation et de la sortie interprètent bien la dimension
temporelle implicitement par une récurrence des connexions. Par contre, concernant
l’architecture à retour local synaptique, le temps n’est pas pris en compte par la récurrence des
connexions, mais tout simplement par des retards synaptiques. Nous plaçons donc cette
catégorie plutôt dans la représentation explicite du temps au niveau des connexions (voir
chapitre précédent). Nous divisons donc les architectures LRGF en deux catégories : retour
local de l’activation et retour local de la sortie. Ces deux catégories telles qu’elles sont
présentées dans ce chapitre, sont illustrées sur la Figure 48. D’après A.C. Tsoi et A.D. Back
(Tsoi et al., 1994), nous pouvons recenser deux modèles de neurones pour la représentation
LRGF à retour local de la sortie : le modèle de Frasconi-Gori-Soda et celui de Poddar-
Unnikrishnan, et un seul modèle pour l’architecture LRGF à retour local de l’activation, le
modèle de Frasconi-Gori-Soda.
Les conclusions de l’article de A.C. Tsoi et A.D. Back sont nettement en faveur des
architectures LRGF dont les performances ont été comparées à celles des réseaux globalement
récurrents (précisément le réseau récurrent de Williams-Zipser23 (Williams et al., 1989)). En
effet, les auteurs ont comparé quatre architectures neuronales : le réseau de Back-Tsoi
(présenté au chapitre précédent), le neurone à retour local de la sortie Frasconi-Gori-Soda, le
réseau entièrement récurrent de Williams-Zipser et le TDNN (présenté au chapitre précédent).
La comparaison a été faite sur un problème de prédiction d’une fonction non-linéaire.
L’horizon des retards utilisés pour les 4 architectures est de 5 unités : une fenêtre temporelle
de 5 retards pour le TDNN, cinq couches de neurones bouclés pour les neurones de Frasconi-
Gori-Soda et de Back-Tsoi (avec bouclage unitaire) et un PMC à cinq couches entièrement
23
Réseau récurrent dont l’algorithme d’apprentissage RTRL a été présenté au chapitre précédent.
127
Chapitre IV : Mémoire dynamique du réseau RRFR
Architectures LRGF
(Frasconi-Gori-Soda) (Frasconi-Gori-Soda)
(Poddar-Unnikrishnan)
128
Chapitre IV : Mémoire dynamique du réseau RRFR
L’élément qui différencie le modèle du retour local de l’activation et celui du retour local
de la sortie introduits par Frasconi-Gori-Soda est, bien évidemment le point de retour qui se
situe au niveau de l’activation dans le premier modèle et au niveau de la réponse du neurone
dans le second modèle (Figure 49).
e1 (t ) wi1
e2 (t ) wi 2
ai (t ) yi (t )
∑ f (.)
en (t ) win wii1
2
wiim w ii
τ1 τ1 τ1
Figure 49. Architecture générale d’un réseau LRGF avec bouclage de la sortie (modèle de
Frasconi-Gori-Soda). Les τ 1 représentent des retards unitaires.
yi (t ) = f ( ai (t ) )
n m [132]
ai (t ) = ∑ wij e j (t ) + ∑ wiiq yi (t − q )
j =1 q =1
Lorsqu’il s’agit d’un neurone d’entrée au réseau et si l’on simplifie le modèle de la Figure
49 en ne considérant qu’un seul retard, son activation peut être ramenée à l’équation ci-
dessous. Ce type de neurone est communément appelé neurone bouclé (Figure 50).
ai (t ) = ξi (t ) + wii yi (t − 1) [133]
129
Chapitre IV : Mémoire dynamique du réseau RRFR
ξi (t ) ai (t ) yi (t )
∑ f (.)
wii
τ1
Figure 50. Architecture simplifiée d’un Réseau LRGF avec retour de la sortie.
1 − exp − bx
f ( x) = [134]
1 + exp − bx
f ( x) 1
0.8
0.6
b = 0.5
0.4
b = 0.05
0.2
-0.2
-0.4
-0.6
-0.8
-1
-100 -80 -60 -40 -20 0 20 40 60 80 100
x
a) Points d’équilibre
L’activation du neurone bouclé en l’absence de toute excitation extérieure est définie par
l’équation suivante :
24
Tangente Hyperbolique. Nous supposons que b > 0 ce qui rend cette fonction strictement croissante.
130
Chapitre IV : Mémoire dynamique du réseau RRFR
ai (t ) = wii f ( ai (t − 1) ) [135]
La recherche des points d’équilibre de cette équation, c’est-à-dire de l’ensemble des points
a tels que a* = wii f (a* ) , revient à chercher les racines de la fonction g définie par25 :
*
Pour trouver le signe de g ′(a) dans son domaine de définition qui est l’ensemble des réels
( ℜ ), nous cherchons les racines de g ′(a) = 0 . En posant X = exp − ba on obtient l’équation du
second degré suivante :
Ces solutions sont fonction du déterminant ∆ = 4bwii (bwii − 2) . Deux cas sont alors
possibles.
• Si bwii > 2 , l’équation [138] possède les deux solutions positives ( X 1 X 2 = 1 )
log X 1
a1 = − ⇒ a1 < 0
b [140]
log X 2
a2 = − ⇒ a2 > 0
b
A partir du calcul des limites de g (a) qui donne lim a →−∞ g (a) = +∞ et lim a →+∞ g (a ) = −∞
on obtient le tableau des variations suivant :
25
Nous considérons bien évidemment dans tout ce chapitre que l’auto-connexion wii ≠ 0 , sinon on ne peut pas
parler de réseaux LRGF.
131
Chapitre IV : Mémoire dynamique du réseau RRFR
a −∞ a0− a1 0 a2 a0+ +∞
g ′(a ) − − 0
+ + 0
− −
+∞ g (a2 )
g (a) 0
0
0
−∞
g (a1 )
La fonction g (a) s’annule donc sur [ −∞, a1 ] au point a0− et sur [ a2 , +∞ ] au point a0+ . Le
neurone bouclé possède alors trois points d’équilibre a0− , a0 et a0+ pour le cas où bwii > 2 .
• Si bwii ≤ 2 la fonction g (a) est toujours décroissante et donc l’équation g (a ) = 0
ne possède qu’une seule solution. Le neurone bouclé ne possède alors qu’un seul
point d’équilibre a0 .
yi yi
ai ai
yi = yi =
wii wii
yi = f (ai ) f (ai )
ai ai
a0 = 0 a0− a0 = 0 a0+
Commençons par étudier le cas où le neurone bouclé ne possède qu’un seul point
d’équilibre a0 = 0 ( bwii ≤ 2 ). Nous allons utiliser pour ce cas, la fonction de Lyapunov
définie par V (a) = a 2 pour étudier la stabilité du point d’équilibre. D’après l’équation [135]
132
Chapitre IV : Mémoire dynamique du réseau RRFR
Si a > a0 ⇔ a > 0 , alors f (a) > 0 . D’après les variations de la fonction g (a) qui est
toujours décroissante dans ce cas, on a bien g (a) < 0 . Si wii > 0 on a bien ∆V < 0 .
Inversement, si a < a0 ⇔ a < 0 , alors f (a) < 0 et g (a ) > 0 . Si wii > 0 on a bien ∆V < 0 .
D’après la théorie de la stabilité de Lyapunov, le point a0 = 0 est donc un point d’équilibre
stable si bwii ≤ 2 avec wii > 0 .
Dans le deuxième cas où bwii > 2 , le neurone bouclé possède trois points d’équilibre a0− ,
a0 et a0+ . Si l’on étudie la stabilité du point a0+ , la fonction de Lyapunov est définie par
V (a ) = (a − a0+ ) 2 . D’après l’équation [135], nous pouvons écrire :
Si a > a0+ , d’après le Tableau 2, g (a) < 0 . Puisque f (.) est croissante, wii > 0 , et comme
a0+ est un point d’équilibre pour lequel wii f (a0+ ) = a0+ , on peut écrire :
a > a0+ ⇔ wii f (a) > a0+ ⇔ g (a) + 2(a − a0+ ) > (a − a0+ ) > 0 [143]
alors ∆V < 0 . Si a < a0+ , d’après le Tableau 2, g (a) > 0 et ( g (a) + 2(a − a0+ ) ) < 0 , on a
bien ∆V < 0 .
Le même raisonnement peut être fait pour le point a0− .
Résultat :
c) Comportement d’oubli
Considérons le neurone bouclé de la Figure 50 dont l’évolution est donnée par l’équation
suivante :
yi (t ) = f ( ai (t ) ) [144]
ai (t ) = ξi (t ) + wii yi (t − 1)
133
Chapitre IV : Mémoire dynamique du réseau RRFR
avec f (.) la fonction d’activation sigmoïde du neurone bouclé (équation [134]) et wii > 0 .
Propriété
On dira qu’un neurone bouclé possède un comportement d’oubli si pour un instant donné t0
et une activation ai (t0 ) quelconque,
Lors de l’étude de la stabilité des points d’équilibre (paragraphe précédent) nous avons
constaté que le neurone bouclé ne possède qu’un seul point d’équilibre stable a0 = 0 si
bwii ≤ 2 avec wii > 0 et en l’absence de toute excitation extérieure ξi (t ) = 0 ∀t > 0 . Dans ce
cas, pour n’importe quelle activation ai (t ) ≠ 0 du neurone bouclé, l’activation du neurone
tend vers a0 = 0 . Par conséquent nous obtenons limt →∞ ai (t ) = aO = 0 . Le neurone bouclé
possède bien un comportement d’oubli si bwii ≤ 2 et wii > 0 . La figure ci-dessous illustre bien
ce comportement.
yi
y (t ) ai
1
yi =
wii
0.8
yi = f ( ai )
0.6
0.2
0
ai
-0.2 a0 = 0
-0.4
bwii = 1.9
-0.6
-0.8
-1
0 10 20 30 40 50 60 70 80 90 100
t
-a- -b-
Figure 53. Comportement d’oubli : a) Convergence de la sortie du neurone bouclé vers le
point d’équilibre stable a = a0 en fonction de bwii avec une excitation initiale ξ (0) = ±1 et
wii > 0 . b) Etapes du comportement d’oubli entre la sortie du neurone bouclé et son
activation.
134
Chapitre IV : Mémoire dynamique du réseau RRFR
yi
y (t ) 1 ai
yi =
− wii
0.8 yi = f ( ai )
0.6
0.4
bwii = −1.99
0.2
a0 = 0 ai
0
-0.2
-0.4
-0.6
-0.8
0 10 20 30 40 50 60 70 80 90 100
t
-a- -b-
Figure 54. Comportement d’oubli du neurone bouclé : a) oscillations dues à la valeur
négative de l’auto-connexion wii < 0 . b) Etapes du comportement d’oubli entre sortie du
neurone bouclé et son activation.
d) Comportement de mémorisation
Propriété
∃ε > 0 : ∀t > t0
Dans le paragraphe précédent, nous avons constaté que le neurone bouclé possède trois
points d’équilibre a0− < 0 , a0 = 0 et a0+ > 0 si bwii > 2 . D’après la théorie de Lyapunov, les
deux points a0− et a0+ sont des points d’équilibre stables et a0 = 0 est un point d’équilibre
instable. Donc si la sortie du neurone bouclé s’éloigne du point a0 = 0 du côté supérieur
a(t0 ) > a0 ou inférieur a(t0 ) < a0 c’est pour tendre vers un point d’équilibre stable (vers a0+
pour le premier cas et a0− pour le deuxième). La figure suivante illustre bien ce
comportement.
135
Chapitre IV : Mémoire dynamique du réseau RRFR
yi
ai
yi =
1 wii
a(0) = 1
0.8
0.6
f (ai )
0.4
0.2
a(0) = 0.01
0
a(0) = -0.01 ai
-0.2
a0− a0 = 0 a0+
-0.4
-0.6
-0.8
a(0) = -1
-1
0 10 20 30 40 50 60 70 80 90 100
-a- -b-
Figure 55. Comportement de mémorisation a) Convergence de la sortie du neurone bouclé
vers le point d’équilibre stable a0+ pour a(0) > 0 et vers a0− pour a(0) < 0 avec bwii = 2.1 . b)
Etapes du comportement de mémorisation entre sortie du neurone bouclé et son activation.
136
Chapitre IV : Mémoire dynamique du réseau RRFR
yi ai
yi =
wii
1
0.8
0.6
0.4
0.2
0
a0− −I *
a0 I* a0+ ai
-0.2
-0.4
-0.6
-0.8
-1
-100 -80 -60 -40 -20 0 20 40 60 80 100
Propriété
La limite de la longueur de la mémoire dynamique d’un neurone bouclé peut être quantifiée
par l’étude de l’influence d’une variation ∂ξi (t ) de l’entrée à un instant t donné sur les
variations de la sortie du neurone bouclé ∂yi (t + q) à un instant t + q . On dira qu’un neurone
bouclé a atteint sa limite maximum de mémorisation dynamique qmax si au bout d’un certain
temps, la variation de l’entrée ∂ξi (t ) n’a aucune influence sur la variation de la sortie
∂yi (t + q) . On peut exprimer ceci par l’équation suivante :
∂yi (t )
lim =0 [148]
q →∞ ∂ξi (t − q)
∂yi (t ) ∂y (t − q)
= f ′ ( ai (t ) ) f ′ ( ai (t − 1) ) ..... f ′ ( ai (t − q + 1) ) wii q i [150]
∂ξi (t − q ) ∂ξi (t − q )
137
Chapitre IV : Mémoire dynamique du réseau RRFR
∂yi (t ) q
= ∏ f ′ ( ai (t − j ) )wii q [151]
∂ξi (t − q ) j =0
x −∞ 0 +∞
f ′′( x) + 0
−
b/2
f ′( x)
0 0
∂yi (t )
0< ≤ (bwii / 2) q (b / 2) [152]
∂ξi (t − q)
∂yi (t )
lim ≤ lim(bwii / 2) q (b / 2) = 0 [153]
q →∞ ∂ξ (t − q ) q →∞
i
Dans ce cas, le neurone bouclé possède bien une limite de mémorisation. Pour l’étude de la
limite de mémorisation du neurone bouclé dans l’autre cas (c'est-à-dire bwii ≥ 2 ), nous avons
précédé par des simulations (sous MATLAB) de l’équation [151] en fonction de bwii . Les
différentes étapes de la simulation sont les suivantes :
∂yi (t )
• on initialise la valeur de = f ′ ( ai (t ) ) wii 0 = b / 2 (valeur qui correspond
∂ξi (t − q ) q =0
au maximum de f ′ ( ai (t ) ) - voir Tableau 3 -, avec b = 0.5 ,
138
Chapitre IV : Mémoire dynamique du réseau RRFR
∂yi (t ) ∂yi (t )
• on calcule , et on retient la valeur de ,
∂ξi (t − q) q =0,,,,100 ∂ξi (t − q) q =100
∂ yi ( t ) ∂yi (t )
∂ ξ i (t − q ) ∂ξ i (t − q )
0.025 0.25
0.02 0.2
0.015 0.15
0.01 0.1
0.005 0.05
q
0 0
1.8 1.85 1.9 1.95 2 2.05 2.1 2.15 2.2 0 50 100 150 200 250 300
bwii
-a- -b-
Figure 57. Longueur de la mémoire dynamique du neurone bouclé avec les conditions
∂yi (t )
initiales suivantes : = f ′ ( ai (t ) ) wii 0 = b / 2 avec b = 0.5 a) en fonction du produit
∂ξi (t − q) q =0
bwii pour un q donné ( q = 100 ) b) en fonction de q avec une configuration de longueur de
mémoire maximum ( bwii = 2 ) obtenue à partir du premier graphe.
La deuxième représentation locale du temps par retour de la sortie est celle du modèle de
Poddar-Unnikrishnan illustré par la Figure 58. La sortie du neurone est régie par les relations
ci-dessous :
139
Chapitre IV : Mémoire dynamique du réseau RRFR
yi (t ) = f ( ai (t ) )
n
ai (t ) = ∑ wij e j (t ) + wii zi (t ) [154]
j =1
zi (t ) = α yi (t − 1) + (1 − α ) zi (t − 1)
e1 (t ) wi1
e2 (t ) wi 2
ai (t ) yi (t )
∑ f (.)
en (t ) win τ1
wii zi (t )
∑
α
τ1
1−α
Figure 58. Architecture générale d’un réseau LRGF avec bouclage de la sortie (modèle de
Poddar-Unnikrishnan). Les τ 1 représentent des retards unitaires.
Lorsqu’il s’agit d’un neurone d’entrée au réseau, son activation peut être ramenée à
l’équation suivante :
ai (t ) = ξi (t ) + wii zi (t ) [155]
Comme pour les cas précédents, nous allons étudier les propriétés de ce type de neurone à
retour local de la sortie, en l’absence de toute excitation extérieure ( ξi (t ) = 0 ∀t > 0 ).
a) Points d’équilibre
140
Chapitre IV : Mémoire dynamique du réseau RRFR
ai (t ) = wii zi (t ) = wii (α yi (t − 1) + (1 − α ) z (t − 1) )
a (t − 1)
ai (t ) = wii α f ( ai (t − 1) ) + (1 − α ) i
[156]
wii
ai (t ) = wiiα f ( ai (t − 1) ) + (1 − α )ai (t − 1)
La recherche des points d’équilibre de cette équation revient à chercher l’ensemble des
points a* tels que :
Comme pour le précédent neurone bouclé, nous étudions le premier cas où le neurone ne
possède qu’un seul point d’équilibre a0 = 0 ( bwii ≤ 2 ). La fonction de Lyapunov qui permet
d’étudier la stabilité du point a0 est définie par :
∆V = ( ai (t + 1) ) − ai (t ) 2 = ( wiiα f ( ai (t ) ) + (1 − α )ai (t ) ) − ai (t ) 2
2 2
[158]
avec g (a) fonction définie précédemment (équation [136]). On peut alors se baser sur l’étude
faite précédemment sur le neurone bouclé pour étudier la stabilité du point a0 = 0 . Si
a > a0 ⇔ a > 0 , alors f (a) > 0 . D’après les variations de la fonction g (a) qui est toujours
décroissante dans ce cas, on a bien g (a ) < 0 . Si wii > 0 , (α − 1) < 0 et α > 0 on a bien
∆V < 0 . Inversement, si a < a0 ⇔ a < 0 , alors f ( a) < 0 et g (a) > 0 . Si wii > 0 , (α − 1) < 0
et α > 0 on a bien ∆V < 0 . D’après la théorie de la stabilité de Lyapunov, le point a0 = 0 est
donc un point d’équilibre stable si bwii ≤ 2 avec wii > 0 et α < 1 .
141
Chapitre IV : Mémoire dynamique du réseau RRFR
Dans le deuxième cas où bwii > 2 , le neurone possède trois points d’équilibre a0− , a0 et
a0+ . Si l’on étudie la stabilité du point a0+ , la fonction de Lyapunov est définie par
V (a ) = (a − a0+ ) 2 . Ses variations sont :
D’après l’étude faite pour la stabilité des points d’équilibre dans les mêmes conditions de
bwii > 2 pour le neurone bouclé, on peut affirmer : pour a > a0+ , d’après le Tableau 2
g (a) < 0 , ( g (a) + 2(a − a0+ ) ) > 0 , si (α − 1) < 0 et α > 0 alors ∆V < 0 . Inversement, pour
a < a0+ , d’après le Tableau 2, g (a ) > 0 et ( g (a) + 2(a − a0+ ) ) < 0 , si (α − 1) < 0 et α > 0 on a
bien ∆V < 0 .
Résultat :
142
Chapitre IV : Mémoire dynamique du réseau RRFR
y (t ) 1
y (t ) 1
0.8 0.8
0.6
α =1 0.6 α =1
0.4 0.4
α = 0.5
0.2 0.2 α = 0.5
0 0
-0.2 -0.2
α = 0.5
-0.4 -0.4
-0.6 -0.6
α =1
-0.8 -0.8
-1 -1
0 10 20 30 40 50 60 70 80 90 100 0 20 40 60 80 100 120 140 160 180 200
t t
-a- -b-
Figure 59. Influence des paramètres α et bwii sur le comportement du neurone bouclé de
Poddar-Unnikrishnan a) Comportement d’oubli avec bwii = 1.9 ( ξ (0) = ±1 ) b) comportement
de mémorisation avec bwii = 2.1 ( ξ (0) = ±1 et ξ (0) = ±0.01 ).
On peut alors développer l’étude des variations ∂yi (t ) de la sortie par rapport à celles de
l’entrée ∂ξi (t − q) comme suit :
∂yi (t ) ∂y (t − q )
= f ′ ( ai (t ) ) f ′ ( ai (t − 1) ) ..... f ′ ( ai (t − q + 1) ) (α wii ) q i [163]
∂ξi (t − q ) ∂ξi (t − q)
143
Chapitre IV : Mémoire dynamique du réseau RRFR
∂yi (t ) q
= ∏ f ′ ( ai (t − j ) )(α wii ) q [164]
∂ξi (t − q ) j =0
∂yi (t ) ∂yi (t )
∂ξi (t − q ) ∂ξi (t − q )
0.025 0.25
α =1
0.02 0.2
0.015 0.15
0.01 0.1
α = 0.99
α =1
0.005
0.05
α = 0.97 α = 0.9
0
1.8 1.85 1.9 1.95 2 2.05 2.1 2.15 2.2 2.25 0
0 50 100 150 200 250 300
bwii q
-a- -b-
Figure 60. Longueur de la mémoire du neurone de Poddar-Unnikrishnan avec les conditions
initiales suivante : ∂yi (t ) avec b = 0.5 a) en fonction du produit bwii et du
= f ′ a (t ) w 0 = b / 2 ( )
∂ξi (t − q ) q =0
i ii
144
Chapitre IV : Mémoire dynamique du réseau RRFR
e1 (t ) wi1
e2 (t ) wi 2
ai (t ) yi (t )
∑ f (.)
en (t ) win wii1
2
wiim w ii
τ1 τ1 τ1
Figure 61. Architecture générale d’un réseau LRGF avec bouclage de l’activation. Les τ 1
représentent des retards unitaires.
yi (t ) = f ( ai (t ) )
n m [165]
ai (t ) = ∑ wij e j (t ) + ∑ wiiq ai (t − q)
j =1 q =1
n
ai (t ) = ∑ ( wij e j (t ) ) + wii ai (t − 1) [166]
j =1
145
Chapitre IV : Mémoire dynamique du réseau RRFR
e1 (t ) wi1
e2 (t ) wi 2
ai (t ) yi (t )
∑ f (.)
en (t ) win
wii
τ1
Figure 62. Architecture simplifiée d’un Réseau LRGF avec retour de l’activation
Lorsqu’il s’agit d’un neurone d’entrée au réseau, son activation peut être ramenée à
l’équation suivante :
ai (t ) = ξi (t ) + wii ai (t − 1) [167]
L’étude des propriétés de ce type de neurone à retour local de l’activation, revient à étudier
son comportement en l’absence de toute excitation extérieure ( ξi (t ) = 0 ∀t > 0 ). En d’autres
termes, ceci revient à étudier l’influence du retour local de l’activation sur la mémoire
dynamique du neurone.
La recherche des points d’équilibre de ce neurone se traduit par la recherche des racines a*
de l’équation :
Si l’on prend le premier cas, c'est-à-dire le cas où wii ≠ 1 , l’équation [168] possède qu’une
seule racine et donc le neurone ne possède qu’un seul point d’équilibre a0 = 0 . Pour étudier sa
stabilité, on utilisera la fonction de Lyapunov définie par V (a) = a 2 . Les variations de cette
fonction autour du point d’équilibre a0 = 0 s’expriment par
146
Chapitre IV : Mémoire dynamique du réseau RRFR
Si a > a0 et wii > 1 , d’après le tableau des variation de g(a) (Tableau 4), g (a ) > 0 et
wii + 1 > 0 alors ∆V > 0 . Inversement, si a < a0 et avec la même condition de wii > 1 , on a
bien ∆V > 0 . D’après la théorie de la stabilité de Lyapunov, le point a = a0 est donc un point
d’équilibre instable si wii > 1 .
Plaçons nous maintenant dans le cas où wii < 1 . Si a > a0 et −1 < wii < +1 , alors g (a) < 0
et wii + 1 > 0 donc ∆V < 0 . Dans le cas où a < a0 et avec les mêmes conditions de wii ,
g (a) > 0 , alors ∆V < 0 . Dans ce cas où −1 < wii < +1 , le point a = a0 est un point d’équilibre
stable.
Le dernier cas est celui où wii < −1 , on obtient wii + 1 < 0 et de ce fait ∆V > 0 . Le point
a = a0 est un point d’équilibre instable.
Dans les cas particuliers où wii = −1 ou wii = +1 , on a ∆V = 0 . Le neurone ne possède
aucune dynamique qui rapproche ou écarte l’activation du point d’équilibre a = a0 . Dans le
cas où wii = −1 , l’activation du neurone oscille entre les valeurs ± a (comportement astable),
et reste stable en a pour le cas où wii = +1 .
a −∞ a0 +∞ a −∞ a0 +∞
g ′(a ) − − g ′( a ) + +
+∞ +∞
g (a) g (a)
0 0
−∞ −∞
Comme pour les deux cas précédents, en se basant sur les propriétés des comportements
d’oubli et de mémorisation évoquées précédemment, le neurone à retour local de l’activation
possède deux comportements distincts en fonction de wii :
• un comportement d’oubli si wii < 1 ,
• un comportement de mémorisation si wii ≥ 1 .
Les figures suivantes illustrent ces deux comportements en fonction de wii :
147
Chapitre IV : Mémoire dynamique du réseau RRFR
1 1
0.8 0.8
0.6 0.6
0.4 0.4
w = 0.99
w = 0.99
0.2 0.2
w = 0.98
0 0
-0.4 -0.4
w = - 0.99
w = 0.99
-0.6 -0.6
-0.8 -0.8
-1 -1
0 50 100 150 200 250 300 350 400 0 20 40 60 80 100 120 140 160 180 200
-a- -b-
Figure 63. Comportement d’oubli. Convergence de l’activation du neurone vers le point
d’équilibre stable a = a0 . a) sans oscillations pour des valeurs positives de l’auto-connexion,
b) avec oscillations pour des valeurs négatives de l’auto-connexion. La condition initiale est
donnée par ξ (0) = ±1 .
8 8
6 6
4 w = 1.2 4
2 2 w = 1.2
w = 1.1
0 0
w = 1.1
-2 -2 w = -1.2
-4 w = 1.2 -4
-6 -6
-8 -8
0 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20
-a- -b-
Figure 64. Comportement de mémorisation. Divergence de l’activation du neurone vers une
valeur infinie a) sans oscillations, b) avec oscillations. La condition initiale est donnée par
ξ (0) = ±0.2 .
1.5
w=1
1
0.5
-0.5
-1
w = -1
-1.5
0 2 4 6 8 10 12 14 16 18 20
Figure 65. Stabilisation de l’activation aux conditions d’activation initiales ( ξ (0) = +1 ) pour
w = 1 . Oscillation de cette activation entre ±ξ (0) pour w = −1 .
148
Chapitre IV : Mémoire dynamique du réseau RRFR
Comme pour les cas précédents, nous allons utiliser l’équation [148] pour l’étude de la
longueur de la mémoire dynamique du neurone à retour local de l’activation. L’étude des
variations ∂yi (t ) de la sortie par rapport à celles de l’entrée ∂ξi (t − q ) s’écrit comme suit :
∂yi (t ) ∂y (t ) ∂ai (t )
= i
∂ξi (t − q) ∂ai (t ) ∂ξi (t − q)
∂ai (t ) ∂ai (t − 1)
= f ′ ( ai (t ) )
∂ai (t − 1) ∂ξi (t − q)
∂a (t − 1) ∂ai (t − 2) ∂a (t − 2)
= f ′ ( ai (t ) ) wii i = f ′ ( ai (t ) ) wii 2 i
∂ai (t − 2) ∂ξi (t − q) ∂ξi (t − q )
∂yi (t ) ∂a (t − q)
= f ′ ( ai (t ) ) wii q i = f ′ ( ai (t ) ) wii q [170]
∂ξi (t − q ) ∂ξi (t − q)
Les architectures LRGF peuvent être divisées en trois représentations majeures : deux
représentations à retour local de la sortie (le neurone de Frasconi-Gori-Soda et le neurone de
Poddar-Unnikrishnan) et une représentation à retour local de l’activation (le neurone de
Frasconi-Gori-Soda). Ces trois neurones récurrents présentent des comportements quasi-
semblables :
149
Chapitre IV : Mémoire dynamique du réseau RRFR
26
Nous rappelons que le neurone bouclé représente le neurone à retour local de la sortie de Frasconi-Gori-Soda.
150
Chapitre IV : Mémoire dynamique du réseau RRFR
En effet, dans (Tsoi et al., 1994), les auteurs insistent sur l’avantage d’utiliser des fonctions
d’activation non-linéaires pour la prise en compte de la non-linéarité des données d’entrée.
L’emplacement du bouclage : avant la non-linéarité ou après le passage à la non-linéarité peut
donc être un critère de choix décisif pour le type de mémoire dynamique.
∂yi (t )
∂ξi (t − q)
0.25
0.2
0.15
0.1
b
0.05
0
0 50 100 150 200 250 300
q
IV.5. Conclusion
151
Chapitre IV : Mémoire dynamique du réseau RRFR
performances dynamiques de ces trois mémoires. Nous avons également appuyé les différents
développements mathématiques par des simulations de performances.
Pour le choix de la mémoire dynamique du RRFR, cette étude nous a conduit à éliminer un
des deux modèles à retour local de la sortie : le modèle de Poddar-Unnikrishnan. Ce neurone
localement récurrent possède des performances au mieux identiques au neurone bouclé de
Frasconi-Gori-Soda. Par contre, les deux autres modèles restant possèdent des
comportements dynamiques comparables. La différence entre ces deux modèles concerne le
point de retour de la récurrence : l’un se situe avant la non-linéarité du neurone et l’autre se
situe après cette non-linéarité. Cette différence structurelle entre les deux neurones récurrents
peut avoir des conséquences dans la prise en compte de la non-linéarité des données d’entrée.
Cette étude nous a permis d’identifier deux comportements dynamiques différents pour les
deux types de mémoire dynamique du réseau RRFR : un comportement de mémorisation et un
comportement d’oubli. Ces deux comportements sont obtenus grâce aux variations des deux
paramètres de cette mémoire dynamique : la valeur du poids de l’auto-connexion du neurone
récurrent et le paramètre de la fonction d’activation (la sigmoïde). Ces deux paramètres sont
donc définis a priori par l’expert en fonction du comportement souhaité. La phase
d’apprentissage du réseau RFR dynamique que nous proposons garde ainsi toute la simplicité
de paramétrage des réseaux RFR statiques.
La mémoire dynamique basée sur des architectures LRGF se prête bien pour le
développement d’un outil de surveillance dynamique facile à paramétrer à distance par
connexion TCP/IP (via le réseau Web). Des récurrences locales au niveau de la couche
d’entrée du réseau RFR n’ajoutent aucune complexité supplémentaire au réseau de neurones.
Nous gagnons ainsi l’aspect dynamique sans pour autant perdre la simplicité d’utilisation des
réseaux RFR.
Dans le chapitre suivant, nous allons évaluer les performances du réseau RRFR avec les
deux types de mémoires dynamiques comparables, en l’appliquant à des problèmes type de
surveillance dynamique. Nous testerons le réseau RRFR sur les trois problématiques
d’application des réseaux de neurones temporels en surveillance.
152
Chapitre IV : Mémoire dynamique du réseau RRFR
153
Chapitre V
155
Chapitre V : Evaluation des performances du réseau RRFR
Chapitre V
Evaluation des performances du réseau RRFR
V.1. Introduction
Le chapitre précédent était consacré à la présentation du réseau RRFR avec ses deux
mémoires : une mémoire dynamique basée sur les architectures Localement Récurrente
Globalement Feedforward et une mémoire statique basée sur les neurones gaussiens. Nous
avons pour cela effectué une étude comparative approfondie des trois architectures existantes
de réseaux de neurones localement récurrents. Une étude formelle de chaque architecture avec
des tests de simulation nous a ainsi permis de comparer les performances de ces trois
architectures LRGF. Parmi ces trois architectures récurrentes, deux possèdent des
comportements dynamiques quasi-semblables (comparables) : le neurone à retour local de la
sortie et le neurone à retour local de l’activation.
Dans ce cinquième chapitre, nous allons évaluer les performances du réseau RRFR avec
ses deux mémoires dynamiques sur les trois types d’applications des réseaux de neurones
temporels en surveillance dynamique. Nous mettons ainsi en évidence la simplicité
d’apprentissage du réseau RRFR avec l’efficacité de sa mémoire dynamique sur des
problématiques de reconnaissance de séquences temporelles (booléennes et réelles), de
prédiction de séquences temporelles pour le pronostic et enfin de reconstitution de séquences
temporelles.
Le paramétrage de la mémoire dynamique du réseau RRFR est ainsi effectué a priori.
L’étude faite au chapitre précédent permet de déterminer ces paramètres en fonction du
comportement souhaité. Généralement, on définit ces paramètres de telle sorte à avoir une
mémoire dynamique la plus longue possible. Par contre, les paramètres de la mémoire statique
sont déterminés a posteriori, c'est-à-dire à partir des valeurs enregistrées dans une base de
données. L’un des intérêts à utiliser les réseaux de neurones artificiels est leur capacité de
généralisation des connaissances apprises. On comprend alors que si l’on possède une base de
données assez importante (en terme de nombre de données), il faudrait mémoriser les données
les plus représentatives de cette base et non l’ensemble des données, afin de garantir une
bonne généralisation au réseau de neurones. Ce point représente une réelle problématique de
156
Chapitre V : Evaluation des performances du réseau RRFR
la phase d’apprentissage des réseaux de neurones artificiels. Nous proposons pour cela une
version améliorée de la technique des k-moyennes qui garantit au réseau RRFR de converger
vers la zone de bonne généralisation.
Ce chapitre est organisé en trois grandes parties. Chaque partie représente l’évaluation des
performances du RRFR sur une des trois problématiques d’application des réseaux de
neurones artificiels en surveillance dynamique qui sont :
Le deuxième type d’application du réseau RRFR sera celui de la prédiction temporelle pour
le pronostic. Cette problématique représente un vrai défi dans plusieurs domaines (prévisions
météorologiques, financières,…). En surveillance, la prédiction permet de connaître les
157
Chapitre V : Evaluation des performances du réseau RRFR
évolutions futures d’un paramètre de surveillance afin d’anticiper sur les actions à
entreprendre.
D’après l’étude faite au chapitre précédent sur les comportements dynamiques du neurone
récurrent, une occurrence d’un événement externe peut être gardée en mémoire soit
temporairement pour un comportement d’oubli, soit indéfiniment pour un comportement de
mémorisation. Ces deux types de comportements peuvent être exploités différemment : le
comportement d’oubli peut nous renseigner sur l’instant exact d’occurrence de l’événement, à
condition de se trouver dans sa plage de mémorisation (T<300). Au delà de cette plage, le
neurone perd complètement l’effet de l’événement externe. Par contre, le comportement de
mémorisation ne donne aucune information concernant l’instant d’occurrence de l’événement
(une fois le régime permanent atteint), mais l’on saura « éternellement » que l’événement
s’est produit. Ces deux comportements offrent deux possibilités d’utilisation différentes, selon
la problématique à résoudre. Pour une application d’apprentissage de séquences temporelles,
où l’instant d’occurrence d’un événement représente une donnée importante du problème, on
exploitera donc le comportement d’oubli du neurone récurrent.
158
Chapitre V : Evaluation des performances du réseau RRFR
Une séquence Sk est caractérisée par une succession d’événements booléens Ζl selon un
ordre bien précis et à des instants d’occurrence bien précis pour chaque événement. Une
séquence Sk a donc un nombre N d’événements ( S k = {Z1 , Z 2 ,..., Z l ,.., Z N } ), et une longueur
T qui dépend du nombre N d’événements et de leur instant d’occurrence.
Un événement Ζl est caractérisé par son instant d’occurrence tl . En prenant un neurone
récurrent i avec un comportement d’oubli pour caractériser l’instant d’occurrence de
l’événement tl , on considère alors les conditions d’excitation ξil (t ) ci-dessous :
l [173]
ξi (t ) = 0 sinon (t ≠ tl )
avec yia (t ) et yib (t ) représentant les sorties du neurone récurrent i pour respectivement les
entrées ξia (t ) et ξib (t ) . Si l’on prend le cas du neurone bouclé, sa sortie pour l’excitation
ξia (t ) est yia (t ) = f ( wii yia (t − 1) + ξia (t ) ) et yib (t ) = f ( wii yib (t − 1) + ξib (t ) ) pour ξib (t ) . Si
ξia (t ) = ξib (t ) , l’excitation du neurone récurrent est la même. Avec les conditions initiales
yia (t ) = 0 pour (t < ta ) et yib (t ) = 0 pour (t < tb ) , la propriété de bijection de la fonction
sigmoïde f (.) fait que l’évolution de la sortie du neurone bouclé soit la même yia (t ) = yib (t ) .
Inversement, si l’on considère à un instant donnée tm que yia (tm ) = yib (tm ) , par propriété de
bijection de la fonction f (.) , on obtient yia (tm − 1) = yib (tm − 1) . On peut étendre ce
raisonnement jusqu’à l’instant d’excitation du neurone bouclé par l’événement qui sera donc
le même ξia (t ) = ξib (t ) (voir Figure 67 pour plus de précisions). Le même raisonnement peut
être utilisé pour le neurone à retour local de l’activation. On peut donc affirmer que
l’évolution temporelle yia (t ) d’un neurone récurrent ayant un comportement d’oubli dépend
de l’instant exact ta qui caractérise l’occurrence de l’événement Ζ a .
159
Chapitre V : Evaluation des performances du réseau RRFR
Occurrence de Occurrence de
l’événement ξia l’événement ξib
τ1 0.7
yib (tm )
0.6
ξi (t ) 0.5
0.4
1 ξia ξib
0.3
0.2
yia (tm )
0.1
1 5 10 t
0
0 5 10 tm 15 20 25 30 35
t
Figure 67. Evolution du neurone bouclé par rapport à deux événements distincts (se
produisant à des instants différents).
Nous considérons une séquence booléenne simple comme une séquence Sk où les
événements Ζl ne se produisent qu’une seule fois dans la séquence. Chaque neurone
récurrent i de la mémoire dynamique A1 du réseau RRFR est dédié à un événement Ζi (i=l) de
la séquence Sk . Le nombre de neurones récurrents de la mémoire dynamique est donc égal au
nombre N d’événements de la séquence Sk (Figure 68). La sortie de chaque neurone
récurrent i est représentative de l’instant d’occurrence de l’événement Ζi .
ξ1 (t )
Séquence N°1
ξ 2 (t )
Séquence N°2
Séquence N°n
ξ N (t )
A1 A2 A3
160
Chapitre V : Evaluation des performances du réseau RRFR
C1 C2 C3 C4 C5 C6
Machine M1 Machine M2
Chaque machine possède son temps de traitement nominal ainsi qu’un temps nominal de
convoyage pour le convoyeur. On peut alors imaginer toutes sortes de perturbations sur le
système et tester les capacités du réseau RRFR à apprendre la reconnaissance de ces situations
de dysfonctionnement. Nous pouvons représenter ce système de production avec ses
perturbations par un réseau de Petri temporisé (Daniel, 1995), (Racoceanu et al., 2002)
(Figure 70 -a-). Les signaux émis par les passages des différentes transitions représentent les
entrées ξi du réseau de neurones correspondant aux événements Ci . Chaque séquence Sk
sera caractérisée par un vecteur y k composé des valeurs de sorties yi (t ) de chaque mémoire
dynamique à la fin de la séquence Sk .
27
En considérant l’origine des temps à l’instant d’occurrence du premier événement de la séquence S k .
161
Chapitre V : Evaluation des performances du réseau RRFR
Per1
C1 tM1
TM1 ξ1 = C1
PM1
P’M1
C2
ξ 2 = C2
Pat1
Mode 1
Per2 ξ3 = C3
C3
Mode 2
tconv
Ttr
Pconv ξ 4 = C4
P’conv
C4 Mode n
ξ5 = C5
Pat2
Per3
C5
ξ 6 = C6
tM2
TM2
PM2
P’M2
C6 A1 A2 A3
-a- -b-
Figure 70. a) Représentation du système à événements discrets par un réseau de Petri
temporisé, b) Architecture du RRFR pour l’apprentissage des séquences du système.
Nous avons appliqué le réseau RRFR avec les deux types de mémoires dynamiques sur un
ensemble de données d’apprentissage de séquences correspondantes à différents modes de
fonctionnement du système de la Figure 69. Cet ensemble d’apprentissage comporte une
séquence de fonctionnement pour le mode nominal ( N1 ), six séquences pour six modes
dégradés ( D1,..., D6 ) et trois séquences pour trois modes de pannes ( P1, P 2, P3 ). Nous avons
testé les capacités de généralisation du réseau RRFR sur des séquences proches de celles qui
ont été apprises ainsi que sur des séquences différentes de celles apprises. Les résultats de
cette application avec le RRFR à mémoire dynamique composée de neurones bouclés (retour
local de la sortie) sont présentés sur le Tableau 5 et une mémoire dynamique avec des
neurones à retour local de l’activation, sur le Tableau 6. Chaque vecteur caractéristique d’une
séquence de la base d’apprentissage est mémorisé par les neurones gaussiens de la mémoire
statique à la fin de la séquence. Nous avons appliqué l’algorithme RCE28 pour le calcul des
paramètres des neurones gaussiens. L’avantage majeur de cet algorithme d’apprentissage est
sa rapidité de convergence.
28
Décrit au chapitre II
162
Chapitre V : Evaluation des performances du réseau RRFR
ξ1 = 1 ξ 2 = 1 ξ3 = 1 ξ 4 = 1 ξ5 = 1 ξ6 = 1
y(t) 1
0.9
0.8
0.7
0.6
0.5
y6 (34)
0.4
y5 (34)
0.3
y4 (34)
0.2
y3 (34)
0.1
0
y2 (34)
0 5 10 15 20 25 30 35
t y1 (34)
Figure 71. Représentation de l’évolution temporelle des sorties de chaque neurone récurrent
face aux événements associés à chaque neurone. Les valeurs de fin de séquence seront
mémorisées par la mémoire statique.
163
Chapitre V : Evaluation des performances du réseau RRFR
Paramètres du
système Perturbations Réponse du Réseau de neurones
10 2 5 2 15 - - - 1 - - - - - - - - -
10 4 5 2 15 - - - - 1 - - - - - - - -
10 2 5 4 15 - - - - - 1 - - - - - - -
Apprentissage
10 4 5 4 15 - - - - - - 1 - - - - - -
10 2 5 2 15 5 - - - - - - 1 - - - - -
10 2 5 2 15 - - 5 - - - - - 1 - - - -
10 2 5 2 15 - 5 - - - - - - - 1 - - -
10 2 5 2 15 15 - - - - - - - - - 1 - -
10 2 5 2 15 - - 10 - - - - - - - - 1
10 2 5 2 15 - 10 - - - - - - - - - - 1
10 2 5 2 15 1 - - 0.92 0.38 - - 0.43 - - - - -
Test et validation sur des modes connus
10 2 5 2 15 - - -15 - - - - - - - - - -
Détection de
10 2 5 2 15 -10 - -15 - - - - - - - - - -
10 2 5 2 15 -10 +10 - - - - - - - - - - -
10 2 5 2 15 -10 +25 -15 - - - - - - - - - -
10 4 5 0 15 - - - - - - - - - - - - -
10 2 5 2 15 15 5 - - - - - - - - - - -
10 2 5 2 15 15 10 10 - - - - - - - - 0.39 -
10 2 5 2 15 5 5 5 - - - - - 0.45 - - 0.37 -
Tableau 5. Résultats du test du RRFR sur l’apprentissage des séquences simples du système à
événements discrets. La mémoire dynamique du réseau est constituée par les neurones
bouclés (retour local de la sortie) qui ont un comportement d’oubli avec b = 0.5, w = 1.9 . Les
paramètres des neurones gaussiens ont été calculés selon l’algorithme RCE avec θ = 0,3 .
164
Chapitre V : Evaluation des performances du réseau RRFR
10 2 5 2 15 - - - 1 - - - - - - - - -
10 4 5 2 15 - - - - 1 - - - - - - - -
10 2 5 4 15 - - - - - 1 - - - - - - -
Apprentissage
10 4 5 4 15 - - - - - - 1 - - - - - -
10 2 5 2 15 5 - - - - - - 1 - - - - -
10 2 5 2 15 - - 5 - - - - - 1 - - - -
10 2 5 2 15 - 5 - - - - - - - 1 - - -
10 2 5 2 15 15 - - - - - - - - - 1 - -
10 2 5 2 15 - - 10 - - - - - - - - 1
10 2 5 2 15 - 10 - - - - - - - - - - 1
10 2 5 2 15 1 - - 0.87 0.45 - - - - - - - -
Test et validation sur des modes connus
10 2 5 2 15 4 - - - 0.3 - - 0.92 - - - - -
10 2 5 2 15 6 - - - - - - 0.92 - - 0.38 - -
10 2 5 2 15 11 - - - - - - - - - 0.83 - -
10 2 5 2 15 14 - - - - - - - - - 0.98 - -
10 2 5 2 15 - 1 - 0.62 0.62 - - - - - - - -
10 2 5 2 15 - 4 - - - - - - - 0.8 - - -
10 2 5 2 15 - 6 - - - - - - - 0.81 - - 0.46
10 2 5 2 15 - 8 - - - - - - - - - - 0.82
10 2 5 2 15 - 9 - - - - - - - - - - 0.95
10 2 5 2 15 - - 2 - - 0.45 - - 0.33 - - - -
10 2 5 2 15 - - 4 - - - - - 0.89 - - - -
10 2 5 2 15 - - 6 - - - - - 0.89 - - 0.46 -
10 2 5 2 15 - - 8 - - - - - 0.35 - - 0.82 -
10 3 5 2 15 - - - 0.73 0.74 - - - - - - - -
10 3 5 3 15 - - - - 0.69 0.69 - - - - - - -
10 3 5 4 15 - - - - - 0.73 0.74 - - - - -
10 2 5 2 15 -10 - - - - - - - - - - - -
nouveaux modes
10 2 5 2 15 - - -15 - - - - - - - 0.74 - -
Détection de
Tableau 6. Résultats du test du RRFR sur l’apprentissage des séquences simples du système à
événements discrets. La mémoire dynamique du réseau est constituée par les neurones à
retour local de l’activation qui ont un comportement d’oubli avec b = 0.5, w = 0.99 . Les
paramètres des neurones gaussiens ont été calculés selon l’algorithme RCE avec θ = 0,3 .
165
Chapitre V : Evaluation des performances du réseau RRFR
Après les résultats obtenus par les deux types de mémoires dynamiques sur le problème
d’apprentissage de séquences booléennes simples, on peut faire un certain nombre de
remarques:
• le réseau RRFR a appris correctement les séquences de la base d’apprentissage
avec les deux types de mémoire dynamique,
• le test du réseau, sur l’ensemble des séquences proches de celles apprises de la
base d’apprentissage, a été satisfaisant. Toutes les séquences de la base de test ont
été correctement reconnues par le réseau.
• la différence entre les deux types de mémoires dynamiques (retour local de la
sortie et retour local de l’activation) se situe au niveau du test sur la reconnaissance
de nouvelles séquences. Le réseau RRFR avec neurones à retour local de
l’activation a tendance à donner de fausses réponses, contrairement au réseau avec
neurone bouclé. Ce dernier ne donne pas de réponses pour les séquences qui sont
différentes de celles apprises et est plus apte à détecter des séquences différentes
de celles rencontrées lors de l’apprentissage.
Contrairement aux séquences simples, dans une séquence complexe, un événement peut
apparaître plusieurs fois. Cette caractéristique représente une limite du réseau RRFR. En effet,
le réseau RRFR est incapable d’apprendre des séquences complexes car, à chaque nouvelle
occurrence d’un événement, le réseau a tendance à oublier les précédentes occurrences de
l’événement même. La Figure 72 schématise clairement ce phénomène d’oubli dû à
l’apprentissage d’une séquence complexe. Nous considérons quatre événements A, B, C et D,
un neurone récurrent par événement. En essayant de faire apprendre au réseau la séquence
complexe ABCADB, on se rend compte que le vecteur caractéristique de cette séquence
(prototype) est identique à celui de la séquence CADB. Les deux premières occurrences des
événements A et B ont été oubliés par leur deuxième occurrence. Le réseau de neurones ne
fait aucune différence entre la séquence complexe ABCADB et simple CADB. Le réseau
RRFR est donc incapable d’apprendre des séquences complexes.
166
Chapitre V : Evaluation des performances du réseau RRFR
A B C A D B
y(t) 1
0.9
0.8
0.7
0.6
0.5 y2
0.4
0.3
y4
0.2
0.1 y1
0 y3
0 10 20 30 40 50 60
Figure 72. Séquence ABCADB, prototype de fin de séquence identique à celui de la séquence
CADB. Impossibilité d’apprentissage d’une séquence complexe.
167
Chapitre V : Evaluation des performances du réseau RRFR
1.4
1.2
0.007
1
0.006
0.8
0.005
0.6
0.004
xa
0.4
0.2
0
0 20 40 60 80 100 120 140 160 180 200
Afin de mesurer l’effet de la mémoire dynamique sur la caractérisation du vecteur qui sera
mémorisé par la mémoire statique, on considère un seul point xa du palier d’apprentissage
(Figure 73). On testera alors les capacités du réseau RRFR à distinguer entre ce point appris et
d’autres points faisant partie des paliers de test. La reconnaissance du palier se fera à travers
la sortie de la fonction gaussienne mémorisant le prototype. Cette sortie dépend du calcul de
la distance euclidienne entre ce prototype mémorisé et le vecteur de sortie de la mémoire
dynamique. Ce calcul se fera tout au long de la présentation des points du palier de
dégradation à l’entrée du réseau. La réussite d’une telle classification dynamique est donc
tributaire de la qualité du vecteur de sortie de la mémoire dynamique. Un bon vecteur
caractérisant une séquence réelle Sk est un vecteur dont la distance euclidienne doit être
faible pour des séquences proches de la séquence apprise Sk , et a tendance à croître pour des
séquences différentes de Sk . Nous allons de ce fait établir des tests de comparaison entre les
deux types de mémoires dynamiques du réseau RRFR. Nous essayerons de voir celle qui
donnera un bon vecteur caractéristique d’une séquence réelle.
Les tableaux 7 et 8 montrent les résultats obtenus du calcul des distances euclidiennes entre
le point mémorisé pris de la droite de pente 0.005 (Figure 73) et d’autres droites avec
différentes pentes. Le calcul des distances se fait en continu, c'est-à-dire au fur et à mesure
que les points de la droite sont présentés à l’entrée du réseau de neurones, et ceci pour
différentes longueurs de la mémoire dynamique. Cette longueur varie entre une mémoire
ayant qu’un seul neurone bouclé (ou un neurone à retour local de l’activation) à 1 neurone
linéaire et une cascade de 6 neurones bouclés (ou 1 neurone linéaire et une cascade de 6
neurones à retour local de l’activation) (Figure 74). Pour chaque dimension de la mémoire et
chaque valeur de la pente, nous donnons la distance minimum calculée tout au long de la
présentation de la droite à l’entrée du réseau de neurones.
168
Chapitre V : Evaluation des performances du réseau RRFR
Figure 74. Réseau RRFR avec mémoire dynamique à un neurone linéaire et une cascade de
neurones récurrents.
169
Chapitre V : Evaluation des performances du réseau RRFR
Distance euclidienne
0.07
0.06
0.05
0.03
0.02
Retour local
de la sortie
0.01
0
2 3 4 5 6 7 8 9 10
-3 pente
x 10
Figure 75. Comparaison entre la sortie de la mémoire dynamique avec neurones bouclés et
celle avec neurone à retour local de l’activation. Les deux mémoires dynamiques sont
constituées d’un neurone linéaire et une cascade de six neurones récurrents. En abscisse nous
avons les pentes des droites présentées au réseau et en ordonnée, la distance euclidienne avec
le prototype de la droite de pente égale à 0.005.
La Figure 75 résume les résultats des calculs de distance obtenus avec les deux types de
mémoires dynamiques (neurone bouclé et neurone à retour local de l’activation). Pour ces
deux types de mémoires, la distance euclidienne est bien proche de zéro pour les droites
proches de celle apprise et tend à augmenter pour celles qui s’éloignent de la droite apprise.
La mémoire dynamique du réseau est donc bien capable de caractériser une séquence
temporelle réelle. Ce vecteur caractéristique est ensuite mémorisé par la mémoire statique.
Le dimensionnement de la mémoire dynamique est un paramètre important pour la
caractérisation de la séquence réelle (Zemouri et al., 2003 -b-). Les deux tableaux précédents
montrent que plus on augmente la cascade de neurones bouclés, plus le vecteur de sortie de la
mémoire dynamique est mieux représentatif de la séquence réelle. Néanmoins, on commence
à obtenir de bons résultats discriminatoires à partir d’une mémoire dynamique à un neurone
linéaire et un neurone récurrent. Les résultats obtenus avec les deux types de mémoire
dynamique sont quasiment identiques (voir Figure 75). On peut ainsi détecter une
dégradation, aussi minime soit elle, alors que l’équipement est toujours dans sa zone de bon
fonctionnement.
Après avoir testé les capacités de la mémoire dynamique à caractériser un palier de
dégradation, nous allons montrer que le neurone récurrent peut jouer le rôle d’un filtre passe
bas. En d’autres termes, la mémoire dynamique du réseau RRFR est capable de réagir
différemment face à un pic de fausse alarme et à un palier de dégradation (Zemouri et al.,
2002 -c-). Comme pour le cas précédent du palier de dégradation, nous allons faire des tests
de calcul de distance euclidienne entre le point mémorisé précédemment, en l’occurrence le
point de la droite de pente 0.005 (palier de dégradation de la Figure 73) et le même point,
mais cette fois-ci faisant partie d’un pic de fausse alarme (voir Figure 76). Le tableau ci-
170
Chapitre V : Evaluation des performances du réseau RRFR
dessous caractérise ce calcul de distance pour chacune des deux mémoires dynamiques (retour
local de la sortie et retour local de l’activation).
0.8
0.6
0.4
0.2
-0.2
0 20 40 60 80 100 120 140 160 180 200
La réponse du neurone récurrent est bien différente pour le même point physique
appartenant à un palier de dégradation et à un pic de fausse alarme. Le neurone récurrent agit
donc comme un filtre passe bas. Il élimine implicitement les hautes fréquences. On peut
formaliser ce comportement en étudiant sa sortie pour un changement brusque et pour un
palier de dégradation. Les développements mathématiques que nous allons donner concernent
le neurone bouclé. L’analogie avec le neurone à retour local de l’activation peut ainsi être
faite facilement.
Soit y le régime permanent de la sortie du neurone bouclé correspondant au régime
permanent du signal d'entrée ξ . On définit un changement brusque du signal d'entrée par un
passage de ξ à ξ * en un laps de temps relativement nul. On peut exprimer ce changement par
l'expression suivante :
171
Chapitre V : Evaluation des performances du réseau RRFR
ξ * − ξ
≈ +∞ [176]
∆t
1 − exp(−b( wii y + ξ * ))
y =*
[177]
1 + exp(−b( wii y + ξ * ))
A la différence d’un changement brusque, ~on peut définir un palier de dégradation par
l’existence d’une valeur intermédiaire ξ ε entre ξ et ξ * tel que :
~
~ ξ* −ξ
ξ <ξ <ξ
ε *
ou bien ∃η > 0 / =η [178]
∆t
Pour étudier la sortie du neurone bouclé face à un pic de fausse alarme [176] et un palier de
dégradation [178], on compare l’expression [177] et la sortie y** pour ξ * de la relation [178]
(Figure 77).
ξ < ξε < ξ*
y* ( Fausse alarme)
Figure 77. Principe de calcul des sorties du neurone bouclé face à un pic de fausse alarme et
un palier de dégradation
1 − exp(−b( wii y + ξ ε ))
yε = [179]
1 + exp(−b( w y + ξ ε ))
ii
Comme la fonction sigmoïde est strictement croissante et que wii >0, on obtient la relation
suivante :
y ε > y [180]
172
Chapitre V : Evaluation des performances du réseau RRFR
1 − exp(−b( wii y ε + ξ * ))
y** = [181]
1 + exp(−b( wii y ε + ξ * ))
donc :
La sortie du neurone bouclé, de fonction d’activation sigmoïde, est donc différente dans le
cas où on aurait un changement brusque du signal d'entrée et dans le cas où il s’agirait d’un
palier de dégradation. La réponse du neurone bouclé est plus importante dans le deuxième
cas.
Nous avons validé cette propriété du neurone récurrent sur le filtrage des bruits
d’acquisition de la vitesse de rotation d’un moteur électrique (Figure 78). Nous avons
provoqué des perturbations au niveau du capteur de vitesse d’une part, et des frottements
continus au niveau de l’axe de rotation du moteur. La Figure 79 montre d’un côté
l’acquisition de vitesse (entrée du neurone récurrent) et d’un autre côté le filtrage effectué par
le neurone récurrent (sa sortie).
Mesure de vitesse
moteur
Numérisation
wii Mode 1
Programmation
Mode 2
S(t)
Neurone bouclé
Neurone de sortie
Réseaux de neurone
RFR dynamique
20
0.5
18
16 0.48
Fonctionnement normal
14
0.46
12
Fonctionnement anormal
0.44
10
bruits
8
Frottements 0.42
6
0.4
4
2 0.38
0
0 500 1000 1500 2000 2500 0.36
0 500 1000 1500 2000 2500
Figure 79. Mesure de la vitesse de rotation et réponse du neurone bouclé avec les deux types
de perturbations : frottements et bruits de mesures.
173
Chapitre V : Evaluation des performances du réseau RRFR
Nous présentons une autre application qui met en évidence l’apport de la mémoire
dynamique du RRFR sur la reconnaissance dynamique de signaux capteurs (Zemouri et al.,
2003 -a-). Cette application a été construite à partir des données réelles du benchmark « Robot
Execution Failures» disponibles sur le serveur de l’université de Californie29 (Camarinha-
Matos et al., 1996). Le but de cette application est de reconnaître le type de collision d’un
bras de robot à partir d’une acquisition de signaux capteurs (Figure 80). Le bras du robot est
muni de trois capteurs de force (Fx, Fy, Fz). Les réponses données par ces trois capteurs nous
renseignerons sur l’existence ou pas de contact brusque du bras du robot avec un obstacle.
Quatre types de collisions sont susceptibles de se produire (Figure 81) : collision frontale,
collision par derrière, collision à gauche et collision à droite. Chaque type de collision est
caractérisé par une évolution temporelle des trois signaux de mesures. La Figure 82 présente
un échantillon de mesure pour les quatre types de collisions. Les réponses des trois capteurs
de force constituent les trois entrées du réseau RRFR. Après une phase d’apprentissage, le
réseau RRFR devra reconnaître le type de collision à partir des entrées des trois capteurs
(Tableau 10).
Fx
Mode Normal
Capteurs de
forces (Fx, Fy, Fz) Fy
Collision Devant
Collision Derrière
Fz
Collision Droite
Collision Gauche
Figure 80. Application du réseau RRFR pour la surveillance d’un bras de robot. Les sorties
des trois capteurs de force constituent les entrées du réseau RRFR. L’apprentissage permet
de définir le nombre ainsi que les paramètres des neurones gaussiens.
Figure 81. Différents types de collisions possibles du robot lors de l’exécution d’une tache :
collision frontale, par derrière, à gauche ou par la droite.
29
The UCI KDD Archive [http://kdd.ics.uci.edu]. Irvine, CA: University of California, Department of
Information and Computer Science
174
Chapitre V : Evaluation des performances du réseau RRFR
100 80
100 150 Fz Fz
Fz
50 60
50 100 Fx
Fz Fx
0 40
0 50
Fy Fx -50 20
Fy
Fy
-50 0
Fx Fy -100 0
Figure 82. Réponses des capteurs de force (Fx, Fy et Fz) pour chaque type de collision.
Chaque type de collision est donc caractérisé par une signature des trois mesures de force.
La base de données de cette application contient 47 échantillons qui sont répartis avec la
distribution suivante : 43% mode normal, 13% mode collision frontale, 15% mode collision
par derrière, 11% mode collision à droite et 19% collision à gauche. Chaque échantillon est
composé de 15 valeurs (mesures) effectuées juste au moment de la collision du bras du robot
avec un obstacle. Nous avons pris un seul échantillon par type de collision pour le processus
d’apprentissage du réseau RRFR. Le reste des échantillons sera utilisé pour le test. La
dynamique de chaque signal est prise en compte par la mémoire dynamique du RRFR. Nous
avons donc voulu comparer les performances du réseau RRFR avec les deux types de
mémoires dynamiques et, pour mettre en évidence l’apport de la mémoire dynamique, nous
avons également comparé le RRFR avec le réseau RFR sans mémoire dynamique (statique).
La taille ainsi que les paramètres de la mémoire statique (neurones gaussiens) ont été
déterminés par l’algorithme d’apprentissage DDA30 qui permet d’établir un traitement
incrémental. Les paramètres du réseau sont ainsi déterminés tout au long de la présentation
des 15 valeurs de l’échantillon d’apprentissage. Les seuils utilisés pour le calcul sont
θ + = 0, 4 et θ − = 0,1 . Concernant la phase de reconnaissance, nous avons utilisé une couche
d’intégration31 qui permet de prendre en compte les réponses des neurones gaussiens par
rapport à toute la séquence. Cette couche d’intégration effectue une sommation des sorties de
chaque neurone gaussien tout au long de la présentation du signal au réseau de neurones :
15
φi = ∑ φi (t ) [184]
t =1
30
Dynamic Decay Adjustment présenté au chapitre II
31
Voir réseau TDNN et TDRBF au Chapitre III
175
Chapitre V : Evaluation des performances du réseau RRFR
Taux de reconnaissance
Types de Mémoire dynamique
collisions Mémoire dynamique avec Absence de mémoire
avec dynamique (RFR
Neurone bouclé neurone à retour de classique)
l’activation
Collision
Frontale 60 % 40 % 20 %
Tableau 10. Résultats obtenus par les trois réseaux (RRFR avec les deux types de mémoire, et
RFR).
Chaque colonne du Tableau 10 représente les taux de reconnaissance obtenus par les trois
réseaux testés (RRFR avec les deux types de mémoires dynamiques et le réseau RFR
statique). Le pourcentage est donné par rapport aux échantillons de test pour chaque type de
collision. Les performances du RFR statique sont nettement inférieures au RRFR. L’absence
de mémoire dynamique le rend incapable de prendre en compte l’évolution des signaux. Les
prototypes mémorisés par la mémoire statique du RFR sont complètement indépendants de
l’évolution dynamique des signaux d’entrée. Par contre, grâce au traitement effectué par la
mémoire dynamique du réseau RRFR, les prototypes mémorisés par la mémoire statique
dépendent de l’évolution du signal. Le réseau est ainsi capable de caractériser la dynamique
de chaque type de collision. Une moyenne globale des taux de reconnaissance obtenus par le
RRFR est de 44% avec une mémoire dynamique à neurones bouclés, 47,5% avec mémoire
dynamique à retour local de l’activation contre 5% avec le réseau RFR statique. Les temps
d’apprentissage et de traitement sont quasiment identiques pour les trois réseaux
( ≈ 0.04 secondes32).
Après avoir testé les performances du RRFR sur une problématique d’apprentissage et de
reconnaissance de séquences temporelles (booléennes et réelles), nous allons tester le réseau
RRFR sur un autre type d’application où la dynamique des données d’entrée est tout aussi
importante que précédemment. Cette application concerne la prédiction de séries temporelles
pour des applications de pronostic industriel. Nous allons tester les propriétés dynamiques du
réseau RRFR sur deux types de données temporelles : la série temporelle MackeyGlass et une
32
Traitement effectué sur un processeur de 1.2Ghz de fréquence d’horloge.
176
Chapitre V : Evaluation des performances du réseau RRFR
application de prédiction d’une concentration de sortie en CO2 d’un four à gaz (the Box and
Jenkins gas furnace database)33.
Une application de prédiction temporelle est complètement différente de la problématique
précédente, en l’occurrence la reconnaissance de séquences temporelles. La prédiction
temporelle est considérée comme une application d’approximation de fonctions et non de
classification. Les variables de sortie du réseau de neurones sont donc des variables de type
réel et non catégoriel et la couche de sortie du réseau est constituée par des neurones linéaires.
La réponse du réseau RRFR est donnée par l’expression ci-dessous :
N
h(x) = ∑ wnφ ( x − µ n ) [185]
n =1
avec h(x) ∈ℜ qui représente la sortie du réseau pour le vecteur d’entrée x . On remarque
clairement que la réponse du réseau de neurones est fortement liée aux valeurs des poids des
connexions de sortie. Le vecteur des pondérations est, dans ce type d’application, un des
paramètres à prendre en considération avec plus de rigueur que dans une application en
classification. Le processus d’apprentissage du RRFR pour une application de type
approximation de fonction comporte alors deux phases :
• une première phase dite non supervisée, pour le calcul des paramètres des neurones
gaussiens (centres ou prototypes µ et rayons d’influence σ ),
• une deuxième phase dite supervisée, pour le calcul du vecteur de pondération de la couche
de sortie. Nous avons adopté la méthode de l’inversion matricielle qui, comme nous le
verrons, donne d’assez bons résultats avec pratiquement un temps de calcul négligeable. Une
écriture sous forme matricielle nous permet donc de déduire aisément le vecteur de
pondération par simple inversion matricielle :
w=Φ-1 .ζ [186]
ζ représente le vecteur de sortie désiré. On comprend alors que cette phase de calcul du
vecteur w dépend d’une première phase qui est celle du calcul des paramètres des
gaussiennes (centres µ et rayons d’influence σ ) pour avoir la matrice Φ .
Nous nous intéresserons donc plus en détail à la première phase de l’apprentissage.
Plusieurs techniques existent pour cette première phase du calcul. Nous allons voir que les
algorithmes d’apprentissage de type heuristique34 RCE et DDA, qui ont été présentés au
chapitre II, peuvent présenter, sous certaines conditions, une bonne solution pour calculer la
matrice des gaussiennes Φ . Ces techniques présentent certains désavantages comme leur
sensibilité aux paramètres de l’apprentissage. Les centres des gaussiennes ne sont pas
33
. Cette base est disponible sur le serveur du groupe de travail IEEE Working Group on Data Modeling Benchmarks ,
http://neural.cs.nthu.edu.tw/jang/benchmark/
34
dites aussi techniques incrémentales.
177
Chapitre V : Evaluation des performances du réseau RRFR
déterminés par rapport à un critère à minimiser, comme pour la technique des k-moyennes. En
effet, l’algorithme des k-moyennes détermine les centres des gaussiennes en minimisant les
moyennes des distances quadratiques. Cette technique offre de meilleurs résultats que les
techniques heuristiques mais présente également quelques inconvénients. Nous proposons
dans cette partie une version améliorée de l’algorithme des k-moyennes qui pallie les
faiblesses de la version classique. Tous ces points seront traités et mis en évidence dans les
paragraphes suivants à travers deux exemples types.
La technique du Runge-Kutta du 4ème ordre est employée pour simuler le système. Deux
valeurs de ∆ se distinguent conduisant à un comportement chaotique quasi-périodique :
∆ = 17 et ∆ = 30 . Les données que nous allons utiliser dans cette partie ont été obtenues avec
les conditions suivantes : ∆ = 17, x(0) = 1.2 et x(t − ∆) = 0 pour 0 ≤ t < ∆ avec une fréquence
d’échantillonnage de 1. La base de données contient 1200 points : les 500 premiers points à
partir du 118ème point sont utilisés pour la phase d’apprentissage, le reste des points (à partir
du 618ème point) pour le test du réseau. L’apprentissage ainsi que le test de prédiction du
réseau de neurones se fera sur un horizon de six pas : x(t + 6) (Figure 83). Le réseau RRFR
testé dans cette partie comporte une cascade d’un neurone linéaire et un neurone récurrent.
1.6
1.4
1.2 x (t )
1
0.8 x (t + 6)
∑
0.6
0.4
0.2
0 200 400 600 800 1000 1200
-a- -b-
Figure 83. a) Série Mackey-Glass, b) RRFR pour la prédiction de x(t+6)
178
Chapitre V : Evaluation des performances du réseau RRFR
Comme nous l’avons présenté au chapitre II, ces deux techniques sont généralement
dédiées à des problématiques de classification. On peut néanmoins, sous certaines hypothèses,
les appliquer à l’approximation de fonction. En effet, dans ce cas, la notion de classe
d’appartenance des données n’existe pas. Pour pouvoir utiliser ces deux techniques
heuristiques, il faudrait supposer deux cas possibles :
• Même groupe de centres : tous les points de la base d’apprentissage font partie du même
groupe de centres (équivalant à la même classe en faisant l’analogie avec les problématiques
de classification). Le nombre de prototypes mémorisés serait alors inférieur au nombre de
population d’apprentissage contenue dans la base de données,
• Différents groupes de centres : chaque point d’apprentissage appartient à un groupe
différent (équivalant à des classes différentes pour chaque point, par analogie aux problèmes
de classification). Tous les points de la base d’apprentissage seraient dans ce cas mémorisés
en tant que centre (prototype). Il est évident que cette situation provoquera un phénomène de
sur-apprentissage.
0.18
0.3
0.16
σ 0 = 0, 4 σ 0 = 0, 01
0.25
0.14
0.2
0.12
0.15
0.1
0.04 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Seuil d’apprentissage θ Seuil d’apprentissage θ
-a- -b-
Figure 84. Application de l’algorithme RCE sur le problème de la série Mackey-Glass : a)
avec un rayon initial de 0.4, b) rayon initial de 0.01.
179
Chapitre V : Evaluation des performances du réseau RRFR
10 19.8
19.6
9
σ 0 = 0, 4
19.4
8
σ 0 = 0, 01
19.2
7
19
6
18.8
5
18.6
4
18.4
3 18.2
2 18
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
-a- -b-
Figure 85. Nombre de prototypes créés avec l’algorithme RCE en fonction du seuil
d’apprentissage : a) avec un rayon initial de 0.4, b) avec un rayon initial de 0.01.
La première remarque que nous pouvons faire est que l’erreur sur la population de test est
pratiquement identique à celle obtenue sur la population d’apprentissage, ceci pour les deux
valeurs initiales du rayon d’influence. La technique RCE appliquée sous cette condition
procure au réseau de neurones une bonne capacité de généralisation. Les meilleures
performances sont obtenues pour des valeurs du seuil proches de 1 ( θ ≈ 1 ) avec une erreur
moyenne proche de 0.05 pour les deux populations (test et apprentissage) (Figure 84). Par
contre, d’après les graphes des Figure 84 et Figure 85, les résultats obtenus sont étroitement
dépendants de la valeur initiale du rayon d’influence donnée au premier prototype mémorisé.
On peut se poser alors la question suivante : quels sont les critères à prendre en compte pour
définir cette valeur initiale σ 0 ? Aucune technique d’initialisation n’est disponible
actuellement en littérature.
Dans la deuxième partie des tests, nous avons appliqué l’algorithme DDA en essayant
d’exploiter les résultats obtenus avec la technique RCE. La différence entre ces deux
techniques est l’ajout d’un seuil θ + supplémentaire pour la technique DDA. En effet, cet
algorithme possède deux seuils θ − et θ + : le premier a pour rôle de réajuster les rayons
d’influence alors que le deuxième contrôle l’ajout de nouveaux prototypes (voir chapitre II
pour plus de détails). On a établi les mêmes tests que pour la technique RCE. On a fixé la
valeur de θ + = 0.99 et on a fait varier θ − entre [ 0.1, 0.99] .
180
Chapitre V : Evaluation des performances du réseau RRFR
0.45
Erreur Population Apprentissage 450
0.35 350
0.3 300
0.25 250
0.2 200
0.15 150
0.1 100
0.05 50
0 0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
-a- -b-
Figure 86. Application de l’algorithme DDA sur le problème de la série MackeyGlass : a)
erreur moyenne sur population d’apprentissage et sur population de test, b) nombre de
prototypes mémorisés en fonction du seuil θ − .
La Figure 86.a montre que les performances du réseau RRFR sont identiques à celles
obtenues avec la technique RCE pour les valeurs de θ − ≈ θ + (erreur moyenne de test et
apprentissage proche de 0.05). Dans les autres cas ( θ − < 0.99 ), l’erreur sur la population de
test est plus importante, par contre celle sur la population d’apprentissage est quasiment
nulle : le réseau souffre alors d’un sur-apprentissage. Ceci est révélateur par le nombre de
prototypes créés tout au long de l’apprentissage (Figure 86.b). Le réseau a tendance à
apprendre parfaitement les données de la population d’apprentissage, par contre, ses capacités
de généralisation sont médiocres.
Dans le cas de groupe différent pour chaque point, tous les points de la base
d’apprentissage seront mémorisés en tant que prototypes (centres). Il est évident que le réseau
souffrirait alors de sur-apprentissage. Les performances du réseau ne seront pas meilleures
que dans le cas précédent (Figure 87).
181
Chapitre V : Evaluation des performances du réseau RRFR
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Seuil d’apprentissage
Figure 87. Test du RRFR avec les techniques heuristiques en faisant l’hypothèse que les
points de la base d’apprentissage appartiennent à différents groupes de centres (l’ensemble
des points de la base d’apprentissage est mémorisé en tant que prototypes).
Finalement, les meilleures performances sont obtenues par l’algorithme RCE avec la valeur
du seuil égale à θ = 0,99 . Nous avons donc établi des tests de comparaison entre le réseau
RRFR avec les deux types de mémoires dynamiques et le réseau RFR statique. Ces résultats
sont présentés par les figures ci-dessous.
0.16
1.2
0.14
1
0.12
0.8
0.1
0.08
0.6
0.06
0.4
0.04
0 0
0 200 400 600 800 1000 1200 0 200 400 600 800 1000 1200
-a- -b-
Figure 88. Résultat du RRFR avec la mémoire dynamique à neurone bouclé : a) comparaison
de la sortie réelle avec celle donnée par le réseau RRFR, b) erreur moyenne absolue.
182
Chapitre V : Evaluation des performances du réseau RRFR
0.14
1.2
0.12
1
0.1
0.8
0.08
0.6
0.06
0.4
0.04
Sortie Réelle
0.2
sortie Prédite 0.02
0 0
0 200 400 600 800 1000 1200 0 200 400 600 800 1000 1200
-a- -b-
Figure 89. Résultat du RRFR avec la mémoire dynamique à retour local de l’activation : a)
comparaison de la sortie réelle avec celle donnée par le réseau RRFR, b) erreur moyenne
absolue.
Erreur moyenne absolue
1.4 0.35
1.2 0.3
1 0.25
0.8 0.2
0.6 0.15
0.4 0.1
0 0
0 200 400 600 800 1000 1200 0 200 400 600 800 1000 1200
-a- -b-
Figure 90. Résultat du RFR statique (sans mémoire dynamique) : a) comparaison de la sortie
réelle avec celle donnée par le réseau RFR, b) erreur moyenne absolue.
0.14
RRFR avec bouclage de la sortie
RRFR avec bouclage de l'activation
RFR statique
0.12
0.1
0.08
Erreur moyenne
absolue
0.06 Ecart type de
l’erreur moyenne
0.04
Temps d’apprentissage
0.02
( × 10 secondes)
0
1 2 3
Figure 91. Comparaison des trois réseaux après apprentissage par l’algorithme RCE avec le
seuil de θ = 0,99 sur le problème de prédiction de la série MackeyGlass.
183
Chapitre V : Evaluation des performances du réseau RRFR
Malgré les résultats obtenus, les deux techniques d’apprentissage heuristiques (RCE et
DDA) présentent néanmoins quelques faiblesses. La plus importante est que leurs
performances sont étroitement liées aux paramètres que l’expert doit définir. Deux valeurs
initiales du rayon d’influence ont donné deux résultats complètement différents, en terme
d’erreur de prédiction et également en terme de nombre de prototypes crées (voir Figure 84 et
Figure 85). Comment définir la valeur initiale du rayon d’influence afin de garantir un résultat
optimal ? Aucune technique répondant à cette question n’existe en littérature mise à part la
technique du tâtonnement.
Un autre paramètre qui influe grandement sur la qualité des résultats obtenus, est le seuil θ
(où θ − et θ + pour la technique DDA). Il a fallu, dans ce cas également, simuler le réseau
RRFR sur toute la plage de variation des seuils afin d’aboutir au meilleur résultat. Ces deux
techniques souffrent aussi d’une certaine dépendance à l’ordre dans lequel sont présentées les
données pour l’apprentissage. Nous ne pouvons donc pas garantir l’optimalité des résultats
obtenus avec ces deux techniques. On peut néanmoins attribuer deux avantages non
négligeables à la technique RCE : une bonne capacité de généralisation procurée au réseau
RRFR (erreur sur population de test quasi égale à celle sur la population d’apprentissage) et
également la rapidité de convergence de l’algorithme. Dans la partie suivante, nous allons
tester les capacités de prédiction du RRFR avec la technique des k-moyennes.
Les faiblesses des deux techniques abordées précédemment peuvent être contournées avec
d’autres techniques plus robustes. Nous avons présenté au chapitre II une technique de
partitionnement appelée technique des k-moyennes35. Cette technique a pour principe de
déterminer le centre de tout un nuage de points :
1
µj =
Nj
∑x
x∈χ j
[188]
1
σ 2j =
N
∑χ (x − µ
x∈
j )(x − µ j )t [189]
j
35
Appelée également technique des centres mobiles. Son appellation anglophone est « k-means clustering
algorithm »
184
Chapitre V : Evaluation des performances du réseau RRFR
pour les techniques RCE et DDA, l’algorithme des k-moyennes est généralement utilisé dans
des problématiques de classification. Pour pouvoir l’utiliser en approximation de fonctions, il
faudrait supposer que tous les points de la base d’apprentissage appartiennent au même
groupe de centres (même classe en faisant l’analogie avec une application de reconnaissance
des formes). On peut résumer le principe de fonctionnement de cet algorithme par les étapes
suivantes :
Après quelques tests, nous avons confirmé le fait que l’algorithme des k-moyennes donne
de meilleures prédictions que les deux techniques heuristiques (RCE et DDA). Ce résultat est
pleinement justifié par le critère de calcul des prototypes qui est celui de minimiser la distance
quadratique entre l’ensemble des prototypes et tous les points de la base d’apprentissage. Par
contre, comme nous l’avons cité au chapitre II, cet algorithme possède quelques faiblesses qui
sont :
Problème des nuages vides :
En faisant quelques tests avec cette version de l’algorithme, nous avons remarqué qu’on
peut avoir des situations où le nuage de points associé à un prototype soit vide. Ceci engendre
un gros souci pour calculer le rayon d’influence du prototype (division par zéro de l’équation
[189]). Trois solutions sont alors possibles pour résoudre ce problème :
• soit que l’on décide d’affecter une valeur donnée au rayon du nuage vide, et
dans ce cas la même question se pose : sur quel critère se baser pour définir cette
valeur ?
• soit que l’on élimine ce point de la liste des k centres,
• soit de calculer le rayon d’influence en essayant d’exploiter les résultats
précédents, c'est-à-dire utiliser le seuil de la technique RCE.
Nous avons fait des tests de comparaison, au niveau de l’étape 4 de l’algorithme des k-
moyennes (la phase de calcul du rayon d’influence) entre la technique de la variance (équation
185
Chapitre V : Evaluation des performances du réseau RRFR
0.4
0.35
0.35
0.3
0.3
0.25
0.25
0.2
0.2
0.15
0.15
0.1
0.1
0.05 0.05
0 0
5 10 20 30 40 50 60 70 80 90 5 10 20 30 40 50 60 70 80 90
-a- -b-
Figure 92. Comparaison des performances de l’algorithme des k-moyennes avec les deux
techniques de calcul du rayon d’influence : application de la variance et utilisation du seuil
θ de l’algorithme RCE (avec la valeur du seuil θ = 0,99 ): a) erreur moyenne sur la
population d’apprentissage en fonction du paramètre k, b) sur la population de test.
0.25 0.25
0.2 0.2
0.15 0.15
0.1 0.1
0.05 0.05
0 0
5 10 20 30 40 50 60 70 80 90 5 10 20 30 40 50 60 70 80 90
-a- -b
Figure 93. Déviation standard des erreurs moyennes de prédiction : a) sur population
d’apprentissage, b) sur population de test.
186
Chapitre V : Evaluation des performances du réseau RRFR
Le deuxième point de l’algorithme qui influe sur les performances du réseau de neurones
est le choix du nombre k de centres (prototypes) que le réseau devra mémoriser (étape 1 de
l’algorithme des k-moyennes). La Figure 94 montre l’influence du choix de ce paramètre sur
les performances de prédiction du réseau RRFR. Trois zones sont mises en évidence : une
zone de sous-apprentissage (1), une zone de bonne généralisation (2) et une zone de sur
apprentissage (3). Il faudrait donc initialiser le nombre k pour que le réseau de neurones se
trouve dans la zone (2). Il n’existe pas de méthodes formelles pour initialiser a priori le
nombre de centres au début de l’algorithme (Chang et al., 2001).
0.1
1 2 3 0.1
0.05 0.05
0 0
0 50 100 150 200 250 300 350 400 450 500 0 50 100 150 200 250 300 350 400 450 500
-a- -b-
Figure 94. Influence du paramètre k sur les performances de prédiction du réseau RRFR : a)
erreur moyenne de prédiction, b) déviation standard de l’erreur moyenne de prédiction.
187
Chapitre V : Evaluation des performances du réseau RRFR
0.0305
0.03
0.0295
0.029
0.0285
0.028
0.0275
0 10 20 30 40 50 60 70 80 90 100
Figure 95. Instabilité de la technique par rapport à l’initialisation aléatoire des centres.
Cette partie montre que les performances obtenues avec l’algorithme des k-moyennes sont
meilleures que celles obtenues avec les techniques heuristiques. Les k centres obtenus à la
convergence de l’algorithme, sont déterminés de façon à minimiser la distance quadratique
moyenne de chaque nuage. Celle-ci représente la variance du centre du nuage. Ces k centres
sont donc mieux répartis sur l’ensemble des données comparé aux techniques heuristiques.
Par contre, la technique des k-moyennes souffre de plusieurs désavantages. Nous proposons
dans la partie suivante une version améliorée de l’algorithme des k-moyennes qui tente de
contourner les désavantages de la version classique.
Ce problème d’initialisation des centres peut être résolu par une technique appelée Fuzzy
Min-Max (Simpson, 1992), (Simpson, 1993), (Chang et al., 2001). Cette technique permet de
déterminer le nombre k des centres et leur valeur initiale d’une manière itérative.
L’algorithme des k-moyennes peut être ainsi « boosté » pour converger vers le minimum de la
somme des erreurs quadratiques entre les vecteurs d’entrée et les k centres. Durant cette phase
d’initialisation, des hyper-cube à n dimensions sont créés. Les limites d’un hyper-cube sont
définies par les coordonnées maximales et minimales de chaque dimension des points
appartenant à cet hyper-cube. Un degré d’appartenance d’un point à chaque hyper-cube est
déterminé par la fonction d’appartenance ci-dessous :
1 n
H j ( x,v j ,u j ) = ∑ 1 − f ( xi − u ji ) − f ( v ji − xi )
n i =1
[190]
188
Chapitre V : Evaluation des performances du réseau RRFR
1, x >η
f ( x ) = x / η , si 0 ≤ x ≤ η [191]
0 , x<0
avec :
max( x ji ) − min( x ji )
x j ∈χ x j ∈χ
η = min [192]
i 2 × ( N − 1)
avec
189
Chapitre V : Evaluation des performances du réseau RRFR
η2
x12 x1
x2
η = min(η1 ,η 2 ) = η1
x22
η1
x21 x11
∑ (max( u
i =1
ji ,xi ) − min( v ji ,xi )) ≤ nθ [193]
190
Chapitre V : Evaluation des performances du réseau RRFR
x2 x2
0.44
k = 61
0.44 k = 61
0.42 0.42
0.4 0.4
0.38 0.38
0.36 0.36
x1 x1
x2 x2
0.44 k = 61 0.44 k = 61
0.42 0.42
0.4 0.4
0.38 0.38
0.36 0.36
0.34 0.34
Initialisation Aléatoire Initialisation Aléatoire
0.32 0.32
0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4
x1 x1
Figure 97. Différence d’initialisation entre les deux techniques (Fuzzy Min-Max et aléatoire)
La différence entre les deux façons d’initialiser les centres est clairement identifiée. La
technique Fuzzy Min-Max permet d’avoir une certaine uniformité des k centres par rapport à
la densité du nuage de points. Cette initialisation permet alors de booster l’algorithme des k-
moyennes. On remarque également que l’initialisation aléatoire est instable, ce qui provoque
l’instabilité du résultat final (résultat de la Figure 95). Après cette phase d’initialisation des k
centres, on applique alors l’algorithme des k-moyennes pour trouver le minimum des sommes
des erreurs quadratiques. Après avoir fait quelques tests de la technique des k-moyennes avec
cette technique d’initialisation des centres, nous avons remarqué, après convergence de
l’algorithme des k-moyennes, qu’on obtient plein de nuages vides et d’autres très denses.
L’initialisation avec le Fuzzy Min-Max provoque une forte disparité de la densité des nuages,
alors qu’une initialisation aléatoire fait que la densité des nuages de points soit plutôt
équilibrée. Nous illustrons ce résultat sur la Figure 98 :
191
Chapitre V : Evaluation des performances du réseau RRFR
NbCentre = 107
50 50
NbCentre = 107
Avec initialisation
40 40
Sans initialisation
30 30
20 20
10 10
0 0
1 ≤1
densité 1 < densité
2 <5 densité
3 ≥5 1 ≤1
densité 1 < densité
2 <5 densité
3 ≥5
90 90
NbCentre = 145
80 80
NbCentre = 145
70 Avec initialisation 70
60 60 Sans initialisation
50 50
40 40
30 30
20 20
10 10
0 0
densité ≤ 1
1 1 < densité < 5
2 densité ≥ 5
3 1 ≤1
densité 1 < densité
2 <5 densité
3 ≥5
NbCentre = 181
100 100
NbCentre = 181
Avec initialisation
80 80
Sans initialisation
60 60
40 40
20 20
0 0
1 ≤1
densité 1 < densité
2 <5 densité
3 ≥5 1 ≤1
densité 1 < densité
2 <5 densité
3 ≥5
180
NbCentre = 324
NbCentre = 324
250
160
Sans initialisation
Avec initialisation 140
200
120
150 100
80
100
60
40
50
20
0 0
densité ≤ 1
1 1 < densité < 5
2 densité ≥ 5
3 1 ≤1
densité 1 < densité
2 <5 densité
3 ≥5
Figure 98. Comparaison des performances de l’algorithme des k-moyennes avec initialisation
en utilisant l’algorithme Fuzzy Min-Max et initialisation aléatoire.
192
Chapitre V : Evaluation des performances du réseau RRFR
Le seul paramètre qu’il faut donc ajuster avec cette version boostée est le paramètre θ de
l’algorithme Fuzzy Min-Max (équation [193]). Pour étudier la sensibilité de cette version par
rapport aux variations de ce paramètre, nous avons testé son influence sur la détermination du
nombre de prototypes créés et mémorisés par le réseau de neurones. On obtient alors les
résultats présentés sur le graphe de la Figure 99 :
80
70 0.1
60
50
40 0.05
30
20
10 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0 50 100 150 200 250 300 350 400 450 500
-a- -b-
Figure 99. Influence du paramètre θ sur les performances de l’algorithme : a) Nombre de
prototypes crées en fonction des variations du seuil θ , b) limites de la zone des prototypes
créés après convergence de l’algorithme des k-moyennes modifié.
193
Chapitre V : Evaluation des performances du réseau RRFR
La Figure 99.a montre que quelles que soient les variations du seuil θ , le nombre de
prototypes crées se situe dans une zone délimitée par les deux bornes supérieure et inférieure
(Figure 99.b). Cette zone se situe bien dans la zone de bonne généralisation. L’algorithme
force le réseau à converger vers une zone de bonne généralisation et évite ainsi les zones de
sur-apprentissage et de sous apprentissage et ceci quelles que soient les variations du seuil θ .
Cet algorithme est donc moins sensible à la phase délicate de paramétrage.
Nous avons par ailleurs établi une série de tests comparatifs entre les performances
obtenues avec l’algorithme proposé et la version simple des k-moyennes. Pour chaque test,
nous avons déduit un nombre k de centres à partir d’une valeur du paramètre θ , après
convergence de l’algorithme des k-moyennes modifié. Nous avons ensuite imposé ce nombre
de centres à l’algorithme des k-moyennes simple. Chaque test comporte 100 itérations
complètes des deux algorithmes. Nous présentons sur la Figure 100 les résultats de ce test de
comparaison.
Erreur moyenne de prédiction
0.0334
Moyenne des erreurs
obtenues sur les 100 0.0332
itérations avec le
k-moyennes simple.
0.033
0.0328
0.0326
0.0324
NB Centre = 71
Erreur moyenne obtenue
avec le k-moyennes boosté 0.0322
k-moyennes simple
0.032
0.0318
0 10 20 30 40 50 60 70 80 90 100
Nombre d’itération
0.0365
0.036
0.0345
k-moyennes simple
0.034
0 10 20 30 40 50 60 70 80 90 100
Nombre d’itération
0.0345 Nb Centre = 54
0.034
0.033
k-moyennes simple
0.0325
0 10 20 30 40 50 60 70 80 90 100
Nombre d’itération
194
Chapitre V : Evaluation des performances du réseau RRFR
Pour mieux expliquer les résultats obtenus et ainsi mettre davantage en évidence la
différence entre la version simple de l’algorithme des k-moyennes et la version améliorée que
nous proposons, nous avons fait des tests de comparaison sur un exemple assez illustratif
présenté sur la Figure 101. La figure (a) montre une initialisation des centres avec une
itération de l’algorithme Fuzzy Min-Max. Cette initialisation a permis de créer un hyper-cube
pour chacun des 5 nuages de points et un hyper-cube contenant un seul point pour chacun des
8 points isolés. Les centres crées sont schématisés par des croix rouges. Les centres de nuages
vides seront éliminés par notre algorithme. En fin de calcul, les centres obtenus sont ceux
représentés par la figure (b). L’algorithme ne garde ainsi que les centres les plus représentatifs
d’une population importante de points. Les centres vides représentent des points isolés et il
serait donc plus judicieux de les éliminer. Notons que le résultat obtenu est le même à chaque
exécution de l’algorithme (stabilité de l’algorithme), contrairement à la version simple de
l’algorithme des k-moyennes qui est assez instable. En effet, les figures (c) et (d) représentent
les résultats obtenus avec la version simple des k-moyennes. Non seulement cette version est
instable (deux résultats différents pour deux exécutions différentes de l’algorithme), mais les
centres obtenus ne sont pas du tout représentatifs de la population d’apprentissage.
Initialisation
6 des centres par une Résultat
6 final obtenu après élimination
5 5
4 4
3
3
2
2
1
1
0
0
-1
-1 -1 0 1 2 3 4 5 6 7
-1 0 1 2 3 4 5 6 7
-a- -b-
Résultat
6 final obtenu avec la version Résultat
6 final obtenu avec la version
simple des k-moyennes simple des k-moyennes
5 5
4 4
3 3
2 2
1 1
0 0
-1 -1
-1 0 1 2 3 4 5 6 7 -1 0 1 2 3 4 5 6 7
-c- -d-
Figure 101. Exemple de calcul des centres avec la version améliorée des k-moyennes (a) et
(b) et avec deux exécutions de la version simple de l’algorithme (c) et (d). Les résultats
obtenus avec la version améliorée sont nettement meilleurs et surtout stables par rapport à la
version simple.
195
Chapitre V : Evaluation des performances du réseau RRFR
0.12
50
k-moyennes boosté
0.1
40
0.08
k-moyennes boosté
30
0.06
k-moyennes simple
20
0.04
10
k-moyennes simple
0.02
0 0
1 2 1 2
Figure 102. Comparaison des performances entre les deux techniques d’apprentissage sur le
problème de prédiction de la série MackeyGlass.
196
Chapitre V : Evaluation des performances du réseau RRFR
Nous avons testé et comparé les performances du réseau RRFR sur la prédiction à long
terme. Le RRFR avec ces deux types de mémoires a été comparé au TDRBF et au RFR
statique sur plusieurs horizons temporels (allant de 1 jusqu’à 100). L’apprentissage des quatre
réseaux de neurones a été effectué par la version que nous proposons de la technique des k-
moyennes. Les meilleures performances de prédiction sont obtenues par le RRFR. La figure
ci-dessous illustre les résultats obtenus. On remarque également que les quatre réseaux de
neurones ont bien capturé la pseudo périodicité du signal qui est d’environ 50 unités de temps.
Cette remarque est révélée par les minimums des courbes d’erreurs moyennes situés aux
multiples de la demi pseudo période, et par les sommets situés au niveau des multiples des
quarts de la pseudo période. Ce comportement est mis en évidence par la courbe du réseau
RFR statique.
0.16
0.14
0.1
0.12
0.1
0.08
0.05
0.06
0.04
0.02
0
0 10 20 30 40 50 60 70 80 90 100 0
0 10 20 30 40 50 60 70 80 90 100
Figure 103. Comparaison des performances de prédiction entre le RRFR, RFR et le TDRBF
(avec un seul retard) sur plusieurs horizons temporels (de 1 à 100).
Nous allons dans cette partie valider les résultats obtenus précédemment sur une
application de prédiction industrielle avec des données réelles : le benchmark d’un four à gaz.
Le but de cette application est de prédire la concentration de sortie en CO2 y (t + 1) à partir de
la sortie y (t ) et du débit de gaz en entrée u (t ) . Cette application est schématisée par la Figure
104. Le réseau RRFR utilisé comporte un neurone linéaire et un neurone récurrent pour
chacune des deux variables d’entrée.
197
Chapitre V : Evaluation des performances du réseau RRFR
u(t)
y(t+1)
y(t) ∑
u(t) y(t)
Four à gaz
Débit du gaz
Concentration de sortie en
d’entrée
CO2
Figure 104. Surveillance d’un four à gaz par le réseau de neurones RRFR.
La base de données contient 300 valeurs de y (t ) et u (t ) . Nous avons pris les 100
premières valeurs pour la phase d’apprentissage et les 200 autres pour la phase de test. La
Figure 105 montre l’évolution des deux signaux avec les deux groupes choisis pour
l’apprentissage et le test.
y(t) 62 u(t) 3
60
2
58
56 1
54
0
52
50 -1
48
-2
46
apprentissage test
apprentissage test
44 -3
0 50 100 150 200 250 300 0 50 100 150 200 250 300
t t
-a- -b–
Figure 105. a) Concentration du CO2 en sortie du four à gaz, b) Débit du gaz en entrée dans
le four.
En faisant des tests d’initialisation des centres avec l’algorithme Fuzzy Min-Max, on
obtient les mêmes résultats comme dans l’application précédente, c'est-à-dire une forte
concentration de nuages vides après convergence de l’algorithme des k-moyennes (Figure
106). L’initialisation par la technique Fuzzy Min-Max permet donc de garder que les centres
les plus représentatifs d’un nuage de données. En appliquant alors toutes les étapes de
l’algorithme des k-moyennes proposé (voir étapes du Tableau 12), on obtient un nombre de
centres k tel que le réseau de neurones se trouve dans la zone de bonne généralisation, ceci
quelles que soient les variations du paramètre d’apprentissage θ de l’équation [193] (Figure
107).
198
Chapitre V : Evaluation des performances du réseau RRFR
12
NbCentre = 27 16
10 14 NbCentre = 27
Avec initialisation
12
8
Sans initialisation
10
6
8
6
4
2
2
0 0
0.5 densité ≤ 1 1.5 1 < densité < 5 2.5 densité ≥ 5 3.5 1 ≤1
densité 1 < densité
2 <5 densité
3 ≥5
8
8
6
6
4 4
2 2
0 0
densité ≤ 1
1 1 < densité < 5
2 densité ≥ 5
3 0.5 densité ≤ 1 1.5 1 < densité < 5 2.5 densité ≥ 5 3.5
NbCentre = 66
NbCentre = 66 40
50
35
Sans initialisation
Avec initialisation
40 30
25
30
20
20 15
10
10
0 0
1 ≤1
densité 1 < densité
2 <5 densité
3 ≥5 0.5 densité ≤ 1 1.5 1 < densité < 5 2.5 densité ≥ 5 3.5
20 8
15 6
10 4
5 2
0 0
0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2 0 10 20 30 40 50 60 70 80 90 100
Figure 107. Nombre de prototypes obtenus en fonction des variations du seuil θ de l’équation
[193] de l’algorithme Fuzzy Min Max.
199
Chapitre V : Evaluation des performances du réseau RRFR
Comme pour l’exemple de la série temporelle Mackey-Glass précédente, quelles que soient
les variations du paramètre θ , le réseau RRFR converge vers la zone de bonne généralisation.
On évite ainsi les deux zones de sur-apprentissage et de sous-apprentissage. Les graphes de la
Figure 108 montrent les comparaisons effectuées entre la version améliorée de l’algorithme
des k-moyennes proposée et la version classique. Les comparaisons ont été effectuées sur une
centaine de tests pour chaque exemple. On remarque que, non seulement le résultat obtenu par
la version améliorée est stable, mais aussi meilleur que la moyenne des 100 itérations de la
version simple de l’algorithme des k-moyennes.
Erreur moyenne relative
7
4.5
Nombre d’itération
5.5
Nb Centre = 8
4.5
Moyenne des erreurs
relatives obtenues sur k-moyennes simple
les 100 itérations avec 4
le k-moyennes simple.
Erreur moyenne relative
obtenue avec le k-moyennes 3.5
boosté
3
0 10 20 30 40 50 60 70 80 90 100
Nombre d’itération
4.5
Nb Centre = 19
Moyenne des erreurs k-moyennes simple
relatives obtenues sur
les 100 itérations avec
4
le k-moyennes simple.
Erreur moyenne relative
obtenue avec le k-moyennes
boosté 3.5
3
0 10 20 30 40 50 60 70 80 90 100
Nombre d’itération
200
Chapitre V : Evaluation des performances du réseau RRFR
On conclut cette partie avec des tests de comparaison entre les performances de deux types
de mémoire dynamique du RRFR et le réseau RFR statique (Figure 109). Comme dans les
situations précédentes, les performances du RRFR sont largement meilleures que celles du
RFR statique. Les performances obtenues par le réseau RRFR avec mémoire dynamique à
retour local de la sortie sont légèrement meilleures que le RRFR avec mémoire dynamique à
retour local de l’activation.
k-means boosté
15
RRFR avec bouclage de la sortie
RRFR avec bouclage de l'activation
data3
RFR statique
10
Erreur moyenne
relative (%)
Ecart type %
5 Temps apprentissage en
seconde
0
1 2 3
Figure 109. Comparaison des performances entre les deux types de mémoires dynamiques et
le réseau RFR statique sur une prédiction à (t + 1).
La figure ci-dessous présente les résultats de la prédiction obtenue avec le RRFR avec
neurone bouclé. La figure de gauche montre les prédictions à un horizon de cinq unités de
temps, et celle de droite sur un horizon de cinquante unités de temps. On remarque que dans
ce cas, le réseau de neurones a bien capitalisé la forme du signal.
Sortie mesurée
62 65
Sortie estimée
sortie mesurée
sortie estimée
60
58
60
56
54
55
52
50
50
48
46
45
50 100 150 200 250 300 100 150 200 250 300
-a- -b-
Figure 110. Résultat de la prédiction obtenue par le réseau RRFR avec mémoire dynamique à
retour local de la sortie. a) prédiction sur un horizon de cinq unités de temps b) prédiction
sur un horizon de cinquante unités de temps. Les entrées du réseau sont constituées des
valeurs de la commande u(t) et de la sortie y(t).
201
Chapitre V : Evaluation des performances du réseau RRFR
Nous avons montré que le réseau RRFR est capable d’apprendre des données temporelles
afin de prédire leur évolution. Cette capacité de prédiction est réalisée grâce à la mémoire
dynamique qui a été greffée au réseau RFR statique. Cette mémoire dynamique permet au
réseau RRFR d’hériter de la simplicité d’apprentissage et d’utilisation du réseau RFR tout en
ayant un caractère dynamique. Les temps d’apprentissage et de convergence du réseau RRFR
ne sont pas plus longs que ceux du RFR statique. Nous avons également proposé une version
améliorée de l’algorithme des k-moyennes. A la convergence de l’algorithme proposé, le
RRFR se trouve dans la zone de bonne généralisation. Cette version permet ainsi de garantir la
convergence du réseau vers un des meilleurs résultats avec une sensibilité réduite par rapport
au paramétrage de l’algorithme. La parcimonie de l’algorithme d’apprentissage est ainsi
améliorée.
Le troisième type de test que nous allons faire subir au réseau RRFR concerne
l’apprentissage à la reproduction de séquences temporelles. En d’autres termes, après avoir
appris au réseau de neurones une trajectoire temporelle bien définie, ce dernier devra pouvoir
la reproduire librement, ceci sans l’aide d’aucun mécanisme externe. Le moyen qui lui permet
d’apprendre et de reproduire de telles séquences temporelles est bien l’existence de la
mémoire dynamique du réseau de neurones. L’absence d’une telle mémoire des autres
architectures neuronales temporelles les rend incapables de produire ce genre de
comportement. Les réseaux récurrents sont donc les seuls à pouvoir apprendre à reproduire
toute une séquence temporelle. Au chapitre III, nous avons présenté un large état de l’art sur
les différentes architectures temporelles avec les techniques d’apprentissage les plus
employées.
Les techniques utilisées pour déterminer les paramètres du réseau de neurones lui
permettant de reproduire des sorties désirées à des instants désirés sont appelées « Trajectory
Learning ». Ces algorithmes permettent de faire apprendre au réseau une certaine trajectoire
spatio-temporelle. Nous avons présenté les deux techniques les plus utilisées au chapitre III :
la technique de rétropropagation du gradient de l’erreur dans le temps BPTT et le RTRL. La
complexité temporelle du RTRL peut toutefois le rendre extrêmement lourd. Quant à
l’algorithme BPTT, le réseau récurrent est transformé en un réseau feedforward par
dépliement. Cette phase de dépliement peut rendre la technique de la rétropropagation du
gradient très lourde et gourmande en ressource informatique. Les deux techniques ne
garantissent cependant pas le suivi du gradient total de l’erreur de toute une séquence
d’apprentissage puisque la trajectoire suivie par le réseau dans l’espace d’état dépend des
modifications apportées aux poids à chaque instant. Un autre aspect qui nous semble très
important est directement lié à la différence structurelle qui existe entre les architectures
Globalement Récurrente Globalement Feedforward et Localement Récurrente Globalement
Feedforward (GRGF et LRGF). Dans une architecture GRGF, une erreur de sortie du réseau
202
Chapitre V : Evaluation des performances du réseau RRFR
de neurones peut être réinjectée à l’entrée du réseau et donc avoir des répercutions sur les
nouvelles réponses du réseau (par exemple les architectures de Jordan, Elman, Moakes,
Miyoshi présentées au chapitre III). Par contre, dans un réseau LRGF, la récurrence n’est
tolérée qu’au sein du neurone lui même. Le réseau est donc vu globalement comme un réseau
Feedforward. Les erreurs de sortie du réseau ont donc de moindres répercutions que pour un
réseau GRGF. Nous allons voir dans cette partie que, grâce à la récurrence locale, la mémoire
dynamique du RRFR permet de transformer le problème de reproduction de séquences en un
problème d’interpolation linéaire.
Pour faire apprendre au réseau RRFR à reproduire des séquences temporelles réelles, nous
allons exploiter son comportement dynamique. Grâce à la récurrence locale des neurones
d’entrée, le réseau RRFR est capable de garder une trace d’une excitation externe, soit
indéfiniment dans le temps (pour un comportement de mémorisation) soit provisoirement
(pour un comportement d’oubli). Nous allons exploiter ce comportement d’oubli de manière à
transformer le problème de reproduction de séquences temporelles en un simple problème
d’interpolation linéaire. En effet, si l’on prend le cas du neurone bouclé36, son évolution après
une excitation externe est la suivante :
y (t ) = f ( wii y (t − 1) ) [194]
f (.) est la fonction d’activation du neurone bouclé (sigmoïde) avec la condition initiale
suivante :
y (0) = 1 [195]
N
h ( y (t ) ) = ∑ wnφ ( y (t ) − µn ) [196]
n =1
Φ.w = ζ [197]
36
Le raisonnement est tout à fait similaire pour le neurone à retour local de l’activation.
203
Chapitre V : Evaluation des performances du réseau RRFR
w = Φ-1 .ζ [198]
Nous avons établi deux tests du réseau RRFR sur l’apprentissage de la séquence chaotique
Mackey-Glass et la séquence de commande du problème du four à gaz précédent.
Le premier test du réseau RRFR est celui d’apprendre à reproduire une séquence finie de la
série chaotique Mackey-Glass. Le but recherché ici est d’apprendre parfaitement à faire une
association entrée-sortie du réseau de neurones. En d’autres termes, on force délibérément le
réseau à se trouver en situation de sur-apprentissage. Tous les points d’entrée au réseau seront
donc mémorisés en tant que prototypes. Le calcul des rayons d’influence est réalisé par la
technique du RCE. La matrice Φ étant obtenue et connaissant le vecteur de sortie ζ , il ne
reste plus qu’à déduire le vecteur de pondération w par l’équation [198]. La figure ci-dessous
montre les résultats de l’apprentissage du réseau RRFR d’une séquence d’une longueur de 300
unités de temps. La figure de gauche présente les données réelles de la série temporelle. Ces
données ont servi à constituer le vecteur de sortie désirée ζ pour la phase d’apprentissage. La
figure de droite présente la sortie du réseau RRFR après apprentissage. Cette sortie correspond
à l’évolution de la réponse du réseau RRFR face à l’évolution temporelle du neurone bouclé
(en rouge). Ainsi, à chaque excitation externe, le réseau évoluera librement en reproduisant
les 300 valeurs de la série temporelle apprise. L’erreur de reproduction de la série temporelle
est quasiment nulle.
37
D’après l’étude faite au chapitre précédent.
204
Chapitre V : Evaluation des performances du réseau RRFR
1.2 1.2
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
Sortie Réelle
0 0
-0.2 -0.2
0 50 100 150 200 250 300 0 50 100 150 200 250 300
-a- -b-
Figure 111. Apprentissage du réseau RRFR à reproduire les 300 premières valeurs de la série
Mackey-Glass, a) données réelles de la série, b) sortie du réseau RRFR avec l’évolution de la
sortie du neurone bouclé après excitation.
Nous avons effectué le même test du réseau RRFR sur la reproduction d’une séquence de
commande u(t) de l’application du four à gaz, décrite précédemment. Nous avons testé cette
fois-ci les deux types de mémoires dynamiques : neurone à retour local de la sortie et neurone
à retour local de l’activation. Les résultats du test sont présentés sur la Figure 112 : celle de
gauche présente les résultats du RRFR avec neurone bouclé, et celle de droite, le réseau RRFR
avec neurone à bouclage de l’activation. Les deux types de mémoires arrivent à reproduire
remarquablement la séquence de commande à chaque excitation de la mémoire dynamique (à
chaque cycle de commande par exemple).
Cycle de commande
Cycle de commande
2 2
1 1
0 0
-1 -1
-2 -2
-3 -3
0 50 100 150 200 250 300 350 400 450 0 50 100 150 200 250 300 350 400 450
-a- -b-
Figure 112. Apprentissage du réseau RRFR de la commande u(t) du problème du four à gaz,
a) RRFR avec neurone bouclé, b) RRFR avec neurone à retour local de l’activation.
205
Chapitre V : Evaluation des performances du réseau RRFR
V.5. Conclusion
Dans ce chapitre nous avons testé les propriétés dynamiques du réseau RRFR sur les trois
types d’application des réseaux de neurones en surveillance industrielle dynamique : la
reconnaissance de séquences temporelles, la prédiction temporelle et la reproduction de
séquences temporelles. Tout au long de ces tests, nous avons comparé les deux types de
mémoire dynamique du réseau RRFR afin d’évaluer les performances de chacune d’elles.
Après tous les tests effectués, nous avons constaté que leurs performances sont comparables.
Nous choisissons d’adopter le neurone bouclé : neurone à retour local de la sortie. La raison
essentielle de ce choix est en grande partie due à la différence structurelle entre les deux
neurones récurrents. En effet, la récurrence du signal se situe avant la non-linéarité de la
fonction d’activation pour le neurone à retour local de l’activation, et se situe après cette non-
linéarité pour le neurone à retour local de la sortie. Cette différence de structure permet au
neurone à retour local de la sortie d’intégrer la non-linéarité des données d’entrée dans sa
prise en compte de la dynamique de ces données, puisque la fonction d’activation sigmoïde
se trouve à l’intérieur du cycle de récurrence du neurone.
Grâce à la récurrence locale au niveau des neurones de la couche d’entrée, le RRFR profite
de toute la simplicité du processus d’apprentissage procurée par sa partie statique (réseau RFR
classique) et les performances et simplicités d’utilisation des architectures LRGF. Le premier
test montre que le réseau RRFR est capable d’apprendre des séquences d’un Système à
Evénements Discrets avec la simplicité de l’algorithme RCE. Sa mémoire dynamique lui
permet également de caractériser une séquence réelle (palier de dégradation). Le réseau RRFR
est capable de dissocier plusieurs paliers de dégradation et aussi d’écarter les pics de fausses
alarmes. Une dégradation précoce d’un paramètre d’un équipement à surveiller peut alors être
détectée avant que le signal n’ait atteint le seuil d’alarme.
Le deuxième test du RRFR sur la prédiction temporelle a été concluant. Deux exemples ont
servi de test et validation des propriétés dynamiques du RRFR obtenues grâce à la récurrence
locale des connexions. L’apprentissage du réseau RRFR se compose de deux partie : une
partie qui permet de paramétrer la mémoire dynamique du réseau (couche d’entrée). Celle-ci
est effectuée a priori afin d’avoir une mémoire dynamique la plus longue possible. La
deuxième partie concerne la phase de paramétrage de la mémoire statique (paramètres des
neurones gaussiens qui sont les prototypes et les rayons d’influence). Ces paramètres doivent
être calculés minutieusement si l’on veut garantir une bonne généralisation au réseau de
neurones. Nous avons proposé une version améliorée de la technique des k-moyennes qui
permet de déterminer les centres les plus représentatifs d’une population d’apprentissage
garantissant ainsi une bonne généralisation au réseau RRFR.
Le troisième test du réseau RRFR concerne le problème de reproduction de séquences
temporelles. Contrairement aux autres architectures de réseaux récurrents, le réseau RRFR
transforme un problème de reproduction de séquences en un problème d’interpolation
linéaire. Dans ce type d’application, l’objectif recherché est d’apprendre à reproduire
206
Chapitre V : Evaluation des performances du réseau RRFR
207
208
209
Chapitre VI
211
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Chapitre VI
Développement d’un système de surveillance temps réel
accessible à distance par un serveur WEB
VI.1. Introduction
L’étude effectuée tout au long de ce rapport nous a mené à proposer une architecture de
réseau de neurones dynamique (RRFR) pour des applications de surveillance industrielle.
Nous avons montré quels peuvent être les avantages d’utiliser un réseau de neurones par
rapport aux autres techniques (qui se basent sur l’existence d’un modèle formel de
l’équipement, comme les techniques de l’automatique) afin de remplir les fonctions de
détection et de diagnostic des défaillances. Notre choix du type de réseau de neurones s’est
porté sur les Réseaux à Fonctions de base Radiales pour leur flexibilité et leur facilité
d’utilisation. Nous nous sommes également penché sur l’étude des réseaux de neurones
temporels car la prise en compte de la dynamique des signaux de surveillance (le passé d’un
signal capteur) est un critère important en surveillance. Notre choix s’est porté sur les
architectures LRGF non seulement pour leur simplicité d’apprentissage et de mise en œuvre
mais également pour l’efficacité de leur aspect dynamique. Plus particulièrement, nous avons
greffé une mémoire dynamique à base de neurones à retour local de la sortie au réseau RFR
statique. Au chapitre précédent nous avons testé avec succès le réseau RRFR sur les trois
types d’application des réseaux de neurones pour la surveillance dynamique industrielle. Dans
ce dernier chapitre, nous allons montrer que l’architecture RRFR proposée (Figure 113) peut
se montrer très intéressante de par sa simplicité pour une exploitation de surveillance
d’équipements industriels en temps réel entièrement paramétrable à distance via le Web. En
effet, nous avons développé une solution originale concernant l’implémentation du réseau
RRFR dans un Automate Programmable Industriel (API). Cette solution de surveillance
neuronale embarquée permet de profiter de la rapidité du traitement des données et de la
sûreté de fonctionnement de l’automate industriel.
212
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Fonction Sigmoïde
Radial Basis Function
Entrée w11
I1
Neurones de sortie
linéaires
w22
I2
w33
I3
A1 A2 A3
Mémoire Mémoire Couche de
dynamique statique décision
Figure 113. Réseau Récurrent à base de Fonctions Radiales avec ses deux mémoires
(dynamique et statique) embarqué dans l’automate programmable.
213
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Nous avons dû pour cela « décomposer » le réseau RRFR en fonctions élémentaires pour
qu’il soit interprétable en langage automate. En effet, le langage de programmation automate
(step7 pour les API Siemens) représente un langage de bas niveau et nécessite une certaine
restructuration du réseau RRFR.
La solution que nous avons développée comporte deux parties :
• Une partie surveillance temps réel en ligne : le réseau RRFR chargé dans l’unité
centrale de l’automate traite les variables de surveillance et donne sa réponse en
temps réel,
• Une partie apprentissage et affichage des résultats de surveillance à distance : le
réseau de neurones chargé dans l’automate devra être entièrement mis à jour par un
expert distant via le coupleur web. L’aspect évolutif du programme neuronal en
langage automate est donc un critère important dans la mise en oeuvre de notre
solution de surveillance en ligne. Le deuxième critère est que le programme soit
utilisable par un grand nombre de clients, cela pour minimiser les frais de main
d’œuvre de développement. L’aspect flexibilité du programme neuronal est donc
un deuxième critère important à prendre en compte par notre solution.
Un premier prototype de cette maquette a été présenté lors d’un salon sur les
microtechniques38. L’intérêt de la société AVENSY Ingénierie étant de commercialiser cette
solution de surveillance neuronale temps réel, les deux premières étapes étaient bien
évidemment le dépôt d’un brevet et le lancement d’une étude de marché.
Ce chapitre est structuré essentiellement en deux parties. Dans la première partie, nous
décrivons les différentes étapes qui nous ont conduits au choix de la solution proposée. Après
plusieurs concertations avec notre partenaire, nous avons abouti à une solution qui semble
s’adapter aux besoins actuels des entreprises industrielles. La deuxième partie de ce chapitre
est consacrée à la description de la solution retenue, en y associant une série de tests de
performance.
Avant de décrire la genèse de la solution proposée, nous allons rappeler les conditions que
doit remplir la configuration finale de surveillance imposées par AVENSY Ingénierie. Une
sorte de cahier des charges a donc été établi dont le contenu est :
• de pouvoir assurer une surveillance en temps réel,
38
14ème SALON INTERNATIONAL DES MICROTECHNIQUES, MICRONORA, Besançon 2002.
214
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
39
Dans notre application nous avons utilisé le réseau local industriel de SIEMENS appelé Profibus.
40
Ce format de fichier représente un format de donnés pour les protocoles TCP/IP.
215
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Suite à ces constatations, nous avons décidé d’abandonner cette configuration pour nous
pencher plutôt sur une deuxième idée qui est présentée au paragraphe suivant.
216
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Processus industriel
Figure 114. Schéma général de l’implémentation initiale du réseau RRFR pour une
surveillance à distance.
Afin de contourner les deux problèmes cités précédemment, nous avons opté pour une
solution de surveillance embarquée au niveau de l’automate. Le programme de surveillance
neuronal ne sera plus exécuté au niveau du PC distant mais chargé dans la CPU de l’automate.
Les variables de surveillance seront dans ce cas traitées localement au niveau de l’API. Une
surveillance en temps réel est donc possible. Le système pourra même agir sur l’équipement
en cas de panne dangereuse (défaillance critique). L’outil que nous proposons représente un
outil de surveillance et d’aide à la décision. Le coupleur WEB permet dans ce cas non
seulement d’avoir une Interface Homme Machine distante, mais également de mettre à jour le
217
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
réseau de neurones depuis une connexion TCP/IP : apprentissage à distance. Les deux
programmes (IHM + Apprentissage) sont programmés en langage JAVA. Le choix de ce type
de langage de programmation est motivé essentiellement par les deux avantages suivants :
La Figure 115. montre l’architecture générale d’une telle configuration avec les différents
postes distants. Une base de données mémorisant toute l’évolution du système à surveiller est
créée et mémorisée dans le coupleur WEB de l’API. Cette base de données contient les
variables de surveillance horodatées ainsi que les différentes réponses du réseau de neurones.
Un expert distant peut ainsi se baser sur cet historique pour mettre à jour les paramètres du
réseau de neurones embarqué.
Pour aboutir à cette configuration, trois choix étaient alors possibles (comme le montre le
Tableau 13) :
Tableau 13. Les différentes possibilités de mise en œuvre d’une application de surveillance en
ligne.
218
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
écarté cette solution pour cause de lourdeur de mise à jour du réseau de neurones embarqué
dans l’automate. A chaque mise à jour, l’expert doit reprogrammer le réseau de neurones avec
le langage step7 et le recharger localement dans l’automate avec une console de
programmation. Cet expert devra certainement avoir quelques connaissances en réseaux de
neurones afin de pouvoir interpréter en langage step741 les paramètres d’apprentissage. Ceci
complique considérablement la mise en œuvre d’une telle application dans un environnement
industriel.
• Solution 3 : La troisième solution que nous avons exploitée est celle décrite au début
de ce paragraphe (voir Figure 115). La mise à jour du réseau de neurones (apprentissage) est
gérée par le programme JAVA localisé au niveau du coupleur WEB. L’expert responsable du
paramétrage du réseau de neurones ne sera plus obligé de le reprogrammer en step7 ni même
de se déplacer au niveau de l’automate pour le recharger dans la CPU (par réseau local
industriel). Toute la phase de mise à jour s’effectue par connexion TCP/IP via le coupleur
WEB. La réussite d’une telle configuration nécessite une structure du programme neuronal
évolutive et flexible. Au paragraphe suivant, nous allons développer d’avantage cette solution
qui semble être la plus intéressante.
41
Qui est un langage de programmation bas niveau correspondant aux automates SIEMENS.
219
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Suivi de l’évolution de
l’équipement en temps réel
Réponse du réseau de
neurone
Procédé industriel
Figure 115. La solution choisie pour une application de surveillance en ligne avec
apprentissage à distance via le protocole de communication Internet TCP/IP. Le programme
de surveillance est localisé au niveau de l’unité centrale de l’automate. Le coupleur Web
permet d’ouvrir la liaison à un échange de données et d’information entre l’automate qui
surveille la machine et un expert distant, à travers une couche TCP/IP. Cet expert peut très
bien être situé à l’intérieur de l’entreprise (réseau interne) ou bien à l’extérieur de
l’entreprise (réseau Internet).
220
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
VI.3.1. Introduction
L’architecture globale de la solution proposée est illustrée par la Figure 116. Une fois
chargée dans la CPU de l’automate, la structure du programme neuronal est capable d’évoluer
en étant supervisée par un expert distant. Toute la phase d’apprentissage est gérée via le
coupleur WEB par la connexion TCP/IP. Le programme JAVA chargé dans le coupleur
permet de faire la liaison entre l’automate et l’expert. Pour ce faire, deux fonctions de base
sont nécessaires : une fonction de lecture et une fonction d’écriture. Ces deux fonctions sont
fournies par le constructeur42 et permettent donc de communiquer avec l’automate soit par
réseau interne à l’entreprise (Intranet) soit par réseau externe (Internet). Les conditions de la
structure du programme neuronal en step7 qui nous ont été imposées par notre partenaire
industriel sont les suivantes :
• Evolutif : La structure doit être entièrement évolutive via le coupleur WEB.
L’utilisateur n’aura pas à reprogrammer et recharger le réseau de neurones dans la
CPU de l’automate. Cette facilité d’utilisation est un critère très important et très
apprécié par les industriels qui ne possèdent pas forcément de connaissances sur
l’outil neuronal. Le paramétrage du réseau de neurones doit être entièrement
transparent à l’utilisateur. Cette solution ouvre des perspectives vers une
externalisation de la maintenance via le web. En effet, l’expert distant pourra suivre
les différentes évolutions des variables de surveillance ainsi que les réponses du
réseau de neurones chargé de la surveillance de l’équipement. Il pourra également le
paramétrer par connexion TCP/IP.
• Flexible : La structure du programme neuronal doit être standard pour un équipement
quelconque. C'est-à-dire que le programme doit être capable de s’adapter à un nombre
quelconque de variables de surveillance (nombre de sorties capteur) et aussi de
s’adapter à plusieurs types de variables de surveillance (entier, double entier, booléen,
etc.). Cette contrainte a pour exigence une plus grande ouverture au maximum de
clients potentiels à la société AVENSY. Le développement d’un produit générique
coûterait moins cher qu’un produit fait sur mesure à un client précis.
42
Dans notre application, les deux fonctions ont été fournies par SIEMENS.
221
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Connexion TCP/IP
Navigateur WEB +
Console JAVA
Base de Données et
historique de panne
Fonction lecture
Profibus
Step7 Fonction écriture
JAVA
Programme neuronal dans
la CPU de l’automate
Coupleur WEB de
l’Automate
43
Nous ne nous attarderons pas sur le détail de ces deux composants. Pour plus d’explication, se référer à la
documentation technique du constructeur SIEMENS.
222
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Fonction de lecture
Données capteurs
Fonction d’écriture
JAVA
Figure 117. Organigramme du réseau RRFR tel qu’il a été chargé dans la CPU de
l’automate. La communication avec le coupleur Web se fait à travers des variables situées
dans le composant appelé DB.
Les deux critères de flexibilité et d’évolutivité sont obtenus grâce à l’utilisation de variables
de type « structure » pour chaque DB des différentes couches du réseau de neurones. Chaque
variable de type structure contient une entête où figurent certaines informations. Ces
informations sont exploitées par des pointeurs et servent à identifier l’adresse de chaque
223
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
paramètre du réseau de neurones. Par exemple, la Figure 118 présente la DB N°2 de la couche
de neurones gaussiens. Les paramètres de cette couche sont :
• le nombre de neurones gaussiens qui composent cette couche,
• le rayon d’influence ainsi que le vecteur centre de chaque prototype,
• la réponse ainsi que la classe de sortie de chaque neurone gaussien.
Ces paramètres sont mémorisés dans une sous-structure de la structure principale. Chaque
sous-structure représente les paramètres d’un seul neurone gaussien. L’entête de la structure
principale contient :
• l’adresse (en octet) de début de la première sous-structure (premier neurone
gaussien) : StartAddress,
• la longueur (en octet) de chaque sous-structure : Length,
• le maximum de sous-structures que peut contenir toute la structure principale :
MaxCount,
• le nombre de structures qui ont été créées (nombre de neurones gaussiens) : Count.
On peut ainsi retrouver l’adresse absolue de tous les paramètres du nème neurone gaussien
par l’expression suivante :
Tous les paramètres du réseau de neurones peuvent alors être localisés avec précision. Des
procédures d’incrémentation et d’adressage ont été programmées dans chaque FC avec
comme base l’équation [199]. La condition de fin d’incrémentation pour chaque fonction FC
est donnée par la valeur Count de la DB correspondante. Cette valeur représente le nombre de
neurones par couche.
224
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Entête de la
structure
principale
Paramètres d’un
neurone gaussien
(sous-structure)
225
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
226
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Apprentissage
Coupleur WEB
JAVA
Lecture des réponses
Lecture des variables du réseau de neurones
de surveillance
Ecriture des paramètres
d’apprentissage
La Figure 120 montre l’interface de visualisation pour un utilisateur passif c'est-à-dire sans
pouvoir d’écriture dans l’automate. En d’autres termes, cette interface ne sert qu’à lire les
données de surveillance. Un tel degré de sécurité est nécessaire si l’on veut ouvrir l’accès au
programme de surveillance à des personnes qui ne sont pas forcément qualifiées pour la phase
de paramétrage du programme neuronal (phase d’apprentissage). Cette délicate phase
d’apprentissage est gérée par une interface dédiée à un expert responsable de la mise à jour du
programme de surveillance (Figure 121). Cet expert est donc autorisé à écrire dans le
programme neuronal de l’automate et ainsi paramétrer le réseau RRFR à distance.
227
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Affichage de l’historique
Figure 120. Interface de visualisation (IHM) pour un utilisateur sans pouvoir (passif). Ce
dernier ne peut que visualiser les valeurs des paramètres de surveillance, le mode de
fonctionnement ainsi que l’historique de l’équipement.
Paramètres du
réseau
Paramètres
d’apprentissage
Paramètres de la
couche d’entrée
Choix du mode
d’apprentissage
Figure 121. Interface de visualisation (IHM) pour utilisateur avec pouvoir (expert actif). Ce
dernier est la seule personne à pouvoir configurer le programme neuronal chargé dans
l’unité central de l’automate. Cet expert peut se trouver au sein même de l’entreprise (réseau
local) ou carrément à l’extérieur de l’entreprise.
228
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Nous avons évalué et testé les performances du programme neuronal sur une maquette
comprenant un automate SIEMENS avec :
• une CPU de type 414-2,
• un coupleur Web de type CP 443-1,
• un variateur de type MICROMASTER 4,
• un moteur à courant continu.
CPU (414-2)
Variateur (Micromaster 4)
Coupleur Web
(CP 443-1)
Plusieurs temps de cycles pour plusieurs dimensions de réseaux de neurones ont été
évalués sur cette maquette. En fonction des différents temps d’exécution de chaque module du
programme neuronal, nous avons pu formaliser ce temps de cycle (Tc) par la relation suivante
avec une précision de 5 % :
229
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Tableau 14. Différents temps de cycle en fonction de plusieurs dimensions du réseau RRFR.
Un réseau de 5 neurones bouclés et 500 neurones gaussiens possède un temps de cycle
d’environ 80 ms. Cela dépend de la nature du problème, mais l’on peut déjà supposer
qu’avec une telle dimension on peut obtenir de bons résultats (classification ou
approximation de fonction).
Cette relation entre la dimension du réseau RRFR et le temps de cycle est aussi représentée
par le graphe ci-après :
Nombre de
neurones gaussiens
Nombre de
neurones bouclés
Figure 123. Temps de cycle du programme neuronal step7 en fonction du nombre de neurones
bouclés et de neurones gaussiens.
230
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
D’après ces résultats, un réseau RRFR avec 10 neurones bouclés et 1000 neurones
gaussiens possède un temps de cycle de 234 ms. Ceci représente une dimension d’un réseau
RRFR assez importante rarement obtenue en pratique (que ce soit en classification ou en
approximation de fonctions). On peut penser qu’une dimension moyenne d’un réseau RRFR,
avec laquelle on peut obtenir de bons résultats44, est constituée d’environ 5 neurones bouclés
et 500 neurones gaussiens. Une telle dimension possède un temps de cycle de 79 ms. Sauf
pour des processus extra rapides, un temps de cycle de cet ordre (environ 80 ms) représente
une perspective intéressante pour des applications de surveillance temps réel de processus
industriel. Néanmoins, en fonction de l’application, on peut avoir deux cas de figure : une
situation où le temps de cycle du programme neuronal est inférieur au temps d’acquisition.
Dans ce cas, une synchronisation entre les deux cycles est nécessaire. Par contre, si le temps
d’acquisition est plus rapide que le temps de cycle du programme neuronal, on perd dans ce
cas une partie des données de surveillance. Nous allons étudier plus en détail ces deux
situations.
44
Par exemple la carte IBM/ZISC (Zero Instruction Set Computer), qui représente une implémentation Hard
d’un réseau RFR possède 576 neurones gaussiens. (Zemouri et al., 2001)
231
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Cycle du réseau de
Acquisition d’une Valeur du paramètre neurone (automate)
Valeur réelle pour le réseau de
du paramètre nouvelle valeur
neurone
Figure 124. Conséquences d’une non synchronisation entre le temps de cycle de l’automate et
le temps de réponse de l’acquisition dans le cas où le programme automate est plus rapide
que le cycle d’acquisition. Le réseau RRFR perd de sa dynamique dans le cas où son temps de
cycle est inférieur au temps de réponse de l’acquisition.
232
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Cycle réseau de
Valeur réelle Acquisition de neurone (automate)
du paramètre la valeur du
paramètre
Temps
Figure 125. Synchronisation entre temps de cycle de l’automate et temps d’acquisition du
paramètre à surveiller.
Evolution de la mémoire
dynamique du réseau RRFR
Cycle du réseau de
neurone (automate)
233
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
1 0 1 Trame d’acquisition
Evolution de la mémoire
dynamique du réseau RRFR Cycle du réseau de
neurone (automate)
Figure 127. Synchronisation entre le temps de cycle du réseau de neurones dans l’automate
avec le cycle d’acquisition. La mise à jour de la mémoire dynamique se fait à chaque cycle
d’acquisition.
La deuxième situation est celle où le temps de cycle du réseau de neurones est plus grand
que la période d’acquisition. Dans ce cas, le problème de synchronisation entre les deux
périodes ne se pose plus. Par contre, cette situation provoque un autre problème qui est celui
de la perte d’informations. En effet, on peut voir sur la Figure 128, qu’entre deux cycles
automate, trois valeurs du paramètre à surveiller ne sont pas prises en compte par le réseau de
neurones. Pour ce dernier, la valeur du paramètre évolue uniquement entre les points a,b,c,d.
Le point (b) est plutôt vu par le réseau comme un brusque changement plutôt que faisant parti
d’une évolution (dégradation par exemple). Le réseau RRFR est ainsi incapable de caractériser
la dynamique du signal qui est plus rapide que celle du programme neuronal.
234
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
Valeur du paramètre
pour le réseau de
neurone
Valeur réelle b
du paramètre d
a c
Cycle du réseau de
neurone (automate)
Figure 128. Cas où le temps de cycle du programme automate est plus lent que le cycle
d’acquisition. Cette situation provoque une perte d’information. Un certain nombre de
valeurs du paramètre entre deux cycles automate ne sont pas prises en compte par le réseau
de neurones.
Pour éviter cette situation où le réseau RRFR est plus lent que le cycle d’acquisition, il
faudrait diminuer le nombre de neurones gaussiens pour diminuer le temps de cycle (voir
Tableau 14). En d’autres termes, connaissant le nombre de capteurs (nombre de neurones
d’entrée) que l’on veut surveiller ( N ent ) ainsi que le temps d’acquisition ( Tacquisition ), on peut
estimer grâce à l’équation [201], le nombre maxi de neurones gaussiens ( N RBFmax ) pouvant être
mémorisé par le réseau RRFR afin d’éviter cette situation, par l’équation ci-dessous :
Tacquisition
N ent < [203]
0.241
qui représente le nombre maximum de neurones d’entrée pouvant être utilisés pour ne pas
avoir un temps de cycle du programme automate supérieur à celui du cycle d’acquisition.
235
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
VI.5. Conclusion
Dans ce chapitre nous avons présenté une solution d’exploitation du réseau RRFR pour des
applications de surveillance industrielle en temps réel. L’idée de base est de mettre au point
un traitement en temps réel des variables de surveillance directement à proximité de
l’équipement industriel, c'est-à-dire d’exploiter une solution de surveillance par Automate
Programmable Industriel (API). Le principe de cette solution est donc d’avoir un programme
neuronal en langage automate chargé dans l’unité centrale de l’automate pour traiter les
données capteurs. La deuxième partie de cette solution, qui est tout aussi importante que la
partie traitement, concerne la phase d’apprentissage et de mise à jour du réseau RRFR. Cette
deuxième phase est entièrement gérée à distance par un expert responsable de la mise à jour
du réseau RRFR embarqué dans l’automate. Cette communication avec un expert distant est
obtenue grâce au coupleur Web de l’automate. Ce coupleur joue le rôle d’une jonction entre la
couche de communication TCP/IP et l’unité centrale de l’automate (CPU). Nous avons donc
structuré le programme automate pour qu’il puisse être entièrement évolutif à distance, c'est-
à-dire permettre à un expert distant d’effectuer un apprentissage par connexion TCP/IP.
Le réseau RRFR s’est montré performant pour ce type d’exploitation. Ceci est dû en grande
partie à la simplicité de son architecture. Nous pouvons affirmer que les deux choix que nous
avons effectués, en l’occurrence le choix du réseau RFR (pour la partie statique du traitement)
ainsi que celui des architectures localement récurrentes (LRGF pour la partie dynamique), ont
été très avantageux. Une autre architecture récurrente, comme un PMC globalement récurrent
aurait été plus compliquée à embarquer dans un automate et aurait certainement pris beaucoup
plus de mémoire dans la CPU. La gestion des connexions d’un tel réseau récurrent est
beaucoup plus compliquée qu’une architecture LRGF.
Nous avons également effectué des tests de performance par rapport à plusieurs
dimensions du réseau RRFR embarqué. A partir des quantifications des différents temps de
cycles du programme neuronal, nous considérons que cette solution ouvre des perspectives
très intéressantes en traitement temps réel des variables de surveillance à la seule condition de
bien veiller à ce que le nombre de neurones gaussiens soit bien choisi pour ne pas avoir un
cycle d’acquisition plus rapide que le cycle du programme neuronal dans l’automate. Ce
nombre maximum a été quantifié en fonction du nombre des variables à surveiller et en
fonction du cycle d’acquisition.
Le deuxième avantage de cette solution est la robustesse industrielle des architectures API.
En effet, contrairement aux PC qui ne sont pas à l’abri d’un bug impromptu (même les PC
industriels qui sont censé être plus robustes que les PC personnels), un automate est
généralement conçu pour fonctionner dans un environnement industriel hostile avec plus de
fiabilité et de robustesse.
L’aspect accès aux données du programme de surveillance et apprentissage à distance du
réseau RRFR permet d’ouvrir une perspective très intéressante d’externalisation de la
236
Chapitre VI : Système de surveillance temps réel accessible à distance par un serveur WEB
237
238
239
Conclusion Générale & Perspectives
Conclusion Générale & Perspectives
241
Conclusion Générale & Perspectives
Les travaux de recherche présentés dans cette thèse portent sur l’étude des réseaux de
neurones artificiels pour la surveillance dynamique des systèmes de production industriels.
Dans le cadre de la surveillance, notre étude concerne la détection de défaillances et le
pronostic industriel. La surveillance classique a surtout tendance à traiter les variables d’une
façon statique. Dans ce cas, la dynamique du système à surveiller n’est pas prise en compte,
contrairement à la surveillance dynamique qui, elle, est capable par exemple de reconnaître
une fausse alarme. Le pronostic quant à lui, correspond à la détection d’une dégradation avant
que le système n’atteigne le seuil de défaillance. Dans ce sens, nous avons proposé une
nouvelle architecture de Réseau Récurrent à Fonctions de base Radiales (RRFR). Le RRFR
profite des performances ainsi que de la simplicité d’apprentissage des réseaux RFR, avec
l’efficacité dynamique et la facilité de paramétrage des architectures localement récurrentes.
Nous avons ainsi « greffé » une mémoire dynamique au réseau RFR. Pour le calcul des
paramètres des fonctions gaussiennes (centre et écart type), nous avons proposé une version
améliorée de la technique d’apprentissage des k-moyennes qui est moins sensible à la phase de
paramétrage de l’algorithme. Une interprétation du réseau RRFR en langage automate a été
présentée afin de proposer une solution d’exploitation de surveillance en temps réel
entièrement paramétrable à distance via une connexion TCP/IP.
Les principales contributions de cette thèse sont regroupées en trois parties. Une première
partie regroupe l’état de l’art autour de trois points d’intérêts en étroite corrélation :
Différentes méthodologies de surveillance des systèmes de production (Chapitre I).
Application des réseaux de neurones à la surveillance industrielle (Chapitre II).
Différentes architectures de réseaux de neurones temporels (Chapitre III).
La deuxième partie de notre travail, articulée autour des deux chapitres suivants, synthétise
l’essentiel de notre contribution scientifique. Nous avons ainsi proposé (Chapitre IV) une
242
Conclusion Générale & Perspectives
nouvelle architecture d’un réseau de neurones dynamique pour la surveillance industrielle (le
RRFR). Un ensemble de tests comparatifs ont été appliqués sur le nouvel outil (Chapitre V),
en utilisant quelques benchmarks significatifs reliés aux domaines de la surveillance
dynamique. Afin de renforcer la phase délicate de paramétrage du réseau de neurones (phase
d’apprentissage), l’étape de test nous a permis de mettre en évidence la nécessité de
développer une version améliorée de l’algorithme des k-moyennes qui possède des
performances meilleures que celles de la version simple :
Proposition d’un réseau de neurones dynamique (RRFR) avec une étude et une
simulation des performances de sa mémoire dynamique (Chapitre IV).
Evaluation des performances du réseau (RRFR) proposé sur des problématiques de
surveillance dynamique ainsi que la présentation de l’algorithme d’apprentissage
proposé (Chapitre V).
La troisième partie concerne l’exploitation industrielle de l’idée de la thèse. Cette étude
a été menée en collaboration avec la société AVENSY Ingénierie, co-auteur du brevet
d’invention déposé et directement intéressée par l’exploitation commerciale de cette solution.
Il s’agit de la démarche d’adaptation du RRFR dans le cadre industriel de la e-maintenance,
de l’étude du système de surveillance dans sa configuration la plus appropriée, ainsi que de la
phase de prototypage du système :
Développement d’une solution de surveillance intelligente distante accessible à
distance par un serveur Web (Chapitre VI).
La première démarche entreprise dans cette étude correspond à l’élaboration d’un lexique
des définitions des mots clés liés à la surveillance industrielle. En effet, pendant la phase de
recherche bibliographique, nous avons constaté certaines divergences entre les définitions du
domaine. Nous avons donc essayé de regrouper les définitions les plus représentatives qui
correspondent avec notre point de vue.
Nous avons donné un état de l’art aussi large que possible sur les travaux de surveillance
par réseaux de neurones artificiels. Nous les avons classés en deux catégories : la première est
celle où les réseaux de neurones artificiels sont utilisés comme outil d’approximation de
fonctions (pour le pronostic). Dans la deuxième catégorie, les réseaux de neurones sont
utilisés pour résoudre le problème de la surveillance par reconnaissance des formes (détection
des modes). Les deux architectures neuronales les plus utilisées en surveillance sont le
Perceptron Multi Couches (PMC) avec sa représentation globale de son espace de données et
les Réseaux à Fonctions de base Radiales (RFR) avec une représentation plutôt locale de cet
espace. Cette différence structurelle a été pour nous un facteur décisif concernant le choix de
l’architecture à adopter pour le développement d’une solution de surveillance en temps réel.
243
Conclusion Générale & Perspectives
Nous avons présenté l’ensemble des techniques d’apprentissage des deux réseaux de
neurones (PMC et RFR). La technique d’apprentissage du PMC (l’algorithme de
rétropropagation du gradient de l’erreur) est beaucoup plus lourde que les techniques
existantes pour l’apprentissage des réseaux RFR (RCE, DDA, k-moyennes).
La prise en compte du facteur temps pour la surveillance dynamique des systèmes de
production nous a orienté vers l’étude des différentes architectures de réseaux de neurones
temporels. Le temps est pris en considération selon deux grandes familles : les réseaux de
neurones à représentation externe du temps et ceux à représentation interne. Pour la
représentation externe, un mécanisme externe au réseau de neurones est chargé de retarder les
données d’entrée pendant un certain temps. L’information temporelle est alors transformée en
une information spatiale. Les architectures de réseaux de neurones statiques peuvent alors être
utilisées. Par contre, dans la représentation interne du temps, le réseau de neurones est capable
de traiter le temps sans aucun mécanisme externe. Ces réseaux sont appelés réseaux de
neurones dynamiques. Parmi ces réseaux dynamiques, seuls les réseaux récurrents possèdent
une mémoire dynamique interne grâce à la récurrence des connexions. Nous avons alors
focalisé notre étude sur ces réseaux, en donnant quelques architectures connues de réseaux
récurrents, avec la façon dont est mené l’apprentissage. Malgré leur bonne performance, ces
algorithmes d’apprentissage souffrent d’une extrême lourdeur tant en terme de ressources
informatiques qu’en terme de temps de convergence.
A la fin de l’étude des réseaux de neurones temporels, l’architecture qui nous a le plus
séduit est celle des réseaux de neurones récurrents, la seule à posséder une mémoire
dynamique interne. Les réseaux récurrents sont capables de garder une trace interne d’un
événement passé. Par contre, leur apprentissage est extrêmement lourd et coûteux en temps.
Nous nous sommes alors posé la question suivante : pourquoi compliquer l’architecture d’un
réseau de neurones avec des récurrences globales quand on peut simplifier le réseau en
utilisant des récurrences locales ? Nous avons donc établi une étude des architectures
Localement Récurrentes Globalement Feedforward (LRGF). Nous avons, d’une part,
restructuré cette étude pour qu’elle soit en adéquation avec l’étude de l’ensemble des
architectures de réseaux temporels et, d’autre part, nous avons approfondi cette étude avec des
développements mathématiques et des tests de performances par simulation informatique.
La simplicité de ces réseaux réside dans le fait que la récurrence n’est autorisée qu’au sein
du neurone même. Deux types d’architectures localement récurrentes existent : architecture
LRGF avec retour de l’activation et LRGF avec retour de la sortie. A travers toute une étude
théorique approfondie avec des tests de simulation, nous avons constaté que les deux types
d’architectures LRGF possèdent des performances quasiment identiques. Nous avons
toutefois opté pour le neurone à retour local de la sortie (le neurone bouclé de Frasconi-Gori-
Soda). Les motivations de ce choix sont essentiellement dues au point du retour de la
244
Conclusion Générale & Perspectives
connexion : pour le neurone à retour local de l’activation, ce point de retour se situe avant la
non-linéarité du neurone alors que pour le neurone à retour local de la sortie, ce retour se
trouve après la non-linéarité. Cette différence structurelle peut engendrer des conséquences
dans la prise en compte de la non-linéarité d’un système. Une première perspective qui se
dégage serait d’approfondir l’étude (mathématique) de l’impact du point de retour du neurone
bouclé sur la prise en compte de la non-linéarité du signal d’entrée.
Le fruit de l’ensemble de l’étude est la proposition d’une architecture localement
récurrente basée sur les Réseaux à Fonctions de base Radiales (RFR). Le terme anglophone de
ces réseaux est Radial Basis Function Network (RBF). Le Réseau de neurones Récurrent à
Fonctions de base Radiales (RRFR) que nous avons proposé profite des avantages d’une
structure dynamique et de la simplicité de paramétrage des architectures LRGF ainsi que de la
facilité et de la flexibilité d’apprentissage des réseaux RFR. Le réseau RRFR se démarque
donc des autres architectures de réseaux récurrents essentiellement par sa simplicité de
paramétrage. Nous l’avons testé sur trois problématiques distinctes :
- reconnaissance de séquences temporelles (détection),
- prédiction temporelle (pronostic)
- reproduction de séquences temporelles (détection).
A travers un exemple simple d’un système à événements discrets (SED), nous avons
montré la simplicité avec laquelle le réseau RRFR est capable d’apprendre plusieurs
séquences booléennes simples. Sa capacité de généralisation locale lui permet de reconnaître
des séquences proches de celles apprises et de détecter des séquences inconnues. Ce type
d’application est très utile pour la surveillance d’un système à événements discrets. Le réseau
apprend à reconnaître des séquences de bon fonctionnement et à détecter des séquences de
dysfonctionnement connues. Deux séquences différentes possèdent deux prototypes
différents. Donc chaque séquence de dysfonctionnement possède sa propre cause. L’expert
pourra ainsi diagnostiquer la cause de chaque séquence de dysfonctionnement et faire
apprendre le prototype correspondant au réseau RRFR. La limite du réseau RRFR dans ce type
d’application réside dans son incapacité d’apprendre des séquences complexes, c'est-à-dire
des séquences où un événement se produit plus d’une fois.
En surveillance de paramètres de type réel, l’apprentissage de séquences temporelles peut
servir à la détection précoce d’un palier de dégradation et à éliminer les pics de fausse alarme.
Nous avons également testé le réseau RRFR sur la reconnaissance des types de collision d’un
bras de robot. Dans cet exemple, chaque type de collision est caractérisé par une évolution
temporelle de trois mesures de force.
Le deuxième test du réseau RRFR concerne la prédiction temporelle. Nous avons choisi
deux exemples de prédictions temporelles : la série temporelle chaotique Mackey-Glass et
l’exemple de prédiction de la sortie en concentration de CO2 d’un four à gaz. Nous avons
amélioré les performances de prédiction du réseau RRFR grâce à une version évoluée de
l’algorithme d’apprentissage des k-moyennes. En effet, la version classique de cet algorithme
245
Conclusion Générale & Perspectives
246
Conclusion Générale & Perspectives
Perspectives
1. Perspectives scientifiques
La remarque fondamentale que nous pouvons faire est que, malgré les résultats grandement
surprenants et prometteurs obtenus par les réseaux de neurones artificiels, ces derniers restent
tout de même assez loin d’égaler les capacités sensorielles et, surtout, de raisonnement d’un
expert humain. Nous avons vu que les réseaux de neurones en général et le RRFR en
particulier sont très efficaces dans la détection d’une défaillance, détection d’une dégradation
(palier de dégradation), modélisation et prédiction d’une évolution temporelle d’un signal non
linéaire ; par contre, la fonction de diagnostic est à notre avis une tâche très complexe et ne
peut être qu’en partie résolue par la technique de reconnaissance des formes. La raison
principale est que l’expert humain dans sa mission de tenter de diagnostiquer la cause d’une
défaillance de toute une machine ou d’un sous ensemble de cette machine, fait souvent appel
à d’autres informations que les valeurs quantitatives (les données capteurs). Il utilise par
exemple : son ouïe pour reconnaître les bruits anormaux d’une machine, son odorat pour
détecter une odeur de brûlé et son origine, sa vision pour contrôler la qualité des pièces
produites par la machine et identifier les différents défauts des pièces, son toucher pour
vérifier la tension d’une courroie et également pour voir s’il n’y a pas de fuite d’huile, sa
mémoire pour se rappeler de ses connaissances préalablement acquises avec d’autres
machines.
La question qu’on peut se poser et qui peut ouvrir deux perspectives complètement
antagonistes est de savoir si l’on veut à tout prix remplacer l’expert humain afin
d’automatiser à 100% cette tâche de diagnostic ?
Dans l’affirmative, les recherches s’orienteront dans ce cas plutôt vers les neurosciences et
le développement propre des réseaux de neurones artificiels afin de développer des
architectures neuronales qui tendent à se rapprocher davantage des réseaux de neurones
biologiques.
Par contre, la deuxième option qui nous semble la plus intéressante est de savoir comment
faire pour extraire le bon vecteur caractéristique associé à une cause bien précise. Comment
fait l’expert humain pour rassembler toutes les informations lui permettant de prendre sa
décision ? Nous pensons qu’une couche Neuro-Flou-Temporelle (association des techniques
de la logique floue avec les techniques neuronales temporelles) en amont du réseau de
neurones pourrait offrir une piste intéressante permettant d’extraire une certaine connaissance
floue de l’expert humain. Une fois ce vecteur identifié, les réseaux de neurones artificiels
peuvent très bien être exploités pour apprendre cette forme. Par contre, la limite que l’on peut
rencontrer en utilisant un réseau de neurones artificiel est que généralement, pour une
application donnée, la dimension du vecteur d’entrée d’un réseau de neurones est a priori
fixée. C’est donc là où peut résider toute la difficulté d’utiliser brutalement un réseau de
neurones pour la tâche de diagnostic car, en pratique, les informations utilisées pour le
247
Conclusion Générale & Perspectives
diagnostic sont souvent différentes (la dimension et la nature du vecteur d’entrée ne sont pas
les mêmes pour différents diagnostics). On peut imaginer alors une solution distribuée, c'est-
à-dire un réseau de neurones dynamique avec sa couche Neuro-Flou-Temporelle pour chaque
type de cause. Chaque réseau de neurones possède bien évidemment son propre vecteur
d’entrée qui caractérise le mieux l’identification de la cause de la défaillance (diagnostic). La
décision globale du diagnostic final sera prise par un superviseur principal. Ce superviseur
peut être établi soit à partir d’une base neuronale (un type de réseau de neurones – PMC ou
RFR – ), soit à partir d’une architecture des systèmes multi-agents. Les systèmes multi-agents
représentent des outils de l’intelligence artificielle avec certaines capacités très intéressantes
concernant la prise de décision en fonction de certains critères imposés par l’expert. Cette
architecture peut offrir une solution intéressante pour la prise de décision globale concernant
le diagnostic en fonction des réponses locales de chaque architecture neuronale associée aux
différentes causes.
248
Conclusion Générale & Perspectives
249
Bibliographie
Bibliographie
251
Bibliographie
Adamson M. J. et Damper R. I., «A recurrent network that learns to pronounce English text »,
In Proceedings International Conference on Spoken Language Processing (ICSLP'96) 4,
pp. 1704-1707, 1996.
Agteberg F.P., Geomathematics, Elsevier, Amsterdam, 1974.
Almeida L.B., « Backpropagation in Perceptrons with feedback », in NATO ASI Series, Vol.
F41, Neural Computers, Edited by R. Eckmiller and Ch. V. d. Malsburg, 1988.
Amit D.J., « Neural Network Counting Chimes », Proceedings of the National Academy of
Sciences USA, 85, pp. 2141-2145. 1988.
Arahal M.R., Cepeda A., Camacho F.E., « Input variable Selection for Forcasting Models »,
15éme IFAC World Congress on Automatic Control, Barcelone, Espagne juillet 2002.
Atiya A.F., El-Shoura S.M., Shaheen S.I. et El-Sherif M.S., « A Comparison Between Neural
Network Forecasting Techniques – Case Study : River Flow Forecasting », IEEE
Transactions on Neural Networks, Vol. 10, N°2, pp. 402-409, Mars 1999.
Atiya A.F. et A.G. Parlos, « New Results on Recurrent Network Training : Unifying the
Algorithms and Accelerating Convergence », IEEE Transactions on Neural Networks, Vol.
11, N°3, pp. 697-709, May 2000.
Aussem A., « Théorie et Application des Réseaux de Neurones Récurrents et Dynamiques à la
Prédiction, à la Modélisation et au Contrôle Adaptatif des Processus Dynamiques », Thèse
de Doctorat, Université René Descartes – Paris V, juin 1995.
Aussem A., « Le Calcul du Gradient d’Erreur dans les Réseaux de Neurones Discrets
Bouclés à Délais : Application aux Télécom et aux Sciences Environnementales »,
Habilitation à Diriger des Recherches, Université Blaise Pascal Clermont-Ferrand II/
France 19 Décembre 2002.
Back A.D. et A.C. Tsoi, « A Time Series Moddeling Methodology Using FIR and IIR
Synapses », Proceeding Workshop on Neural Networks for Statistical and Economic Data,
Dublin, DOSES, Statistical Office of European Comminities, F. Murtagh Ed., pp. 187-194,
1990.
Basseville M., « Detecting Changes in Signals and Systems – A Survey », Automatica, Vol.
24, N°3, p. 309-326, 1988.
Basseville M., Nikiforov I., « Detection of Abrupt Changes – Theory and Applications »,
Information and System Sciences Serie, Prentice Hall, Englewood Cliffs, N.J., 1993.
Basseville M., Cordier M.O., « Surveillance et diagnostic de systèmes dynamiques: approche
complémentaire du traitement de signal et de l'intelligence artificielle », Rapport INRIA
N°2861, 1996.
Basseville M., « Information Criteria for Residual Generation and Fault Detection and
Isolation », Automatica Vol. 33, N°5, p. 783-803, 1997.
252
Bibliographie
Bernauer E., Demmou H., « Temporal sequence learning with neural networks for process
fault détection », IEEE International Conference on Systems, Man, and Cybernetics, IEEE-
SMC 93, vol. 2, Le Touquet France 1993, p. 375-380.
Bernauer E., Les réseaux de neurones et l'aide au diagnostic : un modèle de neurones bouclés
pour l'apprentissage de séquences temporelles, thèse de doctorat, LAAS/Toulouse 1996.
Béroule D., « Un Modèle de Mémoire Adaptative, Dynamique et Associative pour le
Traitement de la Parole », Thèse de Doctorat, Paris XI Orsay, 1985.
Berthold M. R., (a) « A Time Delay Radial Basis Function Network for Phoneme
Recognition », Proceedings of the IEEE International Conference on Neural Networks,
Vol. 7, pp. 4470-4473, 1994.
Berthold M. R., (b) « The TDRBF: A Shift invariant radial basis function network »,
Proceedings of the fourth Irish Neural Network Conference, Dublin, pp. 7-12, 1994.
Berthold M. R., Diamond J., « Boosting the Performance of RBF Networks with Dynamic
Decay Adjustment » Advances in Neural Information Processing Systems, Gerald Tesauro,
David S. Touretzky, and Todd K. Leen editors, vol. 7, p. 521-528, MIT Press, Cambridge,
MA, 1995.
Bezdek J.C., « Numerical Taxonomy with Fuzzy Sets », Journal of Mathematical Biology,
Vol.1, p.57-71, 1974.
Billings S.A., and C.F. Fung, «Recurrent Radial Basis Function Networks for Adaptive Noise
Cancellation». Neural Networks, Elsevier Science Publishers, Vol. 8, N°2, pp. 273-290,
1995.
Böhme T., Cox C.S, Valentin N., Denoeux T., « Comparaison of Autoassociative Neural
Networks and Kohonen Maps for Signal Failure Detection and Reconstruction » In C.H.
Dagli et al., editors, Intelligent Engineering Systems through Artificial Neural Networks 9,
637-644, New-York : ASME Press, 1999.
Broomhead D.S., Lowe D., « Multivariable functionnal interpolation and adaptive networks »,
Complexe Systems, Vol. 2, p. 321-355, 1988.
Burg T., Tschichold N., « Dynamic neurons with negative local feedback for time-series
prediction », Proc. Int. Workshop on Advanced Black-box Techniques for Nonlinear
Modelling, Katholieke Universiteit Leuven, Belgium, pp. 129-133, 1998.
Camarinha-Matos, L.M., L. Seabra Lopes, and J. Barata «Integration and Learning in
Supervision of Flexible Assembly Systems», IEEE Transactions on Robotics and
Automation, vol. 12, n°2, 1996, p. 202-219.
Campolucci P., Uncini A., Piazza F. et Rao B.D., « On-Line Learning Algorithms for Locally
Recurrent Neural Networks », IEEE Transactions on Neural Networks, Vol. 10, N°2, pp.
253-271, Mars 1999.
253
Bibliographie
Chang F.J., Liang J.M., Chen Y.C., « Flood Forecasting Using Radial Basis Function Neural
Network », IEEE Transactions on Systems, Man and Cybernetics – Part C : Applications
and Reviews, Vol. 31, N° 4, November 2001.
Chappelier J.C., RST : une architecture connexionniste pour la prise en compte de relations
spatiales et temporelles. Thèse de doctorat, Ecole Nationale Supérieure des
Télécommunications de Paris, janvier 1996.
Chappelier J.C., Grumbach A., « A Kohonen Map for Temporal Sequences », Proceeding of
neural Networks and Their Application, NEURAP'96, IUSPIM, Marseille, mars 1996, p.
104-110.
Chen J., Patton R.J., « Robust Model-Based Fault Diagnosis for Dynamic Systems », Kluwer
Academic Publisher, Boston, Dordrecht, London 1999.
Combacau M., Commande et surveillance des systèmes à événements discrets complexes :
application aux ateliers flexibles, thèse de Doctorat, Université P.Sabatier de TOULOUSE
1991.
Combastel C., Méthodes d'aide à la décision pour la détection et la localisation de défauts
dans les entraînements électriques Thèse de Doctorat INPG, 2000.
Cussenot C., Surveillance et diagnostic de la chaîne de dépollution d'une automobile, Thèse
de doctorat, Université de Rennes 1, 1996.
Daniel O., Les réseaux de Pétri stochastiques pour l'évaluation des attributs de la sûreté de
fonctionnement des systèmes manufacturiers, Thèse de doctorat, Laboratoire
d'Automatique de Grenoble, Institut National Polytechnique de Grenoble, janvier 1995.
Dash S., Venkatasubramanian V., « Challenges in the industrial applications of fault
diagnostic systems », Proceedings of the conference on Process Systems Engineering
Comput. & Chem. Engng24 (2-7), Keystone, Colorado, July 2000, p. 785-791.
Day S.P., et Davenport M.R., « Continuous Time Temporal Back Propagation with Adaptable
Time Delays », IEEE Transaction on Neural Networks, Vol. 4, N°2, pp. 348-354, mars
1993.
Demmou H., Bernauer E., « Using Self-Recurrent Neurons for Fault Detection and
Diagnosis », 3ème IFAC en WIMS, Roumanie, 1995.
Denoeux T., Govaert G., « Combined supervised and unsupervised learning for system
diagnosis using Dempster-Shafer theory », In P. Borne, M. Staroswiecki, J. P. Cassar and
S. El Khattabi (Eds) CESA'96 IMACS Multiconference, Computational Engineering in
Systems Applications. Symposium on Control, Optimization and Supervision, volume 1,
pages 104-109, Lille, July 9-12, 1996.
Denoeux T., Masson M., Dubuisson B., « Advanced pattern recognition techniques for system
monitoring and diagnosis: a survey », Journal Européen des Systèmes Automatisés
(RAIRO-APII-JESA), 31(9-10):1509-1539, 1998.
254
Bibliographie
255
Bibliographie
Frélicot C., Un système adaptatif de diagnostic prédictif par reconnaissance des formes
floues, thèse de doctorat, Université de technologie de Compiègne, Compiègne 1992.
Fukunaga K., Statistical Pattern Recognition, Academic Pess, 2e édition, 1990.
Dunn J.C., « A Fuzzy Relative of the ISODATA Process an its Use in Detecting Compact
Well-Separated Clusters », Journal of Cybernetics, Vol.3, p. 32-57, 1974.
Garcia-Salicetti S., « Une Approche Neuronale Prédictive pour la Reconnaissance en-ligne de
l’Ecriture Cursive », Thèse de doctorat, Université de Paris VI, Décembre 1996.
Gertler J., J., « Survey of model-based failure detection and isolation in complexe systems »,
IEEE Control Systems Magazine, Vol. 8, N° 6, p. 3-11, 1988.
Gertler J.J., « Fault Detection and Diagnosis in Engineering Systems », Marcel Dekker, Inc.,
New York, Basel, Hong Kong 1998.
Ghosh J., Beck S., Deuser L., « A Neural Network Based Hybrid System for Detection,
Characterization and Classification of Short-Duration Oceanic Signals », IEEE Jl. of
Ocean Engineering, vol. 17, n° 4, October 1992, p. 351-363.
Ghosh J., Nag A., Radial Basis Function Network, in Radial Basis Function Neural Network
Theory and Applications, R. J. Howlett and L. C. Jain (Eds), Physica-Verlag., 2000.
Giles C. L., Miller C.B., Chen D., Sun G.Z., Chen H.H. et Lee Y.C., « Extracting and
learning an unknown grammar with recurrent neural networks », In J.E. Moody, S.J.
Hanson, and R.P Lippmann, editors, Advances in Neural Information Processing Systems
4, pages 317–324, San Mateo, CA, Morgan Kaufmann Publishers, 1992.
Gori M., « An Extension of BPS », in Proceeding of the 2nd Intern Workshop on Neural
Networks and their Applications, Nimes, France 1989.
Gori M., Bengio Y. et Mori R.D., « BPS : A Learning Algorithm for Capturing the Dynamic
Nature of Speech », International Joint Conference on Neural Networks, Vol. 2, pp. 417-
423, 1989.
Gori M. et Soda G., « Temporal Pattern Recognition Using EBPS », EURASIP, 1990.
GRP-SPSF, Rapport du Groupement pour la Recherche en Productique, journée d’étude de
l’atelier de Systèmes de Production Sûr de Fonctionnement, 19 et 20 novembre 1998,
Besançon/ France.
Hardy R.L., “Multiquadratic equations of topography and other irregular surfaces”, J.
Geophys. Res, 76:1905-1915,1971.
Hashem S., Keller P.E., Kouzes R.T., Kangas L.J., «Neural Network Based Data Analysis for
Chemical Sensor Analysis», Proceedings of SPIE's AeroSense '95 Conference , Orlando,
Florida, 17-21 April 1995, Forthcoming.
Hassibi B., D.G. Stork et G.J. Wolff, « Optimal Brain Surgeon and General Network
Pruning », in Proceedings of the IEEE International Conference on Neural Networks, San
Francisco, pp. 293-299, 1993.
256
Bibliographie
257
Bibliographie
258
Bibliographie
Lopes N., Ribeiro B., « Part Quality Prediction in an Injection Moulding Process Using
Neural Networks », in proceedings of WMC, ISM,1999.
Mackey M. et Glass L., « Oscillations and Chaos in Physiological Control System », Science,
pp. 197-287, 1977.
MacQueen J., « Some methods for classification and analysis of multivariate observations »,
Proceedings of the Fifth Berkeley Symposium on Mathematical statistics and probability,
volume 1, pages 281-297, University of California Press, Berkeley, 1967.
Mak M. W., « A Learning Algorithm for Recurrent Radial Basis Function Networks »,
Neural Processing Letters, Vol. 2, No. 1, pp. 27-31, January 1995.
Mak M.W., Kung S.Y., « Estimation of Elliptical Basis Function Parameters by the EM
Algorithms with Application to Speaker Verification », IEEE Trans. on Neural Networks,
vol. 11, n° 4, July 2000, p. 961-969.
Mangeas M., « Propriétés Statistiques des Modèles Paramétriques non Linéaires de
Prévisions de Séries Temporelles, Application aux Réseaux de Neurones à Propagation
Directe » Thèse de Doctorat, SAMOS / Université Paris I, 1996.
Masson M.H., Dubuisson B., Frélicot C., « Conception d’un module de reconnaissance des
formes floues pour le diagnostic », Journal Européen des Systèmes Automatisés (RAIRO-
APII-JESA), p. 319-341, 1996.
McCulloch W.S., Pitts W., « A logical calculus of the ideas immanent in nervous activity »,
Bulletin of Mathematical Biophysics, Vol. 5, p. 115-133, 1949.
Meador J., Wu A., Tseng H.,. Lin T.S, « Fast Diagnosis of Integrated Circuit Faults Using
Feedforward Neural Network », IEEE International Joint Conference on Neural Networks,
Seattle, July, 1991.
Mellouk A., « Développement d'un système hybride neuro-prédictif : application à la
reconnaissance de la parole continue », Thèse de Doctorat, LIP6/ Université de Paris 6
Octobre 1994.
Micchelli C.A., « Interpolation of scattered data: distance matrices and conditionally positive
definite functions », Contsructive Approximation, N°2, pp. 11-22, 1986.
Mirea L. et Marcu T., « System Identification Using Functional Link Neural Networks with
Dynamic Structure », 15th IFAC World Congress, Barcelona, Spain 2002.
Miyoshi T., H.Ichihashi, S.Okamoto and T.Hayakawa, « Learning Chaotic Dynamics in
Recurrent RBF Network », Proc. of IEEE ICNN'95, pp. 588-593, Perth/ Western
Australia1995.
Moakes P. A., and S. W. Beet., « Non-linear speech analysis using recurrent radial basis
function networks», In Neural Networks for Signal Processing IV, eds.: J. Vlontzos, J-N.
Hwang and E. Wilson, pp 319-328. IEEE Press, 1994.
259
Bibliographie
Monostori L., « AI and Machine Learning Techniques for Managing Complexity, Changes
and uncertainties in Manufacturing », 15éme IFAC World Congress on Automatic Control,
Barcelone, Espagne juillet 2002.
Moody J., Darken J., « Fast Learning in networks of locally tuned processing units », Neural
Computation, 1989, vol. 1, p. 281-194.
Mozer M. C., « Neural network architectures for temporal pattern processing », In A. S.
Weigend & N. A. Gershenfeld (Eds.), Time series prediction: Forecasting the future and
understanding the past (pp. 243-264). Redwood City, CA: Sante Fe Institute Studies in the
Sciences of Complexity, Proceedings Volume XVII, Addison-Wesley Publishing, 1993.
Mustawi M.T., Ahmed W., Chan K.H., Faris K.B., Hummels D.M., « on the training of
Radial Basis Function Classifiers », Neural Networks, vol. 5, 1992, p. 595-603.
Pal S.K., Majumder D., « Fuzzy Set and Decision Making Approaches in Voweland Speaker
Recognition », IEEE Transactions on Systems, Man, and Cybernetics, Vol. 7, p. 625-
629,1977.
Patton R., Frank P., Clark R., Fault Diagnosis in Dynamic Systems : Theory and Application,
International Series in Systems and Control Engineering, Prentice Hall International,
London, UK 1989.
Pearlmutter B.A., « Dynamic Recurrent Neural Networks », CMU-CS-90,196, Carnegie
Mellon University, School of Computer Science, décembre 1990.
Petsche T.A., Marcontonio A., Darken C., Hanson S.J., M.kuh G., Santoso I., A Neural
Network autoassociator for induction motor failure prediction, Cambridge: MIT Press,
Edition D.S. Touretzky, M.C. Mozer, and M.E. Hasselmo, Advances in Neural Information
Prodessing Systems 8, 1996, p. 924-930.
Pineda F.J., « Generalization of Backpropagation to recurrent Neural Networks », Physical
Review Letters, N° 59, pp. 2229-2232, 1987.
Pineda F.J., « Dynamics and Architecture for Neural Computation », Journal of Complexity,
Vol. 4, pp. 216-245, 1988.
Ploix JL., et G. Dreyfus, « Early fault detection in a distillation column: an industrial
application of knowledge-based neural modelling », Neural Networks: Best Practice in
Europe, B. Kappen, S. Gielen, eds, pp. 21-31 (World Scientific, 1997).
Poddar P. et Unnikrishnan K.P., (a) « Nonlinear Prediction of Speech Signals Using Memory
Neuron Networks », Neural Networks for Signal Processing I, B. H. Juang, S. Y. Kung and
C. A. Kamm, Eds. IEEE Press, 1991.
Poddar P. et Unnikrishnan K.P., (b) « Memory Neuron Networks : A Prolegomenon »,
General Motors Research Laboratories Report GMR-7493, October 21, 1991.
Poggio T., Girosi F., A Theory of Networks for Approximation and Learning, AI Memo
N°1140, Massachusetts Institute of Technology, Artificial Intelligence Laboratory and
Center for Biological Information Processing Whitaker College, July 1989
260
Bibliographie
261
Bibliographie
Sejnowski T.J., Rosenberg C.R., NetTalk: a parallel network that learns to read aloud,
electrical engineering and computer science technical report, the johns hopkins university,
1986.
Shioya S., Huang J.H., Shimizu H., « Online Fault Detection in Virginiamycin Production »,
15éme IFAC World Congress on Automatic Control, Barcelone, Espagne juillet 2002.
Simpson P.K., « Fuzzy min-max neural networks – Part I : Classification » IEEE Transaction
on Neural Networks, Vol.3, N°5, pp. 776-786, September 1992.
Simpson P.K., « Fuzzy min-max neural networks – Part II : Clustering » IEEE Transaction on
Fuzzy Systems, Vol.1, N°1, pp. 32-45, February 1993.
Singh S., « Neural Network Separation of Temporal Data », Proceeding of IEEE International
Joint Conference on Neural Networks (IJCNN’99), Washington D.C., 10-16 July, 1999.
Sinha M., Gupta M.M. et Nikiforuk P.N., « Hybrid Neural Models for Time Series
Forecasting », 15th IFAC World Congress, Barcelona, Spain 2002.
Smyth P., « detecting novel fault conditions with hidden Markov models and neural
netwoks », Pattern Recognition in Practice IV, 1994, p. 525-536.
Sorel M., et Sima J., « Robust implementation of finite automata by recurrent RBF networks»,
Proceedings of the SOFSEM Seminar on Current Trends in Theory and Practice of
Informatics, Milovy, Czech Republic, 431-439, Berlin: Springer-Verlag, LNCS 1963,
2000.
Sun G.Z., H.H. Chen et Y.C.Lee, « Green’s Function Method for Fast on-line Learning
Algorithm of Recurrent Neural Networks », Advances Neural Information Processing
System, Vol. 4, pp. 333-340, 1990.
Svarer C., L.K. Hansen et J. Larsen, « On Design and Evaluation of Tapped Delay Line
Networks », in Proceedings of the IEEE International Conference on Neural Networks, San
Francisco, pp. 46-51, 1993.
Terstyanszky G., Kovacs L., « Improving Fault Diagnosis Using Proximity and Homogeneity
Measure », 15éme IFAC World Congress on Automatic Control, Barcelone, Espagne juillet
2002.
Toguyeni A.K.A., Surveillance et diagnostic en ligne dans les ateliers flexibles de l'industrie
manufacturière, Thèse de doctorat, Université de Lille 1992.
Toomarian N., et J., Barhen, « Adjoint-Functions and Temporal Learning Algorithms in
Neural Networks », Advances in Neural Information Processing Systems, Vol. 3, pp. 113-
120, 1991.
Tromp L., Surveillance et Diagnostic de systèmes industriels complexes : une approche
hybride Numérique/Symbolique, Thèse de Doctorat, Université de Rennes1/IRISA, 2000.
Tsoi C.T., Back A.D., « Locally Recurrent Globally Feedforward Networks : A Critical
Review of Architectures », IEEE Transaction on Neural Networks Vol.05, pp. 229-239,
1994.
262
Bibliographie
Tyan C. Y., Wang P. P., Bahler D., « Neural Fault Diagnosis and Fuzzy Fault Control for a
Complex Linear Dynamic System, » Published in the book of series of Advances in Fuzzy
Theory and Technology, Volume II, ISBN: 0-9643456-1-7, pp. 357-375, 1994.
Urbani D., « Méthodes statistiques pour la sélection d'architectures neuronales : application
à la modélisation de processus dynamiques », Thèse de Doctorat, ESPCI/ Université Pierre
et Marie Curie - Paris VI, Novembre 1995.
Vaucher G., « Un Modèle de Neurone Artificiel Conçu pour l’Apprentissage non Supervisé
de Séquences d’Evénements Asynchrones », Revue VALGO, ISSN 1243-4825, Vol. 1, pp.
66-107, ACTH 1993.
Vemuri A., Polycarpou M., « Neural Network Based Robust Fault Diagnosis in Robotic
Systems », IEEE Transactions on Neural Networks, vol. 8, n°. 6, novembre 1997, p. 1410-
1420,.
Vemuri A., Polycarpou M., Diakourtis S., « Neural Network Based Fault Detection and
Accommodation in Robotic Manipulators », IEEE Transactions on Robotics and
Automation, vol. 14, n° 2, avril 1998, p. 342-348.
Villemeur A., Sûreté de fonctionnement des systèmes industriels, Edition EYROLLES,
Collection DER-EDF, Volume 67, 1988.
Waibel A., Hanazawa T., Hinton G., Shikano K., Lang K., « Phoneme recognition using time
delay neural network » IEEE Trans. in Acoustics, Speech and Signal Processing, vol. 37,
n° 3, p. 328-339, 1989.
Warwick K., Irwin G.W., Hunt K.J., « Neural Networks for Control and Systems », IEE
Control Engineering Series 46, Peter Peregrinus Ltd., London, United Kingdom, 1992.
Washio T., Hotoda H., « Discovering admissible simultaneous equations of large scale
systemes », 15th National Conference on Artificial Intelligence AAAI-98, Madison, WI,
Etats-Unis, p. 189-196, 1998.
Weber P., diagnostic de procédés par l'analyse des estimations paramétriques de modèles de
représentation à temps discret, Thèse de Doctorat, INPG, 1999.
Werbos P.J., Beyond regression: New tools for prediction and analysis in the behavioral
science, Thèse de doctorat, Harvard University, 1974.
Werbos P., « Backpropagation Trough time : What it does and how to do it », Proceedings
IEEE, Vol. 78, 1990.
Widrow B., Hoff M. E., « Adaptive switching circuits », dans 1960 IRE WESCON
Convention Record, New York : IRE, p. 96-104, 1960.
Williams R.J., Zipser D., « A Learning Algorithm for Continually Running Fully Recurrent
Neural Networks », Neural Computation, vol.1, juin 1989, p. 270-280.
Willsky A.S., « A Survey of Design Methods for Failure Detection in Dynamic Systems »,
Automatica, Vol. 12, p. 601-611, 1976.
263
Bibliographie
Wu A., Meador J., « A Measurement Selection for Parametric IC Fault Diagnosis, » Journal
of Electronic Testing: Theory and Applications, Kluwer Academic Publishers, Vol. 5, No.
1, pp. 9- 18, Feb. 1994.
Xu L., « RBF nets, mixture experts, and Bayesian Ying-Yang learning », Neurocomputing,
1998, vol. 19, N° 1-3, p. 223-257.
Yu W.S., et Wang G.C., « Adaptive Control Design Using Delayed Dynamical Neural
Networks for a Class of Nonlinear Systems », Proceedings of the IEEE International
Conference on Robotics and Automation (ICRA’01), Seoul, Korea, Mai 2001.
Zemouri R., Racoceanu D., Zerhouni N., « The RRBF : Dynamic representation of time in
radial basis function network » Proc. of the 8th IEEE International Conference on
Emerging Technologies and Factory Automation, ETFA'2001, vol. 2, pp.737-740, 15-18
octobre 2001, Antibes, Juan les Pins.
Zemouri R., Racoceanu D., Zerhouni N. – a – « From the spherical to an elliptic form of the
dynamic RBF neural network influence field » World Congress on Computational
Intelligence, International Joint Conference on Neural Networks (IJCNN), Honolulu,
Hawaii, USA, May 12-17, 2002.
Zemouri R., Racoceanu D., Zerhouni N. – b – « Réseaux de neurones Récurrents à Fonction
de base Radiales :RRFR/ Application au pronostic », Revue d’Intelligence Artificielle,
RSTI série RIA, Vol. 16, N°03, 2002.
Zemouri R., Racoceanu D., Zerhouni N. – c – « Application of the dynamique RBF Network
in a monitoring problem of the production systems », 15éme IFAC World Congress on
Automatic Control, Barcelone, Espagne, juillet 2002.
Zemouri R, Racoceanu D., Zerhouni N. – a – « Réseaux de neurones récurrents à fonctions de
base radiales RRFR : Application à la surveillance dynamique », Revue Systèmes /JESA,
Vol. 37, N°1, pp. 49-81, 2003.
Zemouri R., Racoceanu D., Zerhouni N. – b – « Recurrent Radial Basis Function network for
Time-Series Prediction », Engineering Applications of Artificial Intelligence (Elsevier
Science), Volume 16, Issue 5-6, pp. 453-463, Novembre 2003.
Zhang Q., Identification et Surveillance de systèmes Dynamiques, Habilitation à diriger les
recherches, Université de Rennes1, Institut de Formation Supérieure en Informatique et en
Communication, 1999.
Zwingelstein G., Diagnostic des défaillances : Théorie et pratique pour les systèmes
industriels, Edition HERMES 1995.
264
265
Thèse de Monsieur Mohamed-Ryad ZEMOURI
Contribution à la surveillance des systèmes de production à l’aide des réseaux de neurones
dynamiques : Application à la e-maintenance.
Résumé : Les méthodes de surveillance industrielle sont divisées en deux catégories :
méthodes de surveillance avec modèle formel de l’équipement, et méthodes de surveillance
sans modèle de l’équipement. Les modèles mathématiques formels des équipements
industriels sont souvent entachés d’incertitudes et surtout difficiles à obtenir. Cette thèse
présente l’application des réseaux de neurones artificiels pour la surveillance d’équipements
industriels. Nous proposons une architecture de Réseaux à Fonctions de base Radiales qui
exploite les propriétés dynamiques des architectures localement récurrentes pour la prise en
compte de l’aspect temporel des données d’entrée. En effet, la prise en compte de l’aspect
dynamique nécessite des architectures de réseaux de neurones particulières avec des
algorithmes d’apprentissage souvent compliqués. Dans cette optique, nous proposons une
version améliorée de l’algorithme des k-moyennes qui permet de déterminer aisément les
paramètres du réseau de neurones. Des tests de validation montrent qu’à la convergence de
l’algorithme d’apprentissage, le réseau de neurones se situe dans la zone appelée « zone de
bonne généralisation ». Le réseau de neurones a été ensuite décomposé en fonctions
élémentaires facilement interprétables en langage automate. La partie applicative de cette
thèse montre qu’un traitement de surveillance en temps réel est possible grâce aux
architectures à automates programmables industriels. Le réseau de neurones chargé dans
l’automate est entièrement configurable à distance par le protocole de communication
TCP/IP. Une connexion Internet permet alors à un expert distant de suivre l’évolution de son
équipement et également de valider l’apprentissage du réseau de neurones artificiel.
Mots-Clés : surveillance, détection de dégradation, diagnostic, e-maintenance, réseaux de
neurones dynamiques, réseaux de neurones localement récurrents, apprentissage.
Contribution to the production system monitoring using dynamic neural networks :
Application to the e-maintenance.
Abstract : The industrial monitoring methods are divided into two categories: monitoring
methods based on the existence of the equipment formal model, and those which not use any
equipment formal model. Generally, there are many uncertainties in the formal model and for
complex industrial equipment, it is very difficult to obtain a correct mathematical model. This
thesis presents an application of the artificial neural networks to the industrial monitoring. We
propose a new architecture of Radial Basis Function Networks which exploits the dynamic
properties of the locally recurrent architectures for taking into account the input data temporal
aspect. Indeed, the consideration of the dynamic aspect requires rather particular neural
networks architectures with special training algorithms which are often very complicated. In
this sense, we propose an improved version of the k-means algorithm which allows to
determine easily the neural network parameters. The validation tests show that at the
convergence of the learning algorithm, the neural network is situated in the zone called «
good generalization zone ». The neural network was then decomposed into elementary
functions easily interpretable in industrial automation languages. The applicative part of this
thesis shows that a real-time monitoring treatment is possible thanks to the automation
architectures. The neural network loaded in a PLC is completely configurable at distance by
the TCP/IP communication protocol. An Internet connection allows then a distant expert to
follow the evolution of its equipment, and also to validate the artificial neural network
learning.
Key Words : Monitoring, degradation detection, diagnosis, e-maintenance, dynamic neural
networks, locally recurrent neural networks, learning.
266