Détection D'anomalies Pour Les Réseaux Smart-Grids Basée Sur Un Autoencodeur LSTM

Détection d’anomalies pour les réseaux smart-grids
basée sur un autoencodeur LSTM

Joseph Azar, Youssef Laarouchi, Franck Bouzon, Raphaël Couturier
To cite this version:

Joseph Azar, Youssef Laarouchi, Franck Bouzon, Raphaël Couturier. Détection d’anomalies pour
les réseaux smart-grids basée sur un autoencodeur LSTM. Conference on Artificial Intelligence for
Defense, DGA Maîtrise de l’Information, Nov 2022, Rennes, France. �hal-03881040�
HAL Id: hal-03881040

https://hal.science/hal-03881040
Submitted on 1 Dec 2022
HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est

archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.
Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives 4.0

International License
Détection d’anomalies pour les réseaux smart-grids
basée sur un autoencodeur LSTM
Joseph Azara , Youssef Laarouchib , Franck Bouzonb , and Raphaël Couturiera
a Femto-St Institute, UMR 6174 CNRS, Université de Bourgogne Franche-Comté, France
Email: joseph.azar@univ-fcomte.fr; raphael.couturier@univ-fcomte.fr
b EDF R&D, Palaiseau, France
Email: youssef.laarouchi@edf.fr; franck.bouzon@edf.fr
Abstract—Dans les systèmes de réseaux intelligents basés sur System Operators for Electricity” (ENTSO-E), un consortium
la norme IEC 61850, le protocole Manufacturing Message Speci- de 42 gestionnaires de réseaux de transport européens, a
fication (MMS) est largement utilisé pour communiquer avec les trouvé des preuves d’une cyberintrusion réussie dans son
équipements industriels. Il est néanmoins vulnérable à un certain
nombre de cyberattaques. Les systèmes de détection d’intrusions, réseau bureautique. En raison du peu d’informations fournies,
qui surveillent le trafic réseau à la recherche d’irrégularités, sont il n’a pas été possible de savoir si l’attaque avait touché les
une méthode de sécurité courante. Les méthodes traditionnelles clients, les parties prenantes ou les systèmes informatiques [3].
de détection d’anomalies ne sont pas adaptées aux données de D’autres cyberattaques importantes ont eu lieu en 2019 contre
séries temporelles à haute dimension, c’est à dire avec beaucoup l’infrastructure électrique de la Russie [4] et en 2017 contre
de caractéristiques (features). Ce travail présente une approche
de détection d’anomalies basée sur un autoencodeur LSTM les usines pétrochimiques de Saudi Aramco [5]. Le réseau
pour les séquences à haute dimension. Pour la préparation ukrainien a été pris pour cible en 2015, privant des milliers
des données et l’extraction des caractéristiques, une technique de personnes d’électricité [6]. Parmi les attaques menées, il
de traitement de texte basée sur un vectoriseur TF-IDF et est possible de mentionner l’exploitation des outils d’accès à
une décomposition DVS tronquée (Truncated Singular Value distance existants dans l’environnement et les attaques par déni
Decomposition) est également présentée. Le modèle proposé
apprend les caractéristiques et les motifs d’un grand nombre de service téléphonique. En 2014, des cyber-attaquants ont
d’échantillons normaux de manière non supervisée, ce qui permet infiltré “Korea Hydro and Nuclear Power”, la société nucléaire
de résoudre les contraintes des systèmes existants qui reposent et hydroélectrique de Corée du Sud, mettant en ligne les plans
sur des exemples étiquetés. Les résultats montrent que la méthode et les manuels de deux réacteurs nucléaires et exposant les in-
proposée peut extraire des caractéristiques potentielles à partir formations personnelles de milliers d’employés [7]. Les intrus
de données de séries temporelles à haute dimension tout en
conservant un taux de vrais positifs élevé. ont mené l’attaque de trois façons : 1) ils ont utilisé plusieurs
Index Terms—Détection des intrusions, Manufacturing Mes- logiciels malveillants, 2) ils ont exploité une vulnérabilité dans
sage Specification, apprentissage profond, apprentissage non le système d’écriture de la langue coréenne et 3) ils ont utilisé
supervisé, réseau intelligent, autoencodeur des mails de phishing.
De nombreuses mesures de sécurité pourraient être
I. I NTRODUCTION utilisées pour les smart-grids, allant du chiffrement et de
Les réseaux intelligents (smart-grids) sont une amélioration l’authentification à la protection contre les logiciels malveil-
du réseau électrique traditionnel. Ils ajoutent de la connectivité, lants, en passant par la sécurité du réseau et les systèmes
de l’intelligence et un contrôle moderne à l’infrastructure de détection d’intrusion (IDS). La détection d’intrusion se
électrique classique, qui transmet l’électricité de la cen- concentre sur l’identification et la prévention des menaces
trale aux utilisateurs. Étant donné que les réseaux intelli- connues. La fonction principale d’un IDS est de surveiller
gents génèrent des revenus pour les fournisseurs d’énergie le réseau et d’avertir les administrateurs systèmes lorsqu’une
et permettent d’accéder à des informations très privilégiées menace est détectée. Les IDS peuvent être classés princi-
et confidentielles sur les clients, ils sont devenus une cible palement en systèmes de détection d’intrusion basés sur les
attrayante pour toute une série de cyberattaques, ce qui signatures (SIDS) et en systèmes de détection d’intrusion
souligne le besoin crucial de sécurité des réseaux intelli- basés sur les anomalies (AIDS). Les systèmes de détection
gents [1]. Selon le groupe de réflexion Institut Français des d’intrusion par signature (SIDS) s’appuient sur des méthodes
Relations Internationales (IFRI), les cybercriminels ont de de comparaison de modèles pour détecter les attaques connues;
plus en plus ciblé le secteur de l’énergie au cours de la cette technologie est également appelée détection basée sur
dernière décennie, les cyberattaques ayant augmenté de 380% la connaissance. Dans les AIDS, un modèle standard du
entre 2014 et 2015 [2]. La géopolitique, le terrorisme et comportement d’un système est construit à l’aide de méthodes
les gains financiers sont autant de motivations possibles. En d’apprentissage automatique/profond, statistiques ou basées
2020, le réseau européen des gestionnaires de réseaux de sur la connaissance. Toute différence significative entre le
transport d’électricité “European Network of Transmission comportement observé et le comportement prédit est con-
sidérée comme une anomalie, qui peut être perçue comme une bénin. Le modèle reconstruit ensuite les séquences d’entrée
attaque [8]. Aujourd’hui, les solutions de cybersécurité basées et classe les séquences qui ont été mal reconstruites comme
sur les signatures sont progressivement abandonnées au profit des intrusions.
d’agents de cybersécurité intelligents. Les anomalies dans les Le plan du papier est le suivant. La section II présente le
réseaux sont détectées en reconnaissant des modèles non con- moyen d’essai Concept Grid d’EDF et les données collectées
formes dans les données du réseau. La classification du trafic dans ce papier. La section III détaille l’approche de traite-
réseau à l’aide d’algorithmes d’apprentissage profond (deep ment des fichiers PCAP et la section IV présente les étapes
learning DL) a connu un énorme succès avec la disponibilité d’entraı̂nement du modèle. Les expériences réalisées et les
de matériel avancé pour entraı̂ner des modèles complexes sur résultats sont présentés dans la section V. La conclusion est
une grande quantité de données. [9]. En raison de la difficulté présentée dans la section VI.
d’étiqueter un grand volume de trafic réseau, les approches
d’apprentissage non supervisé semblent plus pratiques. II. C OLLECTE DE DONN ÉES
Avec le développement et la maturité de la technologie A. EDF concept grid
d’apprentissage automatique, les modèles axés sur les données Le moyen d’essai Concept Grid d’EDF [16] est une in-
sont devenus le principal moyen de détection des anoma- stallation de test “full-scale” de réseaux intelligents destinée
lies [8], [10], [11]. D’une part, la production industrielle à anticiper et à faciliter la transition de la distribution tra-
a un comportement attendu, et d’autre part, l’équipement ditionnelle d’électricité vers les réseaux intelligents (smart-
de surveillance de la production industrielle est très di- grids). Construit en circuit fermé et simulant pourtant des
versifié [12], et les données industrielles accumulées sont réseaux de distribution d’électricité réels, Concept Grid permet
des données de séries temporelles multidimensionnelles typ- l’exécution en toute sécurité de divers scénarios d’optimisation
iques. Par conséquent, la détection d’anomalies basée sur du réseau (avec reconfiguration automatique en réponse à des
des données de séries temporelles multidimensionnelles a été défauts, incorporation d’énergies renouvelables, optimisation
favorisée par le domaine industriel. Cependant, la détection lors des pics de demande, etc.) Parmi les nombreux avantages
d’anomalies pour les données de séries temporelles multi- de cette installation d’essai, on peut citer la capacité à réaliser
dimensionnelles est une tâche très difficile: tout d’abord, il des tests de stress étendus dans des conditions difficiles qui
existe des corrélations potentielles et des influences mutuelles seraient impossibles à réaliser sur un réseau réel desservant
entre les différentes dimensions des données, ce qui rend plus des clients du monde réel.
difficile la détection et l’identification des modèles anormaux.
Deuxièmement, le big data industriel présente une série de B. Manufacturing Message Specification
caractéristiques telles qu’un grand volume, une hétérogénéité Le sujet d’intérêt de cet article est la détection d’intrusion
multi-source et une forte dynamique [13], ce qui rend le dans le trafic MMS (Manufacturing Message Specifica-
traitement du big data industriel plus difficile. tion) dans un environnement de réseau électrique. La
La conception des sous-stations électriques a changé norme 61850/MMS s’applique au contrôle des réseaux
plusieurs fois ces dernières années. Ces modifications visent électriques [17], définissant la communication entre les dis-
à améliorer les communications grâce à l’utilisation de tech- positifs électroniques intelligents. Son objectif est de rem-
nologies Ethernet et TCP/IP plus efficaces [14]. Différents placer les protocoles propriétaires des fabricants et de per-
protocoles et modèles de données abstraits permettant mettre ainsi l’interopérabilité des équipements. Elle décrit
l’interopérabilité des dispositifs de nombreux fournisseurs ont un modèle de données, un ensemble de services permettant
vu le jour. Le protocole Manufacturing Message Specification d’accéder aux données, et des correspondances avec les pro-
(MMS) est fréquemment utilisé pour communiquer avec les tocoles permettant d’utiliser ces services. Cette norme est
équipements industriels dans les centrales électriques basées conçue pour le contrôle des réseaux électriques. Cependant,
sur la norme IEC 61850. Cependant, comme ce protocole n’a elle ne propose pas un nouveau protocole de communication.
pas été développé dans un souci de sécurité, il est susceptible Elle se base sur des protocoles existants tels que MMS (ISO
de subir diverses cyberattaques [15]. Cet article propose une 9506), GOOSE (Generic Object Oriented Substation Event),
approche d’apprentissage profond non supervisé en plus d’une et un mécanisme de transmission de valeurs échantillonnées
approche de “text mining” pour la préparation des données (Sampled Values).
afin de détecter des séquences d’attaque dans les échantillons
de trafic MMS (Manufacturing Message Specification) fournis C. Jeu de données
par le moyen d’essai Concept Grid d’EDF [16]. Contrairement L’ensemble de données d’apprentissage se compose de près
aux principaux travaux qui ont été proposés dans l’état de de 15 jours de trafic réseau normal et dépasse les 10 Go.
l’art, cet article propose une solution pour les données MMS L’ensemble de test a une taille d’environ 1,3 Go où les
brutes et non structurées. Nous avons utilisé des techniques attaques ont été insérées dans le trafic normal. La détection
de prétraitement de texte pour prétraiter les données XML des anomalies et des attaques a été réalisée sur la couche
générées à partir des fichiers PCAP des MMS. Pour détecter applicative du protocole du modèle OSI utilisé pour faire
les séquences d’attaque, nous avons conçu un modèle LSTM- fonctionner les relais de protection du réseau de distribution,
Autoencodeur et nous l’avons entraı̂né sur du trafic MMS IEC 61850/MMS. Pour ce faire, le fichier de trafic réseau a été
converti en XML. Un commentaire “attaque” a été ajouté au
message IEC 61850/MMS modifié. Chaque message ajouté ou
modifié à partir du fichier XML possède ce commentaire qui
sera utilisé pour valider la précision de l’apprentissage (non Préparation et nettoyage des données
supervisé) qui sera effectué. Plusieurs paquets MMS ont été
générés hors ligne, puis injectés dans le trafic réseau légitime
du fichier XML. L’objectif est de créer des incohérences telles
qu’une succession de fermetures de relais de protection, une Représentation textuelle des paquets MMS à partir de XML
modification du paramètre invokeID, une longueur incohérente

du message MMS ou encore un service inexistant. Il existe Tokénisation et nettoyage
différents types d’unités de données de protocole “Protocol

Extraction automatique de caractéristiques
Data Units” (PDUs) dans les paquets MMS collectés:
Conception de vocabulaire
• confirmed-RequestPDU
• confirmed-ResponsePDU
Codage de documents sous forme de vecteurs de longueur
• confirmed-ErrorPDU fixe avec TF-IDF
• unconfirmed-PDU
• rejectPDU Réduction de la dimensionnalité avec SVD
• cancel-RequestPDU
• cancel-ResponsePDU
• cancel-ErrorPDU Entraîner un modèle d'apprentissage en profondeur
• cancel-ErrorPDU
• initiate-RequestPDU[ Fig. 1: Prétraitement des données et extraction automatique de
• initiate-ResponsePDU caractéristiques
• initiate-ErrorPDU
III. P R ÉTRAITEMENT DES DONN ÉES va définir le vocabulaire des mots et affecter le processus
Les enregistrements de données brutes de trafic du réseau d’entraı̂nement. Après avoir extrait récursivement toutes les
MMS sont stockés dans des fichiers au format PCAP qui valeurs de l’attribut “showname”, l’objectif était de créer le
comportent un mélange de types de PDU. Pour appliquer plus petit vocabulaire possible sans omettre d’informations
les données brutes au modèle de détection des anomalies, critiques. La stratégie suivante a été adoptée:
il est nécessaire de prétraiter les données de trafic originales • Convertir tous les mots en minuscules.
dans un format de données approprié. La figure 1 illustre le • Enlevez la ponctuation comme: , ; : - ..
prétraitement des données brutes. Les étapes importantes de • Séparer tous les mots contenant /, , ou $ en mots
la phase de prétraitement sont présentées ci-dessous. différents.
• Supprimez tous les chiffres séparés des mots (binaires
A. Préparation et nettoyage des données ou chiffres) car ces chiffres peuvent faire exploser notre
La complexité du format de données d’un paquet MMS, la vocabulaire.
présence de champs facultatifs qui peuvent ou non exister dans • Si des noms de fichiers sont présents, supprimez le nom
le paquet, la nécessité de prendre en charge un grand nombre de fichier et conservez l’extension.
de services MMS et les structures de données récursives sont • Supprimer les dates.
des facteurs qui rendent la tâche d’analyse et de traitement La figure 2 illustre un exemple de paquet avant et après
des données complexes. Le défi réside dans le fait que chaque nettoyage. Après avoir nettoyé tous les paquets, un vocabulaire
type de PDU contient des champs différents des autres PDU, pourrait être construit. Chaque balise XML représentant un
ce qui rend difficile la représentation des données de manière paquet peut être transformée en une ligne contenant plusieurs
structurée. L’objectif est de transformer chaque paquet en une mots. Notez que le nettoyage des paquets et la construction du
liste contenant de nombreux mots. Nous nous sommes inspirés vocabulaire peuvent changer en fonction du problème et des
de la manière dont les données textuelles sont prétraitées données disponibles.
dans le traitement du langage naturel, où une phrase est
considérée comme une séquence de tokens ou de mots. Dans B. Mise en œuvre du Bag of Words
ce contexte, chaque balise XML représentant un paquet MMS Après avoir nettoyé les données textuelles et les avoir
est représentée par une séquence de mots. Cela se fait en enregistrées, ces données nettoyées doivent être représentées
prenant récursivement toutes les informations présentes dans de manière compréhensible pour un modèle d’apprentissage
l’attribut ”showname” dans les champs d’une balise XML profond. L’approche “sac de mots” ou “Bag of Words” (BoW)
(représentant un paquet MMS). L’étape critique est celle qui a été proposée pour cette tâche. Le modèle BoW est une façon
vient ensuite, à savoir le nettoyage des données textuelles. de représenter les données textuelles lors de la modélisation
L’étape de nettoyage est cruciale dans ce processus car elle du texte par apprentissage profond. La raison pour laquelle
Paquet MMS au format XML
dimensionnalité est que la DVS tronquée est plus efficace
sur le plan informatique. En raison de la nature éparse des
vecteurs de caractéristiques transformés dérivés des paquets
MMS (la très grande majorité des valeurs sont à zéro), la
DVS tronquée est plus apte à traiter ces données éparses que
l’ACP ou la DVS standard. L’ACP exige le calcul de la matrice
de covariance, ce qui nécessite d’agir sur l’ensemble de la
matrice, augmentant ainsi la charge de traitement. De même,
pour une matrice M x N, la méthode DVS standard donne
toujours une matrice à N colonnes, alors que la méthode DVS
tronquée peut donner des matrices avec un nombre quelconque
Paquet MMS représenté comme une liste de mots de colonnes. La figure 3 illustre la procédure de génération de
vecteurs de caractéristiques à dimension réduite à partir d’un
exemple de trois documents MMS.
IV. M OD ÈLE DE D ÉTECTION D ’ ANOMALIE

Dans les systèmes cyber-physiques contemporains, la plu-
Fig. 2: Représentation textuelle d’un paquet MMS part des données obtenues ont les caractéristiques suivantes:
volumineuses, grande complexité et séries temporelles. De
plus, la majorité des données présentent un problème de
l’implémentation BoW a été choisie par rapport à l’approche manque d’étiquetage ou d’étiquetage incomplet. Cet article
“word embeddings” est que le contexte est extrêmement vise à relever le défi de la détection des données anor-
spécifique au domaine. Cela signifie que le vecteur corre- males dans les données de séries temporelles complexes non
spondant ne peut pas être trouvé en utilisant des modèles étiquetées.
“word embedding” pré-entraı̂nés (GloVe, fastText, etc.). De
plus, étant donné la nature technique des mots inclus dans A. Autoencodeur LSTM
chaque paquet, il a été considéré que la disposition des mots Un réseau de neurones récurrent (RNN) est un réseau de
n’avait aucune incidence sur les informations contenues. Dans neurones profond optimisé pour le traitement des données
ce contexte, le fait de ne pas tenir compte de l’ordre des mots de séries temporelles. Il met en cascade la sortie de l’étape
n’entraı̂ne pas de perte de sens. précédente et l’entrée actuelle. Il utilise la fonction tanh
Comme le montre la figure 1, la deuxième étape après la pour réguler les poids des deux sorties, ce qui lui permet
conception du vocabulaire consiste à représenter les documents d’apprendre efficacement les caractéristiques des données de
à l’aide d’une matrice document-terme. La méthode TF-IDF séries temporelles. Cependant, lorsqu’ils sont confrontés à des
(Term Frequency-Inverse Document Frequency) a été utilisée données de séries temporelles excessivement longues, les RNN
pour transformer les documents en une matrice basée sur le ordinaires ne peuvent pas capturer les relations à long terme
nombre de mots [18]. Pour l’extraction de caractéristiques, en raison du problème de la disparition du gradient. Un réseau
la pondération TF-IDF a été fréquemment utilisée [19]. Le LSTM pourrait être utilisé pour apprendre les dépendances à
but est d’identifier les mots ou les mots-clés qui apparais- long terme [21]. Le LSTM améliore l’unité de couche cachée
sent fréquemment dans un document mais qui n’apparaissent basée sur le RNN et, en ajoutant des unités de stockage, il
pas fréquemment dans la collection complète de documents. surmonte le problème de la disparition du gradient du RNN.
Chaque colonne de la matrice transformée correspond à un Ces unités de stockage, qui comprennent des portes d’oubli,
vecteur représentant un mot du vocabulaire, et chaque ligne des portes d’entrée et des portes de sortie, permettent de filtrer
correspond à un vecteur représentant un document (paquet). les états précédents, en décidant quels états ont l’impact le
Cette approche ne prend pas en compte la position des plus significatif sur l’état actuel plutôt que de simplement
mots dans chaque document (paquet). Un inconvénient de sélectionner les états récents.
l’utilisation de la méthode de pondération TF-IDF est que Un autoencoder est un modèle de réseau de neurones
le vocabulaire peut devenir très grand. Ainsi, la haute di- non supervisé composé de deux étapes: l’encodage et le
mension est inévitable compte tenu du volume des données décodage. En faisant correspondre les données brutes à un
collectées. Cela nécessitera l’utilisation d’énormes vecteurs espace de faible dimension, l’encodeur peut apprendre les car-
pour le codage des documents, ce qui exigera beaucoup actéristiques et les modèles significatifs des données d’entrée.
de mémoire et ralentira le processus d’apprentissage. Pour À partir de l’espace à faible dimension, le décodeur peut
résoudre le problème de dimensionnalité du modèle BoW, reconstruire les données d’entrée originales.
la décomposition en valeurs singulières (SVD) tronquée a Dans cet article, nous combinons un réseau LSTM et un
été utilisée [20]. La raison du choix de la DVS tronquée autoencodeur pour créer un encodeur et un décodeur qui
(Truncated SVD) par rapport à la DVS standard et à l’analyse utilisent deux couches de LSTM. Un encodeur extrait les car-
en composantes principales (ACP) pour la réduction de la actéristiques des données de séries temporelles, et un décodeur
Codage des paquets à l'aide de TF-IDF (Fréquence
du terme - Fréquence du document inverse)
Surmonter le problème de dimensionnalité en

utilisant SVD (décomposition en valeurs singulières)
Fig. 3: Étapes de mise en œuvre de l’approche Bag of Words sur un exemple de trois paquets
reconstruit les échantillons à partir des caractéristiques ex- deux couches cachées déterminent conjointement la sortie du
traites. Dans notre problème, nous avons des données de réseau LSTM bidirectionnel au point actuel. Comme les deux
séries temporelles multivariées, où plusieurs variables sont réseaux n’interagissent pas pendant l’entraı̂nement, ils peuvent
surveillées dans le temps. Les séquences de paquets MMS être utilisés comme un réseau feedforward général [22]. La
représentées comme des vecteurs de caractéristiques seront rétropropagation est également similaire à celle du LSTM, à
utilisées pour entraı̂ner un Autoencodeur LSTM pour la clas- la seule différence qu’elle retourne aux deux couches cachées
sification des événements rares. Pour la reconstruction des avec des valeurs différentes (chaque couche a ses propres
séquences, un autoencodeur LSTM peut être utilisé. Pendant poids) après la propagation vers la couche de sortie.
la phase d’entraı̂nement, il apprendra à reconstruire le trafic
C. Conception du modèle
MMS régulier, et si l’erreur de reconstruction est importante
pendant le test, l’entrée peut être classée comme une attaque La structure du réseau de l’autoencodeur LSTM est
potentielle. présentée dans la figure 4. Les données d’entrée du modèle
sont un tableau tridimensionnel. Tout d’abord, nous avons
B. LSTM bidirectionnel le nombre d’échantillons (# samples), à savoir le nombre
Une anomalie qui se produit à un moment particulier de fenêtres contenant des paquets MMS. Les vecteurs de
dans les données d’une série temporelle aura une corrélation caractéristiques sont divisés par des fenêtres glissantes. La
potentielle avec l’anomalie qui s’est produite avant ce moment deuxième dimension est le lookback (combien de pas de
et aura également un effet important sur les données après ce temps précédents sont utilisés). Les modèles LSTM sont
moment. Par conséquent, les données du passé et du futur à censés regarder le passé, ce qui signifie qu’au moment t,
des moments anormaux peuvent être utilisées pour détecter le LSTM traitera les données jusqu’à (t-lookback) pour faire
des anomalies. Les réseaux LSTM, quant à eux, extraient une prédiction. Différentes tailles de fenêtres ont été testées.
les caractéristiques des données d’entrée jusqu’à un point Dans la suite de cet article, on considère une fenêtre de
donné dans le temps. Cet article utilise un réseau LSTM quatre paquets (cette valeur a donné les meilleurs résultats),
bidirectionnel dans l’encodeur pour prendre en compte les ce qui signifie que le LSTM traitera quatre paquets pour
données passées et futures lors d’occasions anormales. Les détecter une anomalie. La troisième dimension est le nombre
réseaux LSTM bidirectionnels sont composés de deux réseaux de caractéristiques dans chaque vecteur de caractéristiques
LSTM distincts avec deux couches cachées indépendantes. (paquet). Dans ce problème, le nombre de caractéristiques
Les deux couches sont identiques à l’intérieur sauf pour leur après application de la réduction de la dimensionnalité avec
direction. La première couche du LSTM calcule l’information la DVS tronquée était de 1017.
avant au point de temps actuel, et la deuxième couche lit la L’encodeur commence par une couche LSTM bidirection-
même séquence en sens inverse pour calculer l’information nelle, suivie d’un dropout et d’une autre couche LSTM.
arrière au point de temps actuel. Les deux couches cachées Il est nécessaire d’établir des connexions directes entre les
calculent séparément l’état et la sortie du point temporel actuel cellules de pas de temps des couches LSTM consécutives. Par
et transmettent les résultats à la même couche de sortie. Ces conséquent, la première couche LSTM bidirectionnelle fait
en sorte que chaque cellule produise un signal une fois par afin de minimiser l’erreur de reconstruction. Pendant la phase
pas de temps (return sequences = True). Pour la deuxième d’apprentissage, l’autoencodeur est alimenté par des données
couche LSTM, seule la cellule du dernier pas de temps émet normales. En minimisant l’erreur quadratique moyenne en-
des signaux (return sequences = False). La sortie est donc un tre les échantillons reconstruits et originaux, l’autoencodeur
vecteur. apprend les caractéristiques et les modèles implicites des
Afin d’utiliser les caractéristiques codées comme entrée données normales. Par conséquent, l’erreur de reconstruc-
pour le décodeur, en commençant par une couche LSTM, une tion des échantillons normaux est plutôt faible pendant la
duplication des caractéristiques (RepeatVector) doit avoir lieu phase de test. En revanche, l’erreur de reconstruction des
pour créer un tableau lookback × nombre de caractéristiques. échantillons anormaux est relativement importante (car le
Le décodeur est composé d’une couche LSTM suivie d’un modèle n’apprend pas les caractéristiques et les modèles im-
dropout et d’une couche LSTM bidirectionnelle. Un bruit plicites des échantillons anormaux). Par conséquent, cet article
gaussien a été ajouté après la couche LSTM bidirection- utilise l’erreur de reconstruction comme score d’anomalie de
nelle afin d’améliorer la robustesse et de réduire le sur- l’échantillon.
apprentissage. Une couche Time Distributed a été ajoutée à la
V. R ÉSULTATS EXP ÉRIMENTAUX
fin du décodeur pour obtenir la sortie qui a la même forme que
l’entrée. Le nombre de neurones pour chaque couche, comme A. Ensemble de données
illustré dans 4, a été choisi par essais et erreurs. Dans notre L’ensemble de test est déséquilibré; il comporte 92014
implémentation, nous avons adopté la fonction d’activation fenêtres normales et 119 moments anormaux. En particulier,
SELU [23] pour les couches cachées et la fonction tanh pour la chaque fenêtre a une taille de M x N, M désignant la largeur
couche finale, étant donné que les caractéristiques sont mises à de la fenêtre (nombre de paquets) et N étant le nombre de
l’échelle dans la plage −1 et 1. Notez que les hyperparamètres caractéristiques. Nos expériences ont inclus une variété de
peuvent être adaptés et réglés pour différents problèmes. combinaisons de tailles d’entrée différentes. Dans ce qui suit,
nous continuerons à utiliser une fenêtre de quatre paquets et
de 1017 caractéristiques (ou features), car cette combinaison a
input: [(None, 4, 1017)]
donné le meilleur résultat. La largeur de la fenêtre doit garantir
InputLayer
output: [(None, 4, 1017)] que la fenêtre couvre la durée des événements anormaux. Dans
ce contexte, quatre paquets étaient suffisants pour garantir
Bidirectional(LSTM)
input:
output:
(None, 4, 1017)
(None, 4, 624)
que l’événement anormal entier pouvait être contenu dans la
largeur de la fenêtre de l’échantillon anormal.
input: (None, 4, 624)
Dropout
output: (None, 4, 624)
B. Indicateurs d’évaluation
Étant donné que le taux de reconnaissance et le taux d’erreur
LSTM
input: (None, 4, 624) de jugement des événements anormaux sont au cœur de la
output: (None, 256)
détection des anomalies, cet article utilise les indicateurs
input: (None, 256)
suivants pour juger des avantages et des inconvénients du
RepeatVector
output: (None, 4, 256) modèle.
Taux de reconnaissance des séquences d’attaque:
LSTM
V rai P ositif
T aux V rais P ositif s =
V rai P ositif + F aux N egatif
Dropout
Le pourcentage de séquences d’attaque réelles dans un
ensemble de séquences prédites comme une attaque:
Bidirectional(LSTM) V rai P ositif
output: (None, 4, 624) P recision =
V rai P ositif + F aux P ositif
GaussianNoise
input: (None, 4, 624) Taux d’erreur de jugement des séquences d’attaque:
F aux P ositif
T aux F aux P ositif s =
TimeDistributed(Dense)
input: (None, 4, 624) V rai N egatif + F aux P ositif
Les vrais positifs (VP) correspondent à l’identification
précise d’une séquence d’attaque. Les faux positifs (FP) corre-
Fig. 4: Diagramme de flux d’un autoencodeur LSTM pour une spondent à la classification d’une séquence normale en tant que
fenêtre de 4 paquets exportée à l’aide de Keras séquence d’attaque. Les vrais négatifs (VN) indiquent qu’une
séquence normale a été correctement classée, tandis que les
L’autoencodeur génère des erreurs lors du décodage des faux négatifs (FN) indiquent qu’une séquence d’attaque a
caractéristiques codées et de la reconstruction des échantillons. été incorrectement classée comme une séquence normale. La
La rétropropagation est utilisée pour entraı̂ner un autoencodeur courbe ROC (receiver operating characteristic) et la valeur
AUC (area under the curve) sont fréquemment utilisées pour considérée comme très bonne. Cependant, étant donné les
évaluer la qualité d’un classificateur binaire dans le cadre de données très déséquilibrées de ce travail et l’objectif d’avoir
la classification binaire. La courbe ROC prend le taux de faux le taux de faux positifs le plus élevé possible, une précision de
positifs comme axe horizontal et le taux de vrais positifs 65% est la meilleure que nous puissions obtenir sans réduire le
comme axe vertical et forme une courbe continue avec le rappel en dessous de 96%. Dans ce qui suit, nous considérons
mouvement du seuil. La valeur AUC représente l’aire sous un seuil de 1.35 × 10−4 .
la courbe ROC entre 0 et 1. La valeur AUC peut être utilisée
pour évaluer intuitivement la qualité du modèle, une valeur
plus grande indiquant un meilleur modèle.
Seuil d'erreur qui permet un
taux de vrais positifs optimal
C. Sélection du seuil de classification
Comme indiqué précédemment, l’argument suivant justifie
l’utilisation d’un autoencodeur LSTM pour la détection non
supervisée d’événements rares. Le modèle est entraı̂né sur
une quantité suffisante de données normales qui représentent
le trafic normal dans un environnement donné. Puisque nous
supposons que le modèle a appris le modèle des fenêtres de
trafic normal et a été entraı̂né sur un trafic similaire, le modèle
sera capable de reconstruire une fenêtre de trafic normal non
vue avec une erreur de reconstruction minimale. Étant donné
que les fenêtres anormales (chaque fenêtre avec plusieurs
paquets) sont des événements inhabituels que le modèle n’a Les séquences bénignes au-dessus du 99e centile
pas vus pendant l’entraı̂nement, l’erreur de reconstruction du partagent la même plage d'erreur de reconstruction que
les séquences d'attaque en dessous du 3e centile
décodeur sera importante, signalant que la fenêtre n’est pas
régulière et pourrait être une attaque possible. L’objectif est
de définir ce seuil, au-delà duquel nous pouvons identifier
une séquence comme une attaque si le modèle reconstruit une
fenêtre avec une erreur supérieure à ce seuil. Seuil d'erreur qui permet
une Précision optimale
La figure 5 illustre comment l’erreur de reconstruction pour
les séquences normales (bénignes) et d’attaque varie pour
différents centiles. On constate qu’environ 99% des fenêtres
normales sont reconstruites avec une erreur inférieure à 2 ×
10−5 et 97% des fenêtres d’attaque sont reconstruites avec Fig. 5: Erreur de reconstruction par centile pour les séquences
une erreur supérieure à 3 × 10−4 . Idéalement, il n’y aura pas bénignes et d’attaque
de croisement entre les plages d’erreur des données normales
et des données d’attaque, ce qui permet de définir facilement
un seuil séparant les deux plages. Dans ce problème, on peut
remarquer sur la Figure 5 qu’il existe une petite plage d’erreur
de reconstruction commune entre les données normales et les
données d’attaque. Considérons [e1 , e2 ] la plage d’erreur de
reconstruction partagée et th le seuil à sélectionner et appar- La plage de seuil d'erreur
tenant à cette plage: e1 ≤ th ≤ e2 . Si l’on fixe th à e1 (la plus optimale pour le compromis
précision-rappel
petite valeur de la plage d’erreurs partagées), on obtient le taux
de vrais positifs (rappel) optimal, car l’erreur de reconstruction
de toutes les séquences d’attaque sera supérieure à th, et
donc classée comme une attaque. D’autre part, fixer th à e2
donnera la précision optimale car l’erreur de reconstruction
des séquences normales ne dépassera pas e2 , évitant ainsi
les faux positifs. L’objectif est de sélectionner un seuil de
classification qui offre un compromis raisonnable entre la
précision et le rappel tout en favorisant le rappel (taux de
vrais positifs) pour ce type de problème. La figure 6 montre
la précision et le rappel pour différentes valeurs de seuil. On
Fig. 6: Valeurs de précision et de rappel pour différents seuils
constate qu’un seuil compris entre 1.25 × 10−4 et 1.4 × 10−4
d’erreur
donne un rappel supérieur à 96% et une précision d’environ
65%. Gardons à l’esprit qu’une précision de 65% n’est pas
D. Résultats de l’évaluation
La courbe ROC (Receiver Operating Characteristic) et la
matrice de confusion sont utilisées pour évaluer les perfor-
mances du modèle entraı̂né avec le seuil sélectionné. Con-
trairement à la métrique de précision, le taux de faux positifs
obtenu est très faible. Parmi les 92014 fenêtres normales,
seules 63 (moins de 1%) ont été classées par erreur comme
attaque, comme le montre la matrice de confusion (Figure 8).
La valeur de l’aire sous la courbe (AUC) obtenue dans la
figure 7 indique que le modèle est facilement capable de
distinguer les séquences normales des séquences d’attaque
au seuil sélectionné. Parmi les 119 séquences d’attaque, le
modèle a classé par erreur 4 séquences comme normales. Les
métriques de classification dérivées de la matrice de confusion
sont présentées ci-dessous:
Exactitude (Accuracy) = 0.9992
P recision = 0.6460 Fig. 8: Matrice de confusion obtenue en utilisant un seuil =
1.35 × 10−4
Rappel = 0.9663
Score F 1 = 0.7744
autonome des intrusions dans les réseaux de communica-
Comme on peut le constater, même avec un faible taux tion smart-grid. De nombreux scénarios d’attaque contre les
de faux positifs, le nombre de FP est relativement important systèmes de contrôle industriels sont possibles. Le trafic MMS
par rapport au nombre de VP. Cela s’explique par le fait (Manufacturing Message Specification) a fait l’objet de cet ar-
que le nombre total de séquences normales est significa- ticle. Cet article présente d’abord une technique de préparation
tivement supérieur au nombre de séquences d’attaque. Parmi et d’extraction des caractéristiques des paquets MMS bruts à
les mesures qui pourraient être prises pour étudier/ajuster la l’aide d’un vectoriseur TF-IDF et la DVS tronquée (Truncated
précision du modèle, on peut faire une analyse supplémentaire SVD). Plutôt que d’extraire manuellement des caractéristiques
des caractéristiques et voir s’il existe une caractéristique de chaque paquet MMS, cet article traite chaque paquet
actuellement non analysée qui est toujours fixée à une certaine comme un document et le représente en utilisant l’approche de
valeur dans toutes les prédictions de faux positifs actuelles. prétraitement de texte “Bag of Words” (BoW). Il propose en-
En outre, même si le modèle a une faible précision, il peut suite un autoencodeur LSTM bidirectionnel pour la détection
donner lieu à une estimation de probabilité utile et donc à non supervisée de “séquences”. Cette recherche implique
des informations utiles dans le contexte de la détection des que les approches d’apprentissage profond non supervisées
intrusions. pourraient être utilisées à la place des méthodes supervisées
pour la détection des intrusions lorsque l’étiquetage n’est pas
pratique ou prend du temps. Après un entraı̂nement sur du
trafic normal, le modèle proposé a produit des taux de faux
positifs et de faux négatifs acceptables lorsqu’il a été appliqué
à du trafic non vu avec des séquences d’attaque injectées. La
faiblesse de cette approche, et des méthodes non supervisées
en général, est le taux moyen à élevé de fausses alarmes (faux
positifs) lorsque les données d’entraı̂nement sont incomplètes.
Ceci démontre que les techniques basées sur l’intelligence
artificielle peuvent être bénéfiques et utiles dans les systèmes
de contrôle industriel mais ne sont pas encore le principal
acteur de la détection d’intrusion.
Pour les travaux futurs, nous avons l’intention d’optimiser
Fig. 7: Courbe ROC (Receiver Operating Characteristic) la phase de préparation et de présentation des données, par
exemple nous pouvons tenir compte de l’ordre des mots
présents dans chaque document et tester d’autres approches
VI. C ONCLUSION que le “Bag of Words”. Nous souhaitons également nous
Cet article propose une approche de détection d’anomalies concentrer sur la manière d’optimiser la précision du modèle
non supervisée basée sur le traitement de texte et en collectant davantage de données et en testant d’autres
l’apprentissage profond pour répondre au besoin de détection architectures modernes.
R EFERENCES [12] H. Ding, R. X. Gao, A. J. Isaksson, R. G. Landers, T. Parisini, and
Y. Yuan, “State of ai-based monitoring in smart manufacturing and intro-
[1] A. O. Otuoze, M. W. Mustafa, and R. M. Larik, “Smart grids security duction to focused section,” IEEE/ASME Transactions on Mechatronics,
challenges: Classification by sources of threats,” Journal of Electrical vol. 25, no. 5, pp. 2143–2154, 2020.
Systems and Information Technology, vol. 5, no. 3, pp. 468–483, 2018. [13] T. Rieger, S. Regier, I. Stengel, and N. L. Clarke, “Fast predictive
[2] G. Desarnaud, “Cyber attacks and energy infrastructures: Anticipating maintenance in industrial internet of things (iiot) with deep learning
risks,” 2017. (dl): A review.” CERC, pp. 69–80, 2019.
[3] “European power grid organization hit by cyberattack,”
[14] Q. Song, W. Sheng, L. Kou, D. Zhao, Z. Wu, H. Fang, and X. Zhao,
https://www.welivesecurity.com/2020/03/12/european-power-grid-
“Smart substation integration technology and its application in distribu-
organization-entsoe-cyberattack/, accessed: 2022-03-16.
tion power grid,” CSEE Journal of Power and Energy Systems, vol. 2,
[4] “U.s. escalates online attacks on russia’s power grid,”
no. 4, pp. 31–36, 2016.
https://www.nytimes.com/2019/06/15/us/politics/trump-cyber-russia-
[15] R. Zhu, C.-C. Liu, J. Hong, and J. Wang, “Intrusion detection against
grid.html, accessed: 2022-03-16.
mms-based measurement attacks at digital substations,” IEEE Access,
[5] “Cyberattack targets safety system at saudi aramco,”
vol. 9, pp. 1240–1249, 2020.
https://foreignpolicy.com/2017/12/21/cyber-attack-targets-safety-
system-at-saudi-aramco/, accessed: 2022-03-16. [16] “Concept grid: A unique testing facility dedicated to smart equipment
[6] D. U. Case, “Analysis of the cyber attack on the ukrainian power grid,” and solutions,” https://www.edf.fr/en/the-edf-group/inventing-the-future-
Electricity Information Sharing and Analysis Center (E-ISAC), vol. 388, of-energy/r-d-global-expertise/our-offers/edf-power-networks-lab/our-
pp. 1–29, 2016. testing-facilities/concept-grid, accessed: 2022-03-25.
[7] K.-b. Lee and J.-i. Lim, “The reality and response of cyber threats to [17] H. C. Tan, V. Mohanraj, B. Chen, D. Mashima, S. K. S. Nan, and
critical infrastructure: A case study of the cyber-terror attack on the A. Yang, “An iec 61850 mms traffic parser for customizable and
korea hydro & nuclear power co., ltd.” KSII Transactions on Internet efficient intrusion detection,” in 2021 IEEE International Conference
and Information Systems (TIIS), vol. 10, no. 2, pp. 857–880, 2016. on Communications, Control, and Computing Technologies for Smart
[8] A. Khraisat, I. Gondal, P. Vamplew, and J. Kamruzzaman, “Survey Grids (SmartGridComm). IEEE, 2021, pp. 194–200.
of intrusion detection systems: techniques, datasets and challenges,” [18] S. Qaiser and R. Ali, “Text mining: use of tf-idf to examine the
Cybersecurity, vol. 2, no. 1, pp. 1–22, 2019. relevance of words to documents,” International Journal of Computer
[9] A. Aldweesh, A. Derhab, and A. Z. Emam, “Deep learning approaches Applications, vol. 181, no. 1, pp. 25–29, 2018.
for anomaly-based intrusion detection systems: A survey, taxonomy, and [19] R. Dzisevič and D. Šešok, “Text classification using different feature ex-
open issues,” Knowledge-Based Systems, vol. 189, p. 105124, 2020. traction approaches,” in 2019 Open Conference of Electrical, Electronic
[10] Z. Wang, K. W. Fok, and V. L. Thing, “Machine learning for encrypted and Information Sciences (eStream). IEEE, 2019, pp. 1–4.
malicious traffic detection: Approaches, datasets and comparative study,” [20] S. S. Du, Y. Wang, and A. Singh, “On the power of truncated svd
Computers & Security, vol. 113, p. 102542, 2022. for general high-rank matrix estimation problems,” Advances in neural
[11] M. A. Messaad, C. Jerad, and A. Sikora, “Ai approaches for iot information processing systems, vol. 30, 2017.
security analysis,” in Intelligent Systems, Technologies and Applications. [21] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural
Springer, 2021, pp. 47–70. computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[22] R. C. Staudemeyer and E. R. Morris, “Understanding lstm–a tutorial [23] G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, “Self-
into long short-term memory recurrent neural networks,” arXiv preprint normalizing neural networks,” Advances in neural information process-
arXiv:1909.09586, 2019. ing systems, vol. 30, 2017.

Détection D'anomalies Pour Les Réseaux Smart-Grids Basée Sur Un Autoencodeur LSTM

Transféré par

Droits d'auteur :

Formats disponibles

Détection D'anomalies Pour Les Réseaux Smart-Grids Basée Sur Un Autoencodeur LSTM

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Détection D'anomalies Pour Les Réseaux Smart-Grids Basée Sur Un Autoencodeur LSTM

Transféré par

Droits d'auteur :

Formats disponibles

Détection d’anomalies pour les réseaux smart-grids

basée sur un autoencodeur LSTM

To cite this version:

HAL Id: hal-03881040

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est

Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives 4.0

Email: youssef.laarouchi@edf.fr; franck.bouzon@edf.fr

modification du paramètre invokeID, une longueur incohérente

différents types d’unités de données de protocole “Protocol

IV. M OD ÈLE DE D ÉTECTION D ’ ANOMALIE

Surmonter le problème de dimensionnalité en

Vous aimerez peut-être aussi