Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                

Détection D'anomalies Pour Les Réseaux Smart-Grids Basée Sur Un Autoencodeur LSTM

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 10

Détection d’anomalies pour les réseaux smart-grids

basée sur un autoencodeur LSTM


Joseph Azar, Youssef Laarouchi, Franck Bouzon, Raphaël Couturier

To cite this version:


Joseph Azar, Youssef Laarouchi, Franck Bouzon, Raphaël Couturier. Détection d’anomalies pour
les réseaux smart-grids basée sur un autoencodeur LSTM. Conference on Artificial Intelligence for
Defense, DGA Maîtrise de l’Information, Nov 2022, Rennes, France. �hal-03881040�

HAL Id: hal-03881040


https://hal.science/hal-03881040
Submitted on 1 Dec 2022

HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est


archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents
entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non,
lished or not. The documents may come from émanant des établissements d’enseignement et de
teaching and research institutions in France or recherche français ou étrangers, des laboratoires
abroad, or from public or private research centers. publics ou privés.

Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives 4.0


International License
Détection d’anomalies pour les réseaux smart-grids
basée sur un autoencodeur LSTM
Joseph Azara , Youssef Laarouchib , Franck Bouzonb , and Raphaël Couturiera
a Femto-St Institute, UMR 6174 CNRS, Université de Bourgogne Franche-Comté, France
Email: joseph.azar@univ-fcomte.fr; raphael.couturier@univ-fcomte.fr
b EDF R&D, Palaiseau, France

Email: youssef.laarouchi@edf.fr; franck.bouzon@edf.fr

Abstract—Dans les systèmes de réseaux intelligents basés sur System Operators for Electricity” (ENTSO-E), un consortium
la norme IEC 61850, le protocole Manufacturing Message Speci- de 42 gestionnaires de réseaux de transport européens, a
fication (MMS) est largement utilisé pour communiquer avec les trouvé des preuves d’une cyberintrusion réussie dans son
équipements industriels. Il est néanmoins vulnérable à un certain
nombre de cyberattaques. Les systèmes de détection d’intrusions, réseau bureautique. En raison du peu d’informations fournies,
qui surveillent le trafic réseau à la recherche d’irrégularités, sont il n’a pas été possible de savoir si l’attaque avait touché les
une méthode de sécurité courante. Les méthodes traditionnelles clients, les parties prenantes ou les systèmes informatiques [3].
de détection d’anomalies ne sont pas adaptées aux données de D’autres cyberattaques importantes ont eu lieu en 2019 contre
séries temporelles à haute dimension, c’est à dire avec beaucoup l’infrastructure électrique de la Russie [4] et en 2017 contre
de caractéristiques (features). Ce travail présente une approche
de détection d’anomalies basée sur un autoencodeur LSTM les usines pétrochimiques de Saudi Aramco [5]. Le réseau
pour les séquences à haute dimension. Pour la préparation ukrainien a été pris pour cible en 2015, privant des milliers
des données et l’extraction des caractéristiques, une technique de personnes d’électricité [6]. Parmi les attaques menées, il
de traitement de texte basée sur un vectoriseur TF-IDF et est possible de mentionner l’exploitation des outils d’accès à
une décomposition DVS tronquée (Truncated Singular Value distance existants dans l’environnement et les attaques par déni
Decomposition) est également présentée. Le modèle proposé
apprend les caractéristiques et les motifs d’un grand nombre de service téléphonique. En 2014, des cyber-attaquants ont
d’échantillons normaux de manière non supervisée, ce qui permet infiltré “Korea Hydro and Nuclear Power”, la société nucléaire
de résoudre les contraintes des systèmes existants qui reposent et hydroélectrique de Corée du Sud, mettant en ligne les plans
sur des exemples étiquetés. Les résultats montrent que la méthode et les manuels de deux réacteurs nucléaires et exposant les in-
proposée peut extraire des caractéristiques potentielles à partir formations personnelles de milliers d’employés [7]. Les intrus
de données de séries temporelles à haute dimension tout en
conservant un taux de vrais positifs élevé. ont mené l’attaque de trois façons : 1) ils ont utilisé plusieurs
Index Terms—Détection des intrusions, Manufacturing Mes- logiciels malveillants, 2) ils ont exploité une vulnérabilité dans
sage Specification, apprentissage profond, apprentissage non le système d’écriture de la langue coréenne et 3) ils ont utilisé
supervisé, réseau intelligent, autoencodeur des mails de phishing.
De nombreuses mesures de sécurité pourraient être
I. I NTRODUCTION utilisées pour les smart-grids, allant du chiffrement et de
Les réseaux intelligents (smart-grids) sont une amélioration l’authentification à la protection contre les logiciels malveil-
du réseau électrique traditionnel. Ils ajoutent de la connectivité, lants, en passant par la sécurité du réseau et les systèmes
de l’intelligence et un contrôle moderne à l’infrastructure de détection d’intrusion (IDS). La détection d’intrusion se
électrique classique, qui transmet l’électricité de la cen- concentre sur l’identification et la prévention des menaces
trale aux utilisateurs. Étant donné que les réseaux intelli- connues. La fonction principale d’un IDS est de surveiller
gents génèrent des revenus pour les fournisseurs d’énergie le réseau et d’avertir les administrateurs systèmes lorsqu’une
et permettent d’accéder à des informations très privilégiées menace est détectée. Les IDS peuvent être classés princi-
et confidentielles sur les clients, ils sont devenus une cible palement en systèmes de détection d’intrusion basés sur les
attrayante pour toute une série de cyberattaques, ce qui signatures (SIDS) et en systèmes de détection d’intrusion
souligne le besoin crucial de sécurité des réseaux intelli- basés sur les anomalies (AIDS). Les systèmes de détection
gents [1]. Selon le groupe de réflexion Institut Français des d’intrusion par signature (SIDS) s’appuient sur des méthodes
Relations Internationales (IFRI), les cybercriminels ont de de comparaison de modèles pour détecter les attaques connues;
plus en plus ciblé le secteur de l’énergie au cours de la cette technologie est également appelée détection basée sur
dernière décennie, les cyberattaques ayant augmenté de 380% la connaissance. Dans les AIDS, un modèle standard du
entre 2014 et 2015 [2]. La géopolitique, le terrorisme et comportement d’un système est construit à l’aide de méthodes
les gains financiers sont autant de motivations possibles. En d’apprentissage automatique/profond, statistiques ou basées
2020, le réseau européen des gestionnaires de réseaux de sur la connaissance. Toute différence significative entre le
transport d’électricité “European Network of Transmission comportement observé et le comportement prédit est con-
sidérée comme une anomalie, qui peut être perçue comme une bénin. Le modèle reconstruit ensuite les séquences d’entrée
attaque [8]. Aujourd’hui, les solutions de cybersécurité basées et classe les séquences qui ont été mal reconstruites comme
sur les signatures sont progressivement abandonnées au profit des intrusions.
d’agents de cybersécurité intelligents. Les anomalies dans les Le plan du papier est le suivant. La section II présente le
réseaux sont détectées en reconnaissant des modèles non con- moyen d’essai Concept Grid d’EDF et les données collectées
formes dans les données du réseau. La classification du trafic dans ce papier. La section III détaille l’approche de traite-
réseau à l’aide d’algorithmes d’apprentissage profond (deep ment des fichiers PCAP et la section IV présente les étapes
learning DL) a connu un énorme succès avec la disponibilité d’entraı̂nement du modèle. Les expériences réalisées et les
de matériel avancé pour entraı̂ner des modèles complexes sur résultats sont présentés dans la section V. La conclusion est
une grande quantité de données. [9]. En raison de la difficulté présentée dans la section VI.
d’étiqueter un grand volume de trafic réseau, les approches
d’apprentissage non supervisé semblent plus pratiques. II. C OLLECTE DE DONN ÉES
Avec le développement et la maturité de la technologie A. EDF concept grid
d’apprentissage automatique, les modèles axés sur les données Le moyen d’essai Concept Grid d’EDF [16] est une in-
sont devenus le principal moyen de détection des anoma- stallation de test “full-scale” de réseaux intelligents destinée
lies [8], [10], [11]. D’une part, la production industrielle à anticiper et à faciliter la transition de la distribution tra-
a un comportement attendu, et d’autre part, l’équipement ditionnelle d’électricité vers les réseaux intelligents (smart-
de surveillance de la production industrielle est très di- grids). Construit en circuit fermé et simulant pourtant des
versifié [12], et les données industrielles accumulées sont réseaux de distribution d’électricité réels, Concept Grid permet
des données de séries temporelles multidimensionnelles typ- l’exécution en toute sécurité de divers scénarios d’optimisation
iques. Par conséquent, la détection d’anomalies basée sur du réseau (avec reconfiguration automatique en réponse à des
des données de séries temporelles multidimensionnelles a été défauts, incorporation d’énergies renouvelables, optimisation
favorisée par le domaine industriel. Cependant, la détection lors des pics de demande, etc.) Parmi les nombreux avantages
d’anomalies pour les données de séries temporelles multi- de cette installation d’essai, on peut citer la capacité à réaliser
dimensionnelles est une tâche très difficile: tout d’abord, il des tests de stress étendus dans des conditions difficiles qui
existe des corrélations potentielles et des influences mutuelles seraient impossibles à réaliser sur un réseau réel desservant
entre les différentes dimensions des données, ce qui rend plus des clients du monde réel.
difficile la détection et l’identification des modèles anormaux.
Deuxièmement, le big data industriel présente une série de B. Manufacturing Message Specification
caractéristiques telles qu’un grand volume, une hétérogénéité Le sujet d’intérêt de cet article est la détection d’intrusion
multi-source et une forte dynamique [13], ce qui rend le dans le trafic MMS (Manufacturing Message Specifica-
traitement du big data industriel plus difficile. tion) dans un environnement de réseau électrique. La
La conception des sous-stations électriques a changé norme 61850/MMS s’applique au contrôle des réseaux
plusieurs fois ces dernières années. Ces modifications visent électriques [17], définissant la communication entre les dis-
à améliorer les communications grâce à l’utilisation de tech- positifs électroniques intelligents. Son objectif est de rem-
nologies Ethernet et TCP/IP plus efficaces [14]. Différents placer les protocoles propriétaires des fabricants et de per-
protocoles et modèles de données abstraits permettant mettre ainsi l’interopérabilité des équipements. Elle décrit
l’interopérabilité des dispositifs de nombreux fournisseurs ont un modèle de données, un ensemble de services permettant
vu le jour. Le protocole Manufacturing Message Specification d’accéder aux données, et des correspondances avec les pro-
(MMS) est fréquemment utilisé pour communiquer avec les tocoles permettant d’utiliser ces services. Cette norme est
équipements industriels dans les centrales électriques basées conçue pour le contrôle des réseaux électriques. Cependant,
sur la norme IEC 61850. Cependant, comme ce protocole n’a elle ne propose pas un nouveau protocole de communication.
pas été développé dans un souci de sécurité, il est susceptible Elle se base sur des protocoles existants tels que MMS (ISO
de subir diverses cyberattaques [15]. Cet article propose une 9506), GOOSE (Generic Object Oriented Substation Event),
approche d’apprentissage profond non supervisé en plus d’une et un mécanisme de transmission de valeurs échantillonnées
approche de “text mining” pour la préparation des données (Sampled Values).
afin de détecter des séquences d’attaque dans les échantillons
de trafic MMS (Manufacturing Message Specification) fournis C. Jeu de données
par le moyen d’essai Concept Grid d’EDF [16]. Contrairement L’ensemble de données d’apprentissage se compose de près
aux principaux travaux qui ont été proposés dans l’état de de 15 jours de trafic réseau normal et dépasse les 10 Go.
l’art, cet article propose une solution pour les données MMS L’ensemble de test a une taille d’environ 1,3 Go où les
brutes et non structurées. Nous avons utilisé des techniques attaques ont été insérées dans le trafic normal. La détection
de prétraitement de texte pour prétraiter les données XML des anomalies et des attaques a été réalisée sur la couche
générées à partir des fichiers PCAP des MMS. Pour détecter applicative du protocole du modèle OSI utilisé pour faire
les séquences d’attaque, nous avons conçu un modèle LSTM- fonctionner les relais de protection du réseau de distribution,
Autoencodeur et nous l’avons entraı̂né sur du trafic MMS IEC 61850/MMS. Pour ce faire, le fichier de trafic réseau a été
converti en XML. Un commentaire “attaque” a été ajouté au
message IEC 61850/MMS modifié. Chaque message ajouté ou
modifié à partir du fichier XML possède ce commentaire qui
sera utilisé pour valider la précision de l’apprentissage (non Préparation et nettoyage des données
supervisé) qui sera effectué. Plusieurs paquets MMS ont été
générés hors ligne, puis injectés dans le trafic réseau légitime
du fichier XML. L’objectif est de créer des incohérences telles
qu’une succession de fermetures de relais de protection, une Représentation textuelle des paquets MMS à partir de XML

modification du paramètre invokeID, une longueur incohérente


du message MMS ou encore un service inexistant. Il existe Tokénisation et nettoyage

différents types d’unités de données de protocole “Protocol


Extraction automatique de caractéristiques
Data Units” (PDUs) dans les paquets MMS collectés:
Conception de vocabulaire
• confirmed-RequestPDU
• confirmed-ResponsePDU
Codage de documents sous forme de vecteurs de longueur
• confirmed-ErrorPDU fixe avec TF-IDF

• unconfirmed-PDU
• rejectPDU Réduction de la dimensionnalité avec SVD

• cancel-RequestPDU
• cancel-ResponsePDU
• cancel-ErrorPDU Entraîner un modèle d'apprentissage en profondeur

• cancel-ErrorPDU
• initiate-RequestPDU[ Fig. 1: Prétraitement des données et extraction automatique de
• initiate-ResponsePDU caractéristiques
• initiate-ErrorPDU

III. P R ÉTRAITEMENT DES DONN ÉES va définir le vocabulaire des mots et affecter le processus
Les enregistrements de données brutes de trafic du réseau d’entraı̂nement. Après avoir extrait récursivement toutes les
MMS sont stockés dans des fichiers au format PCAP qui valeurs de l’attribut “showname”, l’objectif était de créer le
comportent un mélange de types de PDU. Pour appliquer plus petit vocabulaire possible sans omettre d’informations
les données brutes au modèle de détection des anomalies, critiques. La stratégie suivante a été adoptée:
il est nécessaire de prétraiter les données de trafic originales • Convertir tous les mots en minuscules.
dans un format de données approprié. La figure 1 illustre le • Enlevez la ponctuation comme: , ; : - ..
prétraitement des données brutes. Les étapes importantes de • Séparer tous les mots contenant /, , ou $ en mots
la phase de prétraitement sont présentées ci-dessous. différents.
• Supprimez tous les chiffres séparés des mots (binaires
A. Préparation et nettoyage des données ou chiffres) car ces chiffres peuvent faire exploser notre
La complexité du format de données d’un paquet MMS, la vocabulaire.
présence de champs facultatifs qui peuvent ou non exister dans • Si des noms de fichiers sont présents, supprimez le nom
le paquet, la nécessité de prendre en charge un grand nombre de fichier et conservez l’extension.
de services MMS et les structures de données récursives sont • Supprimer les dates.
des facteurs qui rendent la tâche d’analyse et de traitement La figure 2 illustre un exemple de paquet avant et après
des données complexes. Le défi réside dans le fait que chaque nettoyage. Après avoir nettoyé tous les paquets, un vocabulaire
type de PDU contient des champs différents des autres PDU, pourrait être construit. Chaque balise XML représentant un
ce qui rend difficile la représentation des données de manière paquet peut être transformée en une ligne contenant plusieurs
structurée. L’objectif est de transformer chaque paquet en une mots. Notez que le nettoyage des paquets et la construction du
liste contenant de nombreux mots. Nous nous sommes inspirés vocabulaire peuvent changer en fonction du problème et des
de la manière dont les données textuelles sont prétraitées données disponibles.
dans le traitement du langage naturel, où une phrase est
considérée comme une séquence de tokens ou de mots. Dans B. Mise en œuvre du Bag of Words
ce contexte, chaque balise XML représentant un paquet MMS Après avoir nettoyé les données textuelles et les avoir
est représentée par une séquence de mots. Cela se fait en enregistrées, ces données nettoyées doivent être représentées
prenant récursivement toutes les informations présentes dans de manière compréhensible pour un modèle d’apprentissage
l’attribut ”showname” dans les champs d’une balise XML profond. L’approche “sac de mots” ou “Bag of Words” (BoW)
(représentant un paquet MMS). L’étape critique est celle qui a été proposée pour cette tâche. Le modèle BoW est une façon
vient ensuite, à savoir le nettoyage des données textuelles. de représenter les données textuelles lors de la modélisation
L’étape de nettoyage est cruciale dans ce processus car elle du texte par apprentissage profond. La raison pour laquelle
Paquet MMS au format XML
dimensionnalité est que la DVS tronquée est plus efficace
sur le plan informatique. En raison de la nature éparse des
vecteurs de caractéristiques transformés dérivés des paquets
MMS (la très grande majorité des valeurs sont à zéro), la
DVS tronquée est plus apte à traiter ces données éparses que
l’ACP ou la DVS standard. L’ACP exige le calcul de la matrice
de covariance, ce qui nécessite d’agir sur l’ensemble de la
matrice, augmentant ainsi la charge de traitement. De même,
pour une matrice M x N, la méthode DVS standard donne
toujours une matrice à N colonnes, alors que la méthode DVS
tronquée peut donner des matrices avec un nombre quelconque
Paquet MMS représenté comme une liste de mots de colonnes. La figure 3 illustre la procédure de génération de
vecteurs de caractéristiques à dimension réduite à partir d’un
exemple de trois documents MMS.

IV. M OD ÈLE DE D ÉTECTION D ’ ANOMALIE


Dans les systèmes cyber-physiques contemporains, la plu-
Fig. 2: Représentation textuelle d’un paquet MMS part des données obtenues ont les caractéristiques suivantes:
volumineuses, grande complexité et séries temporelles. De
plus, la majorité des données présentent un problème de
l’implémentation BoW a été choisie par rapport à l’approche manque d’étiquetage ou d’étiquetage incomplet. Cet article
“word embeddings” est que le contexte est extrêmement vise à relever le défi de la détection des données anor-
spécifique au domaine. Cela signifie que le vecteur corre- males dans les données de séries temporelles complexes non
spondant ne peut pas être trouvé en utilisant des modèles étiquetées.
“word embedding” pré-entraı̂nés (GloVe, fastText, etc.). De
plus, étant donné la nature technique des mots inclus dans A. Autoencodeur LSTM
chaque paquet, il a été considéré que la disposition des mots Un réseau de neurones récurrent (RNN) est un réseau de
n’avait aucune incidence sur les informations contenues. Dans neurones profond optimisé pour le traitement des données
ce contexte, le fait de ne pas tenir compte de l’ordre des mots de séries temporelles. Il met en cascade la sortie de l’étape
n’entraı̂ne pas de perte de sens. précédente et l’entrée actuelle. Il utilise la fonction tanh
Comme le montre la figure 1, la deuxième étape après la pour réguler les poids des deux sorties, ce qui lui permet
conception du vocabulaire consiste à représenter les documents d’apprendre efficacement les caractéristiques des données de
à l’aide d’une matrice document-terme. La méthode TF-IDF séries temporelles. Cependant, lorsqu’ils sont confrontés à des
(Term Frequency-Inverse Document Frequency) a été utilisée données de séries temporelles excessivement longues, les RNN
pour transformer les documents en une matrice basée sur le ordinaires ne peuvent pas capturer les relations à long terme
nombre de mots [18]. Pour l’extraction de caractéristiques, en raison du problème de la disparition du gradient. Un réseau
la pondération TF-IDF a été fréquemment utilisée [19]. Le LSTM pourrait être utilisé pour apprendre les dépendances à
but est d’identifier les mots ou les mots-clés qui apparais- long terme [21]. Le LSTM améliore l’unité de couche cachée
sent fréquemment dans un document mais qui n’apparaissent basée sur le RNN et, en ajoutant des unités de stockage, il
pas fréquemment dans la collection complète de documents. surmonte le problème de la disparition du gradient du RNN.
Chaque colonne de la matrice transformée correspond à un Ces unités de stockage, qui comprennent des portes d’oubli,
vecteur représentant un mot du vocabulaire, et chaque ligne des portes d’entrée et des portes de sortie, permettent de filtrer
correspond à un vecteur représentant un document (paquet). les états précédents, en décidant quels états ont l’impact le
Cette approche ne prend pas en compte la position des plus significatif sur l’état actuel plutôt que de simplement
mots dans chaque document (paquet). Un inconvénient de sélectionner les états récents.
l’utilisation de la méthode de pondération TF-IDF est que Un autoencoder est un modèle de réseau de neurones
le vocabulaire peut devenir très grand. Ainsi, la haute di- non supervisé composé de deux étapes: l’encodage et le
mension est inévitable compte tenu du volume des données décodage. En faisant correspondre les données brutes à un
collectées. Cela nécessitera l’utilisation d’énormes vecteurs espace de faible dimension, l’encodeur peut apprendre les car-
pour le codage des documents, ce qui exigera beaucoup actéristiques et les modèles significatifs des données d’entrée.
de mémoire et ralentira le processus d’apprentissage. Pour À partir de l’espace à faible dimension, le décodeur peut
résoudre le problème de dimensionnalité du modèle BoW, reconstruire les données d’entrée originales.
la décomposition en valeurs singulières (SVD) tronquée a Dans cet article, nous combinons un réseau LSTM et un
été utilisée [20]. La raison du choix de la DVS tronquée autoencodeur pour créer un encodeur et un décodeur qui
(Truncated SVD) par rapport à la DVS standard et à l’analyse utilisent deux couches de LSTM. Un encodeur extrait les car-
en composantes principales (ACP) pour la réduction de la actéristiques des données de séries temporelles, et un décodeur
Codage des paquets à l'aide de TF-IDF (Fréquence
du terme - Fréquence du document inverse)

Surmonter le problème de dimensionnalité en


utilisant SVD (décomposition en valeurs singulières)

Fig. 3: Étapes de mise en œuvre de l’approche Bag of Words sur un exemple de trois paquets

reconstruit les échantillons à partir des caractéristiques ex- deux couches cachées déterminent conjointement la sortie du
traites. Dans notre problème, nous avons des données de réseau LSTM bidirectionnel au point actuel. Comme les deux
séries temporelles multivariées, où plusieurs variables sont réseaux n’interagissent pas pendant l’entraı̂nement, ils peuvent
surveillées dans le temps. Les séquences de paquets MMS être utilisés comme un réseau feedforward général [22]. La
représentées comme des vecteurs de caractéristiques seront rétropropagation est également similaire à celle du LSTM, à
utilisées pour entraı̂ner un Autoencodeur LSTM pour la clas- la seule différence qu’elle retourne aux deux couches cachées
sification des événements rares. Pour la reconstruction des avec des valeurs différentes (chaque couche a ses propres
séquences, un autoencodeur LSTM peut être utilisé. Pendant poids) après la propagation vers la couche de sortie.
la phase d’entraı̂nement, il apprendra à reconstruire le trafic
C. Conception du modèle
MMS régulier, et si l’erreur de reconstruction est importante
pendant le test, l’entrée peut être classée comme une attaque La structure du réseau de l’autoencodeur LSTM est
potentielle. présentée dans la figure 4. Les données d’entrée du modèle
sont un tableau tridimensionnel. Tout d’abord, nous avons
B. LSTM bidirectionnel le nombre d’échantillons (# samples), à savoir le nombre
Une anomalie qui se produit à un moment particulier de fenêtres contenant des paquets MMS. Les vecteurs de
dans les données d’une série temporelle aura une corrélation caractéristiques sont divisés par des fenêtres glissantes. La
potentielle avec l’anomalie qui s’est produite avant ce moment deuxième dimension est le lookback (combien de pas de
et aura également un effet important sur les données après ce temps précédents sont utilisés). Les modèles LSTM sont
moment. Par conséquent, les données du passé et du futur à censés regarder le passé, ce qui signifie qu’au moment t,
des moments anormaux peuvent être utilisées pour détecter le LSTM traitera les données jusqu’à (t-lookback) pour faire
des anomalies. Les réseaux LSTM, quant à eux, extraient une prédiction. Différentes tailles de fenêtres ont été testées.
les caractéristiques des données d’entrée jusqu’à un point Dans la suite de cet article, on considère une fenêtre de
donné dans le temps. Cet article utilise un réseau LSTM quatre paquets (cette valeur a donné les meilleurs résultats),
bidirectionnel dans l’encodeur pour prendre en compte les ce qui signifie que le LSTM traitera quatre paquets pour
données passées et futures lors d’occasions anormales. Les détecter une anomalie. La troisième dimension est le nombre
réseaux LSTM bidirectionnels sont composés de deux réseaux de caractéristiques dans chaque vecteur de caractéristiques
LSTM distincts avec deux couches cachées indépendantes. (paquet). Dans ce problème, le nombre de caractéristiques
Les deux couches sont identiques à l’intérieur sauf pour leur après application de la réduction de la dimensionnalité avec
direction. La première couche du LSTM calcule l’information la DVS tronquée était de 1017.
avant au point de temps actuel, et la deuxième couche lit la L’encodeur commence par une couche LSTM bidirection-
même séquence en sens inverse pour calculer l’information nelle, suivie d’un dropout et d’une autre couche LSTM.
arrière au point de temps actuel. Les deux couches cachées Il est nécessaire d’établir des connexions directes entre les
calculent séparément l’état et la sortie du point temporel actuel cellules de pas de temps des couches LSTM consécutives. Par
et transmettent les résultats à la même couche de sortie. Ces conséquent, la première couche LSTM bidirectionnelle fait
en sorte que chaque cellule produise un signal une fois par afin de minimiser l’erreur de reconstruction. Pendant la phase
pas de temps (return sequences = True). Pour la deuxième d’apprentissage, l’autoencodeur est alimenté par des données
couche LSTM, seule la cellule du dernier pas de temps émet normales. En minimisant l’erreur quadratique moyenne en-
des signaux (return sequences = False). La sortie est donc un tre les échantillons reconstruits et originaux, l’autoencodeur
vecteur. apprend les caractéristiques et les modèles implicites des
Afin d’utiliser les caractéristiques codées comme entrée données normales. Par conséquent, l’erreur de reconstruc-
pour le décodeur, en commençant par une couche LSTM, une tion des échantillons normaux est plutôt faible pendant la
duplication des caractéristiques (RepeatVector) doit avoir lieu phase de test. En revanche, l’erreur de reconstruction des
pour créer un tableau lookback × nombre de caractéristiques. échantillons anormaux est relativement importante (car le
Le décodeur est composé d’une couche LSTM suivie d’un modèle n’apprend pas les caractéristiques et les modèles im-
dropout et d’une couche LSTM bidirectionnelle. Un bruit plicites des échantillons anormaux). Par conséquent, cet article
gaussien a été ajouté après la couche LSTM bidirection- utilise l’erreur de reconstruction comme score d’anomalie de
nelle afin d’améliorer la robustesse et de réduire le sur- l’échantillon.
apprentissage. Une couche Time Distributed a été ajoutée à la
V. R ÉSULTATS EXP ÉRIMENTAUX
fin du décodeur pour obtenir la sortie qui a la même forme que
l’entrée. Le nombre de neurones pour chaque couche, comme A. Ensemble de données
illustré dans 4, a été choisi par essais et erreurs. Dans notre L’ensemble de test est déséquilibré; il comporte 92014
implémentation, nous avons adopté la fonction d’activation fenêtres normales et 119 moments anormaux. En particulier,
SELU [23] pour les couches cachées et la fonction tanh pour la chaque fenêtre a une taille de M x N, M désignant la largeur
couche finale, étant donné que les caractéristiques sont mises à de la fenêtre (nombre de paquets) et N étant le nombre de
l’échelle dans la plage −1 et 1. Notez que les hyperparamètres caractéristiques. Nos expériences ont inclus une variété de
peuvent être adaptés et réglés pour différents problèmes. combinaisons de tailles d’entrée différentes. Dans ce qui suit,
nous continuerons à utiliser une fenêtre de quatre paquets et
de 1017 caractéristiques (ou features), car cette combinaison a
input: [(None, 4, 1017)]
donné le meilleur résultat. La largeur de la fenêtre doit garantir
InputLayer
output: [(None, 4, 1017)] que la fenêtre couvre la durée des événements anormaux. Dans
ce contexte, quatre paquets étaient suffisants pour garantir
Bidirectional(LSTM)
input:
output:
(None, 4, 1017)
(None, 4, 624)
que l’événement anormal entier pouvait être contenu dans la
largeur de la fenêtre de l’échantillon anormal.
input: (None, 4, 624)
Dropout
output: (None, 4, 624)
B. Indicateurs d’évaluation
Étant donné que le taux de reconnaissance et le taux d’erreur
LSTM
input: (None, 4, 624) de jugement des événements anormaux sont au cœur de la
output: (None, 256)
détection des anomalies, cet article utilise les indicateurs
input: (None, 256)
suivants pour juger des avantages et des inconvénients du
RepeatVector
output: (None, 4, 256) modèle.
Taux de reconnaissance des séquences d’attaque:
input: (None, 4, 256)
LSTM
output: (None, 4, 256)
V rai P ositif
T aux V rais P ositif s =
V rai P ositif + F aux N egatif
input: (None, 4, 256)
Dropout
output: (None, 4, 256)
Le pourcentage de séquences d’attaque réelles dans un
ensemble de séquences prédites comme une attaque:
input: (None, 4, 256)
Bidirectional(LSTM) V rai P ositif
output: (None, 4, 624) P recision =
V rai P ositif + F aux P ositif
GaussianNoise
input: (None, 4, 624) Taux d’erreur de jugement des séquences d’attaque:
output: (None, 4, 624)
F aux P ositif
T aux F aux P ositif s =
TimeDistributed(Dense)
input: (None, 4, 624) V rai N egatif + F aux P ositif
output: (None, 4, 1017)
Les vrais positifs (VP) correspondent à l’identification
précise d’une séquence d’attaque. Les faux positifs (FP) corre-
Fig. 4: Diagramme de flux d’un autoencodeur LSTM pour une spondent à la classification d’une séquence normale en tant que
fenêtre de 4 paquets exportée à l’aide de Keras séquence d’attaque. Les vrais négatifs (VN) indiquent qu’une
séquence normale a été correctement classée, tandis que les
L’autoencodeur génère des erreurs lors du décodage des faux négatifs (FN) indiquent qu’une séquence d’attaque a
caractéristiques codées et de la reconstruction des échantillons. été incorrectement classée comme une séquence normale. La
La rétropropagation est utilisée pour entraı̂ner un autoencodeur courbe ROC (receiver operating characteristic) et la valeur
AUC (area under the curve) sont fréquemment utilisées pour considérée comme très bonne. Cependant, étant donné les
évaluer la qualité d’un classificateur binaire dans le cadre de données très déséquilibrées de ce travail et l’objectif d’avoir
la classification binaire. La courbe ROC prend le taux de faux le taux de faux positifs le plus élevé possible, une précision de
positifs comme axe horizontal et le taux de vrais positifs 65% est la meilleure que nous puissions obtenir sans réduire le
comme axe vertical et forme une courbe continue avec le rappel en dessous de 96%. Dans ce qui suit, nous considérons
mouvement du seuil. La valeur AUC représente l’aire sous un seuil de 1.35 × 10−4 .
la courbe ROC entre 0 et 1. La valeur AUC peut être utilisée
pour évaluer intuitivement la qualité du modèle, une valeur
plus grande indiquant un meilleur modèle.
Seuil d'erreur qui permet un
taux de vrais positifs optimal
C. Sélection du seuil de classification
Comme indiqué précédemment, l’argument suivant justifie
l’utilisation d’un autoencodeur LSTM pour la détection non
supervisée d’événements rares. Le modèle est entraı̂né sur
une quantité suffisante de données normales qui représentent
le trafic normal dans un environnement donné. Puisque nous
supposons que le modèle a appris le modèle des fenêtres de
trafic normal et a été entraı̂né sur un trafic similaire, le modèle
sera capable de reconstruire une fenêtre de trafic normal non
vue avec une erreur de reconstruction minimale. Étant donné
que les fenêtres anormales (chaque fenêtre avec plusieurs
paquets) sont des événements inhabituels que le modèle n’a Les séquences bénignes au-dessus du 99e centile
pas vus pendant l’entraı̂nement, l’erreur de reconstruction du partagent la même plage d'erreur de reconstruction que
les séquences d'attaque en dessous du 3e centile
décodeur sera importante, signalant que la fenêtre n’est pas
régulière et pourrait être une attaque possible. L’objectif est
de définir ce seuil, au-delà duquel nous pouvons identifier
une séquence comme une attaque si le modèle reconstruit une
fenêtre avec une erreur supérieure à ce seuil. Seuil d'erreur qui permet
une Précision optimale
La figure 5 illustre comment l’erreur de reconstruction pour
les séquences normales (bénignes) et d’attaque varie pour
différents centiles. On constate qu’environ 99% des fenêtres
normales sont reconstruites avec une erreur inférieure à 2 ×
10−5 et 97% des fenêtres d’attaque sont reconstruites avec Fig. 5: Erreur de reconstruction par centile pour les séquences
une erreur supérieure à 3 × 10−4 . Idéalement, il n’y aura pas bénignes et d’attaque
de croisement entre les plages d’erreur des données normales
et des données d’attaque, ce qui permet de définir facilement
un seuil séparant les deux plages. Dans ce problème, on peut
remarquer sur la Figure 5 qu’il existe une petite plage d’erreur
de reconstruction commune entre les données normales et les
données d’attaque. Considérons [e1 , e2 ] la plage d’erreur de
reconstruction partagée et th le seuil à sélectionner et appar- La plage de seuil d'erreur
tenant à cette plage: e1 ≤ th ≤ e2 . Si l’on fixe th à e1 (la plus optimale pour le compromis
précision-rappel
petite valeur de la plage d’erreurs partagées), on obtient le taux
de vrais positifs (rappel) optimal, car l’erreur de reconstruction
de toutes les séquences d’attaque sera supérieure à th, et
donc classée comme une attaque. D’autre part, fixer th à e2
donnera la précision optimale car l’erreur de reconstruction
des séquences normales ne dépassera pas e2 , évitant ainsi
les faux positifs. L’objectif est de sélectionner un seuil de
classification qui offre un compromis raisonnable entre la
précision et le rappel tout en favorisant le rappel (taux de
vrais positifs) pour ce type de problème. La figure 6 montre
la précision et le rappel pour différentes valeurs de seuil. On
Fig. 6: Valeurs de précision et de rappel pour différents seuils
constate qu’un seuil compris entre 1.25 × 10−4 et 1.4 × 10−4
d’erreur
donne un rappel supérieur à 96% et une précision d’environ
65%. Gardons à l’esprit qu’une précision de 65% n’est pas
D. Résultats de l’évaluation
La courbe ROC (Receiver Operating Characteristic) et la
matrice de confusion sont utilisées pour évaluer les perfor-
mances du modèle entraı̂né avec le seuil sélectionné. Con-
trairement à la métrique de précision, le taux de faux positifs
obtenu est très faible. Parmi les 92014 fenêtres normales,
seules 63 (moins de 1%) ont été classées par erreur comme
attaque, comme le montre la matrice de confusion (Figure 8).
La valeur de l’aire sous la courbe (AUC) obtenue dans la
figure 7 indique que le modèle est facilement capable de
distinguer les séquences normales des séquences d’attaque
au seuil sélectionné. Parmi les 119 séquences d’attaque, le
modèle a classé par erreur 4 séquences comme normales. Les
métriques de classification dérivées de la matrice de confusion
sont présentées ci-dessous:
Exactitude (Accuracy) = 0.9992
P recision = 0.6460 Fig. 8: Matrice de confusion obtenue en utilisant un seuil =
1.35 × 10−4
Rappel = 0.9663
Score F 1 = 0.7744
autonome des intrusions dans les réseaux de communica-
Comme on peut le constater, même avec un faible taux tion smart-grid. De nombreux scénarios d’attaque contre les
de faux positifs, le nombre de FP est relativement important systèmes de contrôle industriels sont possibles. Le trafic MMS
par rapport au nombre de VP. Cela s’explique par le fait (Manufacturing Message Specification) a fait l’objet de cet ar-
que le nombre total de séquences normales est significa- ticle. Cet article présente d’abord une technique de préparation
tivement supérieur au nombre de séquences d’attaque. Parmi et d’extraction des caractéristiques des paquets MMS bruts à
les mesures qui pourraient être prises pour étudier/ajuster la l’aide d’un vectoriseur TF-IDF et la DVS tronquée (Truncated
précision du modèle, on peut faire une analyse supplémentaire SVD). Plutôt que d’extraire manuellement des caractéristiques
des caractéristiques et voir s’il existe une caractéristique de chaque paquet MMS, cet article traite chaque paquet
actuellement non analysée qui est toujours fixée à une certaine comme un document et le représente en utilisant l’approche de
valeur dans toutes les prédictions de faux positifs actuelles. prétraitement de texte “Bag of Words” (BoW). Il propose en-
En outre, même si le modèle a une faible précision, il peut suite un autoencodeur LSTM bidirectionnel pour la détection
donner lieu à une estimation de probabilité utile et donc à non supervisée de “séquences”. Cette recherche implique
des informations utiles dans le contexte de la détection des que les approches d’apprentissage profond non supervisées
intrusions. pourraient être utilisées à la place des méthodes supervisées
pour la détection des intrusions lorsque l’étiquetage n’est pas
pratique ou prend du temps. Après un entraı̂nement sur du
trafic normal, le modèle proposé a produit des taux de faux
positifs et de faux négatifs acceptables lorsqu’il a été appliqué
à du trafic non vu avec des séquences d’attaque injectées. La
faiblesse de cette approche, et des méthodes non supervisées
en général, est le taux moyen à élevé de fausses alarmes (faux
positifs) lorsque les données d’entraı̂nement sont incomplètes.
Ceci démontre que les techniques basées sur l’intelligence
artificielle peuvent être bénéfiques et utiles dans les systèmes
de contrôle industriel mais ne sont pas encore le principal
acteur de la détection d’intrusion.
Pour les travaux futurs, nous avons l’intention d’optimiser
Fig. 7: Courbe ROC (Receiver Operating Characteristic) la phase de préparation et de présentation des données, par
exemple nous pouvons tenir compte de l’ordre des mots
présents dans chaque document et tester d’autres approches
VI. C ONCLUSION que le “Bag of Words”. Nous souhaitons également nous
Cet article propose une approche de détection d’anomalies concentrer sur la manière d’optimiser la précision du modèle
non supervisée basée sur le traitement de texte et en collectant davantage de données et en testant d’autres
l’apprentissage profond pour répondre au besoin de détection architectures modernes.
R EFERENCES [12] H. Ding, R. X. Gao, A. J. Isaksson, R. G. Landers, T. Parisini, and
Y. Yuan, “State of ai-based monitoring in smart manufacturing and intro-
[1] A. O. Otuoze, M. W. Mustafa, and R. M. Larik, “Smart grids security duction to focused section,” IEEE/ASME Transactions on Mechatronics,
challenges: Classification by sources of threats,” Journal of Electrical vol. 25, no. 5, pp. 2143–2154, 2020.
Systems and Information Technology, vol. 5, no. 3, pp. 468–483, 2018. [13] T. Rieger, S. Regier, I. Stengel, and N. L. Clarke, “Fast predictive
[2] G. Desarnaud, “Cyber attacks and energy infrastructures: Anticipating maintenance in industrial internet of things (iiot) with deep learning
risks,” 2017. (dl): A review.” CERC, pp. 69–80, 2019.
[3] “European power grid organization hit by cyberattack,”
[14] Q. Song, W. Sheng, L. Kou, D. Zhao, Z. Wu, H. Fang, and X. Zhao,
https://www.welivesecurity.com/2020/03/12/european-power-grid-
“Smart substation integration technology and its application in distribu-
organization-entsoe-cyberattack/, accessed: 2022-03-16.
tion power grid,” CSEE Journal of Power and Energy Systems, vol. 2,
[4] “U.s. escalates online attacks on russia’s power grid,”
no. 4, pp. 31–36, 2016.
https://www.nytimes.com/2019/06/15/us/politics/trump-cyber-russia-
[15] R. Zhu, C.-C. Liu, J. Hong, and J. Wang, “Intrusion detection against
grid.html, accessed: 2022-03-16.
mms-based measurement attacks at digital substations,” IEEE Access,
[5] “Cyberattack targets safety system at saudi aramco,”
vol. 9, pp. 1240–1249, 2020.
https://foreignpolicy.com/2017/12/21/cyber-attack-targets-safety-
system-at-saudi-aramco/, accessed: 2022-03-16. [16] “Concept grid: A unique testing facility dedicated to smart equipment
[6] D. U. Case, “Analysis of the cyber attack on the ukrainian power grid,” and solutions,” https://www.edf.fr/en/the-edf-group/inventing-the-future-
Electricity Information Sharing and Analysis Center (E-ISAC), vol. 388, of-energy/r-d-global-expertise/our-offers/edf-power-networks-lab/our-
pp. 1–29, 2016. testing-facilities/concept-grid, accessed: 2022-03-25.
[7] K.-b. Lee and J.-i. Lim, “The reality and response of cyber threats to [17] H. C. Tan, V. Mohanraj, B. Chen, D. Mashima, S. K. S. Nan, and
critical infrastructure: A case study of the cyber-terror attack on the A. Yang, “An iec 61850 mms traffic parser for customizable and
korea hydro & nuclear power co., ltd.” KSII Transactions on Internet efficient intrusion detection,” in 2021 IEEE International Conference
and Information Systems (TIIS), vol. 10, no. 2, pp. 857–880, 2016. on Communications, Control, and Computing Technologies for Smart
[8] A. Khraisat, I. Gondal, P. Vamplew, and J. Kamruzzaman, “Survey Grids (SmartGridComm). IEEE, 2021, pp. 194–200.
of intrusion detection systems: techniques, datasets and challenges,” [18] S. Qaiser and R. Ali, “Text mining: use of tf-idf to examine the
Cybersecurity, vol. 2, no. 1, pp. 1–22, 2019. relevance of words to documents,” International Journal of Computer
[9] A. Aldweesh, A. Derhab, and A. Z. Emam, “Deep learning approaches Applications, vol. 181, no. 1, pp. 25–29, 2018.
for anomaly-based intrusion detection systems: A survey, taxonomy, and [19] R. Dzisevič and D. Šešok, “Text classification using different feature ex-
open issues,” Knowledge-Based Systems, vol. 189, p. 105124, 2020. traction approaches,” in 2019 Open Conference of Electrical, Electronic
[10] Z. Wang, K. W. Fok, and V. L. Thing, “Machine learning for encrypted and Information Sciences (eStream). IEEE, 2019, pp. 1–4.
malicious traffic detection: Approaches, datasets and comparative study,” [20] S. S. Du, Y. Wang, and A. Singh, “On the power of truncated svd
Computers & Security, vol. 113, p. 102542, 2022. for general high-rank matrix estimation problems,” Advances in neural
[11] M. A. Messaad, C. Jerad, and A. Sikora, “Ai approaches for iot information processing systems, vol. 30, 2017.
security analysis,” in Intelligent Systems, Technologies and Applications. [21] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural
Springer, 2021, pp. 47–70. computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[22] R. C. Staudemeyer and E. R. Morris, “Understanding lstm–a tutorial [23] G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, “Self-
into long short-term memory recurrent neural networks,” arXiv preprint normalizing neural networks,” Advances in neural information process-
arXiv:1909.09586, 2019. ing systems, vol. 30, 2017.

Vous aimerez peut-être aussi