Détection D'anomalies Pour Les Réseaux Smart-Grids Basée Sur Un Autoencodeur LSTM
Détection D'anomalies Pour Les Réseaux Smart-Grids Basée Sur Un Autoencodeur LSTM
Détection D'anomalies Pour Les Réseaux Smart-Grids Basée Sur Un Autoencodeur LSTM
Abstract—Dans les systèmes de réseaux intelligents basés sur System Operators for Electricity” (ENTSO-E), un consortium
la norme IEC 61850, le protocole Manufacturing Message Speci- de 42 gestionnaires de réseaux de transport européens, a
fication (MMS) est largement utilisé pour communiquer avec les trouvé des preuves d’une cyberintrusion réussie dans son
équipements industriels. Il est néanmoins vulnérable à un certain
nombre de cyberattaques. Les systèmes de détection d’intrusions, réseau bureautique. En raison du peu d’informations fournies,
qui surveillent le trafic réseau à la recherche d’irrégularités, sont il n’a pas été possible de savoir si l’attaque avait touché les
une méthode de sécurité courante. Les méthodes traditionnelles clients, les parties prenantes ou les systèmes informatiques [3].
de détection d’anomalies ne sont pas adaptées aux données de D’autres cyberattaques importantes ont eu lieu en 2019 contre
séries temporelles à haute dimension, c’est à dire avec beaucoup l’infrastructure électrique de la Russie [4] et en 2017 contre
de caractéristiques (features). Ce travail présente une approche
de détection d’anomalies basée sur un autoencodeur LSTM les usines pétrochimiques de Saudi Aramco [5]. Le réseau
pour les séquences à haute dimension. Pour la préparation ukrainien a été pris pour cible en 2015, privant des milliers
des données et l’extraction des caractéristiques, une technique de personnes d’électricité [6]. Parmi les attaques menées, il
de traitement de texte basée sur un vectoriseur TF-IDF et est possible de mentionner l’exploitation des outils d’accès à
une décomposition DVS tronquée (Truncated Singular Value distance existants dans l’environnement et les attaques par déni
Decomposition) est également présentée. Le modèle proposé
apprend les caractéristiques et les motifs d’un grand nombre de service téléphonique. En 2014, des cyber-attaquants ont
d’échantillons normaux de manière non supervisée, ce qui permet infiltré “Korea Hydro and Nuclear Power”, la société nucléaire
de résoudre les contraintes des systèmes existants qui reposent et hydroélectrique de Corée du Sud, mettant en ligne les plans
sur des exemples étiquetés. Les résultats montrent que la méthode et les manuels de deux réacteurs nucléaires et exposant les in-
proposée peut extraire des caractéristiques potentielles à partir formations personnelles de milliers d’employés [7]. Les intrus
de données de séries temporelles à haute dimension tout en
conservant un taux de vrais positifs élevé. ont mené l’attaque de trois façons : 1) ils ont utilisé plusieurs
Index Terms—Détection des intrusions, Manufacturing Mes- logiciels malveillants, 2) ils ont exploité une vulnérabilité dans
sage Specification, apprentissage profond, apprentissage non le système d’écriture de la langue coréenne et 3) ils ont utilisé
supervisé, réseau intelligent, autoencodeur des mails de phishing.
De nombreuses mesures de sécurité pourraient être
I. I NTRODUCTION utilisées pour les smart-grids, allant du chiffrement et de
Les réseaux intelligents (smart-grids) sont une amélioration l’authentification à la protection contre les logiciels malveil-
du réseau électrique traditionnel. Ils ajoutent de la connectivité, lants, en passant par la sécurité du réseau et les systèmes
de l’intelligence et un contrôle moderne à l’infrastructure de détection d’intrusion (IDS). La détection d’intrusion se
électrique classique, qui transmet l’électricité de la cen- concentre sur l’identification et la prévention des menaces
trale aux utilisateurs. Étant donné que les réseaux intelli- connues. La fonction principale d’un IDS est de surveiller
gents génèrent des revenus pour les fournisseurs d’énergie le réseau et d’avertir les administrateurs systèmes lorsqu’une
et permettent d’accéder à des informations très privilégiées menace est détectée. Les IDS peuvent être classés princi-
et confidentielles sur les clients, ils sont devenus une cible palement en systèmes de détection d’intrusion basés sur les
attrayante pour toute une série de cyberattaques, ce qui signatures (SIDS) et en systèmes de détection d’intrusion
souligne le besoin crucial de sécurité des réseaux intelli- basés sur les anomalies (AIDS). Les systèmes de détection
gents [1]. Selon le groupe de réflexion Institut Français des d’intrusion par signature (SIDS) s’appuient sur des méthodes
Relations Internationales (IFRI), les cybercriminels ont de de comparaison de modèles pour détecter les attaques connues;
plus en plus ciblé le secteur de l’énergie au cours de la cette technologie est également appelée détection basée sur
dernière décennie, les cyberattaques ayant augmenté de 380% la connaissance. Dans les AIDS, un modèle standard du
entre 2014 et 2015 [2]. La géopolitique, le terrorisme et comportement d’un système est construit à l’aide de méthodes
les gains financiers sont autant de motivations possibles. En d’apprentissage automatique/profond, statistiques ou basées
2020, le réseau européen des gestionnaires de réseaux de sur la connaissance. Toute différence significative entre le
transport d’électricité “European Network of Transmission comportement observé et le comportement prédit est con-
sidérée comme une anomalie, qui peut être perçue comme une bénin. Le modèle reconstruit ensuite les séquences d’entrée
attaque [8]. Aujourd’hui, les solutions de cybersécurité basées et classe les séquences qui ont été mal reconstruites comme
sur les signatures sont progressivement abandonnées au profit des intrusions.
d’agents de cybersécurité intelligents. Les anomalies dans les Le plan du papier est le suivant. La section II présente le
réseaux sont détectées en reconnaissant des modèles non con- moyen d’essai Concept Grid d’EDF et les données collectées
formes dans les données du réseau. La classification du trafic dans ce papier. La section III détaille l’approche de traite-
réseau à l’aide d’algorithmes d’apprentissage profond (deep ment des fichiers PCAP et la section IV présente les étapes
learning DL) a connu un énorme succès avec la disponibilité d’entraı̂nement du modèle. Les expériences réalisées et les
de matériel avancé pour entraı̂ner des modèles complexes sur résultats sont présentés dans la section V. La conclusion est
une grande quantité de données. [9]. En raison de la difficulté présentée dans la section VI.
d’étiqueter un grand volume de trafic réseau, les approches
d’apprentissage non supervisé semblent plus pratiques. II. C OLLECTE DE DONN ÉES
Avec le développement et la maturité de la technologie A. EDF concept grid
d’apprentissage automatique, les modèles axés sur les données Le moyen d’essai Concept Grid d’EDF [16] est une in-
sont devenus le principal moyen de détection des anoma- stallation de test “full-scale” de réseaux intelligents destinée
lies [8], [10], [11]. D’une part, la production industrielle à anticiper et à faciliter la transition de la distribution tra-
a un comportement attendu, et d’autre part, l’équipement ditionnelle d’électricité vers les réseaux intelligents (smart-
de surveillance de la production industrielle est très di- grids). Construit en circuit fermé et simulant pourtant des
versifié [12], et les données industrielles accumulées sont réseaux de distribution d’électricité réels, Concept Grid permet
des données de séries temporelles multidimensionnelles typ- l’exécution en toute sécurité de divers scénarios d’optimisation
iques. Par conséquent, la détection d’anomalies basée sur du réseau (avec reconfiguration automatique en réponse à des
des données de séries temporelles multidimensionnelles a été défauts, incorporation d’énergies renouvelables, optimisation
favorisée par le domaine industriel. Cependant, la détection lors des pics de demande, etc.) Parmi les nombreux avantages
d’anomalies pour les données de séries temporelles multi- de cette installation d’essai, on peut citer la capacité à réaliser
dimensionnelles est une tâche très difficile: tout d’abord, il des tests de stress étendus dans des conditions difficiles qui
existe des corrélations potentielles et des influences mutuelles seraient impossibles à réaliser sur un réseau réel desservant
entre les différentes dimensions des données, ce qui rend plus des clients du monde réel.
difficile la détection et l’identification des modèles anormaux.
Deuxièmement, le big data industriel présente une série de B. Manufacturing Message Specification
caractéristiques telles qu’un grand volume, une hétérogénéité Le sujet d’intérêt de cet article est la détection d’intrusion
multi-source et une forte dynamique [13], ce qui rend le dans le trafic MMS (Manufacturing Message Specifica-
traitement du big data industriel plus difficile. tion) dans un environnement de réseau électrique. La
La conception des sous-stations électriques a changé norme 61850/MMS s’applique au contrôle des réseaux
plusieurs fois ces dernières années. Ces modifications visent électriques [17], définissant la communication entre les dis-
à améliorer les communications grâce à l’utilisation de tech- positifs électroniques intelligents. Son objectif est de rem-
nologies Ethernet et TCP/IP plus efficaces [14]. Différents placer les protocoles propriétaires des fabricants et de per-
protocoles et modèles de données abstraits permettant mettre ainsi l’interopérabilité des équipements. Elle décrit
l’interopérabilité des dispositifs de nombreux fournisseurs ont un modèle de données, un ensemble de services permettant
vu le jour. Le protocole Manufacturing Message Specification d’accéder aux données, et des correspondances avec les pro-
(MMS) est fréquemment utilisé pour communiquer avec les tocoles permettant d’utiliser ces services. Cette norme est
équipements industriels dans les centrales électriques basées conçue pour le contrôle des réseaux électriques. Cependant,
sur la norme IEC 61850. Cependant, comme ce protocole n’a elle ne propose pas un nouveau protocole de communication.
pas été développé dans un souci de sécurité, il est susceptible Elle se base sur des protocoles existants tels que MMS (ISO
de subir diverses cyberattaques [15]. Cet article propose une 9506), GOOSE (Generic Object Oriented Substation Event),
approche d’apprentissage profond non supervisé en plus d’une et un mécanisme de transmission de valeurs échantillonnées
approche de “text mining” pour la préparation des données (Sampled Values).
afin de détecter des séquences d’attaque dans les échantillons
de trafic MMS (Manufacturing Message Specification) fournis C. Jeu de données
par le moyen d’essai Concept Grid d’EDF [16]. Contrairement L’ensemble de données d’apprentissage se compose de près
aux principaux travaux qui ont été proposés dans l’état de de 15 jours de trafic réseau normal et dépasse les 10 Go.
l’art, cet article propose une solution pour les données MMS L’ensemble de test a une taille d’environ 1,3 Go où les
brutes et non structurées. Nous avons utilisé des techniques attaques ont été insérées dans le trafic normal. La détection
de prétraitement de texte pour prétraiter les données XML des anomalies et des attaques a été réalisée sur la couche
générées à partir des fichiers PCAP des MMS. Pour détecter applicative du protocole du modèle OSI utilisé pour faire
les séquences d’attaque, nous avons conçu un modèle LSTM- fonctionner les relais de protection du réseau de distribution,
Autoencodeur et nous l’avons entraı̂né sur du trafic MMS IEC 61850/MMS. Pour ce faire, le fichier de trafic réseau a été
converti en XML. Un commentaire “attaque” a été ajouté au
message IEC 61850/MMS modifié. Chaque message ajouté ou
modifié à partir du fichier XML possède ce commentaire qui
sera utilisé pour valider la précision de l’apprentissage (non Préparation et nettoyage des données
supervisé) qui sera effectué. Plusieurs paquets MMS ont été
générés hors ligne, puis injectés dans le trafic réseau légitime
du fichier XML. L’objectif est de créer des incohérences telles
qu’une succession de fermetures de relais de protection, une Représentation textuelle des paquets MMS à partir de XML
• unconfirmed-PDU
• rejectPDU Réduction de la dimensionnalité avec SVD
• cancel-RequestPDU
• cancel-ResponsePDU
• cancel-ErrorPDU Entraîner un modèle d'apprentissage en profondeur
• cancel-ErrorPDU
• initiate-RequestPDU[ Fig. 1: Prétraitement des données et extraction automatique de
• initiate-ResponsePDU caractéristiques
• initiate-ErrorPDU
III. P R ÉTRAITEMENT DES DONN ÉES va définir le vocabulaire des mots et affecter le processus
Les enregistrements de données brutes de trafic du réseau d’entraı̂nement. Après avoir extrait récursivement toutes les
MMS sont stockés dans des fichiers au format PCAP qui valeurs de l’attribut “showname”, l’objectif était de créer le
comportent un mélange de types de PDU. Pour appliquer plus petit vocabulaire possible sans omettre d’informations
les données brutes au modèle de détection des anomalies, critiques. La stratégie suivante a été adoptée:
il est nécessaire de prétraiter les données de trafic originales • Convertir tous les mots en minuscules.
dans un format de données approprié. La figure 1 illustre le • Enlevez la ponctuation comme: , ; : - ..
prétraitement des données brutes. Les étapes importantes de • Séparer tous les mots contenant /, , ou $ en mots
la phase de prétraitement sont présentées ci-dessous. différents.
• Supprimez tous les chiffres séparés des mots (binaires
A. Préparation et nettoyage des données ou chiffres) car ces chiffres peuvent faire exploser notre
La complexité du format de données d’un paquet MMS, la vocabulaire.
présence de champs facultatifs qui peuvent ou non exister dans • Si des noms de fichiers sont présents, supprimez le nom
le paquet, la nécessité de prendre en charge un grand nombre de fichier et conservez l’extension.
de services MMS et les structures de données récursives sont • Supprimer les dates.
des facteurs qui rendent la tâche d’analyse et de traitement La figure 2 illustre un exemple de paquet avant et après
des données complexes. Le défi réside dans le fait que chaque nettoyage. Après avoir nettoyé tous les paquets, un vocabulaire
type de PDU contient des champs différents des autres PDU, pourrait être construit. Chaque balise XML représentant un
ce qui rend difficile la représentation des données de manière paquet peut être transformée en une ligne contenant plusieurs
structurée. L’objectif est de transformer chaque paquet en une mots. Notez que le nettoyage des paquets et la construction du
liste contenant de nombreux mots. Nous nous sommes inspirés vocabulaire peuvent changer en fonction du problème et des
de la manière dont les données textuelles sont prétraitées données disponibles.
dans le traitement du langage naturel, où une phrase est
considérée comme une séquence de tokens ou de mots. Dans B. Mise en œuvre du Bag of Words
ce contexte, chaque balise XML représentant un paquet MMS Après avoir nettoyé les données textuelles et les avoir
est représentée par une séquence de mots. Cela se fait en enregistrées, ces données nettoyées doivent être représentées
prenant récursivement toutes les informations présentes dans de manière compréhensible pour un modèle d’apprentissage
l’attribut ”showname” dans les champs d’une balise XML profond. L’approche “sac de mots” ou “Bag of Words” (BoW)
(représentant un paquet MMS). L’étape critique est celle qui a été proposée pour cette tâche. Le modèle BoW est une façon
vient ensuite, à savoir le nettoyage des données textuelles. de représenter les données textuelles lors de la modélisation
L’étape de nettoyage est cruciale dans ce processus car elle du texte par apprentissage profond. La raison pour laquelle
Paquet MMS au format XML
dimensionnalité est que la DVS tronquée est plus efficace
sur le plan informatique. En raison de la nature éparse des
vecteurs de caractéristiques transformés dérivés des paquets
MMS (la très grande majorité des valeurs sont à zéro), la
DVS tronquée est plus apte à traiter ces données éparses que
l’ACP ou la DVS standard. L’ACP exige le calcul de la matrice
de covariance, ce qui nécessite d’agir sur l’ensemble de la
matrice, augmentant ainsi la charge de traitement. De même,
pour une matrice M x N, la méthode DVS standard donne
toujours une matrice à N colonnes, alors que la méthode DVS
tronquée peut donner des matrices avec un nombre quelconque
Paquet MMS représenté comme une liste de mots de colonnes. La figure 3 illustre la procédure de génération de
vecteurs de caractéristiques à dimension réduite à partir d’un
exemple de trois documents MMS.
Fig. 3: Étapes de mise en œuvre de l’approche Bag of Words sur un exemple de trois paquets
reconstruit les échantillons à partir des caractéristiques ex- deux couches cachées déterminent conjointement la sortie du
traites. Dans notre problème, nous avons des données de réseau LSTM bidirectionnel au point actuel. Comme les deux
séries temporelles multivariées, où plusieurs variables sont réseaux n’interagissent pas pendant l’entraı̂nement, ils peuvent
surveillées dans le temps. Les séquences de paquets MMS être utilisés comme un réseau feedforward général [22]. La
représentées comme des vecteurs de caractéristiques seront rétropropagation est également similaire à celle du LSTM, à
utilisées pour entraı̂ner un Autoencodeur LSTM pour la clas- la seule différence qu’elle retourne aux deux couches cachées
sification des événements rares. Pour la reconstruction des avec des valeurs différentes (chaque couche a ses propres
séquences, un autoencodeur LSTM peut être utilisé. Pendant poids) après la propagation vers la couche de sortie.
la phase d’entraı̂nement, il apprendra à reconstruire le trafic
C. Conception du modèle
MMS régulier, et si l’erreur de reconstruction est importante
pendant le test, l’entrée peut être classée comme une attaque La structure du réseau de l’autoencodeur LSTM est
potentielle. présentée dans la figure 4. Les données d’entrée du modèle
sont un tableau tridimensionnel. Tout d’abord, nous avons
B. LSTM bidirectionnel le nombre d’échantillons (# samples), à savoir le nombre
Une anomalie qui se produit à un moment particulier de fenêtres contenant des paquets MMS. Les vecteurs de
dans les données d’une série temporelle aura une corrélation caractéristiques sont divisés par des fenêtres glissantes. La
potentielle avec l’anomalie qui s’est produite avant ce moment deuxième dimension est le lookback (combien de pas de
et aura également un effet important sur les données après ce temps précédents sont utilisés). Les modèles LSTM sont
moment. Par conséquent, les données du passé et du futur à censés regarder le passé, ce qui signifie qu’au moment t,
des moments anormaux peuvent être utilisées pour détecter le LSTM traitera les données jusqu’à (t-lookback) pour faire
des anomalies. Les réseaux LSTM, quant à eux, extraient une prédiction. Différentes tailles de fenêtres ont été testées.
les caractéristiques des données d’entrée jusqu’à un point Dans la suite de cet article, on considère une fenêtre de
donné dans le temps. Cet article utilise un réseau LSTM quatre paquets (cette valeur a donné les meilleurs résultats),
bidirectionnel dans l’encodeur pour prendre en compte les ce qui signifie que le LSTM traitera quatre paquets pour
données passées et futures lors d’occasions anormales. Les détecter une anomalie. La troisième dimension est le nombre
réseaux LSTM bidirectionnels sont composés de deux réseaux de caractéristiques dans chaque vecteur de caractéristiques
LSTM distincts avec deux couches cachées indépendantes. (paquet). Dans ce problème, le nombre de caractéristiques
Les deux couches sont identiques à l’intérieur sauf pour leur après application de la réduction de la dimensionnalité avec
direction. La première couche du LSTM calcule l’information la DVS tronquée était de 1017.
avant au point de temps actuel, et la deuxième couche lit la L’encodeur commence par une couche LSTM bidirection-
même séquence en sens inverse pour calculer l’information nelle, suivie d’un dropout et d’une autre couche LSTM.
arrière au point de temps actuel. Les deux couches cachées Il est nécessaire d’établir des connexions directes entre les
calculent séparément l’état et la sortie du point temporel actuel cellules de pas de temps des couches LSTM consécutives. Par
et transmettent les résultats à la même couche de sortie. Ces conséquent, la première couche LSTM bidirectionnelle fait
en sorte que chaque cellule produise un signal une fois par afin de minimiser l’erreur de reconstruction. Pendant la phase
pas de temps (return sequences = True). Pour la deuxième d’apprentissage, l’autoencodeur est alimenté par des données
couche LSTM, seule la cellule du dernier pas de temps émet normales. En minimisant l’erreur quadratique moyenne en-
des signaux (return sequences = False). La sortie est donc un tre les échantillons reconstruits et originaux, l’autoencodeur
vecteur. apprend les caractéristiques et les modèles implicites des
Afin d’utiliser les caractéristiques codées comme entrée données normales. Par conséquent, l’erreur de reconstruc-
pour le décodeur, en commençant par une couche LSTM, une tion des échantillons normaux est plutôt faible pendant la
duplication des caractéristiques (RepeatVector) doit avoir lieu phase de test. En revanche, l’erreur de reconstruction des
pour créer un tableau lookback × nombre de caractéristiques. échantillons anormaux est relativement importante (car le
Le décodeur est composé d’une couche LSTM suivie d’un modèle n’apprend pas les caractéristiques et les modèles im-
dropout et d’une couche LSTM bidirectionnelle. Un bruit plicites des échantillons anormaux). Par conséquent, cet article
gaussien a été ajouté après la couche LSTM bidirection- utilise l’erreur de reconstruction comme score d’anomalie de
nelle afin d’améliorer la robustesse et de réduire le sur- l’échantillon.
apprentissage. Une couche Time Distributed a été ajoutée à la
V. R ÉSULTATS EXP ÉRIMENTAUX
fin du décodeur pour obtenir la sortie qui a la même forme que
l’entrée. Le nombre de neurones pour chaque couche, comme A. Ensemble de données
illustré dans 4, a été choisi par essais et erreurs. Dans notre L’ensemble de test est déséquilibré; il comporte 92014
implémentation, nous avons adopté la fonction d’activation fenêtres normales et 119 moments anormaux. En particulier,
SELU [23] pour les couches cachées et la fonction tanh pour la chaque fenêtre a une taille de M x N, M désignant la largeur
couche finale, étant donné que les caractéristiques sont mises à de la fenêtre (nombre de paquets) et N étant le nombre de
l’échelle dans la plage −1 et 1. Notez que les hyperparamètres caractéristiques. Nos expériences ont inclus une variété de
peuvent être adaptés et réglés pour différents problèmes. combinaisons de tailles d’entrée différentes. Dans ce qui suit,
nous continuerons à utiliser une fenêtre de quatre paquets et
de 1017 caractéristiques (ou features), car cette combinaison a
input: [(None, 4, 1017)]
donné le meilleur résultat. La largeur de la fenêtre doit garantir
InputLayer
output: [(None, 4, 1017)] que la fenêtre couvre la durée des événements anormaux. Dans
ce contexte, quatre paquets étaient suffisants pour garantir
Bidirectional(LSTM)
input:
output:
(None, 4, 1017)
(None, 4, 624)
que l’événement anormal entier pouvait être contenu dans la
largeur de la fenêtre de l’échantillon anormal.
input: (None, 4, 624)
Dropout
output: (None, 4, 624)
B. Indicateurs d’évaluation
Étant donné que le taux de reconnaissance et le taux d’erreur
LSTM
input: (None, 4, 624) de jugement des événements anormaux sont au cœur de la
output: (None, 256)
détection des anomalies, cet article utilise les indicateurs
input: (None, 256)
suivants pour juger des avantages et des inconvénients du
RepeatVector
output: (None, 4, 256) modèle.
Taux de reconnaissance des séquences d’attaque:
input: (None, 4, 256)
LSTM
output: (None, 4, 256)
V rai P ositif
T aux V rais P ositif s =
V rai P ositif + F aux N egatif
input: (None, 4, 256)
Dropout
output: (None, 4, 256)
Le pourcentage de séquences d’attaque réelles dans un
ensemble de séquences prédites comme une attaque:
input: (None, 4, 256)
Bidirectional(LSTM) V rai P ositif
output: (None, 4, 624) P recision =
V rai P ositif + F aux P ositif
GaussianNoise
input: (None, 4, 624) Taux d’erreur de jugement des séquences d’attaque:
output: (None, 4, 624)
F aux P ositif
T aux F aux P ositif s =
TimeDistributed(Dense)
input: (None, 4, 624) V rai N egatif + F aux P ositif
output: (None, 4, 1017)
Les vrais positifs (VP) correspondent à l’identification
précise d’une séquence d’attaque. Les faux positifs (FP) corre-
Fig. 4: Diagramme de flux d’un autoencodeur LSTM pour une spondent à la classification d’une séquence normale en tant que
fenêtre de 4 paquets exportée à l’aide de Keras séquence d’attaque. Les vrais négatifs (VN) indiquent qu’une
séquence normale a été correctement classée, tandis que les
L’autoencodeur génère des erreurs lors du décodage des faux négatifs (FN) indiquent qu’une séquence d’attaque a
caractéristiques codées et de la reconstruction des échantillons. été incorrectement classée comme une séquence normale. La
La rétropropagation est utilisée pour entraı̂ner un autoencodeur courbe ROC (receiver operating characteristic) et la valeur
AUC (area under the curve) sont fréquemment utilisées pour considérée comme très bonne. Cependant, étant donné les
évaluer la qualité d’un classificateur binaire dans le cadre de données très déséquilibrées de ce travail et l’objectif d’avoir
la classification binaire. La courbe ROC prend le taux de faux le taux de faux positifs le plus élevé possible, une précision de
positifs comme axe horizontal et le taux de vrais positifs 65% est la meilleure que nous puissions obtenir sans réduire le
comme axe vertical et forme une courbe continue avec le rappel en dessous de 96%. Dans ce qui suit, nous considérons
mouvement du seuil. La valeur AUC représente l’aire sous un seuil de 1.35 × 10−4 .
la courbe ROC entre 0 et 1. La valeur AUC peut être utilisée
pour évaluer intuitivement la qualité du modèle, une valeur
plus grande indiquant un meilleur modèle.
Seuil d'erreur qui permet un
taux de vrais positifs optimal
C. Sélection du seuil de classification
Comme indiqué précédemment, l’argument suivant justifie
l’utilisation d’un autoencodeur LSTM pour la détection non
supervisée d’événements rares. Le modèle est entraı̂né sur
une quantité suffisante de données normales qui représentent
le trafic normal dans un environnement donné. Puisque nous
supposons que le modèle a appris le modèle des fenêtres de
trafic normal et a été entraı̂né sur un trafic similaire, le modèle
sera capable de reconstruire une fenêtre de trafic normal non
vue avec une erreur de reconstruction minimale. Étant donné
que les fenêtres anormales (chaque fenêtre avec plusieurs
paquets) sont des événements inhabituels que le modèle n’a Les séquences bénignes au-dessus du 99e centile
pas vus pendant l’entraı̂nement, l’erreur de reconstruction du partagent la même plage d'erreur de reconstruction que
les séquences d'attaque en dessous du 3e centile
décodeur sera importante, signalant que la fenêtre n’est pas
régulière et pourrait être une attaque possible. L’objectif est
de définir ce seuil, au-delà duquel nous pouvons identifier
une séquence comme une attaque si le modèle reconstruit une
fenêtre avec une erreur supérieure à ce seuil. Seuil d'erreur qui permet
une Précision optimale
La figure 5 illustre comment l’erreur de reconstruction pour
les séquences normales (bénignes) et d’attaque varie pour
différents centiles. On constate qu’environ 99% des fenêtres
normales sont reconstruites avec une erreur inférieure à 2 ×
10−5 et 97% des fenêtres d’attaque sont reconstruites avec Fig. 5: Erreur de reconstruction par centile pour les séquences
une erreur supérieure à 3 × 10−4 . Idéalement, il n’y aura pas bénignes et d’attaque
de croisement entre les plages d’erreur des données normales
et des données d’attaque, ce qui permet de définir facilement
un seuil séparant les deux plages. Dans ce problème, on peut
remarquer sur la Figure 5 qu’il existe une petite plage d’erreur
de reconstruction commune entre les données normales et les
données d’attaque. Considérons [e1 , e2 ] la plage d’erreur de
reconstruction partagée et th le seuil à sélectionner et appar- La plage de seuil d'erreur
tenant à cette plage: e1 ≤ th ≤ e2 . Si l’on fixe th à e1 (la plus optimale pour le compromis
précision-rappel
petite valeur de la plage d’erreurs partagées), on obtient le taux
de vrais positifs (rappel) optimal, car l’erreur de reconstruction
de toutes les séquences d’attaque sera supérieure à th, et
donc classée comme une attaque. D’autre part, fixer th à e2
donnera la précision optimale car l’erreur de reconstruction
des séquences normales ne dépassera pas e2 , évitant ainsi
les faux positifs. L’objectif est de sélectionner un seuil de
classification qui offre un compromis raisonnable entre la
précision et le rappel tout en favorisant le rappel (taux de
vrais positifs) pour ce type de problème. La figure 6 montre
la précision et le rappel pour différentes valeurs de seuil. On
Fig. 6: Valeurs de précision et de rappel pour différents seuils
constate qu’un seuil compris entre 1.25 × 10−4 et 1.4 × 10−4
d’erreur
donne un rappel supérieur à 96% et une précision d’environ
65%. Gardons à l’esprit qu’une précision de 65% n’est pas
D. Résultats de l’évaluation
La courbe ROC (Receiver Operating Characteristic) et la
matrice de confusion sont utilisées pour évaluer les perfor-
mances du modèle entraı̂né avec le seuil sélectionné. Con-
trairement à la métrique de précision, le taux de faux positifs
obtenu est très faible. Parmi les 92014 fenêtres normales,
seules 63 (moins de 1%) ont été classées par erreur comme
attaque, comme le montre la matrice de confusion (Figure 8).
La valeur de l’aire sous la courbe (AUC) obtenue dans la
figure 7 indique que le modèle est facilement capable de
distinguer les séquences normales des séquences d’attaque
au seuil sélectionné. Parmi les 119 séquences d’attaque, le
modèle a classé par erreur 4 séquences comme normales. Les
métriques de classification dérivées de la matrice de confusion
sont présentées ci-dessous:
Exactitude (Accuracy) = 0.9992
P recision = 0.6460 Fig. 8: Matrice de confusion obtenue en utilisant un seuil =
1.35 × 10−4
Rappel = 0.9663
Score F 1 = 0.7744
autonome des intrusions dans les réseaux de communica-
Comme on peut le constater, même avec un faible taux tion smart-grid. De nombreux scénarios d’attaque contre les
de faux positifs, le nombre de FP est relativement important systèmes de contrôle industriels sont possibles. Le trafic MMS
par rapport au nombre de VP. Cela s’explique par le fait (Manufacturing Message Specification) a fait l’objet de cet ar-
que le nombre total de séquences normales est significa- ticle. Cet article présente d’abord une technique de préparation
tivement supérieur au nombre de séquences d’attaque. Parmi et d’extraction des caractéristiques des paquets MMS bruts à
les mesures qui pourraient être prises pour étudier/ajuster la l’aide d’un vectoriseur TF-IDF et la DVS tronquée (Truncated
précision du modèle, on peut faire une analyse supplémentaire SVD). Plutôt que d’extraire manuellement des caractéristiques
des caractéristiques et voir s’il existe une caractéristique de chaque paquet MMS, cet article traite chaque paquet
actuellement non analysée qui est toujours fixée à une certaine comme un document et le représente en utilisant l’approche de
valeur dans toutes les prédictions de faux positifs actuelles. prétraitement de texte “Bag of Words” (BoW). Il propose en-
En outre, même si le modèle a une faible précision, il peut suite un autoencodeur LSTM bidirectionnel pour la détection
donner lieu à une estimation de probabilité utile et donc à non supervisée de “séquences”. Cette recherche implique
des informations utiles dans le contexte de la détection des que les approches d’apprentissage profond non supervisées
intrusions. pourraient être utilisées à la place des méthodes supervisées
pour la détection des intrusions lorsque l’étiquetage n’est pas
pratique ou prend du temps. Après un entraı̂nement sur du
trafic normal, le modèle proposé a produit des taux de faux
positifs et de faux négatifs acceptables lorsqu’il a été appliqué
à du trafic non vu avec des séquences d’attaque injectées. La
faiblesse de cette approche, et des méthodes non supervisées
en général, est le taux moyen à élevé de fausses alarmes (faux
positifs) lorsque les données d’entraı̂nement sont incomplètes.
Ceci démontre que les techniques basées sur l’intelligence
artificielle peuvent être bénéfiques et utiles dans les systèmes
de contrôle industriel mais ne sont pas encore le principal
acteur de la détection d’intrusion.
Pour les travaux futurs, nous avons l’intention d’optimiser
Fig. 7: Courbe ROC (Receiver Operating Characteristic) la phase de préparation et de présentation des données, par
exemple nous pouvons tenir compte de l’ordre des mots
présents dans chaque document et tester d’autres approches
VI. C ONCLUSION que le “Bag of Words”. Nous souhaitons également nous
Cet article propose une approche de détection d’anomalies concentrer sur la manière d’optimiser la précision du modèle
non supervisée basée sur le traitement de texte et en collectant davantage de données et en testant d’autres
l’apprentissage profond pour répondre au besoin de détection architectures modernes.
R EFERENCES [12] H. Ding, R. X. Gao, A. J. Isaksson, R. G. Landers, T. Parisini, and
Y. Yuan, “State of ai-based monitoring in smart manufacturing and intro-
[1] A. O. Otuoze, M. W. Mustafa, and R. M. Larik, “Smart grids security duction to focused section,” IEEE/ASME Transactions on Mechatronics,
challenges: Classification by sources of threats,” Journal of Electrical vol. 25, no. 5, pp. 2143–2154, 2020.
Systems and Information Technology, vol. 5, no. 3, pp. 468–483, 2018. [13] T. Rieger, S. Regier, I. Stengel, and N. L. Clarke, “Fast predictive
[2] G. Desarnaud, “Cyber attacks and energy infrastructures: Anticipating maintenance in industrial internet of things (iiot) with deep learning
risks,” 2017. (dl): A review.” CERC, pp. 69–80, 2019.
[3] “European power grid organization hit by cyberattack,”
[14] Q. Song, W. Sheng, L. Kou, D. Zhao, Z. Wu, H. Fang, and X. Zhao,
https://www.welivesecurity.com/2020/03/12/european-power-grid-
“Smart substation integration technology and its application in distribu-
organization-entsoe-cyberattack/, accessed: 2022-03-16.
tion power grid,” CSEE Journal of Power and Energy Systems, vol. 2,
[4] “U.s. escalates online attacks on russia’s power grid,”
no. 4, pp. 31–36, 2016.
https://www.nytimes.com/2019/06/15/us/politics/trump-cyber-russia-
[15] R. Zhu, C.-C. Liu, J. Hong, and J. Wang, “Intrusion detection against
grid.html, accessed: 2022-03-16.
mms-based measurement attacks at digital substations,” IEEE Access,
[5] “Cyberattack targets safety system at saudi aramco,”
vol. 9, pp. 1240–1249, 2020.
https://foreignpolicy.com/2017/12/21/cyber-attack-targets-safety-
system-at-saudi-aramco/, accessed: 2022-03-16. [16] “Concept grid: A unique testing facility dedicated to smart equipment
[6] D. U. Case, “Analysis of the cyber attack on the ukrainian power grid,” and solutions,” https://www.edf.fr/en/the-edf-group/inventing-the-future-
Electricity Information Sharing and Analysis Center (E-ISAC), vol. 388, of-energy/r-d-global-expertise/our-offers/edf-power-networks-lab/our-
pp. 1–29, 2016. testing-facilities/concept-grid, accessed: 2022-03-25.
[7] K.-b. Lee and J.-i. Lim, “The reality and response of cyber threats to [17] H. C. Tan, V. Mohanraj, B. Chen, D. Mashima, S. K. S. Nan, and
critical infrastructure: A case study of the cyber-terror attack on the A. Yang, “An iec 61850 mms traffic parser for customizable and
korea hydro & nuclear power co., ltd.” KSII Transactions on Internet efficient intrusion detection,” in 2021 IEEE International Conference
and Information Systems (TIIS), vol. 10, no. 2, pp. 857–880, 2016. on Communications, Control, and Computing Technologies for Smart
[8] A. Khraisat, I. Gondal, P. Vamplew, and J. Kamruzzaman, “Survey Grids (SmartGridComm). IEEE, 2021, pp. 194–200.
of intrusion detection systems: techniques, datasets and challenges,” [18] S. Qaiser and R. Ali, “Text mining: use of tf-idf to examine the
Cybersecurity, vol. 2, no. 1, pp. 1–22, 2019. relevance of words to documents,” International Journal of Computer
[9] A. Aldweesh, A. Derhab, and A. Z. Emam, “Deep learning approaches Applications, vol. 181, no. 1, pp. 25–29, 2018.
for anomaly-based intrusion detection systems: A survey, taxonomy, and [19] R. Dzisevič and D. Šešok, “Text classification using different feature ex-
open issues,” Knowledge-Based Systems, vol. 189, p. 105124, 2020. traction approaches,” in 2019 Open Conference of Electrical, Electronic
[10] Z. Wang, K. W. Fok, and V. L. Thing, “Machine learning for encrypted and Information Sciences (eStream). IEEE, 2019, pp. 1–4.
malicious traffic detection: Approaches, datasets and comparative study,” [20] S. S. Du, Y. Wang, and A. Singh, “On the power of truncated svd
Computers & Security, vol. 113, p. 102542, 2022. for general high-rank matrix estimation problems,” Advances in neural
[11] M. A. Messaad, C. Jerad, and A. Sikora, “Ai approaches for iot information processing systems, vol. 30, 2017.
security analysis,” in Intelligent Systems, Technologies and Applications. [21] S. Hochreiter and J. Schmidhuber, “Long short-term memory,” Neural
Springer, 2021, pp. 47–70. computation, vol. 9, no. 8, pp. 1735–1780, 1997.
[22] R. C. Staudemeyer and E. R. Morris, “Understanding lstm–a tutorial [23] G. Klambauer, T. Unterthiner, A. Mayr, and S. Hochreiter, “Self-
into long short-term memory recurrent neural networks,” arXiv preprint normalizing neural networks,” Advances in neural information process-
arXiv:1909.09586, 2019. ing systems, vol. 30, 2017.