2023 FEZAI Lobna These
2023 FEZAI Lobna These
2023 FEZAI Lobna These
Lobna Fezai
Thèse
en vue de l’obtention du
Spécialité doctorale :
Traitement du Signal et des Images
Directrice de thèse :
Christine FERNANDEZ MALOIGNE
Encadrants :
Thierry URRUTY
Pascal BOURDON
par
Lobna FEZAI
INTRODUCTION GÉNÉRALE xi
i
TABLE DES MATIÈRES
ii
TABLE DES MATIÈRES
2.5.5.1 Objectif . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
2.5.5.2 Contribution . . . . . . . . . . . . . . . . . . . . . . . . . . 86
2.5.5.3 Approche et résultats . . . . . . . . . . . . . . . . . . . . . 87
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3 Anonymisation profonde 89
3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 L’apprentissage profond et la confidentialité . . . . . . . . . . . . . . . . . . . 94
3.2.1 Les données : le pétrole d’aujourd’hui . . . . . . . . . . . . . . . . . . 95
3.2.2 La confidentialité en jeu . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.2.3 Empreintes digitales . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
3.3 Base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.4 L’anonymisation liée aux équipements d’acquisition de l’IRM . . . . . . . . . 102
3.4.1 Approches et architectures . . . . . . . . . . . . . . . . . . . . . . . . 103
3.4.1.1 Jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . 103
3.4.1.2 La classification en fonction de différents équipements . . . . 104
3.4.1.3 La reconstruction de l’IRM . . . . . . . . . . . . . . . . . . 104
3.4.2 Reformulation mathématique . . . . . . . . . . . . . . . . . . . . . . . 106
3.4.3 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . . . . . 107
3.5 L’anonymisation liée à l’identité du patient . . . . . . . . . . . . . . . . . . . . 111
3.5.1 Approches et architectures . . . . . . . . . . . . . . . . . . . . . . . . 113
3.5.1.1 Jeu de données . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.5.1.2 La classification en fonction de l’identité de patients . . . . . 114
3.5.1.3 La reconstruction de l’IRM . . . . . . . . . . . . . . . . . . 114
3.5.2 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . . . . . 114
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
iii
TABLE DES MATIÈRES
BIBLIOGRAPHIE 137
iv
LISTE DES FIGURES
v
LISTE DES FIGURES
vi
LISTE DES FIGURES
vii
LISTE DES FIGURES
3.6 La distribution de la base de données ADNI en fonction d’âge et de sexe en 2022 101
3.7 Architecture proposée pour la classification des équipements d’IRM . . . . . . 105
3.8 Architecture proposée pour la reconstruction de l’IRM . . . . . . . . . . . . . 106
3.9 Courbe de la précision de classification de l’entraînement et de la validation de
la classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
3.10 Courbe de la fonction d’erreur de l’entraînement et de la validation de la
classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
3.11 Matrice de confusion des données test de la classification . . . . . . . . . . . . 109
3.12 Des échantillons des images reconstruites . . . . . . . . . . . . . . . . . . . . 110
3.13 La courbe de la fonction d’erreur d’auto-encodeur . . . . . . . . . . . . . . . . 110
3.14 La courbe de la PSNR en fonction de Lambda . . . . . . . . . . . . . . . . . . 111
3.15 La courbe de la PSNR en fonction de la précision de classification du test . . . 112
3.16 Matrice de confusion des données de test de notre approche finale . . . . . . . 112
3.17 Courbe de la précision de classification et de la perte de la méthode de la
classification classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.18 Courbe de la précision de classification et de la perte de la méthode de réseau
seamois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
3.19 Matrice de confusion des données test de la classification . . . . . . . . . . . . 116
3.20 Exemple d’images reconstruites par l’auto-encodeur avec la fonction d’erreur
adaptée. À gauche, l’image originale et l’image reconstruite d’un patient
souffrant de la maladie d’Alzheimer, à droite, les images d’un patient sain. . . 116
3.21 Matrice de confusion des données de test de notre approche finale . . . . . . . 117
viii
LISTE DES ABRÉVIATIONS
CA Classification Accuracy
DL Deep Learning
DT Decision Tree
FN False Negative
FP False Postive
IA Intelligence artificielle
ML Machine Learning
RF Random Forest
ix
LISTE DES ABRÉVIATIONS
LR Logistic Regression
TN True Negative
TP True Positive
x
INTRODUCTION GÉNÉRALE
xi
INTRODUCTION GÉNÉRALE
Ainsi, les algorithmes d’apprentissage profond sont mieux adaptés à différents cas
d’utilisation tels que la vision par ordinateur (détection des objets (voir fig. 2), reconnaissance
xii
INTRODUCTION GÉNÉRALE
faciale (voir fig. 3), reconnaissance des sentiments (voir fig. 4)), traitement de signal ou le
traitement du langage naturel, dépassant même les capacités humaines pour certaines tâches.
Par exemple, en 2016, une solution basée sur un réseau de neurones profond a été proposé avec
une meilleure capacité de classification et de reconnaissance des objets que l’homme [247]. Au
cours de la même année, une autre méthode d’apprentissage automatique appelée AlphaGo a
battu les champions du monde au jeu de GO [225]. Des marques d’automobile se sont mises
en compétition pour produire les meilleures voitures autonomes en déployant l’apprentissage
profond [82]. L’apprentissage profond est donc devenu omniprésent dans notre quotidien,
parfois sans prise de conscience, il est incorporé dans nos voitures, nos smartphones, nos
appareils connectés, nos maisons et nos établissements. Il est utilisé dans des applications aux
domaines variés, notamment la sécurité [262], l’éducation, l’analyse du climat, les prédictions
financières et le diagnostic médical auquel nous nous intéressons particulièrement dans cette
thèse.
xiii
INTRODUCTION GÉNÉRALE
un outil d’aide au diagnostic et de soutien des experts médicaux et non pas comme un outil
visant à supplanter le médecin.
Par exemple, Google s’est intéressé à l’apprentissage profond afin d’aider les cliniciens à
gérer les données et les résultats des patients. Dans ce sens, l’article "apprentissage profond
pour les dossiers médicaux électroniques" [195] montre la possibilité de réduire la charge
administrative en améliorant la compréhension des traitements et des besoins des patients. La
boîte à outils d’apprentissage profond peut également fournir un soutien indispensable aux
professionnels de santé eux-mêmes. Le prestataire de soins de santé NHS au Royaume-Uni
a reconnu la valeur de cette technologie et s’est engagé à devenir un leader dans le domaine
des soins de santé grâce à l’apprentissage profond. Un investissement dans des solutions
d’apprentissage profond, notamment AWS d’Amazon et Aidoc, permet de contourner certains
des défis du domaine médical et en particulier les exigences rigoureuses de l’imagerie médicale.
xiv
INTRODUCTION GÉNÉRALE
Si l’apprentissage profond dans les soins de santé n’en est encore qu’aux premiers stades de
son potentiel, il a déjà donné des résultats significatifs. Ses bénéfices ont été reconnus par des
institutions et des organisations médicales de premier plan. L’avenir est toujours entre les mains
des professionnels de santé, mais ils sont désormais soutenus par une technique qui comprend
leurs besoins et qui diminue les stress qu’ils subissent au quotidien.
Eric Topol, cardiologue, généticien et auteur du livre "Deep Medicine" [255], a souligné,
dans une interview sur l’application de l’apprentissage profond pour restaurer les soins de santé,
l’immense importance de cette technologie dans le domaine de la santé [47]. Il a exprimé aussi
que l’application médicale la plus prometteuse est le diagnostic basé sur l’imagerie médicale
représentant un premier dépistage sous la supervision du professionnel de santé. Il a mis en
relief aussi les principaux défis techniques et pratiques de l’incorporation l’IA dans la médecine,
notamment la sécurité, les biais des algorithmes et les inégalités expliquées par le fait que
l’IA n’est accessible qu’à ceux qui peuvent se l’offrir à cause des coûts élevés de calcul et
de stockage. Ceci nous amène à la dernière partie de cette introduction. En effet, bien que
l’apprentissage profond soit une solution idéale pour de multiples problématiques, la mise en
œuvre de l’apprentissage profond au sein du domaine médical fait l’objet de multiples critiques
et plusieurs défis techniques, scientifiques, éthiques et sociaux sont rencontrés.
a) Défis techniques
L’apprentissage profond exige une grande quantité de ressources, notamment du calcul pour
exécuter les algorithmes complexes rapidement et de la mémoire pour stocker les modèles et
les données, provoquant un besoin énorme d’énergie. Ces exigences sont considérées souvent
xv
INTRODUCTION GÉNÉRALE
comme une entrave qui réduit significativement les domaines d’application des réseaux de
neurones, notamment des cas d’utilisation en temps réel ou des applications dans des systèmes
embarqués avec des ressources limitées en mémoire, en calcul ou en batterie.
Enfin, après avoir fourni toutes les ressources nécessaires, un dernier défi, récurrent et très
critique pour l’apprentissage profond, est la non-disponibilité et la qualité des données. En
effet, l’apprentissage profond est un outil très gourmand en termes de données et la collecte
de données peut s’avérer difficile pour la simple raison de l’absence d’une quantité suffisante
de données de bonne qualité ou pour d’autres raisons liées aux défis éthiques sociaux cités
au-dessus.
Pour conclure, les données, la mémoire, le calcul et l’énergie représentent des ressources
clés pour réussir dans ce domaine. En revanche, ils peuvent être des verrous lors du déploiement
des modèles profonds. Par conséquent, plusieurs techniques sont proposées dans cette direction
xvi
INTRODUCTION GÉNÉRALE
b) Défis scientifiques
En outre, un réseau de neurones artificiel est une structure complexe qui se compose
d’un grand nombre de neurones et de connexions difficiles à comprendre ou à décrire
mathématiquement. Ainsi, les démarches logiques derrière les décisions prises ne sont toujours
pas évidentes. En revanche, obtenir une performance maximale en utilisant un modèle moins
complexe est un véritable défi. Dans ce sens, la compréhension, l’interprétation et la robustesse
de l’apprentissage profond soulèvent beaucoup de préoccupations scientifiques [212].
Des études dans cette direction ont donné naissance à une nouvelle piste importante de
recherche connue sous le nom d’intelligence artificielle explicable ou "explainable AI". Parmi
les techniques proposées pour expliciter les décisions des modèles de l’apprentissage profond,
nous nous intéressons dans notre travail au phénomène de l’attention (voir chap. 2).
xvii
INTRODUCTION GÉNÉRALE
émerger un discours éthique et social de nos jours (voir chap. 3.6). Ce problème éthique
provoque des restrictions à l’accès aux données, limitant ainsi le problème de confidentialité,
mais aussi le progrès favorable des recherches dans le secteur de l’apprentissage profond dans
de multiples domaines.
Par ailleurs, les solutions proposées par l’apprentissage profond visent à aider tous les
êtres humains équitablement, et donc à les soulager d’un travail épuisant et à faciliter leurs
tâches quotidiennes. En revanche, comme mentionné ci-dessus, l’apprentissage profond est une
solution gourmande en termes de ressources de données, de calcul et de mémoire nécessitant
des dispositifs coûteux pour traiter les données. Si les données sont un facteur limitant essentiel
pour les institutions publiques de recherche, les calculs le sont également. En réduisant les
ressources nécessaires pour trouver les bons hyperparamètres pour une tâche donnée et le
besoin de données, nous faisons un pas en avant vers la démocratisation et l’accessibilité de
l’apprentissage profond pour tous [85].
Pour terminer, un dernier défi de taille est à noter : le problème écologique. Le coût
énergétique nécessaire pour effectuer les calculs complexes exigés par les algorithmes
de l’apprentissage profond peut rapidement devenir énorme. Une telle consommation
d’énergie fait de l’apprentissage profond une solution qui ne respecte pas l’environnement
et le développement durable.Trouver des méthodes pour réduire la complexité et donc la
consommation d’énergie nécessaire pour l’apprentissage pourrait être une des clés pour limiter
l’impact écologique néfaste du déploiement des réseaux neurones.
Tout au long de cette thèse, nous proposons des solutions à ces défis de l’utilisation
de l’apprentissage profond, en particulier dans le domaine de l’imagerie médicale avec ses
différentes particularités (fig. 6). Nous espérons pouvoir résoudre ces difficultés afin de
permettre l’exploitation optimale des réseaux de neurones pour le meilleur diagnostic médical
possible. Les solutions que nous abordons peuvent être généralisées dans de multiples domaines
et avec des adaptations variées.
xviii
INTRODUCTION GÉNÉRALE
Dans la figure 6, nous résumons les défis mentionnés au-dessus et nous présentons nos deux
majeures contributions permettant de résoudre plusieurs de ces défis. Les défis sont entourés
par des cercles de couleur en lien avec celle de nos contributions sur la droite.
Les principales contributions de cette thèse sont en lien avec les défis rencontrés lors du
déploiement de l’apprentissage profond dans le secteur de l’imagerie médicale. La première
contribution majeure est la reconstruction des images médicales en vue de l’anonymisation
en éliminant toutes les traces sur l’identité des patients et de garder toutes les informations
significatives pour le diagnostic médical (voir chap. 3.6). Cette contribution nous permet
d’accéder à une plus grande quantité de données tout en préservant la vie privée des individus.
La revue des approches de meta-apprentissage et du mécanisme d’attention (voir chap. 2)
constitue une des contributions dérivées de ce travail de thèse indiqué par l’ovale en orange dans
la figure 6. Les techniques de meta-apprentissage permettent de résoudre la problématique de
l’apprentissage avec peu de données, de favoriser une meilleure initialisation des paramètres et
xix
INTRODUCTION GÉNÉRALE
d’exploiter les anciennes expériences pour résoudre les nouvelles tâches. Ainsi, nous réduisons
non seulement le besoin en termes de données, mais aussi en termes de ressources de mémoire
et de calcul, nous résolvons le problème de l’oubli catastrophique, nous limitons le problème
écologique et nous permettons une meilleure accessibilité à l’apprentissage profond par tout le
monde afin de relever tous les défis discutés ci-dessus. D’autre part, le mécanisme d’attention
permet de mettre en relief des régions d’intérêt dans les données et donc minimiser la marge
d’erreur, focaliser l’attention sur les informations les plus pertinentes, réduire le temps et la
complexité de calcul, permettant ainsi de limiter encore les différents défis de l’apprentissage
profond. La deuxième contribution majeure est l’élaboration d’une approche à l’intersection
du meta-apprentissage et de l’attention pour résoudre le problème du manque de données, en
particulier dans le contexte de maladies rares.
Ainsi, après ce chapitre introductif, le reste du manuscrit est organisé comme suit :
le chapitre 1 présente l’état de l’art dédié à l’introduction de l’intelligence artificielle, de
l’apprentissage automatique et de l’apprentissage profond. Nous nous intéressons surtout à
ce dernier, ses formulations mathématiques, les notions en lien ainsi que les travaux les plus
reconnus. Nous commençons par une brève histoire de l’intelligence artificielle et ses affiliations
dans la section 1.1. Nous nous penchons sur l’apprentissage automatique et ses deux catégories
principales dans la section 1.2. Par la suite, nous introduisons dans la section 1.3 l’apprentissage
profond que nous utilisons tout au long de cette thèse, nous définissons les notions en lien et
les métriques déployées pour l’évaluation. Dans la section 1.4, nous présentons la notion de
l’image numérique et l’imagerie médicale en particulier. Nous détaillons ensuite l’évolution
des modèles d’apprentissage profond pour les images et en particulier ceux dédiés aux images
médicales.
Le chapitre 2 est un autre chapitre de revue de l’état de l’art qui aborde une problématique
à laquelle nous sommes confrontés lors de l’utilisation de l’apprentissage profond : le manque
de données. Nous commençons dans la section 2.1 par la présentation de ce problème et ses
implications, nous élaborons une vue d’ensemble des approches permettent de lutter contre ce
problème du manque de données. Nous définissons la problématique reconnue sous le nom de
few-shot learning dans la section 2.2 et la notion de l’approche de meta-apprentissage dans
xx
INTRODUCTION GÉNÉRALE
la section 2.3. Nous présentons ensuite un résumé des techniques en lien avec le few-shot
learning y compris quelques techniques de meta-apprentissage dans la section 2.4. Nous
organisons les techniques, en fonction de la stratégie d’apprentissage, en trois catégories
principales : apprentissage par transfert, apprentissage de l’espace métrique et des solutions
liées à l’algorithme d’optimisation. Nous détaillons l’état de l’art des méthodes, en examinant
et en discutant leurs architectures et leurs résultats. Finalement, nous proposons dans la section
2.5 une étude de la littérature des techniques du mécanisme d’apprentissage. Par la suite, dans
chaque chapitre, nous rappelons brièvement les travaux les plus récents relatifs au sujet traité et
nous situons l’approche proposée parmi celles proposées dans l’état de l’art.
1
Chapitre
1
État de l’art : Intelligence artificielle
Sommaire
1.1 Histoire rapide de l’IA . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Apprentissage automatique . . . . . . . . . . . . . . . . . . . . . 6
1.2.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . . 7
1.2.2 Apprentissage non supervisé . . . . . . . . . . . . . . . . . . . . 8
1.3 Apprentissage profond . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 Le réseau de neurones . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.2 Types de réseau de neurones . . . . . . . . . . . . . . . . . . . . 10
1.3.3 Fonctions d’erreur . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.3.4 La descente de gradient . . . . . . . . . . . . . . . . . . . . . . 21
1.3.5 Fonctions d’activation . . . . . . . . . . . . . . . . . . . . . . . 22
1.3.6 Divers hyperparamètres, performance et généralisation du modèle 22
1.3.7 Métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
1.4 L’apprentissage profond pour l’image . . . . . . . . . . . . . . 32
1.4.1 L’image aux yeux de la machine . . . . . . . . . . . . . . . . . 33
1.4.2 L’imagerie médicale . . . . . . . . . . . . . . . . . . . . . . . . 35
1.4.3 L’évolution des réseaux convolutifs . . . . . . . . . . . . . . . . 37
1.4.4 Apprentissage profond pour l’imagerie médicale . . . . . . . . . 40
1.4.5 Défis et perspectives . . . . . . . . . . . . . . . . . . . . . . . . 45
2
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
En 1947, dans son rapport "Intelligent Machinery", Alan aborde l’exemple du jeu d’échecs
pour juger si la machine peut se passer pour un être humain dans un jeu [257]. En 1950, Alan
a conçu un test pour pouvoir évaluer l’intelligence de la machine dans le référentiel de l’être
humain. Le test consiste à affecter une tâche habituellement effectuée par l’être humain à la
machine [258]. Si l’être humain, en communiquant avec la machine dans le contexte de cette
tâche, ne peut pas distinguer qu’il s’agit d’une machine, la machine est considérée intelligente.
Pendant les 10 années qui suivaient, la communauté s’intéresse de plus en plus à ce concept
d’intelligence artificielle définie par McCarthy comme la science et l’ingénierie de la fabrication
3
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
des machines intelligentes [297] [177]. Au fil des années, d’autres versions du test de Turing et
d’autres éléments sont apparus importants pour la définition de l’intelligence de la machine.
En 1956, une conférence sur l’intelligence artificielle a eu lieu au Dartmouth College aux
États-Unis [43][51]. Des personnages importants qui allaient influencer le domaine par la suite
ont participé et assisté à cette conférence. Un projet a été initié par des chercheurs dans ce
sens, notamment John McCarthy de l’université Stanford [267] [189] et Marvin Minsky de MIT
[158][164]. Cette conférence était l’acte de naissance de l’IA comme un secteur de recherche
autonome. Depuis, elle était incorporée dans tous les domaines et a prouvé sa performance dans
des multiples tâches, notamment l’étude de climat [136], la robotique [84], la littérature [23], le
trading [49], la médecine [87] et l’analyse de texte [48].
Une nouvelle définition par Tom Mitchell en 1997 établie que l’apprentissage automatique
est la science qui permet à une machine de s’améliorer automatiquement à chaque expérience
[111] [167].
Une machine est dite capable d’apprendre d’une expérience E, respective à une classe de tâche
T et une mesure de performance P, si P en T s’améliore après E.
4
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
Plusieurs études dans des multiples domaines ont réussi à faire naître l’un des outils les
plus influents sur l’avancement de l’humanité. L’apprentissage automatique a procuré des
nouvelles pistes importantes d’exploitations et d’explorations des données dans des multiples
tâches complexes d’ingénieries dans des domaines variés qui ne pouvaient pas être effectuées
manuellement.
5
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
La première étape d’un projet basé sur l’apprentissage automatique est l’acquisition et la
préparation des données. L’étape de la récolte des données en quantité et qualité suffisantes est
cruciale pour un bon apprentissage. Cela peut éviter des biais de représentativité et améliorer
le modèle et les prédictions. Une autre étape primordiale est la préparation et le nettoyage
des données recueillies avant le déploiement. En effet, des données peuvent être inutiles,
incomplètes, endommagées ou à modifier afin d’être comprises par l’algorithme. Plusieurs
approches sont proposées dans ce but, telles que la visualisation de données, le prétraitement
de données ou la normalisation avec ses multiples variantes. Ensuite, la base de données se
divise principalement en deux parties utilisées dans deux phases principales de l’apprentissage
automatique (fig.1.2).
6
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
Cette phase, dite aussi phase d’entraînement, consiste en une étape de modélisation d’un
problème et l’estimation de ses paramètres en utilisant la partie de la base de données réservée
à l’entraînement. Cette phase peut inclure aussi une étape de validation pour laquelle une partie
des données est réservée (voir section 1.3.6).
Pendant cette phase, le modèle appris est testé sur la partie de la base de données non utilisée
lors de l’apprentissage dite base de test et des métriques de performances sont mesurées (voir
section 1.3.7) .
Après ces deux phases, le modèle est prêt à être déployé avec un nouveau jeu de données.
Dans la pratique, la base de données est souvent divisée en trois parties : une partie pour
l’entraînement, une partie pour la validation et une partie pour le test. Le jeu de données de
validation, similairement au jeu de données du test, n’est pas observé par le modèle. Les données
de validation proviennent de la même distribution que le jeu de donnée de l’entraînement et
elles sont utilisé dans la phase d’apprentissage. Elles sont utilisées pour estimer l’erreur de
généralisation du modèle et à valider la progression du processus de l’apprentissage.
Dans cette branche d’apprentissage, nous possédons des données d’entrée et nous
connaissons la nature/les classes de la sortie. Ainsi, pour ce type d’apprentissage, les données
doivent être labellisées. Les tâches d’apprentissage supervisé peuvent être divisées comme des
problèmes de "régression" ou de "classification". Dans le cadre d’une régression, l’objectif est
de prédire une sortie à valeur continue, ce qui signifie faire correspondre des variables d’entrée
à une fonction définie continue. Dans le cadre d’une classification, les résultats sont plutôt
sous la forme d’une sortie discrète (par exemple : 0 ou 1). En d’autres termes, l’objectif est de
7
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
faire correspondre les variables d’entrée à des catégories discrètes. Nous pouvons formaliser
le problème d’apprentissage automatique supervisé mathématiquement en tant qu’un problème
d’estimation ou de modélisation. L’algorithme cherche à trouver une fonction f telle que
Y = f (X), où X représente l’entrée et Y représente la sortie. Il existe plusieurs techniques
classiques connues d’apprentissage supervisé telles que la régression logistique (LR) [40],
l’arbre de décision (DT) [25], la forêt aléatoire (RF) [13], les K-voisins les plus proches (KNN)
[3] et les machines à vecteurs de support (SVM) [110].
Dans le cadre de l’apprentissage non supervisé, nous utilisons des données d’entrée
non labellisées. La sortie est déduite sur la base des relations et des corrélations entre les
variables des données d’entrée. Les tâches d’apprentissage non supervisé peuvent être divisées
principalement comme des problèmes de partitionnement de données ou des problèmes de
regroupement (clustering).
8
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
La structure d’un réseau de neurones artificiel par analogie au réseau de neurones biologique
se base sur les neurones. Pour comprendre le concept de l’apprentissage profond, nous
détaillons le fonctionnement des neurones. En effet, le neurone artificiel reçoit des données
d’entrée assimilées à des pulsations électrochimiques reçues par les dendrites d’un neurone
biologique. Une opération, prenant en considération la pondération de l’entrée, est effectuée à
l’aide d’une fonction d’activation (fig. 1.3). Les étapes sont les suivantes :
P
1. Additionner la multiplication de toutes les entrées xi et leurs poids respectifs wi : i w i xi .
P
2. Additionner le total obtenu avec le biais : z = i wi xi + b .
3. Appliquer une fonction d’activation (voir section 1.3.5).
Les paramètres comprenant les poids et les biais représentés respectivement par w et b dans
la figure 1.3 sont ajustés pendant le processus d’apprentissage de manière à minimiser une
9
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
fonction de coût permettant de mesurer l’erreur de la prédiction commise par le réseau (voir
section 1.3.3). Les étapes incluses dans l’apprentissage sont les suivantes :
Le nombre d’époques est l’un des hyperparamètres à définir pour l’apprentissage. À chaque
cycle, la fonction de coût devrait théoriquement se réduire et le réseau commence ainsi à
produire des prédictions plus proches des valeurs cibles.
Le réseau de neurone décrit dans la section précédente n’est adapté pour les tâches
complexes. Des améliorations ont donné naissance à plusieurs architectures. Les deux les plus
connus sont : les réseaux de neurone convolutifs (CNN) et les réseaux de neurones récurrents
(RNN). Le tableau 1.1 résume les différences entre ces deux types de réseaux.
10
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
CNN RNN
Architecture Réseau de neurones à direction Réseau récurant qui s’alimente par
direct (feedforward), fait intervenir la sortie
des champs réceptifs, des filtres et
des opérations de pooling.
Type de données Données spatiales telles que des Données temporelles ou
images séquentielles telles que de la
vidéo ou du texte
Sortie La taille de la sortie est fixée à La taille de la sortie peut varier
l’avance
Cas d’utilisation Reconnaissance faciale, diagnostic Traduction de texte, Traitement
de l’imagerie médicale, analyse des du langage naturel (NLP),
images, classification des images, compréhension du langage naturel
segmentation et détection des objets (NLU), reconnaissance vocale,
analyse de la parole, analyse
sentimentale
11
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
— Convolution
— Pooling
— ReLU
a) La convolution
La convolution est une opération mathématique simple. Elle est effectuée en multipliant
le filtre par une partie de l’image et en sommant le résultat. La partie de l’image cible est
12
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
appelée le champ réceptif. L’avantage de cette approche est que les neurones d’une couche
s’intéressent particulièrement à l’extraction des caractéristiques visuelles dans une petite portion
de l’image. L’objectif est de repérer des caractéristiques appelées aussi un feature, un filtre ou
un noyau convolutif (kernel) dans les images d’entrée. Le principe est de faire "glisser" le filtre,
de calculer le produit de convolution entre le filtre et la région de l’image balayée (fig. 1.6)
et produire les cartes caractéristiques connues aussi sous le nom des cartes d’activations. Les
cartes caractéristiques résultantes nous indique l’emplacement des features dans l’image : plus
la valeur est élevée en une partie de l’image, plus cette partie ressemble au feature (fig. 1.7).
Contrairement aux techniques classiques, les features ne sont pas prédéfinies en avance, mais
apprises par le réseau lors la phase d’entraînement.
13
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
la couche soit la même que celle de l’entrée. Il permet au filtre d’atteindre le bord de l’image
en s’adaptant au pas de la convolution.
F IGURE 1.8 – Les cartes caractéristiques résultantes suite à une ReLU [260]
La fonction ReLU définie dans la section 1.3.5 permet de transformer les valeurs négatives
en 0 (fig. 1.8).
c) Le pooling
14
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
de chaque portion). Le max-pooling est le plus répandu dans les cas d’utilisation classique des
CNN (fig. 1.9). La taille de la portion de l’image est à préciser.
F IGURE 1.9 – Les cartes caractéristiques résultantes suite à une opération de max-pooling de
taille 2x2 [260]
d) Couche d’aplatissement
La couche d’aplatissement appelée Flatten prend la totalité des valeurs de nos matrices
précédemment calculées, et à les empiler, en vue de les exploiter dans la couche d’entrée d’un
réseau de neurones multicouche entièrement connecté de structure classique. Le reste de réseau
permet d’aboutir à des probabilités d’appartenance pour prédire la classe à laquelle l’image
d’entrée appartient.
15
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
L’objectif est d’apprendre à extraire les caractéristiques de l’image les plus utiles pour
minimiser une certaine fonction d’erreur (voir la section suivante) afin d’effectuer une tâche
cible. Les réseaux de neurones convolutifs apprennent plusieurs filtres et donc plusieurs
caractéristiques en parallèle pour une image en entrée. Classiquement, le nombre de filtres par
couche de convolution est entre 32 à 1024 filtres en parallèle. Les premiers filtres permettent
d’extraire des caractéristiques de bas niveau comme les lignes, les bords et les contours. Les
filtres dans les couches les plus profondes permettent d’extraire des caractéristiques de plus
haut niveau comme les formes.
L’erreur absolue moyenne (Mean Absolute Error (MAE)) est appelée aussi fonction de perte
L1. Elle consiste à calculer la somme moyenne des valeurs absolues des différences entre les
valeurs cibles et les prédictions du réseau de neurones.
N
X
EM AE = 1/N |ypi − yi | (1.1)
i=1
16
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
avec
yi la ième valeur cible
ypi la ième valeur prédite
N
le nombre de données de l’apprentissage
L’erreur absolue moyenne n’est pas sensible aux valeurs extrêmes et peut engendrer des
problèmes de convergence [101]. Elle est utilisée souvent pour les problématiques de régression.
L’erreur quadratique moyenne (Mean Squared Error (MSE)) est appelée aussi fonction de
perte L2. Elle consiste à calculer la somme moyenne des carrées des différences entre les valeurs
cibles et les prédictions du réseau de neurones :
N
X
EM SE = 1/N (ypi − yi )2 (1.2)
i=1
L’erreur quadratique moyenne est sensible aux valeurs extrêmes. Elle est souvent utilisée
comme fonction d’erreur dans les problématiques de régression, surtout lorsqu’on observe une
distribution normale des données.
N
X
Esc = − yi log(ypi ) (1.3)
i=1
Les valeurs de probabilités de cette problématique sont dans l’intervalle [0,1] et la valeur de
log sur cet intervalle est négatives. Par conséquent, pour avoir une valeur positive de la fonction
d’erreur, un signe moins est ajouté à l’équation.
17
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
F IGURE 1.10 – Valeur de l’erreur entropie croisée lorsque la probabilité cible est égale à 1
inspiré de [35]
Cette fonction d’erreur est utilisée souvent pour les problématiques de classification. Elle
a amélioré nettement la performance des modèles avec les fonctions d’activation sigmoïde and
softmax en comparaison avec la MSE. L’entropie croisée permet une convergence stable et
rapide.
L’entropie croisée binaire (Binary Cross-Entropy (BCE)) est une fonction d’erreur utilisée
pour des tâches de classification binaire (des tâches avec deux classes seulement).
N
X
EBCE =− (yi log(ypi ) + (1 − yi )log(1 − ypi )) (1.4)
i=1
avec
yi la ième valeur cible
ypi la ième valeur prédite
N
le nombre de données de l’apprentissage
18
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
L’entropie croisée catégorique (Categorical Cross-Entropy (CCE)) est une fonction d’erreur
utilisée pour des tâches de classification multiclasse. Ce sont des tâches avec plusieurs classes,
mais un individu peut appartenir seulement à une seule classe.
N X
X M
ECCE = − yi,c log(ypi,c ) (1.5)
i=1 c=1
avec
yi,c la valeur de la probabilité cible d’appartenance de l’individu i à la classe c
yp
la valeur de la probabilité prédite d’appartenance de l’individu i à la classe c
i,c
M le nombre de classe
N le nombre de données de l’apprentissage
19
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
— Dans le cadre de l’entropie croisée catégorique à 3 classes, yi aurait l’une des valeurs
suivantes : [1,0,0], [0,1,0], [0,0,1].
— Dans le cadre de l’entropie croisée catégorique éparse à 3 classes, yi aurait l’une des
valeurs suivantes : 1, 2, 3.
L’usage dépend seulement des données et de la façon avec laquelle nous voulons les
introduire à notre réseau de neurones. En revanche, nous devons noter que l’entropie croisée
catégorique éparse est moins gourmande en termes de temps et de mémoire de calcul puisqu’elle
utilise des valeurs entières comme entrées contrairement à l’entropie croisée catégorique qui
utilise des vecteurs en entrée.
20
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
La fonction d’optimisation J(Θ) est paramétrée par les poids qui renseignent sur
l’importance de la connexion entre les neurones. L’algorithme consiste à calculer le gradient
de cette fonction d’erreur respectivement à chaque poids et mettre à jour ces poids de façon à
minimiser au mieux la fonction d’erreur.
Θ = Θ − µ ▽Θ J(Θ) (1.6)
2. https://www.tensorflow.org/?hl=fr
21
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
L’approche classique de la descente de gradient est lente puisqu’il s’agit d’une unique mise
à jour des paramètres, d’où l’introduction de la descente de gradient stochastique SGD. SGD
est toujours un algorithme itératif où la différentiation se fait par rapport à chaque entrée xi et
classe y i :
Θ = Θ − µ ▽Θ J(Θ; xi ; y i ) (1.7)
Bien que cet algorithme soit amélioré, il peut ne pas converger et rester dans un état
d’oscillation autour de la solution. La nouvelle approche proposée consiste à passer à un
mini-lot SGD ((mini-batch SGD) :
Les neurones du réseau fonctionnent à travers des fonctions d’activation qui permettent
d’effectuer une opération sur les données provenant des neurones de la couche précédente à
l’aide d’une fonction mathématique. Cette dernière peut influencer nettement la performance
du réseau. Ainsi, le choix de la fonction d’activation des neurones est important.
Bien que les réseaux de neurones ne puissent pas être considérés récents (voir section
1.1), ils ont connu récemment des développements dynamiques et leur utilisation est devenue
22
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
beaucoup plus répandue de nos jours grâce à la présence des outils de calcul parallèle,
notamment les cartes GPU, permettant des calculs plus rapides et moins chers. En parallèle,
la capacité de stockage s’est améliorée, permettant d’avoir une plus grande quantité de données
pour améliorer l’apprentissage. En effet, plusieurs paramètres entrent en jeu pour aboutir à un
23
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
Différentes expérimentations sont effectuées dans ce sens pour étudier l’influence des
multiples hyperparamètres sur la performance de l’apprentissage [106].
24
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
l’apprentissage profond, dans cette expérimentation, a dépassé les performances des méthodes
classiques de l’apprentissage automatique à partir de l’utilisation de 10 couches. En revanche,
nous remarquons qu’à partir d’une certaine époque et à partir d’un certain nombre de couches,
la MAE est plutôt stable.
Nous pouvons aussi observer clairement l’effet du choix du nombre de neurones dans la
fig. 1.14. Il s’agit d’un réseau de neurones à une seule couche cachée entrainé pour une tâche
de classification binaire de couleurs rouge et vert. Nous pouvons observer que plus le nombre
de neurones est important, plus la classification est meilleure. Cependant, cet étroit ajustement
engendre une fonction de modélisation complexe et peut provoquer un sur-ajustement ou un
sur-apprentissage (voir section 1.3.6.2).
Pour conclure, le bon choix des hyperparamètres est nécessaire pour optimiser
l’apprentissage. Cependant, fixer ces hyperparamètres n’est pas toujours évident et de nos
connaissances, il n’y a toujours pas des règles prédéfinies dans ces sens [146][65]. En effet,
c’est souvent par tâtonnement et en se basant sur les expérimentations de l’état de l’art qu’on
peut décider des paramètres à choisir.
La performance d’un modèle se mesure par des métriques calculées en utilisant un jeu
de données inconnu, n’ayant pas été introduite au réseau lors de la phase d’apprentissage
(voir section 1.3.7). Ces métriques mesurent principalement la généralisation du modèle sur
25
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
a) Interruption prématurée :
Les données sont souvent divisées en trois : entraînement, validation et test (voir section
1.2). À chaque époque, le modèle est testé sur les données de validation (fig. 1.17). L’idée de
26
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
b) La validation croisée :
27
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
c) Dropout :
Le dropout est l’une des techniques pour lutter contre le sur-ajustement. Le concept de cette
technique consiste à perturber l’apprentissage du modèle en désactivant temporairement un
pourcentage de l’ensemble des neurones du réseau. Ce nombre de neurones à désactiver est un
autre hyperparamètre à choisir. D’une époque à une autre, une sélection aléatoire des neurones à
28
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
désactiver est effectuée. Ainsi, le modèle apprend avec une nouvelle configuration et augmente
son pouvoir de généralisation [234] [254] [89].
d) La régularisation :
1.3.7 Métriques
29
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
commencer, nous basons le calcul des métriques sur les valeurs présentées sur un tableau connu
sous le nom de la matrice de confusion (voir fig 1.21). Une matrice de confusion renseigne
généralement sur quatre indicateurs :
— Vrais positifs (True Positive TP) : Des données bien prédites dans la classe cible
— Vrais négatifs (True Negative TN) : Des données bien prédites en dehors de la classe cible
— Faux négatifs (False Positive FN) : Des données mauvaisement prédites en dehors de la
classe cible
— Faux positifs (False Positive FP) : Des données mauvaisement prédites dans la classe cible
30
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
TP + TN
CA =
TP + TN + FP + FN
CA présente des limites dans le cadre de données déséquilibrées, il vaut mieux utiliser la
précision de classification balancée.
31
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
Elle s’agit d’une métrique de classification introduisant une pondération arbitraire ou selon
le nombre de classes et leurs proportions dans la totalité de la base de données [32].
w1 sensitivity + w2 specificity
Balanced Accuracy Weighted =
w1 + w2
w1 TP w2 TN
= +
w1 + w2 T P + F N w1 + w2 T N + F P
1 TP 1 TN
Binary balanced Accuracy = × + ×
2 TP + FN 2 TN + FP
c) Spécificité :
Elle renseigne sur la capacité d’un modèle à identifier les vraies positives
TP
Spécificité =
TP + FP
d) Sensibilité :
Elle renseigne sur la proportion des bonnes prédictions parmi les données prédites dans la
classe cible.
TP
Sensibilité =
TP + TN
32
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
segmentation des objets et la classification des images. Dans ce chapitre, nous expliquons tout
d’abord la notion d’image. Ensuite, nous abordons l’historique des techniques d’apprentissage
profond appliquées aux images du domaine médical en soulignant l’évolution des architectures
déployées et leurs différents avantages et inconvénients. Enfin, nous nous intéressons en
particulier à la tâche de classification et les travaux dans l’état de l’art la concernant.
Une image est définie comme étant une fonction à deux variables x et y [12]. En effet, pour la
machine, une image digitale de 8 bits consiste en une grille de pixels de valeur dans l’intervalle
[0,255] (fig.1.22) [76]. Nous pouvons distinguer deux types d’image.
L’image est représentée par une matrice à deux dimensions, et la valeur du pixel représente
l’intensité des niveaux de gris. La valeur 0 représente les pixels les plus sombres (noir) et la
valeur 255 représente les pixels les plus clairs (blanc).
b) Image couleur
Les images couleurs (RVB) sont représentées sur trois canaux dans une matrice à trois
dimensions. Chaque canal correspond à une des couleurs primaires (rouge, vert, bleu). Ainsi,
chaque pixel est représenté par trois valeurs respectivement à l’intensité de chaque couleur dans
ce pixel [104].
33
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
F IGURE 1.23 – Une partie de la matrice représentative d’une image en niveaux de gris [114]
Plusieurs techniques de traitement sont effectuées pour préparer les images d’entrée. Le
choix dépend de la tâche, le domaine et la nature du jeu de données. Nous citons quelques
exemples de ces techniques, mais la liste n’est pas exhaustive.
— Interpolation des données : cette approche sert à homogénéiser la résolution des données
d’entrée ;
— Filtrage : nous pouvons appliquer des filtres sur les images ou sur les histogrammes
des images pour éliminer des informations non pertinentes. Nous pouvons aussi
34
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
redimensionner ou recadrer les données ou prendre juste une partie des images prenant en
considération une information préliminaire sur la région la plus importante de la donnée ;
— Autres : nous pouvons diviser l’image en petites parties ou échantillonner des petits patchs
de l’image pour diminuer la complexité du calcul. Il y a également plusieurs autres
techniques d’augmentation de données, notamment les rotations, les transformations
affines, la mise à l’échelle, la modification de la texture ou les couleurs [224]. Cependant,
dans plusieurs cas et domaines d’utilisation, ces modifications ne sont pas tolérées et
peuvent engendrer un biais important à la prise de la décision.
De nos jours, l’apprentissage profond est très populaire dans différents domaines avec
des données d’une grande variété de propriétés. Dans le domaine médical, l’imagerie
médicale est l’une des composantes principales et omniprésentes dans le diagnostic, le
suivi et compréhension des maladies. Les pixels qui composent l’image représentent ses
35
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
36
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
d’Alzheimer, la sclérose en plaques et les tumeurs. L’imagerie par tenseur de diffusion (DTI)
est une technique de neuro-imagerie basée sur l’IRM permettant d’estimer l’emplacement,
l’orientation et l’anisotropie des trajets de la matière blanche du cerveau (https://www.imagilys.
com/diffusion-tensor-imaging-dti/).
Toutes ces modalités sont importantes pour le diagnostic médical. Plusieurs examens se
basent sur l’imagerie médicale pour prendre les bonnes décisions. Les images médicales se
caractérisent par des informations quantitatives et des objets sans orientation canonique. La
différence entre les différentes modalités et les différentes tâches (la détection des maladies, la
quantification des anomalies et la segmentation des organes) sont énormes. La prise en compte
de ces différences et l’adaptation des algorithmes en conséquence permettent d’améliorer
considérablement les performances de ces modèles.
37
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
Les CNN ont été introduits par Kunihiko Fukushima en 1980 [68]. La première application
dans l’analyse d’images médicales était proposée par Lo et al. [152] en 1995. LeCun et al.
[138] ont connu le premier véritable succès avec des CNN en 1990 sur la base de données
MNIST pour la reconnaissance de chiffres manuscrits avec l’architecture LeNet comprenant 3
couches de convolutions et 2 couches entièrement connectées avec environ 60000 paramètres
[137]. L’architecture proposée par LeCun et al. a été capable d’obtenir des résultats de précision
très proches de l’état de l’art (un taux d’erreur de 1% et un taux de rejet de 9% à partir d’un jeu
de données d’environ 1000 échantillons. L’utilisation d’un grand nombre de couches cachées
et d’images plus grandes peut améliorer les résultats. Cependant, le nombre de paramètres
d’entraînement peut augmenter rapidement proportionnellement au nombre de couches et à
la taille de données d’entrée, d’où la notion de filtre ou noyau (kernel) liée aux couches de
convolution. En effet, des filtres sont appliqués sur différentes positions de l’entrée pour extraire
des cartes de caractéristiques locales. Ainsi, un neurone ne reçoit plus la totalité de l’image,
mais seulement la région définie par le filtre. Une autre couche, classiquement utilisée pour
minimiser la complexité des CNN, est la couche de pooling qui est considérée comme une
couche de résumé de la couche en entrée.
Les défis principaux rencontrés déployant cette architecture sont le gradient évanescent
[16] et le calcul complexe avec les ressources informatiques limitées [15]. Plusieurs solutions
ont été proposées pour faire face à ces limites, notamment des solutions liées à l’algorithme
d’optimisation (Momentum, AdaGrad, RMSProp, Adam) [205] ou des solutions liées à la façon
d’apprentissage, notamment l’apprentissage semi-supervisé ou l’entrainement à deux phases
[93]. D’autres solutions liées à l’architecture sont déployées telles que la mémoire à long terme
(LSTM) pour gérer les difficultés des dépendances à long terme de la descente de gradient
[96][18] ou l’intégration de la fonction d’activation ReLU ayant une bonne performance dans
différentes tâches d’imagerie [128][74].
38
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
architecture CNN similaire à LeNet, employant des noyaux avec de grands champs réceptifs
dans les couches proches de l’entrée et des noyaux avec des plus petits champs réceptifs en
s’approchant de la sortie. L’architecture consiste en 8 couches dont 5 couches de convolution
et 3 couches entièrement connectées. La principale différence entre AlexNet et LeNet réside
dans la fonction d’activation où AlexNet utilise l’unité linéaire rectifiée (ReLu) à la place de la
tangente hyperbolique (tanh). En outre, AlexNet gagne en termes du temps de calcul, surtout
avec l’évolution des GPU permettant d’obtenir de meilleurs résultats et d’être le modèle gagnant
de l’ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en 2012.
Suite à ImageNet, les architectures plus profondes avec des noyaux plus petits ont été
proposées comme la façon la plus directe pour améliorer les performances d’un réseau de
neurones. Visual Geometry Group (VGG) est l’une des architectures reconnues utilisant
toujours le ReLU se composant de 13 couches convolutives et 3 couches entièrement connectées
et comportant environ 138 millions de paramètres [228]. Par la suite, plusieurs variantes
plus profondes ont été proposées, notamment le modèle à 19 couches VGG19 ou OxfordNet,
l’architecture gagnante du défi ImageNet de 2014. Nous pouvons évoquer également le réseau
à 22 couches reconnu sous le nom de Inception-v1 ou GoogLeNet avec une architecture plus
complexe dans le but d’améliorer l’efficacité de l’apprentissage et réduire également le nombre
de paramètres à environ 5 millions [147][246].
39
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
Cependant, Google n’arrête pas d’innover avec des nouvelles architectures telles que la nouvelle
version de Inception nommée Inception-v3 ou Xception proposée par François Chollet [39] ou
Inception-v4 la version améliorée proposée par Szegedy et al. [245] avec quelques changements
simples incluant plus de modules de convolutions et l’uniformisation du nombre de filtres pour
chaque module. La même équipe de chercheurs a proposé une autre architecture nommée
Inception-ResNet-V2 intégrant des blocs résiduels [245]. ResNeXt-50, la version améliorée
de ResNet, est également une des architectures largement répandues. Elle intègre plus de
tours parallèles dans un module. Cette approche a été incorporée aussi dans quelques travaux
dans l’architecture Inception. Cette approche permet de résoudre le problème de l’empreinte
mémoire. Nous pouvons citer aussi les architectures U-Net et ses variantes [296], SE-Net avec le
bloc "queeze and excitation", EfficientNets et les variantes de B0 à B9 basées sur une approche
de redimensionnement de l’architecture en vue de balancer entre sa profondeur, sa résolution et
sa largeur [251]. Nous pouvons admettre que la concurrence a saturé et ces architectures sont
largement utilisées dans plusieurs domaines, notamment l’analyse d’imagerie médicale.
F IGURE 1.26 – Précision de la classification et les propriétés des architectures des réseaux de
neurones profonds appliquées sur la base de données de validation de ImageNet
Plusieurs types de données sont exploités dans le domaine médical [28][182]. En revanche,
l’imagerie est la composante principale dans la perspective de l’aide au diagnostic médical
[55]. Geert Litjens et al. [148] évoquent 300 contributions d’apprentissage profond dans les
40
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
Les tâches médicales font l’objet de recherche en intelligence artificielle depuis les
années 1970. La solution consistait principalement en des algorithmes mathématiques
simples. Entre-temps, la recherche en IA a débuté avec GOFAI (good old-fashioned artificial
intelligence) associée à Haugeland [261]. Cependant, ces premières intuitions d’intelligence
artificielle et les simples algorithmes étaient loin moins performants que les solutions basées
sur l’apprentissage profond, surtout avec l’évolution des architectures CNN.
Les modèles multi-flux sont des architectures ayant comme entrée des données de multiples
sources sous forme de canaux présentés à la couche d’entrée et pouvant être fusionnés à
n’importe quelle couche du réseau. Ces architectures ont une application importante pour les
tâches du traitement d’images médicales [113]. Par exemple, dans le cadre de la détection
d’anomalies, le contexte est important. Afin d’augmenter le contexte, des patchs plus grands
sont donnés en entrée. Cependant, cette approche directe augmente significativement le nombre
de paramètres et les besoins en capacité et mémoire de calcul. Dans ce sens, des nouvelles
architectures ont été élaborées intégrant le contexte dans une représentation connexe avec
des informations locales à haute définition [113][169] [284]. D’autres techniques de vision
3. https://keras.io/
41
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
artificielle peuvent également inspirer les futures perspectives de l’imagerie médicale [174]
[235] [290].
D’autres architectures ont déjà été déployées dans ce domaine. Nous pouvons citer les
auto-encodeurs empilés (SAE) et les réseaux de croyance profonds (DBN), dans lesquels les
réseaux de neurones profonds sont entraînés couche par couche d’une manière non supervisée
(pré-entraînement). Ensuite, un ajustement du réseau empilé est effectué. Cependant, ces
techniques sont gourmandes et complexes en termes de temps et capacité de calcul [148].
42
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
l’intégration d’un réseau pré-entraînée rend l’entraînement plus rapide et plus efficace. Par
exemple, pour la détection automatique de la rétinopathie diabétique et de l’œdème maculaire
diabétique [83] et la classification du cancer de la peau [56], l’Inception-v3 a été affiné sur des
données médicales pour obtenir une précision proche de celle de l’expert humain. Manegola
et al. [160] ont expérimenté certaines tâches pour comparer la performance de l’entraînement à
partir de zéro et l’ajustement d’un réseau pré-entraîné. Les résultats obtenus mettent en évidence
que l’ajustement est plus performant, surtout avec un petit jeu de données (environ 1000 images
de lésions cutanées).
43
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
Les champs d’applications de l’apprentissage profond ont évolué au cours de ces dernières
années. En effet, on ne peut pas se permettre de ne pas mentionner le secteur de recherche
d’images basée sur le contenu (CBIR) où l’utilisation de l’apprentissage profond est une
solution directe, voire nécessaire. CBIR présente une technique de recherche dans une base de
données massive permettant de détecter des cas similaires pour une meilleure compréhension de
l’entrée. En effet, la taille et l’hétérogénéité des bases de données d’images médicales exigent
l’utilisation de systèmes de recherche basés sur le contenu pour une organisation efficace et
une meilleure aide aux experts cliniques. Le principal défi de cette tâche est l’extraction des
caractéristiques et des relations pertinentes entre ces caractéristiques. Par conséquent, grâce à sa
capacité d’extraire automatiquement les caractéristiques et les relations latentes, l’apprentissage
profond est une orientation immédiate pour une telle tâche d’imagerie médicale.
La plupart des articles relatifs au CBIR intègrent des CNN pré-entraînés pour l’extraction de
caractéristiques. Anavi et al. [4] et Liu et al. [150] ont utilisé 5 couches de CNN et des couches
entièrement connectées pour l’extraction de caractéristiques des radiographies. Anavi et al. ont
utilisé un réseau pré-entraîné dans la phase d’extraction des caractéristiques. Liu et al. ont utilisé
une différente technique en utilisant des images à codes à barres de Radon. Liu et al. expliquent
44
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
les résultats inférieurs à l’état de l’art par l’utilisation des petits patches de 96 pixels. Chung et
al. [41] utilisent des CNN siamois (SCNN) pour apprendre automatiquement les représentations
d’images radiographiques. Le SCNN proposé par Chung et al. exigent des données en paires
d’images en entrée. Pour valider les représentations d’images apprises pat leur réseau profond,
ces représentations sont utilisées pour une tâche de recherche d’images médicales basée sur le
contenu d’une base de données d’images de fond de rétinopathie diabétique. Le SCNN a prouvé
son efficacité en surpassant les performances de l’architecture classique CNN. Shah et al. [222]
ont manipulé des images MR de la prostate déployant la combinaison des CNN avec des forêts
de hachage (forêts aléatoires non supervisées). 1000 caractéristiques résumées dans une grande
matrice ont été extraites. Ensuite, les forêts de hachage sont déployées pour compresser cette
matrice en descripteurs spécifique à chaque volume de l’IRM.
En effet, les CNN dominent les travaux dans le secteur de l’imagerie médicale, en particulier
ces dernières années. Geert Litjens et al. [148] ont mentionné que parmi 47 articles liés à la
classification d’images médicales entre 2015 et 2017, 36 articles utilisaient des CNN, 5 articles
utilisaient des AE et 6 articles utilisaient des RBM. Cela peut être expliqué par la présence des
modèles CNN pré-entraînés dans les outils de programmations disponibles, leur flexibilité et
leur haute performance par rapport aux autres techniques.
45
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
aboutissant aux meilleures décisions pour une certaine tâche. L’application de cette technique
dans le domaine de l’imagerie médicale nécessite une évaluation, une validation et une précision
plus poussées.
Bien que l’apprentissage profond réussisse à extraire des informations pertinentes dans
des multiples domaines, le défi reste d’adapter ces architectures et techniques d’apprentissage
profond existantes aux particularités et aux modalités du domaine médical. Dans cette section,
nous fournissons une vue d’ensemble de certains défis et limitations de l’apprentissage profond
spécifiques a ce domaine.
Le principal défi dans le domaine médical est la quantité de données réduite en raison de
nombreux obstacles tels que l’accès aux données, la confidentialité, la protection des données
et de multiples autres défis dans cette perspective. Esteva et al. [56] prouvent qu’il ne s’agit
pas du premier défi réel. Ils utilisent 18 ensembles de données publiques et plus de 100000
d’images d’entraînement pour la classification du cancer de la peau au niveau de l’épiderme
avec des réseaux neuronaux profonds. Mais, dans la plupart des cas, problème principal est
plutôt la disponibilité de données labellisées de bonne qualité. Par conséquent, des multiples
techniques sont testés pour atténuer ces défis, comme l’apprentissage par transfert expliqué
ci-dessus pour fournir un meilleur point de départ que l’initialisation aléatoire du poids. En
outre, la plupart des images sont associées à des rapports cliniques. Dans ce sens, l’extraction
des informations de ces rapports et la possibilité de les incorporer dans notre réseau neuronal
est bénéfique. Cependant, pour les maladies rares, un nombre suffisant de données labellisées
avec un rapport clair et correct peut être indisponible.
Un autre défi lié aux données est le déséquilibre entre les classes. Dans cette perspective,
des nombreuses techniques telles que le GAN, le sur-échantillonnage ou l’augmentation des
données sont proposées, généralement pour les images naturelles. Cependant, l’efficacité de ces
techniques pour les images médicales reste un défi à relever.
Les particularités des modalités de l’image médicale, telles que la propriété niveaux de gris
et le défi du traitement de l’image médicale en 3D, constituent des contraintes supplémentaires
46
ÉTAT DE L’ART : INTELLIGENCE ARTIFICIELLE
toujours liées aux données et plus spécifiques au domaine. Parmi les solutions proposées pour
surmonter ce dernier défi est de traiter l’image 3D comme une pile de 2D et la patcher.
47
Chapitre
2
État de l’art : Meta-apprentissage et
attention
Sommaire
2.1 Problématique et solution au manque de données . . . . . . . 52
2.2 Few-shot learning . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.3 Meta-apprentissage . . . . . . . . . . . . . . . . . . . . . . . . . 56
2.4 Solutions de l’état de l’art . . . . . . . . . . . . . . . . . . . . . 59
2.4.1 Apprentissage par transfert . . . . . . . . . . . . . . . . . . . . 59
2.4.2 Apprentissage de l’espace métrique . . . . . . . . . . . . . . . . 63
2.4.3 Des solutions d’apprentissage liées à l’algorithme d’optimisation 70
2.5 Mécanisme d’attention . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.1 Carte d’attention . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5.2 Réseau d’attention spatiale pour la classification en few-shot
learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.5.3 Apprentissage d’une représentation discriminante profonde basée
sur la carte d’attention pour la classification de scènes . . . . . 82
2.5.4 Apprentissage visuel dynamique en quelques coups sans oublier 84
2.5.5 Branche d’attention : Apprentissage du mécanisme d’attention
pour une interprétation visuelle . . . . . . . . . . . . . . . . . . 86
2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
48
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
De nos jours, l’apprentissage profond est utilisé dans des nombreuses tâches dans des
domaines différents avec la même performance, voire meilleure que l’être humain. En 1980,
Fukushima a créé les premiers CNN (section 1.4.3). Depuis lors, grâce l’évolution des
capacités de calcul et de stockage et l’avancement réalisé par la communauté de l’apprentissage
automatique, la performance des algorithmes d’apprentissage profond n’a pas cessé de
s’améliorer sur des multiples tâches liées à l’imagerie. En 2015, He et al. [91] ont confirmé
que leur modèle a dépassé les performances des humains dans la classification de la base
référence ImageNet. Les modèles d’apprentissage profond ont connu un grand succès dans des
applications variées, généralement pour lesquelles les bases étaient relativement abondantes.
On pourrait dire que la machine réussit mieux que les humains à l’exploitation des milliards
d’images. Par contre, les expérimentations prouvent que les meilleurs résultats sont obtenus
avec des énormes bases de données. Effectivement, la quantité et la qualité des données
sont des critères primordiaux pour extraire les meilleurs traits et caractéristiques de données,
en particulier en utilisant les techniques de l’apprentissage profond (fig. 2.1). Ce besoin
observé de données a découragé de nombreux acteurs de la communauté scientifique de la
recherche n’ayant accès qu’à de petits échantillons de données de profiter de la puissance
de l’apprentissage profond. L’influence de la taille de la base de données est beaucoup plus
importante dans le cadre de l’apprentissage profond que pour les techniques classiques de
l’apprentissage automatique (ML). Dans ce sens, une étude comparative équitable est réalisée
sur l’effet de la taille de la base de données sur la fonction d’erreur MAE d’un modèle
d’apprentissage profond ElemNet et deux modèles ML conventionnels déjà prouvés plus
performants que la forêt aléatoire [106]. Comme illustré dans la figure 2.2, la taille de la base
de données d’entraînement impacte davantage ElemNet que les modèles la forêt aléatoire.
Nous observons que la courbe d’erreur présente une diminution plus forte de l’erreur avec
l’augmentation de la taille de la base pour l’apprentissage profond par rapport aux modèles de
la forêt aléatoire. Nos résultats soulignent que le modèle DNN peut non seulement bénéficier
davantage de la taille de la base de données par rapport aux modèles ML classiques, mais aussi
qu’il peut les dépasser même avec une base de données d’environ 4 000 échantillons.
49
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
Cependant, dans plusieurs cas et à causes de nombreux obstacles, la collecte d’une grande
base de données équilibrée et bien libellée avec une bonne qualité est une mission difficile.
Dans des applications du monde réel, il n’est pas toujours possible de posséder une large
base suffisante pour atteindre les mêmes performances mentionnées au-dessus. Parfois, la
tâche consiste à classer des images avec seulement quelques échantillons par classe. Pour ce
type de tâches, les algorithmes classiques d’apprentissage profond, étant des techniques très
gourmandes en termes de données, échouent et sont toujours loin de la performance humaine.
À ceci s’ajoute, l’entraînement d’un modèle avec une grande quantité de données est
gourmand et couteux en termes de temps et de capacité de calcul. En outre, un modèle DNN
entraîné pour une tâche doit être entraîné de zéro pour une nouvelle tâche, en dépit de la
50
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
corrélation qui peut exister entre les deux tâches. Ensuite, après avoir relevé ces chalenges, ces
données peuvent expirer rapidement, ce qui nécessiterait une nouvelle collecte de données et
un nouvel entraînement. Ainsi, il faut trouver de nouvelles approches permettant l’utilisation
de l’apprentissage profond avec peu de données en visant d’autres critères d’un réseau de
neurones tels que l’algorithme d’optimisation, la fonction d’erreur [77] et l’initialisation des
hyper-paramètres [270].
51
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
— Un générateur (G) : Générer des images à partir, par exemple, d’un vecteur de bruit avec
l’objectif de devenir de plus en plus performant pour la génération des images proches
des images réelles.
— Un discriminateur (D) : Distinguer les images réelles des images générées par le
générateur avec l’objectif de devenir de plus en plus performant à trouver les différences
qui sont de plus en plus légères.
Les deux réseaux sont entraînés simultanément en parallèle. Lors de l’entraînement, (D)
est alimenté par des images réelles et des images générées par (G) et espère distinguer leurs
provenances. En parallèle, le générateur apprend à générer des images qui permettent de tromper
le classificateur (D) [123] [210].
Les modèles génératifs offrent des perspectives variées dans plusieurs secteurs, notamment
dans le domaine médical [285] et dans le multimédia [69]. Cependant, comme le cas de toutes
les technologies aussi puissantes, ils pourraient engendrer des multiples problèmes éthiques
telles que les fake news et la manipulation criminelle. En revanche, ils s’avèrent aussi que les
52
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
GAN présentent des solutions efficaces pour détecter les manipulations des images [88][166]
ou le deep fake [275]. Ainsi, les dangers qui viennent avec cette technologie, ne doivent pas être
un obstacle à son progrès. Néanmoins, il est important d’établir une régulation et des solutions
de traçabilité des données.
53
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
candidat puisque le boosting peut augmenter ce problème de sur-ajustement aux données avec
son approche de pondération.
54
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
d’un réseau profond avec que quelques échantillons pour l’entraînement est une mission
difficile puisque cette fonction peut dévier facilement de la solution optimale. La communauté
scientifique de la recherche s’est intéressée à ce problème depuis quelques années et plusieurs
techniques sont désormais disponibles [271][29]. Parmi les solutions développées les plus
répandues, nous pouvons citer l’approche meta-apprentissage qu’on va définir dans la section
suivante avec ses multiples techniques soulignées parmi les solutions de l’état de l’art dans la
section 2.4.
Comme illustré dans la figure 2.5, nous définissons le problème de classification d’images
N-way K-shot comme suit : étant donné un ensemble de données pour l’entraînement (Support
set), nous espérons classer les images de l’ensemble de test ou de requête (Query set) parmi les
N classes. En effet, lorsque K est petit, nous parlons de few-shot learning. Le one-shot learning
et le zero-shot learning désignent des algorithmes ayant le même principe avec l’hypothèse
d’avoir respectivement une seule paire (K=1) ou zéro paire (K=0) de données d’apprentissage
en entrée [132][292][280]. Le défi ici n’est pas le manque de données étiquetées, mais plutôt la
rareté des données elles même.
55
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
Le concept de zero-shot learning se base sur la possession d’une idée générale sur les
caractéristiques fondamentales de l’image telles que l’apparence ou les propriétés d’un certain
objet [202][199]. Ainsi, nous pouvons conclure que le one-shot learning ou le few-shot learning
sont justement une extension de l’hypothèse de zero-shot learning[57][64][289].
2.3 Meta-apprentissage
Au lieu de concevoir les modèles pour extraire les caractéristiques, nous espérons concevoir
une architecture qui apprend la meilleure façon d’apprendre pour aboutir aux meilleurs résultats.
Par conséquent, la mission à court terme est de définir la fonction de prédiction pour la
tâche actuelle, mais également d’une tâche à une autre, le modèle conclut la manière la
56
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
Ainsi, une tâche de classification de N-way K-shot est intégrée dans l’approche de
meta-apprentissage comme un meta-test. Pour le meta-entraînement, nous utilisons une grande
base de données disponible. Le processus de meta-entraînement comporte un certain nombre
d’épisodes. Les épisodes sont composés en respectant la même structure de notre tâche de
classification de meta-test. Par conséquent, pour chaque épisode, nous échantillonnons N classes
et K images de la base de meta-entraînement pour le support set et quelques images pour le
query set. À la fin de chaque épisode, les poids du modèle sont mises à jour d’une façon
à minimiser l’erreur sur le query set. C’est ainsi que le modèle gagne en généralisation et
57
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
F IGURE 2.7 – Jeu de données pour une approche de meta-apprentissage : L’ensemble de données
est en fait un meta-ensemble divisé entre les épisodes qui composent les époques. Nous distinguons
deux processus d’apprentissage et deux apprenants : le meta-apprenant, un modèle qui apprend
à travers les épisodes, et un deuxième modèle appelé base-apprenant, incorporé et entraîné à
l’intérieur d’un épisode par le meta-apprenant. Considérons une époque de meta-apprentissage
composée de plusieurs tâches de classification (plusieurs épisodes). Au cours d’une tâche de
classification T définie par un support set de N ∗ K images et un query set de Q images,
base-apprenant est initialisé et entraîné sur le support set. Ensuite, il est appliqué sur les images
de query set pour prédire leurs classes. À la fin de chaque épisode, les poids du meta-apprenant
sont mises à jour en se basant sur la valeur de la fonction d’erreur de classification de query set.
La différence entre les techniques mentionnées dans ce chapitre est l’approche de fonctionnement
du meta-apprenant.
flexibilité d’un épisode à une autre. Finalement, la performance du modèle est mesurée sur
la tâche de classification du meta-test.
58
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
a) La démarche du meta-apprentissage :
L’un des défis de meta-apprentissage est la similarité entre les tâches précédentes et la
nouvelle tâche.
L’apprentissage par transfert est une technique très largement utilisée où les informations
collectées à partir d’une abondance de données dans une étape à laquelle nous nous référons par
un pré-entraînement sont utilisées pour fournir un meilleur point de départ que l’initialisation
aléatoire des poids du réseau de neurones. En effet, l’initialisation arbitraire de paramètres n’est
pas considérée la façon la plus optimale. Dans cette perspective, plusieurs techniques cherchent
à trouver les valeurs optimales d’initialisation de paramètres, notamment dans l’apprentissage
59
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
par transfert [184][185]. Au lieu de partir d’une initialisation arbitraire pour apprendre une
tâche, un transfert de connaissances d’un ancien apprentissage d’une autre tâche est réalisé.
L’apprentissage profond par transfert est une approche dans laquelle nous utilisons les premières
couches d’un modèle déjà entraînées pour une autre tâche comme premières couches d’un
nouveau modèle [250]. L’apprentissage par transfert permet un apprentissage plus rapide, plus
efficace et plus optimale avec un besoin réduit de données pour effectuer une nouvelle tâche
[273][20].
Afin d’expliquer l’apprentissage par transfert, deux termes doivent être définis : le domaine
et la tâche.
60
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
Ainsi, l’apprentissage par transfert peut être défini comme suit [250] : Ayant une tâche
d’apprentissage Tt dans un domaine Dt et un modèle pré-entraîné dans un autre domaine Ds
pour effectuer une tâche Ts . L’apprentissage par transfert tente d’améliorer la performance de
la fonction de prédiction fT () pour une tâche Tt en utilisant les connaissances apprises en Ds
pour la tâche Ts , avec Ds ̸= Dt et/ou Ts =
̸ Tt . En outre, la taille de la base de données de Ds est
beaucoup plus importante Dt , Ns ≫ Nt favorisant l’apprentissage pour la tâche Ts . Ainsi, c’est
important de pouvoir utiliser le savoir acquis dans cette expérience d’apprentissage pour les
prochains apprentissages (autres domaines ou autres tâches). Nous parlons d’un apprentissage
par transfert profond si fT () est fonction non linéaire représentant un réseau de neurones.
61
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
1. Sélectionner un domaine source dans lequel un modèle est pré-entraîné avec une large
base de données de haute qualité.
2. Éliminer quelques couches et en particulier la dernière couche Softmax.
3. Rattacher des couches adaptées au domaine et au jeu de données cibles.
4. Entrainer la totalité du modèle pour la nouvelle tâche en gardant les premières couches
pré-entraînées figées.
Plusieurs études sont menées pour améliorer les résultats de l’apprentissage par transfert,
notamment une combinaison entre le meta-apprentissage et l’apprentissage par transfert,
illustrée dans la figure 2.9, proposée par Sun et al. [240] pour résoudre un problème de
few-learning. Cette figure nous souligne déjà la différence entre les différentes approches.
62
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
63
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
classificateur basée sur les relations sémantiques (SOC). Ils proposent explicitement un espace
de caractéristiques sémantiques conçu manuellement et un algorithme permettant de faire
correspondre chaque nouvelle sortie à un point de cet espace pour conclure la classe. Socher
et al. [233] ont étendu cette idée de l’espace de caractéristiques sémantiques par une approche
basée sue le réseau de neurones. Dans la suite de cette section, nous citons les principaux
derniers réseaux de neurones qui utilisent des approches métriques.
Le principe d’un réseau siamois est de donner un ensemble de données d’entrée sous la
forme de paires [273]. La seule labellisation nécessaire est de dire si la paire contient des
données appartenant à la même classe ou à deux classes différentes. En 2015, Kochet et
al.[125] ont proposé les réseaux siamois pour résoudre le problème de few-shot learning. Le
modèle est formé de deux réseaux neuronaux convolutifs jumeaux permettant l’extraction des
caractéristiques des images d’entrée. Au début de l’entraînement, le modèle reçoit donc une
paire d’images. Les représentations résultantes alimentent à un autre réseau pour les comparer
et décider si elles appartiennent à la même classe ou à des classes différentes. Ensuite, le modèle
est déployé pour une tâche de classification de few-shot learning, où chaque image de requête
est comparée à toutes les images du support set et assignée à la classe la plus proche.
64
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
Les réseaux siamois sont largement utilisés pour résoudre le problème de few-shot learning.
Néanmoins, il est à noter que la tâche sur laquelle ils sont entraînés (comparaison d’une paire
d’images) diffère de la tâche cible finale (classification) et l’algorithme exige une structure de
paire de données.
En 2016, Vinyals et al. [264] propose une amélioration au réseau siamois. Leurs réseaux de
correspondance classifient les images requêtes en comparant leurs vecteurs de caractéristiques
aux vecteurs des images du support set. Les résultats prouvent que leur approche surclasse les
réseaux siamois et les réseaux de neurones à mémoire augmentée.
L’algorithme utilise une grande base de données pour entrainer le modèle à trouver
les meilleurs vecteurs représentatifs des images comme souligné dans l’approche de
65
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
F IGURE 2.12 – Architecture du réseau siamois avec une fonction d’erreur triplets [117]
meta-apprentissage (voir section 2.3). Dans chaque épisode, les images de support set et
query set sont données en entrée à un réseau de convolutions qui sert à l’extraction des
caractéristiques. Ensuite, chaque image de query set est classée à l’aide d’une couche softmax
en se basant sur la distance cosinus entre le vecteur caractéristique de l’image requête et
les vecteurs caractéristiques des images du support set. Finalement, une fonction d’erreur
d’entropie croisée est calculée et les poids sont mis à jour (voir section 1.3.3). Par conséquent,
les réseaux de correspondance apprennent à calculer des représentations des images et donc à
66
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
les classifier en les comparant aux autres représentations des images de différentes classes (fig.
2.13).
67
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
learning et one-shot learning des réseaux prototypiques prouvent une amélioration par rapport
aux réseaux de correspondance [232].
68
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
La figure 2.18 résume la différence entre les trois derniers réseaux de neurones. Plusieurs
travaux ont été proposés ces dernières années en se basant sur le calcul de la distance métrique.
Les approches peuvent largement varier en fonction de la structure de l’architecture et de la
variation des méthodes d’extraction des vecteurs caractéristiques et des méthodes de calcul de
la distance entre ces vecteurs [52][9].
69
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
L’une des principales limites de l’architecture RNN simple est la disparition du gradient,
qui rend difficile l’apprentissage des corrélations à long terme. Pour résoudre ce problème,
une architecture RNN plus sophistiquée est proposée : les réseaux à longue mémoire à court
terme ou "Long Short Term Memory networks" (LSTM). L’architecture traditionnelle des RNN
est utile lorsque des informations un peu plus anciennes ne sont pas pertinentes pour la tâche
actuelle. Cependant, lorsque l’écart entre les informations requises et la position dans laquelle
elles sont utilisées est important, un mécanisme de mémoire spécifique doit être inclus. Ceci est
lié principalement au fait qu’il est difficile d’apprendre les dépendances à long terme avec la
descente de gradient [16][96]. Les LSTM sont toujours des RNN. La mémoire dans les LSTM
est appelée cellules Ct utilisant l’état précédent Ht−1 et l’entrée courante Xt . En effet, ces
cellules décident des informations pertinentes à conserver et des informations à ignorer (fig.
2.19).
Le module répété dans une architecture RNN simple contient une seule couche. Cependant,
le module répété des LSTM a une architecture différente composée de quatre couches en
interaction (figure 2.19). Un LSTM utilise les portes (opération ponctuelle d’addition ou de
70
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
multiplication) pour contrôler les informations à conserver ou à ignorer dans l’état de la cellule
Ct .
La couche sigmoïde ou tanh donne des nombres entre -1 et 1. Elle décide de la quantité
d’information à conserver.
La porte d’oubli est la première étape du LSTM. Elle décide de l’information à ignorer
ou à conserver dans l’état de la cellule en utilisant l’état caché Ht−1 et l’entrée actuelle Xt et
résulte une valeur entre 0 et 1 pour chaque nombre dans l’état de la cellule Ct−1 . La valeur 1
est utilisée pour conserver entièrement l’information tandis que la valeur 0 est utilisée pour la
rejeter complètement. La fonction de la première couche dénommée ft est décrite comme suit
71
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
Cette étape décide des nouvelles informations pertinentes à stocker dans l’état de la cellule.
Elle est composée de deux parties.
1. La porte d’entrée (Input gate layer) est une couche sigmoïde qui décide des valeurs à
mettre à jour. Sa fonction qu’on désigne par et est la suivante :
2. Une couche de tanh créant un vecteur de nouvelles valeurs à ajouter à l’état de la cellule
Ct . Sa fonction, qu’on désigne par Nt , est la suivante :
On utilise les deux dernières étapes pour mettre à jour l’ancien état de la cellule Ct−1 et
créer un nouvel état de la cellule Ct . Tout d’abord, l’ancien état Ct−1 est multiplié par ft pour
oublier les informations non pertinentes et ajouter et Nt les nouvelles valeurs candidates.
Ct = ft Ct−1 + et Nt (2.4)
c) Sortie
La sortie dépend de l’état de la cellule, du dernier état caché et de l’entrée actuelle. Tout
d’abord, nous utilisons une couche sigmoïde sur l’entrée actuelle et le dernier état caché pour
décider de l’information à produire de l’état de la cellule. Ensuite, on inclut l’état de la cellule
par tanh en donnant des valeurs entre -1 et 1. Enfin, on le multiplie par la sortie de la porte
sigmoïde.
72
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
Meta-LSTM : Ravi et al. [196] ont proposé un réseau d’optimisation basé sur le principe
des LSTM. Les poids θ de base-apprenant sont représentés par l’état des cellules du LSTM, ce
qui conduit à une mise à jour classique de LSTM. Nous pouvons faire une analogie directe entre
une étape de mise à jour LSTM et une rétro propagation du gradient descendant avec ft = 1 et
et le taux d’apprentissage. Par conséquent, ce modèle apprend et mémorise son apprentissage.
Les réseaux de neurones à mémoire augmentée : Santoro et al. [215] ont introduit les
réseaux de neurones à mémoire augmentée ou "memory augmented neural network" (MANN)
avec l’idée de base que de nouvelles images provenant de nouvelles classes pourraient être
classées en utilisant des informations stockées sur la classification d’images précédentes. Il
utilise une architecture permettant d’utiliser l’apprentissage antérieur à chaque étape, composée
d’un RNN (contrôleur) et d’une mémoire augmentée. Cette solution peut résoudre des
problèmes de few-shot learning [216]. Leur modèle utilise un réseau neuronal récurrent qui
apprend à la fois comment stocker et comment récupérer des informations pertinentes à partir
de données antérieures. Le réseau est constitué d’un contrôleur (un LSTM ou un réseau de
type feed-forward) qui stocke les mémoires dans un réseau et les récupère pour les utiliser
dans la classification (fig. 2.20). La mémoire récupérée est une somme pondérée de toutes les
mémoires stockées, pondérée par les similarités cosinusoïdales transformées en soft-max. Au fil
du meta-entraînement, le contenu de la mémoire s’adapte à la tâche actuelle et la classification
s’améliore. Ce travail est similaire aux travaux de Hochreiter et al. [95] qui utilisent aussi les
architectures RNN avec mémoire [94] [96]).
73
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
qui intègre uniquement un mécanisme d’adressage de la mémoire basé sur le contenu sans le
mécanisme d’adressage de la mémoire basé sur l’emplacement.
Dans la même optique, d’autres méthodes exploitent l’idée d’étendre les réseaux neuronaux
avec une mémoire externe [173][172][79]. La principale limite de ces algorithmes est toujours
la capacité du calcul et du stockage.
Dans cette sous-section, nous optons à détailler davantage la technique puisqu’elle sera à la
base de notre approche proposée dans le chapitre 4. En 2017, Finn et al. [61] ont écrit un papier
de référence sur cette technique de meta-apprentissage. Ils ont défini l’idée d’un algorithme
"agnostique" fonctionnant sur n’importe quel réseau entraîné avec la descente de gradient et sur
de multiples tâches d’apprentissage. Les paramètres du modèle sont explicitement construits
de telle sorte qu’un petit nombre d’étapes de gradient avec un petit ensemble de données
d’apprentissage d’une nouvelle tâche produira une bonne performance sur cette tâche [7].
MAML se base sur le principe de généralisation et entraîne le modèle pour qu’il soit facile
à ajuster. L’idée principale est de former les paramètres initiaux du modèle de manière à
maximiser la performance du modèle sur une nouvelle tâche après juste quelques itérations
avec un petit jeu de données. MAML relâche l’hypothèse d’une architecture précise du réseau
de neurones (RNN [216], réseau siamois [125]). Il fonctionne sur différentes architectures
avec différentes fonctions d’erreur. Une autre contrainte résolue en déployant le MAML est la
structure de l’ensemble de données, notamment en paires requises dans différents autres travaux
[133], [248], [219].
74
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
F IGURE 2.22 – Une étape de meta -entraînement d’un processus MAML [17]
Soit fθ notre meta-modèle f paramétré par θ initialisé aléatoirement, p(t) la distribution des
tâches et Jθ la fonction d’erreur. Soit T un lot de N tâches tel que Ti ∼ p(T ). Pour chaque tâche
Ti , nous entraînons le modèle en utilisant K entrés et calculons la fonction d’erreur.
75
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
X
Jθ = c(ŷi | yi , si , θ) (2.6)
Dentranement
θ′ ← θ − α∆θ Jθ (2.7)
Pour le meta-apprentissage avec MAML, la phase d’apprentissage est définie comme suit :
X
Jθ′ = Jθ (2.8)
Dmetaentranement
2.4.3.3 SNAIL
Mishra et al. [165] ont introduit une architecture d’un meta-apprenant attentif (SNAIL). Le
réseau prédit à partir d’un ensemble de tuples (données, étiquette) l’étiquette manquante pour
le dernier exemple. Leur système n’est pas récurrent, et prend toute la séquence de données
de support set en une seule fois. L’architecture est basée sur l’alternance de convolutions et
de couches d’attention. Plusieurs autres travaux se basent sur un mécanisme d’attention [36].
La prochaine section est dédiée pour mieux expliquer le principe d’attention et les principaux
travaux connexes.
76
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
Le mécanisme d’attention peut être utilisé d’autres types de données, notamment le texte,
mais il est très répandu pour l’image [108].
L’un des principaux mots clés en lien avec le mécanisme d’attention est la carte d’attention
(attention map or saliency map) explorée par Simonyan et al. [226] pour visualiser le modèle
de classification des images (fig. 2.24).
2.5.1.1 Objectif
Simonyan et al. [226] ont pour objectif de visualiser le processus de classification d’images
par un réseau profond et à mettre en avant les caractéristiques influençant le plus la décision du
CNN.
77
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
2.5.1.2 Contribution
Ils ont utilisé deux techniques de visualisation : La visualisation d’une représentation par
classe (Class Model Visualisation) et la visualisation de la région d’intérêt spécifique à l’image
78
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
(image-Specific Class Saliency Visualisation). La première vise à créer une image artificielle
représentant la classe d’intérêt. La deuxième est basée sur la génération d’une carte d’attention
par classe.
Étant donné une image I, une classe c et une classification CNN, la fonction de score d’une
classe est définie comme suit :
avec
I Représentation vectorielle de l’image
wc Vecteur de poids
bc Le biais
Dans le cadre d’une représentation linéaire, nous pouvons détecter facilement le pixel le
plus influençant dans la prise de décision. Cependant, la fonction de score de classe n’est
certainement pas linéaire dans un réseau de neurones profond. En effet, étant donné IO l’image
échantillon pour laquelle nous visons à noter les pixels respectivement à leur influence sur
la classe c. Nous pouvons penser à approximer la fonction d’évaluation de la classe par une
fonction linéaire dans le voisinage de IO grâce à une expansion de Taylor du premier ordre
[226] :
Sc (I) ≈ wT + b (2.11)
∂Sc
w= |I (2.12)
∂I O
79
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
— Si l’image est en échelle de gris : Mij =| wh (i, j) | où h(i, j) est l’indice de l’élément de
w respectivement au pixel de I dans la i-ème ligne et la j-ème colonne.
— Si l’image est multicanale (RVB) : Mij = maxz | wh (i, j, z) | où h(i, j, z) est l’indice
de l’élément de w respectivement au pixel de I sur la i-ème ligne, la j-ème colonne et la
z-ème couleur du canal.
Les cartes d’attention établies mettent en évidence les régions d’intérêt de l’image en lien
avec la classe d’intérêt et leur calcul n’est pas couteux puisqu’il ne nécessite qu’une seule
rétro-propagation.
learning
2.5.2.1 Objectif
2.5.2.2 Contribution
Cette approche utilise l’attention canal en parallèle avec le module d’attention spatiale
(C-SAM) afin d’extraire les informations les plus pertinentes en utilisant des échantillons
de plusieurs classes à partir de différentes tâches de classification avec peu de données
80
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
labellisées [291]. Zhang et al. révèlent que contrairement aux travaux précédents [196] [141]
où le meta-apprentissage consiste à apprendre de plusieurs tâches et utiliser les connaissances
préalables pour une nouvelle tâche, cette approche vise à apprendre une représentation des
classes.
Dans cette approche, le meta-apprentissage est déployé en tant que réseau de relation
pour calculer la similarité entre des données libellées et non libellées en utilisant le C-SAM.
Deux techniques du mécanisme d’attention sont utilisées : l’attention en canal liée aux
caractéristiques globales [277] et l’attention spatiale liée aux caractéristiques locales [186].
À partir d’une carte de caractéristiques (feature map), le mécanisme d’attention en canal
extrait un tenseur 1D activé par la fonction Sigmoïde et le mécanisme d’attention spatiale
produit un masque de caractéristiques de la même taille que la carte de caractéristiques. Les
deux techniques d’attention ont pour objectif d’obtenir des valeurs d’activation élevées sur les
cartes de caractéristiques pertinentes et faibles sur les cartes de caractéristiques non pertinentes
redondantes.
Zhang et al. [291] conjuguent les deux techniques d’attention citées ci-dessus pour aboutir
aux meilleurs résultats et extraire les caractéristiques les plus pertinentes relativement aux
tâches. Ils ont inclus un module de métrique de relation déployant un paramètre d’apprentissage
indiquant la pertinence des caractéristiques au lieu de la métrique de distance [242] [92].
Les deux techniques sont complémentaires. L’attention de canal perd de l’information en
multipliant la carte de caractéristiques par les valeurs d’activation inférieures. Placée dans
différentes couches de convolution, lorsque l’attention du canal affaiblit l’information dans
certaines cartes de caractéristiques, l’attention spatiale, en utilisant le masque d’attention, met
en évidence de nombreuses régions pertinentes de chaque carte de caractéristiques. Les cartes
de caractéristiques de sortie résultantes des deux techniques d’attention sont additionnées,
permettant la mise en relief de la région d’intérêt la plus discriminante. Ce travail inclut
également des différentes fonctions de perte personnalisées évaluées sur différentes parties du
réseau de neurones afin d’améliorer ses performances.
81
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
2.5.3.1 Objectif
F IGURE 2.24 – Images d’origine, cartes d’attention et masques d’attention résultants [143]
82
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
2.5.3.2 Contribution
De nombreuses techniques sont proposées avec différentes métriques de distance pour créer
l’espace discriminant pour la tâche de classification de scènes d’images de télédétection [272]
[38]. Cependant, les architectures classiques ne font pas attention à la région discriminante la
plus pertinente de l’image d’entrée représentant les caractéristiques spécifiques d’une classe
particulière. Dans ce sens, Li et al proposent une approche d’apprentissage de représentation
discriminante avec la carte d’attention (DDRL-AM). L’approche commence par la génération
des cartes d’attention (AM) pour toutes les images. Chaque pixel est noté selon sa pertinence
dans l’image originale. Ainsi, dans un second temps, ces cartes d’attention et les images
originales sont données en entrée au réseau de neurones. Ce réseau inclut une opération
de fusion assurant une meilleure utilisation de cette connaissance d’attention acquises dans
les cartes d’attention avec l’image originale. Cette fusion est inspirée par une architecture à
double-flux pour la fusion de caractéristiques proposée par Simonyan et al. [227] comprenant
une couche de sortie de classification Softmax finale fusionnant les deux réseaux. Différents
autres travaux sont faits dans cette direction [58] [30]. Li et al. abordent une architecture
83
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
2.5.4.1 Objectif
Gidaris et al. [72] estiment que l’utilisation du meta-apprentissage pour few-shot learning
doit être plus efficace et plus rapide sans affaiblir et sacrifier la précision sur les classes initiales
sur lesquelles le réseau neuronal s’est pré-entrainé.
84
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
2.5.4.2 Contribution
Les deux parties de la fig 2.26 sont entrainées sur les classes initiales avec une large base
de données. Pendant l’étape de test (meta-test), le générateur de poids intègre le mécanisme
d’attention qui se base sur les poids pour décider. En effet, ce mécanisme prend en entrée les
quelques échantillons de la nouvelle classe et le vecteur de poids de classification des classes
initiales préalablement créé (rectangle vert dans la boîte du classificateur) et génère le vecteur
85
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
de poids de la nouvelle classe (rectangle bleu dans la boite de classificateur) permettant au CNN
d’être performant sur les anciennes classes et les nouvelles classes aussi.
2.5.5.1 Objectif
Grace aux cartes d’attention, nous espérons expliquer visuellement les décisions prises
par le réseau de neurones. Les cartes d’attention mettent en évidence les régions pertinentes
qui influencent le plus la décision. Introduire une branche d’attention permet de payer plus
d’attention aux caractéristiques qui permettent de distinguer les classes et de produire deux
fonctions d’erreur séparées.
2.5.5.2 Contribution
Fukui et al. divisent l’explication visuelle en deux catégories. La première est basée sur la
perturbation de gradient en introduisant un bruit [230] ou une autre perturbation sur les données
d’entrée (données auxiliaires) [221] [34]. Suite à ces perturbations, les cartes d’attention
sont générées. La deuxième catégorie génère ces derniers en se basant sur la décision de
classification. La technique classique reconnue sous le nom de carte d’activation de classe
(CAM) nécessite le remplacement de la couche entièrement connectée par une couche de
convolution et une couche de global average pooling GAP qui dégradent les performances du
CNN [168] [294] (fig.2.27).
Afin d’éviter cette dégradation, Fukui et al. [67] proposent l’incorporation de la branche
d’attention (ABN). Cette technique d’attention permet de générer les cartes d’attention en
une propagation vers l’avant (forward propagation). Cette structure permet en même temps
d’expliciter la décision du réseau de neurones et d’améliorer sa performance. Cette structure de
86
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
F IGURE 2.27 – Différene entre la structure classique de carte d’activation de classe (CAM) et la
structure basée sur la branche d’attention (ABN)
L’ABN est entraîné en calculant les fonctions de perte dans les branches d’attention et de
perception. La branche d’extraction de caractéristiques et la branche perception sont conçues en
ajustant des modèles VGGNet et ResNet. La branche attention est introduite après la branche
d’extraction de caractéristiques. Cependant, contrairement au CAM classique où la sortie est les
cartes d’attention, les cartes d’attention sont ici une sortie intermédiaire et sont ensuite l’entrée
de la branche perception.
87
ÉTAT DE L’ART : META-APPRENTISSAGE ET ATTENTION
2.6 Conclusion
Dans ce chapitre, nous avons défini la problématique de manque de donnée connue sous le
nom de Few-shot learning et l’approche tendance de meta-apprentissage. Nous avons présenté
un état d’art intensif divisé en trois catégories en se basant sur la stratégie d’apprentissage et e,
détaillant l’évolution des solutions proposées. Ensuite, toujours dans l’optique de l’amélioration
de l’efficacité de l’apprentissage, nous nous sommes intéressés au mécanisme d’attention. Nous
avons présenté une revue de littérature des différents travaux en examinant et en discutant leurs
architectures et leurs résultats. Cette étude d’état de l’art est très enrichissante pour pouvoir
améliorer tous les algorithmes d’apprentissage. Dans le cadre de notre thèse, ces notions et ces
approches nous seront utile dans le chapitre 3 et 4 pour expliquer nos approches et motiver
partiellement les choix qu’on va effectuer.
88
Chapitre
3
Anonymisation profonde
Sommaire
3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
3.2 L’apprentissage profond et la confidentialité . . . . . . . . . . 94
3.2.1 Les données : le pétrole d’aujourd’hui . . . . . . . . . . . . . . 95
3.2.2 La confidentialité en jeu . . . . . . . . . . . . . . . . . . . . . . 99
3.2.3 Empreintes digitales . . . . . . . . . . . . . . . . . . . . . . . . 99
3.3 Base de données . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
3.4 L’anonymisation liée aux équipements d’acquisition de l’IRM 102
3.4.1 Approches et architectures . . . . . . . . . . . . . . . . . . . . . 103
3.4.2 Reformulation mathématique . . . . . . . . . . . . . . . . . . . 106
3.4.3 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . 107
3.5 L’anonymisation liée à l’identité du patient . . . . . . . . . . . 111
3.5.1 Approches et architectures . . . . . . . . . . . . . . . . . . . . . 113
3.5.2 Expérimentations et résultats . . . . . . . . . . . . . . . . . . . 114
3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
89
ANONYMISATION PROFONDE
3.1 Motivation
La confidentialité ! Un mot qui nous tient au cœur en tant qu’individu, un mot qui fait
référence à de nombreux sujets et domaines dans notre quotidien [218]. La confidentialité est un
pacte de confiance, de discrétion, de réassurance et de sécurité établi avec une seconde partie.
La notion de confidentialité dans le domaine de la sécurité de l’information numérique a été
définie par l’organisation internationale de normalisation (ISO) comme « le fait de s’assurer
que l’information n’est accessible qu’à ceux dont l’accès est autorisé ».
a) Le secret professionnel
b) Confidentialité et anonymisation
90
ANONYMISATION PROFONDE
impossible. Ce processus inclut l’élimination de tous les rapports et les repères permettant de
tracer l’identité de la personne.
c) Pseudo-anonymisation
Par ignorance ou par faute d’inattention, on a l’impression parfois d’être anonyme alors
qu’on ne l’est pas. Notamment, sur les réseaux sociaux, on pense souvent qu’on est anonyme
en utilisant un faux profil ou un pseudo. Cependant, c’est loin d’être le cas. En effet, on est bien
identifié sur internet à cause de plusieurs techniques avancées. Ainsi, de nos jours, on doit être
bien vigilant pour s’assurer de la protection de la confidentialité. Ces avancées technologiques
provoquant une pseudo-anonymisation font peur aux individus aussi bien qu’aux institutions.
Un autre domaine d’application auquel nous allons nous intéresser le plus dans notre travail est
le domaine médical. On a tendance à croire que dès que les coordonnées personnelles (nom,
prénom, âge...) sont éliminées, l’identité du patient est bien préservée. En réalité, des approches
avancées proposées par exemple par l’apprentissage profond permettent de dévoiler l’identité
du patient sans avoir besoin de ces méta-données. Dans le cadre de ce travail, nous abordons la
problématique de l’anonymisation en imagerie médicale. Effectivement, des traces invisibles à
l’œil nu dans l’imagerie médicale permettent à nos réseaux de neurones de divulguer l’identité
du patient.
L’apprentissage profond est un outil puissant qui permet d’effectuer de multiples tâches
complexes, parfois inaccessibles d’une façon classique à l’être humain (voir chapitre 2).
Cependant, il s’agit d’une arme à double tranchant. Son pouvoir, notamment dans le diagnostic
médical, augmente simultanément avec sa capacité à violer facilement la vie privée des
personnes. Par conséquent, il y a toujours des questions sur la confidentialité des échanges
effectuées et les institutions se méfient souvent du partage des données. Ainsi, la problématique
de la pseudo-anonymisation est de plus en plus urgente.
Les données sont importantes pour la communauté scientifique, car elles sont la source
même des connaissances d’un domaine. Elles apportent des éléments concrets et servent à faire
avancer la science et la technologie. La science de données permet d’exploiter ces données
91
ANONYMISATION PROFONDE
brutes pour étudier et analyser un système complexe comme une entreprise ou encore un
organe ! La fiabilité des données scientifiques et techniques, la confiance de leur exploitation,
représentent donc des enjeux socio-économiques primordiaux. La masse de données à gérer est
également un enjeu important, résumé dans le contexte de Big data, ou données massives, que
des outils d’IA permettent de traiter.
92
ANONYMISATION PROFONDE
nombreuses caractéristiques invisibles dans les images peuvent aider à tracer les données
anonymes.
Nous espérons combattre le feu par le feu. Dans un premier lieu, nous utilisons
l’apprentissage profond pour trouver ces traces invisibles. Ensuite, nous proposons d’utiliser
également l’apprentissage profond pour les exclure. Pour ce travail, nous nous concentrons
sur l’imagerie par résonance magnétique (IRM). Cependant, les solutions proposées peuvent
être généralisées pour des multiples types d’imagerie dans le domaine médical, mais aussi
dans d’autres domaines. Dans cette perspective d’anonymisation, ce chapitre inclut deux
contributions majeures. Pour la première contribution, nous nous intéressons à l’une des
caractéristiques les plus importantes de l’IRM : l’équipement utilisé pour l’acquisition. En effet,
spécialement pour les maladies rares, connaitre un détail lié à la machine ou l’établissement
d’acquisition peut permettre d’identifier directement le patient. Tout d’abord, nous cherchons
à produire un algorithme capable de bien distinguer plusieurs équipements IRM de différents
constructeurs. À cette fin, nous utilisons une architecture de réseau de neurones convolutif
pour travailler sur cette tâche de classification d’images médicales. Par la suite, nous allons
reconstruire l’IRM d’entrée à l’aide d’un auto-encodeur. La dernière étape consiste à utiliser
l’auto-encodeur afin d’induire en erreur le classifieur qui classifie l’équipement IRM. Les
données résultantes représentent des IRM toujours valides pour le diagnostic médical, mais
sans information sur l’équipement d’acquisition. La deuxième contribution de chapitre consiste
à préserver directement l’identité du patient. Nous prouvons tout d’abord la possibilité de
distinguer les IRM des différents patients, ce qui est problématique, surtout dans le cadre des
maladies rares. Ensuite, le même processus est adapté pour aboutir à des IRM anonymisées
utilisables pour le diagnostic avec une protection réelle de l’identité du patient.
Ce travail est une initiation d’un processus rassurant les institutions médicales quant à la
confidentialité de leurs patients et permettant aux chercheurs d’obtenir des données d’une haute
qualité visuelle nécessaires pour les modèles d’aide au diagnostic médical. Dans ce but, nous
proposons la première étape vers une véritable anonymisation des données d’imagerie médicale
basée sur les caractéristiques de classification extraites à l’aide de réseaux de neurones profonds.
À notre connaissance, ce travail est le premier à utiliser l’auto-encodeur en conjonction avec
93
ANONYMISATION PROFONDE
La collecte des bases de données de haute qualité est souvent une tâche difficile. De
nombreux défis sont à relever dans cette perspective, notamment l’accès aux données pour
des considérations juridiques et éthiques [19]. Ces bases de données sont importantes
pour l’avancement de la recherche. Cependant, de nombreuses entreprises, qui collectent
massivement des données, ont réussi à pénétrer la vie privée des individus. Ces entreprises
étaient les premières bénéficiaires des avancées de l’intelligence artificielle et en particulier de
l’apprentissage profond, ce qui a soulevé des véritables problèmes de confidentialité.
94
ANONYMISATION PROFONDE
à changer notre mode de vie. Mais avec le progrès des capacités de calcul et de stockage
de données, l’apprentissage profond a son mot à dire. De nos jours, une grande quantité de
données est produite et l’apprentissage profond est incorporé dans toutes nos machines. Cette
combinaison est une arme à double tranchant. En effet, son bénéfice est énorme puisqu’avec
une grande quantité de données, les réseaux de neurones omniprésents sont de plus en plus
performants. Par conséquent, ils sont capables d’effectuer de multiples tâches avec une grande
efficacité et des records de précision. Cependant, ce bénéfice s’est accompagné d’un risque de
confidentialité. Effectivement, cette dominance sur les données et la progression de la puissance
de l’apprentissage profond a permis à des entreprises une utilisation controversée à des fins de
commercialisation, mais aussi de manipulation sociale, politique, éthique et économique (voir
section 3.2.2). Ainsi, les individus aussi bien que les institutions ont commencé à s’interroger
"enfin" par rapport à la confidentialité de leurs données [283][288]. Nous allons voir dans les
sections suivantes que les résultats donnés par les réseaux de neurones sont souvent bénéfiques
s’ils sont bien interprétés et utilisés dans un cadre surveillé. Cependant, ce n’est toujours pas le
cas [208][122]. Les entreprises de nos jours sont en forte compétition de collection de données.
Les données sont considérées comme le pétrole d’aujourd’hui. En effet, cette tendance récente
a fait de ce sujet une préoccupation très pressante pour la plupart des institutions de différents
domaines et des gouvernements [142][151]. Il s’agit d’un défi très intéressant : d’une part,
on veut fournir des modèles performants avec des données accessibles, mais d’autre part, les
données doivent être protégées contre les manipulations intentionnelles et accidentelles de la
confidentialité.
À travers les figures 3.2 et 3.3, nous observons quelques sources expliquant l’explosion de la
quantité de données. Involontairement et parfois volontairement, à travers un partage, un j’aime,
un clic, on est en train de créer une énorme base de données qui permet à des acteurs de décider
par rapport à notre avenir.
95
ANONYMISATION PROFONDE
La pandémie de 2020, par exemple, a affecté de nombreux secteurs qui ont tourné au
ralenti, voire se sont totalement arrêtés, mais les données, elles, n’ont cessé d’être produites
[27] ! En effet, la variété des sources d’entrées permettent d’accroître considérablement la
collecte de données, tandis que les coûts d’infrastructure de la gestion et du stockage diminuent.
La puissance ascendante des données donne naissance à des entreprises spécialistes dans
l’exploitation des données. Ces entreprises se nourrissent des données et grâce à l’apprentissage
par transfert (voir section 2.4.1), elles sont capables de performer d’une tâche à une autre et d’un
secteur à un autre sans plus avoir besoin d’une grande quantité de données. Elles possèdent des
modèles de plus en plus puissants et consistants qui peuvent à la fois faire avancer l’humanité
et mettre en danger la sphère de confidentialité (section 3.2.2).
96
ANONYMISATION PROFONDE
97
ANONYMISATION PROFONDE
F IGURE 3.5 – Accessibilité et l’exploitation des données dans les différents secteurs [244]
SVB Analytics a établi un index de maturité (fig. 3.5) qui permet d’examiner le niveau
d’incorporation de l’exploitation de données dans des différents secteurs en se basant sur trois
caractéristiques primordiales : restrictions règlementaires, facilité de la collecte des données
et le niveau d’intégration technologique. Plus le score total est élevé, plus l’exploitation est
98
ANONYMISATION PROFONDE
développée. Par conséquent, nous pouvons voir que notamment dans le secteur de la santé, le
score est faible et la marge de croissance est énorme. Cependant, nous pouvons observer aussi
que les restrictions réglementaires et l’inaccessibilité aux données sont des défis importants
dans ce domaine.
Les innovations proposées par l’apprentissage profond ont permis de changer les règles
du jeu de tous les secteurs. Parfois, l’accès à des données confidentielles et spécifiques à
l’aide des partenaires ou par le biais des accords engagés peut être un besoin vital pour les
acteurs du marché afin de maintenir un avantage concurrentiel ou pour manipuler la population
dans une direction ou une autre. Par conséquent, et afin préserver la confidentialité, des
nombreuses réglementations sont apparues. Cependant, plusieurs tâches importantes n’ont pas
pu être traitées efficacement par l’intelligence artificielle en raison de ces restrictions sur les
données, notamment dans le domaine médical où les protocoles de confidentialité sont stricts
et ne permettent pas de faciliter l’accès aux données aux chercheurs. En effet, l’éventualité
d’une ré-identification du patient est une préoccupation émergente [105][191][60][281][130].La
manipulation des données des patients profiterait financièrement aux compagnies d’assurance
entre autres. Par conséquent, les institutions médicales disposent de protocoles stricts et
complexes pour ouvrir les données à la recherche publique, ce qui empêche l’accélération de
la recherche pour les applications cliniques du monde réel [112][287][73]. Ainsi, en utilisant
l’apprentissage automatique pour protéger la vie privée, nous pouvons faire une énorme
différence dans différentes tâches du domaine médical telles que le diagnostic, pronostic et
la guérison des maladies.
99
ANONYMISATION PROFONDE
Le big data est souvent associé à ce qu’on pourrait appeler la malédiction des "5V " : volume,
vitesse, variété, variabilité et véracité. Cette notion est particulièrement vraie dans le domaine
de la santé : Les données sur un patient sont très nombreuses, elles peuvent être compilées très
rapidement et doivent être analysées vite, en temps réel, elles sont des sources très diverses, de
nature hétérogène et n’ont pas toutes le même poids et on ne peut pas toujours leur apporter la
même confiance. Mais cette malédiction potentielle des 5V, si elle est maîtrisée, peut permettre
d’aller vers une médecine « 5P » : préventive, prédictive, participative, personnalisée, pertinente.
L’imagerie médicale est un outil précieux qui contribue largement à cette médecine 5P mais
aussi à la problématique des 5V. Ainsi, un scanner corps entier génère plusieurs milliers
d’images comprenant chacune plusieurs millions de pixels. L’imagerie « multimodale » faisant
appel à plusieurs modes d’acquisition en IRM amplifie encore la quantité d’informations.
De nos jours, l’IRM est largement utilisée, étant une imagerie non ionisante et non invasive
offrant une grande résolution spatiale et temporelle et de riches informations anatomiques
et physiologiques. Habituellement, différentes séquences d’IRM sont fournies, telles que
Flair, T1, T2, T1 post-contraste, correspondant à différentes techniques d’excitation des spins
magnétiques à l’intérieur du corps humain, ce qui donne lieu à différents contrastes d’échelle
de gris (voir section 1.4.2). Nous limiterons notre expérience à des séquences T2. Utiliser la
100
ANONYMISATION PROFONDE
totalité de l’IRM n’est pas toujours l’approche la plus efficace, car toutes les régions ne sont pas
pertinentes pour notre classifieur. En revanche, utiliser l’ensemble de l’image rend la complexité
de l’approche élevée, ce qui rendrait la méthode coûteuse en termes de calcul. Par conséquent,
l’utilisation d’une zone plus petite de notre IRM peut s’avérer plus efficace et plus précis que
l’utilisation de l’IRM entière. Ainsi, nous avons choisi d’utiliser les 10 coupes centrales de notre
IRM d’entrée, quelles que soient les dimensions initiales.
Les données utilisées pour la préparation de cet article proviennent de la base de données
d’Alzheimer’s Disease Neuroimaging Initiative (ADNI) 4 . L’ADNI a été lancée en 2003 sous la
forme d’un partenariat public-privé, dirigé par le chercheur principal Michael W. Weiner, MD.
L’objectif principal de l’ADNI est de vérifier si l’imagerie par résonance magnétique (IRM),
la tomographie par émission de positons (TEP), d’autres marqueurs biologiques et l’évaluation
clinique et neuropsychologique peuvent être combinés pour mesurer l’évolution de la déficience
cognitive légère (MCI) et de la maladie d’Alzheimer précoce (AD).
L’ADNI est l’une des plus grandes bases de données cliniques disponibles et de
qualité contrôlée, avec une large distribution d’âge et de sexe. Elle vise à développer une
compréhension claire de la maladie d’Alzheimer. L’utilisation d’un tel ensemble de données
peut améliorer les techniques du diagnostic pour la détection précoce de la maladie d’Alzheimer
et donc fournir une meilleure aide aux cliniciens.
F IGURE 3.6 – La distribution de la base de données ADNI en fonction d’âge et de sexe en 2022
4. http://adni.loni.usc.edu/wp-content/uploads/how_to_apply/ADNI_Acknowledgement_List.pdf
101
ANONYMISATION PROFONDE
l’IRM
Notre première contribution a pour but de surmonter la problématique des traces liées au
dispositif d’acquisition dans l’IRM afin de protéger la vie privée des patients. La première partie
sert à fournir un modèle qui a la capacité de classifier l’IRM en fonction du constructeur de
l’équipement. Ces empreintes laissées sur l’image par l’équipement IRM lors de l’acquisition
sont invisibles à l’œil nu. Il est donc difficile de se fier aux méthodes classiques d’extraction
de caractéristiques. Par conséquent, nous proposons d’utiliser l’apprentissage profond pour la
classification. Le réseau de neurones prend en entrée l’IRM et donne en sortie le constructeur du
dispositif de d’acquisition. Nous testons notre approche sur un jeu de données de la base ADNI.
Notre classifieur a montré de bonnes performances pour distinguer les différents constructeurs
de machines IRM.
La génération et la reconstruction de données est également l’un des défis les plus émergents
dans le domaine médical (voir section 3.2.2). De nombreux travaux de recherche récents
se concentrent sur cette tâche tout en abordant les questions d’anonymisation [287][112].
L’anonymisation représente le processus d’élimination irréversible des données permettant
d’identifier la personne par tous les moyens possibles. Cependant, nous avons déjà prouvé que la
suppression des méta-données de l’image IRM n’est clairement pas suffisante pour une véritable
anonymisation. Dans cette perspective, la deuxième partie de notre contribution scientifique
102
ANONYMISATION PROFONDE
est de proposer une approche basée sur un encodeur-décodeur pour reconstruire les données
IRM sans les empreintes liées à l’équipement. Enfin, nous combinons notre classifieur avec
l’auto-encodeur afin de générer des données synthétiques de haute qualité et résistantes aux
attaques de confidentialité.
Pour valider notre proposition, nous mesurons la métrique Peak Signal-to-Noise Ratio
(PSNR) sur l’image reconstruite afin de nous assurer de la qualité de l’image et des faibles
performances de la classification. Nous collaborons avec des spécialistes du domaine pour
approuver la qualité de ces données pour le diagnostic médical. Enfin, nous observons que la
reconstruction automatique de l’IRM diminue la précision du classifieur de 95 % à 86 %. Mais,
en utilisant notre fonction d’erreur personnalisée pour entraîner notre modèle, la précision du
classifieur est réduite à 58 %.
Dans cette section, nous détaillons les architectures déployées, en présentant leurs
hyperparamètres, en examinant et en discutant leurs résultats.
Nous avons choisi de travailler sur les trois fabricants dominants d’IRM : SIEMENS, Philips
Medical Systems et GE MEDICAL SYSTEMS. Le protocole d’IRM de la base de données que
nous avons choisi pour nos expériences se concentre sur l’imagerie du plan d’acquisition axial
cohérent sur des scanners 3T en utilisant des séquences pondérées en T2. Nous avons choisi
d’entraîner notre modèle d’abord sur les scanners de dépistage de 500 patients pour chaque
fabricant en utilisant 1/5 de cet ensemble total de données d’entraînement comme ensemble de
données de validation. Ensuite, pour évaluer la performance de notre modèle, nous avons utilisé
le scanner de dépistage de 100 patients différents comme ensemble de données du test.
Deux autres phases sont importantes avant l’étape de classification : le prétraitement des
IRM et l’extraction des coupes (voir section 1.4.2). L’étape de prétraitement effectue une
étape de correspondance d’histogramme pour normaliser les distributions des valeurs de pixel
103
ANONYMISATION PROFONDE
à travers les volumes d’image dans l’ensemble de données. Elle comprend également une étape
de normalisation de la carte des voxels. Les images d’entrée, pré-traitées et échantillonnées à la
dimension 228 × 228 × 1, sont les entrées de notre classifieur.
La première partie de notre travail vise à fournir un classifieur capable de distinguer les
différents équipements IRM. Pour ce faire, notre modèle d’apprentissage profond est basé
sur un CNN. Afin de trouver le modèle optimal pour la meilleure prédiction, nous avons
effectué une recherche approfondie de la meilleure architecture de réseau de neurones et de
ses hyperparamètres. Nous avons effectué des essais systématiques en commençant par une
architecture à deux blocs et en augmentant progressivement la profondeur pour améliorer la
performance d’apprentissage de notre modèle jusqu’à s’approcher d’un point de saturation.
L’architecture retenue du réseau, illustrée sur la figure 4.1, se compose de quatre blocs de
convolution. Elle est similaire à l’architecture de base de classifieur utilisé par Vinyals et al.
[264] précédés d’une couche de mise en commun de la moyenne globale. Chaque bloc de
convolution est constitué d’une convolution (3 × 3 × 1), suivie d’une fonction d’activation
non linéaire ReLU et d’une couche de max-pooling (2 × 2 × 1). Les deux premiers blocs
contiennent respectivement 32 et 64 filtres, suivis de deux blocs de 128 filtres. La sortie des
quatre blocs convolutifs est transmise à une couche d’aplatissement (Flatten) suivie de deux
blocs denses de respectivement de 32 et 3 unités, d’une fonction d’activation ReLU et d’une
fonction d’activation Softmax (voir section 1.3.5). La sortie finale est le nombre de classes
représentant le nombre de fabricants d’IRM.
104
ANONYMISATION PROFONDE
illustré dans la figure 3.8 comme la branche d’encodeur-décodeur pour reconstruire les coupes
d’IRM de 228×228×1 et on observe les résultats. L’encodeur consiste en 3 blocs de convolution,
chaque bloc incorporant une couche de convolution et une couche de batch normalization. Une
couche de downsampling max-pooling suit les deux premiers blocs de convolution. Le premier
bloc contient 32 filtres, suivi de deux blocs de 64 filtres. De même, le décodeur se compose
de 3 blocs convolutifs, chaque bloc comprenant une couche de convolution et une couche de
batch normalization. Une couche d’upsamling suit les deux premiers blocs de convolution. Le
premier et le deuxième bloc contiennent respectivement 64 et 32 filtres, suivis d’un bloc d’un
seul filtre reconstruisant l’IRM d’entrée.
105
ANONYMISATION PROFONDE
où
θ
poids
f
θ encodeur-decodeur
106
ANONYMISATION PROFONDE
minθ Lθ (X)
(A) :
maxθ Lc (X ′ )
où
Lc l’erreur de classification
Lc (X ′ ) = Lc (fθ (X))
maxθ Lc (X ′ )
la contrainte du kkt
La solution θ de (A) vérifie minθ (Lθ (X) − λL′ (X) ou minθ (Lθ (X) + λexp(−L′ (X)) .
Cette nouvelle fonction d’erreur prend en compte la contrainte d’avoir la valeur d’erreur
de classification la plus élevée possible tout en conservant la performance de la reconstruction
d’IRM.
Nous procédons à un entrainement par cycle. Un cycle est composé de plusieurs époques.
Le passage d’un cycle à un autre suit simplement les principes d’un apprentissage par transfert.
107
ANONYMISATION PROFONDE
Notre entraînement pour la classification ne comprend que 5 cycles de 50 époques. Les courbes
de la précision de classification de l’entraînement et de la validation du premier cycle, illustrées
dans la Figure 3.9 montrent que notre apprentissage atteint une précision de classification très
élevé après seulement 20 époques. Nous avons validé notre modèle pour la classification des
constructeurs d’IRM sur l’ensemble de données du test. Comme le montrent le tableau 3.1 et la
matrice de confusion (fig. 3.11), notre approche atteint une précision de classification de 95 %
et une perte très réduite (fig.3.10) démontrant la performance de notre méthode et sa possible
utilisation pour des applications cliniques réelles.
TABLE 3.1 – Résultats sur les données test de la classification des constructeurs d’IRM
Notre auto-encodeur a également prouvé une bonne performance. Plusieurs méthodes dans
l’état de l’art sont proposées pour évaluer la qualité des images après des manipulations de
compression ou de déformation [50][33][209]. Pour ce travail d’initiation, on a choisi d’utiliser
la PSNR, un rapport utilisé comme mesure de la qualité visuelle entre l’image originale et une
108
ANONYMISATION PROFONDE
image reconstruite. Cette métrique est utilisée principalement pour observer la qualité visuelle
de l’IRM reconstruite. Bien que la PSNR a atteint seulement 21,98 dB après un seul cycle,
visuellement, la qualité de la reconstruction était déjà élevée. Pour confirmer cette qualité, nous
avons collaboré avec des spécialistes dans le domaine de l’imagerie médicale. Ces derniers
ont confirmé que ces images résultantes peuvent être utilisées dans les applications cliniques
pour lesquelles elles sont destinées, à savoir les tâches de diagnostic médical. Des échantillons
d’images d’entrée de l’auto-encodeur comparés aux images reconstruites sont illustrés dans
la figure 3.12. Nous montrons également la courbe de fonction d’erreur décroissante de notre
auto-encodeur (Fig 3.13) prouvant sa performance.
La dernière étape de notre approche est la combinaison adaptée de notre classifieur et notre
auto-encodeur. Tout d’abord, nous testons les images reconstruites de l’ensemble de données
de test dans notre classifieur et la précision de classification diminue à 86 %. Ensuite, nous
intégrons la fonction d’erreur améliorée liant le classifieur à l’auto-encodeur. Nous avons testé
plusieurs valeurs de λ et comparé l’efficacité de notre algorithme sur le jeu de données (Figure
3.14). L’objectif de cette étape est de trouver le meilleur compromis entre la précision de
classification de la classification et les performances de l’auto-encodeur (Figure 3.15). Nous
avons diminué la précision à 58 % en maintenant un PSNR de 18,48 dB en utilisant λ = −0, 008.
109
ANONYMISATION PROFONDE
Par conséquent, et comme le montre la matrice de confusion (fig. 3.16), notre reconstruction
est capable de diminuer l’efficacité du classifieur et de l’induire en erreur. D’autre part, la
valeur PSNR proche de PSNR à l’origine prouve que notre approche préserve une qualité
visuelle de l’IRM permettant de l’utiliser pour de multiples tâches du diagnostic médical. Nous
avons, également à cette étape, montré quelques échantillons d’images reconstruites à des
experts médicaux avec lesquels nous collaborons étroitement. Ils ont pu évaluer visuellement
110
ANONYMISATION PROFONDE
les changements dans les caractéristiques des tissus (matières blanche et grise) et l’atrophie
cérébrale progressive des images reconstruites de patients souffrant d’Alzheimer, validant ainsi
la qualité des images reconstruites et le diagnostic possible sur cette tâche spécifique.
Nous avons cherché la source qui explique la valeur de la PSNR limitée en dépit de la bonne
qualité de la reconstruction confirmée par nos spécialistes. L’investigation a donné qu’il y
avait des IRM de phase dans la base de données avec des spécifications différentes. Leurs
éliminations n’a pas influé sur les résultats de classification, mais a amélioré de loin la valeur
de PSNR à une moyenne totale de 42.37 dB.
Notre travail était à notre connaissance le premier travail qui traite la problématique
des empreintes des équipements d’acquisition d’imagerie médicale ayant comme objectif
l’anonymisation profonde. Suite aux résultats satisfaisants sur les fabricants IRM, nous
proposons d’aller plus loin dans cette perspective.
111
ANONYMISATION PROFONDE
F IGURE 3.16 – Matrice de confusion des données de test de notre approche finale
nouvelle problématique et pour protéger la vie privée des patients. Comme précédemment, les
méta-données qui permettent d’identifier le patient sont exclues. En utilisant l’apprentissage
profond, nous prouvons encore un problème de pseudo-anonymisation en retrouvant des traces
distinguant les patients. La première partie de cette section a pour but de fournir un modèle qui
a la capacité de classifier l’IRM en fonction de l’identité du patient. Cependant, contrairement
aux dispositifs d’acquisition, la quantité de données n’était pas suffisante pour effectuer un
112
ANONYMISATION PROFONDE
entraînement classique. Dans ce but, nous proposons d’utiliser l’une des techniques présentées
dans le chapitre 2 permettant d’utiliser les réseaux de neurones avec une petite quantité de
données. Ensuite, similairement à la section précédente, nous procédons à une reconstruction
des données d’une façon à produire des images d’une qualité suffisante pour le diagnostic
médical et à préserver l’identité des patients.
Notre dernière contribution combine les deux réseaux : celui du classifieur et celui de la
reconstruction. L’objectif est de tromper le classifieur tout en conservant la meilleure qualité
d’image reconstruite. Nos expériences ont prouvé que cette combinaison de réseaux améliore
la performance globale. Cette piste pourrait être très utile dans la direction de l’anonymisation
dans le domaine de l’imagerie médicale.
L’objectif de cette partie est d’utiliser l’apprentissage profond pour résoudre le problème
de l’identification des patients à travers l’IRM lié afin de protéger leur vie privée. Dans
cette sous-section, nous allons présenter notre pipeline avec les architectures et les approches
proposées.
Dans cette partie, nous utilisons toujours des séquences des IRM pondérées en T2 avec
un plan d’acquisition axial cohérent sur des scanners 3T. Nous avons choisi d’entraîner notre
modèle d’abord sur les scanners de dépistage de 20 patients, 9 IRM par patient, en utilisant
2 IRM de cet ensemble total de données d’entraînement comme ensemble de données de
validation. Ensuite, pour évaluer la performance de notre modèle, nous avons utilisé 3 scanners
de dépistage des 20 patients comme ensemble de données du test.
113
ANONYMISATION PROFONDE
Dans la première partie de notre travail, nous envisageons fournir un classifieur capable de
distinguer l’identité des patients. Pour ce faire, nous avons procédé au déploiement de la même
architecture utilisée pour l’identification des équipements d’acquisition. Nous avons également
effectué les essais en nous basant sur le nombre de blocs et en augmentant progressivement
la profondeur pour améliorer la performance d’apprentissage de notre modèle. L’architecture
retenue du réseau est la même architecture illustrée sur la figure 4.1 et décrite dans la section
3.4.1.2. La sortie finale est le nombre de classes représentant le nombre de patients. Nous avons
jugé les résultats moyennement satisfaisants à cause de la quantité de données limitée. Ainsi,
nous avons implémenté une architecture siamoise (voir sec 2.4.2.1). Cette approche a amélioré
la performance de classification.
Le pipeline de cette partie est similaire à la reconstruction de l’IRM liée aux équipements 3.8.
Effectivement, cette étape de reconstruction, éliminant les dernières traces en lien avec l’identité
des patients, est la partie la plus importante dans la perspective de l’anonymisation de l’IRM.
Identiquement à la section 3.4.1.2, une fonction d’erreur est adaptée pour combiner le classifieur
et l’auto-encodeur. L’entraînement séquentiel du nouvel auto-encodeur diminue la précision du
classifieur tout en maintenant la performance de la reconstruction de l’auto-encodeur.
114
ANONYMISATION PROFONDE
115
ANONYMISATION PROFONDE
F IGURE 3.20 – Exemple d’images reconstruites par l’auto-encodeur avec la fonction d’erreur
adaptée. À gauche, l’image originale et l’image reconstruite d’un patient souffrant de la maladie
d’Alzheimer, à droite, les images d’un patient sain.
116
ANONYMISATION PROFONDE
La dernière étape de notre approche est la combinaison adaptée de notre classifieur et notre
auto-encodeur, en intégrant la fonction d’erreur améliorée liant le classifieur à l’auto-encodeur.
L’objectif de cette étape est toujours le meilleur compromis entre la précision de classification
de la classification et les performances de l’auto-encodeur. Notre auto-encodeur adapté a prouvé
une bonne performance. La PSNR a atteint 31,98 dB. La qualité des images reconstruites
était également confirmée auprès de nos spécialistes (fig. 3.20). Nous avons réussi à diminuer
la précision de classification à 63 % comme le montre la matrice de confusion (fig. 3.21),
notre reconstruction est capable de diminuer l’efficacité du classifieur et de l’induire en erreur.
D’autre part, la valeur PSNR prouve que notre approche préserve une qualité visuelle de l’IRM
nécessaire aux multiples tâches du diagnostic médical.
F IGURE 3.21 – Matrice de confusion des données de test de notre approche finale
3.6 Conclusion
Dans la première partie de chapitre, nous nous sommes concentrés sur les traces de
l’équipement d’acquisition IRM. Nous avons proposé deux architectures différentes pour deux
tâches différentes. La première architecture vise à classifier les appareils d’IRM par rapport aux
fabricants. Cette étape a légitimé notre préoccupation quant à la capacité d’identifier les patients
par l’identification de l’équipement utilisé pour l’acquisition de l’IRM, en particulier pour les
117
ANONYMISATION PROFONDE
maladies rares. La deuxième architecture vise à reconstruire une IRM avec une approche basée
sur un auto-encodeur. Elle génère des images reconstruites qui permettent de lutter efficacement
contre les attaques de pseudo-anonymisation. La combinaison adaptée de ces deux architectures
constitue une première tentative d’anonymisation. Cette dernière étape a prouvé le potentiel de
notre approche pour diminuer la capacité de la distinction de l’équipement d’acquisition IRM.
Les résultats obtenus montrent que les empreintes digitales de l’appareil sont importantes, mais
que leur élimination est possible. Ce cadre est le premier pas vers une véritable anonymisation
de l’imagerie médicale.
Pour répondre au mieux au besoin urgent créé par les préoccupations liées à la
confidentialité, nous avons continué dans la même perspective en utilisant l’apprentissage
profond pour éliminer les traces invisibles qui peuvent aider à identifier un patient. Par
conséquent, nous avons utilisé principalement le même pipeline. En revanche, pour cette partie,
la quantité de données était relativement limitée. C’est pourquoi, nous avons eu recours à l’une
des méthodes les plus répandues pour la problématique de few-shot learning : le réseau siamois.
Ainsi, nous avons établi et prouvé un processus significatif qui offre à l’institution médicale une
garantie de confidentialité et permet aux chercheurs d’obtenir des données anonymes de haute
qualité visuelle pour des futures applications cliniques. Notre approche peut également être
testée sur différentes séquences IRM et d’autres types d’imagerie médicale. Une perspective
claire est d’évaluer nos images anonymes dans différentes tâches de diagnostic.
118
Chapitre
4
Meta-apprentissage attentif
Sommaire
4.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
4.2 État de l’art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.3 Approches et reformulations . . . . . . . . . . . . . . . . . . . . 125
4.3.1 Réseau de neurones attentif . . . . . . . . . . . . . . . . . . . . 125
4.3.2 Réseau de neurones attentif amélioré . . . . . . . . . . . . . . . 129
4.4 Expérimentations et résulats . . . . . . . . . . . . . . . . . . . . 130
4.4.1 Bases de données . . . . . . . . . . . . . . . . . . . . . . . . . . 130
4.4.2 Expérimentations . . . . . . . . . . . . . . . . . . . . . . . . . . 132
4.4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.4.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
119
META-APPRENTISSAGE ATTENTIF
4.1 Motivation
120
META-APPRENTISSAGE ATTENTIF
et la segmentation des objets et la classification des images. Cette dernière tâche est l’un des
premiers et des plus importants cas d’utilisation de l’apprentissage profond dans le domaine
médical, prenant en entrée une ou plusieurs images médicales et donnant en sortie une seule
variable informative pour aider l’expert médical à réaliser son diagnostic. Néanmoins, c’est
aussi une des tâches qui a un besoin avide de données et qui en manque énormément, ce qui
explique la popularité de l’apprentissage par transfert pour une telle tâche [148]. L’apprentissage
par transfert est une technique permettant l’utilisation d’un modèle pré-entraîné, généralement
sur des millions d’images naturelles, pour compenser le manque de données dans le domaine
médical. En effet, cette approche utilise les hyperparamètres du modèle pré-entraîné sur une
tâche de classification sur une autre sans avoir à recommencer l’apprentissage de zéro. La
disponibilité de ces modèles pré-entraînés et le fait qu’ils puissent simplement être appliqués
directement à n’importe quelle image médicale facilitent leur utilisation. Cependant, à cause des
limites mentionnées dans la section 2.4.1, cette technique présente des performances limitées
lorsqu’il s’agit de maladies rares. Une étude directe de l’impact du volume de données et
de la similarité du domaine a prouvé que l’efficacité de l’apprentissage par transfert dépend
de la similarité du domaine et du volume de données disponibles pour l’ajustement [20].
Spécifiquement pour les maladies rares avec régime de données faibles, la simple disponibilité
d’un ensemble de données suffisant est difficile, ainsi l’ajustement du modèle conduira
directement à un sur-apprentissage. Par conséquent, afin d’atténuer les difficultés liées à la
classification des maladies rares, des percées ont été réalisées pour trouver de nouvelles façons
d’utiliser l’apprentissage profond avec peu de données en se basant sur d’autres critères critiques
différents pour former un réseau de neurones, tels que l’algorithme d’optimisation, la fonction
de perte et l’initialisation des hyperparamètres. Les défis liés aux maladies rares retiennent peu
l’attention malgré son importance et son rythme de développement incroyablement élevé. En
effet, 7 000 maladies sont considérées comme des maladies rares connues [107] touchant 400
millions de personnes dans le monde [119]. Il s’agit donc d’un sujet de recherche émergent
abordé par la communauté de l’imagerie médicale.
Du point de vue de l’apprentissage automatique, les maladies rares dans une population
de patients représentent peu de données, ce qui représente des classes peu représentées. De
121
META-APPRENTISSAGE ATTENTIF
nos jours, plusieurs solutions ont été expérimentées pour faire face au manque de données
étiquetées et de bases de données déséquilibrées, principalement divisées en deux catégories :
les techniques basées sur les données et les techniques basées sur les connaissances préalables
(voir section 2.1). L’approche de méta-apprentissage propose d’entraîner un modèle flexible
sur diverses tâches connexes avec des petites bases de données afin d’offrir la possibilité
d’apprendre à effectuer plusieurs tâches et d’utiliser les expériences acquises pour résoudre
de nouvelles tâches d’apprentissage sans avoir à entraîner à partir de zéro. En d’autres termes,
au lieu de concevoir des modèles pour extraire des caractéristiques, on conçoit une architecture
qui apprend quelle est la meilleure manière d’apprendre pour obtenir les meilleurs résultats. Le
méta-apprentissage est utilisé pour rendre l’apprentissage plus rapide, flexible aux changements
et adaptable à différentes tâches en utilisant seulement un petit ensemble de données et quelques
itérations de descente de gradient d’entraînement. Il est basé sur l’architecture du modèle,
les hyperparamètres et les jeux de données : le modèle est entraîné par le méta-apprenant
pour pouvoir apprendre sur différentes tâches. De nombreux algorithmes ont été expérimentés
tels que Model-Agnostic Meta-Learning (MAML), adversarial Meta Learning (ADML), fast
Context Adaptation with Meta-Learning (CAML) et Reptile [286][180]. Dans notre travail,
nous avons choisi une version adaptée de MAML comme approche de meta-apprentissage.
122
META-APPRENTISSAGE ATTENTIF
Dans cet article, nous proposons une nouvelle approche pour la classification des maladies
rares. La méthode proposée combine une technique de méta-apprentissage avec un mécanisme
d’attention afin de proposer un modèle qui améliore sa capacité à apprendre plus rapidement
d’une tâche à l’autre en utilisant les expériences acquises précédemment et les connaissances
antérieures importantes, en généralisant les multiples concepts appris et en combinant plusieurs
compétences déjà apprises.
Les tâches d’analyse d’imagerie médicale sont toujours assez délicates et complexes,
même pour des professionnels de santé expérimentés, étant donné qu’elles nécessitent une
compréhension et une attention approfondies aux détails des images. Des années d’expérience
sont nécessaires pour devenir qualifié dans une tâche telle notamment la classification ou la
segmentation [59] et l’annotation des tumeurs [100], des lésions [163] et des organes humains.
Pour ces raisons, l’introduction de l’intelligence artificielle pourrait s’avérer être un progrès
significatif et d’une grande aide au diagnostic médical.
Bien que l’apprentissage profond ait abouti à plusieurs avancées dans des multiples tâches
du domaine médical, il y a toujours des limitations liées à la disponibilité des données [197]. En
effet, les réseaux de neurones convolutifs réussissent à identifier les caractéristiques clés avec
une grande quantité de données, mais ils ont tendance à être fortement dépendants des données
sur lesquelles ils s’entraînent. Dans le cadre de l’imagerie médicale, dû à la rareté de certaines
maladies, les données sont souvent en nombre limité. Pour faire face à cette limitation, des
travaux de recherche sont en cours afin d’optimiser l’exploitation d’une quantité de données très
réduite. Une réflexion directe dans cette direction consiste à réduire la dépendance des modèles
vis-à-vis des données en déployant une approche similaire par analogie à la manière dont les
humains peuvent inférer à partir de moins de données. Ainsi sont apparus les approches de méta
learning qui tente de diminuer la dépendance aux données en se basant sur une représentation
générale, plutôt que spécifique.
123
META-APPRENTISSAGE ATTENTIF
Les approches de meta-learning sont utilisées sur des multiples types de données,
notamment les données textes [200], mais dans notre travail, nous nous intéressons
principalement à l’imagerie médicale [155]. Dans cette section, nous abordons brièvement
quelques travaux qui visent la résolution du problème de few-shot learning dans le domaine
de l’imagerie médicale en utilisant des techniques de meta-learning. Notamment, pour la
segmentation, Zhao et al. [293] utilisent l’augmentation de données dans le cadre du one-shot
learning pour la segmentation des IRM cérébrales. Ronneberger et al. [203] ont utilisé le réseau
U-Net pour la segmentation des structures neuronales dans les piles de microscopie électronique
en few-shot learning. Lahiani et al. [131] ont utilisé des réseaux de neurones profonds à
déconvolution de couleur pour la problématique de one-shot learning de la segmentation
des tissus cancéreux. Dans [204] et [162], les auteurs ont utilisé des réseaux de neurones
profonds respectivement de type "squeeze & excite" et V-net pour segmenter des images
volumétriques. En incorporant l’utilisation de réseaux génératifs [79] et en s’inspirant des
modèles multimodaux [295], Mondal et al. [170] effectuent la segmentation d’IRM cérébrale
3D multimodale.
Pour la classification d’images médicales, Puch et al. [192] ont souligné encore le besoin
de réussir l’implémentation de l’apprentissage profond avec une petite quantité de données
suite à une étude du problème de la rareté de certaines maladies. Ainsi, ils ont déployé des
réseaux de triplets pour reconnaître les maladies du cerveau. Les auteurs ont fait recourt
également à la recherche sur grille pour identifier les hyperparamètres idéaux pour l’architecture.
Orting et al. [181] ont également utilisé les réseaux de triplets pour l’analyse des images
médicales de l’emphysème dans les scans thoraciques. Kim et al. [121] ont expérimenté le
réseau de neurones d’appariement comme approche de meta-learning pour le diagnostic du
glaucome à partir d’images du fond de l’œil. Les auteurs ont effectué l’augmentation des
données afin d’éviter un sur-ajustement. En effet, une mission clé lors de la manipulation
d’imagerie médicale est le maintien d’une image d’haute définition pour l’utilisation dans le
cadre clinique réel. Dans ce sens, les auteurs ont recadré, simplement, les images au centre
dans le but de se concentrer davantage sur les caractéristiques distinctives de la macula
et du disque optique.Similairement, Tri-Cong et al. [188] ont incorporé l’augmentation de
124
META-APPRENTISSAGE ATTENTIF
données dans une application importante dans le domaine d’imagerie médicale en lien avec
lésion cutanée, en particulier le mélanome. Dans ce dernier travail, trois types d’augmentation
étaient soulignés : augmentation géométrique, normalisation des couleurs entre les bases de
données et les transformations basées sur les spécificités de l’application pour le mélanome.
Un pipeline de deux phases a donné des bonnes performances de classification sur des bases
de données reconnues. Les auteurs ont mis en relief l’importance de la préservation de la
signification sémantique des classes visées et étaient effectivement conscients que, notamment,
les déformations ne sont pas possibles dans toutes les applications. Cependant, l’augmentation
de données reste toujours une pratique éthiquement controversée pour le diagnostic médical et
encore, elle augmente la quantité de donnée et donc le temps et le cout de calcul. Hu et al. [98]
ont utilisé Reptile comme approche de méta-apprentissage pour le diagnostic de la rétinopathie
diabétique. Mini-Imagenet a été utilisé pour initialiser les poids lors de meta-entraînement dans
le cadre 5-shot 5-way few-shot learning. Le réseau de neurones siamois a été exploré par Chyng
et al. [41] pour la recherche d’imagerie médicale basée sur le contenu (CBIR) dans le cadre de
la rétinopathie diabétique.
Tous ces travaux aboutissent à des résultats prometteurs pour résoudre le problème du
nombre de données limité dans le domaine médical, ce qui nous a encouragé à proposer une
approche générique adaptée pour toutes les modalités d’imagerie médicale en se basant sur
l’approche de meta-learning et en incorporant un mécanisme d’attention.
125
META-APPRENTISSAGE ATTENTIF
connaissances préalables et une branche d’attention pour apprendre à quelle région le réseau
doit faire attention d’une tâche à l’autre. Notre modèle pré-entrainé nécessite alors qu’un simple
ajustement des paramètres lors d’une seconde phase d’apprentissage sur la nouvelle tâche. Peu,
voir qu’une seule itération de descente de gradient, suffit pour que le modèle soit performant et
atteigne la convergence. Techniquement, notre approche maximise la sensibilité des fonctions
de perte des nouvelles tâches par rapport aux paramètres et incorpore une branche d’attention.
L’architecture du réseau proposé de notre apprenant, illustrée dans la figure 4.1, est basée
sur trois branches : la branche d’extraction de caractéristiques, la branche de classification
et la branche d’attention. Les images ISIC 2018, échantillonnées à 90 × 120, ont servi à
l’apprentissage de la branche d’extraction de caractéristiques [256].
126
META-APPRENTISSAGE ATTENTIF
Soit F (X) la sortie de notre bloc d’extraction de caractéristiques et soit M (X) la carte
d’attention produite par la branche d’attention. Le mécanisme d’attention résultant C(X) est
expliqué dans l’équation suivante :
Le résultat C(X) alimente la branche de classification composée d’un bloc de base suivi
d’une couche global average pooling, de deux couches denses de respectivement 256 et du
nombre de classes, et d’une couche d’activation softmax.
127
META-APPRENTISSAGE ATTENTIF
X
JTi (f{θC ,θA }i ) = − yi log(f{θC ,θA }i (xj ) + (1 − yj )log(1 − f{θC ,θA }i (xj ))
xj ,yj ∼Ti
{θC′ , θA
′
} ← {θC , θA } − α∇{θC ,θA } JTi (f{θC ,θA } )
où
θC Paramètres initiaux de la branche de classification
θA Paramètres initiaux de la branche d’attention
θ′ Paramètres optimaux de la tâche Ti
α hyperparamèteres
∇
{θC ,θA } JTi (f{θC ,θA } ) gradient de la tâche Ti
Par conséquent, on obtient N paramètres optimaux θi′ . Avant de passer au lot de tâches
suivant, une meta mise à jour est effectuée sur les paramètres initiaux afin de faire passer le
modèle à la position optimale.
X
′
J{θ C ,θA }
= JTi (f{θC′ ,θA′ } )
Ti ∼p(T )
{θC′ , θA
′
} ← {θC′ , θA
′ ′
} − β∇θ J{θ C ,θA }
128
META-APPRENTISSAGE ATTENTIF
où
θC Paramètres initiaux de la branche de classification
θA
Paramètres initiaux de la branche d’attention
β hyperparamèteres
∇ J ′ gradient de chaque tâche T par rapport à θ′
θ θ i i
129
META-APPRENTISSAGE ATTENTIF
Une étude expérimentale des différentes fonctions a été incorporée pour choisir la meilleure
représentation du mécanisme d’attention dans notre algorithme. L’amélioration suivante
consisterait à construire l’architecture pour la tâche suivante de classification des mêmes classes,
en tenant compte des performances de la branche d’attention sur la tâche précédente.
Afin d’évaluer les performances de la méthode proposée, nous avons sélectionné deux jeux
de données médicales :
130
META-APPRENTISSAGE ATTENTIF
. On utilise le jeu de données ISIC 2018 the International Skin Imaging Collaboration
dataset for Skin Lesion Analysis Towards Melanoma Detection Dataset [163](fig. 4.2). ISIC
représente la plus grande collection publiquement disponible d’images dermoscopiques de
lésions cutanées de qualité. Nous utilisons des images de lésions cutanées de sept maladies
de la peau, dont le nævus mélanocytaire (6705), le mélanome (1113), la kératose bénigne
(1099), le carcinome basocellulaire (514), la kératose actinique (327), la lésion vasculaire
(142) et le dermatofibrome (115). Pour reproduire l’environnement clinique, nous considèrons
les quatre classes avec le plus grand nombre de cas comme des maladies courantes (base de
meta-entraînement) et les trois classes restantes comme des maladies rares (base de meta-test).
131
META-APPRENTISSAGE ATTENTIF
Pneumonie (1314), Épaississement pleural (634), Cardiomégalie (895), Nodule (727), Masse
(1127) et Hernie (110). Nous simulons le problème des maladies rares à un problème de
few-shot learning en utilisant les classes avec le plus grand nombre de cas comme maladies
communes (base de meta-entraînement) et les trois classes restantes comme maladies rares
(base de meta-test).
F IGURE 4.3 – Quelques échantillons des différentes classes des scanners thoraciques [269]
4.4.2 Expérimentations
Notre modèle d’apprentissage profond est basé sur un réseau neuronal profond (DNN)
composé de plusieurs couches consécutives de neurones. Afin de trouver le meilleur modèle
pour la prédiction de l’enthalpie de formation, on effectue une recherche approfondie de la
meilleure architecture de modèle DNN ainsi que dans l’espace des hyperparamètres. Nous avons
effectué une recherche systématique dans un large espace d’architecture de réseau neuronal,
en commençant par une architecture à deux couches et en augmentant progressivement la
profondeur pour améliorer la capacité d’apprentissage de notre modèle jusqu’à atteindre un
point de saturation. Nous avons exploré différentes combinaisons du nombre d’unités de
neurones par couche. Une couche d’exclusion a été ajoutée à chaque fois que le nombre de
neurones entre des couches consécutives changeait pour éviter un sur-ajustement. L’erreur de
test a commencé à osciller dans de petites limites au-delà de l’architecture à 17 couches. La
recherche d’architecture a été poursuivie jusqu’à un modèle DNN à 24 couches où l’erreur
de test est restée la même que pour le réseau à 17 couches. Nous pensons que le modèle
d’apprentissage profond a déjà appris les caractéristiques nécessaires qu’il pouvait trouver
dans l’ensemble de données d’entraînement à ce stade, car l’augmentation de la profondeur
n’a pas amélioré davantage les performances du modèle. La meilleure architecture de modèle
132
META-APPRENTISSAGE ATTENTIF
est présentée dans le tableau 3. Nous avons également expérimenté différents types de fonctions
d’activation, et nous avons constaté que ReLU était le plus performant.
4.4.3 Résultats
F IGURE 4.4 – Des échantillons des cartes d’attention et des masques d’attention résultants de la
base de données ISIC 2018
Les résultats ont approuvé l’efficacité de notre pipeline. En combinant le MAML avec
l’attention et en n’utilisant que 5 images par classes pour l’ajustement, on arrive à obtenir
une précision de classification de 65% pour la base de données de radiographie thoracique
et de 68% pour la base de données ISIC2018. Notre réseau de neurones attentif a encore
amélioré nos résultats en atteignant respectivement une précision de classification de 69% pour
la radiographie thoracique et une amélioration plus importante de la précision de classification
pour ISIC2018 s’élevant de 76%.
TABLE 4.1 – Accuracy de meta-test sur les deux différentes bases de données
133
META-APPRENTISSAGE ATTENTIF
4.4.4 Conclusion
Dans ce chapitre, nous avons proposé une méthode appelée MAML attentif, basée sur
le meta-apprentissage et le mécanisme d’attention, permettant de déployer l’apprentissage
profond avec peu de données. Les résultats obtenus sont moyennement satisfaisants dans
un secteur critique qui nécessite beaucoup de précision. Cependant, ce chapitre n’est que
l’initialisation d’une perspective très importante dans le domaine de l’imagerie médicale.
Les hyper-paramètres testés sont choisis arbitrairement et souvent par tâtonnement. Un autre
paramétrage, notamment le nombre de données par classe et l’architecture de base, permettrait
d’améliorer les résultats obtenus. Notre solution peut être utilisée en combinaison avec notre
pipeline proposé dans le chapitre précédent pour souligner les régions d’intérêt pour notre
anonymisation et afin d’utiliser moins de données.
134
CONCLUSION GÉNÉRALE
L’imagerie médicale est une composante primordiale du domaine de la santé sur laquelle
se base le diagnostic et le traitement de certaines maladies. Elle est essentielle pour suivre et
évaluer l’évolution d’une maladie particulière, en vue de sa guérison éventuelle ou également
afin de guider les médecins lors des interventions chirurgicales. L’imagerie médicale est
un secteur qui couvre un large éventail d’applications, principalement la classification et la
segmentation. Le principe général de l’analyse d’images médicales est de mesurer et d’analyser
les caractéristiques les plus distinctives de l’image. L’analyse automatique des images est l’une
des applications les plus connues de l’apprentissage profond.
En effet, l’intelligence artificielle est sans doute l’une des étapes charnières dans l’histoire de
l’humanité. La quantité de données disponibles, l’avancement des algorithmes et l’amélioration
des capacités du matériel informatique, donnent à l’apprentissage profond, en particulier une
marge de développement importante. Le déploiement de l’apprentissage profond dans le secteur
de santé favorise des solutions plus adaptées et plus préventives, apportant une amélioration
au diagnostic, au suivi et traitement médical des patients et une assistance intéressante aux
professionnels de santé.
Dans ce contexte, cette thèse s’est intéressée à deux défis principaux liés à l’utilisation
de l’apprentissage profond dans l’imagerie médicale : la confidentialité et la disponibilité de
données.
135
CONCLUSION GÉNÉRALE
Les IRM résultantes permettent toujours d’effectuer les analyses et le diagnostic nécessaires
sans détenir les détails permettant l’identification du fabricateur de l’équipement d’acquisition
de l’IRM ou du patient.
Par ailleurs, nous nous sommes penchés sur le meta-learning qui est une approche
tendance de l’apprentissage profond. Les techniques du meta-learning ont pour objectif de
résoudre la problématique de few-shot learning. Le few-shot learning désigne un contexte
d’application dans lequel la quantité de données disponible pour l’apprentissage est très limitée,
notamment dans le cadre des maladies rares. Ainsi, l’introduction de meta-apprentissage dans
le secteur médical peut radicalement changer le cours de l’aide au diagnostic médical. Le
meta-apprentissage et ses variantes présentent plusieurs avantages par rapport aux méthodes de
l’apprentissage profond conventionnelles. D’une part, ils résolvent la problématique de few-shot
learning. D’autre part, ils favorisent un apprentissage optimal et un ajustement rapide d’une
tâche à une autre.
Une revue de l’état de l’art des méthodes de meta-apprentissage et des techniques dans le
deuxième chapitre nous a permis d’utiliser les techniques du meta-apprentissage adaptées pour
profiter de l’apprentissage profond dans plusieurs applications. Nous avons aussi souligné la
notion du mécanisme d’attention utilise dans des multiples travaux. Nous avons eu recours aux
réseaux siamois pour faire face au problème du manque de données lors de la classification
des patients dans le troisième chapitre. Les méthodes de classification en vue d’aide au
diagnostic médical dans le quatrième chapitre sont également basées sur des techniques de
meta-apprentissage. Ces dernières, en combinaison avec le mécanisme d’attention, ont prouvé la
validité d’une perspective importante de l’utilisation de l’apprentissage profond dans le secteur
de l’imagerie médicale avec peu de données.
Dans cette thèse, nous avons fait face à plusieurs défis scientifiques et techniques spécifiques
au domaine de l’imagerie médicale, notamment la qualité et la quantité de données, et l’arbitrage
entre les différentes techniques de prétraitement, d’apprentissage et de meta-apprentissage.
Toutes les solutions proposées font intervenir une combinaison de techniques classiques de
traitement d’image et de méthodes d’apprentissage profond.
136
CONCLUSION GÉNÉRALE
L’une des perspectives les plus importantes de ce travail est l’introduction du mécanisme
d’attention dans le processus d’anonymisation pour comparer les régions présentant un risque
de confidentialité aux régions nécessaires pour le diagnostic. Ensuite, nous espérons proposer
un outil complet incorporant la combinaison des solutions des deux chapitres permettant
l’anonymisation et le diagnostic adapté. Cet outil pourrait être utilisé automatiquement par les
institutions médicales sur les données brutes acquises, permettant simultanément une adaptation
rapide aux nouvelles maladies et ses spécificités, et une véritable anonymisation.
137
BIBLIOGRAPHIE
BIBLIOGRAPHIE
[4] Yaron Anavi, Ilya Kogan, Elad Gelbart, Ofer Geva, and Hayit Greenspan. Visualizing
and enhancing a deep learning framework using patients age and gender for chest x-ray
image retrieval. In Medical Imaging 2016 : Computer-Aided Diagnosis, volume 9785,
page 978510. International Society for Optics and Photonics, 2016.
[6] Marcin Andrychowicz, Misha Denil, Sergio Gomez, Matthew W Hoffman, David Pfau,
Tom Schaul, Brendan Shillingford, and Nando De Freitas. Learning to learn by gradient
descent by gradient descent. In Advances in neural information processing systems,
pages 3981–3989, 2016.
[7] Antreas Antoniou, Harrison Edwards, and Amos Storkey. How to train your maml. arXiv
preprint arXiv :1810.09502, 2018.
[8] Joseph Antony, Kevin McGuinness, Noel E O’Connor, and Kieran Moran. Quantifying
radiographic knee osteoarthritis severity using deep convolutional neural networks. In
2016 23rd International Conference on Pattern Recognition (ICPR), pages 1195–1200.
IEEE, 2016.
[9] Mikel Artetxe and Holger Schwenk. Massively multilingual sentence embeddings
for zero-shot cross-lingual transfer and beyond. Transactions of the Association for
Computational Linguistics, 7 :597–610, 2019.
138
BIBLIOGRAPHIE
[10] David Baehrens, Timon Schroeter, Stefan Harmeling, Motoaki Kawanabe, Katja Hansen,
and Klaus-Robert MÞller. How to explain individual classification decisions. Journal
of Machine Learning Research, 11(Jun) :1803–1831, 2010.
[11] Yaniv Bar, Idit Diamant, Lior Wolf, Sivan Lieberman, Eli Konen, and Hayit Greenspan.
Chest pathology detection using deep learning with non-medical training. In 2015 IEEE
12th International Symposium on Biomedical Imaging (ISBI), pages 294–297. IEEE,
2015.
[12] Bruno Barbosa, António JR Neves, Sandra C Soares, and Isabel D Dimas. Analysis of
emotions from body postures based on digital imaging. SIGNAL 2018 Editors, page 81,
2018.
[13] Mariana Belgiu and Lucian Drăguţ. Random forest in remote sensing : A review of
applications and future directions. ISPRS journal of photogrammetry and remote sensing,
114 :24–31, 2016.
[15] Yoshua Bengio, Aaron Courville, and Pascal Vincent. Representation learning : A review
and new perspectives. IEEE transactions on pattern analysis and machine intelligence,
35(8) :1798–1828, 2013.
[16] Yoshua Bengio, Patrice Simard, Paolo Frasconi, et al. Learning long-term dependencies
with gradient descent is difficult. IEEE transactions on neural networks, 5(2) :157–166,
1994.
[18] Jose Bernal, Kaisar Kushibar, Daniel S Asfaw, Sergi Valverde, Arnau Oliver, Robert
Martí, and Xavier Lladó. Deep convolutional neural networks for brain image analysis
on magnetic resonance imaging : a review. Artificial intelligence in medicine, 95 :64–81,
2019.
139
BIBLIOGRAPHIE
[19] Daniel Bernau, Philip-William Grassal, Jonas Robl, and Florian Kerschbaum. Assessing
differentially private deep learning with membership inference. arXiv preprint
arXiv :1912.11328, 2019.
[20] Michael Bernico, Yuntao Li, and Dingchao Zhang. Investigating the impact of data
volume and domain similarity on transfer learning applications. In Proceedings of the
Future Technologies Conference, pages 53–62. Springer, 2018.
[21] Chris M Bishop. Training with noise is equivalent to tikhonov regularization. Neural
computation, 7(1) :108–116, 1995.
[22] Christopher M Bishop et al. Neural networks for pattern recognition. Oxford university
press, 1995.
[23] Aline FS Borges, Fernando JB Laurindo, Mauro M Spínola, Rodrigo F Gonçalves, and
Claudia A Mattos. The strategic use of artificial intelligence in the digital era : Systematic
literature review and future research directions. International Journal of Information
Management, 57 :102225, 2021.
[24] Maged N Kamel Boulos, Ann C Brewer, Chante Karimkhani, David B Buller, and
Robert P Dellavalle. Mobile medical and health apps : state of the art, concerns,
regulatory control and certification. Online journal of public health informatics,
5(3) :229, 2014.
[25] Leo Breiman, Jerome H Friedman, Richard A Olshen, and Charles J Stone. Classification
and regression trees. Routledge, 2017.
[26] Tom Brosch, Roger Tam, Alzheimer’s Disease Neuroimaging Initiative, et al. Manifold
learning of brain mris by deep learning. In International Conference on Medical Image
Computing and Computer-Assisted Intervention, pages 633–640. Springer, 2013.
[28] Sandie Cabon, Fabienne Porée, Antoine Simon, Olivier Rosec, Patrick Pladys, and
Guy Carrault. Video and audio processing in paediatrics : A review. Physiological
measurement, 40(2) :02TR02, 2019.
140
BIBLIOGRAPHIE
[29] Leslie Casas, Gustavo Carneiro, Nassir Navab, and Vasileios Belagiannis. Few-shot
meta-denoising. arXiv preprint arXiv :1908.00111, 2019.
[30] Souleyman Chaib, Huan Liu, Yanfeng Gu, and Hongxun Yao. Deep feature fusion for
vhr remote sensing scene classification. IEEE Transactions on Geoscience and Remote
Sensing, 55(8) :4775–4784, 2017.
[31] Clément Côme Charles Tremblay. Accuracy : définition, calcul et limites, 2021.
[32] Clément Côme Charles Tremblay. La balanced accuracy weighted, pour aller plus loin
que l’accuracy, 2021.
[33] Christophe Charrier, Laurence T Maloney, Hocine Cherifi, and Kenneth Knoblauch.
Maximum likelihood difference scaling of image quality in compression-degraded
images. JOSA A, 24(11) :3418–3426, 2007.
[36] Kan Chen, Trung Bui, Chen Fang, Zhaowen Wang, and Ram Nevatia. Amc : Attention
guided multi-modal correlation learning for image search. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, pages 2644–2652, 2017.
[37] Min Chen, Xiaobo Shi, Yin Zhang, Di Wu, and Mohsen Guizani. Deep features learning
for medical image analysis with convolutional autoencoder neural network. IEEE
Transactions on Big Data, 2017.
[38] Gong Cheng, Ceyuan Yang, Xiwen Yao, Lei Guo, and Junwei Han. When deep
learning meets metric learning : Remote sensing image scene classification via
learning discriminative cnns. IEEE transactions on geoscience and remote sensing,
56(5) :2811–2821, 2018.
[39] François Chollet. Xception : Deep learning with depthwise separable convolutions. In
Proceedings of the IEEE conference on computer vision and pattern recognition, pages
1251–1258, 2017.
141
BIBLIOGRAPHIE
[40] Evangelia Christodoulou, Jie Ma, Gary S Collins, Ewout W Steyerberg, Jan Y Verbakel,
and Ben Van Calster. A systematic review shows no performance benefit of machine
learning over logistic regression for clinical prediction models. Journal of clinical
epidemiology, 110 :12–22, 2019.
[41] Yu-An Chung and Wei-Hung Weng. Learning deep representations of medical images
using siamese cnns with application to content-based image retrieval. arXiv preprint
arXiv :1711.08490, 2017.
[43] Daniel Crevier. AI : the tumultuous history of the search for artificial intelligence. Basic
Books, Inc., 1993.
[45] Guy Davidson and Michael C Mozer. Sequential mastery of multiple tasks : Networks
naturally learn to learn. arXiv preprint arXiv :1905.10837, 2019.
[46] Martin Davis. Mathematical logic and the origin of modern computers. In Studies in the
History of Mathematics, pages 137–167. 1987.
[47] Nicola Davis. Interview : Cardiologist eric topol : ’ai can restore the care in healthcare’,
2019.
[48] Min-Yuh Day. Introduction to artificial intelligence for text analytics. 2022.
[49] Yue Deng, Feng Bao, Youyong Kong, Zhiquan Ren, and Qionghai Dai. Deep direct
reinforcement learning for financial signal representation and trading. IEEE transactions
on neural networks and learning systems, 28(3) :653–664, 2016.
[50] Boubacar Diallo, Thierry Urruty, Pascal Bourdon, and Christine Fernandez-Maloigne.
Robust forgery detection for compressed images using cnn supervision. Forensic Science
International : Reports, 2 :100112, 2020.
[52] Georgiana Dinu, Angeliki Lazaridou, and Marco Baroni. Improving zero-shot learning
by mitigating the hubness problem. arXiv preprint arXiv :1412.6568, 2014.
142
BIBLIOGRAPHIE
[53] Jose Dolz, Christian Desrosiers, Li Wang, Jing Yuan, Dinggang Shen, and Ismail Ben
Ayed. Deep cnn ensembles and suggestive annotations for infant brain mri segmentation.
Computerized Medical Imaging and Graphics, page 101660, 2019.
[54] OS Eluyode and Dipo Theophilus Akomolafe. Comparative study of biological and
artificial neural networks. European Journal of Applied Engineering and Scientific
Research, 2(1) :36–46, 2013.
[55] Andre Esteva, Katherine Chou, Serena Yeung, Nikhil Naik, Ali Madani, Ali Mottaghi,
Yun Liu, Eric Topol, Jeff Dean, and Richard Socher. Deep learning-enabled medical
computer vision. NPJ digital medicine, 4(1) :1–9, 2021.
[56] Andre Esteva, Brett Kuprel, Roberto A Novoa, Justin Ko, Susan M Swetter, Helen M
Blau, and Sebastian Thrun. Dermatologist-level classification of skin cancer with deep
neural networks. Nature, 542(7639) :115, 2017.
[57] Li Fei-Fei, Rob Fergus, and Pietro Perona. One-shot learning of object categories. IEEE
transactions on pattern analysis and machine intelligence, 28(4) :594–611, 2006.
[58] Christoph Feichtenhofer, Axel Pinz, and Andrew Zisserman. Convolutional two-stream
network fusion for video action recognition. In Proceedings of the IEEE conference on
computer vision and pattern recognition, pages 1933–1941, 2016.
[60] Samuel G Finlayson, John D Bowers, Joichi Ito, Jonathan L Zittrain, Andrew L Beam,
and Isaac S Kohane. Adversarial attacks on medical machine learning. Science,
363(6433) :1287–1289, 2019.
[61] Chelsea Finn, Pieter Abbeel, and Sergey Levine. Model-agnostic meta-learning for fast
adaptation of deep networks. In Proceedings of the 34th International Conference on
Machine Learning-Volume 70, pages 1126–1135. JMLR. org, 2017.
143
BIBLIOGRAPHIE
[62] Chelsea Finn and Sergey Levine. Meta-learning and universality : Deep representations
and gradient descent can approximate any learning algorithm. arXiv preprint
arXiv :1710.11622, 2017.
[63] Chelsea Finn, Kelvin Xu, and Sergey Levine. Probabilistic model-agnostic meta-learning.
In Advances in Neural Information Processing Systems, pages 9516–9527, 2018.
[64] Chelsea Finn, Tianhe Yu, Tianhao Zhang, Pieter Abbeel, and Sergey Levine. One-shot
visual imitation learning via meta-learning. arXiv preprint arXiv :1709.04905, 2017.
[65] Luca Franceschi, Paolo Frasconi, Saverio Salzo, Riccardo Grazzi, and Massimilano
Pontil. Bilevel programming for hyperparameter optimization and meta-learning. arXiv
preprint arXiv :1806.04910, 2018.
[67] Hiroshi Fukui, Tsubasa Hirakawa, Takayoshi Yamashita, and Hironobu Fujiyoshi.
Attention branch network : Learning of attention mechanism for visual explanation. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages
10705–10714, 2019.
[69] Chuang Gan, Naiyan Wang, Yi Yang, Dit-Yan Yeung, and Alex G Hauptmann. Devnet :
A deep event network for multimedia event detection and evidence recounting. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages
2568–2577, 2015.
[70] Maria Teresa Gaudio, Gerardo Coppola, Lorenzo Zangari, Stefano Curcio, Sergio
Greco, and Sudip Chakraborty. Artificial intelligence-based optimization of industrial
membrane processes. Earth Systems and Environment, 5(2) :385–398, 2021.
[71] Benyamin Ghojogh and Mark Crowley. The theory behind overfitting, cross validation,
regularization, bagging, and boosting : tutorial. arXiv preprint arXiv :1905.12787, 2019.
144
BIBLIOGRAPHIE
[72] Spyros Gidaris and Nikos Komodakis. Dynamic few-shot visual learning without
forgetting. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 4367–4375, 2018.
[73] Christopher E Gillies, Daniel F Taylor, Brandon C Cummings, Sardar Ansari, Fadi
Islim, Steven L Kronick, Richard P Medlin Jr, and Kevin R Ward. Demonstrating the
consequences of learning missingness patterns in early warning systems for preventative
health care : A novel simulation and solution. Journal of Biomedical Informatics,
110 :103528, 2020.
[74] Xavier Glorot, Antoine Bordes, and Yoshua Bengio. Deep sparse rectifier neural
networks. In Proceedings of the fourteenth international conference on artificial
intelligence and statistics, pages 315–323, 2011.
[75] Herman H Goldstine and Adele Goldstine. The electronic numerical integrator and
computer (eniac). Mathematical Tables and Other Aids to Computation, 2(15) :97–110,
1946.
[76] Rafael C Gonzalez. Digital image processing. Pearson education india, 2009.
[77] Santiago Gonzalez and Risto Miikkulainen. Improved training speed, accuracy, and data
utilization through loss function optimization. arXiv preprint arXiv :1905.11528, 2019.
[78] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning (adaptive
computation and machine learning series). Cambridge Massachusetts, pages 321–359,
2017.
[79] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets.
Advances in neural information processing systems, 27, 2014.
[80] Ian J Goodfellow, Jonathon Shlens, and Christian Szegedy. Explaining and harnessing
adversarial examples. iclr’15. arXiv preprint arXiv :1412.6572, 2015.
[81] Hayit Greenspan, Bram Van Ginneken, and Ronald M Summers. Guest editorial deep
learning in medical imaging : Overview and future promise of an exciting new technique.
IEEE Transactions on Medical Imaging, 35(5) :1153–1159, 2016.
145
BIBLIOGRAPHIE
[82] Sorin Grigorescu, Bogdan Trasnea, Tiberiu Cocias, and Gigel Macesanu. A survey
of deep learning techniques for autonomous driving. Journal of Field Robotics,
37(3) :362–386, 2020.
[83] Varun Gulshan, Lily Peng, Marc Coram, Martin C Stumpe, Derek Wu, Arunachalam
Narayanaswamy, Subhashini Venugopalan, Kasumi Widner, Tom Madams, Jorge
Cuadros, et al. Development and validation of a deep learning algorithm for detection of
diabetic retinopathy in retinal fundus photographs. Jama, 316(22) :2402–2410, 2016.
[84] David Gunning, Mark Stefik, Jaesik Choi, Timothy Miller, Simone Stumpf, and
Guang-Zhong Yang. Xai—explainable artificial intelligence. Science Robotics,
4(37) :eaay7120, 2019.
[85] Ghouthi Boukli Hacene. Processing and learning deep neural networks on chip. machine
learning. Ecole nationale supérieure Mines-Télécom Atlantique, 2019.
[86] Alon Halevy, Peter Norvig, and Fernando Pereira. The unreasonable effectiveness of
data. IEEE intelligent systems, 24(2) :8–12, 2009.
[87] Pavel Hamet and Johanne Tremblay. Artificial intelligence in medicine. Metabolism,
69 :S36–S40, 2017.
[88] Othman A Hanshal, Osman N Ucan, and Yousef K Sanjalawe. Hybrid deep learning
model for automatic fake news detection. Applied Nanoscience, pages 1–11, 2022.
[89] Douglas M Hawkins. The problem of overfitting. Journal of chemical information and
computer sciences, 44(1) :1–12, 2004.
[90] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Delving deep into rectifiers :
Surpassing human-level performance on imagenet classification. In Proceedings of the
IEEE international conference on computer vision, pages 1026–1034, 2015.
[91] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning
for image recognition. In Proceedings of the IEEE conference on computer vision and
pattern recognition, pages 770–778, 2016.
146
BIBLIOGRAPHIE
[92] Nathan Hilliard, Lawrence Phillips, Scott Howland, Artëm Yankov, Courtney D Corley,
and Nathan O Hodas. Few-shot learning with metric-agnostic conditional embeddings.
arXiv preprint arXiv :1802.04376, 2018.
[93] Geoffrey E Hinton, Simon Osindero, and Yee-Whye Teh. A fast learning algorithm for
deep belief nets. Neural computation, 18(7) :1527–1554, 2006.
[94] Sepp Hochreiter. The vanishing gradient problem during learning recurrent neural
nets and problem solutions. International Journal of Uncertainty, Fuzziness and
Knowledge-Based Systems, 6(02) :107–116, 1998.
[95] Sepp Hochreiter, Yoshua Bengio, Paolo Frasconi, Jürgen Schmidhuber, et al. Gradient
flow in recurrent nets : the difficulty of learning long-term dependencies, 2001.
[96] Sepp Hochreiter and Jürgen Schmidhuber. Long short-term memory. Neural
computation, 9(8) :1735–1780, 1997.
[97] Kyle Hsu, Sergey Levine, and Chelsea Finn. Unsupervised learning via meta-learning.
arXiv preprint arXiv :1810.02334, 2018.
[98] Shi Hu, Jakub Tomczak, and Max Welling. Meta-learning for medical image
classification. 2018.
[99] Sergey Ioffe and Christian Szegedy. Batch normalization : Accelerating deep network
training by reducing internal covariate shift. arXiv preprint arXiv :1502.03167, 2015.
[100] Ali Işın, Cem Direkoğlu, and Melike Şah. Review of mri-based brain tumor image
segmentation using deep learning methods. Procedia Computer Science, 102 :317–324,
2016.
[101] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A Efros. Image-to-image
translation with conditional adversarial networks. In Proceedings of the IEEE conference
on computer vision and pattern recognition, pages 1125–1134, 2017.
[102] Robert A Jacobs. Increased rates of convergence through learning rate adaptation. Neural
networks, 1(4) :295–307, 1988.
147
BIBLIOGRAPHIE
[103] Hossein Jafari, Oluwaseyi Omotere, Damilola Adesina, Hsiang-Huang Wu, and Lijun
Qian. Iot devices fingerprinting using deep learning. In MILCOM 2018-2018 IEEE
Military Communications Conference (MILCOM), pages 1–9. IEEE, 2018.
[104] Anil K Jain. Fundamentals of digital image processing. Prentice-Hall, Inc., 1989.
[105] Yeon Uk Jeong, Soyoung Yoo, Young-Hak Kim, and Woo Hyun Shim. De-identification
of facial features in magnetic resonance images : software development using deep
learning technology. Journal of medical Internet research, 22(12) :e22739, 2020.
[106] Dipendra Jha, Logan Ward, Arindam Paul, Wei-keng Liao, Alok Choudhary, Chris
Wolverton, and Ankit Agrawal. Elemnet : Deep learning the chemistry of materials from
only elemental composition. Scientific reports, 8(1) :1–13, 2018.
[107] Jinmeng Jia, Ruiyuan Wang, Zhongxin An, Yongli Guo, Xin Ni, and Tieliu Shi. Rdad :
A machine learning system to support phenotype-based rare disease diagnosis. Frontiers
in genetics, 9 :587, 2018.
[108] Xiang Jiang, Mohammad Havaei, Gabriel Chartrand, Hassan Chouaib, Thomas Vincent,
Andrew Jesson, Nicolas Chapados, and Stan Matwin. On the importance of attention in
meta-learning for few-shot text classification. arXiv preprint arXiv :1806.00852, 2018.
[109] Worku Jifara, Feng Jiang, Seungmin Rho, Maowei Cheng, and Shaohui Liu. Medical
image denoising using convolutional neural network : a residual learning approach. The
Journal of Supercomputing, 75(2) :704–718, 2019.
[110] Thorsten Joachims. 11 making large-scale support vector machine learning practical. In
Advances in kernel methods : support vector learning, page 169. MIT press, 1999.
[111] Michael I Jordan and Tom M Mitchell. Machine learning : Trends, perspectives, and
prospects. Science, 349(6245) :255–260, 2015.
[112] James Jordon, Daniel Jarrett, Jinsung Yoon, Paul Elbers, Patrick Thoral, Ari Ercole,
Cheng Zhang, Danielle Belgrave, and Mihaela van der Schaar. Hide-and-seek privacy
challenge synthetic data generation vs. patient re-identification with clinical time-series
data. 2020.
148
BIBLIOGRAPHIE
[114] Naushad Karim. Image processing and computer vision in java, 2014.
[115] Jagreet Kaur. Automatic log analysis using deep learning and ai, 2020.
[116] Hoel Kervadec, Jose Dolz, Meng Tang, Eric Granger, Yuri Boykov, and Ismail Ben Ayed.
Constrained-cnn losses for weakly supervised segmentation. Medical image analysis,
54 :88–99, 2019.
[118] Mehdi Kharrazi, Husrev T Sencar, and Nasir Memon. Blind source camera identification.
In 2004 International Conference on Image Processing, 2004. ICIP’04., volume 1, pages
709–712. IEEE, 2004.
[119] M Khoury and R Valdez. Rare diseases, genomics and public health : an expanding
intersection. Genomics and Health Impact Blog, 2016.
[120] Edward Kim, Miguel Corte-Real, and Zubair Baloch. A deep semantic mobile
application for thyroid cytopathology. In Medical Imaging 2016 : PACS and
Imaging Informatics : Next Generation and Innovations, volume 9789, page 97890A.
International Society for Optics and Photonics, 2016.
[121] Mijung Kim, Jasper Zuallaert, and Wesley De Neve. Few-shot learning using a
small-sized dataset of high-resolution fundus images for glaucoma diagnosis. In
Proceedings of the 2nd international workshop on multimedia for personal health and
health care, pages 89–92, 2017.
[122] Taehoon Kim and Jihoon Yang. Latent-space-level image anonymization with adversarial
protector networks. IEEE Access, 7 :84992–84999, 2019.
[123] Durk P Kingma, Shakir Mohamed, Danilo Jimenez Rezende, and Max Welling.
Semi-supervised learning with deep generative models. Advances in neural information
processing systems, 27, 2014.
149
BIBLIOGRAPHIE
[124] Jesse Knight, Graham W Taylor, and April Khademi. Equivalence of histogram
equalization, histogram matching and the nyul algorithm for intensity standardization
in mri. Journal of Computational Vision and Imaging Systems, 3(1), 2017.
[125] Gregory Koch, Richard Zemel, Ruslan Salakhutdinov, et al. Siamese neural networks for
one-shot image recognition. In ICML deep learning workshop, volume 2, page 0. Lille,
2015.
[126] Soheil Kolouri, Nicholas Ketz, Xinyun Zou, Jeffrey Krichmar, and Praveen Pilly.
Attention-based structural-plasticity. arXiv preprint arXiv :1903.06070, 2019.
[127] Jaidip Kotak and Yuval Elovici. Iot device identification using deep learning. In
Conference on Complex, Intelligent, and Software Intensive Systems, pages 76–86.
Springer, 2020.
[128] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with
deep convolutional neural networks. In Advances in neural information processing
systems, pages 1097–1105, 2012.
[129] Anders Krogh and John Hertz. A simple weight decay can improve generalization.
Advances in neural information processing systems, 4, 1991.
[130] Aditya Kuppa, Lamine Aouad, and Nhien-An Le-Khac. Towards improving privacy of
synthetic datasets. In Annual Privacy Forum, pages 106–119. Springer, 2021.
[131] Amal Lahiani, Jacob Gildenblat, Irina Klaman, Nassir Navab, and Eldad Klaiman.
Generalizing multistain immunohistochemistry tissue segmentation using one-shot color
deconvolution deep neural networks. arXiv preprint arXiv :1805.06958, 2018.
[132] Brenden Lake, Ruslan Salakhutdinov, Jason Gross, and Joshua Tenenbaum. One shot
learning of simple visual concepts. In Proceedings of the annual meeting of the cognitive
science society, volume 33, 2011.
[133] Brenden M Lake, Ruslan Salakhutdinov, and Joshua B Tenenbaum. Human-level concept
learning through probabilistic program induction. Science, 350(6266) :1332–1338, 2015.
150
BIBLIOGRAPHIE
[136] Walter Leal Filho, Tony Wall, Serafino Afonso Rui Mucova, Gustavo J Nagy,
Abdul-Lateef Balogun, Johannes M Luetz, Artie W Ng, Marina Kovaleva, Fardous
Mohammad Safiul Azam, Fátima Alves, et al. Deploying artificial intelligence for
climate change adaptation. Technological Forecasting and Social Change, 180 :121662,
2022.
[137] Yann LeCun. The mnist database of handwritten digits. http ://yann. lecun.
com/exdb/mnist/, 1998.
[138] Yann LeCun, Bernhard E Boser, John S Denker, Donnie Henderson, Richard E Howard,
Wayne E Hubbard, and Lawrence D Jackel. Handwritten digit recognition with a
back-propagation network. In Advances in neural information processing systems, pages
396–404, 1990.
[139] Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner, et al. Gradient-based
learning applied to document recognition. Proceedings of the IEEE, 86(11) :2278–2324,
1998.
[140] June-Goo Lee, Sanghoon Jun, Young-Won Cho, Hyunna Lee, Guk Bae Kim, Joon Beom
Seo, and Namkug Kim. Deep learning in medical imaging : general overview. Korean
journal of radiology, 18(4) :570–584, 2017.
[141] Yoonho Lee and Seungjin Choi. Gradient-based meta-learning with learned layerwise
metric and subspace. arXiv preprint arXiv :1801.05558, 2018.
[142] Ang Li, Yixiao Duan, Huanrui Yang, Yiran Chen, and Jianlei Yang. Tiprdc :
Task-independent privacy-respecting data crowdsourcing framework for deep learning
with anonymized intermediate representations. In Proceedings of the 26th ACM SIGKDD
International Conference on Knowledge Discovery & Data Mining, pages 824–832,
2020.
[143] Jun Li, Daoyu Lin, Yang Wang, Guangluan Xu, and Chibiao Ding. Deep discriminative
representation learning with attention map for scene classification. arXiv preprint
arXiv :1902.07967, 2019.
151
BIBLIOGRAPHIE
[144] Xiaomeng Li, Lequan Yu, Chi-Wing Fu, and Pheng-Ann Heng. Difficulty-aware
meta-learning for rare disease diagnosis. arXiv preprint arXiv :1907.00354, 2019.
[145] Zhenguo Li, Fengwei Zhou, Fei Chen, and Hang Li. Meta-sgd : Learning to learn quickly
for few-shot learning. arXiv preprint arXiv :1707.09835, 2017.
[146] Jason Liang, Elliot Meyerson, Babak Hodjat, Dan Fink, Karl Mutch, and Risto
Miikkulainen. Evolutionary neural automl for deep learning. arXiv preprint
arXiv :1902.06827, 2019.
[147] Min Lin, Qiang Chen, and Shuicheng Yan. Network in network. arXiv preprint
arXiv :1312.4400, 2013.
[148] Geert Litjens, Thijs Kooi, Babak Ehteshami Bejnordi, Arnaud Arindra Adiyoso Setio,
Francesco Ciompi, Mohsen Ghafoorian, Jeroen Awm Van Der Laak, Bram Van Ginneken,
and Clara I Sánchez. A survey on deep learning in medical image analysis. Medical
image analysis, 42 :60–88, 2017.
[149] Xiaoxuan Liu, Livia Faes, Aditya U Kale, Siegfried K Wagner, Dun Jack Fu, Alice
Bruynseels, Thushika Mahendiran, Gabriella Moraes, Mohith Shamdas, Christoph Kern,
et al. A comparison of deep learning performance against health-care professionals in
detecting diseases from medical imaging : a systematic review and meta-analysis. The
lancet digital health, 1(6) :e271–e297, 2019.
[150] Xinran Liu, Hamid R Tizhoosh, and Jonathan Kofman. Generating binary tags for
fast medical image retrieval based on convolutional nets and radon transform. In 2016
International Joint Conference on Neural Networks (IJCNN), pages 2872–2878. IEEE,
2016.
[151] Giovanni Livraga and Stefano Paraboschi. First report on privacy metrics and data
sanitisation.
[152] S-CB Lo, S-LA Lou, Jyh-Shyan Lin, Matthew T Freedman, Minze V Chien, and
Seong Ki Mun. Artificial convolution neural network techniques and applications for
lung nodule detection. IEEE Transactions on Medical Imaging, 14(4) :711–718, 1995.
152
BIBLIOGRAPHIE
[153] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. arXiv preprint
arXiv :1711.05101, 2017.
[154] Maria Lyra, Agapi Ploussi, Antonios Georgantzoglou, and PC Ionescu. Matlab as a tool
in nuclear medicine image processing. MATLAB-A Ubiquitous tool for the practical
engineer, pages 477–500, 2011.
[155] Gabriel Maicas, Andrew P Bradley, Jacinto C Nascimento, Ian Reid, and Gustavo
Carneiro. Training medical image analysis systems like radiologists. In International
Conference on Medical Image Computing and Computer-Assisted Intervention, pages
546–554. Springer, 2018.
[156] Nathan Malkin, Joe Deatrick, Allen Tong, Primal Wijesekera, Serge Egelman, and David
Wagner. Privacy attitudes of smart speaker users. Proceedings on Privacy Enhancing
Technologies, 2019(4), 2019.
[158] John McCarthy, Marvin L Minsky, Nathaniel Rochester, and Claude E Shannon. A
proposal for the dartmouth summer research project on artificial intelligence, august 31,
1955. AI magazine, 27(4) :12–12, 2006.
[159] Scott McCartney. Eniac : The triumphs and tragedies of the world’s first computer. 1999.
[160] Afonso Menegola, Michel Fornaciali, Ramon Pires, Sandra Avila, and Eduardo Valle.
Towards automated melanoma screening : Exploring transfer learning schemes. arXiv
preprint arXiv :1609.01228, 2016.
[161] Kevin Merchant, Shauna Revay, George Stantchev, and Bryan Nousain. Deep learning for
rf device fingerprinting in cognitive communication networks. IEEE Journal of Selected
Topics in Signal Processing, 12(1) :160–167, 2018.
[162] Fausto Milletari, Nassir Navab, and Seyed-Ahmad Ahmadi. V-net : Fully convolutional
neural networks for volumetric medical image segmentation. In 2016 Fourth
International Conference on 3D Vision (3DV), pages 565–571. IEEE, 2016.
153
BIBLIOGRAPHIE
[163] Md Ashraful Alam Milton. Automated skin lesion classification using ensemble of deep
neural networks in isic 2018 : Skin lesion analysis towards melanoma detection challenge.
arXiv preprint arXiv :1901.10802, 2019.
[164] Marvin Minsky. Steps toward artificial intelligence. Proceedings of the IRE, 49(1) :8–30,
1961.
[165] Nikhil Mishra, Mostafa Rohaninejad, Xi Chen, and Pieter Abbeel. A simple neural
attentive meta-learner. arXiv preprint arXiv :1707.03141, 2017.
[166] Shubha Mishra, Piyush Shukla, and Ratish Agarwal. Analyzing machine
learning enabled fake news detection techniques for diversified datasets. Wireless
Communications and Mobile Computing, 2022, 2022.
[167] Tom M Mitchell, Svetlana V Shinkareva, Andrew Carlson, Kai-Min Chang, Vicente L
Malave, Robert A Mason, and Marcel Adam Just. Predicting human brain activity
associated with the meanings of nouns. science, 320(5880) :1191–1195, 2008.
[168] Volodymyr Mnih, Nicolas Heess, Alex Graves, et al. Recurrent models of visual attention.
In Advances in neural information processing systems, pages 2204–2212, 2014.
[169] Pim Moeskops, Max A Viergever, Adriënne M Mendrik, Linda S de Vries, Manon JNL
Benders, and Ivana Išgum. Automatic segmentation of mr brain images with a
convolutional neural network. IEEE transactions on medical imaging, 35(5) :1252–1261,
2016.
[170] Arnab Kumar Mondal, Jose Dolz, and Christian Desrosiers. Few-shot 3d multi-modal
medical image segmentation using generative adversarial learning. arXiv preprint
arXiv :1810.12241, 2018.
[171] Kevin R Moon, Alfred O Hero, and B Véronique Delouille. Meta learning of bounds
on the bayes classifier error. In 2015 IEEE Signal Processing and Signal Processing
Education Workshop (SP/SPE), pages 13–18. IEEE, 2015.
[172] Tsendsuren Munkhdalai, Alessandro Sordoni, Tong Wang, and Adam Trischler.
Metalearned neural memory. arXiv preprint arXiv :1907.09720, 2019.
154
BIBLIOGRAPHIE
[173] Tsendsuren Munkhdalai and Hong Yu. Meta networks. In Proceedings of the 34th
International Conference on Machine Learning-Volume 70, pages 2554–2563. JMLR.
org, 2017.
[174] Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, Honglak Lee, and Andrew Y
Ng. Multimodal deep learning. In Proceedings of the 28th international conference on
machine learning (ICML-11), pages 689–696, 2011.
[175] Alex Nichol, Joshua Achiam, and John Schulman. On first-order meta-learning
algorithms. arXiv preprint arXiv :1803.02999, 2018.
[176] Alex Nichol and John Schulman. Reptile : a scalable metalearning algorithm. arXiv
preprint arXiv :1803.02999, 2, 2018.
[177] Peter Norvig. Artificial intelligence : Early ambitions. New Scientist, 216(2889) :ii–iii,
2012.
[178] László G Nyúl and Jayaram K Udupa. On standardizing the mr image intensity scale.
Magnetic Resonance in Medicine : An Official Journal of the International Society for
Magnetic Resonance in Medicine, 42(6) :1072–1081, 1999.
[179] László G Nyúl, Jayaram K Udupa, and Xuan Zhang. New variants of a method of mri
scale standardization. IEEE transactions on medical imaging, 19(2) :143–150, 2000.
[180] Boris Oreshkin, Pau Rodríguez López, and Alexandre Lacoste. Tadam : Task dependent
adaptive metric for improved few-shot learning. In Advances in Neural Information
Processing Systems, pages 721–731, 2018.
[181] Silas Nyboe Ørting, Jens Petersen, Veronika Cheplygina, Laura H Thomsen,
Mathilde MW Wille, and Marleen De Bruijne. Feature learning based on visual similarity
triplets in medical image analysis : A case study of emphysema in chest ct scans. In
Intravascular Imaging and Computer Assisted Stenting and Large-Scale Annotation of
Biomedical Data and Expert Label Synthesis, pages 140–149. Springer, 2018.
[182] David Ouyang, Bryan He, Amirata Ghorbani, Neal Yuan, Joseph Ebinger, Curtis P
Langlotz, Paul A Heidenreich, Robert A Harrington, David H Liang, Euan A Ashley,
155
BIBLIOGRAPHIE
[183] Mark Palatucci, Dean Pomerleau, Geoffrey E Hinton, and Tom M Mitchell. Zero-shot
learning with semantic output codes. In Advances in neural information processing
systems, pages 1410–1418, 2009.
[184] Sinno Jialin Pan, Ivor W Tsang, James T Kwok, and Qiang Yang. Domain adaptation
via transfer component analysis. IEEE transactions on neural networks, 22(2) :199–210,
2010.
[185] Sinno Jialin Pan and Qiang Yang. A survey on transfer learning. IEEE Transactions on
knowledge and data engineering, 22(10) :1345–1359, 2009.
[186] Jongchan Park, Sanghyun Woo, Joon-Young Lee, and In So Kweon. Bam : Bottleneck
attention module. arXiv preprint arXiv :1807.06514, 2018.
[187] David Petersson. Deep learning : réseaux neuronaux rnn et cnn quelles différences ?,
2020.
[188] Tri-Cong Pham, Chi-Mai Luong, Muriel Visani, and Van-Dung Hoang. Deep cnn and
data augmentation for skin lesion classification. In Asian Conference on Intelligent
Information and Database Systems, pages 573–582. Springer, 2018.
[190] Sergey M Plis, Devon R Hjelm, Ruslan Salakhutdinov, Elena A Allen, Henry J Bockholt,
Jeffrey D Long, Hans J Johnson, Jane S Paulsen, Jessica A Turner, and Vince D Calhoun.
Deep learning for neuroimaging : a validation study. Frontiers in neuroscience, 8 :229,
2014.
[191] W Nicholson Price and I Glenn Cohen. Privacy in the age of medical big data. Nature
medicine, 25(1) :37–43, 2019.
[192] Santi Puch, Irina Sánchez, and Matt Rowe. Few-shot learning with deep triplet networks
for brain imaging modality recognition. In Domain Adaptation and Representation
156
BIBLIOGRAPHIE
Transfer and Medical Image Learning with Less Labels and Imperfect Data, pages
181–189. Springer, 2019.
[193] J Ross Quinlan et al. Bagging, boosting, and c4. 5. In Aaai/Iaai, vol. 1, pages 725–730,
1996.
[194] Alec Radford, Luke Metz, and Soumith Chintala. Unsupervised representation
learning with deep convolutional generative adversarial networks. arXiv preprint
arXiv :1511.06434, 2015.
[195] Alvin Rajkomar and Eyal Oren. Deep learning for electronic health records, 2018.
[196] Sachin Ravi and Hugo Larochelle. Optimization as a model for few-shot learning. 2016.
[197] Muhammad Imran Razzak, Saeeda Naz, and Ahmad Zaib. Deep learning for medical
image processing : Overview, challenges and the future. In Classification in BioApps,
pages 323–350. Springer, 2018.
[198] Russell Reed and Robert J MarksII. Neural smithing : supervised learning in feedforward
artificial neural networks. Mit Press, 1999.
[199] Scott Reed, Zeynep Akata, Honglak Lee, and Bernt Schiele. Learning deep
representations of fine-grained visual descriptions. In Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, pages 49–58, 2016.
[200] Anthony Rios and Ramakanth Kavuluru. Few-shot and zero-shot multi-label learning
for structured label spaces. In Proceedings of the Conference on Empirical Methods in
Natural Language Processing. Conference on Empirical Methods in Natural Language
Processing, volume 2018, page 3132. NIH Public Access, 2018.
[201] Shamnaz Riyaz, Kunal Sankhe, Stratis Ioannidis, and Kaushik Chowdhury. Deep
learning convolutional neural networks for radio identification. IEEE Communications
Magazine, 56(9) :146–152, 2018.
157
BIBLIOGRAPHIE
[203] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net : Convolutional networks
for biomedical image segmentation. In International Conference on Medical image
computing and computer-assisted intervention, pages 234–241. Springer, 2015.
[204] Abhijit Guha Roy, Shayan Siddiqui, Sebastian Pölsterl, Nassir Navab, and Christian
Wachinger. ‘squeeze & excite’guided few-shot segmentation of volumetric images.
Medical image analysis, 59 :101587, 2020.
[206] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma,
Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al. Imagenet
large scale visual recognition challenge. International journal of computer vision,
115(3) :211–252, 2015.
[207] Stuart J Russell. Artificial intelligence a modern approach. Pearson Education, Inc.,
2010.
[208] Jihyeon Ryu, Yifeng Zheng, Yansong Gao, Sharif Abuadbba, Junyaup Kim, Dongho
Won, Surya Nepal, Hyoungshick Kim, and Cong Wang. Can differential privacy
practically protect collaborative deep learning inference for the internet of things ? arXiv
e-prints, pages arXiv–2104, 2021.
[209] Michele A Saad, Alan C Bovik, and Christophe Charrier. Blind image quality
assessment : A natural scene statistics approach in the dct domain. IEEE transactions on
Image Processing, 21(8) :3339–3352, 2012.
[210] Ruslan Salakhutdinov. Learning deep generative models. Annual Review of Statistics
and Its Application, 2 :361–385, 2015.
[211] Pouya Samangouei, Maya Kabkab, and Rama Chellappa. Defense-gan : Protecting
classifiers against adversarial attacks using generative models. arXiv preprint
arXiv :1805.06605, 2018.
158
BIBLIOGRAPHIE
[212] Wojciech Samek, Grégoire Montavon, Andrea Vedaldi, Lars Kai Hansen, and
Klaus-Robert Müller. Explainable AI : interpreting, explaining and visualizing deep
learning, volume 11700. Springer Nature, 2019.
[213] Arthur G Samuel. Phonemic restoration : insights from a new methodology. Journal of
Experimental Psychology : General, 110(4) :474, 1981.
[214] Arthur L Samuel. Some studies in machine learning using the game of checkers.
ii—recent progress. Computer Games I, pages 366–400, 1988.
[215] Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan Wierstra, and Timothy
Lillicrap. Meta-learning with memory-augmented neural networks. In International
conference on machine learning, pages 1842–1850. PMLR, 2016.
[216] Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan Wierstra, and Timothy
Lillicrap. One-shot learning with memory-augmented neural networks. arXiv preprint
arXiv :1605.06065, 2016.
[217] Afşar Saranli, Stuart Russel, and Peter Norvig. Artificial intelligence : a modern
approach. 2003.
[218] Tanja Schroeder, Maximilian Haug, Heiko Gewald, et al. Data privacy concerns using
mhealth apps and smart speakers : Comparative interview study among mature adults.
JMIR Formative Research, 6(6) :e28025, 2022.
[219] Florian Schroff, Dmitry Kalenichenko, and James Philbin. Facenet : A unified embedding
for face recognition and clustering. In Proceedings of the IEEE conference on computer
vision and pattern recognition, pages 815–823, 2015.
[220] P Seebock. Deep learning in medical image analysis. Master’s thesis, Vienna University
of Technology, Faculty of Informatics, 2015.
159
BIBLIOGRAPHIE
[222] Amit Shah, Sailesh Conjeti, Nassir Navab, and Amin Katouzian. Deeply learnt hashing
forests for content based image retrieval in prostate mr images. In Medical Imaging
2016 : Image Processing, volume 9784, page 978414. International Society for Optics
and Photonics, 2016.
[223] Dinggang Shen, Guorong Wu, and Heung-Il Suk. Deep learning in medical image
analysis. Annual review of biomedical engineering, 19 :221–248, 2017.
[224] Connor Shorten and Taghi M Khoshgoftaar. A survey on image data augmentation for
deep learning. Journal of big data, 6(1) :1–48, 2019.
[225] David Silver, Aja Huang, Chris J Maddison, Arthur Guez, Laurent Sifre, George Van
Den Driessche, Julian Schrittwieser, Ioannis Antonoglou, Veda Panneershelvam, Marc
Lanctot, et al. Mastering the game of go with deep neural networks and tree search.
nature, 529(7587) :484–489, 2016.
[226] Karen Simonyan, Andrea Vedaldi, and Andrew Zisserman. Deep inside convolutional
networks : Visualising image classification models and saliency maps. arXiv preprint
arXiv :1312.6034, 2013.
[227] Karen Simonyan and Andrew Zisserman. Two-stream convolutional networks for action
recognition in videos. In Advances in neural information processing systems, pages
568–576, 2014.
[228] Karen Simonyan and Andrew Zisserman. Very deep convolutional networks for
large-scale image recognition. arXiv preprint arXiv :1409.1556, 2014.
[229] Vishrut Singhal. What do you mean by convolutional neural network ?, 2021.
[230] Daniel Smilkov, Nikhil Thorat, Been Kim, Fernanda Viégas, and Martin Wattenberg.
Smoothgrad : removing noise by adding noise. arXiv preprint arXiv :1706.03825, 2017.
[231] Dave Smith. Cutting-edge face recognition is complicated. these spreadsheets make it
easier, 2018.
[232] Jake Snell, Kevin Swersky, and Richard Zemel. Prototypical networks for few-shot
learning. In Advances in Neural Information Processing Systems, pages 4077–4087,
2017.
160
BIBLIOGRAPHIE
[233] Richard Socher, Milind Ganjoo, Christopher D Manning, and Andrew Ng. Zero-shot
learning through cross-modal transfer. In Advances in neural information processing
systems, pages 935–943, 2013.
[234] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan
Salakhutdinov. Dropout : a simple way to prevent neural networks from overfitting. The
journal of machine learning research, 15(1) :1929–1958, 2014.
[235] Nitish Srivastava and Ruslan R Salakhutdinov. Multimodal learning with deep boltzmann
machines. In Advances in neural information processing systems, pages 2222–2230,
2012.
[237] Heung-Il Suk, Seong-Whan Lee, Dinggang Shen, Alzheimer’s Disease Neuroimaging
Initiative, et al. Hierarchical feature representation and multimodal fusion with deep
learning for ad/mci diagnosis. NeuroImage, 101 :569–582, 2014.
[238] Heung-Il Suk, Seong-Whan Lee, Dinggang Shen, Alzheimer’s Disease Neuroimaging
Initiative, et al. Latent feature representation with stacked auto-encoder for ad/mci
diagnosis. Brain Structure and Function, 220(2) :841–859, 2015.
[239] Heung-Il Suk and Dinggang Shen. Deep learning-based feature representation for
ad/mci classification. In International Conference on Medical Image Computing and
Computer-Assisted Intervention, pages 583–590. Springer, 2013.
[240] Qianru Sun, Yaoyao Liu, Tat-Seng Chua, and Bernt Schiele. Meta-transfer learning for
few-shot learning. In Proceedings of the IEEE Conference on Computer Vision and
Pattern Recognition, pages 403–412, 2019.
[241] Ruo-Yu Sun. Optimization for deep learning : An overview. Journal of the Operations
Research Society of China, 8(2) :249–294, 2020.
[242] Flood Sung, Yongxin Yang, Li Zhang, Tao Xiang, Philip HS Torr, and Timothy M
Hospedales. Learning to compare : Relation network for few-shot learning. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages
1199–1208, 2018.
161
BIBLIOGRAPHIE
[243] Ilya Sutskever, James Martens, George Dahl, and Geoffrey Hinton. On the importance of
initialization and momentum in deep learning. In International conference on machine
learning, pages 1139–1147. PMLR, 2013.
[244] Silicon Valley Bank (SVB). Big data next : Capturing the promise of big data. big data
report 2015, 2015.
[245] Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A Alemi.
Inception-v4, inception-resnet and the impact of residual connections on learning. In
Thirty-First AAAI Conference on Artificial Intelligence, 2017.
[246] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir
Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper
with convolutions. In Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 1–9, 2015.
[247] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jon Shlens, and Zbigniew Wojna.
Rethinking the inception architecture for computer vision. In Proceedings of the IEEE
conference on computer vision and pattern recognition, pages 2818–2826, 2016.
[248] Yaniv Taigman, Ming Yang, Marc’Aurelio Ranzato, and Lior Wolf. Deepface : Closing
the gap to human-level performance in face verification. In Proceedings of the IEEE
conference on computer vision and pattern recognition, pages 1701–1708, 2014.
[250] Chuanqi Tan, Fuchun Sun, Tao Kong, Wenchang Zhang, Chao Yang, and Chunfang Liu.
A survey on deep transfer learning. pages 270–279, 2018.
[251] Mingxing Tan and Quoc Le. Efficientnet : Rethinking model scaling for convolutional
neural networks. In International conference on machine learning, pages 6105–6114.
PMLR, 2019.
[252] Sebastian Thrun and Lorien Pratt. Learning to learn : Introduction and overview. In
Learning to learn, pages 3–17. Springer, 1998.
[253] Sebastian Thrun and Lorien Pratt. Learning to learn. Springer Science & Business
Media, 2012.
162
BIBLIOGRAPHIE
[254] Vincent Tinto. Dropout from higher education : A theoretical synthesis of recent research.
Review of educational research, 45(1) :89–125, 1975.
[255] Eric Topol. Deep medicine : how artificial intelligence can make healthcare human again.
Hachette UK, 2019.
[257] Alan Turing. Intelligent machinery. 1948. The Essential Turing, pages 395–432, 1969.
[258] Alan M Turing. Computing machinery and intelligence. In Parsing the turing test, pages
23–65. Springer, 2009.
[259] Alan Mathison Turing et al. On computable numbers, with an application to the
entscheidungsproblem. J. of Math, 58(345-363) :5, 1936.
[260] Kévin Vancappel. Tutoriel | deep learning : le réseau neuronal convolutif (cnn), 2021.
[261] Andre Vellino. Artificial intelligence : The very idea : J. haugeland, (mit press, cambridge,
ma, 1985) ; 287 pp. Artificial Intelligence, 29 :349–353, 09 1986.
[262] Benoit Vibert, Jean-Marie Le Bars, Christophe Charrier, and Christophe Rosenberger.
Logical attacks and countermeasures for fingerprint on-card-comparison systems.
Sensors, 20(18) :5410, 2020.
[263] Sandra Vieira, Walter HL Pinaya, and Andrea Mechelli. Using deep learning to
investigate the neuroimaging correlates of psychiatric and neurological disorders :
Methods and applications. Neuroscience & Biobehavioral Reviews, 74 :58–75, 2017.
[264] Oriol Vinyals, Charles Blundell, Timothy Lillicrap, Daan Wierstra, et al. Matching
networks for one shot learning. Advances in neural information processing systems, 29,
2016.
[265] John Von Neumann. The computer and the brain. In The Computer and the Brain. Yale
university press, 2012.
[266] John Von Neumann and Oskar Morgenstern. Theory of games and economic behavior.
In Theory of games and economic behavior. Princeton university press, 2007.
163
BIBLIOGRAPHIE
[267] Demetris Vrontis, Michael Christofi, Vijay Pereira, Shlomo Tarba, Anna Makrides, and
Eleni Trichina. Artificial intelligence, robotics, advanced technologies and human
resource management : a systematic review. The International Journal of Human
Resource Management, 33(6) :1237–1266, 2022.
[269] Xiaosong Wang, Yifan Peng, Le Lu, Zhiyong Lu, Mohammadhadi Bagheri, and
Ronald M Summers. Chestx-ray8 : Hospital-scale chest x-ray database and benchmarks
on weakly-supervised classification and localization of common thorax diseases. In
Proceedings of the IEEE conference on computer vision and pattern recognition, pages
2097–2106, 2017.
[270] YAQING Wang, J Kwok, LM Ni, and Q Yao. Generalizing from a few examples : A
survey on few-shot learning. arXiv preprint arXiv :1904.05046, 2019.
[271] Yaqing Wang, Quanming Yao, James T Kwok, and Lionel M Ni. Generalizing from a few
examples : A survey on few-shot learning. ACM computing surveys (csur), 53(3) :1–34,
2020.
[272] Yuebin Wang, Liqiang Zhang, Hao Deng, Jiwen Lu, Haiyang Huang, Liang Zhang, Jun
Liu, Hong Tang, and Xiaoyue Xing. Learning a discriminative distance metric with
label consistency for scene classification. IEEE Transactions on Geoscience and Remote
Sensing, 55(8) :4427–4440, 2017.
[273] Karl Weiss, Taghi M Khoshgoftaar, and DingDing Wang. A survey of transfer learning.
Journal of Big data, 3(1) :9, 2016.
[274] Yandong Wen, Kaipeng Zhang, Zhifeng Li, and Yu Qiao. A discriminative feature
learning approach for deep face recognition. In European conference on computer vision,
pages 499–515. Springer, 2016.
164
BIBLIOGRAPHIE
[277] Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. Cbam :
Convolutional block attention module. In Proceedings of the European Conference on
Computer Vision (ECCV), pages 3–19, 2018.
[278] Qingyang Wu, Carlos Feres, Daniel Kuzmenko, Ding Zhi, Zhou Yu, Xin Liu, et al. Deep
learning based rf fingerprinting for device identification and wireless security. Electronics
Letters, 54(24) :1405–1407, 2018.
[279] Kai-jian Xia, Hong-sheng Yin, and Jiang-qiang Wang. A novel improved deep
convolutional neural network model for medical image fusion. Cluster Computing,
22(1) :1515–1527, 2019.
[280] Yongqin Xian, Bernt Schiele, and Zeynep Akata. Zero-shot learning-the good, the bad
and the ugly. In Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition, pages 4582–4591, 2017.
[281] Liyang Xie, Kaixiang Lin, Shu Wang, Fei Wang, and Jiayu Zhou. Differentially private
generative adversarial network. 2018.
[282] Bing Xu, Naiyan Wang, Tianqi Chen, and Mu Li. Empirical evaluation of rectified
activations in convolutional network. arXiv preprint arXiv :1505.00853, 2015.
[283] Runhua Xu. Functional encryption based approaches for practical privacy-preserving
machine learning. PhD thesis, University of Pittsburgh, 2020.
[284] Wei Yang, Yingyin Chen, Yunbi Liu, Liming Zhong, Genggeng Qin, Zhentai Lu, Qianjin
Feng, and Wufan Chen. Cascade of multi-scale convolutional neural networks for
bone suppression of chest radiographs in gradient domain. Medical image analysis,
35 :421–433, 2017.
[285] Xin Yi, Ekta Walia, and Paul Babyn. Generative adversarial network in medical imaging :
A review. Medical image analysis, 58 :101552, 2019.
[286] Wei Ying, Yu Zhang, Junzhou Huang, and Qiang Yang. Transfer learning via learning to
transfer. In International Conference on Machine Learning, pages 5085–5094, 2018.
165
BIBLIOGRAPHIE
[287] Jinsung Yoon, Lydia N Drumright, and Mihaela Van Der Schaar. Anonymization
through data synthesis using generative adversarial networks (ads-gan). IEEE journal
of biomedical and health informatics, 24(8) :2378–2388, 2020.
[288] Da Yu, Huishuai Zhang, Wei Chen, and Tie-Yan Liu. Do not let privacy overbill utility :
Gradient embedding perturbation for private learning. arXiv e-prints, pages arXiv–2102,
2021.
[289] Tianhe Yu, Chelsea Finn, Annie Xie, Sudeep Dasari, Tianhao Zhang, Pieter Abbeel,
and Sergey Levine. One-shot imitation from observing humans via domain-adaptive
meta-learning. arXiv preprint arXiv :1802.01557, 2018.
[290] Lei Yuan, Yalin Wang, Paul M Thompson, Vaibhav A Narayan, Jieping Ye, Alzheimer’s
Disease Neuroimaging Initiative, et al. Multi-source feature learning for joint analysis
of incomplete multiple heterogeneous neuroimaging data. NeuroImage, 61(3) :622–632,
2012.
[291] Yan Zhang, Min Fang, and Nian Wang. Channel-spatial attention network for fewshot
classification. PloS one, 14(12), 2019.
[292] Ziming Zhang and Venkatesh Saligrama. Zero-shot learning via semantic similarity
embedding. In Proceedings of the IEEE international conference on computer vision,
pages 4166–4174, 2015.
[293] Amy Zhao, Guha Balakrishnan, Fredo Durand, John V Guttag, and Adrian V Dalca. Data
augmentation using learned transformations for one-shot medical image segmentation. In
Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages
8543–8553, 2019.
[294] Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba.
Learning deep features for discriminative localization. In Proceedings of the IEEE
conference on computer vision and pattern recognition, pages 2921–2929, 2016.
[295] Tongxue Zhou, Su Ruan, and Stéphane Canu. A review : Deep learning for medical
image segmentation using multi-modality fusion. Array, 3 :100004, 2019.
166
BIBLIOGRAPHIE
[296] Zongwei Zhou, Md Mahfuzur Rahman Siddiquee, Nima Tajbakhsh, and Jianming Liang.
Unet++ : A nested u-net architecture for medical image segmentation. In Deep learning
in medical image analysis and multimodal learning for clinical decision support, pages
3–11. Springer, 2018.
[297] Alexander Zimmer. Intelligence artificielle for future ? Bulletin des médecins suisses,
102(42) :1352–1352, 2021.
167
Représentation uniforme de l’imagerie médicale
Résumé :
Le domaine médical est à la fois critique et vaste. C’est un terrain avec une large
marge d’innovation et d’amélioration face aux enjeux souvent très importants voir vitaux.
L’apprentissage profond de son côté représente une perspective importante dans de multiples
domaines et en particulier dans le domaine de l’imagerie médicale. La restriction souvent
rencontrée lors du déploiement de cette technique dans ce domaine est les données : la
disponibilité et la confidentialité. Dans ce travail de thèse, nous proposons d’offrir aux experts
médicaux des multiples nouvelles pratiques pour utiliser l’apprentissage profond avec une
quantité limitée de données. Nous soulignons également le danger de la pseudo-anonymisation
et nous proposons un pipeline permettant une véritable anonymisation liée à l’identité du patient
et à l’équipement d’acquisition.
Abstract :
T he area of medicine is critical and enormous. This is a field with great potential for innovation
and improvement in the face of challenges often very important, if not vital. Deep learning, on
the other hand, represents an important perspective in several fields, particularly in the field of
medical imaging. The limitation often encountered when deploying this technique in this area
is the data : availability and privacy. In this thesis work, we propose to offer medical experts
multiple new practices to use deep learning with a limited amount of data. We also highlight
the danger of pseudo-anonymization and provide a pipeline for true anonymization related to
patient identity and acquisition equipment.
Publications :
— DeepMRS : An End-to-End Deep Neural Network for Dementia Disease Detection using
MRS Data : IEEE ISBI 2020, Iowa, USA
— Deep anonymization of medical imaging : Multimedia Tools and Applications