Documents, Graphes et Optimisation Multi-Objectifs
Documents, Graphes et Optimisation Multi-Objectifs
Documents, Graphes et Optimisation Multi-Objectifs
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
tel-00671168, version 1 - 8 Oct 2012<br />
<strong>Documents</strong>, <strong>Graphes</strong> <strong>et</strong> <strong>Optimisation</strong><br />
<strong>Multi</strong>-<strong>Objectifs</strong><br />
Sébastien Adam<br />
Habilitation à Diriger les Recherches<br />
de l’Université de Rouen<br />
(Spécialité Génie Informatique, Automatique <strong>et</strong> Traitement du Signal)<br />
Composition du jury<br />
Soutenue le 29/11/2011<br />
Rapporteurs : Jean-Michel Jolion, INSA de Lyon<br />
Robert Sabourin, ETS, Université du Québec<br />
Karl Tombre, École des mines de Nancy<br />
Examinateurs : Jean-Marc Ogier, Université de La Rochelle<br />
Yves Lecourtier, Université de Rouen<br />
Laurent Heutte, Université de Rouen<br />
Laboratoire d’Informatique, de Traitement de l’Information <strong>et</strong> des Systèmes - EA 4108
tel-00671168, version 1 - 8 Oct 2012<br />
Mis en page avec la classe thloria.
tel-00671168, version 1 - 8 Oct 2012<br />
Remerciements<br />
Je tiens à remercier vivement Jean-Michel Jolion, Robert Sabourin <strong>et</strong> Karl<br />
Tombre d’avoir accepté d’être les rapporteurs de ce document. Ils sont des références<br />
pour moi <strong>et</strong> j’ai beaucoup apprécié leur travail d’expertise.<br />
Je remercie aussi Jean-Marc Ogier d’avoir accepté mon invitation <strong>et</strong> d’avoir<br />
présidé ce jury. Jean-Marc est la personne qui m’a donné le goût de la recherche<br />
<strong>et</strong> ses qualités humaines <strong>et</strong> scientifiques sont trop nombreuses pour les lister ici.<br />
Mention spéciale aux collègues locaux de ce jury. Yves <strong>et</strong> Laurent ont pris<br />
le relai de Jean-Marc quand ce dernier est parti chercher ses fameuses 2250<br />
heures de soleil par an sur la côte atlantique. J’apprécie énormément de travailler<br />
avec eux, <strong>et</strong> j’espère que ce n’est qu’un début.<br />
Je remercie aussi vivement les nombreux doctorants <strong>et</strong> stagiaires avec qui<br />
j’ai travaillé ces dix dernières années. Les encadrer a été un véritable plaisir <strong>et</strong><br />
je leur dois pour beaucoup les résultats obtenus.<br />
Coté laboratoire, là encore les personnes auxquelles je voudrais témoigner<br />
ma reconnaissance sont très nombreuses. Je pense que travailler au LITIS est<br />
une chance, pour l’ambiance <strong>et</strong> la qualité des travaux qui y sont menés. Parmi<br />
tous les collègues, une mention particulière va à Pierrot <strong>et</strong> Clem. Ce sont mes<br />
binômes de travail <strong>et</strong> des amis, <strong>et</strong> j’espère qu’on va avoir l’occasion de travailler<br />
encore beaucoup ensemble. Merci également à Thierry avec qui c’est un réel<br />
plaisir de travailler. Une spéciale dédicace aussi à super Fabienne dont l’efficacité<br />
est impressionnante.<br />
Enfin, merci à tous ceux qui ont fait que les choses se passent bien, que ce<br />
soit au niveau du laboratoire, au niveau du département ou ailleurs.<br />
1
tel-00671168, version 1 - 8 Oct 2012<br />
2
tel-00671168, version 1 - 8 Oct 2012<br />
Table des matières<br />
I Curriculum Vitæ 7<br />
1 Synthèse de mes activités 9<br />
1.1 Curriculum Vitæ . . . . . . . . . . . . . . . . . . . . . . . . 9<br />
1.1.1 Situation actuelle . . . . . . . . . . . . . . . . . . . 9<br />
1.1.2 Formation . . . . . . . . . . . . . . . . . . . . . . . 9<br />
1.1.3 Dates importantes . . . . . . . . . . . . . . . . . . . 9<br />
1.2 Résumé des activités . . . . . . . . . . . . . . . . . . . . . . 10<br />
1.2.1 Résumé des activités de recherche . . . . . . . . . . 10<br />
1.2.2 Résumé des activités d’enseignement . . . . . . . . . 11<br />
1.2.3 Résumé des activités administratives . . . . . . . . . 11<br />
1.3 Activités de recherche . . . . . . . . . . . . . . . . . . . . . 12<br />
1.3.1 Contexte des travaux . . . . . . . . . . . . . . . . . 12<br />
1.3.2 Parcours de recherche . . . . . . . . . . . . . . . . . 13<br />
1.3.3 Contributions . . . . . . . . . . . . . . . . . . . . . 15<br />
1.3.4 Perspectives . . . . . . . . . . . . . . . . . . . . . . 19<br />
1.3.5 Encadrement doctoral . . . . . . . . . . . . . . . . . 22<br />
1.3.6 Activités contractuelles, proj<strong>et</strong>s ANR . . . . . . . . 23<br />
1.3.7 Relations avec la communauté scientifique nationale<br />
<strong>et</strong> internationale . . . . . . . . . . . . . . . . . . . . 26<br />
1.3.8 Publications . . . . . . . . . . . . . . . . . . . . . . 26<br />
1.4 Activités d’enseignement . . . . . . . . . . . . . . . . . . . 34<br />
1.4.1 Filières d’enseignement . . . . . . . . . . . . . . . . 34<br />
1.4.2 Enseignements dispensés . . . . . . . . . . . . . . . 34<br />
1.4.3 Volumes horaires . . . . . . . . . . . . . . . . . . . . 35<br />
1.5 Activités administratives . . . . . . . . . . . . . . . . . . . 35<br />
1.5.1 Responsabilités administratives <strong>et</strong> pédagogiques . . 35<br />
1.5.2 Fonctions électives au sein de l’établissement . . . . 36<br />
3
tel-00671168, version 1 - 8 Oct 2012<br />
4 Table des matières<br />
II Contributions <strong>et</strong> Perspectives 37<br />
2 Introduction générale 39<br />
3 <strong>Documents</strong> <strong>et</strong> graphes 43<br />
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />
3.2 Classification de graphes . . . . . . . . . . . . . . . . . . . 44<br />
3.2.1 Définition du problème <strong>et</strong> revue de l’existant . . . . 44<br />
3.2.2 Contributions . . . . . . . . . . . . . . . . . . . . . 47<br />
3.3 Isomorphismes de sous-graphes . . . . . . . . . . . . . . . . 51<br />
3.3.1 Définition du problème <strong>et</strong> revue de l’existant . . . . 51<br />
3.3.2 Contributions . . . . . . . . . . . . . . . . . . . . . 53<br />
3.4 Applications à l’analyse de documents graphiques . . . . . 56<br />
3.4.1 Détection de symboles . . . . . . . . . . . . . . . . . 57<br />
3.4.2 Classification <strong>et</strong> indexation de documents . . . . . . 60<br />
3.5 Discussion <strong>et</strong> problèmes ouverts . . . . . . . . . . . . . . . 63<br />
3.5.1 Classification de graphes . . . . . . . . . . . . . . . 63<br />
3.5.2 Recherche d’isomorphisme . . . . . . . . . . . . . . 64<br />
4 <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif 67<br />
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />
4.2 <strong>Optimisation</strong> multiobjectif . . . . . . . . . . . . . . . . . . 69<br />
4.2.1 Définition du problème . . . . . . . . . . . . . . . . 69<br />
4.2.2 Synthèse de la littérature . . . . . . . . . . . . . . . 70<br />
4.3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />
4.3.1 Essaims particulaires <strong>et</strong> optimisation multiobjectif . 74<br />
4.3.2 Approximation de courbes . . . . . . . . . . . . . . 78<br />
4.3.3 Sélection de modèles . . . . . . . . . . . . . . . . . . 82<br />
4.4 Problèmes ouverts . . . . . . . . . . . . . . . . . . . . . . . 86<br />
4.4.1 Analyse de documents <strong>et</strong> objectifs multiples . . . . 87<br />
4.4.2 Apprentissage multiobjectif . . . . . . . . . . . . . . 88<br />
5 Perspectives 91<br />
6 Bibliographie 95
tel-00671168, version 1 - 8 Oct 2012<br />
III Recueil de publications 113<br />
A Réference CV : 6 i<br />
B Réference CV : 5 iii<br />
C Réference CV : 4 v<br />
D Réference CV : 2 vii<br />
E Réference CV : 1 ix<br />
F Réference CV : 25 xi<br />
5
tel-00671168, version 1 - 8 Oct 2012<br />
6 Table des matières
tel-00671168, version 1 - 8 Oct 2012<br />
Première partie<br />
Curriculum Vitæ<br />
7
tel-00671168, version 1 - 8 Oct 2012
tel-00671168, version 1 - 8 Oct 2012<br />
Chapitre 1<br />
Synthèse de mes activités<br />
1.1 Curriculum Vitæ<br />
Sébastien Adam<br />
Né le 27 novembre 1975<br />
Nationalité Française, célibataire, 2 enfants<br />
1.1.1 Situation actuelle<br />
Maître de Conférences (61ème section)<br />
Laboratoire d’Informatique, de Traitement de l’Information, <strong>et</strong> des Systèmes<br />
LITIS - EA 4108<br />
UFR des Sciences <strong>et</strong> Techniques, Université de Rouen<br />
BP 12 - 76801 Saint-Etienne du Rouvray, FRANCE<br />
Tel : 02.32.95.52.10 - Fax : 02.32.95.50.22<br />
Courriel : Sebastien.Adam@litislab.eu<br />
1.1.2 Formation<br />
2001 Doctorat de l’Université de Rouen<br />
Suj<strong>et</strong> : Interprétation de <strong>Documents</strong> Techniques :<br />
des Outils à leur Intégration dans un Système à Base de Connaissances<br />
Jury : N. Vincent (rapporteur), J.M. Chassery (rapporteur),<br />
K. Tombre (examinateur), J. Gardes (examinateur),<br />
J. Labiche (Directeur), J.M. Ogier (Co-Directeur)<br />
Mention très honorable avec Félicitations du jury<br />
1998 DEA Instrumentation <strong>et</strong> Commande pour les Systèmes de Vision<br />
Université de Rouen, mention Bien<br />
1998 DESS Automatique <strong>et</strong> Informatique Industrielle<br />
Université de Rouen, mention Bien<br />
1.1.3 Dates importantes<br />
2008 Bénéficiaire de la Prime d’Encadrement Doctoral <strong>et</strong> de Recherche (PEDR)<br />
2003 Titularisation dans le corps des Maîtres de Conférences<br />
2002 Nomination Maître de Conférences section 61 à l’Université de Rouen<br />
9
tel-00671168, version 1 - 8 Oct 2012<br />
10 Chapitre 1. Synthèse de mes activités<br />
1.2 Résumé des activités<br />
1.2.1 Résumé des activités de recherche<br />
Thèmes de recherche :<br />
– représentations structurelles <strong>et</strong> analyse de documents : classification de<br />
graphes, isomorphismes de sous-graphes, reconnaissance <strong>et</strong> localisation<br />
de symboles, analyse de documents graphiques ;<br />
– optimisation <strong>et</strong> analyse de documents : optimisation multiobjectif, approximation<br />
de courbes, sélection de modèles, forêts aléatoires ;<br />
– personnalisation de la recherche d’information : r<strong>et</strong>our de pertinence implicite,<br />
apprentissage de profils utilisateurs, sélection dynamique d’outils<br />
d’aide à la recherche.<br />
Publications :<br />
Encadrement doctoral :<br />
Type de publication total<br />
Revues internationales 8<br />
Chapitres de livre 2<br />
Ouvrages collectifs 6<br />
Revues francophones 2<br />
Conférences internationales de rang A 11<br />
Autres conférences internationales 21<br />
Conférences francophones 26<br />
Thèses soutenues 4<br />
Thèses en cours 2<br />
Jurys de thèse 3<br />
Master Recherche 13<br />
Relations avec la communauté scientifique nationale <strong>et</strong> internationale<br />
:<br />
– reviewer pour les revues internationales Pattern Recognition, Pattern Recognition<br />
L<strong>et</strong>ters, International Journal of Document Analysis and Recognition<br />
<strong>et</strong> Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis.<br />
– relecteur pour la revue nationale Traitement du Signal ;<br />
– membre du comité d’organisation de la conférence CIFED’08 ;<br />
– membre régulier des comités de programme <strong>et</strong>/ou comité de sélection<br />
de différentes conférences nationales <strong>et</strong> internationales (ICPR, ICDAR,<br />
GREC, RFIA, CIFED, JFPDA...) ;<br />
– membre du GRCE, de l’AFRIF, du GDR I3 au niveau national, <strong>et</strong> des<br />
TC-15 <strong>et</strong> TC-10 de l’IAPR au niveau international.<br />
Valorisation <strong>et</strong> contrats industriels :<br />
– coordinateur LITIS du proj<strong>et</strong> technovision EPEIRES de 2005 à 2007<br />
(plate-forme d’évaluation d’approche de reconnaissance <strong>et</strong> localisation<br />
de symboles) (15 ke) ;<br />
– correspondant scientifique du LITIS avec la société Algo-tech informatique<br />
dans le cadre d’un stage de Master Recherche en 2006 ;
tel-00671168, version 1 - 8 Oct 2012<br />
1.2. Résumé des activités 11<br />
– responsable scientifique <strong>et</strong> administratif d’une convention CORTECH<br />
avec la PME haut-normande ITS-IAE en 2008 (3 ke) ;<br />
– co-responsable scientifique <strong>et</strong> administratif de trois conventions de recherche<br />
accompagnant les thèses CIFRE de G. Dupont, N. Martin <strong>et</strong> A.<br />
Saint Réquier avec la société CASSIDIAN 1 ;<br />
1.2.2 Résumé des activités d’enseignement<br />
Filières concernées : j’interviens au sein du département de physique de<br />
l’Université de Rouen, dans les filières EEA (Électronique, Électrotechnique <strong>et</strong><br />
Automatique), GEII (Génie Électrique <strong>et</strong> Informatique Industrielle) <strong>et</strong> STIM<br />
(Système de Traitement des Informations <strong>Multi</strong>média), de la première année<br />
de licence jusqu’à la seconde année de master.<br />
Matières enseignées : j’assure des cours, TD <strong>et</strong>/ou TP en traitement<br />
numérique de l’information, programmation C, génie informatique, microprocesseurs,<br />
programmation système, systèmes d’exploitation, outils pour le traitement<br />
du signal, traitement numérique du signal, filtrage numérique, reconnaissance<br />
de formes, traitement d’images, optimisation.<br />
1.2.3 Résumé des activités administratives<br />
Responsabilités pédagogiques :<br />
– Responsable pédagogique <strong>et</strong> président de jury de la troisème année de<br />
licence (ex IUP-2) Génie Électrique <strong>et</strong> Informatique Industrielle (GEII)<br />
de 2002 à 2005 (environ 45 étudiants).<br />
– Responsable pédagogique <strong>et</strong> président de jury de la première année du<br />
master Informatique, Génie de l’Information <strong>et</strong> des Systèmes (IGIS),<br />
spécialité Génie Électrique <strong>et</strong> Informatique Industrielle (GEII) depuis<br />
2006 (environ 25 étudiants).<br />
– Responsable de la gestion des proj<strong>et</strong>s étudiants (Travaux d’Etude <strong>et</strong> de<br />
Recherche) des différentes années de EEA/GEII/STIM (L3, M1, M2)<br />
depuis 2007 (environ 75 étudiants).<br />
Responsabilités électives :<br />
– Membre nommé du conseil de département de physique de l’UFR depuis<br />
2008.<br />
– Membre élu de la commission de spécialistes de l’Université de Rouen<br />
(61ème section <strong>et</strong> 27/61ème section - vice-président) de 2004 à 2008.<br />
– Membre nommé des commissions de spécialistes de l’INSA de Rouen<br />
(27-61-63ème sections) de 2006 à 2008.<br />
– Membre nommé d’un comité de sélection 61ème section de l’Université<br />
de Rouen en 2009.<br />
1. CASSIDIAN est le nouveau nom de EADS Defense and Security
tel-00671168, version 1 - 8 Oct 2012<br />
12 Chapitre 1. Synthèse de mes activités<br />
1.3 Activités de recherche<br />
1.3.1 Contexte des travaux<br />
Les travaux présentés dans ce mémoire se sont successivement déroulés au<br />
sein du laboratoire Perception Systèmes <strong>et</strong> Information (PSI) de l’Université<br />
de Rouen, puis au Laboratoire d’Informatique, du Traitement de l’Information<br />
<strong>et</strong> des Systèmes (LITIS) qui est né de la fusion du PSI avec les laboratoires<br />
d’informatique des Universités de Rouen <strong>et</strong> du Havre. Ce laboratoire est ainsi<br />
devenu l’unité de recherche haut-normande dans le domaine des Sciences <strong>et</strong><br />
Technologies de l’Information <strong>et</strong> de la Communication (STIC). Il implique les<br />
trois principaux établissements d’enseignement supérieur de la région : l’Université<br />
de Rouen, l’Université du Havre <strong>et</strong> l’Institut National des Sciences<br />
Appliquées (INSA) de Rouen. Le laboratoire développe des démarches cohérentes<br />
pour mieux comprendre <strong>et</strong> maîtriser la nature de « l’information » <strong>et</strong><br />
son utilisation contextuelle. Les recherches portent à la fois sur des aspects<br />
théoriques, algorithmiques <strong>et</strong> sur la mise en œuvre de systèmes sensibles au<br />
contexte, allant du capteur à la base de données.<br />
Le LITIS structure ses recherches autour de trois axes regroupant sept<br />
équipes de recherche : l’axe « Combinatoire <strong>et</strong> algorithmes » qui aborde les<br />
aspects formels de l’information dans l’équipe du même nom ; l’axe « Traitement<br />
des masses de données » qui associe les quatre équipes « Document <strong>et</strong><br />
apprentissage », « Traitement de l’information en biologie santé », « Quantif »<br />
<strong>et</strong> « Systèmes de transport intelligents » ; <strong>et</strong> enfin l’axe « Interaction <strong>et</strong> systèmes<br />
complexes » composé des deux équipes « Modélisation, interactions <strong>et</strong><br />
usages » <strong>et</strong> « Réseaux d’interactions <strong>et</strong> intelligence collective ». La démarche<br />
du LITIS est résolument pluridisciplinaire, associant praticiens <strong>et</strong> théoriciens à<br />
la confluence de l’informatique, de la reconnaissance des formes, du traitement<br />
du signal <strong>et</strong> des images, de la médecine <strong>et</strong> des mathématiques, tous associés<br />
dans de nombreux proj<strong>et</strong>s.<br />
Mes activités de recherche s’intègrent dans l’équipe "Document <strong>et</strong> Apprentissage"<br />
(DocApp), composée de 18 enseignants-chercheurs (10 MCF, 2 MCF<br />
HDR <strong>et</strong> 6 PU) <strong>et</strong> d’une vingtaine de doctorants. L’équipe est localisée sur<br />
le campus du Madrill<strong>et</strong> (INSA <strong>et</strong> Université de Rouen) <strong>et</strong> intégrée à l’axe<br />
"Traitement des Masses de Données". Les recherches menées dans DocApp<br />
concernent le développement d’outils <strong>et</strong> de méthodes génériques perm<strong>et</strong>tant<br />
d’interpréter des données variées de par leur structure, leur dimensionnalité,<br />
leur stationnarité <strong>et</strong> issues de contextes hétérogènes (signaux, images, textes,<br />
web). Ces travaux sont abordés essentiellement sous l’angle de l’apprentissage<br />
à partir d’exemples <strong>et</strong> de connaissances a priori dans le cadre structurant de<br />
la reconnaissance de formes. Les compétences développées dans l’équipe sont<br />
essentiellement de nature théoriques <strong>et</strong> algorithmiques, <strong>et</strong> concernent les machines<br />
à noyaux (SVM, Kernel PCA, apprentissage de noyaux multiples), les<br />
modèles markoviens (HMM multi-streams, champs aléatoires, CRF), l’analyse<br />
de graphes (mise en correspondance de graphes, recherche d’isomorphismes de<br />
sous-graphes, classification de graphes) <strong>et</strong> la sélection de modèles (analyse des<br />
risques d’estimateurs, apprentissage avec coûts inconnus ou évolutifs, réglage<br />
d’hyper-paramètres dans le cadre des méthodes d’ensemble). Les domaines
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 13<br />
dans lesquels ces travaux trouvent leurs applications sont principalement le<br />
traitement automatique de l’écrit <strong>et</strong> des images de documents (reconnaissance<br />
de l’écriture manuscrite, spotting de mots <strong>et</strong> de symboles, extraction d’information,<br />
analyse de documents manuscrits complexes, bibliothèques numériques) ;<br />
mais aussi le traitement du signal (diagnostic, supervision, interface cerveaumachine),<br />
le traitement d’images médicales (classification d’images, segmentation)<br />
<strong>et</strong> la recherche d’information sur Intern<strong>et</strong>.<br />
1.3.2 Parcours de recherche<br />
Soutenue en décembre 2001, ma thèse de doctorat [81] 2 traitait de la<br />
problématique de l’interprétation de documents graphiques, appliquée aux<br />
plans de réseau de l’opérateur téléphonique France Telecom. Deux contributions<br />
principales furent proposées dans c<strong>et</strong>te thèse. La première concernait<br />
la réalisation d’un système d’interprétation de documents à base de connaissances.<br />
Elle s’est concrétisée par la mise en œuvre d’un système orienté multiagents<br />
nommé NATALI [75, 76, 72, 71, 45, 43], dont l’architecture s’adaptait<br />
en fonction d’une description explicite du modèle de document à traiter.<br />
La seconde concernait la reconnaissance de caractères <strong>et</strong> de symboles multiorientés<br />
<strong>et</strong> multi-échelles par l’utilisation de la transformée de Fourier-Mellin<br />
[10, 70, 73, 74, 18, 29, 50, 49, 46, 8, 7, 14].<br />
Lors de mon recrutement en tant qu’ATER, puis en tant que Maître de<br />
Conférences au PSI en septembre 2002, mes travaux se sont dans un premier<br />
temps inscrits dans la poursuite de ces axes de recherche.<br />
Le premier axe a été poursuivi dans le cadre du proj<strong>et</strong> DOCMINING,<br />
supporté de 2002 à 2003 par le Réseau National des Technologies Logicielles<br />
(RNTL), au sein d’un consortium réunissant France Telecom R&D de Lannion,<br />
le LORIA de Nancy, le L3I de La Rochelle <strong>et</strong> l’équipe de Rolf Ingold à<br />
Fribourg. Ce proj<strong>et</strong> visait la réalisation d’une plate-forme d’acquisition de documents<br />
hétérogènes, adaptant la chaîne de traitement déclenchée au contenu<br />
du document. Ce proj<strong>et</strong> a conduit à la réalisation d’une plate-forme logicielle<br />
basée sur des logiciels libres <strong>et</strong> décrite dans [27, 67]. Sur ce thème de recherche,<br />
j’ai également été amené à travailler avec Eric Trupin <strong>et</strong> Jacques Labiche dans<br />
le cadre de la thèse de Youssouf Saidali sur des aspects liés à la représentation<br />
des connaissances [13].<br />
La poursuite du second axe, orientée reconnaissance de formes, s’est traduite<br />
par la mise en place, en 2003, des thèses d’Eugen Barbu <strong>et</strong> d’Hervé<br />
Locteau, tous deux allocataires de recherche. La thèse d’Eugen Barbu [80],<br />
co-encadrée avec Pierre Héroux <strong>et</strong> Éric Trupin, concernait l’application de<br />
techniques de fouille de données <strong>et</strong> d’apprentissage au domaine de l’analyse de<br />
documents graphiques. En réexploitant certaines propositions effectuées dans<br />
ma thèse pour représenter les symboles par des modèles statistico-structurels,<br />
le principal objectif était de rendre générique <strong>et</strong> apprenant un système de reconnaissance<br />
de symboles en conférant au système des capacités à extraire<br />
de façon non supervisée le dictionnaire des symboles présents dans les documents.<br />
Ceci nous a ensuite amené, à des fins de catégorisation de documents,<br />
2. Réalisée en convention CIFRE entre le laboratoire PSI <strong>et</strong> France Telecom Recherche<br />
<strong>et</strong> Développement Belfort puis Lannion
tel-00671168, version 1 - 8 Oct 2012<br />
14 Chapitre 1. Synthèse de mes activités<br />
à poursuivre des travaux que j’avais initiés dans le cadre du stage de Master<br />
Recherche de Romain Raveaux concernant la classification de graphes par apprentissage<br />
de prototypes [1]. Ces travaux se poursuivent encore aujourd’hui,<br />
en collaboration avec Pierre Héroux.<br />
La thèse d’Hervé Locteau [79], co-encadrée avec Jacques Labiche <strong>et</strong> Eric<br />
Trupin, abordait quant à elle la problématique de la localisation de symboles<br />
dans des documents graphiques. Un tel problème dépasse le cadre déjà complexe<br />
de la reconnaissance de symboles isolés en y ajoutant une problématique<br />
de segmentation. Les résultats obtenus dans la thèse ont montré la pertinence<br />
des choix de modélisation r<strong>et</strong>enus, mais ont également mis en exergue la nécessité<br />
de développer des travaux sur la recherche d’isomorphismes inexacts<br />
de sous-graphes pour localiser des symboles. Ces conclusions ont donné lieu<br />
à des travaux fondamentaux dans ce domaine, initiés par le stage de Master<br />
Recherche de Pierre Le Bodic sur l’utilisation de la programmation linéaire en<br />
nombres entiers pour la recherche d’isomorphismes tolérants aux erreurs d’étiqu<strong>et</strong>age.<br />
Par ailleurs, la thèse d’Hervé Locteau a également permis d’initier, en<br />
collaboration avec Yves Lecourtier, des premiers travaux reposant sur l’utilisation<br />
d’algorithmes d’optimisation multiobjectif pour l’analyse de documents,<br />
<strong>et</strong> plus particulièrement pour l’approximation de courbes [25].<br />
Ces travaux concernant l’utilisation du formalisme de l’optimisation multiobjectif<br />
ont ensuite été poursuivis suivant deux axes. Un axe était orienté<br />
applicatif, dans le cadre d’une collaboration avec Clément Chatelain à la fin de<br />
sa thèse, <strong>et</strong> lors du stage de Master Recherche de Yannick Oufella. Les travaux<br />
menés dans ce cadre visaient la proposition d’un environnement d’apprentissage<br />
de classifieurs reposant non pas sur l’optimisation d’un critère unique, mais<br />
sur un formalisme multiobjectif prenant en considération les deux critères de<br />
l’espace ROC [2]. L’autre axe était plus fondamental, dans le cadre du stage<br />
de Master Recherche de Gérard Dupont. Il a consisté à proposer un nouvel<br />
algorithme d’optimisation multiobjectif reposant sur les essaims particulaires<br />
[4].<br />
À la suite de ces travaux, avec Yves Lecourtier, nous avons été à l’origine de<br />
la mise en place d’une collaboration sur le long terme entre le LITIS <strong>et</strong> le département<br />
IPCC (Information Processing Comp<strong>et</strong>ence Center) de CASSIDIAN.<br />
C<strong>et</strong>te collaboration s’est d’abord concrétisée par la thèse CIFRE de Gérard Dupont<br />
(co-encadrée avec Yves Lecourtier), soutenue en juill<strong>et</strong> 2011 [77], puis par<br />
celles de Nicolas Martin (co-encadrée avec Thierry Paqu<strong>et</strong>) qui sera soutenue<br />
en 2012 <strong>et</strong> d’Aurélien Saint Réquier (co-encadrée avec Yves Lecourtier) dont<br />
la soutenance est prévue en 2013. Dans chacune de ces thèses, nous apportons<br />
nos compétences <strong>et</strong> proposons des contributions dans les domaines de l’apprentissage<br />
<strong>et</strong> de l’optimisation en relation avec les problématiques d’IPCC dans<br />
le domaine de la recherche d’information. Plus récemment, ces échanges avec<br />
CASSIDIAN se sont concrétisés par un proj<strong>et</strong> de grande envergure concernant<br />
l’analyse de performances de chaînes d’analyse de document. Il a débuté en<br />
juin 2011 <strong>et</strong> le LITIS est chargé, sous l’impulsion de Thierry Paqu<strong>et</strong>, Clément<br />
Chatelain <strong>et</strong> moi-même, d’en assurer l’expertise scientifique. Pour le LITIS, une<br />
équipe composée d’un doctorant, de deux post-doctorants <strong>et</strong> d’un ingénieur de
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 15<br />
recherche, a été constituée pour contribuer à la réussite de ce proj<strong>et</strong> 3 .<br />
En parallèle de ces travaux, je me suis également intéressé à des aspects plus<br />
fondamentaux de l’apprentissage, en abordant la problématique de construction<br />
d’ensembles de classifieurs dans le cadre de la thèse de Simon Bernard [78],<br />
que nous avons co-encadrée avec Laurent Heutte. Dans c<strong>et</strong>te thèse, nous avons<br />
proposé plusieurs améliorations de l’algorithme d’induction de forêts aléatoires<br />
initialement conçu par Léo Breiman. En particulier, la thèse a permis la mise<br />
en œuvre d’un nouvel algorithme d’induction dynamique qui s’est révélé particulièrement<br />
compétitif par rapport aux approches de la littérature. Nous avons<br />
également dans ce cadre mis en place une collaboration avec Pierre Geurst, de<br />
l’Université de Liège, où Simon Bernard a débuté un post-doctorat à compter<br />
de semptembre 2011.<br />
De c<strong>et</strong>te présentation synthétique, il ressort que l’ensemble de mes travaux<br />
sont à l’intersection de deux domaines de recherche que sont les représentations<br />
structurelles <strong>et</strong> l’optimisation multiobjectif, avec deux applications principales<br />
liées à l’analyse de document <strong>et</strong> la recherche d’information. La sous-section<br />
suivante dresse un bilan des contributions que nous avons proposées dans ces<br />
domaines. Les principales seront développées dans la seconde partie de ce manuscrit.<br />
1.3.3 Contributions<br />
C<strong>et</strong>te sous-section dresse une synthèse des principales contributions de mes<br />
travaux de recherche. Elles sont réparties suivant trois axes. Le premier axe regroupe<br />
les travaux liés aux recherches menées sur les représentations à base de<br />
graphes, que ce soit au niveau fondamental ou au niveau applicatif. Le second<br />
axe concerne des travaux liés à l’optimisation multiobjectif <strong>et</strong> plus particulièrement<br />
à l’apport de ces approches au domaine de l’analyse de documents.<br />
Le dernier axe est lié aux travaux, plus récents, menés dans le domaine de la<br />
personnalisation de la recherche d’information.<br />
1.3.3.1 Représentations à base de graphes<br />
Représentations structurelles pour la localisation <strong>et</strong> l’indexation de<br />
symboles Ces travaux constituent une suite naturelle de mes travaux de<br />
thèse. Ils ont été menés dans le cadre des thèses d’Hervé Locteau [79] <strong>et</strong> d’Eugen<br />
Barbu [80]. Les propositions faites dans ces travaux partent du constat que si<br />
une extraction de caractéristiques à partir d’images de symboles associée à une<br />
classification statistique offrent généralement un bon pouvoir discriminant pour<br />
reconnaître des obj<strong>et</strong>s isolés, une telle stratégie nécessite d’avoir au préalable<br />
résolu le problème de la segmentation de l’obj<strong>et</strong> à reconnaître.<br />
Dans la thèse d’Hervé Locteau, nous avons abordé la problématique de la<br />
localisation de symboles dans des documents compl<strong>et</strong>s en nous appuyant sur<br />
une approche statistico-structurelle. Nous avons proposé deux chaînes de traitement<br />
complémentaires perm<strong>et</strong>tant d’extraire de manière robuste des graphes<br />
pour représenter des symboles. Avec une telle modélisation, la détection des<br />
3. Ce proj<strong>et</strong> ayant des aspects confidentiels, je ne peux pas le développer davantage
tel-00671168, version 1 - 8 Oct 2012<br />
16 Chapitre 1. Synthèse de mes activités<br />
symboles devient alors un problème de recherche d’isomorphismes de sousgraphes,<br />
dont le but est de trouver les occurrences d’un graphe modèle, appartenant<br />
à un alphab<strong>et</strong> de symboles, dans un graphe cible représentant un<br />
document compl<strong>et</strong>. C<strong>et</strong>te tâche de recherche d’appariement était effectuée par<br />
un algorithme de la littérature. Les modèles ont été évalués sur des bases de<br />
données de référence, issues des travaux du proj<strong>et</strong> EPEIRES auxquels j’ai participé<br />
[5], <strong>et</strong> distribuées lors des conférences Graphic RECognition (GREC)<br />
pour des concours de reconnaissance. Les résultats obtenus ont montré la validité<br />
des approches proposées [40, 64, 34]. Ils ont également mis en exergue<br />
la nécessité de développer de nouveaux algorithmes d’isomorphismes de sousgraphes<br />
autorisant une modification des étiqu<strong>et</strong>tes des nœuds <strong>et</strong> des arcs, ce<br />
qui a donné lieu aux travaux menés avec Pierre Le Bodic décrits ci-après.<br />
Les propositions de la thèse d’Eugen Barbu [80] s’appuient également sur<br />
une modélisation statistico-structurelle, mais dans le contexte de l’indexation<br />
<strong>et</strong> de la classification de documents. Dans ce cadre, nous avons proposé un<br />
algorithme perm<strong>et</strong>tant d’extraire sans connaissance a priori un dictionnaire<br />
des symboles présents dans une collection de documents, par l’intermédiaire<br />
d’algorithmes de recherche de sous-graphes fréquents issus de la communauté<br />
de la fouille de données [6, 17, 37, 36, 26, 38, 65, 66]. Les symboles détectés<br />
sont ensuite utilisés pour représenter les documents sous la forme de sacs de<br />
symboles, à des fins d’indexation ou de classification. Les résultats obtenus<br />
pour différents cas d’usage ont montré la pertinence d’une telle description <strong>et</strong><br />
indiquent ainsi que les symboles découverts automatiquement fournissent des<br />
caractéristiques intermédiaires intéressantes pour catégoriser des documents.<br />
Classification de graphes Ces travaux ont été initiés lors du stage de Master<br />
Recherche de Romain Raveaux, puis poursuivis dans le cadre de la thèse<br />
d’Eugen Barbu, <strong>et</strong> enfin, du stage de Master Recherche d’Arnaud Levallois.<br />
Le problème abordé dans le cadre de ces travaux était celui de la classification<br />
supervisée de graphes. Nous avons proposé pour cela d’utiliser la règle des<br />
k plus proches voisins, mais appliquée à un ensemble de graphes prototypes<br />
qu’un algorithme d’apprentissage perm<strong>et</strong> de générer, ceci afin de réduire la<br />
complexité combinatoire de c<strong>et</strong>te règle. Quatre types de prototypes de graphes<br />
ont été proposés <strong>et</strong> comparés dans ce cadre : les graphes médians d’ensemble,<br />
les graphes médians généralisés, les graphes discriminants d’ensemble <strong>et</strong> les<br />
graphes discriminants généralisés. Ces différents types de prototypes diffèrent<br />
en fonction de (i) l’espace dans lequel ils sont recherchés <strong>et</strong> (ii) la fonction<br />
objectif qui est utilisée pour les calculer. Dans chacun des cas, la génération<br />
des prototypes est réalisée grâce à un algorithme génétique dédié. Une étude<br />
expérimentale menée sur différentes bases de données de graphes a permis de<br />
comparer l’efficacité des différents types de prototypes. Il en est ressorti une supériorité<br />
des prototypes discriminants, qui perm<strong>et</strong>tent d’obtenir de très bonnes<br />
performances en classification [1, 24, 35, 61, 59]. Les résultats ont été validés<br />
sur une application de reconnaissance de symboles.<br />
Isomorphismes de sous-graphes Ces travaux ont fait suite aux résultats<br />
obtenus dans le cadre de la thèse d’Hervé Locteau. Ils ont été initiés par le stage
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 17<br />
de Master Recherche de Pierre Le Bodic, en collaboration avec Arnaud Knippel<br />
du Laboratoire de Mathématiques de l’INSA (LMI) de Rouen, puis poursuivis<br />
dans le cadre du stage de Master Recherche de Jean-Noel Bilong. Le problème<br />
abordé dans ces travaux était celui de la recherche d’isomorphismes de sousgraphes<br />
tolérants aux substitutions d’étiqu<strong>et</strong>tes. Un tel problème consiste à<br />
chercher dans un graphe cible les occurrences d’un graphe modèle, en tolérant<br />
que les étiqu<strong>et</strong>tes (qui peuvent être numériques, voire vectorielles) des<br />
deux graphes diffèrent, ce qui perm<strong>et</strong> de tolérer le bruit généré par des extracteurs<br />
de caractéristiques. L’approche perm<strong>et</strong> ainsi d’aborder des problèmes<br />
que les approches de la littérature ne peuvent pas naturellement traiter. L’approche<br />
proposée repose sur une formulation du problème sous la forme d’un<br />
programme linéaire en nombres entiers. En utilisant un solveur dédié à la résolution<br />
de telles formulations, le système proposé est capable d’extraire toutes<br />
les occurrences du graphe modèle dans le graphe cible avec une garantie d’optimalité<br />
quant au coût d’édition des étiqu<strong>et</strong>tes. La technique proposée a été<br />
évaluée sur des ensembles de graphes synthétiques, <strong>et</strong> sur une application de<br />
localisation de symboles utilisant les modèles proposés dans la thèse d’Hervé<br />
Locteau. Les résultats obtenus ont montré l’intérêt de considérer le problème<br />
abordé comme un problème d’optimisation [52, 56, 20].<br />
1.3.3.2 <strong>Optimisation</strong> multiobjectif <strong>et</strong> reconnaissance de formes<br />
<strong>Optimisation</strong> multiobjectif pour l’approximation de courbes planaires<br />
Ces travaux ont été initiés dans le cadre de la thèse d’Hervé Locteau [79]. Ils<br />
visaient à appliquer le paradigme de l’optimisation multiobjectif dans le cadre<br />
de l’approximation de courbes planaires par des segments <strong>et</strong>/ou des arcs de<br />
cercles. Il s’agit d’une étape importante pour la reconnaissance de formes <strong>et</strong><br />
le traitement d’images visant à fournir une description compacte, par exemple<br />
pour caractériser les formes en vue de leur reconnaissance. Dans ce cadre, nous<br />
avons proposé d’aborder le problème sous l’angle original de l’optimisation<br />
multiobjectif. Ainsi, plutôt que fixer un nombre de points d’approximation <strong>et</strong><br />
chercher à minimiser une mesure d’erreur, ou inversement se fixer une erreur<br />
maximale <strong>et</strong> chercher à minimiser le nombre de points, nous avons proposé un<br />
algorithme qui recherche en une seule exécution l’ensemble des solutions Par<strong>et</strong>o<br />
optimales au sens des deux critères. En proposant un ensemble de solutions<br />
potentielles, l’utilisateur, ou une étape ultérieure de traitement du document,<br />
peut alors sélectionner la solution la plus pertinente au regard du cas d’usage.<br />
Les résultats obtenus ont montré que l’approche proposée perm<strong>et</strong>tait d’obtenir<br />
en une seule exécution un ensemble de solutions comparables à celles obtenues<br />
par les approches de la littérature qui fixent le nombre de points d’approximation<br />
[63, 25, 39].<br />
Selection de modèles <strong>et</strong> Front ROC Ces travaux ont été initiés dans<br />
le cadre de la thèse de Clément Chatelain, encadrée par Laurent Heutte <strong>et</strong><br />
Thierry Paqu<strong>et</strong>. À la suite des travaux réalisés avec Hervé Locteau, j’ai en eff<strong>et</strong><br />
été amené à collaborer avec Clément Chatelain lors de sa dernière année de<br />
thèse à un proj<strong>et</strong> lié à l’optimisation multiobjectif. La problématique abordée<br />
dans ces travaux concernait l’apprentissage de classifieurs dans des environne
tel-00671168, version 1 - 8 Oct 2012<br />
18 Chapitre 1. Synthèse de mes activités<br />
ments mal définis, pour lesquels les effectifs des classes sont déséquilibrés <strong>et</strong><br />
les coûts de mauvaise classification sont inconnus. Il s’agit d’un contexte très<br />
fréquent dans les applications du monde réel, typiquement dans le domaine<br />
de la médecine pour lequel les exemples d’apprentissage de cas pathologiques<br />
sont rares, mais particulièrement critiques. Dans ce contexte, il est bien connu<br />
qu’un unique critère d’apprentissage ne perm<strong>et</strong> pas de construire un classifieur<br />
adapté à toutes les situations. Nous avons dans ce cadre proposé un environnement<br />
d’apprentissage reposant sur l’optimisation de critères multiples. L’approche<br />
proposée perm<strong>et</strong> ainsi d’entrainer un ensemble de classifieurs plutôt<br />
qu’un unique, chaque classifieur de l’ensemble optimisant un compromis particulier<br />
entre les objectifs de l’espace ROC. Nous avons dans ce travail introduit<br />
la notion de Front-ROC comme alternative à la courbe ROC, en y intégrant<br />
la notion d’optimalité. La stratégie générique proposée, qui peut s’appliquer<br />
à tout type de classifieur hyperparamétrique, a été dans ces travaux testée<br />
pour la sélection de modèles multiples de classifieurs SVM en utilisant un algorithme<br />
évolutionnaire. L’approche a été validée sur des bases de l’UCI <strong>et</strong> sur<br />
un problème applicatif de reconnaissance de l’écriture manuscrite. Les résultats<br />
obtenus ont été comparés favorablement à ceux qu’une approche basée sur<br />
l’optimisation de l’aire sous la courbe ROC perm<strong>et</strong> d’obtenir [22, 57, 2, 3].<br />
Sélection de modèle <strong>et</strong> induction dynamique de forêts aléatoires Ces<br />
travaux ont été initiés dans le cadre de la thèse de Simon Bernard, avec également<br />
des contributions apportées par les stages de Master Recherche de Émilie<br />
Oliveira, Yasser Alwan <strong>et</strong> Nhat Quang Doan. La problématique abordée dans<br />
ces travaux est celle de l’amélioration des algorithmes de forêts aléatoires, qui<br />
sont des ensembles de classifieurs à base d’arbres de décision dans lesquels est<br />
injectée une part d’aléatoire. Nous nous sommes d’abord intéressés dans c<strong>et</strong>te<br />
thèse à la problèmatique de la sélection de modèles pour ces algorithmes, en<br />
analysant l’influence des deux hyperparamètres essentiels dans l’induction de<br />
forêts : le nombre de caractéristiques choisies aléatoirement à chaque nœud <strong>et</strong><br />
le nombre d’arbres induits. Nous avons dans ce cadre montré que la valeur du<br />
premier hyperparamètre doit être choisie en fonction des propriétés de l’espace<br />
de description. Nous avons donc proposé un nouvel algorithme nommé Forest-<br />
RK qui adapte sa valeur en fonction du problème traité [54, 55, 31, 30, 32].<br />
La seconde contribution de c<strong>et</strong>te thèse a été de proposer un algorithme d’induction<br />
dynamique de forêts aléatoires, qui tient compte lors de l’induction<br />
de nouveaux arbres de la forêt préalablement construite [58, 19]. L’algorithme<br />
proposé s’est montré particulièrement performant en comparaison avec les procédures<br />
d’induction statique.<br />
<strong>Optimisation</strong> multiobjectif par essaims particulaires Ces travaux ont<br />
été initiés lors du stage de Master Recherche de Gérard Dupont <strong>et</strong> poursuivis<br />
ensuite en filigrane pendant sa thèse. Le problème abordé dans ces travaux<br />
consistait à exploiter le formalisme des essaims particulaires dans le cadre de<br />
l’optimisation multiobjectif. Pour ce faire, nous avons proposé deux contributions<br />
liées à la transformation de l’algorithme des essaims particulaires proposé<br />
par Kennedy, Eberhart <strong>et</strong> Shi pour que celui-ci puisse appréhender des pro
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 19<br />
blèmes à objectifs multiples. La première contribution est relative à la gestion<br />
de l’archive contenant les solutions optimales courantes. Elle repose sur l’utilisation<br />
d’une variante de la méthode de l’ɛ-dominance. La seconde concerne<br />
le problème de la sélection de la particule "guide" qui doit être totalement<br />
revue dans un cadre multiobjectif. Ces contributions ont été validées sur des<br />
problèmes standard d’optimisation multiobjectif <strong>et</strong> sur le problème de sélection<br />
de modèles SVM évoqué ci-avant. Dans les deux cas, nous avons montré<br />
que l’algorithme proposé perm<strong>et</strong>tait d’obtenir des résultats comparables à ceux<br />
fournis par NSGA-II qui est, aujourd’hui, l’une des références dans le domaine<br />
de l’optimisation multiobjectif [60, 4].<br />
1.3.3.3 Personnalisation de la recherche d’information<br />
Ces travaux, en marge des précédents, ont été initiés dans le cadre de la<br />
thèse de Gérard Dupont [77], en collaboration avec CASSIDIAN. Ils ont constitué<br />
nos premières contributions à l’intersection des domaines de l’apprentissage,<br />
de l’optimisation <strong>et</strong> de la recherche d’information interactive. L’objectif<br />
de ces travaux était de créer le lien entre ces domaines par la mise en œuvre de<br />
principes d’apprentissage dans le but d’adapter les réponses d’un système de<br />
recherche d’information aux utilisateurs de celui-ci. Nous avons, dans ce cadre,<br />
proposé deux principales contributions. La première concerne la proposition<br />
d’un modèle de l’utilisateur prenant en compte ses interactions implicites de<br />
recherche avec le système (clic, navigation, impression, sign<strong>et</strong>s...). En exploitant<br />
ce modèle, nous avons proposé une approche d’apprentissage du besoin<br />
utilisateur, exploitée dans le cadre du r<strong>et</strong>our de pertinence. C<strong>et</strong>te proposition<br />
a été opérationnalisée dans un outil de suggestion de requêtes qui a été évalué<br />
<strong>et</strong> comparé aux approches de la littérature dans une première série d’expérimentations<br />
interactives de recherche. Les résultats obtenus ont mis en exergue<br />
la variabilité importante des performances de différentes approches en cours<br />
de session <strong>et</strong> en fonction des utilisateurs.<br />
Notre seconde contribution a donc consisté à introduire un cadre d’intégration<br />
dynamique optimisant le déclenchement d’outils d’aide à la recherche<br />
(suggestion de requête, de documents, filtrage...) au cours de sessions de recherche.<br />
Un algorithme d’apprentissage par renforcement perm<strong>et</strong> d’apprendre<br />
à sélectionner la bonne approche au bon moment. Implantée dans un système<br />
compl<strong>et</strong>, c<strong>et</strong>te proposition a pu être validée par des expérimentations interactives<br />
pour la sélection d’outils de suggestion de requêtes [51, 53]. Ces travaux<br />
sont actuellement poursuivis par ceux de la thèse CIFRE d’Aurélien Saint<br />
Réquier, avec CASSIDIAN, dont le but est de proposer un agent personnel<br />
d’assistance à la recherche d’information.<br />
1.3.4 Perspectives<br />
Les travaux mentionnés dans la sous-section précédente offrent tous des<br />
perspectives intéressantes qui sont pour certaines en cours d’investigation. La<br />
plupart de ces perspectives seront évoquées dans la seconde partie de ce mémoire.<br />
Dans c<strong>et</strong>te sous section, j’ai choisi de décrire les trois pistes que je considère<br />
comme prioritaires au regard des résultats prom<strong>et</strong>teurs qu’elles offrent, <strong>et</strong>
tel-00671168, version 1 - 8 Oct 2012<br />
20 Chapitre 1. Synthèse de mes activités<br />
de l’importance qu’elles revêtent, selon moi, pour la communauté scientifique<br />
concernée.<br />
Sélection de modèles <strong>et</strong> apprentissage multiobjectif Ces perspectives<br />
de recherche font suite aux travaux menés en collaboration avec Clément Chatelain<br />
concernant le développement d’un cadre multi-critères pour l’apprentissage<br />
automatique. Elles ont fait l’obj<strong>et</strong> d’une soumission nommée LeMOn<br />
(LEarning with <strong>Multi</strong>-objective OptimizatioN) lors de l’appel ANR Jeunes<br />
Chercheurs <strong>et</strong> Jeunes Chercheuses 2011 4 . Dans le cadre de c<strong>et</strong>te soumission,<br />
nous avons identifié deux aspects particuliers de l’apprentissage que nous souhaiterions<br />
aborder sous l’angle de l’optimisation multiobjectif <strong>et</strong> qui sont, naturellement,<br />
des perspectives pour mes recherches à venir.<br />
Le premier aspect concerne l’exploitation de l’espace ROC lors de l’apprentissage<br />
des classifieurs. Dans [2], nous avons proposé un environnement de<br />
sélection de modèles basé sur une approche d’optimisation multiobjectif. C<strong>et</strong><br />
environnement perm<strong>et</strong> de construire un ensemble de classifieurs à deux classes<br />
localement optimaux dans l’espace ROC, plutôt qu’un unique basé sur un critère<br />
scalaire. Les perspectives ouvertes par ce travail concernent deux axes. Le<br />
premier est le passage à l’échelle afin d’appréhender de très grands volumes<br />
de données, par l’intermédiaire d’un apprentissage en ligne. Le second axe est<br />
la généralisation de l’approche proposée à des problèmes multi-classes, pour<br />
lesquels le nombre de critères croît rapidement avec le nombre de classes.<br />
Le second aspect de l’apprentissage que nous envisageons d’aborder sous<br />
l’angle de l’optimisation multiobjectif est celui de l’apprentissage multi-tâches,<br />
qui consiste à apprendre simultanément plusieurs modèles par des transferts de<br />
connaissances d’un modèle vers l’autre. Là encore, nous pensons que l’angle de<br />
l’optimisation multiobjectif pourrait apporter des pistes intéressantes. Dans le<br />
proj<strong>et</strong> LeMOn, il est prévu d’appliquer ces différents travaux à deux domaines<br />
d’application : l’analyse d’images médicales, en collaboration avec l’équipe<br />
Quantif du LITIS ; <strong>et</strong> les interfaces cerveau-machine, en collaboration avec<br />
des chercheurs de l’équipe DocApp s’intéressant à c<strong>et</strong>te problématique.<br />
Isomorphismes de sous-graphes Ces perspectives de recherche font suite<br />
aux travaux menés avec Pierre Le Bodic concernant la recherche d’isomorphismes<br />
de sous-graphes, <strong>et</strong> à ceux concernant le cadre applicatif de la localisation<br />
de symboles menés dans le cadre des thèses d’Hervé Locteau <strong>et</strong> Eugen<br />
Barbu. Ces perspectives se déclinent suivant trois axes.<br />
Le premier axe est lié à l’application de localisation de symboles. Dans [1],<br />
nous avons identifié des verrous relatifs aux modèles utilisés pour la détection<br />
de symboles. L’un d’eux est lié au modèle à base de régions actuellement exploité<br />
qui ne perm<strong>et</strong> pas de distinguer certaines classes de symboles. L’une<br />
des perspectives pour dépasser ces limites consiste à enrichir le modèle orienté<br />
région par une description des symboles à partir de leur contour.<br />
Le second axe est quant à lui orienté vers l’utilisation de la programmation<br />
linéaire en nombres entiers. Les résultats présentés dans [20] ont en eff<strong>et</strong><br />
4. Le proj<strong>et</strong>, dont je suis le porteur, est actuellement sur liste complémentaire
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 21<br />
montré que les performances de l’approche proposée pour la recherche d’isomorphismes<br />
exacts étaient encore inférieures à l’état de l’art en termes de<br />
temps de traitement. C<strong>et</strong>te lacune pourrait être palliée à la fois en optimisant<br />
la formulation, mais aussi en tirant davantage parti des constantes améliorations<br />
des algorithmes de résolution proposés par les solveurs. Par ailleurs, nous<br />
travaillons également à la proposition d’une nouvelle formulation qui tolèrerait<br />
des modifications topologiques des graphes.<br />
Enfin, le dernier axe de recherche que je souhaite aborder dans ce cadre,<br />
étroitement lié aux deux précédents, est celui de l’évaluation des performances<br />
d’algorithmes de recherche d’isomorphismes de sous-graphes par la proposition<br />
d’une base de graphes réels, étiqu<strong>et</strong>és au niveau « application » pour comparer<br />
les algorithmes de recherche d’isomorphismes inexacts.<br />
Personnalisation en recherche d’information Ces perspectives de recherche<br />
entrent dans le cadre de la collaboration avec la société CASSIDIAN<br />
sur les problématiques de recherche d’information, <strong>et</strong> plus particulièrement sur<br />
celles de la personnalisation des outils de recherche pour placer l’utilisateur<br />
au cœur du processus de recherche. Elles font suite aux travaux menés dans<br />
le cadre de la thèse de Gérard Dupont <strong>et</strong> à ceux en cours dans le cadre de la<br />
thèse d’Aurélien Saint Réquier. Elles concernent deux aspects principaux.<br />
Le premier est lié à la modélisation de l’utilisateur <strong>et</strong> à l’élicitation de<br />
ses besoins d’information. Dans la thèse de Gérard Dupont, le modèle de besoin<br />
était construit à partir des interactions de l’utilisateur avec le système au<br />
cours d’une session de recherche. Si une telle analyse perm<strong>et</strong> de dépasser le<br />
cadre classique de l’analyse orientée requêtes, l’intégration d’un modèle à plus<br />
long terme (issu par exemple de documents fournis par l’utilisateur ou de ses<br />
sign<strong>et</strong>s) <strong>et</strong> sa combinaison avec le modèle court terme proposé dans la thèse<br />
de Gérard Dupont offrent des perspectives indéniables d’amélioration. C<strong>et</strong>te<br />
perspective est en cours d’investigation dans le cadre de la thèse d’Aurélien<br />
Saint-Réquier. Par ailleurs, une autre perspective d’amélioration de c<strong>et</strong>te modélisation<br />
repose sur le passage d’une représentation orientée « mots » à une<br />
représentation orientée « concepts » qui perm<strong>et</strong>trait d’aller vers un moteur de<br />
recherche d’information sémantique.<br />
Le second aspect concerne le cadre d’intégration dynamique proposé dans<br />
la thèse de Gérard Dupont. Là aussi, de nombreuses perspectives sont envisageables.<br />
À court terme, nous envisageons d’enrichir la plage d’actions à<br />
disposition de l’algorithme d’apprentissage par renforcement, pour multiplier<br />
les possibilités d’adaptation du système global. Au-delà des actions, la détermination<br />
des états peut également être améliorée. Actuellement, les états sont<br />
issus d’une segmentation effectuée par un algorithme de partitionnement pour<br />
lequel il est nécessaire de fixer le nombre d’états. Plusieurs approches alternatives<br />
pourraient être testées, comme celle par exemple consistant à s’appuyer<br />
sur une classification supervisée reposant sur une définition manuelle de<br />
micro-tâches de comportements issue de travaux en analyse du comportement.<br />
Il serait alors nécessaire d’adapter les algorithmes d’apprentissage des MDP<br />
(Markov Decision Process) pour y intégrer une notion d’incertitude (via les<br />
Partially Observable Markov Decision Process) <strong>et</strong>/ou une notion de hiérarchie
tel-00671168, version 1 - 8 Oct 2012<br />
22 Chapitre 1. Synthèse de mes activités<br />
(via les Hierarchical Markov Decision Process). Par ailleurs, en lien avec les travaux<br />
mentionnés ci-dessus, des études complémentaires pourraient être menées<br />
quant à la mise en compétition de différents modèles d’apprentissage, passant<br />
ainsi d’un MDP mono-objectif à un MDP multiobjectif qui aurait pour finalité<br />
de maximiser un vecteur de récompense au lieu d’une récompense scalaire<br />
classique.<br />
1.3.5 Encadrement doctoral<br />
1.3.5.1 Encadrement de thèses soutenues<br />
– Co-encadrement scientifique (25% avec P. Héroux <strong>et</strong> E. Trupin) de la<br />
thèse d’Eugen Barbu (Bourse MESR, 2003-2006)<br />
– Soutenue le 14/06/2006<br />
– Titre : Fouille <strong>et</strong> classification de graphes : application à la reconnaissance<br />
de symboles dans les documents graphiques<br />
– Jury : R. Ingold (rapporteur), R. Mullot (rapporteur), J. Llados, J.Y.<br />
Ramel, P. Héroux, E. Trupin<br />
– Publications associées :[23, 33, 24, 26, 38, 37, 62, 61, 65, 66, 6, 17]<br />
– Co-encadrement scientifique (50% avec J. Labiche <strong>et</strong> E. Trupin) de la<br />
thèse d’Hervé Locteau (Bourse MESR, 2003-2008)<br />
– Soutenance le 27/10/2008<br />
– Titre : Contributions à la localisation de symboles dans les documents<br />
graphiques<br />
– Jury : J.Y. Ramel (rapporteur), J.M. Ogier (rapporteur), A. Tabbone,<br />
J. Labiche, E. Trupin, S. Adam<br />
– Publications associées : [33, 25, 24, 39, 40, 34, 61, 64, 63, 68]<br />
– Co-encadrement scientifique (50% avec L. Heutte) de la thèse de Simon<br />
Bernard (Bourse MESR, 2006-2009)<br />
– Soutenue le 02/12/2009<br />
– Titre : Forêts Aléatoires : De l’analyse des mécanismes de fonctionnement<br />
à la construction dynamique<br />
– Jury : Y. Grandval<strong>et</strong> (rapporteur), T. Artière (rapporteur), L. Wehenkel,<br />
M. Sebban, L. Heutte, S. Adam<br />
– Publications associées : [54, 58, 55, 19, 31, 21, 31]<br />
– Co-encadrement scientifique (50% avec Y. Lecourtier) de la thèse de Gérard<br />
Dupont (Bourse CIFRE, 2006-2011)<br />
– Soutenue le 04/07/2011<br />
– Titre : Apprentissage implicite pour la recherche d’information<br />
– Jury : T. Artières (rapporteur), M. Boughanem (rapporteur), N. Vincent,<br />
S. Brunessaux, Y. Lecourtier, S. Adam<br />
– Publications associées : [60, 4, 53]<br />
1.3.5.2 Encadrement de thèses en cours<br />
– Co-encadrement (50% avec T. Paqu<strong>et</strong>) de la thèse de Nicolas Martin<br />
(Bourse CIFRE EADS, 2009-2012)
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 23<br />
– Soutenance prévue en 2012<br />
– Titre : Recherche <strong>et</strong> collecte d’informations sur les individus en sources<br />
ouvertes<br />
– Co-encadrement (50% avec Y. Lecourtier) de la thèse de Aurélien Saint<br />
Réquier (Bourse CIFRE EADS, 2010-2013).<br />
– Soutenance prévue en 2013<br />
– Titre : Agent Personnel d’Aide à la Recherche d’Information<br />
– Publication associée : [53]<br />
1.3.5.3 Encadrement de stages de DEA <strong>et</strong> de Master Recherche<br />
– Co-encadrement (50% avec Y. Lecourtier) du Master Recherche de S.<br />
Cognard. Co-évolution <strong>et</strong> reconnaissance de formes. 2005.<br />
– Co-Encadrement (50% avec P. Héroux) du Master Recherche de R. Raveaux.<br />
Reconnaissance de symboles à partir de schémas électriques. 2006.<br />
– Co-encadrement (50% avec Y. Lecourtier) du Master Recherche de G.<br />
Dupont. Annotation sémantique <strong>et</strong> apprentissage implicite : vers une recherche<br />
d’information intelligente. 2006.<br />
– Co-encadrement (50% avec L. Heutte) du Master Recherche de E. Oliveira.<br />
Construction dynamique de forêts aléatoires. 2008.<br />
– Co-encadrement (50% avec Y. Lecourtier) du Master Recherche de P. Le<br />
Bodic. Isomorphisme inexact de sous-graphes. 2008.<br />
– Co-encadrement (50% avec L. Heutte) du Master Recherche de Y. Oufella.<br />
<strong>Optimisation</strong> multiobjectif <strong>et</strong> apprentissage. 2008.<br />
– Co-encadrement (50% avec C. Lecomte) du Master Recherche de Nicolas<br />
Martin. Extraction <strong>et</strong> recherche de concepts dans des images. 2008.<br />
– Co-encadrement (50% avec L. Heutte) du Master Recherche de Y. Alwan.<br />
Classification One-Class avec les Forêts Aléatoires. 2008.<br />
– Co-encadrement (50% avec P. Héroux) du Master Recherche de A. Levallois.<br />
Classification de graphes par algorithmes génétiques. 2009.<br />
– Co-encadrement (50% avec P. Héroux) du Master Recherche de J.N.<br />
Bilong. Recherche d’isomorphismes exacts de sous-graphes par Programmation<br />
Linéaire en Nombre Entier (PLNE). 2009.<br />
– Co-encadrement (50% avec Y. Lecourtier) du Master Recherche de A.<br />
Saint-Réquier. Expérimentations utilisateur : étude comparative des performances<br />
d’un système de recherche d’information apprenant. 2009.<br />
– Co-encadrement (50% avec L. Heutte) du Master Recherche de N-Q.<br />
Doan. One-Class random forests. 2010.<br />
– Co-encadrement (50% avec T. Paqu<strong>et</strong>) du Master Recherche de F. Dewevre.<br />
Recherche d’images par analyse du contenu. 2011.<br />
1.3.6 Activités contractuelles, proj<strong>et</strong>s ANR<br />
C<strong>et</strong>te section précise le cadre contractuel dans lequel se sont développées<br />
certaines des actions de recherche présentées précédemment.<br />
Responsable LITIS du proj<strong>et</strong> Technovision EPEIRES Pendant les années<br />
2005 <strong>et</strong> 2006, j’ai eu en charge la gestion <strong>et</strong> la responsabilité côté LITIS
tel-00671168, version 1 - 8 Oct 2012<br />
24 Chapitre 1. Synthèse de mes activités<br />
du proj<strong>et</strong> EPEIRES (Évaluation des PErformances de l’Interprétation <strong>et</strong> de la<br />
REconnaissance de Symboles) 5 , r<strong>et</strong>enu dans le cadre de l’appel à proj<strong>et</strong> Technovision<br />
lancé conjointement par le Ministère de l’Enseignement Supérieur <strong>et</strong><br />
de la Recheche <strong>et</strong> par la Direction Générale de l’Armement. Ce proj<strong>et</strong>, d’une<br />
durée de deux ans, regroupait des membres d’Algo’Tech Informatique, de la<br />
City University of Hong Kong, du Laboratoire d’informatique de l’Université<br />
de Tours, de l’équipe QGAR du LORIA, du Laboratoire ONE de France Télécom<br />
R&D, du laboratoire PSI (devenu LITIS) de l’Université de Rouen <strong>et</strong> de<br />
l’équipe DAG du Computer Vision Center de l’Université Autonome de Barcelone.<br />
Le proj<strong>et</strong> avait pour objectif la construction d’un environnement compl<strong>et</strong><br />
fournissant les outils <strong>et</strong> les ressources nécessaires à l’évaluation des performances<br />
de méthodes de localisation <strong>et</strong> de reconnaissance de symboles. Plus<br />
particulièrement, les membres de ce proj<strong>et</strong> souhaitaient estimer de manière<br />
générique leurs capacités à reconnaître <strong>et</strong> localiser les symboles en fonction<br />
d’un certain nombre de critères : le domaine d’application, la modélisation, le<br />
nombre de symboles impliqués, la qualité du document. . . Le proj<strong>et</strong> était centré<br />
sur deux points importants à évaluer : la reconnaissance <strong>et</strong> la localisation.<br />
L’environnement développé dans le cadre de ce proj<strong>et</strong> était par ailleurs destiné<br />
à être utilisé par la communauté la plus large qui soit. Plusieurs campagnes<br />
de tests, ouvertes à tous les participants inscrits, ont été organisées après ce<br />
proj<strong>et</strong> lors des conférences Graphic RECognition (GREC). Le site du proj<strong>et</strong><br />
est encore disponible aujourd’hui pour toute la communauté.<br />
Responsable de contrats de recherche avec EADS Dans le cadre de<br />
mes activités de recherche liées à la recherche d’information, j’ai initié <strong>et</strong> développé,<br />
en collaboration avec Yves Lecourtier <strong>et</strong> Thierry Paqu<strong>et</strong>, plusieurs<br />
opérations de recherche avec l’équipe IPCC de EADS (devenu CASSIDIAN depuis)<br />
dirigée par Stephan Brunessaux. Ces activités de recherche se traduisent<br />
par les activités contractuelles suivantes.<br />
– Responsable scientifique <strong>et</strong> administratif de la convention "Apprentissage<br />
implicite pour la recherche d’information" de Novembre 2006 à Juill<strong>et</strong><br />
2011 (montant 30 ke). Ce contrat, initié dans le cadre de la thèse en<br />
convention CIFRE de Gérard Dupont, avait pour obj<strong>et</strong> de concevoir<br />
un moteur de recherche d’information apprenant qui, en fonction des<br />
interactions avec l’utilisateur, l’assiste dans ses recherches.<br />
– Responsable scientifique <strong>et</strong> administratif de la convention "Collecte intelligente<br />
des ressources du Web : application à la création de profils<br />
d’individus" de Mars 2009 à Mars 2012 (montant 30 ke). Ce contrat,<br />
initié dans le cadre de la thèse en convention CIFRE de Nicolas Martin,<br />
a pour obj<strong>et</strong> de concevoir un système capable de créer des profils d’individus<br />
en collectant de manière ciblée des informations à partir de sources<br />
ouvertes.<br />
– Responsable scientifique <strong>et</strong> administratif de la convention "Agent personnalisé<br />
de recherche d’information" de février 2010 à février 2013 (montant<br />
30 ke). Ce contrat, initié dans le cadre de la thèse en convention CIFRE<br />
d’Aurélien Saint Réquier, a pour obj<strong>et</strong> de concevoir un agent intelligent<br />
5. http://www.epeires.org/
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 25<br />
personnalisé de recherche d’information basé sur un système d’apprentissage<br />
sémantique du contexte des tâches de recherche <strong>et</strong> des centres<br />
d’intérêt de l’utilisateur.<br />
Ces trois contrats sont la concrétisation d’une collaboration engagée sur le<br />
long terme avec l’équipe IPCC de CASSIDIAN. Celle-ci a débouché en juin<br />
2011 sur la signature d’un nouveau contrat (montant 450 ke) ayant pour obj<strong>et</strong><br />
l’étude, le développement <strong>et</strong> la réalisation d’un démonstrateur de reconnaissance<br />
automatique de documents. Dans ce proj<strong>et</strong>, le LITIS est le référent scientifique.<br />
Nos missions consistent, outre le développement de modules d’analyse<br />
d’images de documents, à assister CASSIDIAN en tant que référence scientifique.<br />
Thierry Paqu<strong>et</strong> assure la responsabilité technique du proj<strong>et</strong> <strong>et</strong> je suis,<br />
pour CASSIDIAN, le responsable recherche de ce proj<strong>et</strong>.<br />
Participation à des programmes nationaux À la suite de ma thèse, j’ai<br />
été impliqué dans le proj<strong>et</strong> DOCMINING, qui est un proj<strong>et</strong> exploratoire supporté<br />
par le Réseau National des Technologies Logicielles (RNTL). Ce proj<strong>et</strong><br />
a réuni, de janvier 2002 à décembre 2003, un consortium composé de France<br />
Telecom R&D Lannion, l’équipe QGAR de l’INRIA Lorraine de Nancy, le laboratoire<br />
L3i de l’Université de La Rochelle, le département d’informatique<br />
de l’Université de Fribourg <strong>et</strong> l’équipe Document du PSI. Ce proj<strong>et</strong> visait la<br />
conception d’un système à base de connaissances <strong>et</strong> le développement d’un<br />
démonstrateur d’acquisition de documents hétérogènes représentant des plans<br />
d’accès à des bâtiments. Le système proposé avait pour objectif d’identifier<br />
les composantes contenues dans un document <strong>et</strong> d’adapter leurs modes de<br />
représentation aux besoins d’un service donné. Ce système couvre donc un<br />
large spectre d’utilisation. Il ne s’agit pas seulement de procéder à une rétroconversion<br />
systématique de documents entiers, mais de m<strong>et</strong>tre en place une<br />
méthodologie de valorisation des obj<strong>et</strong>s contenus dans un document.<br />
J’ai ensuite été impliqué dans une Action Concertée Incitative "MAsse<br />
de DOnnées issues de la Numérisation du patrimoiNE" (ACI MADONNE),<br />
fruit d’une collaboration entre les laboratoires PSI (Rouen), L3I (La Rochelle),<br />
LIRIS (Lyon), LORIA (Nancy), IRISA (Rennes) <strong>et</strong> LI (Tours). L’objectif des<br />
travaux de c<strong>et</strong>te ACI était de perm<strong>et</strong>tre, à partir de l’extraction automatique<br />
d’indices dans les images, la navigation <strong>et</strong> la recherche d’informations dans les<br />
collections de documents patrimoniaux. Ces travaux se sont poursuivis dans<br />
le cadre du proj<strong>et</strong> ANR Navidomass (NAVIgation into DOcument MASSes).<br />
Ce proj<strong>et</strong>, labellisé par l’ANR de 2008 à 2011, a pour mission de m<strong>et</strong>tre en<br />
valeur différents biens du patrimoine <strong>et</strong> plus particulièrement les ouvrages,<br />
les collections d’images <strong>et</strong> autres documents iconographiques. À court terme,<br />
ces nombreux documents constitueront une source gigantesque d’informations<br />
(masse de données). L’objectif de ce proj<strong>et</strong> est de contribuer à la réalisation<br />
de systèmes d’indexation d’images de documents du patrimoine. Ce proj<strong>et</strong><br />
s’inscrit ainsi dans la volonté actuelle de préserver le patrimoine culturel <strong>et</strong><br />
scientifique <strong>et</strong> d’assurer au plus grand nombre l’accès à celui-ci.
tel-00671168, version 1 - 8 Oct 2012<br />
26 Chapitre 1. Synthèse de mes activités<br />
1.3.7 Relations avec la communauté scientifique nationale <strong>et</strong><br />
internationale<br />
Relecture d’articles pour revues <strong>et</strong> conférences J’expertise des articles<br />
soumis dans les revues internationales de référence Pattern Recognition (PR),<br />
Pattern Recognition L<strong>et</strong>ters (PRL), International Journal of Document Analysis<br />
and Recognition (IJDAR) ainsi que dans la revue nationale Traitement du<br />
Signal.<br />
Membre de comités de programmes <strong>et</strong> d’organisation J’ai été membre<br />
des comités de programme des conférences internationales International Conference<br />
on Pattern Recognition (ICPR 2008 à Tampa, <strong>et</strong> ICPR 2010 à Istambul)<br />
<strong>et</strong> Graphic Recognition (GREC 2007 à Curritiba, GREC 2009 à La Rochelle<br />
<strong>et</strong> GREC 2011 à Séoul). Au niveau national, j’ai participé à des comités de<br />
programme de la Conférence Internationale Francophone sur l’Ecrit <strong>et</strong> le Document<br />
(CIFED 2004 à La Rochelle, CIFED 2006 à Fribourg, CIFED 2008<br />
à Rouen, CIFED 2010 à Sousse), à la conférence sur la Reconnaissance de<br />
Formes <strong>et</strong> l’Intelligence Artificielle (RFIA 2010 à Caen) <strong>et</strong> aux Journées Francophones<br />
de Planification, Décision <strong>et</strong> Apprentissage pour la conduite de systèmes<br />
(JFPDA 2011 à Rouen). J’ai également été sollicité pour présider la<br />
session "<strong>Graphes</strong>" de la conférence CIFED 2010 à Sousse. J’ai finalement fait<br />
partie du comité d’organisation de la conférence CIFED 2008 à Rouen.<br />
Participation à des groupes de travail Je participe à différents groupes<br />
de travail au sein de la communauté scientifique française. Je suis membre<br />
d’associations rassemblant des chercheurs francophones de mon domaine de recherche<br />
telles que le Groupe de Recherche en Communication Ecrite (GRCE),<br />
l’Association Française pour la Reconnaissance <strong>et</strong> l’Interprétation des Formes<br />
(AFRIF).<br />
Je participe également régulièrement au groupe de travail GT5.2 Ecrit du<br />
GDR I3 Information-Interaction-Intelligence. J’ai participé à l’Action Spécifique<br />
Valorisation des Collections dans le cadre du Réseau Thématique Pluridisciplinaire<br />
<strong>Documents</strong> (RTP-Doc) du CNRS.<br />
En ce qui concerne mon implication dans la communauté internationale, je suis<br />
membre affilié des comités techniques TC15 (Graph-based Representations in<br />
the Pattern Recognition field) <strong>et</strong> TC10 (Graphic Recognition) de l’IAPR (International<br />
Association of Pattern Recognition).<br />
1.3.8 Publications<br />
Revues internationales avec comité de lecture<br />
[1] R. Raveaux, S. Adam, P. Héroux, and E. Trupin. Learning graph prototypes<br />
for shape recognition. Computer Vision and Image Understanding<br />
(CVIU), 115(7) :pages 905 – 918, 2011.<br />
[2] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. A multimodel<br />
selection framework for unknown and/or evolutive misclassification<br />
cost problems. Pattern Recognition (PR), 43(3) :pages 815–823, 2010.
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 27<br />
[3] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. Non-cost<br />
sensitive SVM training using multiple model selection. Journal of Circuits<br />
Systems, and Computers (JCSC), 19(1) :pages 231–242, 2010.<br />
[4] G. Dupont, S. Adam, Y. Lecourtier, and B. Grilhère. <strong>Multi</strong> objective<br />
particle swarm optimization using enhanced dominance and guide selection.<br />
International Journal of Computational Intelligence Research (IJ-<br />
CIR), 4(2) :pages 145–158, 2008.<br />
[5] E. Valveny, P. Dosch, A. Winstanley, Y. Zhou, S. Yang, L. Yan, W. Liu,<br />
D. Elliman, M. Delalandre, E. Trupin, S. Adam, and J. Ogier. A general<br />
framework for the evaluation of symbol recognition m<strong>et</strong>hods. International<br />
Journal of Document Analysis and Recognition (IJDAR), 9(1) :pages 59–<br />
74, 2007.<br />
[6] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Frequent graph discovery :<br />
Application to line drawing document images. Electronic L<strong>et</strong>ters on Computer<br />
Vision and Image Analysis (ELCVIA), 5(2) :pages 47–57, 2005.<br />
[7] S. Adam, J. Ogier, C. Cariou, R. Mullot, J. Labiche, and J. Gardes. Symbol<br />
and character recognition : application to engineering drawings. International<br />
Journal of Document Analysis and Recognition (IJDAR), 3(2) :pages<br />
89–101, 2000.<br />
[8] C. Cariou, J.-M. Ogier, S. Adam, R. Mullot, Y. Lecourtier, and J. Gardes.<br />
A multiscale and multiorientation recognition technique applied to document<br />
interpr<strong>et</strong>ation : Application to the French telephone n<strong>et</strong>work maps.<br />
International Journal of Pattern Recognition and Artificial Intelligence (IJ-<br />
PRAI), 13(8) :pages 1201–1218, 1999.<br />
Chapitres de livres<br />
[9] S. Adam and J. Ogier. <strong>Documents</strong> graphiques : de la rétroconversion à la<br />
recherche d’information. In R. Mullot, editor, Les documents écrits : De la<br />
numérisation à l’indexation par le contenu, pages 249–310. Hermès, 2006.<br />
[10] S. Adam, J. Ogier, C. Cariou, R. Mullot, J. Gardes, and Y. Lecourtier.<br />
Fourier-mellin based invariants for the recognition of multi-oriented and<br />
multi-scaled shapes : Application to engineering drawings analysis, in invariants<br />
for pattern recognition and classification. In M. Rodrigues, editor,<br />
Invariants for pattern recognition and classification, pages 132–147. World<br />
Scientific, Singapore, 2000.<br />
Contributions à des ouvrages collectifs<br />
Les références mentionnées dans c<strong>et</strong>te partie correspondent à des versions<br />
étendues de soumissions faites pour des conférences internationales <strong>et</strong> soumises<br />
à un second processus de relecture.<br />
[11] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Using bags of symbols<br />
for automatic indexing of graphical document image databases. In W. Liu<br />
and J. Lladós, editors, Graphics Recognition. Ten Years Review and Future<br />
Perspectives, volume 3926 of Lecture Notes in Computer Science, pages<br />
195–205. Springer, 2006.
tel-00671168, version 1 - 8 Oct 2012<br />
28 Chapitre 1. Synthèse de mes activités<br />
[12] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />
Polygonal approximation of digital curves using a multi-objective gen<strong>et</strong>ic<br />
algorithm. In W. Liu and J. Lladós, editors, Graphics Recognition.<br />
Ten Years Review and Future Perspectives, volume 3926 of Lecture Notes<br />
in Computer Science, pages 300–311. Springer, 2006.<br />
[13] Y. Saidali, S. Adam, J. Ogier, and E. Trupin. Knowledge representation<br />
and acquisition for engineering document analysis. In W. Liu and J. Lladós,<br />
editors, Graphics Recognition : Recent Advances and Perspectives, volume<br />
3088 of Lecture Notes in Computer Science, pages 25–37. Springer, 2004.<br />
[14] S. Adam, J. Ogier, C. Cariou, and J. Gardes. A scale and rotation param<strong>et</strong>ers<br />
estimator application to technical document interpr<strong>et</strong>ation. In GREC<br />
’01 : Selected Papers from the Fourth International Workshop on Graphics<br />
Recognition Algorithms and Applications, volume 2390, pages 266–<br />
272. Springer-Verlag, London, UK, 2002. ISBN 3-540-44066-6.<br />
[15] S. Adam, R. Mullot, J. Ogier, C. Cariou, J. Gardes, and Y. Lecourtier.<br />
Processing of the connected shapes in raster-to-vector conversion process.<br />
In Selected Papers from the Third International Workshop on Graphics Recognition,<br />
Recent Advances, pages 28–38. Springer-Verlag, London, UK,<br />
2000.<br />
[16] S. Adam, J. Ogier, C. Cariou, J. Gardes, R. Mullot, and Y. Lecourtier.<br />
Combination of invariant pattern recognition primitives on technical documents.<br />
In Selected Papers from the Third International Workshop on<br />
Graphics Recognition, Recent Advances, pages 238–245. Springer-Verlag,<br />
London, UK, 2000. ISBN 3-540-41222-0.<br />
Revues nationales avec comité de lecture<br />
[17] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Fouille de graphes <strong>et</strong><br />
découverte de règles d’association : application à l’analyse d’images de document.<br />
Revue Nouvelles Technologies de l’Information (RNTI), E-3 :pages<br />
463–468, 2005.<br />
[18] S. Adam, J. Ogier, C. Cariou, R. Mullot, J. Gardes, and Y. Lecourtier.<br />
Utilisation de la transformée de Fourier-Mellin pour la reconnaissance<br />
de formes multi-orientées <strong>et</strong> multi-échelles : application à l’analyse<br />
automatique de documents techniques. Revue Traitement du Signal (TS),<br />
18(1) :pages 17–33, 2005.<br />
Conférences internationales de rang A<br />
Les références mentionnées dans c<strong>et</strong>te partie correspondent à des communications<br />
dans des conférences majeures, considérées comme sélectives par la<br />
communauté (référencées A ou A+ par le site CORE http://www.core.edu.<br />
au par exemple).<br />
[19] S. Bernard, L. Heutte, and S. Adam. On the selection of decision trees in<br />
random forests. In Proceedings of the International Joint Conference on<br />
Neural N<strong>et</strong>works (IJCNN’09), pages 302–307. 2009.
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 29<br />
[20] P. Le Bodic, H. Locteau, S. Adam, P. Héroux, Y. Lecourtier, and A. Knippel.<br />
Symbol d<strong>et</strong>ection using region adjacency graphs and integer linear<br />
programming. In Proceedings of the International Conference on Document<br />
Analysis and Recognition (ICDAR’09), pages 1320–1324. 2009.<br />
[21] S. Bernard, S. Adam, and L. Heutte. Using random forests for handwritten<br />
digit recognition. In Proceedings of the International Conference on<br />
Document Analysis and Recognition (ICDAR’07), pages 1043–1047. 2007.<br />
[22] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. <strong>Multi</strong>objective<br />
optimization for SVM model selection. In Proceedings of the<br />
International Conference on Document Analysis and Recognition (IC-<br />
DAR’07), pages 427–431. 2007.<br />
[23] P. Héroux, E. Barbu, S. Adam, and E. Trupin. Automatic ground-truth<br />
generation for document image analysis and understanding,. In Proceedings<br />
of the International Conference on Document Analysis and Recognition<br />
(ICDAR’07), pages 476–480. 2007.<br />
[24] E. Barbu, R. Raveaux, H. Locteau, S. Adam, P. Héroux, and E. Trupin.<br />
Graph classification using gen<strong>et</strong>ic algorithm and graph probing : Application<br />
to symbol recognition. In Proceedings of the International Conference<br />
on Pattern Recognition (ICPR’06), pages 296–299. 2006.<br />
[25] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />
Approximation of digital curves using a multi-objective gen<strong>et</strong>ic algorithm.<br />
In Proceedings of the International Conference on Pattern Recognition<br />
(ICPR’06), pages 716–719. 2006.<br />
[26] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Clustering document<br />
images using a bag of symbols representation. In Proceedings of the International<br />
Conference on Document Analysis and Recognition (ICDAR’05),<br />
pages 1216–1220. 2005.<br />
[27] S. Adam, M. Rigamonti, E. Clavier, J.-M. Ogier, E. Trupin, and<br />
K. Tombre. DocMining : A Document Analysis System Builder. In<br />
S. Marinai and A. Dengel, editors, Proceedings of the IAPR Workshop<br />
on Document Analysis Systems (DAS’04), volume 3163 of Lecture Notes<br />
in Computer Science, pages 472–483. 2004.<br />
[28] M. Delalandre, P. Héroux, S. Adam, É. Trupin, and J.-M. Ogier. A statistical<br />
and structural approach for symbol recognition, using xml modelling.<br />
In T. Caelli, A. Amin, R. P. W. Duin, M. S. Kamel, and D. de Ridder, editors,<br />
Proceedings of the International Workshop on Syntactical and Structural<br />
Pattern Recognition (SSPR’02), volume 2396 of Lecture Notes in<br />
Computer Science, pages 281–290. Springer, 2002.<br />
[29] S. Adam, J. Gardes, Y. Lecourtier, J. Ogier, and R. Mullot. <strong>Multi</strong>-scaled<br />
and multi oriented character recognition : An original strategy. In Proceedings<br />
of the International Conference on Document Analysis and Recognition<br />
(ICDAR’99), pages 45–48. 1999.<br />
Autres conférences internationales avec actes <strong>et</strong> comité de sélection<br />
[30] S. Bernard, L. Heutte, and S. Adam. Influence of hyperparam<strong>et</strong>ers on<br />
random forest accuracy. In J. A. Benediktsson, J. Kittler, and F. Roli,
tel-00671168, version 1 - 8 Oct 2012<br />
30 Chapitre 1. Synthèse de mes activités<br />
editors, Proceedings of <strong>Multi</strong>ple Classifier Systems (MCS’09), volume 5519<br />
of Lecture Notes in Computer Science, pages 171–180. Springer, 2009.<br />
[31] S. Bernard, L. Heutte, and S. Adam. Towards a b<strong>et</strong>ter understanding<br />
of random forests through the study of strength and correlation. In<br />
D.-S. Huang, K.-H. Jo, H.-H. Lee, H.-J. Kang, and V. Bevilacqua, editors,<br />
Proceedings of the International Conference on Intelligent Computing<br />
(ICIC’09), volume 5755 of Lecture Notes in Computer Science, pages<br />
536–545. Springer, 2009.<br />
[32] S. Bernard, L. Heutte, and S. Adam. Forest-RK : A new random forest<br />
induction m<strong>et</strong>hod. In D.-S. Huang, D. C. W. II, D. S. Levine, and K.-<br />
H. Jo, editors, Proceedings of the International Conference on Intelligent<br />
Computing (ICIC’08), volume 5227 of Lecture Notes in Computer Science,<br />
pages 430–437. Springer, 2008.<br />
[33] E. Barbu, C. Chatelain, S. Adam, P. Héroux, and E. Trupin. A simple<br />
one class classifier with rejection strategy : Application to symbol classification.<br />
In Proceedings of the IAPR Workshop on Graphics Recognition<br />
(GREC’07), pages 35–36. 2007.<br />
[34] H. Locteau, S. Adam, E. Trupin, J. Labiche, and P. Héroux. Symbol<br />
spotting using full visibility graph representation. In Proceedings of the<br />
IAPR Workshop on Graphics Recognition (GREC’07). 2007.<br />
[35] R. Raveaux, E. Barbu, H. Locteau, S. Adam, P. Héroux, and E. Trupin.<br />
A graph classification approach using a multi-objective gen<strong>et</strong>ic algorithm<br />
application to symbol recognition. In F. Escolano and M. Vento, editors,<br />
Proceedings of the IAPR International Workshop on Graph Based Representations<br />
for Pattern Recognition (GbR-PR’07), volume 4538 of Lecture<br />
Notes in Computer Science, pages 361–370. Springer, 2007.<br />
[36] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Clustering of document<br />
images using graph summaries. In P. Perner and A. Imiya, editors, Proceedings<br />
of Machine Learning and Data Mining in Pattern Recognition<br />
(MDLM’05), volume 3587 of Lecture Notes in Computer Science, Lecture<br />
Notes in Artificial Intelligence, pages 194–202. Springer, 2005.<br />
[37] E. Barbu, P. Héroux, S. Adam, and É. Trupin. Indexation of document<br />
images using frequent items. In Proceedings of the International Workshop<br />
on Pattern Recognition in Information System (PRIS’05), pages 164–173.<br />
2005.<br />
[38] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Using bags of symbols for<br />
automatic indexing of graphical document image databases. In Proceedings<br />
of the IAPR Workshop on Graphics Recognition (GREC’05), pages<br />
195–205. 2005.<br />
[39] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />
Polygonal approximation of digital curves using a multi-objective<br />
gen<strong>et</strong>ic algorithm. In Proceedings of the IAPR Workshop on Graphics<br />
Recognition (GREC’05), pages 300–311. 2005.<br />
[40] H. Locteau, S. Adam, E. Trupin, J. Labiche, and P. Héroux. Symbol<br />
recognition combining vectorial and statistical features. In Proceedings of
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 31<br />
the IAPR Workshop on Graphics Recognition (GREC’05), pages 76–87.<br />
2005.<br />
[41] Y. Saidali, S. Adam, J.-M. Ogier, É. Trupin, and J. Labiche. Knowledge<br />
representation and acquisition for engineering document analysis.<br />
In Proceedings of the International Workshop on Graphics RECognition<br />
(GREC’03), pages 25–37. 2003.<br />
[42] S. Adam, J.-M. Ogier, É. Trupin, and R. Mullot. A scale and rotation<br />
param<strong>et</strong>ers estimator application to technical document interpr<strong>et</strong>ation.<br />
In Proceedings of the International Workshop on Pattern Recognition in<br />
Information Systems (PRIS’03), pages 31–37. 2003.<br />
[43] J. Gardes, J. Ogier, S. Adam, and R. Mullot. Caati - a system-based dynamic<br />
document interpr<strong>et</strong>ation device. In Proceedings of the International<br />
Workshop on Graphics RECognition (GREC’01), pages 301–311. 2001.<br />
[44] J. Ogier, S. Adam, A. Bessaid, and H. Bechar. Automatic topographic<br />
map analysis system : an overview. In Proceedings of the International<br />
Workshop on Graphics RECognition (GREC’01), pages 229–244. 2001.<br />
[45] E. Trupin, J. Ogier, S. Adam, and J. Gardes. Navigation into technical<br />
documents. In Proceedings of the International Workshop on Graphics<br />
RECognition (GREC’01), pages 27–34. 2001.<br />
[46] S. Adam, J.-M. Ogier, C. Cariou, and J. Gardes. A scale and rotation<br />
param<strong>et</strong>ers estimator application to technical document interpr<strong>et</strong>ation.<br />
In Proceedings of the International Workshop on Graphics RECognition<br />
(GREC’01), pages 27–34. 2001.<br />
[47] S. Adam, F. Rousseau, J. Ogier, C. Cariou, R. Mullot, J. Labiche, and<br />
J. Gardes. A multi-scale and multi-orientation recognition technique applied<br />
to document interpr<strong>et</strong>ation application to french telephone n<strong>et</strong>work<br />
maps. In Proceedings of the International Conference on Acoustics, Speech,<br />
and Signal Processing (ICASSP’01), pages 1509–1512. 2001.<br />
[48] J.-M. Ogier, C. Cariou, S. Adam, J. Gardes, R. Mullot, and Y. Lecourtier.<br />
Similitude invariant pattern recognition on technical documents. In Proceedings<br />
of the International Conference on Image Processing (ICIP’99),<br />
pages 570–574. 1999.<br />
[49] S. Adam, R. Mullot, J.-M. Ogier, C. Cariou, J. Gardes, and Y. Lecourtier.<br />
Processing of the connected shapes in raster-to-vector conversion process.<br />
In Proceedings of the International Workshop on Graphics RECognition<br />
(GREC’99), pages 28–38. 1999.<br />
[50] S. Adam, J.-M. Ogier, C. Cariou, J. Gardes, R. Mullot, and Y. Lecourtier.<br />
Combination of invariant pattern recognition primitives on technical<br />
documents. In Proceedings of the International Workshop on Graphics<br />
RECognition (GREC’99), pages 238–245. 1999.<br />
Conférences nationales avec actes <strong>et</strong> comité de sélection<br />
[51] G. Dupont, S. Adam, and Y. Lecourtier. Apprentissage par renforcement<br />
pour la recherche d’information interactive. In Actes des 6emes Journées
tel-00671168, version 1 - 8 Oct 2012<br />
32 Chapitre 1. Synthèse de mes activités<br />
Francophones de Planification, Décision <strong>et</strong> Apprentissage pour la conduite<br />
de systèmes (JFPDA 2011). 2011.<br />
[52] P. L. Bodic, P. Héroux, S. Adam, H. Locteau, J. Bilong, and Y. Lecourtier.<br />
Programmation linéaire en nombres entiers pour la recherche d’isomorphismes<br />
de sous-graphes. In Actes du Colloque International Francophone<br />
sur l’Ecrit <strong>et</strong> le Document (CIFED’10), pages 153–168. 2010.<br />
[53] A. S. Réquier, G. Dupont, S. Adam, and Y. Lecourtier. Évaluation d’outils<br />
de reformulation interactive de requêtes. In Actes de la COnférence<br />
en Recherche d’Information <strong>et</strong> Applications (CORIA’10), pages 223–238.<br />
2010.<br />
[54] S. Bernard, L. Heutte, and S. Adam. Une Étude sur la paramétrisation<br />
des forêts aléatoires. In Actes de la Conférence francophone sur l’Apprentissage<br />
Artificiel (CAP’09), pages 81–92. 2009.<br />
[55] S. Bernard, L. Heutte, and S. Adam. Étude de l’influence des paramètres<br />
sur les performances des forêts aléatoires. In Actes du Colloque International<br />
Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’08), pages 207–208.<br />
2008.<br />
[56] P. L. Bodic, S. Adam, P. Héroux, A. Knippel, and Y. Lecourtier. Formulations<br />
linéaires en nombres entiers pour des problèmes d’isomorphisme<br />
exact <strong>et</strong> inexact. In Actes électroniques des Journées Polyèdres <strong>et</strong> <strong>Optimisation</strong><br />
Combinatoire (JPOC’08). 2008.<br />
[57] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, Y. Oufella, and T. Paqu<strong>et</strong>.<br />
<strong>Optimisation</strong> multi-objectif pour la sélection de modèles SVM. In<br />
Actes du congrès Reconnaissance des Formes <strong>et</strong> Intelligence Artificielle<br />
(RFIA’08), pages 67–72. 2008.<br />
[58] L. Heutte, S. Bernard, S. Adam, and E. Oliveira. De la sélection d’arbres<br />
de décision dans les forêts aléatoires. In Actes du Colloque International<br />
Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’08), pages 163–168. 2008.<br />
[59] R. Raveaux, E. Barbu, S. Adam, P. Héroux, and E. Trupin. <strong>Graphes</strong><br />
prototypes vs. graphe médian généralisé pour la classification de données<br />
structurées. In Actes du Colloque International Francophone sur l’Écrit<br />
<strong>et</strong> le Document (CIFED’08), pages 37–42. 2008.<br />
[60] G. Dupont, S. Adam, Y. Lecourtier, and B. Grilhere. <strong>Multi</strong> objective<br />
particle swarm optimization using enhanced dominance and guide selection.<br />
In Journées <strong>Optimisation</strong> par Essaims Particulaires (OEP’07) -<br />
actes électroniques. 2007.<br />
[61] E. Barbu, R. Raveaux, H. Locteau, S. Adam, P. Héroux, and E. Trupin.<br />
Classification de graphes par algorithmes génétiques <strong>et</strong> signatures de<br />
graphes : Application à la reconnaissance de symboles. In Actes du Colloque<br />
International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’06),<br />
pages 91–96. 2006.<br />
[62] P. Héroux, E. Barbu, S. Adam, and E. Trupin. Production de vérité terrain<br />
pour l’analyse <strong>et</strong> l’interprétation d’images de document. In Actes du Colloque<br />
International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’06),<br />
pages 67–72. 2006.
tel-00671168, version 1 - 8 Oct 2012<br />
1.3. Activités de recherche 33<br />
[63] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />
Approximation de courbes par algorithme génétique multi-objectif.<br />
In Actes du Colloque International Francophone sur l’Écrit <strong>et</strong> le Document<br />
(CIFED’06), pages 37–42. 2006.<br />
[64] H. Locteau, S. Adam, E. Trupin, J. Labiche, and P. Héroux. Reconnaissance<br />
de symbole guidée par une modélisation basée sur les graphes de<br />
régions adjacentes. In Actes du Colloque International Francophone sur<br />
l’Écrit <strong>et</strong> le Document (CIFED’06), pages 151–156. 2006.<br />
[65] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Fouille de graphes <strong>et</strong><br />
découverte de règles d’association : application à l’analyse d’images de<br />
document. In Actes des journées Extraction <strong>et</strong> Gestion des Connaissances<br />
(EGC’05), pages 463–468. 2005.<br />
[66] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Découverte de motifs fréquents<br />
- application à l’analyse de documents graphiques. In Actes du Colloque<br />
International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’04),<br />
pages 143–148. 2004.<br />
[67] E. Clavier, S. Adam, P. Héroux, M. Rigamonti, and J.-M. Ogier. Docmining<br />
- une plate-forme de conception de systèmes d’analyse de document.<br />
In Actes du Colloque International Francophone sur l’Écrit <strong>et</strong> le Document<br />
(CIFED’04, pages 97–102. 2004.<br />
[68] H. Locteau, S. Adam, E. Trupin, J. Labiche, and P. Héroux. Détection<br />
d’arcs de cercle par comparaison du tracé théorique de Bresenham. In<br />
Actes du Colloque International Francophone sur l’Écrit <strong>et</strong> le Document<br />
(CIFED’04), pages 285–290. 2004.<br />
[69] M. Delalandre, P. Héroux, S. Adam, E. Trupin, and J. Ogier. Une approche<br />
statistico-structurelle pour la reconnaissance de symboles exploitant<br />
une représentation xml des données. In Actes du Colloque International<br />
Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’02), pages 121–128.<br />
2002.<br />
[70] C. Cariou, J. Ogier, S. Adam, J. Gardes, R. Mullot, and Y. Lecourtier. Reconnaissance<br />
de formes multi-échelle sur documents techniques. In Actes<br />
du Colloque du Groupe de Recherche <strong>et</strong> d’Études en Traitement du Signal<br />
<strong>et</strong> des Images (GRETSI’99), pages 283–286. 2000.<br />
[71] V. Grenier, R. Mullot, J. Ogier, S. Adam, J. Gardes, and Y. Lecourtier.<br />
Distribution d’opérateurs pour l’analyse de documents techniques. In<br />
Actes du Colloque International Francophone sur l’Écrit <strong>et</strong> le Document<br />
(CIFED’00), pages 151–160. 2000.<br />
[72] V. Grenier, R. Mullot, J. Ogier, S. Adam, J. Gardes, and Y. Lecourtier.<br />
Une architecture distribuée pour l’interprétation de documents techniques.<br />
In Actes du Congrès Reconnaissance de Formes <strong>et</strong> Intelligence Artificielle<br />
(RFIA’00), pages 427–436. 2000.<br />
[73] S. Adam, R. Mullot, J. Ogier, C. Cariou, and J. Gardes. Interprétation<br />
de documents du réseau téléphonique : Approche multi-spécialistes. In<br />
Actes du Congrès Reconnaissance de Formes <strong>et</strong> Intelligence Artificielle<br />
(RFIA’00), pages 357–364. 2000.
tel-00671168, version 1 - 8 Oct 2012<br />
34 Chapitre 1. Synthèse de mes activités<br />
[74] S. Adam, J. M. Ogier, C. Cariou, R. Mullot, J. Gardes, and J. Labiche.<br />
Reconnaissance de formes multi-orientées <strong>et</strong> multi-échelle : Application<br />
à l’analyse automatique de documents techniques. In Actes du Colloque<br />
International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’00), pages<br />
21–30. 2000.<br />
[75] V. Grenier, R. Mullot, J. Ogier, S. Adam, J. Gardes, and Y. Lecourtier.<br />
Proposition d’architecture distribuée pour un système de rétro-conversion<br />
de documents techniques. In Actes du Colloque International sur le Document<br />
Electronique (CIDE’99), pages 139–153. 1999.<br />
[76] S. Adam, R. Mullot, J. Ogier, C. Cariou, and J. Gardes. Stratégie multispécialistes<br />
d’extraction d’information sur des documents techniques. In<br />
Actes du Colloque International sur le Document Electronique (CIDE’99),<br />
pages 139–153. 1999.<br />
Thèses soutenues<br />
[77] G. Dupont. Apprentissage implicite pour la recherche d’information.<br />
Ph.D. thesis, Université de Rouen, 2011.<br />
[78] S. Bernard. Forêts Aléatoires : de l’Analyse des Mécanismes de Fonctionnement<br />
à la Construction Dynamique. Ph.D. thesis, Université de Rouen,<br />
2009.<br />
[79] H. Locteau. Contributions à la localisation de symboles dans les documents<br />
graphiques. Ph.D. thesis, Université de Rouen, 2008.<br />
[80] E. Barbu. Fouille <strong>et</strong> classification de graphes : application à la reconnaissance<br />
de symboles dans les documents graphiques. Ph.D. thesis, Université<br />
de Rouen, 2007.<br />
[81] S. Adam. Interprétation de documents techniques : des outils à leur intégration<br />
dans un système à base de connaissances. Ph.D. thesis, Université<br />
de Rouen, 2001.<br />
1.4 Activités d’enseignement<br />
1.4.1 Filières d’enseignement<br />
Depuis ma nomination, j’interviens principalement en licence "Electronique<br />
Electrotechnique Automatique" (EEA), au niveau L1 <strong>et</strong> L3 <strong>et</strong> en Master "Informatique<br />
Génie de l’Information <strong>et</strong> des Systèmes" (IGIS) de l’UFR des Sciences.<br />
Dans ce dernier, j’assure des enseignements à la fois dans la spécialité professionnelle<br />
Génie Electrique <strong>et</strong> Informatique Industrielle (GEII) <strong>et</strong> dans la<br />
spécialité pro-recherche Système de Traitement des Informations <strong>Multi</strong>média<br />
(STIM).<br />
1.4.2 Enseignements dispensés<br />
Traitement numérique de l’information : Logique combinatoire <strong>et</strong> séquentielle.<br />
Unité Arithmétique <strong>et</strong> Logique. Architecture des ordinateurs. Microprocesseurs.
tel-00671168, version 1 - 8 Oct 2012<br />
1.5. Activités administratives 35<br />
Programmation C - Génie Informatique : Types de base, constantes,<br />
opérateurs, instructions de contrôle, pointeurs, fonctions, types composés, entréessorties,<br />
fichiers, listes chaînées, pile, files, arbres.<br />
Traitement numérique du signal Outils mathématiques pour le signal<br />
(Transformées), Analyse Spectrale (Transformée de Fourier, TFD, FFT, Fenêtres<br />
spectrales), Filtrage numériques (filtres RIF, RII, cascades de filtres).<br />
Traitement d’images <strong>et</strong> reconnaissance de formes : filtres, morphologie<br />
mathématique, analyse spectrale, extraction de caractéristiques, classifieurs,<br />
combinaisons de classifieurs.<br />
<strong>Optimisation</strong> : moindres carrés, descente de gradient, Gauss Newton, algorithmes<br />
génétiques, essaims particulaires.<br />
Programmation système : Gestion de processus, communication entre<br />
processus (tubes, signaux, mémoires partagées, sémaphores), Gestion de threads.<br />
1.4.3 Volumes horaires<br />
Année 2002 2003 2004 2005 2006 2007 2008 2009 2010<br />
2003 2004 2005 2006 2007 2008 2009 2010 2011<br />
Heures 213 202 179 193 195 192 192 213 194<br />
eq. TD<br />
1.5 Activités administratives<br />
1.5.1 Responsabilités administratives <strong>et</strong> pédagogiques<br />
Direction d’études <strong>et</strong> présidence de jury Depuis ma nomination <strong>et</strong> jusqu’en<br />
septembre 2006, j’ai eu en charge la direction <strong>et</strong> l’organisation des enseignements<br />
de la seconde année de l’IUP Génie Electrique <strong>et</strong> Informatique<br />
Industrielle. Depuis septembre 2006, je suis directeur d’études <strong>et</strong> chargé de<br />
l’organisation des enseignements sur l’année (responsable pédagogique) de la<br />
première année de la spécialité Génie Electrique <strong>et</strong> Informatique Industrielle<br />
(GEII) du Master d’Informatique, de Génie de l’Information <strong>et</strong> des Systèmes.<br />
Je suis également président de jury de c<strong>et</strong>te année.<br />
Dans ce cadre, j’ai à ma charge la mise au point <strong>et</strong> la gestion des emplois du<br />
temps au cours des deux semestres, la recherche d’enseignants <strong>et</strong> de vacataires<br />
ainsi que l’organisation des pré-jurys, des oraux <strong>et</strong> du jury des deux sessions.<br />
Responsable des Travaux d’Etudes <strong>et</strong> de Recherche Depuis septembre<br />
2007, j’assure pour l’ensemble des années des filières EEA, GEII <strong>et</strong> STIM la<br />
responsabilité des proj<strong>et</strong>s annuels (Travaux d’Etudes <strong>et</strong> de Recherche). Dans<br />
ce cadre, je suis chargé de la collecte des suj<strong>et</strong>s proposés par l’équipe pédagogique,<br />
de l’attribution de ces suj<strong>et</strong>s aux étudiants (entre 50 <strong>et</strong> 100 en fonction<br />
des années), de la collecte <strong>et</strong> de l’examen des cahiers des charges rédigés par
tel-00671168, version 1 - 8 Oct 2012<br />
36 Chapitre 1. Synthèse de mes activités<br />
les étudiants <strong>et</strong> des rapports finaux, de l’organisation des soutenances des étudiants,<br />
<strong>et</strong> de la présidence des jurys liés à ces soutenances.<br />
1.5.2 Fonctions électives au sein de l’établissement<br />
– Membre du conseil de département de physique de l’UFR de 2008 à 2011<br />
– Membre de 2004 à 2008 des commissions de spécialistes de l’Université<br />
de Rouen (61ème section <strong>et</strong> 27/61ème section - vice président)<br />
– Membre de 2006 à 2008 de la commission de spécialistes de l’INSA de<br />
Rouen (27-61-63ème sections).<br />
– Membre en 2009 d’un comité de sélection 61ème section de l’Université<br />
de Rouen.
tel-00671168, version 1 - 8 Oct 2012<br />
Deuxième partie<br />
Contributions <strong>et</strong> Perspectives<br />
37
tel-00671168, version 1 - 8 Oct 2012
tel-00671168, version 1 - 8 Oct 2012<br />
Chapitre 2<br />
Introduction générale<br />
Au cours des vingt dernières années, le développement des Sciences <strong>et</strong> Technologies<br />
de l’Information <strong>et</strong> de la Communication (STIC) a bouleversé notre<br />
manière de vivre <strong>et</strong> de travailler. Aucun secteur n’est aujourd’hui « épargné »<br />
par c<strong>et</strong>te émergence du numérique. Les STIC jouent désormais un rôle prépondérant<br />
dans la santé, l’éducation, la culture, la conservation des patrimoines,<br />
l’agriculture, les administrations, les médias, la finance, l’industrie. . . Ce bouleversement,<br />
que les historiens jugent aussi profond que celui de la révolution<br />
industrielle des XV III e <strong>et</strong> XIX e siècles, a engagé le monde sur la voie d’une<br />
société basée sur l’information <strong>et</strong> la connaissance.<br />
Les progrès technologiques liés aux capacités de stockage <strong>et</strong> aux réseaux<br />
Intern<strong>et</strong> <strong>et</strong> Intran<strong>et</strong> sont indéniablement les facteurs à l’origine de c<strong>et</strong>te révolution.<br />
Toutefois, ces évolutions technologiques ont également fait émerger de<br />
nouvelles problématiques scientifiques indispensables pour perm<strong>et</strong>tre l’accès <strong>et</strong><br />
le traitement de c<strong>et</strong>te quantité phénoménale d’informations <strong>et</strong> qui, elles-mêmes,<br />
amplifient les besoins en nouvelles technologies. Parmi ces problématiques, on<br />
trouve celle de la Gestion Électronique de Document (GED), qui est l’une<br />
des solutions utilisées pour optimiser la gestion de l’information. Elle se définit<br />
comme l’ensemble des techniques <strong>et</strong> méthodes qui ont pour but de faciliter l’archivage,<br />
l’accès, la consultation, la diffusion des documents <strong>et</strong> des informations<br />
qu’ils contiennent.<br />
Dans la chaîne électronique de gestion des documents, le traitement automatique<br />
des images de documents est l’un des maillons perm<strong>et</strong>tant d’alimenter<br />
les systèmes quand l’information initiale n’est disponible que sous la forme papier<br />
<strong>et</strong> quand une reprise manuelle est trop coûteuse. Même si initialement il<br />
ne s’agissait que de scanner le document papier <strong>et</strong> de le stocker sous forme<br />
d’image dans une archive afin d’en faciliter la circulation au sein des différents<br />
services d’une organisation, la problématique du traitement automatique de<br />
documents s’est étendue à la conception plus générale de méthodologies, outils<br />
<strong>et</strong> systèmes perm<strong>et</strong>tant de classer, trier, indexer, stocker <strong>et</strong> interpréter automatiquement<br />
des documents numériques rétroconvertis à partir de documents<br />
papiers (formulaires, plans, courriers, archives...).<br />
C’est ainsi que s’est formée, il y a plus de vingt ans, une communauté<br />
travaillant autour de la problématique de l’analyse d’images de documents,<br />
dans le but de transformer de telles images en un contenu structuré <strong>et</strong> exploi-<br />
39
tel-00671168, version 1 - 8 Oct 2012<br />
40 Chapitre 2. Introduction générale<br />
table. C<strong>et</strong>te communauté s’est construite au niveau national autour de groupes<br />
tels que le GRCE (Groupe de Recherche en Communication Écrite) ou celui<br />
du thème « <strong>Documents</strong> <strong>Multi</strong>média » du GDR I3 (Information-Interaction-<br />
Intelligence), <strong>et</strong> au niveau international autour des comités techniques TC10<br />
Graphic Recognition (GREC) <strong>et</strong> TC11 Reading Systems de l’IAPR (International<br />
Association for Pattern Recognition). On a également assisté à l’émergence<br />
de nouvelles revues scientifiques dédiées à l’analyse de documents telles que<br />
l’International Journal of Document Analysis and Recognition (IJDAR), à la<br />
tenue de congrès centrés sur c<strong>et</strong>te thématique, comme le Colloque International<br />
Francophone sur l’Écrit <strong>et</strong> le Document (CIFED), ou au niveau international<br />
à l’organisation des conférences ou workshops tels que l’International Conference<br />
on Document Analysis and Recognition (ICDAR), Graphic Recognition<br />
(GREC), Document Analysis System (DAS) ou l’International Conference on<br />
Frontiers in Handwriting Recognition (ICFHR), pour ne citer que les plus anciens.<br />
Une importante communauté scientifique s’est ainsi constituée autour de<br />
la problématique de la conception d’outils <strong>et</strong> de systèmes perm<strong>et</strong>tant d’interpréter<br />
le contenu d’images de documents. De tels systèmes d’analyse d’images<br />
de documents reposent sur de nombreuses étapes de traitement, allant du bas<br />
niveau (filtrage, restauration, redressement, binarisation, squel<strong>et</strong>tisation, segmentation<br />
texte/graphique) à des processus d’interprétation de haut niveau<br />
sémantique (rétroconversion, extraction de méta-données, indexation de documents.<br />
. . ), en passant par des étapes de reconnaissance des entités présentes<br />
dans le document (texte, symboles, lignes, arcs de cercle, logos. . . ). La figure<br />
2 illustre la complexité des chaînes d’analyse d’images de documents à travers<br />
trois systèmes de l’état de l’art respectivement dédiés à l’analyse de documents<br />
structurés [56], la reconnaissance de textes manuscrits [114] <strong>et</strong> la vectorisation<br />
de documents graphiques [92].<br />
Les différents « niveaux » d’analyse qui apparaissent sur c<strong>et</strong>te figure illustrent<br />
les interactions nécessaires entre la communauté de l’analyse de documents<br />
<strong>et</strong> des communautés connexes. On peut citer évidemment la communauté<br />
du traitement d’images pour améliorer les données brutes que sont les<br />
pixels, celle de la reconnaissance de formes statistique, syntaxique <strong>et</strong> structurelle<br />
pour transformer ces données en obj<strong>et</strong>s de plus haut niveau sémantique,<br />
celle de l’intelligence artificielle pour planifier les traitements, ou encore celle<br />
de l’optimisation pour régler les nombreux paramètres des chaînes d’analyse.<br />
Même s’ils n’apparaissent pas explicitement sur c<strong>et</strong>te figure, il ne faut pas non<br />
plus négliger les aspects liés à l’ingénierie des connaissances, qui perm<strong>et</strong>tent<br />
de modéliser <strong>et</strong> de représenter les connaissances liées à la fois au domaine de<br />
l’analyse de documents <strong>et</strong> au(x) métier(s) concerné(s) par le document. Enfin,<br />
les systèmes complètement automatiques étant encore du domaine de la recherche<br />
à long terme pour des problématiques difficiles telles que l’analyse de<br />
plans ou de cartes, des interactions fortes avec la communauté de l’Interaction<br />
Homme Machine (IHM) sont fondamentales pour placer l’Homme au cœur des<br />
systèmes d’analyse. Sans aller jusqu’à une rétroconversion de grande masse de<br />
documents, une IHM adaptée sera également indispensable quand il s’agira de<br />
dialoguer avec un système qui cherchera à interpréter une image acquise avec<br />
un scanner ou un appareil photo.
tel-00671168, version 1 - 8 Oct 2012<br />
Image preprocessing<br />
Block segmentation and segmentation<br />
Physical layout analysis<br />
Logical layout analysis<br />
Language identification and OCR<br />
ASCII Transcription<br />
Image conversion<br />
Line separation<br />
Image preprocessing<br />
Word segmentation<br />
Word recognition<br />
Linguistic postprocessing<br />
ASCII Transcription<br />
Lexicon<br />
corpus<br />
Binarization<br />
Text elimination<br />
41<br />
Thin/thick layers separation<br />
Skel<strong>et</strong>onization<br />
Segmentation<br />
Unification<br />
Simplification<br />
Estimation<br />
Figure 2.1 – Quelques chaînes typiques d’analyse d’images de documents respectivement<br />
dédiées à l’analyse de documents structurés [56], à la reconnaissance<br />
de textes manuscrits [114] <strong>et</strong> à la vectorisation de documents graphiques<br />
[92].<br />
Les travaux qui sont abordés dans c<strong>et</strong>te habilitation sont à la confluence de<br />
plusieurs de ces domaines de recherche. Ils concernent deux aspects principaux.<br />
Le premier est relatif à la reconnaissance structurelle de formes, en proposant<br />
deux contributions liées respectivement à la classification supervisée de graphes<br />
[170] <strong>et</strong> à la recherche d’isomorphismes de sous-graphes [31]. Le second concerne<br />
la prise en compte d’objectifs multiples en analyse d’images de documents, tant<br />
pour l’évaluation des performances des systèmes que pour leur optimisation [52,<br />
130]. Dans les deux cas, les travaux sont appliqués à des problèmes d’analyse<br />
de documents, pour la reconnaissance <strong>et</strong> la localisation de symboles <strong>et</strong> pour la<br />
reconnaissance de courriers manuscrits.<br />
Nous proposons ci-après de faire une synthèse de ces contributions <strong>et</strong> de nos<br />
Unstability
tel-00671168, version 1 - 8 Oct 2012<br />
42 Chapitre 2. Introduction générale<br />
perspectives dans ces domaines, en positionnant celles-ci par rapport à l’état de<br />
l’art des différentes problématiques abordées. Après c<strong>et</strong>te introduction, c<strong>et</strong>te<br />
synthèse scientifique est organisée autour de trois chapitres.<br />
Dans le chapitre 3, nous nous intéressons plus particulièrement à la reconnaissance<br />
structurelle de formes appliquée à l’analyse de documents graphiques.<br />
Deux problématiques fondamentales de ce domaine sont d’abord abordées indépendamment<br />
de l’application. La première concerne la classification supervisée<br />
de graphes, <strong>et</strong> plus particulièrement la définition de nouveaux prototypes perm<strong>et</strong>tant<br />
d’exploiter de façon efficace des méthodes du type k Plus Proches<br />
Voisins (kPPV). La seconde est celle de la recherche d’isomorphismes de sousgraphes<br />
tolérants aux erreurs, que nous avons abordée par la programmation<br />
linéaire en nombres entiers. Pour chacun de ces aspects, le problème est formalisé,<br />
l’état de l’art est décrit, <strong>et</strong> nos propositions sont discutées <strong>et</strong> positionnées<br />
par rapport à l’existant. Puis, dans la section suivante, nous présentons des applications<br />
de ces propositions à l’analyse d’images de documents graphiques, <strong>et</strong><br />
plus particulièrement pour la reconnaissance <strong>et</strong> la localisation de symboles. La<br />
dernière section de ce chapitre dresse un bilan de ces contributions <strong>et</strong> présente<br />
des problèmes ouverts relatifs à ces travaux.<br />
Dans le chapitre 4, nous partons du constat que la plupart des systèmes<br />
réels complexes, comme le sont les systèmes d’analyse de documents, m<strong>et</strong>tent<br />
en jeu des objectifs multiples qui nécessitent le choix de compromis. Nous proposons<br />
donc d’illustrer à partir de quelques problèmes liés à l’analyse d’images<br />
de documents les apports de l’optimisation multiobjectif. Une présentation<br />
succincte du domaine de l’optimisation multiobjectif est d’abord proposée, <strong>et</strong><br />
un état de l’art des approches perm<strong>et</strong>tant de résoudre de tels problèmes est<br />
présenté. Puis, trois contributions sont décrites. La première est une contribution<br />
propre au domaine de l’optimisation multiobjectif. Nous y proposons<br />
un algorithme pour aborder ces problèmes avec la technique des essaims particulaires.<br />
Puis, les deux contributions suivantes concernent des travaux pour<br />
lesquels nous avons tiré parti de l’intégration d’objectifs multiples en analyse<br />
de documents <strong>et</strong> en apprentissage. Le chapitre se termine par une discussion<br />
sur c<strong>et</strong> apport <strong>et</strong> sur les perspectives directement ouvertes par ces travaux.<br />
Enfin, dans le chapitre 5, nous synthétisons d’abord les perspectives de<br />
recherche à court <strong>et</strong> moyen terme évoquées dans les chapitres 3 <strong>et</strong> 4. Puis,<br />
nous exposons nos perspectives à plus long terme, en soulignant la nécessaire<br />
interdisciplinarité en analyse de documents. Nous y abordons également la<br />
convergence de nos travaux entre analyse de documents <strong>et</strong> recherche d’information.
tel-00671168, version 1 - 8 Oct 2012<br />
Chapitre 3<br />
<strong>Documents</strong> <strong>et</strong> graphes<br />
3.1 Introduction<br />
Les graphes sont des structures de données fréquemment exploitées pour la<br />
représentation d’entités complexes. Dans une représentation à base de graphes,<br />
les nœuds <strong>et</strong> leurs étiqu<strong>et</strong>tes décrivent des obj<strong>et</strong>s <strong>et</strong> leurs propriétés, tandis que<br />
les arcs <strong>et</strong> leurs étiqu<strong>et</strong>tes décrivent les relations entre ces obj<strong>et</strong>s. Les graphes<br />
perm<strong>et</strong>tent ainsi de dépasser certaines limites inhérentes à une représentation<br />
vectorielle des données telles que (i) la taille fixe, généralement imposée par<br />
l’utilisation de classifieurs statistiques, (ii) l’impossibilité de modéliser naturellement<br />
des relations entre composants du vecteur. Un graphe perm<strong>et</strong> au<br />
contraire de décrire non seulement les propriétés d’un obj<strong>et</strong>, mais aussi les relations<br />
binaires (spatiales, temporelles, conceptuelles. . . ) entre ses différentes<br />
parties. Parmi ces relations, citons le concept très important de sous-graphes,<br />
qui perm<strong>et</strong> d’envisager la recherche de sous-structures au sein d’un graphe, <strong>et</strong><br />
dont les implications importantes en analyse de documents seront soulignées<br />
en 3.4.1. Par ailleurs, comme nous le verrons dans ce chapitre, les graphes ne<br />
sont pas a priori contraints à une taille donnée, le nombre de nœuds <strong>et</strong> d’arcs<br />
n’étant théoriquement pas limité par les outils exploitant ces représentations.<br />
Grâce à ce pouvoir représentationnel, couplé à l’augmentation de la puissance<br />
de calcul des ordinateurs, les représentations structurelles sont devenues<br />
de plus en plus populaires dans de nombreux domaines d’application comme<br />
la biologie, la chimie, la vision par ordinateur, l’analyse de textes ou encore<br />
la reconnaissance de formes. À titre d’illustration, en 2004, Conte <strong>et</strong> al. décrivaient<br />
dans [62] plus de 160 articles ayant trait aux outils d’appariement de<br />
graphes <strong>et</strong> à leur application dans le domaine de la reconnaissance de formes.<br />
Un comité technique de l’IAPR, le TC 15 6 , <strong>et</strong> une conférence internationale<br />
(Graph based Representations in Pattern Recognition - GbRPR) sont même<br />
spécifiquement dédiés aux représentations à base de graphe dans le domaine<br />
de la reconnaissance de formes. Dans ce contexte, les graphes ont trouvé un<br />
nombre considérable d’applications dans le domaine de l’analyse de documents,<br />
comme en témoigne l’état de l’art proposé tout récemment par Horst Bunke<br />
<strong>et</strong> Kaspar Riesen dans [42]. Ils sont par exemple exploités pour représenter<br />
des symboles [127, 206, 128, 125], des tableaux [167], la structure de docu-<br />
6. http ://www.greyc.ensicaen.fr/iapr-tc15/<br />
43
tel-00671168, version 1 - 8 Oct 2012<br />
44 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
ments [132, 126], des caractères manuscrits [134, 48] ou encore des équations<br />
mathématiques [215]. La figure 3.1 illustre quelques applications d’analyse de<br />
documents s’appuyant sur des représentations à base de graphes.<br />
Figure 3.1 – Trois exemples de représentations à base de graphes extraites<br />
sur des images de documents pour des applications respectivement dédiées à la<br />
reconnaissance de symboles [18], la reconnaissance de chiffres manuscrits [48]<br />
<strong>et</strong> l’analyse de la structure physique de documents [16].<br />
Avec c<strong>et</strong>te émergence des représentations structurelles dans le domaine de<br />
l’analyse de documents ou dans celui de la reconnaissance de formes en général,<br />
les problématiques liées aux outils de traitement des graphes ont connu un essor<br />
ou un regain d’intérêt important. Parmi les suj<strong>et</strong>s de recherche autour desquels<br />
de nombreux travaux sont en cours actuellement, on peut citer la fouille de<br />
graphe [118, 101], la classification supervisée [14, 153, 133], le clustering [216,<br />
164] ou encore la recherche d’isomorphismes de graphes ou de sous-graphes<br />
[65].<br />
Dans ce chapitre, nous abordons certaines de ces problématiques liées à<br />
l’analyse de graphes. Nos contributions dans ce domaine y sont présentées,<br />
justifiées <strong>et</strong> positionnées par rapport à l’existant. Dans les deux premières sections,<br />
nous présentons deux problèmes fondamentaux abordés aux cours de<br />
nos travaux. Le premier concerne la classification supervisée de graphes, <strong>et</strong><br />
plus particulièrement la génération de nouveaux prototypes utilisés avec un<br />
classifieur de type k Plus Proches Voisins (kPPV) [170]. Un algorithme génétique<br />
manipulant des graphes pour générer ces prototypes est proposé. Le
tel-00671168, version 1 - 8 Oct 2012<br />
3.2. Classification de graphes 45<br />
second problème est celui de la recherche d’isomorphismes de sous-graphes tolérants<br />
aux erreurs, que nous avons abordé par la programmation linéaire en<br />
nombres entiers [31]. Pour chacun de ces aspects, nous décrivons le problème<br />
<strong>et</strong> dressons une synthèse de la littérature s’y reportant, avant de présenter<br />
synthétiquement notre contribution <strong>et</strong> de discuter des résultats obtenus. Dans<br />
la section suivante, nous présentons quelques applications de ces propositions<br />
pour l’analyse d’images de documents, plus particulièrement pour la reconnaissance<br />
<strong>et</strong> la localisation de symboles dans des documents graphiques. Enfin, la<br />
dernière section dresse un bilan de ces contributions <strong>et</strong> présente des problèmes<br />
ouverts relatifs à ces travaux.<br />
3.2 Classification de graphes<br />
3.2.1 Définition du problème <strong>et</strong> revue de l’existant<br />
La classification supervisée de graphes est une problématique ayant émergé<br />
récemment avec le développement des représentations structurelles. Un algorithme<br />
de classification de graphes a pour but d’affecter une classe à un graphe<br />
inconnu, en utilisant une fonction généralement issue d’un processus d’apprentissage.<br />
Plus formellement, on peut définir l’apprentissage d’une telle fonction<br />
de la façon suivante :<br />
Définition 1. Soit χ un ensemble de graphes étiqu<strong>et</strong>és. Soit un ensemble<br />
d’apprentissage L = {〈gi, ci〉} M i=1 , où les gi ∈ χ sont des graphes étiqu<strong>et</strong>és<br />
<strong>et</strong> où ci ∈ C est la classe de gi parmi les N classes présentes dans la base<br />
d’apprentissage. L’apprentissage d’un classifieur de graphes consiste à induire<br />
de L une fonction f(g) : χ → C attribuant une classe à un graphe g inconnu.<br />
Les algorithmes de classification de graphes sont utilisés dans différents domaines,<br />
allant de l’analyse de séquences biologiques (ADN, ARN) à l’analyse<br />
de données semi-structurées (XML, HTML), en passant par la prédiction de<br />
propriétés de composants chimiques <strong>et</strong> le traitement du langage naturel [116].<br />
Dans la littérature, deux principales familles d’approches peuvent être distinguées<br />
pour résoudre un problème de classification de graphes. La première<br />
famille consiste à proj<strong>et</strong>er les graphes dans un espace vectoriel, dans le but<br />
de bénéficier de la richesse <strong>et</strong> de la robustesse des méthodes d’apprentissage<br />
statistique. La seconde famille repose sur la règle des k Plus Proches Voisins<br />
(kPPV), en s’appuyant sur une mesure de dissimilarité spécifique aux graphes.<br />
Les méthodes à base de projection Motivés par les progrès considérables<br />
réalisés en apprentissage statistique, un nombre important de travaux reposant<br />
sur des projections ont été publiés ces dix dernières années. Parmi les méthodes<br />
proposées, certaines calculent explicitement un vecteur de caractéristiques numériques<br />
décrivant le graphe (nombre de nœuds ou d’arcs d’un label donné,<br />
nombre de cycles, degrés des nœuds. . . ). C’est le cas, par exemple, dans les<br />
travaux décrits dans [132]. C<strong>et</strong>te méthode, bien que très rapide, souffre de la
tel-00671168, version 1 - 8 Oct 2012<br />
46 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
perte d’information structurelle générée par la projection <strong>et</strong> de sa non bijectivité.<br />
Deux graphes différents peuvent ainsi avoir la même description. C<strong>et</strong>te<br />
approche est étendue dans [191] par l’énumération de sous-graphes appartenant<br />
à un lexique exhaustif des graphes non isomorphes, ce qui perm<strong>et</strong> de mieux<br />
prendre en compte la topologie du graphe. D’autres méthodes dans c<strong>et</strong>te catégorie<br />
s’appuient sur la théorie spectrale des graphes, qui consiste à exploiter<br />
les valeurs propres <strong>et</strong> les vecteurs propres de la matrice d’adjacence [135] ou<br />
de la matrice laplacienne normalisée [212, 174]. Ces méthodes ont obtenu des<br />
succès importants dans le domaine de l’analyse d’images. Récemment sont également<br />
apparues des méthodes, parfois appelées graph embedding, consistant à<br />
représenter un graphe par un vecteur de mesures de dissimilarités calculées par<br />
rapport à un ensemble donné de graphes [177]. Ces vecteurs numériques sont<br />
ensuite utilisés pour l’apprentissage d’un classifieur statistique. De telles méthodes<br />
ont l’avantage de pouvoir traiter n’importe quel type de graphes, sous<br />
réserve de disposer d’une mesure de dissimilarité adéquate. Enfin, citons dans<br />
c<strong>et</strong>te catégorie les méthodes à noyaux, sur lesquelles se concentrent beaucoup<br />
de travaux depuis quelques années. Initialement proposées par [85] <strong>et</strong> [108], ces<br />
approches ne proj<strong>et</strong>tent pas explicitement les graphes dans un espace vectoriel<br />
mais reposent sur le calcul d’un noyau qui exprime la similarité entre graphes<br />
<strong>et</strong> qui est ensuite utilisé comme un produit scalaire. De très nombreuses contributions<br />
relatives à la proposition de noyaux sont disponibles dans la littérature.<br />
Celles-ci se basent sur des marches aléatoires dans les graphes, des chemins,<br />
des cycles ou encore des sous-arbres. Une bonne revue de ces noyaux est disponible<br />
dans [42]. Ces noyaux sont ensuite exploités par des machines à noyaux<br />
telles que les SVM (Support Vector Machine) ou les KPCA (Kernel Principal<br />
Component Analysis) [108, 109, 197, 137, 138, 209].<br />
Les méthodes à base de kPPV Ce type de méthode est souvent choisi<br />
pour sa simplicité de mise en œuvre <strong>et</strong> son bon comportement asymptotique.<br />
De telles approches consistent à classifier les graphes en appliquant la règle des<br />
k Plus Proches Voisins exploitant une mesure de dissimilarité entre graphes.<br />
Ces méthodes souffrent toutefois des limitations inhérentes à la méthode des<br />
kPPV, à savoir sa complexité combinatoire, son besoin de stockage important<br />
<strong>et</strong> sa sensibilité aux exemples bruités. Une solution souvent adoptée pour pallier<br />
ces défauts consiste, comme pour certaines des méthodes précédemment évoquées<br />
pour la projection, à réduire l’ensemble de graphes utilisés pour les kPPV<br />
par l’intermédiaire d’un processus d’extraction de prototypes (parfois appelés<br />
représentants). On parle alors de méthode des k plus proches prototypes (k<br />
Nearest Prototype Classifier - kNPC). Une telle stratégie n’est évidemment<br />
pas propre au problème de classification de graphes. Elle est également exploitée<br />
pour comparer des contours dans des applications de vision [58] ou pour<br />
la reconnaissance statistique de formes [69, 91, 50, 26]. Dans le domaine de<br />
la reconnaissance structurelle qui nous intéresse ici, on peut citer les travaux<br />
présentés dans [103] qui exploitent des prototypes basés sur la présence de<br />
sous-graphes communs, les approches proposées dans [32] <strong>et</strong> [40] qui crèent des<br />
représentations appelées super-graphs ou les travaux de [139] qui consistent<br />
à générer des creative prototypes en appliquant à un graphe germe une sé
tel-00671168, version 1 - 8 Oct 2012<br />
3.2. Classification de graphes 47<br />
rie d’opérations d’édition pour générer les prototypes. La dernière approche à<br />
mentionner, probablement la plus fréquemment utilisée, est celle consistant à<br />
exploiter les graphes médians en tant que prototypes [79, 41, 104, 78, 93]. Le<br />
calcul de tels graphes repose sur la minimisation de la somme des distances<br />
du graphe recherché à l’ensemble des graphes d’une classe donnée. Deux types<br />
de graphes médians sont proposés dans la littérature : les graphes médians<br />
d’ensemble (Définition 2) <strong>et</strong> les graphes médians généralisés (Définition 3). Ils<br />
diffèrent en fonction de l’espace dans lequel ils sont calculés. Dans le premier<br />
cas, l’espace de recherche est limité à l’ensemble initial de graphes. On parle<br />
alors de sélection de prototypes. Dans le second cas, ils sont calculés dans un<br />
ensemble infini contenant tous les graphes pouvant être construits à partir de<br />
l’ensemble des labels des graphes initiaux. On parle alors de génération de<br />
prototypes. Les graphes médians généralisés se sont montrés particulièrement<br />
efficaces pour modéliser une classe de graphes <strong>et</strong> pour rej<strong>et</strong>er des exemples<br />
bruités [104].<br />
Définition 2. Soit d(., .) une distance ou une mesure de dissimilarité entre<br />
deux graphes. Soit S = {g1, g2, . . . , gn} un ensemble de graphes. Le graphe<br />
médian d’ensemble (s<strong>et</strong> median graph - smg) de S est défini par :<br />
smg = arg min<br />
g∈S<br />
n<br />
d(g, gi) (3.1)<br />
Définition 3. Soit d(., .) une distance ou une mesure de dissimilarité entre<br />
deux graphes. Soit S = {g1, g2, . . . , gn} un ensemble de graphes. Soit U l’ensemble<br />
infini des graphes qui peuvent être construits à partir des labels de S. Le<br />
graphe médian généralisé (generalized median graph - gmg) du sous-ensemble<br />
S est défini par :<br />
gmg = arg min<br />
g∈U<br />
i=1<br />
n<br />
d(g, gi) (3.2)<br />
Dans les deux cas, lorsqu’ils sont utilisés comme échantillons d’apprentissage<br />
pour un processus de classification, ces prototypes ne tiennent compte que<br />
de la distribution intra-classe des données. Ce sont ainsi des prototypes davantage<br />
modélisants que discriminants. Dans nos travaux, nous avons étendu la<br />
notion de graphe médian par la proposition de nouveaux types de prototypes<br />
appelés graphes discriminants. Les définitions de ces graphes, ainsi que l’algorithme<br />
perm<strong>et</strong>tant de les générer sont décrits dans la sous-section suivante.<br />
3.2.2 Contributions<br />
Pour pallier le défaut des approches modélisantes, nous avons proposé dans<br />
[170] l’utilisation de prototypes discriminants (discriminative graphs - dg) pour<br />
la classification de graphes. La différence principale avec les graphes médians<br />
réside dans le critère utilisé pour générer les prototypes. Dans le cas des dg, ce<br />
sont les performances de classification évaluées sur un ensemble de graphes de<br />
i=1
tel-00671168, version 1 - 8 Oct 2012<br />
48 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
validation qui sont utilisées pour optimiser les graphes prototypes. L’information<br />
exploitée pour générer les prototypes dépasse ainsi la simple connaissance<br />
de la distribution intra-classe des données. Par analogie avec la terminologie<br />
utilisée dans la communauté de la sélection de caractéristiques, nous proposons<br />
donc une approche de type wrapper, qui inclut le critère final de performance<br />
dans le processus de sélection. Les prototypes sont définis de la façon suivante :<br />
Définition 4. Soit N le nombre de classes d’un ensemble d’apprentissage<br />
L. Soit T un ensemble de validation <strong>et</strong> soit ∆ T , {gi} N <br />
i=1 une fonction calculant<br />
le taux d’erreur obtenu par un classifieur 1-PPV sur T en utilisant<br />
les graphes prototypes {gi} N i=1 ⊂ L comme échantillons d’apprentissage. L’ensemble<br />
des S<strong>et</strong> Discriminative Graphs (SDG), composé des sdgi de chaque<br />
classe est donné par :<br />
SDG = {sdg1, sdg2, . . . , sdgN}<br />
= arg min<br />
{gi} N i=1⊂L ∆(T , {gi} N i=1) (3.3)<br />
Définition 5. Soit N le nombre de classes d’un ensemble d’apprentissage<br />
L. Soit U l’ensemble infini des graphes qui peuvent être construits à partir des<br />
labels de L. Soit T un ensemble de validation <strong>et</strong> soit ∆ T , {gi} N <br />
i=1 une fonction<br />
calculant le taux d’erreur obtenu par un classifieur 1-PPV sur T en utilisant<br />
les graphes prototypes {gi} N i=1 ⊂ U comme échantillons d’apprentissage. Alors<br />
l’ensemble des Generalized Discriminative Graphs GDG composé des gdgi de<br />
chaque classe est donné par :<br />
GDG = {gdg1, gdg2, . . . , gdgN}<br />
= arg min<br />
{gi} N i=1⊂U ∆(T , {gi} N i=1) (3.4)<br />
Ces deux définitions ont été étendues à la possibilité de générer plusieurs<br />
prototypes par classes, afin de mieux décrire la distribution des données.<br />
Définition 6. Soit N le nombre de classes d’un ensemble d’apprentissage<br />
L. Soit U l’ensemble infini des graphes qui peuvent être construits à<br />
partir des labels de L. Soit M le nombre de prototypes par classe. Soit T<br />
un ensemble de validation <strong>et</strong> soit ∆ T , {gi} N <br />
i=1 une fonction calculant le taux<br />
d’erreur obtenu par un classifieur 1-PPV 7 sur T en utilisant les graphes prototypes<br />
{gik} N,M<br />
i=1,k=1 ⊂ U comme échantillons d’apprentissage. Alors l’ensemble<br />
MGDG composé des gdgik de chaque classe est donné par :<br />
7. Dans ce cas, il est possible de considérer un classifieur des kPPV avec k > 1, <strong>et</strong> ainsi<br />
intégrer du rej<strong>et</strong>.
tel-00671168, version 1 - 8 Oct 2012<br />
3.2. Classification de graphes 49<br />
MGDG = {gdg11, ..., gdg1M, ..., gdgN1, ..., gdgNM}<br />
<br />
T , {gik} N,M<br />
<br />
i=1,k=1<br />
= arg min<br />
{gik} N,M<br />
i=1,k=1⊂U ∆<br />
(3.5)<br />
La recherche des prototypes ainsi définis est un processus d’optimisation.<br />
Dans [170], nous avons proposé de traiter ce problème d’optimisation par un<br />
Algorithme Génétique (AG) [87] dédié à la manipulation de graphes. C<strong>et</strong>te<br />
spécialisation originale a reposé sur les points suivants :<br />
– le codage des individus représentant les solutions possibles du problème<br />
d’optimisation. Pour tous les types de prototypes proposés dans les définitions<br />
précédentes, un individu est représenté par un ensemble de m×N<br />
gènes correspondant aux graphes prototypes. Dans le cas de prototypes<br />
d’ensemble, les gènes sont simplement les indices des graphes sélectionnés<br />
dans l’ensemble d’apprentissage. Dans le cas des graphes généralisés,<br />
les gènes correspondent aux matrices d’adjacence des graphes ;<br />
– une fonction évaluant le score d’un individu. Ces fonctions sont directement<br />
issues des définitions précédentes. Notons que quel que soit le type<br />
de prototype considéré, les calculs reposent sur un calcul de dissimilarité<br />
entre graphes. Dans [170], nous utilisons la distance proposée par [132],<br />
mais l’approche peut exploiter n’importe quel type de distance (la distance<br />
d’édition [39, 83] ou ses approximations [176], des distances basées<br />
sur le plus grand sous-graphe commun [43], des distances basées sur l’appariement<br />
de sous-graphes [172] ou des distances basées sur des unions<br />
de graphes [211]. . . ) ;<br />
– une stratégie de sélection. L’objectif de la sélection dans les AG est de<br />
sélectionner des individus pour former la génération suivante. Nous utilisons<br />
dans ce cadre une roue de loterie biaisée, en y ajoutant un mécanisme<br />
d’élitisme dans lequel les µ meilleurs individus sont préservés afin<br />
de garantir la convergence de l’algorithme ;<br />
– des opérateurs génétiques dédiés. Le croisement utilisé pour tous les types<br />
de prototypes est un opérateur classique consistant à effectuer un échange<br />
de gènes entre individus à croiser, en respectant la distribution par classe.<br />
La mutation quant à elle, diffère en fonction des prototypes extraits. Dans<br />
le cas des prototypes d’ensemble, la mutation correspond simplement à<br />
changer l’indice d’un graphe prototype par un autre de la même classe.<br />
Dans le cas des prototypes généralisés, nous avons proposé un opérateur<br />
original consistant à appliquer aléatoirement un ensemble d’opérations<br />
d’édition (suppression, ajout ou modification des nœuds <strong>et</strong> des arcs) sur<br />
le graphe. C<strong>et</strong> opérateur est détaillé dans [170] <strong>et</strong> illustré par la figure<br />
3.2.<br />
Toutes ces spécificités sont précisément décrites <strong>et</strong> illustrées dans l’annexe<br />
E. Les performances que perm<strong>et</strong>tent d’obtenir ces différents types de prototypes<br />
ont été évaluées sur quatre bases de graphes proposées dans la com
tel-00671168, version 1 - 8 Oct 2012<br />
50 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
(b) Vertex del<strong>et</strong>ion<br />
(d) Vertex insertion<br />
1 2 3<br />
1 X a<br />
2 Y b<br />
3 Y c<br />
(a) Initial graph<br />
1 2 3 4 5<br />
1 X Z a<br />
2 Y b<br />
3 Y c<br />
4 W a<br />
5 c<br />
1 2 3 4<br />
1 X Z a<br />
2 Y b<br />
3 Y c<br />
4 W b<br />
(f) Vertex substitution<br />
1 2 3 4<br />
1 X Z a<br />
2 Y b<br />
3 Y c<br />
4 W a<br />
(c) Edge del<strong>et</strong>ion<br />
(e) Edge insertion<br />
(g) Edge substitution<br />
1 2 3 4<br />
1 X a<br />
2 Y b<br />
3 Y c<br />
4 W a<br />
1 2 3 4<br />
1 X Z a<br />
2 Y b<br />
3 Y Z c<br />
4 W a<br />
1 2 3 4<br />
1 X Z a<br />
2 Y b<br />
3 Z c<br />
4 W a<br />
Figure 3.2 – Illustration de l’opérateur de mutation proposé pour les graphes<br />
généralisés, tirée de [170]. La première ligne illustre un graphe de départ <strong>et</strong><br />
sa matrice d’adjacence. La dernière colonne de la matrice contient le label des<br />
nœuds. Les sous-figures (b) à (g) présentent les différentes opérations d’édition<br />
possibles, avec leurs répercussions sur le graphe <strong>et</strong> sur la matrice.
tel-00671168, version 1 - 8 Oct 2012<br />
3.2. Classification de graphes 51<br />
% smg gmg sdg gdg<br />
Rec σ Rec σ Rec σ Rec σ<br />
Base A 33.75 0.0 36.00 1.52 66.10 0.981 66.67 1.59<br />
Base B 62.5 0.0 75 0.0 71.42 2.5 83.39 2.5<br />
Base C 86.92 0.0 85.48 2.05 86.58 0.596 90.70 0.59<br />
Base D 69.61 0.0 69.14 0.34 69.67 0.67 71.24 1.47<br />
Table 3.1 – Résultats obtenus par les différents prototypes pour M = 1.<br />
munauté. Les expériences ont d’abord concerné l’étude de la convergence de<br />
l’algorithme, en comparant les smg <strong>et</strong> sdg obtenus par l’algorithme proposé<br />
avec ceux déterminés par une recherche exhaustive. Les résultats ont montré<br />
que moins de 50 générations de l’AG étaient nécessaires pour obtenir des résultats<br />
identiques. Puis, les performances obtenues par les différents prototypes<br />
ont été comparées pour M = 1. Les résultats obtenus sont présentés dans le<br />
tableau 3.1. Ces résultats démontrent tout d’abord que les prototypes généralisés<br />
(gmg,gdg) sont plus performants que les prototypes d’ensemble (smg,sdg).<br />
Par ailleurs, ils confirment également la supériorité des prototypes discriminants<br />
sur les prototypes modélisants.<br />
Nous avons également comparé les performances obtenues par les MGDG<br />
à celles obtenues par un classifieur 1-PPV sur l’ensemble de la base d’apprentissage.<br />
Les résultats (tableau 3.2) ont prouvé qu’en augmentant le nombre de<br />
prototypes par classe, il était possible de dépasser les performances de l’algorithme<br />
de référence avec les MGDG. Cela démontre qu’exploiter les performances<br />
sur un ensemble de validation est un critère plus adapté pour la génération<br />
de prototypes que celui généralement utilisé pour calculer des graphes<br />
médians. Une analyse de la complexité temporelle est également proposée dans<br />
l’annexe E.<br />
Enfin, c<strong>et</strong>te contribution a aussi permis de m<strong>et</strong>tre en exergue le fait que les<br />
algorithmes génétiques pouvaient être adaptés pour traiter des problèmes manipulant<br />
des graphes, ce qui, à notre connaissance, est rare dans la littérature<br />
[37, 136].<br />
BaseA BaseB BaseC BaseD<br />
gdg 1-NN gdg 1-NN gdg 1-NN gdg 1-NN<br />
Red (%) 92.52 0 50.71 0 86.67 0 76.3 0<br />
Rec (%) 86.34 85.16 97.14 96.43 99.71 99.47 91.04 90.16<br />
<br />
Table 3.2 – Taux de réduction (Red = 100 1 − m×N<br />
<br />
|T r∪T v| <strong>et</strong> taux de reconnaissance<br />
(Rec) obtenus par les gdg <strong>et</strong> un classifieur 1PPV sur la base<br />
d’apprentissage complète T r ∪ T v.<br />
L’approche proposée dans c<strong>et</strong>te section perm<strong>et</strong> ainsi de classifier des graphes.<br />
Toutefois, dans le contexte de l’analyse d’images de documents, un tel algorithme<br />
ne peut être appliqué que sur une entité isolée représentée par un<br />
graphe. Il faut donc avoir préalablement « segmenté » le graphe pour pouvoir
tel-00671168, version 1 - 8 Oct 2012<br />
52 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
exploiter le classifieur. L’approche ne perm<strong>et</strong> donc pas de résoudre l’un des<br />
principaux problèmes relatifs à l’analyse structurelle de documents, à savoir<br />
celui de la recherche d’occurrences d’obj<strong>et</strong>s présents dans un document compl<strong>et</strong>.<br />
La section suivante aborde ce problème de localisation.<br />
3.3 Isomorphismes de sous-graphes<br />
3.3.1 Définition du problème <strong>et</strong> revue de l’existant<br />
Dans le domaine de l’analyse de documents ou plus généralement de la<br />
vision par ordinateur, les graphes représentent généralement des obj<strong>et</strong>s à localiser<br />
dans un document ou une image. Pour ce faire, il est nécessaire d’avoir<br />
recours à des techniques d’appariement de graphes qui établissent une correspondance<br />
entre les somm<strong>et</strong>s de deux graphes. Différents problèmes d’appariement<br />
de graphes existent, tels que l’isomorphisme de graphes, l’isomorphisme<br />
de sous-graphes, la recherche du plus grand sous-graphe commun ou la distance<br />
d’édition entre graphes. Nous nous intéressons ci-dessous au problème<br />
de l’isomorphisme de sous-graphes qui repose sur les définitions suivantes.<br />
Définition 7. Un graphe attribué G est un 4-tuple G = (V, E, µ, ξ) tel que :<br />
– V est l’ensemble des nœuds de G ;<br />
– E est l’ensemble des arcs de G, i.e. un ensemble de paires e = (v1, v2)<br />
avec v1 ∈ V <strong>et</strong> v2 ∈ V ;<br />
– µ : V → LV est une fonction affectant un label à un nœud, LV étant<br />
l’ensemble des labels possibles pour les nœuds ;<br />
– ξ : E → LE est une fonction affectant un label à un arc, LE étant<br />
l’ensemble des labels possibles pour les arcs.<br />
Définition 8. Soit un graphe G = (V, E, µ, ξ), un sous-graphe de G est un<br />
graphe S = (VS, ES, µS, ξS) tel que :<br />
– VS ⊆ V ;<br />
– ES ⊆ E ;<br />
– µS <strong>et</strong> ξS sont les restrictions de µ <strong>et</strong> ξ à VS <strong>et</strong> ES, i.e. µS(v) = µ(v) <strong>et</strong><br />
ξS(e) = ξ(e).<br />
Notons qu’il existe des variantes de c<strong>et</strong>te définition. En particulier, un sousgraphe<br />
S de G est appelé sous-graphe induit si ES = E ∩ (VS × VS). Cela<br />
implique que S contient tous les arcs e ∈ E qui joignent des nœuds de S.<br />
Définition 9. Une fonction bijective f : V → V ′ est un isomorphisme<br />
entre un graphe G = (V, E, µ, ξ) <strong>et</strong> un graphe G ′ = (V ′ , E ′ , µ ′ , ξ ′ ) si :<br />
– µ(v) = µ ′ (f (v)) pour tout v ∈ V ;<br />
– pour tout arc e = (v1, v2) ∈ E, il existe un arc e ′ = (f(v1), f(v2)) ∈ E ′<br />
tel que ξ(e) = ξ ′ (e ′ ), <strong>et</strong> pour tout e ′ = (v ′ 1 , v′ 2 ) ∈ E′ , il existe un arc
tel-00671168, version 1 - 8 Oct 2012<br />
3.3. Isomorphismes de sous-graphes 53<br />
e = (f −1 (v ′ 1 ), f −1 (v ′ 2 )) ∈ E′ tel que ξ(e) = ξ ′ (e ′ ).<br />
Définition 10. Une fonction injective f : V → V ′ est un isomorphisme de<br />
sous-graphe d’un graphe G = (V, E, µ, ξ) dans un graphe G ′ = (V ′ , E ′ , µ ′ , ξ ′ )<br />
s’il existe un sous-graphe S ⊆ G ′ tel que f est un isomorphisme de graphe de<br />
G vers S :<br />
– µ(v) = µ (f (v)) pour tout v ∈ V ;<br />
– pour tout arc e = (v1, v2) ∈ E, il existe un arc e ′ = (f(v1), f(v2)) ∈ E ′<br />
tel que ξ(e) = ξ ′ (e ′ ).<br />
Les définitions 9 <strong>et</strong> 10 caractérisent des appariements exacts, ainsi dénommés<br />
pour deux raisons. D’une part parce que la topologie des deux graphes (ou<br />
sous-graphes) doit être exactement la même, d’autre part parce que l’appariement<br />
nécessite une égalité stricte des labels.<br />
De nombreux algorithmes ont été proposés dans la littérature pour résoudre<br />
de tels problèmes de recherche d’isomorphismes exacts. La plupart sont basés<br />
sur une recherche arborescente associée à une procédure de r<strong>et</strong>our en arrière.<br />
Les approches diffèrent généralement (i) en fonction de l’ordre dans lequel les<br />
appariements partiels sont visités, par exemple en ajoutant une vérification de<br />
la cohérence des arcs [208] <strong>et</strong> (ii) en fonction des heuristiques qui sont utilisées<br />
pour élaguer l’arbre [64, 65, 193]. Ces heuristiques consistent à analyser<br />
les ensembles de nœuds adjacents à ceux contenus dans l’appariement courant.<br />
Il existe également quelques alternatives à ces recherches arborescentes,<br />
comme par exemple l’algorithme NAUTY proposé dans [144] qui s’appuie sur<br />
la théorie des groupes. Un état de l’art très compl<strong>et</strong> <strong>et</strong> détaillé sur les méthodes<br />
d’appariement exact est proposé dans [62].<br />
Toutes ces approches souffrent de deux limitations principales. La première<br />
est leur complexité algorithmique. À part dans le cas de l’isomorphisme exact<br />
de graphes, pour lequel il n’a pas été montré qu’il appartenait aux problèmes<br />
NP-compl<strong>et</strong>s ; <strong>et</strong> sauf pour des applications spécifiques, tous les problèmes<br />
d’appariement de graphes sont NP-compl<strong>et</strong>s <strong>et</strong> ont une complexité temporelle<br />
exponentielle dans le pire des cas [84]. Par ailleurs, le second <strong>et</strong> principal défaut<br />
de ces approches dans le cadre de nos travaux est leur sensibilité aux bruits<br />
<strong>et</strong> aux distorsions. En eff<strong>et</strong>, dans le domaine de l’analyse de documents, les<br />
graphes représentent en général des obj<strong>et</strong>s qui peuvent être bruités ou déformés.<br />
Dans ce cas, les graphes résultants peuvent voir leur topologie ou leur<br />
étiqu<strong>et</strong>age affectés par ce bruit. Vient alors la nécessité d’utiliser des algorithmes<br />
d’appariement tolérants aux erreurs, qui relâchent des contraintes sur<br />
le matching. Le problème de décision devient alors un problème d’optimisation<br />
dont le but est de trouver l’appariement qui minimise un coût tel que<br />
la distance d’édition [146]. Différentes alternatives ont été proposées dans la<br />
littérature pour résoudre ce problème. Certaines sont optimales, <strong>et</strong> assurent<br />
donc que l’appariement trouvé est optimal. C’est le cas des méthodes utilisant<br />
l’algorithme A ∗ combinées avec des heuristiques d’exploration de l’espace<br />
d’état. D’autres méthodes sont sous-optimales mais perm<strong>et</strong>tent de trouver des<br />
solutions dans un temps polynomial en exploitant par exemple la relaxation
tel-00671168, version 1 - 8 Oct 2012<br />
54 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
probabiliste, les réseaux de neurones ou les algorithmes génétiques. Un état de<br />
l’art très compl<strong>et</strong> de toutes ces méthodes est proposé dans [62].<br />
Un cas particulier de problème d’appariement est la situation dans laquelle<br />
les graphes à apparier doivent être structurellement isomorphes, mais pour<br />
lesquels on tolère des différences entre attributs. Nous avons appelé un tel<br />
problème celui de l’isomorphisme de sous-graphes tolérant aux substitutions.<br />
Une approche perm<strong>et</strong>tant d’aborder ces problèmes consiste à modifier les algorithmes<br />
exacts, par une redéfinition de la fonction de compatibilité entre les<br />
nœuds <strong>et</strong> les arcs. Ainsi, en définissant deux seuils (un pour les nœuds, un pour<br />
les arcs), deux nœuds (resp. arcs) sont alors considérés comme compatibles si<br />
une distance entre leurs attributs est inférieure à ce seuil. Bien sûr, la difficulté<br />
principale est alors de définir la valeurs de ces seuils.<br />
3.3.2 Contributions<br />
Dans [31], nous avons abordé le problème de recherche d’isomorphisme de<br />
sous-graphes sous l’angle de la programmation mathématique (Mathematical<br />
Programming -MP) qui fournit un ensemble de solutions pour résoudre des<br />
problèmes d’optimisation. Plus précisément, la solution r<strong>et</strong>enue a été celle de<br />
la Programmation Linéaire en Nombres Entiers (PLNE) [152, 187] qui est une<br />
restriction de la programmation mathématique perm<strong>et</strong>tant de modéliser des<br />
problèmes spécifiques, <strong>et</strong> pour laquelle de nombreux algorithmes de résolution<br />
existent <strong>et</strong> sont constamment améliorés par la communauté. Il existe ainsi de<br />
nombreux solveurs qui perm<strong>et</strong>tent de résoudre des problèmes de PLNE. Ce<br />
paradigme a été utilisé dans de très nombreux domaines, allant de l’énergie à<br />
la finance, en passant par les télécommunications ou la logistique. La PLNE est<br />
reconnue comme une des techniques les plus efficaces pour traiter des problèmes<br />
d’optimisation NP-compl<strong>et</strong>s [111, 11, 99].<br />
Un programme mathématique est une modélisation d’un problème d’optimisation<br />
sous la forme d’une fonction objectif <strong>et</strong> d’un ensemble de contraintes.<br />
Dans le cas d’un programme linéaire, la fonction objectif <strong>et</strong> les contraintes sont<br />
des combinaisons linéaires des paramètres du problème d’optimisation. Le cas<br />
spécifique de la PLNE impose en plus que les solutions recherchées soient entières.<br />
La forme générale d’un programme linéaire en nombres entiers est donc<br />
la suivante :<br />
min c<br />
x<br />
t x (3.6)<br />
sous la contrainte Ax ≤ b (3.7)<br />
x ∈ C ⊆ Z n<br />
(3.8)<br />
Dans c<strong>et</strong>te formulation, c ∈ R n , A ∈ R m.n , b ∈ R m sont les données décrivant<br />
le problème. Le vecteur x de n variables est la solution recherchée du problème,<br />
il appartient à Z n dans le cas de la programmation en nombres entiers<br />
(3.8). Les variables de A perm<strong>et</strong>tent d’exprimer des contraintes linéaires (3.7).<br />
Une solution valide pour le problème est un vecteur x tel que les contraintes<br />
(3.7) <strong>et</strong> (3.8) sont respectées. Une telle solution est dite réalisable. Trouver
tel-00671168, version 1 - 8 Oct 2012<br />
3.3. Isomorphismes de sous-graphes 55<br />
Figure 3.3 – Un exemple d’appariement. S <strong>et</strong> G contiennent chacun un arc<br />
unique, respectivement ij <strong>et</strong> kl. La solution suivante est représentée sur la<br />
figure : xi,k = 1 (resp. xj,l = 1, yij,kl = 1), i.e. i (resp. j, ij) est apparié avec<br />
k (resp. l, kl). Réciproquement, i (resp. j) n’est pas apparié avec l (resp. k),<br />
donc xi,l = 0 (resp. xj,k = 0).<br />
une solution optimale consiste alors à minimiser la fonction objectif (3.6) sur<br />
l’ensemble des solutions réalisables.<br />
La résolution d’un problème d’optimisation utilisant la programmation linéaire<br />
en nombres entiers repose donc essentiellement sur la formulation de<br />
celui-ci sous la forme d’une fonction objectif <strong>et</strong> d’un ensemble de contraintes.<br />
Pour modéliser le problème de la recherche d’isomorphisme de sous-graphes,<br />
nous avons proposé d’utiliser des variables binaires. La solution au problème<br />
prend donc ses valeurs dans {0, 1} n . Comme l’illustre la figure 3.3, deux types<br />
de variables sont définis :<br />
– pour chaque nœud i ∈ VS <strong>et</strong> pour chaque nœud k ∈ VG, une variable xi,k<br />
est définie telle que xi,k = 1 si les nœuds i <strong>et</strong> k sont appariés, 0 s’ils ne<br />
le sont pas ;<br />
– pour chaque arc ij ∈ ES <strong>et</strong> pour chaque arc kl ∈ EG, une variable yij,kl<br />
est définie telle que yij,kl = 1 si les arcs ij <strong>et</strong> kl sont appariés, 0 s’ils ne<br />
le sont pas.<br />
Formellement, c<strong>et</strong>te définition des variables du problème s’écrit donc :<br />
xi,k ∈ {0, 1} ∀i ∈ VS, ∀k ∈ VG (3.9)<br />
yij,kl ∈ {0, 1} ∀ij ∈ ES, ∀kl ∈ EG (3.10)<br />
Soient S = (VS , ES ) <strong>et</strong> G = (VG , EG ) les deux graphes à apparier. Supposons<br />
connues les fonctions de coût cV : VS × VG → R + <strong>et</strong> cE : ES × EG → R +<br />
donnant respectivement les coûts d’appariement des nœuds <strong>et</strong> des arcs telles<br />
que l’appariement de i <strong>et</strong> k (i.e. xi,k = 1) a un coût cV (i, k), alors que leur<br />
non-appariement (i.e. xi,k = 0) a un coût 0. Le coût global de l’appariement
tel-00671168, version 1 - 8 Oct 2012<br />
56 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
peut alors s’écrire comme une combinaison linéaire cV (i, k) ∗ xi,k. De façon<br />
similaire, le coût entre deux arcs ij ∈ ES <strong>et</strong> kl ∈ EG est cE(ij, kl) ∗ yij,kl. Dans<br />
ce cadre, la fonction objectif du problème d’appariement de S = (VS , ES ) avec<br />
un sous-graphe de G = (VG , EG ) peut s’écrire :<br />
min<br />
x,y<br />
⎛<br />
⎝ <br />
i∈VS k∈VG<br />
<br />
cV (i, k) ∗ xi,k + <br />
<br />
ij∈ES kl∈EG<br />
⎞<br />
cE(ij, kl) ∗ yij,kl⎠<br />
(3.11a)<br />
Naturellement, la minimisation de c<strong>et</strong>te expression n’est pas suffisante pour<br />
décrire le problème d’isomorphisme de sous-graphes, car aucune contrainte<br />
concernant le respect de la topologie n’est intégrée (le coût serait nul si aucun<br />
nœud <strong>et</strong> aucun arc n’était apparié). C<strong>et</strong> aspect est géré par l’intermédiaire des<br />
contraintes. Celles-ci, qui sont illustrées dans [31], prennent la forme suivante :<br />
<br />
kl∈EG<br />
<br />
kl∈EG<br />
<br />
xi,k = 1 ∀i ∈ VS (3.11b)<br />
k∈VG<br />
<br />
kl∈EG<br />
yij,kl = 1 ∀ij ∈ ES (3.11c)<br />
<br />
xi,k ≤ 1 ∀k ∈ VG (3.11d)<br />
i∈VS<br />
yij,kl = xi,k ∀k ∈ VG, ∀ij ∈ ES (3.11e)<br />
yij,kl = xj,l ∀l ∈ VG, ∀ij ∈ ES (3.11f)<br />
Les équations (3.9) à (3.11f) constituent le programme linéaire en nombres<br />
entiers qui est utilisé pour résoudre le problème d’isomorphisme de sous-graphes.<br />
Dès lors que la recherche d’isomorphisme est modélisée sous la forme d’un programme<br />
linéaire, il est possible de la résoudre en utilisant un solveur mathématique.<br />
Dans c<strong>et</strong>te étude, nous utilisons un solveur disponible sous licence<br />
CPL appelé SYMPHONY <strong>et</strong> décrit dans [169]. Pour résoudre une instance du<br />
problème, le solveur dispose d’une batterie de méthodes qui améliorent ou s’inspirent<br />
du Branch and Bound (Séparation <strong>et</strong> Évaluation), <strong>et</strong> sont proposées par<br />
la communauté de la programmation mathématique. Notons que le problème<br />
ainsi modélisé peut être infaisable, s’il n’existe pas d’isomorphisme entre S <strong>et</strong><br />
un sous-graphe de G. Dans ce cas, le solveur ne r<strong>et</strong>ourne pas de solution. Si au<br />
moins un isomorphisme existe, le solveur r<strong>et</strong>ournera uniquement la solution de<br />
coût minimal, i.e. le meilleur isomorphisme. Or, il peut être intéressant, pour<br />
certains cas d’usage, de r<strong>et</strong>ourner une liste d’isomorphismes. Dans ce cadre, qui<br />
sera illustré en 3.4.1, nous avons proposé une stratégie consistant à appliquer<br />
itérativement le modèle, en supprimant les solutions trouvées de l’ensemble des<br />
solutions possibles.<br />
L’évaluation des performances des algorithmes de recherche d’isomorphismes<br />
de sous-graphes est un problème difficile qui implique de disposer (i) de bases
tel-00671168, version 1 - 8 Oct 2012<br />
3.4. Applications à l’analyse de documents graphiques 57<br />
de graphes <strong>et</strong> de sous-graphes <strong>et</strong> (ii) de la vérité terrain concernant les isomorphismes<br />
existants. Pour des applications du monde réel, générer c<strong>et</strong>te vérité<br />
terrain est une tâche complexe <strong>et</strong> « chronophage », particulièrement dans le cas<br />
d’isomorphismes inexacts car il faut alors considérer simultanément les données<br />
brutes <strong>et</strong> leur représentation sous forme de graphes. Dans la littérature, la<br />
plupart des articles traitant du problème d’isomorphisme de sous-graphes proposent<br />
une évaluation reposant sur des bases de données synthétiques, comme<br />
la base VF décrite dans [63] ou les bases du TC 15 de l’IAPR 8 . Toutefois, toutes<br />
ces bases sont, à notre connaissance, dédiées à des appariements exacts, <strong>et</strong> reposent<br />
sur un étiqu<strong>et</strong>age des nœuds <strong>et</strong> des arcs avec des attributs nominaux <strong>et</strong><br />
non numériques ou vectoriels. Elles ne perm<strong>et</strong>tent donc pas d’évaluer des algorithmes<br />
tolérants aux substitutions. Dans ce contexte, nous avons choisi de mener<br />
nos expérimentations sur des bases de données synthétiques adaptées aux<br />
problèmes tolérants aux substitutions <strong>et</strong> sur une base issue d’une application<br />
réelle 9 . Nous avons donc implémenté un générateur de graphes synthétiques 10 .<br />
Pour les raisons évoquées précédemment, nous n’avons pu comparer nos résultats<br />
avec les deux algorithmes références de la littérature que sont VF2 [65]<br />
<strong>et</strong> LAD [193] que dans le cas d’appariements exacts. Les résultats obtenus ont<br />
montré que l’algorithme proposé n’était pas compétitif avec les approches de la<br />
littérature pour effectuer une recherche exacte. Ce résultat attendu s’explique,<br />
d’une part, par le fait que l’approche proposée n’a pas vocation première à traiter<br />
ce genre de problèmes, <strong>et</strong> d’autre part, parce que nous n’avons pas cherché<br />
à optimiser le fonctionnement du solveur dans ce cadre. En revanche, les résultats<br />
obtenus pour la recherche d’isomorphismes tolérants aux substitutions ont<br />
montré que l’approche perm<strong>et</strong>tait de résoudre le problème sans augmentation<br />
sensible des temps de calcul alors qu’à notre connaissance, il n’existe pas de<br />
solutions perm<strong>et</strong>tant naturellement de résoudre de tels problèmes.<br />
3.4 Applications à l’analyse de documents graphiques<br />
Dans c<strong>et</strong>te section, deux systèmes reposant sur des représentations structurelles<br />
<strong>et</strong> dédiés au domaine de l’analyse d’images de documents graphiques<br />
sont présentés. Plus précisément, nous nous intéressons ici à la problématique<br />
du traitement des symboles sur de tels documents. Depuis quelques années,<br />
la reconnaissance de ces entités symboliques est devenue la problématique la<br />
plus prolifique en termes de littérature dans la communauté de l’analyse de<br />
documents graphiques. C<strong>et</strong>te évolution s’explique par la maturité des outils<br />
dédiés aux problématiques spécifiques à ces documents, telles que la séparation<br />
texte/graphique ou la vectorisation, qui ont longtemps été au cœur des<br />
préocupations des chercheurs du domaine, mais aussi <strong>et</strong> surtout par l’évolution<br />
des besoins <strong>et</strong> par l’importance que la reconnaissance des symboles revêt<br />
dans le cadre de l’indexation des documents graphiques. En eff<strong>et</strong>, que le domaine<br />
d’application concerne l’architecture, la cartographie, l’électronique, la<br />
8. http ://www.greyc.ensicaen.fr/iapr-tc15<br />
9. Ces résultats seront présentés en 3.4.1.<br />
10. Ce générateur <strong>et</strong> les bases utilisées dans ces travaux seront prochainement rendus<br />
disponibles à la communauté.
tel-00671168, version 1 - 8 Oct 2012<br />
58 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
Figure 3.4 – Quelques exemples de symboles. Figure tirée de [3]<br />
mécanique ou tout autre domaine d’ingénierie, voire même les documents du<br />
patrimoine, de nombreuses notations symboliques spécifiques au domaine sont<br />
présentes dans les documents (figure 3.4). Le haut niveau sémantique de l’information<br />
que ces symboles véhiculent rend leur reconnaissance indispensable<br />
dans le cadre d’un système d’analyse de documents graphiques.<br />
Dans le domaine du traitement des données symboliques, comme dans celui<br />
de la recherche d’images par le contenu en général, on oppose généralement<br />
les approches statistiques, selon lesquelles les obj<strong>et</strong>s sont représentés par des<br />
vecteurs de caractéristiques, aux approches structurelles, selon lesquelles la<br />
modélisation des obj<strong>et</strong>s repose sur des graphes. Dans le domaine de la recherche<br />
de symboles, les approches structurelles ont toujours été très présentes de par<br />
la nature même des symboles, souvent constitués de sous-parties, <strong>et</strong> de par la<br />
capacité intrinsèque de telles modélisations à aider à la segmentation.<br />
Dans la suite de c<strong>et</strong>te section, les résultats obtenus en utilisant l’approche<br />
décrite en 3.3 dans le cadre d’un problème de localisation de symboles sont<br />
d’abord présentés. L’approche est appliquée à une représentation structurelle<br />
à base de graphes d’adjacence de régions proposée dans le cadre de la thèse<br />
d’Hervé Locteau [129]. Nous décrivons ensuite une autre application originale<br />
reposant sur la même modélisation <strong>et</strong> utilisant des techniques de fouilles de<br />
données pour construire une représentation des documents sous la forme de<br />
« sacs de symboles » [18]. C<strong>et</strong>te représentation est exploitée à des fins de classification<br />
ou d’indexation de documents.<br />
3.4.1 Détection de symboles<br />
La détection de symboles est un des problèmes relevant de l’analyse d’images<br />
de documents. Ce type de problème revêt une difficulté supérieure à celui de la<br />
reconnaissance de symboles isolés dans la mesure où il est nécessaire de simultanément<br />
segmenter <strong>et</strong> reconnaître le symbole. De fait, si la littérature abordant<br />
la reconnaissance de symboles est abondante, très peu d’approches sont proposées<br />
pour la détection de symboles [165, 181]. Dans c<strong>et</strong>te sous-section, nous<br />
présentons un système dont l’objectif est la détection de symboles dans des<br />
images de documents graphiques. L’approche proposée s’appuie sur l’extraction<br />
d’une représentation structurelle à base de graphes d’adjacence de régions.<br />
De tels graphes sont reconnus pour être topologiquement plus stables en présence<br />
de bruit que les graphes exploitant le squel<strong>et</strong>te des formes qui, eux, sont
tel-00671168, version 1 - 8 Oct 2012<br />
3.4. Applications à l’analyse de documents graphiques 59<br />
(a) Image originale (b) Squel<strong>et</strong>te de<br />
l’image (a)<br />
(c) Composantes (d) Graphe d’adja-<br />
connexes de l’image cence de régions<br />
(b)<br />
Figure 3.5 – Création du graphe d’adjacence de régions<br />
fortement perturbés par le bruit. En exploitant une telle représentation, la recherche<br />
des occurrences d’un symbole modèle dans un document cible devient<br />
naturellement un problème de recherche d’isomorphisme de sous-graphes, avec<br />
la particularité de devoir être tolérant aux erreurs d’étiqu<strong>et</strong>tes, puisque dans<br />
un problème réel, les valeurs des labels seront altérées, tant pour les nœuds<br />
que pour les arcs. Notons que lorsque le bruit est trop important, la structure<br />
du graphe peut également être modifiée. Nous reviendrons sur ces aspects dans<br />
les perspectives de nos travaux.<br />
La première étape du système proposé dans [31] consiste à construire une<br />
représentation structurelle du document. Les graphes d’adjacence de régions<br />
sont des structures de données adaptées dans ce cadre car elles perm<strong>et</strong>tent la<br />
modélisation des relations topologiques entre les régions extraites grâce à un<br />
processus de segmentation. Nous traitons des images de documents techniques<br />
(images binaires) où la composante blanche est associée au fond tandis que<br />
les composantes noires correspondent à la partie graphique. La segmentation<br />
de telles images peut être obtenue par étiqu<strong>et</strong>age des composantes [49]. Cependant,<br />
afin d’obtenir une représentation fine des relations d’adjacence pour<br />
chaque paire de régions, l’image binaire est soumise à une squel<strong>et</strong>tisation [72].<br />
On fait alors correspondre à chaque composante blanche de c<strong>et</strong>te image squel<strong>et</strong>tisée<br />
un nœud dans le graphe en construction. Par ailleurs, un parcours des<br />
branches du squel<strong>et</strong>te est exploité pour déterminer les relations d’adjacence<br />
entre les régions deux à deux. C<strong>et</strong>te relation d’adjacence est matérialisée par<br />
la création d’un arc entre les nœuds associés aux régions correspondantes. La<br />
figure 3.5 illustre, à partir d’un extrait d’image de document, le processus de<br />
construction du graphe d’adjacence de régions.<br />
Afin de caractériser les nœuds représentant les régions <strong>et</strong> de préciser la<br />
nature des relations d’adjacence, le graphe est étiqu<strong>et</strong>é. Plusieurs types de caractéristiques<br />
ont été proposés dans la littérature pour décrire les formes <strong>et</strong> les<br />
relations spatiales [202]. Parmi les nombreux descripteurs de formes proposés<br />
dans la littérature [2], les moments de Zernike [200] perm<strong>et</strong>tent d’atteindre de<br />
bonnes performances lors de la reconnaissance de formes soumises à des transformations<br />
affines ou des dégradations. Un vecteur de caractéristiques composé<br />
des 24 premiers moments de Zernike extraits de chaque composante connexe <strong>et</strong><br />
caractérisant la forme est donc utilisé pour étiqu<strong>et</strong>er les nœuds correspondants<br />
dans le graphe. Le graphe construit est dirigé <strong>et</strong> les attributs affectés aux arcs
tel-00671168, version 1 - 8 Oct 2012<br />
60 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
Figure 3.6 – Exemples d’images de la base floorplans correspondant à différents<br />
fonds de plan.<br />
A B C D E F G H<br />
I J K L M N O P<br />
Figure 3.7 – Modèles des symboles recherchés.<br />
(source → destination) sont :<br />
– une caractéristique liée au rapport des surfaces des composantes associées<br />
aux nœuds source <strong>et</strong> destination ;<br />
– une caractéristique liée à la distance entre les centres de gravité des<br />
régions associées aux nœuds origine <strong>et</strong> destination.<br />
Les données utilisées pour évaluer l’approche proposée sont extraites de<br />
la base floorplans 11 . C<strong>et</strong>te base est constituée de données synthétiques représentant<br />
différentes dispositions de symboles placés sur 10 fonds de plans<br />
architecturaux. Notre évaluation se base sur 200 images synthétiques de plans<br />
architecturaux correspondant aux 20 premières dispositions proposées pour<br />
chacun des fonds. Des exemples de ces images sont proposés sur la figure 3.6.<br />
La tâche associée à c<strong>et</strong>te base de données consiste à r<strong>et</strong>rouver les occurrences<br />
des 16 symboles modèles présentés sur la figure 3.7.<br />
Grâce à une interface graphique développée pour l’occasion, il a été pos-<br />
11. http://mathieu.delalandre.free.fr/projects/sesyd/
tel-00671168, version 1 - 8 Oct 2012<br />
3.4. Applications à l’analyse de documents graphiques 61<br />
sible de constituer une vérité terrain pour la recherche d’isomorphismes de<br />
sous-graphes en identifiant au sein des 200 représentations structurelles les<br />
sous-graphes correspondant à des occurrences de symboles. Nous avons ainsi<br />
pu identifier que la base de plans contenait 5609 occurrences de symboles, soit<br />
environ 28 symboles par document en moyenne. Les sous-graphes correspondant<br />
aux symboles contenaient en moyenne 4 nœuds <strong>et</strong> 7 arcs. En comparaison,<br />
les représentations structurelles des plans compl<strong>et</strong>s contiennent en moyenne 121<br />
nœuds <strong>et</strong> 525 arcs.<br />
Dans une première expérimentation, nous avons recherché, dans chacun<br />
des plans, l’isomorphisme de coût minimal pour chacun des symboles modèles<br />
sur chacun des plans. Les résultats quantitatifs obtenus indiquent que sur les<br />
3200 recherches d’occurrences (16 × 200), 1612 symboles ont été correctement<br />
détectés. 380 occurrences ont été partiellement détectées (au moins un nœud<br />
apparié à bon escient <strong>et</strong> au moins un nœud apparié à mauvais escient). Pour<br />
453 recherches, le système a commis une erreur en ne trouvant pas d’occurrence<br />
du symbole. Enfin, pour 755 recherches, le symbole n’apparaissait pas dans le<br />
document.<br />
Étant donné les résultats obtenus lors de la recherche d’une unique occurrence<br />
<strong>et</strong> considérant le fait qu’un même symbole est susceptible d’apparaître à<br />
plusieurs reprises sur un même document, nous avons souhaité évaluer la recherche<br />
de plusieurs isomorphismes. Compte tenu du fait qu’une composante<br />
connexe ne peut appartenir qu’à un seul symbole, nous avons, dans c<strong>et</strong>te expérimentation,<br />
paramétré la recherche de telle sorte que soit exclu des solutions<br />
réalisables tout isomorphisme faisant apparaître un nœud déjà apparié dans<br />
un isomorphisme précédent.<br />
Le tableau 3.3 présente les résultats d’une recherche de 50 occurrences de<br />
chaque symbole modèle pour chacun des 200 plans de la base floorplans.<br />
Même s’il persiste, comme dans le cas de la recherche d’une unique occurrence,<br />
des disparités entre classes, globalement, on r<strong>et</strong>rouve exactement 62,7%<br />
<strong>et</strong> partiellement 29,2% des 5609 occurrences de symboles réellement présentes<br />
dans les documents. En estimant qu’une correspondance partielle suffit à considérer<br />
que l’occurrence du symbole est détectée, on atteint un rappel de 92%<br />
pour une précision de 7%.<br />
La mauvaise précision obtenue est due au nombre important de détections<br />
imposé au système, qui est largement supérieur au nombre de symboles réellement<br />
présents (recherche de 50 occurrences par type de symbole pour chaque<br />
plan). Pour diminuer ce nombre de fausses détections, une stratégie de rej<strong>et</strong> a<br />
été mise en œuvre. Elle détermine, par un apprentissage supervisé, un seuil sur<br />
le coût d’appariement. Ce seuil est déterminé par classe, par une optimisation<br />
de la F-mesure obtenue sur une base de validation. C<strong>et</strong>te stratégie a permis<br />
d’augmenter la valeur de la précision à 71%, pour un rappel qui est maintenu<br />
à 83%. Le seuil appris sur chacune des classes, ainsi que les performances<br />
obtenues sont donnés dans le tableau 3.4.<br />
3.4.2 Classification <strong>et</strong> indexation de documents<br />
Dans [18], nous avons proposé une autre exploitation des représentations<br />
structurelles, à des fins de classification <strong>et</strong> d’indexation de documents gra
tel-00671168, version 1 - 8 Oct 2012<br />
62 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
Symbol Recall (%) Precision (%)<br />
A 88 8<br />
B 96 10<br />
C 98 9<br />
D 80 1<br />
E 100 2<br />
F 100 14<br />
G 100 7<br />
H 100 5<br />
I 93 5<br />
J 92 6<br />
K 83 30<br />
L 100 12<br />
M 100 8<br />
N 100 2<br />
O 92 5<br />
P 86 24<br />
overall 92 7<br />
Table 3.3 – Précision <strong>et</strong> rappel par classe de symboles lors de la recherche de<br />
50 occurrences.<br />
phiques compl<strong>et</strong>s. Le système proposé dans ce cadre est illustré sur la figure 3.8.<br />
L’approche repose sur l’utilisation de techniques de fouilles de graphes, dont<br />
le but est de faire émerger de nouvelles connaissances à partir d’un ensemble<br />
de données. Plus précisément, l’algorithme utilisé recherche des sous-structures<br />
avec l’objectif d’identifier, selon les informations encodées, des motifs fréquents<br />
ayant un rôle fonctionnel : par exemple une propriété des composés chimiques<br />
présentant un motif particulier, un gène responsable d’une pathologie dans une<br />
séquence, des motifs vecteurs de sens dans les documents. Les techniques reposent<br />
sur la satisfaction de contraintes telles qu’une fréquence d’apparition<br />
minimale <strong>et</strong> une confiance minimale dans le cas de règles d’association. Une<br />
revue de la littérature du domaine est proposée dans [18]. Les motifs fréquents<br />
sont alors utilisés comme lexique sur la base duquel les documents compl<strong>et</strong>s<br />
sont décrits sous la forme de « sacs de symboles ». Nous nous inspirons dans<br />
ce cadre des travaux utilisant des « sacs de mots » en analyse de texte [183],<br />
des « sacs de caractéristiques » [192, 77] ou encore des « paqu<strong>et</strong>s de chaînes de<br />
caractéristiques » [178] en indexation d’images. Ainsi, un document est caractérisé<br />
par un vecteur précisant la présence ou l’absence des différents motifs<br />
fréquents extraits de manière non supervisée dans la collection de documents.<br />
Une pondération tf-idf est utilisée pour enrichir la représentation.<br />
Dans le cadre de l’application de ces techniques sur des documents graphiques,<br />
nous nous sommes appuyés, comme pour les travaux décrits en 3.4.1,<br />
sur la représentation à base de graphes d’adjacence de régions proposée dans<br />
la thèse d’Hervé Locteau [129]. Pour pouvoir utiliser les techniques de fouilles<br />
sur de telles représentations, les nœuds doivent être étiqu<strong>et</strong>és avec des labels<br />
nominaux. Un algorithme de classification non supervisée s’appuyant sur les
tel-00671168, version 1 - 8 Oct 2012<br />
3.4. Applications à l’analyse de documents graphiques 63<br />
Matching<br />
Symbol cost Recall (%) Precision (%)<br />
threshold<br />
A 2.706 80 77<br />
B 3.041 90 81<br />
C 0.489 70 49<br />
D 0.827 80 5<br />
E 1.136 100 100<br />
F 2.215 100 100<br />
G 1.959 53 41<br />
H 2.418 90 100<br />
I 0.857 90 25<br />
J 1.249 84 82<br />
K 2.442 74 89<br />
L 3.499 100 86<br />
M 2.590 99 100<br />
N 0.970 84 70<br />
O 0.279 56 45<br />
P 3.079 86 86<br />
overall 83 71<br />
Table 3.4 – Précision <strong>et</strong> rappel par classe de symboles lors de la recherche de<br />
50 occurrences avec la stratégie de rej<strong>et</strong>.<br />
descripteurs de formes extraits des régions est utilisé pour ce faire. Puis, chaque<br />
cluster se voit affecté d’un label qui est utilisé pour étiqu<strong>et</strong>er les nœuds. Un<br />
algorithme de fouille de graphe de la littérature [117] est ensuite exploité pour<br />
rechercher, dans le graphe, l’ensemble des sous-graphes fréquents. La figure 3.9<br />
illustre quelques sous-graphes fréquents extraits d’un plan de réseau France<br />
Telecom. Elle montre que non seulement les symboles propres au domaine<br />
concerné sont extraits, mais en outre, l’algorithme a été en mesure d’extraire<br />
les chaînes de caractères associées à ces symboles. C<strong>et</strong>te première contribution<br />
perm<strong>et</strong> ainsi d’extraire en partie la sémantique présente au sein du document.<br />
L’approche a été évaluée sur un ensemble de documents techniques composé<br />
de 30 images de plans de réseau France Telecom, 25 images de schémas<br />
électroniques, <strong>et</strong> 5 images de plans architecturaux. Des tests ont été menés en<br />
classification supervisée, en exploitant un classifieur SVM. Les résultats, bien<br />
qu’obtenus sur des bases de p<strong>et</strong>ites tailles, ont atteint 90% de bonne classification,<br />
montrant la pertinence de l’approche, sachant qu’aucune connaissance<br />
a priori n’a été injectée dans le processus. C’est le système lui même qui découvre<br />
les caractéristiques à utiliser pour décrire le document, ce qui constitue<br />
une rupture par rapport aux approches classiques <strong>et</strong> qui perm<strong>et</strong> clairement<br />
d’aller dans le sens de la généricité.<br />
Des expérimentations préliminaires ont également été menées pour l’indexation<br />
de bases de documents utilisant la représentation en sacs de symboles,<br />
à des fins d’interrogation. Dans le système proposé, l’utilisateur peut rechercher<br />
dans la base de documents un ensemble de documents sur la base d’une
tel-00671168, version 1 - 8 Oct 2012<br />
64 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
Image<br />
Construction de graphes<br />
Représentations structurelles<br />
Fouille de graphes<br />
Sous-graphes fréquents<br />
Filtrage<br />
Sacs de symboles<br />
Classification/Indexation<br />
Figure 3.8 – Processus de fouille pour l’indexation <strong>et</strong> la classification d’images<br />
de documents.<br />
requête exprimée par un extrait de documents, pour extraire des documents<br />
similaires au sens de leur contenu sémantique.<br />
3.5 Discussion <strong>et</strong> problèmes ouverts<br />
Dans ce chapitre, nous avons abordé des problématiques liées à la reconnaissance<br />
structurelle de formes avec des applications à l’analyse de documents<br />
graphiques. Deux contributions fondamentales ont été présentées <strong>et</strong> positionnées<br />
par rapport à la littérature du domaine. Elles concernent la classification<br />
supervisée de graphes <strong>et</strong> la recherche d’isomorphismes de sous-graphes tolérants<br />
aux erreurs de substitution. Deux applications liées à l’exploitation des<br />
graphes en analyse de documents graphiques ont ensuite été décrites. La première<br />
est une application de l’approche proposée pour la recherche d’isomorphisme<br />
à une tâche de localisation de symboles dans des documents graphiques,<br />
problème encore rarement abordé dans la communauté. La seconde concerne<br />
l’exploitation de techniques de fouille de graphes à des fins de classification<br />
supervisée ou d’indexation de base de documents.<br />
Dans c<strong>et</strong>te section, nous évoquons les perspectives directement issues de<br />
ces travaux. Une vision plus générale sera proposée dans le chapitre 5, avec<br />
en particulier les aspects liés au domaine applicatif de la reconnaissance de<br />
documents. Ces perspectives se déclinent donc ici essentiellement sur les aspects<br />
fondamentaux relatifs aux deux premières contributions.
tel-00671168, version 1 - 8 Oct 2012<br />
3.5. Discussion <strong>et</strong> problèmes ouverts 65<br />
Figure 3.9 – Exemples d’occurrences d’un sous-graphe fréquent maximal.<br />
3.5.1 Classification de graphes<br />
Les résultats présentés dans [170] ont montré l’intérêt de prendre en considération<br />
un critère discriminant, l’espace des graphes généralisés <strong>et</strong> plusieurs<br />
représentants par classe dans le cadre de la génération de prototypes pour<br />
la classification de graphes. Toutefois, dans l’approche proposée, aucun mécanisme<br />
n’est mis en œuvre pour lui garantir de bonnes capacités en généralisation.<br />
Dans ce cadre, nous pensons qu’il pourrait être intéressant, lors<br />
de la génération des prototypes, d’intégrer un terme de régularisation dans<br />
le processus d’optimisation. Dans ce contexte, des approches d’optimisation<br />
multiobjectif telles que celles que nous évoquerons dans le chapitre suivant<br />
pourraient alors être considérées. Ces perspectives sont à l’intersection de ces<br />
travaux sur les graphes <strong>et</strong> de ceux qui sont proposés dans le cadre du proj<strong>et</strong><br />
LeMOn qui sera décrit dans le chapitre suivant.<br />
L’intégration d’un critère de rej<strong>et</strong> dans l’approche est aussi une piste qu’il<br />
ne faut pas négliger. Le rej<strong>et</strong> est en eff<strong>et</strong> très important dans les applications<br />
du monde réel. Le critère de génération des prototypes deviendrait là aussi<br />
multi-dimensionnel. Nous avons proposé de premiers travaux dans ce cadre<br />
dans [171]. Ceux-ci seront abordés en 4.4.1.<br />
Une autre perspective liée à ces graphes prototypes repose sur l’utilisation<br />
de la technique du « Graph Embedding » [177] consistant à représenter un<br />
graphe par l’ensemble des distances entre ce graphe <strong>et</strong> un ensemble de graphes<br />
prototypes, en général les graphes médians.
tel-00671168, version 1 - 8 Oct 2012<br />
66 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />
3.5.2 Recherche d’isomorphisme<br />
L’approche de recherche d’isomorphisme de sous-graphes décrite en 3.3 <strong>et</strong><br />
appliquée au problème de localisation de symboles en 3.4.1 a prouvé qu’elle<br />
était capable de tolérer des modifications dans des étiqu<strong>et</strong>ages vectoriels <strong>et</strong><br />
numériques des nœuds <strong>et</strong> des arcs. Elle perm<strong>et</strong> ainsi de résoudre des problèmes<br />
que la littérature n’avait pas encore abordés directement, comme en témoigne<br />
d’ailleurs l’absence de bases de données avec de telles propriétés. L’une de<br />
nos premières perspectives consiste donc à m<strong>et</strong>tre à disposition les données<br />
étiqu<strong>et</strong>ées que nous avons générées, par l’intermédiaire du site du TC 15 12 par<br />
exemple. Ceci perm<strong>et</strong>tra à la communauté de comparer ses résultats à ceux<br />
que nous avons obtenus. Par ailleurs, nous planifions également de fournir<br />
l’environnement logiciel de recherche d’isomorphisme que nous avons proposé,<br />
celui-ci étant basé sur des logiciels libres.<br />
Outre ces perspectives de diffusion à la communauté scientifique, d’autres<br />
axes de travail plus fondamentaux sont envisagés. Le premier consiste à modifier<br />
la version courante du solveur pour lui perm<strong>et</strong>tre de traiter des instances de<br />
tailles plus importantes (de l’ordre du millier de nœuds pour G), ce qui constitue<br />
un challenge pour la communauté depuis longtemps [107]. En eff<strong>et</strong>, dans la<br />
version courante du solveur, certaines instances atteignent des tailles telles que<br />
leur représentation en mémoire est trop volumineuse pour perm<strong>et</strong>tre la résolution.<br />
Une amélioration possible est d’utiliser la génération de colonnes, une<br />
technique de la communauté de programmation mathématique, qui consiste à<br />
considérer une formulation de départ dont le nombre de variables est largement<br />
réduit, puis de résoudre en ajoutant les variables qui manquent lorsqu’elles deviennent<br />
nécessaires pour explorer des solutions.<br />
L’autre piste envisagée, la plus importante en termes d’applications mais<br />
aussi la plus complexe, consiste à généraliser la formulation proposée à des problèmes<br />
pour lesquels des modifications de la topologie des graphes pourraient<br />
être tolérées. Ce contexte nécessite de proposer une formulation robuste à l’absence<br />
dans G de somm<strong>et</strong>s ou d’arcs pouvant être associés à ceux du graphe<br />
S. La solution envisagée consiste à procéder par l’ajout direct dans G des éléments<br />
non appariés de S. C<strong>et</strong> ajout se traduit par de nouvelles variables de<br />
décision qui correspondent à ces ajouts de nœuds <strong>et</strong> d’arcs. La fonction objectif<br />
(equation 3.12) est alors modifiée pour prendre en compte ces modifications,<br />
auxquelles il faut alors attribuer des coûts (qu’il faudra idéalement apprendre).<br />
min <br />
i∈VS<br />
<br />
k∈VG d(i, k) ∗ xi,k + <br />
<br />
i∈VS c(i) ∗ ui + <br />
ij∈ES<br />
<br />
ij∈ES<br />
kl∈EG d(ij, kl) ∗ yij,kl +<br />
c(ij) ∗ eij<br />
(3.12)<br />
Avec une telle modification, la fonction objectif intègre une tolérance aux<br />
modifications de structure. Évidemment, les contraintes du programme linéaire<br />
doivent également être revisitées pour intégrer c<strong>et</strong>te tolérance. Une première<br />
proposition a été faite dans [30], elle doit maintenant être évaluée, ce qui pose de<br />
nouveau le problème des données <strong>et</strong> de leur vérité terrain associée tout comme<br />
celui de l’utilisation d’approches concurrentes. De plus, notons que ces travaux<br />
12. http ://www.greyc.ensicaen.fr/iapr-tc15/
tel-00671168, version 1 - 8 Oct 2012<br />
3.5. Discussion <strong>et</strong> problèmes ouverts 67<br />
se rapprochent alors de la notion de distance d’édition entre graphes. L’outil<br />
pourrait d’ailleurs être utilisé pour calculer des dissimilarités entre graphes,<br />
sans considérer les sous-graphes.
tel-00671168, version 1 - 8 Oct 2012<br />
68 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes
tel-00671168, version 1 - 8 Oct 2012<br />
Chapitre 4<br />
<strong>Documents</strong> <strong>et</strong> optimisation<br />
multiobjectif<br />
4.1 Introduction<br />
L’introduction générale de ce mémoire a souligné la variabilité <strong>et</strong> la complexité<br />
des problématiques d’analyse d’images de documents. Elle a montré que<br />
la conception d’un système flexible <strong>et</strong> performant requiert le développement<br />
de nombreux composants logiciels inter-opérants dont il faut en outre maîtriser<br />
le réglage des paramètres <strong>et</strong> l’enchaînement (éventuellement en considérant<br />
des cycles) pour obtenir les meilleures performances possibles. C<strong>et</strong>te notion de<br />
performance suscite immédiatement la question du choix du(des) critère(s) utilisé(s)<br />
pour évaluer les composants du système <strong>et</strong> le système dans sa globalité.<br />
Par ailleurs, de tels critères sont également fondamentaux dans une optique<br />
d’optimisation des paramètres du système.<br />
L’analyse de l’état de l’art du domaine de l’analyse de documents montre<br />
que la plupart des systèmes sont aujourd’hui conçus, évalués <strong>et</strong> réglés au regard<br />
d’un critère unique. Il peut s’agir du taux de reconnaissance pour un système de<br />
reconnaissance, de l’erreur quadratique en approximation polygonale ou de la<br />
F-mesure pour un système de spotting de mots ou de symboles. Pour illustrer<br />
ce constat, on peut mentionner les campagnes d’évaluation récentes menées<br />
en reconnaissance de l’écriture manuscrite (RIMES [88]), en reconnaissance<br />
de symboles (EPEIRES [73]) ou encore les concours de vectorisation menés à<br />
l’occasion des conférences internationales Graphic RECognition (GREC [6]).<br />
Dans chacun des cas, les métriques exploitées pour évaluer <strong>et</strong> comparer les<br />
approches sont aujourd’hui scalaires.<br />
Or, plusieurs critères, souvent antagonistes, sont généralement importants<br />
au regard de l’utilisateur dans les applications du monde réel. On peut citer<br />
à titre d’illustration le rappel <strong>et</strong> la précision pour des problèmes de recherche<br />
d’information, le rej<strong>et</strong> <strong>et</strong> la confusion pour des tâches de reconnaissance, les performances<br />
en apprentissage <strong>et</strong> en généralisation pour les problèmes d’apprentissage,<br />
la qualité <strong>et</strong> le taux de compression pour des tâches de compression,<br />
ou de manière générale les performances qualitatives <strong>et</strong> le temps de traitement<br />
pour la plupart des problèmes.<br />
Ainsi, la majorité des tâches d’un système d’analyse de documents peuvent,<br />
69
tel-00671168, version 1 - 8 Oct 2012<br />
70 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
de façon inhérente, être considérées comme des problèmes à objectifs multiples<br />
nécessitant le choix de compromis. Par ailleurs, les traitements impliqués sont<br />
généralement soumis à des paramètres dont le réglage perm<strong>et</strong> de faire varier<br />
les valeurs de compromis entre les différents objectifs. Comparer deux algorithmes<br />
dans un cadre idéal revient alors à comparer des ensembles de points<br />
dans un espace à plusieurs dimensions. La figure 4.1 illustre ce contexte avec<br />
la comparaison de deux classifieurs SVM appris sur les mêmes données avec<br />
deux paramétrages différents <strong>et</strong> dont les performances sont représentées par<br />
des courbes ROC [34]. On constate qu’intrinsèquement, aucun des deux classifieurs<br />
n’est supérieur à l’autre mais que leur ordonnancement dépendra de la<br />
« zone » de fonctionnement choisie. Dans c<strong>et</strong> exemple, la comparaison des deux<br />
classifieurs tout comme le choix de la valeur des paramètres doivent idéalement<br />
prendre en considération c<strong>et</strong>te nature multiobjectif.<br />
Figure 4.1 – Comparaison de deux classifieurs par leur courbe ROC. Pour des<br />
taux de fausse acceptation inférieurs à 0.1 (point α sur la courbe), le classifieur<br />
2 est plus performant au regard des deux critères. Pour les taux de fausse<br />
acceptation supérieurs à 0.1, c’est le classifieur 1 qui est le plus performant.<br />
Un problème d’optimisation pour lequel une décision doit être prise en<br />
présence de compromis entre des objectifs multiples est appelé un problème<br />
d’optimisation multiobjectif. Dans un tel contexte, il n’existe généralement pas<br />
de solution unique perm<strong>et</strong>tant d’optimiser simultanément tous les objectifs <strong>et</strong><br />
il est nécessaire de chercher un ensemble de solutions qui correspondent aux<br />
compromis optimaux entre objectifs. Ce domaine n’est évidemment pas propre<br />
à l’analyse de documents <strong>et</strong> on trouve des problèmes d’optimisation multiobjectif<br />
dans de très nombreux domaines d’ingénierie tels que la réalisation de<br />
dispositifs électromagnétiques, la conception de circuits logiques, l’optimisation<br />
de tournées, en passant par l’analyse de promoteurs dans le domaine de<br />
la bio-informatique. L’ouvrage [61] propose un bon aperçu de ce large spectre
tel-00671168, version 1 - 8 Oct 2012<br />
4.1. Introduction 71<br />
de domaines d’application. Cela se traduit par un nombre considérable de publications<br />
dans ce domaine ces deux dernières décennies, comme en atteste le<br />
site maintenu par Carlos A. Coello Coello 13 qui recense plusieurs milliers de<br />
contributions relatives à l’optimisation multiobjectif.<br />
Paradoxalement, malgré l’émergence de c<strong>et</strong>te problématique d’optimisation<br />
multiobjectif, on en trouve bien peu d’applications dans le domaine de l’analyse<br />
d’images de documents <strong>et</strong> même pour l’analyse d’images en général. On peut<br />
toutefois citer les travaux de Lazzerini ([124]) pour lesquels les tables de quantification<br />
JPEG sont optimisées au regard des deux critères que sont le taux<br />
de compression <strong>et</strong> la qualité de l’image décodée. Un certain nombre de contributions<br />
ont également été proposées pour la segmentation d’images. Dans [17]<br />
par exemple, les auteurs utilisent un algorithme génétique multiobjectif pour<br />
conserver une population de solutions plutôt qu’une unique pour les étapes de<br />
traitement ultérieures. Un état de l’art concernant ces problématiques de segmentation<br />
d’images utilisant des algorithmes d’optimisation multiobjectif est<br />
proposé dans [59], avec des applications essentiellement orientées vers le domaine<br />
médical <strong>et</strong> les images de scènes naturelles. À un niveau d’interprétation<br />
plus élevé, dans le domaine de la recherche d’information, on peut également<br />
citer des travaux utilisant des algorithmes d’optimisation multiobjectif pour<br />
améliorer des requêtes en utilisant comme critères le rappel <strong>et</strong> la précision<br />
[47, 131]. Dans le domaine de l’analyse de documents, il convient de souligner<br />
ici les travaux de l’équipe de Robert Sabourin sur l’analyse de l’écriture<br />
manuscrite qui sont, à notre connaissance, les seuls à soulever le problème de<br />
l’intégration d’objectifs multiples à la fois pour l’extraction de caractéristiques<br />
[157, 156] <strong>et</strong> pour la classification supervisée [166].<br />
De c<strong>et</strong> état de l’art synthétique, on peut conclure que même si l’optimisation<br />
multiobjectif a été ponctuellement utilisée dans le contexte de l’analyse de<br />
documents ou pour l’analyse d’images, les bénéfices que perm<strong>et</strong>tent d’obtenir<br />
de telles approches n’ont pas été totalement explorés par la communauté de<br />
l’analyse de documents. Nous décrivons dans la suite de ce chapitre nos contributions<br />
dans ce domaine. Elles ont consisté à aborder différents problèmes<br />
d’analyse de documents sous l’angle de l’optimisation multiobjectif.<br />
Ce chapitre est organisé de la façon suivante. Après un rappel de la problématique<br />
de l’optimisation multiobjectif <strong>et</strong> un état de l’art des approches<br />
perm<strong>et</strong>tant de résoudre de tels problèmes, trois contributions sont décrites.<br />
La première est une contribution propre au domaine de l’optimisation multiobjectif.<br />
Nous y décrivons un algorithme pour aborder ces problèmes avec<br />
la technique des essaims particulaires. Puis, les deux contributions suivantes<br />
concernent des travaux pour lesquels nous avons tiré parti de l’intégration<br />
d’objectifs multiples en analyse de documents <strong>et</strong> en apprentissage. Le chapitre<br />
se termine ensuite par une discussion sur c<strong>et</strong> apport <strong>et</strong> sur les perspectives<br />
directement ouvertes par ces travaux.<br />
13. http://www.lania.mx/~ccoello/EMOO/EMOObib.html
tel-00671168, version 1 - 8 Oct 2012<br />
72 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
4.2 <strong>Optimisation</strong> multiobjectif<br />
C<strong>et</strong>te section rappelle la formulation d’un problème d’optimisation multiobjectif<br />
<strong>et</strong> donne un aperçu des méthodes de la littérature pour résoudre de<br />
tels problèmes.<br />
4.2.1 Définition du problème<br />
Un problème d’optimisation multiobjectif (parfois appelé optimisation vectorielle)<br />
contraint est un problème d’optimisation pour lequel K fonctions<br />
objectifs à minimiser (ou maximiser) sont définies, sous respect d’un certain<br />
nombre de contraintes d’inégalité ou d’égalité. Il se définit de la façon suivante :<br />
Definition 1. La minimisation contrainte d’un vecteur de fonctions objectifs<br />
−→ f = {f1, f2, ..., fK} consiste à résoudre :<br />
Minimiser fk( −→ x ) k ∈ [1, K]<br />
sous contrainte de gj( −→ x ) ≥ 0 j ∈ [1, J]<br />
hl( −→ x ) = 0 l ∈ [1, L]<br />
x L i ≤ xi ≤ x U i i ∈ [1, N]<br />
où −→ x est un vecteur de N variables de décision. gj and hl sont respectivement<br />
les contraintes d’inégalité <strong>et</strong> d’égalité. Le dernier ensemble de contraintes<br />
définit l’espace de décision du problème, i.e. l’espace dans lequel les solutions<br />
sont recherchées. Les xL i <strong>et</strong> xUi désignent ici les bornes de c<strong>et</strong> espace.<br />
Une différence fondamentale entre l’optimisation mono-objectif <strong>et</strong> l’optimisation<br />
multiobjectif repose sur le fait que pour la plupart des problèmes<br />
multiobjectif, les critères étant antagonistes, il n’existe pas de solution qui<br />
minimise tous les objectifs simultanément. Par conséquent, il n’existe plus de<br />
relation d’ordre total entre solutions. Celles-ci doivent être comparées par la<br />
relation de dominance de Par<strong>et</strong>o qui repose sur la définition suivante 14 :<br />
Definition 2. Une solution −→ x domine une autre solution −→ y si <strong>et</strong> seulement<br />
si ∀k ∈ [1, K], fk( −→ x ) ≤ fk( −→ y ) <strong>et</strong> si ∃k ∈ [1, K]/fk( −→ x ) < fk( −→ y ). Une telle<br />
relation est notée −→ x ≺ −→ y<br />
En utilisant le concept de dominance, une solution x ⋆ est dite Par<strong>et</strong>ooptimale<br />
s’il n’existe pas de solution dans l’espace de décision qui domine<br />
x ⋆ . L’objectif d’un algorithme d’optimisation multiobjectif est de fournir une<br />
approximation de l’ensemble optimal de Par<strong>et</strong>o, défini par :<br />
Definition 3. L’ensemble Par<strong>et</strong>o-optimal d’un problème d’optimisation<br />
multiobjectif est l’ensemble de toutes les solutions Par<strong>et</strong>o-optimales du problème<br />
:<br />
<br />
P OS =<br />
−→x<br />
∈ ϑ/¬∃<br />
−→ −−→ −−→ <br />
y ∈ ϑ, f(y) ≺ f(x)<br />
14. Notons ici qu’il existe d’autres définitions de la dominance de Par<strong>et</strong>o telles que la<br />
dominance stricte, la dominance faible ou encore l’ɛ-dominance qui sont décrites dans [123]<br />
⎫<br />
⎪⎬<br />
⎪⎭
tel-00671168, version 1 - 8 Oct 2012<br />
4.2. <strong>Optimisation</strong> multiobjectif 73<br />
4.2.2 Synthèse de la littérature<br />
Dans la littérature, deux grandes familles d’approches peuvent être distinguées<br />
pour résoudre des problèmes d’optimisation multiobjectif. Elles diffèrent<br />
en fonction du fait que l’on intègre ou pas à la résolution mathématique une articulation<br />
a priori des préférences sur les objectifs. Lorsque de telles préférences<br />
peuvent être formulées, il est alors possible de combiner les différents objectifs<br />
pour obtenir une valeur scalaire. Le problème devient alors un problème d’optimisation<br />
mono-objectif qui peut être résolu avec des méthodes classiques. On<br />
parle alors d’approches « scalarisées ». Lorsque les préférences ne peuvent pas<br />
être exprimées a priori, l’algorithme d’optimisation doit alors fournir en sortie<br />
une population de solutions non dominées au sens de Par<strong>et</strong>o, parmi lesquelles<br />
l’utilisateur (ou éventuellement un autre traitement) doit choisir en intégrant<br />
c<strong>et</strong>te fois des préférences a posteriori. On parle alors d’approche à base de Par<strong>et</strong>o.<br />
Notons que la littérature propose également quelques approches appelées<br />
progressives ou interactives, pour lesquelles le décideur intègre ses préférences<br />
au cours du processus d’optimisation. Nous n’abordons pas ici ces méthodes,<br />
mais le lecteur trouvera une bonne étude comparative dans [5].<br />
Approches scalarisées De très nombreuses approches ont été proposées<br />
dans c<strong>et</strong>te catégorie. Elles peuvent être classées en fonction de la formulation<br />
mathématique qui est utilisée pour combiner les objectifs en une valeur<br />
scalaire, mais aussi par la façon dont les préférences sont exprimées. Certaines<br />
approches, les plus nombreuses, imposent l’attribution d’un poids à chacun des<br />
objectifs. Ces derniers peuvent alors être combinés par différentes méthodes.<br />
La plus classique est celle de la somme pondérée [120], mais la littérature propose<br />
bien d’autres stratégies telles que la méthode Min-Max (ou méthode de<br />
Tchebycheff pondérée) [196], la méthode des exponentielles pondérées [13], la<br />
méthode du produit pondéré [86], avec de nombreuses variantes dans chacun<br />
des cas. Une alternative à l’affectation de poids à chaque objectif consiste à<br />
ne fournir qu’un ordonnancement des objectifs. C’est le cas par exemple de la<br />
méthode dite lexicographique [195]. Dans le cas de la programmation par buts<br />
[19], une valeur à atteindre est fixée pour chacun des objectifs <strong>et</strong> c’est la somme<br />
des écarts à ces valeurs qui est minimisée. Certaines approches proposent quant<br />
à elles de considérer uniquement l’objectif prioritaire comme critère à optimiser<br />
<strong>et</strong> de voir les autres objectifs comme des contraintes pour lesquelles il faut<br />
fixer des bornes. C’est le cas de la méthode dite des fonctions objectifs bornées<br />
[90], parfois appelée méthode ɛ-contrainte. Enfin, une méthode originale appelée<br />
programmation physique consiste à attribuer à chacun des critères une<br />
« classe d’objectif » en y affectant des paramètres [145, 57].<br />
Naturellement, comme l’énonce le No Free Lunch Theorem 15 [213], aucune<br />
de ces méthodes ne se distingue réellement pour l’ensemble des problèmes <strong>et</strong> il<br />
faut choisir la méthode la plus adaptée au problème à traiter. Un état de l’art<br />
très compl<strong>et</strong> de ces méthodes scalarisées est dressé dans [142]. En particulier,<br />
une discussion est proposée dans c<strong>et</strong> article sur le potentiel des différentes<br />
15. Ce théorème classique en optimisation est généralisé aux problèmes multiobjectifs dans<br />
[189].
tel-00671168, version 1 - 8 Oct 2012<br />
74 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
méthodes pour obtenir l’ensemble des points du front de Par<strong>et</strong>o, en faisant<br />
varier certains paramètres des méthodes.<br />
Approches Par<strong>et</strong>o Même si des adaptations sont disponibles dans la littérature<br />
pour pallier ce problème, les méthodes décrites ci-avant sont par essence<br />
conçues pour calculer une solution unique aux problèmes d’optimisation multiobjectif.<br />
Or, comme évoqué précédemment, la solution d’un problème multiobjectif<br />
n’est généralement pas unique, mais est plutôt constituée d’un ensemble<br />
de solutions non dominées. Les méthodes à base de populations reposant<br />
sur un ensemble de solutions potentielles, telles que les algorithmes évolutionnaires<br />
(AE) [70], les essaims particulaires [175] ou les colonies de fourmis [7],<br />
sont donc de bonnes candidates à la résolution de ce type de problème [70, 60].<br />
Depuis les travaux pionniers de Schaffer en 1985 [186] avec son algorithme<br />
VEGA, un nombre considérable d’approches évolutionnaires ont été proposées<br />
pour résoudre les problèmes d’optimisation multiobjectif (MOGA [82], NSGA<br />
[194], NPGA [94], SPEA [219], NSGA II [71], PESA [66], SPEA2 [218], pour<br />
ne citer que les plus connus). La figure 4.2 décrit la structure générale de tous<br />
ces algorithmes. Une population de solutions candidates est d’abord initialisée<br />
aléatoirement. Puis, celle-ci évolue au cours de générations successives par la<br />
combinaison d’opérateurs de sélection, de remplacement <strong>et</strong> de modification.<br />
Dans les approches élitistes, qui se sont montrées les plus performantes [113],<br />
une archive contenant les « meilleures » approximations de l’ensemble de Par<strong>et</strong>o<br />
est maintenue au cours de c<strong>et</strong>te évolution. C’est c<strong>et</strong>te archive qui constitue<br />
la sortie de l’algorithme.<br />
Comparer les différents algorithmes d’optimisation existants est une tâche<br />
difficile. L’analyse de performance d’algorithmes d’optimisation multiobjectif<br />
est en eff<strong>et</strong> encore du domaine de la recherche. Une synthèse des travaux existants<br />
dans ce domaine est disponible dans [198]. La difficulté provient du fait<br />
qu’un algorithme d’optimisation multiobjectif a lui-même plusieurs objectifs<br />
à atteindre. Il doit évidemment converger le plus rapidement possible vers<br />
l’ensemble optimal de Par<strong>et</strong>o, mais il doit également proposer des solutions<br />
diversifiées sur le front afin d’avoir un échantillon représentatif <strong>et</strong> ne pas se<br />
concentrer sur une zone de l’espace des objectifs. Ce dernier critère peut luimême<br />
être scindé en deux sous-critères que sont l’étendue sur le front <strong>et</strong> la<br />
diversité. Dans une étude publiée dans [113], les performances des trois algorithmes<br />
les plus populaires (SPEA2, PESA <strong>et</strong> NSGA-II) sont comparées. La<br />
comparaison est menée sur différents problèmes de test en évaluant les algorithmes<br />
suivant les deux critères importants que sont la proximité au front<br />
de Par<strong>et</strong>o réel <strong>et</strong> la distribution des solutions. Les résultats obtenus, qui sont<br />
corroborés dans [218] <strong>et</strong> dans [38], montrent qu’aucun des trois algorithmes ne<br />
domine les autres au sens de Par<strong>et</strong>o sur ces deux objectifs. SPEA2 <strong>et</strong> NSGA-II<br />
se comportent de manière équivalente autant en termes de convergence qu’en<br />
termes de préservation de la diversité. Leur convergence vers le front de Par<strong>et</strong>o<br />
est inférieure à celle de PESA, mais la diversité est meilleure. L’étude montre<br />
également que NSGA-II est plus performant que SPEA2 en termes de temps de<br />
calcul, essentiellement à cause de la phase de clustering très chronophage de ce<br />
dernier. L’étude évoque également le fait que quelle que soit l’approche choisie,
tel-00671168, version 1 - 8 Oct 2012<br />
4.2. <strong>Optimisation</strong> multiobjectif 75<br />
Initialiser<br />
Population<br />
Evaluer<br />
Adaptation<br />
Sélectionner<br />
Parents<br />
Appliquer<br />
Opérateurs<br />
Génétiques<br />
Arrêt ?<br />
Fin<br />
Début<br />
Calculer Solutions<br />
non dominées<br />
Gérer<br />
Diversité<br />
Initialiser<br />
Archive<br />
M<strong>et</strong>tre<br />
à Jour<br />
Figure 4.2 – Structure typique d’un algorithme évolutionnaire multiobjectif<br />
élitiste. L’archive est ici une population externe. Pour certains algorithmes tels<br />
que [71], une seule population est gérée <strong>et</strong> contient les éléments non dominés.<br />
La sortie de l’algorithme est le contenu de l’archive.<br />
pour être performant, l’algorithme doit être adapté au problème à résoudre. Il<br />
est en particulier nécessaire de :<br />
1. choisir une représentation adaptée des individus ;<br />
2. concevoir une stratégie efficace d’initialisation des individus ;<br />
3. concevoir une fonction d’évaluation des individus ;<br />
4. concevoir des opérateurs de variation appropriés.<br />
Dans la suite de ce chapitre, nous synthétisons les différents travaux que<br />
nous avons réalisés à l’intersection des domaines de l’analyse de documents, de<br />
la reconnaissance de formes <strong>et</strong> de l’optimisation multiobjectif.
tel-00671168, version 1 - 8 Oct 2012<br />
76 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
4.3 Contributions<br />
Dans c<strong>et</strong>te section, trois contributions relatives à l’optimisation multiobjectif<br />
<strong>et</strong> son application en analyse de documents sont présentées. La première<br />
sous-section décrit une contribution propre au domaine de l’optimisation multiobjectif.<br />
Lors de notre phase d’analyse des divers algorithmes évolutionnaires<br />
<strong>et</strong> des limitations <strong>et</strong> difficultés de leur mise en œuvre, nous avons été conduits<br />
à proposer une variante d’algorithme d’optimisation multiobjectif utilisant les<br />
essaims particulaires. C<strong>et</strong>te proposition est exposée en 4.3.1. Puis, les deux<br />
sous-sections suivantes proposent une nouvelle façon de considérer deux problèmes<br />
classiques de l’analyse de documents <strong>et</strong> de l’apprentissage, en adoptant<br />
un point de vue multiobjectif. Pour chacune de ces applications, le problème<br />
est posé, les choix correspondants à la mise en œuvre de l’algorithme sont<br />
décrits <strong>et</strong> les résultats sont discutés.<br />
4.3.1 Essaims particulaires <strong>et</strong> optimisation multiobjectif<br />
4.3.1.1 Définition du problème <strong>et</strong> revue de l’existant<br />
Au même titre que les algorithmes évolutionnaires évoqués en 4.2.2, l’<strong>Optimisation</strong><br />
par Essaims Particulaires (OEP) est une métaheuristique d’optimisation<br />
reposant sur une population de solutions candidates. Proposée initialement<br />
dans [112], elle s’inspire de la nature en cherchant à copier le comportement social<br />
d’animaux évoluant en essaims. Dans un algorithme d’OEP, les particules<br />
sont des solutions potentielles du problème d’optimisation. Elles se déplacent<br />
dans un espace de dimension n, où n est le nombre de variables du problème.<br />
À chaque itération de l’algorithme, les positions des particules sont mises à<br />
jour en utilisant les équations simples de déplacement suivantes :<br />
vi,t+1 = ω.r0.vi,t + (4.1)<br />
c1.r1. (pi,best − xi,t) +<br />
c2.r2. (pi,guide − xi,t)<br />
xi,t+1 = xi,t + χ(vi,t+1) (4.2)<br />
Dans ces équations, xi,t est la position de la i eme particule à l’instant t. vi,t<br />
est sa vitesse. pi,best <strong>et</strong> pi,guide sont respectivement la meilleure position visitée<br />
par la particule i au regard de la fonction à optimiser <strong>et</strong> la position d’une<br />
autre particule de l’essaim choisie comme guide. Les poids appliqués à ces<br />
positions sont respectivement appelés facteurs individuel <strong>et</strong> social. Ils sont tous<br />
les deux calculés en multipliant un coefficient cx fixé a priori par une valeur rx<br />
aléatoirement tirée dans [0, 1]. En fonction des valeurs prises par ce produit,<br />
les particules auront tendance à explorer l’espace ou à affiner leur position<br />
dans un voisinage donné. Les valeurs du produit rxcx ont donc un impact<br />
important sur la convergence de l’algorithme. ω est appelé facteur d’inertie.<br />
Un grand facteur d’inertie provoque une grande exploration de l’espace de<br />
recherche alors qu’un p<strong>et</strong>it facteur d’inertie concentre la recherche sur un p<strong>et</strong>it<br />
espace. La valeur de ω peut être constante ou évoluer au cours du temps comme<br />
dans [217]. Une valeur importante aura tendance à faire suivre à la particule
tel-00671168, version 1 - 8 Oct 2012<br />
4.3. Contributions 77<br />
sa direction précédente, même si un facteur r0 tiré aléatoirement dans [0, 1]<br />
perm<strong>et</strong> de nuancer c<strong>et</strong> aspect. La fonction χ() est généralement implémentée<br />
comme un simple facteur de turbulence [150], mais elle peut aussi correspondre<br />
à une fonction de normalisation ou une fonction de constriction, qui conserve<br />
la direction de la particule mais empêche une divergence de sa vitesse [159].<br />
Pendant les dix dernières années, les algorithmes d’OEP ont été très largement<br />
étudiés <strong>et</strong> appliqués à de très nombreux domaines d’ingénierie. Les<br />
résultats obtenus ont montré qu’ils étaient compétitifs par rapport aux autres<br />
métaheuristiques d’optimisation telles que les algorithmes évolutionnaires ou<br />
les colonies de fourmis ([119, 151, 190]). Ces succès, couplés à l’émergence des<br />
problématiques d’optimisation multiobjectif, ont naturellement amené la communauté<br />
à s’intéresser à leur transformation pour appréhender des problèmes<br />
à objectifs multiples [175].<br />
Le principal changement dans c<strong>et</strong> algorithme provient naturellement de<br />
l’absence de relation d’ordre total entre les solutions, si ce n’est pas le biais<br />
d’une aggrégation des critères. Ainsi, il n’existe plus réellement de meilleure<br />
particule, ni de meilleure position d’une particule. Dans ce contexte, les deux<br />
principales difficultés à surmonter sont [175] :<br />
– la sauvegarde des solutions non dominées constituant l’estimation de<br />
l’ensemble de Par<strong>et</strong>o, qui impose la gestion d’une population externe,<br />
appelée archive, dont il est important de gérer la taille <strong>et</strong> la diversité<br />
pour éviter une explosion du nombre de comparaisons <strong>et</strong> pour fournir<br />
une solution exploitable à l’utilisateur ;<br />
– la gestion de la mémoire de la particule (traditionnellement la meilleure<br />
position visitée) ainsi que la sélection de la particule guide dans l’essaim.<br />
Ces modifications sont illustrées par l’algorithme 1. Les lignes 7, 11 <strong>et</strong><br />
13 illustrent respectivement l’intégration de la relation de dominance dans la<br />
gestion de la mémoire de la particule, la gestion de l’archive <strong>et</strong> la sélection du<br />
guide.<br />
Dans [75], nous avons proposé des solutions originales à ces problèmes. Elles<br />
sont synthétisées dans les paragraphes suivants.<br />
4.3.1.2 Approche proposée<br />
Gestion de l’archive Le passage d’un problème mono-objectif à un problème<br />
multiobjectif basé sur la dominance de Par<strong>et</strong>o impose d’intégrer dans<br />
l’algorithme d’optimisation par essaims particulaires une archive contenant<br />
l’approximation courante de l’ensemble de Par<strong>et</strong>o du problème. Une approche<br />
simpliste consisterait à y intégrer toutes les solutions non dominées rencontrées<br />
lors de l’évolution des particules. Toutefois, il serait alors impossible de gérer<br />
la taille de l’archive <strong>et</strong> sa diversité. La solution généralement préconisée par<br />
la littérature pour résoudre ce problème consiste à remplacer la dominance de<br />
Par<strong>et</strong>o classique par l’ɛ-dominance, proposée dans [122] <strong>et</strong> évaluée dans [149].<br />
Deux alternatives sont disponibles dans la littérature en termes de définition :<br />
l’ɛ-dominance additive proposée dans [122] ou l’ɛ-dominance multiplicative décrite<br />
dans [149]. Un consensus semble aujourd’hui se dégager pour la seconde<br />
solution pour laquelle le choix de la valeur d’ɛ est simplifié. Toutefois, les expériences<br />
que nous avons menées <strong>et</strong> décrites dans [75] en utilisant c<strong>et</strong>te définition
tel-00671168, version 1 - 8 Oct 2012<br />
78 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
Algorithm 1 Algorithme de l’implémentation des MOPSO.<br />
1: DÉBUT<br />
2: t ← 0<br />
3: Initialisation aléatoire de l’essaim<br />
4: répéter<br />
5: pour chaque particule i faire<br />
6: M<strong>et</strong>tre à jour la position xi,t+1 de la particule en utilisant l’eq. 4.2<br />
7: si pi,t+1 ≺ pi,best alors<br />
8: pi,best ← pi,t+1<br />
9: finsi<br />
10: fin pour<br />
11: M<strong>et</strong>tre à jour l’archive<br />
12: pour chaque particule i faire<br />
13: Sélectionner un guide pi,guide<br />
14: fin pour<br />
15: Évaluer les critères de fin<br />
16: t ← t + 1<br />
17: tant que les critères de fin ne sont pas atteints<br />
18: FIN<br />
de ɛ-dominance multiplicative ont mis en exergue le fait que celle-ci ne perm<strong>et</strong>tait<br />
pas de décrire de façon homogène le front de Par<strong>et</strong>o. C’est pourquoi nous<br />
avons proposé une variante de c<strong>et</strong>te dominance. Les équations 4.3 à 4.5 donnent<br />
respectivement les définitions de l’ɛ-dominance additive, de l’ɛ-dominance multiplicative<br />
<strong>et</strong> de notre proposition. La figure 4.9 illustre les différences entre ces<br />
différentes variantes.<br />
→ x i≺ → x j ⇔<br />
→ x i≺ → x j ⇔<br />
→ x i≺ → x j⇔<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
<br />
⎧<br />
⎨<br />
⎩<br />
<br />
∀k ∈ [1, N], fk( → xi) + ε ≤ fk( → xj)<br />
∃k ′ ∈ [1, N] | fk ′(→ xi) + ε < fk ′(→ xj)<br />
∀k ∈ [1, N], fk( → xi)<br />
1+ε ≤ fk( → xj)<br />
∃k ′ ∈ [1, N] | f k ′(→ xi)<br />
1+ε < fk ′(→ xj)<br />
∀k ∈ [1, N], fk( → xi) ≤ fk( → xj)<br />
∃k ′ ∈ [1, N] | fk ′(→ xi) < fk ′(→ xj)<br />
OR<br />
⎧<br />
⎪⎨<br />
∃k ′ ∈ [1, N] |<br />
⎪⎩<br />
fk ′(→ xj) < fk ′(→ xi) < 1+2ε<br />
1+ε fk ′(→ xj)<br />
∀k ∈ [1, N], fk( → xi)<br />
1+ε ≤ fk( → xj)<br />
(4.3)<br />
(4.4)<br />
(4.5)<br />
Tout comme avec l’ε-dominance [148], la variante proposée perm<strong>et</strong> de gérer<br />
simultanément la dominance <strong>et</strong> le voisinage dans l’espace des objectifs. Elle<br />
perm<strong>et</strong> ainsi d’obtenir rapidement une approximation de l’ensemble de Par<strong>et</strong>o<br />
en modifiant la surface de dominance proportionnellement aux valeurs de critères.<br />
La variante proposée ajoute à ces propriétés le fait de mieux prendre<br />
en considération certaines formes particulières de front, en particulier les zones
tel-00671168, version 1 - 8 Oct 2012<br />
4.3. Contributions 79<br />
A B<br />
C<br />
Figure 4.3 – Illustration des variantes proposées : dominance classique de Par<strong>et</strong>o<br />
dominance (a), ε-dominance relative (b) <strong>et</strong> notre variante de l’ε-dominance<br />
(c). Les zones hachurées correspondent aux zones dominées par la particule ’o’<br />
pour lesquelles un seul objectif varie beaucoup. L’annexe C illustre c<strong>et</strong> avantage<br />
sur des problèmes de la littérature.<br />
Gestion de la mémoire <strong>et</strong> du guide Les performances d’un algorithme<br />
d’optimisation par essaims particulaires dépendent fortement des choix qui sont<br />
faits pour la gestion de la mémoire des particules <strong>et</strong> pour le choix du guide.<br />
Ces choix sont évidemment impactés par le passage du mono-objectif au multiobjectif.<br />
Pour le choix de la mémoire, nous avons opté dans [75] (Annexe C)<br />
pour l’utilisation de la dernière position non dominée visitée. Ce choix perm<strong>et</strong><br />
de réduire considérablement les temps de calcul par rapport aux stratégies plus<br />
évoluées telles que celles proposées dans [35].<br />
Pour la sélection du guide, nous avons proposé une méthode basée sur<br />
une approche stochastique, inspirée des processus de sélection utilisés dans les<br />
algorithmes génétiques. Il est prouvé dans [8] que de telles approches s’avèrent<br />
particulièrement efficaces. Ainsi, le guide est sélectionné par l’intermédiaire<br />
de la simulation d’un tirage par roue de loterie biaisée parmi les particules<br />
de l’archive. Les probabilités affectées à chaque particule dans ce cadre sont<br />
déterminées en fonction de la densité de leur voisinage sur l’estimation courante<br />
du front de Par<strong>et</strong>o, ce qui vise à améliorer la diversité sur le front. La métrique<br />
utilisée pour effectuer ce calcul de densité est détaillée dans [75].<br />
Le dernier problème abordé dans nos travaux concerne la stratégie mise en<br />
place pour modifier le guide. Il est en eff<strong>et</strong> important de ne pas modifier celuici<br />
à chaque itération pour que les particules aient le temps de converger vers<br />
celui-ci. Dans [75], nous avons proposé une approche consistant à (i) ne pas
tel-00671168, version 1 - 8 Oct 2012<br />
80 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
utiliser de guide lorque la particule vient d’être intégrée à l’archive, lui laissant<br />
ainsi explorer librement l’espace des paramètres en fonction de sa mémoire<br />
individuelle <strong>et</strong> de son inertie, (ii) changer de guide en fonction d’un tirage<br />
aléatoire biaisé par le nombre d’itérations pour lesquelles le même guide a été<br />
utilisé, là encore pour améliorer l’exploration de l’espace des paramètres.<br />
4.3.1.3 Résultats obtenus<br />
Les propositions décrites ci-avant ont été évaluées sur différents problèmes<br />
standards de la littérature de difficultés variables ([29, 44, 199]), en utilisant les<br />
métriques proposées par la communauté de l’optimisation multiobjectif. Ces<br />
métriques recouvrent les deux objectifs principaux de l’optimisation multiobjectif,<br />
à savoir la convergence vers le front de Par<strong>et</strong>o <strong>et</strong> la diversité. Les expérimentations<br />
menées, qui sont précisément décrites dans l’annexe C, visaient à<br />
illustrer l’apport des contributions en comparant les performances avec <strong>et</strong> sans<br />
nos propositions. Concernant la proposition de dominance, les résultats obtenus<br />
prouvent que le front est décrit de manière beaucoup plus fine avec notre<br />
proposition, à la fois en termes de diversité (évaluée par la Spacing M<strong>et</strong>ric)<br />
<strong>et</strong> d’extension (évaluée par la Maximal Extension). L’archive obtenue perm<strong>et</strong><br />
ainsi une bien meilleure description des solutions du problème. Concernant la<br />
stratégie de sélection de guide, là encore, les résultats obtenus ont montré une<br />
amélioration significative, en particulier pour les problèmes réputés les plus<br />
difficiles.<br />
L’approche a également été comparée avec l’algorithme de référence NSGA-<br />
II [71] sur un problème d’analyse de documents. La figure 4.4 montre les résultats<br />
obtenus par les deux algorithmes sur ce problème qui sera précisément<br />
décrit en 4.3.3. Elle illustre le fait que l’algorithme proposé perm<strong>et</strong> d’obtenir<br />
des résultats tout à fait compétitifs avec l’état de l’art <strong>et</strong> bien meilleurs que<br />
ceux que perm<strong>et</strong> d’obtenir une approche « scalarisée ».<br />
4.3.2 Approximation de courbes<br />
4.3.2.1 Définition du problème <strong>et</strong> revue de l’existant<br />
L’approximation de courbes planaires est un problème fréquemment abordé<br />
dans les communautés de l’analyse d’images <strong>et</strong> de l’analyse de documents. C’est<br />
en eff<strong>et</strong> un moyen classiquement adopté pour représenter, stocker <strong>et</strong> traiter des<br />
courbes numériques. Les résultats d’une approximation peuvent par exemple<br />
être utilisés pour représenter des formes dans un processus de reconnaissance<br />
[147, 97, 163, 154].<br />
L’approximation de courbes 2D peut être définie comme suit : soit une<br />
courbe décrite par une liste ordonnée de N points C = {pi = (xi, yi)} N<br />
i=1 . Le<br />
but d’un approximateur est de trouver une liste B = {bi = (xi, yi)} M<br />
i=1 ⊂ C<br />
constituée de M points (souvent appelés point dominants) <strong>et</strong> un ensemble<br />
de paramètres Θ = {θi} P<br />
i=1 décrivant la courbe approximant les points entre<br />
les bi consécutifs. Si C est une courbe ouverte (i.e. p1 = pN), p1 <strong>et</strong> pN sont<br />
généralement inclus dans l’ensemble B <strong>et</strong> par conséquent P = M − 1. Si au<br />
contraire la courbe est fermée, (i.e. p1 = pN), B ne contient a priori ni point<br />
initial ni point terminal <strong>et</strong> P = M puisque la courbe entre bP <strong>et</strong> b1 doit
tel-00671168, version 1 - 8 Oct 2012<br />
4.3. Contributions 81<br />
Figure 4.4 – Comparaison des estimations finales du front de Par<strong>et</strong>o d’un<br />
problème de sélection de modèle (NSAGII vs. MOPSO). La courbe marquée<br />
par des ’*’ correspond à une approche scalarisée à base d’aire sous la courbe<br />
ROC [168].<br />
être approximée. Notons que si les courbes approximantes sont réduites à des<br />
segments, on parle alors d’approximation polygonale <strong>et</strong> la définition de Θ n’est<br />
pas nécessaire. Dans le cas où les arcs de cercle sont considérés, Θ est défini<br />
par Θ = {θi = (xci, yci)} P<br />
i=1 où (xci, yci) désignent les coordonnées du centre<br />
de l’arc de cercle.<br />
De très nombreux algorithmes ont été proposés pour approximer des courbes<br />
dans ces différentes configurations. Parmi les approches existantes, deux paradigmes<br />
peuvent être distingués. Le premier consiste à approximer la courbe en<br />
détectant des points particuliers, en général sur la base d’heuristiques liées à la<br />
courbure. La littérature est extrêmement abondante pour ce type d’approches<br />
[179, 201, 10, 173, 67, 140, 143] <strong>et</strong> un état de l’art très compl<strong>et</strong> est disponible<br />
dans [45]. Dans le second cas, l’approximation est considérée comme un processus<br />
d’optimisation [162, 182, 115, 96, 184, 160]. Un critère d’erreur est défini<br />
<strong>et</strong> l’algorithme cherche à optimiser l’approximation au regard de ce critère. On<br />
peut distinguer deux types de formulation d’une telle optimisation [115] :<br />
– min − ɛ : la valeur de M est fixée <strong>et</strong> le processus repose sur une minimisation<br />
de l’approximation de l’erreur. En général, le critère repose sur<br />
une erreur quadratique définie par ISE = P<br />
i=1 e2 i où ei est la distance<br />
entre pi <strong>et</strong> la courbe approximante.<br />
– min − # : une tolérance maximale sur l’erreur d’approximation est fixée<br />
<strong>et</strong> le processus minimise le nombre de points d’approximation P (i.e.<br />
maximise le taux de compression).<br />
Or, minimiser l’ISE <strong>et</strong> le nombre de points P sont deux objectifs antagonistes.<br />
Dans ce cadre, des auteurs ont proposé des critères scalaires combinant<br />
les deux valeurs. Ainsi, Sarkar propose dans [185] un critère nommé Figure
tel-00671168, version 1 - 8 Oct 2012<br />
82 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
Of Merit défini par F OM = CR/ISE. Markji <strong>et</strong> Syi proposent dans [141]<br />
un autre critère défini par W E x 2 = ISE/CRx . Une bonne revue des critères<br />
existants est proposée dans [46]. Dans [130], nous avons proposé de traiter le<br />
problème de l’approximation de courbes sous l’angle de l’optimisation multiobjectif.<br />
L’approche est décrite dans la sous-section suivante.<br />
4.3.2.2 Approche proposée<br />
L’approche que nous avons proposée dans [130] pour aborder le problème<br />
d’approximation de courbes dans le cadre de l’optimisation multiobjectif repose<br />
sur l’utilisation d’un algorithme de la littérature, suivant la stratégie illustrée<br />
sur la figure 4.2. Pour appliquer c<strong>et</strong> algorithme au problème défini ci-dessus,<br />
celui-ci a été spécialisé. C<strong>et</strong>te spécialisation repose d’abord sur le codage des<br />
individus. Ainsi, un individu doit représenter une solution possible du problème<br />
d’approximation. Pour ce faire, un individu est simplement composé de<br />
N gènes. Un gène à ’1’ signifie que le point est conservé comme point dominant.<br />
Si sa valeur est ’0’, le point n’est pas r<strong>et</strong>enu. Une seconde spécialisation<br />
concerne l’initialisation de la population. Pour réduire le nombre d’itérations<br />
de l’algorithme, un opérateur d’initialisation spécifique a été proposé. Il s’appuie<br />
sur une analyse préalable de la courbe à traiter en utilisant une fenêtre<br />
glissante de 3 points. Un histogramme des configurations est construit lors<br />
de c<strong>et</strong>te analyse. Des probabilités en sont déduites <strong>et</strong> sont utilisées lors de<br />
l’initialisation des individus.<br />
Les opérateurs utilisés pour faire évoluer la population sont des opérateurs<br />
génétiques classiques. Pour le croisement, une permutation à un point est utilisée.<br />
Elle perm<strong>et</strong> de croiser les bonnes approximations de deux parties d’une<br />
courbe. Pour la mutation, un choix aléatoire est effectué entre deux possibilités.<br />
La première est une mutation classique consistant à changer la valeur<br />
d’un gène de 0 (resp. 1) à 1 (resp. 0). La seconde consiste à déplacer un point<br />
dominant d’une position à sa précédente ou à sa suivante. Il perm<strong>et</strong> d’affiner<br />
une approximation.<br />
L’évaluation d’un individu consiste à calculer (i) le nombre de points dominants,<br />
qui est simplement une somme de la valeur des gènes <strong>et</strong> (ii) l’ISE de<br />
l’approximation correspondante. C<strong>et</strong>te valeur est calculée en sommant les erreurs<br />
obtenues entre chaque paire de points dominants consécutifs. Pour chaque<br />
paire, l’algorithme compare l’ISE obtenue avec un segment avec celle obtenue<br />
avec un arc. Dans le cas d’un segment, nous utilisons ISE = n<br />
i=1 d2 i<br />
, où di<br />
est la distance orthogonale du i eme point au segment <strong>et</strong> où n est le nombre de<br />
points entre les extrémités de la courbe. Dans le cas d’arcs de cercle, l’évalutation<br />
repose sur deux étapes. La première consiste à estimer la position du<br />
centre de l’arc sous la contrainte de la position des points extrémités. Une<br />
telle estimation est très coûteuse en temps si une approche exacte est utilisée.<br />
Aussi, nous utilisons une approximation proposée dans [161], qui repose sur<br />
une fonction d’erreur définie dans [203]. Ainsi, le centre de l’arc approximant<br />
une séquence de point (x1, ..., xn) est calculé par :<br />
<br />
(xc, yc) = −<br />
n i=1 K1K2<br />
n i=1 K1K3<br />
<br />
, axc + b<br />
(4.6)
tel-00671168, version 1 - 8 Oct 2012<br />
4.3. Contributions 83<br />
avec :<br />
– a = −(xn − x1)/(yn − y1),<br />
– b = ((y1 + yn)/2) − (a(x1 + xn)/2)),<br />
– K1 = −x1 − ay1 + xi + ayi,<br />
– K2 = x 2 1 + (y1 − b) 2 − x 2 i − (yi − b) 2 ,<br />
– K3 = −2x1 − 2a(y1 − b) + 2xi + 2a(yi − b).<br />
L’ISE peut ensuite être calculée par :<br />
ISE =<br />
n<br />
i=1<br />
avec R 2 = (x1 − xc) 2 + (y1 − yc) 2<br />
4.3.2.3 Résultats obtenus<br />
<br />
R − (xi − xc) 2 + (yi − yc) 2<br />
2 (4.7)<br />
Pour valider les performances de l’algorithme proposé, ce dernier a été<br />
évalué sur quatre courbes de référence proposées dans [201] <strong>et</strong> illustrées sur la<br />
figure 4.5.<br />
Par définition, l’algorithme proposé consiste à estimer l’ensemble de Par<strong>et</strong>o<br />
du problème biobjectif correspondant. Aussi, le résultat est un ensemble<br />
de couples ISE/nombre de points dominants. Pour valider la convergence de<br />
l’algorithme, nous avons d’abord comparé les résultats qu’il perm<strong>et</strong> d’obtenir<br />
avec une approche exhaustive recherchant les ISE optimales (en utilisant [162])<br />
pour un nombre variable de points dominants. La figure 4.6 illustre le résultat<br />
obtenu. Elle montre que, grâce à la manipulation de populations de solutions<br />
à la base de l’approche, l’algorithme perm<strong>et</strong> de trouver en une seule exécution<br />
un ensemble d’approximations proches des résultats optimaux, pour différents<br />
nombre de points dominants.<br />
Les résultats obtenus ont également été comparés à ceux de la littérature.<br />
Une telle comparaison est une tâche difficile pour plusieurs raisons. D’abord, la<br />
littérature est assez pauvre concernant l’approximation de courbes par des segments<br />
<strong>et</strong> des arcs de cercle. À notre connaissance, moins de dix approches ont<br />
été proposées à ce jour pour résoudre une telle tâche ([180, 55, 96, 95, 184, 207,<br />
98, 100, 155]). Par ailleurs, parmi les approches existantes, très peu d’articles<br />
donnent des résultats sur les courbes de références proposées par [201]. Enfin,<br />
pour ces quelques articles, comme souvent quand plusieurs objectifs sont<br />
considérés dans un problème d’optimisation, les résultats sont fournis pour<br />
uniquement quelques nombres de points dominants. Le tableau 4.1 résume ces<br />
résultats <strong>et</strong> les compare avec ceux obtenus par notre algorithme.<br />
Ces résultats amènent plusieurs observations. La première est que, à nombre<br />
fixé de points, l’approche proposée n’est pas « meilleure » que celles de la littérature.<br />
Pour la plupart des configurations, l’une des approches de la littérature<br />
perm<strong>et</strong> d’obtenir une ISE inférieure. Cependant, ce n’est pas toujours le même<br />
algorithme qui perm<strong>et</strong> d’atteindre la performance optimale. Ainsi, il n’existe<br />
pas d’approche qui domine toutes les autres. Par ailleurs, l’avantage principal<br />
de l’approche proposée est qu’une seule exécution de l’algorithme suffit pour<br />
obtenir un ensemble de solutions parmi lesquelles l’utilisateur peut choisir le<br />
compromis qui lui convient. Enfin, l’approche est générique. Elle peut être
tel-00671168, version 1 - 8 Oct 2012<br />
84 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
(a) Chromosome (b) Eight<br />
(c) Semicircle (d) Leaf<br />
Figure 4.5 – Les 4 courbes de test proposées dans [201]. (a) chromosomeshaped<br />
avec 60 points ; (b) figure-of-eight avec 45 points ; (c) four-semicircle<br />
avec 102 points <strong>et</strong> (d) leaf-shaped avec 120 points. .<br />
adaptée à tout type de courbe paramétrique (ellipses, B-Splines), contrairement<br />
aux approches basées sur la détection de points dominants.<br />
L’approche <strong>et</strong> les résultats présentés dans c<strong>et</strong>te sous-section militent clairement,<br />
selon nous, pour la prise en compte des deux objectifs dans le contexte<br />
de l’approximation de courbes. Dans la section suivante, nous montrons que<br />
cela peut également être le cas dans le domaine de l’apprentissage.<br />
4.3.3 Sélection de modèles<br />
C<strong>et</strong>te sous-section synthétise les travaux que nous avons proposés dans le<br />
domaine de l’apprentissage multiobjectif, en particulier pour la sélection de<br />
modèles multiples de classifieurs SVM.<br />
4.3.3.1 Définition du problème <strong>et</strong> revue de l’existant<br />
Le réglage des hyperparamètres d’un classifieur est une étape critique de<br />
la construction d’un système de reconnaissance de formes. C<strong>et</strong> aspect crucial
tel-00671168, version 1 - 8 Oct 2012<br />
4.3. Contributions 85<br />
Figure 4.6 – Comparaison entre le front de Par<strong>et</strong>o réel du problème (’o’)<br />
obtenu en utilisant une adaptation de l’approche proposée dans [162] <strong>et</strong> les résultats<br />
obtenus avec l’algorithme multiobjectif (’x’) pour la courbe leaf-shaped<br />
Reference Chromosome Figure-of-eight Leaf Semicirles<br />
N ISE N ISE N ISE N ISE<br />
[96] 10 2,67 6 3,06 16 11,31 4 6,94<br />
[184] 10 2,60 6 3,26 16 10,96 4 6,94<br />
11 2,18 8 2,36 18 7,40 6 5,83<br />
15 1,23 9 2,03 31 1,64 12 4,31<br />
[98] 10 3,31 6 3,32 19 9,18 4 6,94<br />
20 6,27 8 6,83<br />
Optimal Values 10 2,42 6 3,06 16 10,54 4 6,94<br />
11 1,94 8 2,27 19 6,18 6 5,77<br />
15 1,08 9 1,92 20 5,28 8 5,24<br />
31 1,34 12 3,98<br />
Proposed Approach 10 2,68 6 3,23 16 14,73 4 6,94<br />
11 2,25 8 2,38 19 6,99 6 5,83<br />
15 1,27 9 1,99 20 6,69 8 5,25<br />
31 1,48 12 4,19<br />
Table 4.1 – Comparaison des résultats obtenus par l’approche proposée <strong>et</strong> les<br />
résultats de la littérature pour les différentes courbes de test.<br />
de la sélection de modèles a en eff<strong>et</strong> un impact fort sur les performances en<br />
généralisation du système.<br />
Les travaux menés dans le cadre de la thèse de Simon Bernard [21] sur le<br />
paramétrage des forêts aléatoires constituent une illustration parfaite de c<strong>et</strong>te<br />
constatation. Nous y avons montré que la valeur du nombre K de caractéristiques<br />
choisies aléatoirement à chaque nœud lors de l’induction des arbres avait<br />
une influence importante sur les performances de l’ensemble [22, 24]. La figure<br />
4.7 illustre c<strong>et</strong> aspect par les performances obtenues par l’algorithme Forest-RI<br />
[36] sur douze bases de l’UCI Machine Learning repository [1] en faisant va
tel-00671168, version 1 - 8 Oct 2012<br />
86 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
rier la valeur de K. On y constate la variabilité des performances en fonction<br />
de K, mais aussi le fait que la valeur optimale de K est variable en fonction<br />
des problèmes traités. Ces résultats ont d’ailleurs motivé la proposition d’un<br />
algorithme nommé Forest-RK qui adapte la valeur de K au problème traité<br />
[25, 23].<br />
Figure 4.7 – Taux d’erreurs moyens obtenus en fonction de la valeur du paramètre<br />
K sur différentes bases de l’UCI. La valeur optimale de K est marquée<br />
sur chacune des courbes.<br />
Ce problème du réglage des hyperparamètres n’est évidemment pas propre<br />
aux forêts aléatoires. On le r<strong>et</strong>rouve pour tout type de classifieur. Dans la littérature,<br />
la plupart des contributions relatives à c<strong>et</strong>te problématique concernent<br />
la proposition des critères à optimiser pour régler les hyperparamètres. Elles<br />
ont mené à de nombreux critères <strong>et</strong> stratégies visant à résoudre ce problème. On<br />
peut citer par exemple le Xi-Alpha bound de [106], la Generalized Approximate<br />
Cross-Validation de [210], l’empirical error estimate de [15], la radius-margin<br />
bound de [51] ou la maximal-discrepancy de [9]. Une revue des travaux dans ce<br />
domaine est proposée dans [89]. En exploitant ces critères, les valeurs des hyperparamètres<br />
sont généralement choisies en utilisant une recherche en grille,<br />
associée à une procédure de validation croisée. Quelques auteurs y adjoignent<br />
des techniques de descente de gradient, en rendant dérivable le critère, pour<br />
réduire la complexité combinatoire [20, 110].<br />
Toutes ces approches, bien qu’efficaces, reposent sur un critère unique. Or,<br />
il est désormais admis qu’un critère unique n’est pas toujours un indicateur
tel-00671168, version 1 - 8 Oct 2012<br />
4.3. Contributions 87<br />
de performances suffisant. En particulier, un critère scalaire n’est pas adapté<br />
lorsque les coûts de mauvaise classification sont (i) asymétriques (par exemple<br />
dans le domaine médical ou la biométrie), (ii) difficiles à estimer (par exemple<br />
quand le processus de classification est intégré dans un système plus complexe)<br />
<strong>et</strong> (iii) évolutifs au cours de la vie du système (par exemple pour des problématiques<br />
de détection de fraudes).<br />
Dans de tels environnements généralement appelés « mal définis », les critères<br />
scalaires utilisés pour construire un classifieur unique sont inadaptés. Une<br />
alternative de plus en plus utilisée pour considérer ce problème est d’utiliser<br />
la courbe ROC (Receiver Operating Characteristics) proposée dans [34] pour<br />
évaluer les performances d’un classifieur. Dans le contexte d’un problème à<br />
deux classes, une courbe ROC (Figure 4.1) est une représentation synthétique<br />
des compromis entre les taux de vrais positifs <strong>et</strong> de faux positifs. Il existe<br />
des travaux en apprentissage s’appuyant sur l’espace ROC pour sélectionner<br />
le modèle du classifieur [80, 168, 33]. Toutefois, ils reposent en général sur une<br />
scalarisation en résumant la courbe ROC à une valeur telle que la F-Mesure,<br />
le break even point, ou l’aire sous la courbe ROC (Area Under Curve-AUC).<br />
Notons également l’existence de quelques travaux ([188, 76]) pour lesquels les<br />
deux critères de l’espace ROC sont intégrés dans le cadre de l’apprentissage de<br />
classifieurs.<br />
4.3.3.2 Approche proposée<br />
Dans [52], nous avons proposé de ne pas faire reposer le choix du modèle<br />
sur un critère scalaire visant à trouver le « meilleur » classifieur global, mais de<br />
construire une population de classifieurs localement optimaux. Le classifieur le<br />
plus adapté au contexte courant peut ainsi être sélectionné. L’environnement<br />
proposé peut donc être assimilé à une approche de sélection de modèles multiples<br />
qui s’inscrit naturellement dans le cadre de l’optimisation multiobjectif.<br />
Nous avons appelé « Front ROC » la sortie d’un tel système, par analogie avec<br />
la terminologie utilisée en optimisation multiobjectif. Ce concept est illustré<br />
sur la figure 4.8. Une telle vision du problème perm<strong>et</strong> à un utilisateur (éventuellement<br />
une étape ultérieure de traitement), de déplacer le problème du<br />
choix du modèle à une étape ultérieure, évitant l’injection de connaissances<br />
a priori qui ne sont pas toujours disponibles au moment de la conception du<br />
système. Par ailleurs, le classifieur utilisé peut être modifié au cours de la vie<br />
du système si les conditions changent, sans nécessiter un réapprentissage des<br />
données.<br />
L’approche, qui est généralisable à n’importe quel type de classifieur muni<br />
d’hypeparamètres, a été implémentée en utilisant un classifieur de type SVM.<br />
Ce type de classifieur perm<strong>et</strong> en eff<strong>et</strong> de bien prendre en charge les problèmes<br />
de classification à deux classes avec des coûts de mauvaise classification asymétriques,<br />
en introduisant, à la place du paramètre C classique, deux paramètres<br />
de pénalités différents C− <strong>et</strong> C+ [158]. Dans ce cas, étant donné un ensemble<br />
de m exemples d’apprentissage xi ∈ ℜ n appartenant à la classe yi, la maximisation<br />
du lagrangien dual par rapport aux αi devient :
tel-00671168, version 1 - 8 Oct 2012<br />
88 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
Figure 4.8 – Illustration synthétique du concept de Front ROC. La courbe<br />
continue est une courbe ROC correspondant à un classifieur pour lequel l’AUC<br />
a été optimisée. Les courbes 1,2 <strong>et</strong> 3 sont les courbes ROC de 3 classifieurs du<br />
Front ROC. Le Front ROC contient les parties non dominées de ces courbes.<br />
Maxα<br />
m <br />
i=1<br />
sous les contraintes :<br />
αi − 1<br />
2<br />
⎧<br />
⎨<br />
⎩<br />
m<br />
i,j=1<br />
<br />
αiαjyiyjK(xi, xj)<br />
0 ≤ αi ≤ C+ pour yi = −1<br />
0 ≤ αi ≤ C− pour yi = +1<br />
m<br />
i=1 αiyi = 0<br />
où les αi représentent les multiplicateurs de Lagrange <strong>et</strong> K(.) représente la<br />
fonction noyau. Dans le cas d’un noyau gaussien, K(.) est défini par :<br />
K(xi, xj) = exp −γ × xi − xj 2<br />
Ainsi, dans le cas de coûts de mauvaise classification asymétriques, trois<br />
paramètres doivent être déterminés pour réaliser un apprentissage optimal de<br />
SVM :<br />
– le paramètre du noyau, γ pour un le noyau gaussien ;<br />
– les paramètres de pénalité introduits ci-dessus : C− <strong>et</strong> C+.<br />
Dans [52], nous avons choisi l’algorithme NSGA-II proposé dans [71] pour<br />
optimiser la valeur de ces paramètres au regard des deux critères de l’espace<br />
ROC. Celui-ci est reconnu comme étant l’un des plus efficaces à la fois pour<br />
la convergence vers le front de Par<strong>et</strong>o du problème <strong>et</strong> pour la diversité des<br />
solutions. Un codage réel a été utilisé pour représenter les paramètres. Les<br />
opérateurs génétiques perm<strong>et</strong>tant de faire évoluer la population sont les opérateurs<br />
natifs proposés dans [71]. La stratégie utilisée est synthétisée sur la figure<br />
4.9.<br />
4.3.3.3 Résultats obtenus<br />
L’approche proposée a été évaluée à la fois sur des bases de données publiques<br />
de l’UCI Machine Learning repository [1] <strong>et</strong> sur un problème d’analyse<br />
d’images de documents. Comme dans le cas de l’approximation de courbes<br />
présentée en 4.3.2, la comparaison avec des approches de la littérature a été
tel-00671168, version 1 - 8 Oct 2012<br />
4.3. Contributions 89<br />
Figure 4.9 – Approche proposée pour la sélection de modèles multiples<br />
rendue complexe par (i) le fait que les autres méthodes proposent généralement<br />
un classifieur unique <strong>et</strong> par (ii) la difficulté de la tâche de comparaison de sorties<br />
d’algorithmes d’optimisation muli-objectifs. Dans ce cadre, nous avons<br />
pris le parti de moyenner les performances locales des classifieurs sur le front<br />
ROC, afin d’obtenir une valeur comparable à l’AUC. En restant conscient que<br />
c<strong>et</strong>te comparaison n’est théoriquement pas correcte puisque nous comparons<br />
un classifieur unique à une population de classifieurs, nous avons donc calculé<br />
une AUF (Area Under Front) qui peut être comparée à l’AUC obtenue par différentes<br />
approches, à savoir celles proposées dans [33] (Decision lists <strong>et</strong> rules<br />
s<strong>et</strong>s), [68] (Rankboost), [81] (Decision trees), [168] (SVMs) and [214] (5 classifieurs<br />
différents). Une validation croisée sur 5 sous-ensembles a été réalisée<br />
pour attester de la stabilité des résultats.<br />
Les résultats sont présentés dans le tableau 4.2. La première colonne contient<br />
les meilleures valeurs d’AUC trouvées dans la littérature <strong>et</strong> la seconde les valeurs<br />
d’AUF obtenues avec l’approche de sélection de modèles multiples.<br />
problème UCI AUC literature ref. AUF<br />
australian 90.25 ± 0.6 [214] 96.22 ± 1.7<br />
wdbc 94.7 ± 4.6 [81] 99.59 ± 0.4<br />
breast cancer 99.13 [33] 99.78 ± 0.2<br />
ionosphere 98.7 ± 3.3 [168] 99.00 ± 1.4<br />
heart 92.60 ± 0.7 [214] 94.74 ± 1.9<br />
pima 84.80 ± 6.5 [68] 87.42 ± 1.2<br />
Table 4.2 – Comparaison entre l’AUC (Area Under Curve) obtenue par des<br />
approches de la littérature avec l’AUF (Area Under Front) de l’approche décrite<br />
dans [52]<br />
Comme attendu, ces résultats montrent que le front ROC perm<strong>et</strong> d’atteindre<br />
des performances qu’un classifieur unique ne perm<strong>et</strong> pas d’obtenir.<br />
Même si c<strong>et</strong>te comparaison est incorrecte, elle illustre toutefois le fait que<br />
l’approche proposée perm<strong>et</strong> d’atteindre localement des compromis que les approches<br />
globales ne perm<strong>et</strong>tent pas d’atteindre.<br />
Au vu de ces résultats, l’approche a également été testée dans le cadre de
tel-00671168, version 1 - 8 Oct 2012<br />
90 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
la conception d’un système qui extrait les champs numériques (numéros de téléphone,<br />
code postal, code client . . . ) dans des images de courriers manuscrits<br />
[53, 54] (fig. 4.10). La principale difficulté d’une telle tâche vient du fait que<br />
les chiffres manuscrits peuvent être connectés à d’autres parties textuelles ou à<br />
des éléments graphiques du document. La figure 4.11 donne quelques exemples<br />
de composantes segmentées que le système doit reconnaître. Dans ce contexte,<br />
la détection des chiffres, leur segmentation <strong>et</strong> leur reconnaissance doivent être<br />
réalisées simultanément dans un système global. La première étape du système<br />
proposé dans [53, 54] consiste à filtrer d’abord les rej<strong>et</strong>s évidents, pour éviter<br />
de leur appliquer une phase de reconnaissance coûteuse en temps de calcul.<br />
C<strong>et</strong>te étape repose sur une classification à deux classes pour laquelle les coûts<br />
de mauvaise classification sont asymétriques <strong>et</strong> inconnus. En eff<strong>et</strong>, le rej<strong>et</strong> d’un<br />
chiffre peut avoir des conséquences importantes sur la détection <strong>et</strong> la reconnaissance<br />
d’un champ numérique compl<strong>et</strong> mais ces conséquences ne sont pas<br />
évaluables a priori. Par ailleurs, ce composant de classification étant embarqué<br />
dans un système compl<strong>et</strong> d’extraction de séquences numériques, il est difficile<br />
d’estimer ces coûts a priori.<br />
Figure 4.10 – Exemple d’image de courrier entrant. Les champs numériques<br />
à extraire sont surlignés.<br />
Dans ce cadre, une base constituée de 19278 formes (1/3 digit, 2/3 outliers)<br />
a été constituée. L’approche a été évaluée en utilisant le même protocole<br />
expérimental que celui mis en œuvre pour les données de l’UCI. La courbe<br />
de la figure 4.12 illustre les résultats obtenus. Sur c<strong>et</strong>te courbe, on constate<br />
que chacun des points obtenus par l’approche à base d’AUC est dominé par<br />
au moins un point du front ROC. L’approche a ainsi permis de construire un<br />
ensemble de classifieurs localement « meilleurs » que celui construit en utilisant<br />
l’approche proposée dans [168]. Chacun de ces classifieurs a ensuite été<br />
intégré dans le système compl<strong>et</strong> afin d’évaluer l’influence de ces performances<br />
sur les performances en rappel <strong>et</strong> précision. Le tableau 4.3 décrit les résultats<br />
obtenus. Ils illustrent le fait que de p<strong>et</strong>ites différences sur les taux de vrais<br />
positifs peuvent avoir des conséquences importantes sur les performances fi
tel-00671168, version 1 - 8 Oct 2012<br />
4.3. Contributions 91<br />
Figure 4.11 – Exemples de chiffres manuscrits <strong>et</strong> de rej<strong>et</strong>s évidents. La première<br />
ligne (a) contient des formes qui peuvent être considérées comme des<br />
« rej<strong>et</strong>s évidents ». La dernière ligne (c) contient des chiffres qui doivent être<br />
soumis au processus de reconnaissance. La ligne (b) contient les rej<strong>et</strong>s ambigus,<br />
qui ressemblent à des chiffres mais qui doivent être rej<strong>et</strong>és par le système<br />
proposé.<br />
nales du système, validant ainsi l’intérêt de ne pas avoir fait le choix d’un seul<br />
classifieur globalement bon.<br />
Figure 4.12 – Comparaison entre le Front ROC obtenu avec l’approche proposée<br />
<strong>et</strong> une courbe ROC obtenue en utilisant [168]. La courbe représente les<br />
compromis entre fausse acceptation <strong>et</strong> faux rej<strong>et</strong> de chiffres manuscrits.<br />
Classifier TP rate 98.8 99.04 99.26 99.48 99.76 99.96 100<br />
recall 0.370 0.410 0.440 0.458 0.462 0.481 0.488<br />
precision 0.110 0.130 0.150 0.176 0.246 0.223 0.152<br />
System F1-Measure 0.170 0.197 0.224 0.254 0.321 0.305 0.232<br />
Table 4.3 – Précisions <strong>et</strong> Rappels obtenus pour le système compl<strong>et</strong> en utilisant<br />
différents classifieurs du Front ROC, ici caractérisés par leur taux de vrais<br />
positifs.
tel-00671168, version 1 - 8 Oct 2012<br />
92 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
4.4 Problèmes ouverts<br />
Dans ce chapitre, nous avons discuté des liens qui existent entre analyse de<br />
documents, évaluation de performances <strong>et</strong> optimisation multiobjectif. Après<br />
une présentation synthétique du problème de l’optimisation multiobjectif <strong>et</strong><br />
des solutions proposées dans la littérature, une contribution relative au domaine<br />
de l’optimisation a été proposée, au travers de l’amélioration d’un algorithme<br />
d’optimisation par essaims particulaires. Puis, les descriptions de deux<br />
contributions ont illustré le fait que la communauté de l’analyse de documents,<br />
<strong>et</strong> plus généralement de la reconnaissance de formes, pourrait tirer un grand<br />
bénéfice de la prise en compte de critères multiples, tant dans l’optique de<br />
l’évaluation de systèmes que pour le réglage <strong>et</strong> l’optimisation de ces derniers.<br />
Dans les deux cas, en dépit des difficultés liées à l’évaluation des approches,<br />
les résultats ont montré que la prise en compte d’objectifs multiples pouvait<br />
perm<strong>et</strong>tre de franchir un cap dans les performances par rapport à l’utilisation<br />
d’un critère scalaire.<br />
Dans c<strong>et</strong>te section, nous évoquons les perspectives directement issues de<br />
ces travaux. Une vision plus générale des pistes de recherche pour les années<br />
à venir dans la communauté sera proposée dans le chapitre 5. La première<br />
perspective importante à mentionner ici concerne la généralisation de la prise<br />
en compte d’objectifs multiples en analyse de documents, tant pour l’évaluation<br />
de performances que pour l’optimisation de systèmes. La seconde perspective<br />
importante concerne l’apprentissage multiobjectif avec une généralisation des<br />
travaux décrits en 4.3.3.<br />
4.4.1 Analyse de documents <strong>et</strong> objectifs multiples<br />
Les contributions proposées dans ce chapitre ont montré l’intérêt de la<br />
prise en compte de critères multiples pour l’évaluation <strong>et</strong> pour l’optimisation<br />
de certains composants de systèmes d’analyse d’images de documents. L’une de<br />
nos perspectives de recherche à court terme consiste naturellement à généraliser<br />
ce point de vue à d’autres outils utilisés dans les chaînes d’analyse. Dans ce<br />
contexte, les contributions décrites dans le chapitre 3, toutes deux basées sur<br />
des processus d’optimisation, constituent un très bon cadre d’étude.<br />
Pour la classification de graphes, de premiers travaux relatifs à l’intégration<br />
d’un critère de rej<strong>et</strong> lors de la génération des prototypes sont en cours. Ces<br />
travaux perm<strong>et</strong>tent d’offrir en sortie un ensemble de solutions parmi lesquelles<br />
il est possible de choisir le compromis erreur/rej<strong>et</strong> qui convient le mieux. La<br />
figure 4.13 illustre les premiers résultats obtenus dans le cadre de ces travaux.<br />
Sur c<strong>et</strong>te figure, une courbe donnée correspond aux différents compromis erreur/rej<strong>et</strong><br />
obtenus par différents ensembles de prototypes optimisés avec un<br />
algorithme d’optimisation multiobjectif. Les différentes courbes correspondent<br />
à l’évolution de la population au cours des générations de l’algorithme d’optimisation.<br />
Ces premiers résultats sont très encourageants puisqu’ils montrent<br />
que l’algorithme perm<strong>et</strong> d’une part d’améliorer les performances aux cours des<br />
générations <strong>et</strong>, d’autre part, de fournir des solutions diversifiées.<br />
Pour la contribution relative à l’isomorphisme de sous-graphes <strong>et</strong> son application<br />
à des problèmes de localisation de symboles, le système proposé en 3.4.1
tel-00671168, version 1 - 8 Oct 2012<br />
4.4. Problèmes ouverts 93<br />
Figure 4.13 – Évolution des performances des différents ensembles de prototypes<br />
en fonction du nombre de générations de l’algorithme d’optimisation<br />
est évalué par les deux critères classiques en recherche d’information que sont<br />
la précision <strong>et</strong> le rappel. L’optimisation d’une telle application pourrait donc<br />
naturellement bénéficier de la prise en compte de critères multiples. Dans le cas<br />
de la recherche d’isomorphismes tolérants aux substitutions, nous envisageons<br />
en particulier d’optimiser les fonctions de coûts cV <strong>et</strong> cE de l’équation 3.11a<br />
au regard de ces deux critères. Le bénéfice serait, là encore, de proposer un<br />
ensemble de compromis plutôt qu’une solution unique en sortie de l’algorithme.<br />
4.4.2 Apprentissage multiobjectif<br />
Ces perspectives de recherche font suite aux travaux menés en collaboration<br />
avec Clément Chatelain concernant le développement d’un cadre multicritère<br />
pour l’apprentissage automatique. Elles ont fait l’obj<strong>et</strong> d’une soumission<br />
nommée LeMOn (LEarning with <strong>Multi</strong>-objective OptimizatioN) lors de l’appel<br />
ANR Jeunes Chercheurs <strong>et</strong> Jeunes Chercheuses 2011 16 . Elles concernent<br />
deux aspects particuliers de l’apprentissage que nous souhaiterions aborder<br />
sous l’angle de l’optimisation multiobjectif.<br />
Le premier aspect concerne l’exploitation de l’espace ROC lors de l’apprentissage<br />
des classifieurs. Dans [52], nous avons proposé un environnement<br />
de sélection de modèles basé sur une approche d’optimisation multiobjectif.<br />
C<strong>et</strong> environnement perm<strong>et</strong> de construire un ensemble de classifieurs à deux<br />
classes localement optimaux dans l’espace ROC, plutôt qu’un unique basé sur<br />
un critère scalaire. Les perspectives ouvertes par ce travail concernent deux<br />
verrous. Le premier est le passage à l’échelle de l’approche afin d’appréhender<br />
de très grands volumes de données. En eff<strong>et</strong>, pour de tels volumes, la stratégie<br />
évolutionnaire proposée dans [52], qui repose sur de nombreux apprentissages<br />
de classifieurs, devient très coûteuse en temps de calcul. La piste envisagée dans<br />
le cadre du proj<strong>et</strong> LeMOn pour pallier ce problème consiste à combiner l’ap-<br />
16. Le proj<strong>et</strong>, dont je suis le porteur, est, à l’heure de l’écriture de ce manuscrit, en seconde<br />
position sur liste complémentaire
tel-00671168, version 1 - 8 Oct 2012<br />
94 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />
proche évolutionnaire avec les travaux récemment proposés dans notre équipe<br />
pour l’apprentissage de SVM adapté aux problèmes de type Neyman-Person.<br />
Le second verrou concerne la généralisation de l’approche proposée à des problèmes<br />
multi-classes, pour lesquels le nombre de critères croît rapidement avec<br />
le nombre de classes (N(N −1) critères sont à considérer pour un problème à N<br />
classes). Il sera alors nécessaire d’adapter l’approche proposée <strong>et</strong> en particulier<br />
d’envisager l’intégration d’opérateurs génétiques dédiés perm<strong>et</strong>tant d’accélérer<br />
la convergence de l’algorithme.<br />
Le second aspect de l’apprentissage que nous envisageons d’aborder sous<br />
l’angle de l’optimisation multiobjectif est celui de l’apprentissage multi-tâches,<br />
qui consiste à apprendre simultanément plusieurs modèles par des transferts<br />
de connaissances d’un modèle vers l’autre. Ce paradigme a récemment permis<br />
d’obtenir de très bons résultats pour différentes applications [27, 12, 28, 102].<br />
Dans la littérature, ce problème est aujourd’hui formulé comme un problème<br />
d’optimisation pour lequel les objectifs relatifs à chacune des tâches sont combinés,<br />
en y ajoutant un terme de régularisation tel que :<br />
min<br />
f1,··· ,fT<br />
<br />
at · Lt(ft(xi,t), yi,t) + λΩ(f1, · · · , fT ). (4.8)<br />
t,i<br />
où Lt(ft(x), y) est la fonction de perte, Ω est un terme de régularisation impliquant<br />
les fonctions de pertes liées à toutes les tâches ft. Les {at} <strong>et</strong> λ sont<br />
des paramètres de pondération de chacun des objectifs.<br />
Nous envisageons dans le cadre du proj<strong>et</strong> LeMOn d’explorer le potentiel de<br />
l’optimisation multiobjectif à base de Par<strong>et</strong>o pour traiter ce genre de problème,<br />
afin de fournir en sortie un ensemble de solutions.<br />
Notons que dans le proj<strong>et</strong> LeMOn, il est prévu d’appliquer ces différents<br />
travaux à deux domaines d’application : l’analyse d’images médicales, en collaboration<br />
avec l’équipe Quantif du LITIS, <strong>et</strong> les interfaces cerveau-machine,<br />
en collaboration avec des chercheurs de l’équipe DocApp s’intéressant à c<strong>et</strong>te<br />
problématique.
tel-00671168, version 1 - 8 Oct 2012<br />
Chapitre 5<br />
Perspectives<br />
L’année 2011 fut l’occasion pour la communauté de l’analyse d’images de<br />
documents de célébrer le vingtième anniversaire de la conférence internationale<br />
sur l’analyse <strong>et</strong> la reconnaissance de documents (International Conference on<br />
Document Analysis and Recognition - ICDAR). Depuis sa première occurrence<br />
en 1991 à Saint-Malo, les recherches menées dans le domaine ont été à l’origine<br />
de nombreux succès, dont certains ont même conduit à l’industrialisation<br />
de solutions logicielles : pour la lecture de chèques, d’adresses postales <strong>et</strong> de<br />
formulaires pour ne citer que ces exemples. Le constat est identique dans le<br />
domaine plus ciblé de l’analyse de documents graphiques qui m’a particulièrement<br />
intéressé dans mon parcours de chercheur. On peut en eff<strong>et</strong> raisonnablement<br />
considérer aujourd’hui que certains outils, ceux qui sont réellement<br />
spécifiques aux documents graphiques (segmentation texte/graphique, vectorisation,<br />
reconnaissance de caractères multi-orientés <strong>et</strong> multi-échelles . . . ), ont<br />
atteint une maturité suffisante, en dépit des résultats imparfaits qu’ils perm<strong>et</strong>tent<br />
d’obtenir [204, 205].<br />
Toutefois, ces succès ne doivent pas masquer le nombre <strong>et</strong> l’ampleur des défis<br />
qui restent encore à relever dans ce domaine. En eff<strong>et</strong>, comme en témoignent<br />
les compétitions <strong>et</strong> les événements scientifiques nationaux <strong>et</strong> internationaux<br />
toujours plus nombreux, de nombreux verrous liés à l’analyse d’images de documents<br />
restent encore à lever. Les deux applications abordées dans ce mémoire,<br />
respectivement dédiées à la localisation de symboles dans des documents graphiques<br />
(§3.4.1) <strong>et</strong> à la détection de séquences numériques dans des courriers<br />
manuscrits (§4.3.3) ne sont que deux exemples des problématiques qui sont encore<br />
loin d’être résolues. Par ailleurs, de nouveaux usages émergent toujours <strong>et</strong><br />
font eux-mêmes apparaître d’autres défis scientifiques. Les nombreux proj<strong>et</strong>s<br />
récents ayant trait à la valorisation de fonds documentaires anciens (NAVIDO-<br />
MASS, IMPACT. . . ) constituent une parfaite illustration de ces aspects. Dans<br />
ce cadre, les nouvelles problématiques concernent l’extraction de la structure<br />
de documents complexes, la reconnaissance de caractères dégradés ou l’analyse<br />
de l<strong>et</strong>trines. Les perspectives de recherche pour la communauté de l’analyse de<br />
documents sont donc encore extrêmement nombreuses <strong>et</strong> il y a fort à parier<br />
que ICDAR fêtera ses 40 ans en 2031.<br />
Parmi ces perspectives, celles qui nous paraissent être les plus prom<strong>et</strong>teuses<br />
au regard de nos travaux antérieurs sont décrites dans la suite de ce<br />
95
tel-00671168, version 1 - 8 Oct 2012<br />
96 Chapitre 5. Perspectives<br />
chapitre. Plusieurs pistes de recherche ont déjà été présentées dans le corps<br />
de ce mémoire. En eff<strong>et</strong>, pour en faciliter la lecture, nous avons fait le choix<br />
de développer les perspectives directement liées à nos contributions à l’issue<br />
de la présentation de celles-ci (cf. §3.5 <strong>et</strong> §4.4). Nous rappelons ici les deux<br />
propositions que nous considérons comme les plus ambitieuses en précisant le<br />
contexte dans lequel nous envisageons de mener ces travaux.<br />
La première de ces pistes concerne la poursuite de nos travaux sur la recherche<br />
d’isomorphismes de sous-graphes, pour rendre l’approche proposée tolérante<br />
à des modifications de la topologie des graphes telles que l’absence dans<br />
le graphe cible de somm<strong>et</strong>s ou d’arcs pouvant être associés à ceux du graphe<br />
modèle. Ces travaux sont menés dans le cadre d’une collaboration avec des<br />
chercheurs de la communauté de la recherche opérationnelle <strong>et</strong> plus particulièrement<br />
de la programmation mathématique (issus du LMI de Rouen <strong>et</strong> du<br />
LRI d’Orsay). Les échanges que nous avons dans le cadre de c<strong>et</strong>te coopération,<br />
qui visent à optimiser l’utilisation des solveurs <strong>et</strong> à asseoir théoriquement les<br />
approches proposées, s’avèrent très prom<strong>et</strong>teurs. Ces travaux constituent selon<br />
nous un challenge important, qui dépasse l’enjeu applicatif de la localisation de<br />
symboles, en perm<strong>et</strong>tant d’envisager de manière plus générale la localisation<br />
d’obj<strong>et</strong>s bruités <strong>et</strong> non segmentables dans des images.<br />
La seconde piste importante que nous allons aborder dans les mois à venir<br />
concerne l’apprentissage multiobjectif, dans le cadre du proj<strong>et</strong> LEMON (LEarning<br />
with <strong>Multi</strong>objective OptimizatioN). Après s’être concentrée pendant plus<br />
de deux décennies sur des critères de performances scalaires, la communauté<br />
des chercheurs en apprentissage commence à examiner l’utilisation de critères<br />
multiples, comme en témoigne le récent ouvrage [105]. Ces travaux soulèvent<br />
de nouveaux problèmes théoriques <strong>et</strong> motivent la recherche de nouveaux algorithmes<br />
d’apprentissage. Nos perspectives dans ce cadre ont été développées en<br />
4.4. De plus, ils perm<strong>et</strong>tent aussi d’envisager des avancées significatives dans<br />
les domaines de la reconnaissance de formes <strong>et</strong> de l’optimisation. Le consortium<br />
de chercheurs constitué dans le cadre de LEMON, avec ses compétences<br />
complémentaires (reconnaissance de formes, apprentissage statistique, optimisation<br />
multiobjectif, interfaces cerveaux machines, imagerie médicale), nous<br />
semble un excellent cadre de travail pour contribuer à ces avancées.<br />
Outre ces travaux directement liés à nos contributions antérieures, nous<br />
souhaitons aussi profiter de c<strong>et</strong>te conclusion pour mentionner un certain nombre<br />
de problématiques qui n’ont pas encore été abordées dans le corps de ce manuscrit<br />
<strong>et</strong> qui ouvrent elles aussi la voie à des travaux prom<strong>et</strong>teurs pour les<br />
années à venir.<br />
La première de ces problématiques est celle de l’évaluation de performances,<br />
qui fait depuis une dizaine d’années l’obj<strong>et</strong> d’un vif intérêt de la communauté<br />
scientifique, comme en témoignent les très nombreuses campagnes en cours,<br />
que celles-ci concernent l’extraction d’information, la recherche d’information<br />
ou l’analyse d’images. Dans le domaine de l’analyse d’images de documents, on<br />
peut citer les campagnes RIMES, dédiée à la reconnaissance de l’écriture manuscrite,<br />
EPEIRES pour la reconnaissance <strong>et</strong> la localisation de symboles ainsi<br />
que les très nombreux concours qui sont organisés de façon récurrente lors des<br />
conférences ICDAR <strong>et</strong> GREC. Depuis juin 2011, nous participons à un proj<strong>et</strong>
tel-00671168, version 1 - 8 Oct 2012<br />
triennal qui réunit plusieurs industriels <strong>et</strong> un consortium de laboratoires de<br />
recherche <strong>et</strong> qui est dédié à l’évaluation de performances de systèmes de reconnaissance<br />
de documents écrits. Le proj<strong>et</strong> vise deux objectifs ambitieux. Le<br />
premier consiste à m<strong>et</strong>tre en place une campagne ouverte d’évaluation d’une<br />
chaîne complète d’analyse de documents. Le second vise la réalisation d’un<br />
démonstrateur intégrant une chaîne de traitement optimisée pour la reconnaissance<br />
de documents manuscrits <strong>et</strong>/ou dactylographiés.<br />
Pour mener à bien ce proj<strong>et</strong>, au delà du développement de modules de traitements,<br />
les différents aspects liés à la mise en place d’une campagne d’évaluation<br />
seront abordés. Le premier consiste naturellement à proposer un corpus<br />
d’un nombre conséquent de documents à la fois manuscrits <strong>et</strong> dactylographiés,<br />
libres de droit, très variés <strong>et</strong> surtout très réalistes. Ce corpus sera annoté pour<br />
établir une vérité terrain en détaillant, sur chaque document, les différents éléments<br />
à reconnaître par les outils évalués. Enfin, dans le cadre de l’évaluation<br />
des briques proposées par la communauté, une réflexion sur les métriques perm<strong>et</strong>tant<br />
d’évaluer les approches sera également menée. Notre contribution dans<br />
ce cadre consistera à prendre en considération certains aspects traités dans ce<br />
mémoire, en donnant une coloration résolument multiobjectif aux métriques.<br />
À titre d’illustration, dans un contexte de discrimination, il pourrait s’agir de<br />
demander aux participants aux campagnes d’évaluation de fournir les sorties<br />
des systèmes pour différents points de fonctionnement. Pour comparer de telles<br />
sorties, les métriques pourraient s’inspirer des travaux menés en évaluation de<br />
performances d’algorithmes d’optimisation multiobjectif [198].<br />
Le second objectif de ce proj<strong>et</strong>, qui consiste en la mise en œuvre d’une<br />
chaîne optimisée de traitement de documents, apporte lui aussi son lot de perspectives<br />
scientifiques. La première concerne l’interopérabilité des composants.<br />
Pour constituer la chaîne optimale mise en œuvre dans le démonstrateur, il<br />
est probable de devoir associer des composants issus de différents laboratoires.<br />
Dans ce cadre, l’approche envisagée pour surmonter c<strong>et</strong>te difficulté est proche<br />
des travaux que nous avons proposés dans le cadre du proj<strong>et</strong> Docmining [4],<br />
mais adaptés à un contexte de services Web. Comme dans les travaux proposés<br />
dans [121], elle repose sur l’utilisation d’une plateforme d’intégration orientée<br />
service nommée WebLab 17 . C<strong>et</strong>te plateforme, que nous utilisons par ailleurs<br />
dans nos travaux en recherche d’information, a été conçue pour construire des<br />
applications de traitement d’informations multimédia en faisant interopérer<br />
des composants logiciels spécialisés.<br />
Outre l’intérêt que revêt à lui seul ce proj<strong>et</strong>, il ouvre par ailleurs des perspectives<br />
à plus long terme particulièrement intéressantes. Il perm<strong>et</strong> en eff<strong>et</strong><br />
d’envisager la constitution d’une bibliothèque d’outils divers <strong>et</strong> interopérants<br />
dédiés aux différentes tâches d’un système d’analyse de documents. La disponibilité<br />
d’une telle « batterie » d’outils pourrait alors servir de socle à des<br />
travaux dans le domaine de la planification, dont le but serait la génération<br />
automatique <strong>et</strong> adaptative de chaînes de traitements en fonction d’un but (segmenter,<br />
reconnaitre, localiser) <strong>et</strong> d’un contexte (le document). Il s’agirait alors<br />
d’apprendre, au regard de l’objectif fixé, la séquence d’outils perm<strong>et</strong>tant de<br />
maximiser les performances d’un système, éventuellement dans un cadre mul-<br />
17. http://weblab.ow2.org/<br />
97
tel-00671168, version 1 - 8 Oct 2012<br />
98 Chapitre 5. Perspectives<br />
tiobjectif pour laisser à l’utilisateur la possibilité de choisir parmi différentes<br />
options. Ces performances pourraient en eff<strong>et</strong> être évaluées à partir de la vérité<br />
terrain fournie par le proj<strong>et</strong>. L’une des pistes possibles pour optimiser<br />
de telles chaînes pourrait être l’apprentissage par renforcement qui propose<br />
un environnement particulièrement puissant pour l’optimisation de séquences,<br />
comme l’ont récemment montré nos travaux en recherche d’information [74].<br />
Ces problèmes de planification de chaînes complètes d’analyse de documents<br />
constituent selon nous un véritable challenge pour l’avenir, <strong>et</strong> dont les résultats<br />
pourraient par ailleurs avoir des conséquences dans bien d’autres domaines<br />
d’application. Dans c<strong>et</strong> esprit, on pourrait même, à beaucoup plus long terme,<br />
envisager la coopération de systèmes divers tels que des systèmes d’analyse de<br />
documents ou d’images, des moteurs de recherches, des outils de traduction. . . .<br />
Un dernier aspect que nous souhaitons aborder ici concerne la place de<br />
l’Homme dans ces systèmes coopérants de traitement de l’information au sens<br />
large. La prise en compte des interactions entre le système <strong>et</strong> l’humain est en<br />
eff<strong>et</strong> indispensable à la réussite de tels proj<strong>et</strong>s, que ce soit pour leur conception<br />
ou pour l’utilisation des résultats qu’ils produisent. De ce point de vue, nous<br />
pensons que des collaborations avec les équipes travaillant dans le domaine<br />
de la recherche d’information seraient particulièrement enrichissantes. C<strong>et</strong>te<br />
communauté s’intéresse en eff<strong>et</strong> depuis longtemps aux interactions, par l’intermédiaire<br />
des principes de r<strong>et</strong>ours de pertinence ou de personnalisation des<br />
moteurs de recherche par exemple. Ces toutes dernières années ont d’ailleurs<br />
été le cadre d’un rapprochement des communautés Françaises de l’analyse de<br />
documents <strong>et</strong> de la recherche d’information, comme en témoigne le regroupement<br />
en 2010 des conférences CIFED <strong>et</strong> CORIA. Un autre exemple de c<strong>et</strong>te<br />
convergence est le proj<strong>et</strong> fédérateur du LITIS nommé PlaIR 18 (Plateforme<br />
d’Indexation Régionale). Ce proj<strong>et</strong> se donne pour objectif de mutualiser un<br />
ensemble de ressources documentaires numériques <strong>et</strong> numérisées <strong>et</strong> de bibliothèques<br />
logicielles d’analyse automatique ou semi-automatique pour constituer<br />
une plateforme d’indexation <strong>et</strong> de recherche multi-domaines <strong>et</strong> multi-usages.<br />
Dans ce contexte, des travaux ont été initiés dans le cadre de la thèse de Gérard<br />
Dupont [74], en collaboration avec CASSIDIAN. L’objectif de ces travaux<br />
était de créer le lien entre les domaines de la recherche d’information <strong>et</strong> de l’apprentissage<br />
par la mise en œuvre d’algorithmes pour adapter les réponses d’un<br />
système de recherche d’information aux utilisateurs de celui-ci. Ces travaux<br />
sont actuellement poursuivis par ceux de la thèse CIFRE d’Aurélien Saint<br />
Réquier, avec CASSIDIAN, dont le but est de proposer un agent personnel<br />
d’assistance à la recherche d’information.<br />
Pour conclure ce manuscrit, s’il y a une chose primordiale que je r<strong>et</strong>ire<br />
de ces dix années de recherche <strong>et</strong> que j’ai souhaité faire transparaître au travers<br />
de ces quelques pages, c’est l’importance que revêtent le décloisement des<br />
disciplines, l’ouverture vers d’autres communautés, <strong>et</strong> les convergences entre<br />
recherches fondamentales <strong>et</strong> appliquées. Même si les évolutions actuelles de la<br />
recherche sont trop souvent orientées vers la « compétition » entre équipes,<br />
entre individus, je reste persuadé que la richesse vient <strong>et</strong> continuera à venir du<br />
partage.<br />
18. http://plair.org
tel-00671168, version 1 - 8 Oct 2012<br />
Chapitre 6<br />
Bibliographie<br />
[1] D.J. Newman A. Asuncion. UCI machine learning repository, 2007.<br />
[2] S. Adam. Interprétation de documents techniques : des outils à leur intégration<br />
dans un système à base de connaissances. PhD thesis, Université<br />
de Rouen, 2001.<br />
[3] S. Adam and J.M. Ogier. <strong>Documents</strong> graphiques : de la rétroconversion<br />
à la recherche d’information. In Rémy Mullot, editor, Les documents<br />
écrits : De la numérisation à l’indexation par le contenu, pages 249–310.<br />
Hermès, 2006.<br />
[4] S. Adam, M. Rigamonti, E. Clavier, J-M. Ogier, E. Trupin, and<br />
K. Tombre. DocMining : A Document Analysis System Builder. In<br />
S. Marinai and A. Dengel, editors, Proceedings of the Workshop on Document<br />
Analysis Systems (DAS’04), volume 3163 of Lecture Notes in<br />
Computer Science, pages 472–483, 2004.<br />
[5] S. Adra, I. Griffin, and P. Fleming. A comparative study of progressive<br />
preference articulation techniques for multiobjective optimisation. In<br />
Shigeru Obayashi, Kalyanmoy Deb, Carlo Poloni, Tomoyuki Hiroyasu,<br />
and Tadahiko Murata, editors, Evolutionary <strong>Multi</strong>-Criterion Optimization,<br />
volume 4403 of Lecture Notes in Computer Science, pages 908–921.<br />
Springer Berlin / Heidelberg, 2007.<br />
[6] H.S.M. Al-Khaffaf, A.Z. Talib, and M.A. Osman. GREC’11 arc segmentation<br />
contest : Performance evaluation on multi-resolution scanned<br />
documents. In Proceedings of the IAPR Workshop on Graphics Recognition<br />
(GREC’11), 2007.<br />
[7] I. Alaya, C. Solnon, and K. Ghedira. Ant colony optimization for multiobjective<br />
optimization problems. In Proceedings of the International<br />
Conference on Tools with Artificial Intelligence (ICTAI’07), pages 450–<br />
457.<br />
[8] J.E. Alvarez-Benitez, R.M. Everson, and J.E. Fieldsend. MOPSO algorithm<br />
based exclusively on par<strong>et</strong>o dominance concepts. Proceedings of the<br />
International Conference on Evolutionary Mutli-Criterion Optimization<br />
(EMO’05), pages 726–732, 2005.<br />
[9] D. Anguita, S. Ridella, F. Rivieccio, and R. Zunino. Hyperparam<strong>et</strong>er de-<br />
99
tel-00671168, version 1 - 8 Oct 2012<br />
100 Chapitre 6. Bibliographie<br />
sign criteria for support vector classifiers. Neurocomputing, 55(1-2) :109–<br />
134, 2003.<br />
[10] N. Ansari and K-W. Huang. Non-param<strong>et</strong>ric dominant point d<strong>et</strong>ection.<br />
Pattern Recognition (PR), 24(9) :849–862, 1991.<br />
[11] D.L. Applegate, R.E. Bixby, V. Chvatal, and W.J. Cook. The Traveling<br />
Salesman Problem : A Computational Study (Princ<strong>et</strong>on Series in Applied<br />
Mathematics). Princ<strong>et</strong>on University Press, 2007.<br />
[12] A. Argyriou, T. Evgeniou, and M. Pontil. <strong>Multi</strong>-task feature learning.<br />
In Advances in Neural Information Processing Systems (NIPS), 2007.<br />
[13] T.W. Athan and P.Y. Papalambros. A note on weighted criteria m<strong>et</strong>hods<br />
for compromise solutions in multi-objective optimization. Engineering<br />
Optimization, 27(2) :155–176, 1996.<br />
[14] S. Auwatanamongkol. Inexact graph matching using a gen<strong>et</strong>ic algorithm<br />
for image recognition. Pattern Recognition L<strong>et</strong>ters (PRL), 28(12) :1428–<br />
1437, 2007.<br />
[15] N.E. Ayat, M. Cheri<strong>et</strong>, and C.Y. Suen. Automatic model selection for the<br />
optimization of SVM kernels. Pattern Recognition (PR), 30(10) :1733–<br />
1745, 2004.<br />
[16] A.D. Bagdanov and M. Worring. Fine-grained document genre classification<br />
using first order random graphs. In Proceedings of the International<br />
Conference opn Document Analysis and Recognition (ICDAR’01), pages<br />
79 – 83, 2001.<br />
[17] J. Balicki. An adaptive quantum-based multiobjective evolutionary algorithm<br />
for efficient task assignment in distributed systems. Proceedings<br />
of the WSEAES international conference on Computers (ICCOMP’09),<br />
pages 417–422, 2009.<br />
[18] E. Barbu. Fouille <strong>et</strong> classification de graphes : application à la reconnaissance<br />
de symboles dans les documents graphiques. PhD thesis, Université<br />
de Rouen, 2007.<br />
[19] A. Belaïd and K. Ossama. Goal programming model : A glorious history<br />
and a promising future. European Journal of Operational Research<br />
(EJOR), 133(2) :225 – 231, 2001.<br />
[20] Y. Bengio. Gradient-based optimization of hyperparam<strong>et</strong>ers. Neural<br />
Computation, 12(8) :1889–1900, 2000.<br />
[21] S. Bernard. Forêts Aléatoires : de l’Analyse des Mécanismes de Fonctionnement<br />
à la Construction Dynamique. PhD thesis, Université de Rouen,<br />
2009.<br />
[22] S. Bernard, L. Heutte, and S. Adam. Etude de l’influence des paramètres<br />
sur les performances des forêts aléatoires. In Actes du Colloque<br />
International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’08), pages<br />
207–208, 2008.<br />
[23] S. Bernard, L. Heutte, and S. Adam. Forest-RK : A new random forest<br />
induction m<strong>et</strong>hod. In De-Shuang Huang, Donald C. Wunsch II,
tel-00671168, version 1 - 8 Oct 2012<br />
101<br />
Daniel S. Levine, and Kang-Hyun Jo, editors, Proceedings of the International<br />
Conference on Intelligent Computing (ICIC’08), volume 5227 of<br />
Lecture Notes in Computer Science, pages 430–437. Springer, 2008.<br />
[24] S. Bernard, L. Heutte, and S. Adam. Influence of hyperparam<strong>et</strong>ers on<br />
random forest accuracy. In Jon Atli Benediktsson, Josef Kittler, and Fabio<br />
Roli, editors, Proceedings of <strong>Multi</strong>ple Classifier Systems (MCS’09),<br />
volume 5519 of Lecture Notes in Computer Science, pages 171–180. Springer,<br />
2009.<br />
[25] S. Bernard, L. Heutte, and S. Adam. Une Étude sur la paramétrisation<br />
des forêts aléatoires. In Actes de la Conférence francophone sur<br />
l’Apprentissage Artificiel (CAP’09), pages 81–92, 2009.<br />
[26] J. C. Bezdek, T. R. Reichherzerand, G. S. Lim, and Y. Attikiouzel.<br />
<strong>Multi</strong>ple-prototype classifier design. IEEE Transaction on Systems, Man,<br />
and Cybern<strong>et</strong>ics Part C (IEEE SMC), 28(1) :67–79, 1998.<br />
[27] J. Bi, T. Xiong, S. Yi, M. Dundar, and B. Rao. An improved multi-task<br />
learning approach with applications in medical diagnosis. In Proceedings<br />
of the European Conference on Machine Learning (ECML’08), 2008.<br />
[28] S. Bickel, J. Bogojeska, T. Lengauers, and T. Scheffer. <strong>Multi</strong>-task learning<br />
for hiv therapy screening. In Proceedings of the International Conference<br />
on Machine learning (ICML’08), pages 56–63, 2008.<br />
[29] T.T. Binh and U. Korn. MOBES : A multiobjective evolution strategy for<br />
constrained optimization problems. In Proceedings of the International<br />
Conference on Gen<strong>et</strong>ic Algorithms (ICGA’97), pages 176–182, 1997.<br />
[30] P. Le Bodic, S. Adam, P. Héroux, A. Knippel, and Y. Lecourtier. Formulations<br />
linéaires en nombres entiers pour des problèmes d’isomorphisme<br />
exact <strong>et</strong> inexact. In Actes des Journées Polyèdres <strong>et</strong> <strong>Optimisation</strong> Combinatoire<br />
(JPOC’08), 2008.<br />
[31] P. Le Bodic, H. Locteau, S. Adam, P. Héroux, Y. Lecourtier, and A. Knippel.<br />
Symbol d<strong>et</strong>ection using region adjacency graphs and integer linear<br />
programming. In Proceedings of the International Conference on Document<br />
Analysis and Recognition (ICDAR’09), pages 1320–1324, 2009.<br />
[32] B. Bonev, F. Escolano, M.A. Lozano, P. Suau, M. Cazorla, and W. Aguilar.<br />
Constellations and the unsupervised learning of graphs. In Proceedings<br />
of the Workshop on Graph-based Representations in Pattern Recognition<br />
(GBRPR’07), pages 340–350, 2007.<br />
[33] H. Boström. Maximizing the area under the roc curve using incremental<br />
reduced error pruning. In Proceedings of the Workschop of ROC Analysis<br />
in Machine Learning (ROCML’05), 2005.<br />
[34] A.P. Bradley. The use of the area under the ROC curve in the evaluation<br />
of machine learning algorithms. Pattern Recognition (PR), 30(7) :1145–<br />
1159, 1997.<br />
[35] J. Branke and S. Mostaghim. About selecting the personal best in multiobjective<br />
particle swarm optimization. In Parallel Problem Solving from<br />
Nature, volume 4193 of Lecture Notes in Computer Science, pages 523–<br />
532. Springer, 2006.
tel-00671168, version 1 - 8 Oct 2012<br />
102 Chapitre 6. Bibliographie<br />
[36] L. Breiman. Random forests. Machine Learning Journal (MLJ), 45(1) :5–<br />
32, 2001.<br />
[37] N. Brown, BN. McKay, F. Gilardoni, and J. Gasteiger. A graph-based gen<strong>et</strong>ic<br />
algorithm and its application to the multiobjective evolution of median<br />
molecules. Journal of Chemical Information and Modeling (JCIM).<br />
[38] L.T. Bui, D. Essam, H.A. Abbass, and D. Green. Performance analyis of<br />
multiobjective evolutionary m<strong>et</strong>hods in noisy environnments. Complexity<br />
International, 11 :29–39, 2005.<br />
[39] H. Bunke. On a relation b<strong>et</strong>ween graph edit distance and maximum<br />
common subgraph. Pattern Recognition L<strong>et</strong>ters (PRL), 18(8) :689–694,<br />
1997.<br />
[40] H. Bunke, P. Foggia, C. Guidobaldi, and M. Vento. Graph clustering<br />
using the weighted minimum common supergraph. In Proceedings of<br />
the Workshop on Graph-based Representations in Pattern Recognition<br />
(GBRPR’03), pages 235–246, 2003.<br />
[41] H. Bunke, A. Münger, and X. Jiang. Combinatorial search versus gen<strong>et</strong>ic<br />
algorithms : A case study based on the generalized median graph<br />
problem. Pattern Recognition L<strong>et</strong>ters (PRL), 20(11) :1271–1277, 1999.<br />
[42] H. Bunke and K. Riesen. Recent advances in graph-based pattern recognition<br />
with applications in document analysis. Pattern Recognition<br />
(PR), 44(5) :1057–1067, 2011.<br />
[43] H. Bunke and K. Shearer. A graph distance m<strong>et</strong>ric based on the maximal<br />
common subgraph. Pattern Recognition L<strong>et</strong>ters (PRL), 19(3-4) :255–259,<br />
1998.<br />
[44] L. Cagnina, S. Esquivel, and C.A.C. Coello. A particle swarm optimizer<br />
for multi-objective optimization. Journal of Computer Science and<br />
Technology (JCST), 5(4), 2005.<br />
[45] A. Carmona-Poyato, F.J. Madrid-Cuevas, R. Medina-Carnicer, and<br />
R. Munoz-Salinas. Polygonal approximation of digital planar curves<br />
through break point suppression. Pattern Recognition (PR), 43(1) :14–<br />
25, 2010.<br />
[46] A. Carmona-Poyato, R. Medina-Carnicer, F.J. Madrid-Cuevas, R. Muoz-<br />
Salinas, and N.L. Fernández-García. A new measurement for assessing<br />
polygonal approximation of curves. Pattern Recognition (PR), 44(1) :45–<br />
54, 2011.<br />
[47] L. Cecchini, C.M. Lorenz<strong>et</strong>ti, A.G. Maguitman, and N.B. Brignole. <strong>Multi</strong>objective<br />
evolutionary algorithms for context-based search. Journal of<br />
the American Soci<strong>et</strong>y for Information Science and Technology (JASIST),<br />
61(6) :1258–1274, 2010.<br />
[48] V. Srinivasa Chakravarthy and B. Kompella. The shape of handwritten<br />
characters. Pattern Recognition L<strong>et</strong>ters (PRL), 24(12) :1901 – 1913, 2003.<br />
[49] C.-J. C. Fu Chang and C.-J. Lu. A linear-time component-labeling algorithm<br />
using contour tracing technique. Computer Vision and Image<br />
Understanding (CVIU), 93 :206–220, 2004.
tel-00671168, version 1 - 8 Oct 2012<br />
103<br />
[50] C-L. Chang. Finding prototypes for nearest neighbor classifiers. IEEE<br />
Transaction on Computers (IEEE TC), 23(11) :1179–1184, 1974.<br />
[51] O. Chapelle, V. Vapnik, O. Bousqu<strong>et</strong>, and S. Mukherjee. Choosing multiple<br />
param<strong>et</strong>ers for support vector machines. Machine Learning Journal<br />
(MLJ), 46(1) :131–159, 2002.<br />
[52] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. A<br />
multi-model selection framework for unknown and/or evolutive misclassification<br />
cost problems. Pattern Recognition (PR), 43(3) :815–823, 2010.<br />
[53] C. Chatelain, L. Heutte, and T. Paqu<strong>et</strong>. Segmentation-driven recognition<br />
applied to numerical field extraction from handwritten incoming mail<br />
documents. Proceedings of Document Analysis System (DAS’06), pages<br />
564–575, 2006.<br />
[54] C. Chatelain, L. Heutte, and T. Paqu<strong>et</strong>. A two-stage outlier rejection<br />
strategy for numerical field extraction in handwritten documents. In<br />
Proceedings of the International Conference on Pattern Recognition (IC-<br />
PR’06), pages 224–227, 2006.<br />
[55] J-M. Chen, J.A. Ventura, and C-H. Wu. Segmentation of planar curves<br />
into circular arcs and line segments. Image and Vision Computing (IVC),<br />
14(1) :71 – 83, 1996.<br />
[56] N. Chen and D. Blostein. A survey of document image classification :<br />
problem statement, classifier architecture and performance evaluation.<br />
International Journal on Document Analysis and Recognition (IJDAR),<br />
10(1) :1–16, 2007.<br />
[57] W. Chen, A. Sahai, A. Messac, and G.J. Sundararaj. Exploration of<br />
the effectiveness of physical programming in robust design. Journal of<br />
Mechanical Design (JMD), 122(2) :155–163, 2000.<br />
[58] W.Y. Chen, W.L. Hwang, and T.C. Lin. Planar-shape prototype generation<br />
using a tree-based random greedy algorithm. IEEE Transaction<br />
on Systems, Man, and Cybern<strong>et</strong>ics (IEEE SMC) Part B, 36(3) :649–659,<br />
2006.<br />
[59] B. Chin-Wei and M. Rajeswari. <strong>Multi</strong>objective optimization approaches<br />
in image segmentation - the directions and challenges. International<br />
Journal in Advance in Soft Computing Application (IJASCA), 2(1) :40–<br />
65, 2010.<br />
[60] C.A.C. Coello. Evolutionary multiobjective optimization. Wiley Interdisciplinary<br />
Reviews : Data Mining and Knowledge Discovery, 1(5) :444<br />
– 447, 2011.<br />
[61] C.A.C. Coello and G.B. Lamont. Applications of <strong>Multi</strong>-Objective Evolutionary<br />
Algorithms. World Scientific Publishing, 2004.<br />
[62] D. Conte, P. Foggia, C. Sansone, and M. Vento. Thirty years of graph<br />
matching in pattern recognition. International Journal of Pattern Recognition<br />
and Artificial Intelligence (IJPRAI), 18(3) :266–298, 2004.<br />
[63] L. P. Cordella, P. Foggia, C. Sansone, and M. Vento. Performance evaluation<br />
of the VF graph matching algorithm. In Proccedings of the International<br />
Conference on Image Analysis and Processing (ICIAP’99),<br />
pages 1172–1177, 1999.
tel-00671168, version 1 - 8 Oct 2012<br />
104 Chapitre 6. Bibliographie<br />
[64] L. P. Cordella, P. Foggia, C. Sansone, and M. Vento. Fast graph matching<br />
for d<strong>et</strong>ecting CAD image components. In Proceedings of the International<br />
Conference on Pattern Recognition (ICPR’00), pages 6034–6037, 2000.<br />
[65] L.P. Cordella, P. Foggia, C. Sansone, and M. Vento. A (sub)graph isomorphism<br />
algorithm for matching large graphs. IEEE Transaction on<br />
Pattern Analysis and Machine Intelligence (IEEE PAMI), 26(10) :1367–<br />
1372, 2004.<br />
[66] D.W. Corne, J.D. Knowles, and M.J. Oates. The Par<strong>et</strong>o envelopebased<br />
selection algorithm for multiobjective optimization. In Proceedings<br />
of the international conference on Parallel problem solving from nature<br />
(PPSN’00), pages 839–848, 2000.<br />
[67] P. Cornic. Another look at the dominant point d<strong>et</strong>ection of digital curves.<br />
Pattern Recognition L<strong>et</strong>ters (PRL), 18(1) :13–25, 1997.<br />
[68] C. Cortes and M. Mohri. AUC optimization vs. error rate minimization.<br />
In Advances in NIPS. MIT Press, 2004.<br />
[69] B. V. Dasarathy. Nearest neighbor (NN) norms : NN pattern classification<br />
techniques. Los Alamitos : IEEE Computer Soci<strong>et</strong>y Press, 1990,<br />
1990.<br />
[70] K. Deb. <strong>Multi</strong>-Objective Optimization Using Evolutionary Algorithms.<br />
Wiley, 2001.<br />
[71] K. Deb, S. Agrawal, A. Pratap, and T. Meyarivan. A fast elitist nondominated<br />
sorting gen<strong>et</strong>ic algorithm for multiobjective optimization : NSGA-<br />
II. IEEE Transactions on Evolutionary Computation (IEEE TEC),<br />
6(2) :182–197, 2002.<br />
[72] G. Sanniti di Baja and E. Thiel. Skeltonization algorithm running<br />
on path-based distance maps. Image and Vision Computing (IVC),<br />
14(1) :47–57, 1996.<br />
[73] P. Dosch, E. Valveny, A. Fornes, and S. Escalera. Report on the Third<br />
Contest on Symbol Recognition. In Josep Lladós Wenyin Liu and Jean-<br />
Marc Ogier, editors, Graphics Recognition. Recent Advances and New<br />
Opportunities, volume 5046 of Lecture Notes in Computer Science, pages<br />
321–328. Springer, 2008.<br />
[74] G. Dupont. Apprentissage implicite pour la recherche d’information. PhD<br />
thesis, Université de Rouen, 2011.<br />
[75] G. Dupont, S. Adam, Y. Lecourtier, and B. Grilhère. <strong>Multi</strong> objective particle<br />
swarm optimization using enhanced dominance and guide selection.<br />
International Journal of Computational Intelligence Research (IJCIR),<br />
4(2) :145–158, 2008.<br />
[76] R.M. Everson and J.E. Fieldsend. <strong>Multi</strong>-objective optimisation for receiver<br />
operating characteristic analysis. In <strong>Multi</strong>-Objective Machine Learning,<br />
pages 533–556. 2006.<br />
[77] L. Fei-Fei and P. Perona. A bayesian hierarcical model for learning natural<br />
scene categories. In Proceedings of the international conference on<br />
Computer Vision and Pattern Recognition (CVPR), pages 524–531, 2005.
tel-00671168, version 1 - 8 Oct 2012<br />
105<br />
[78] M. Ferrer, F. Serratosa, and E. Valveny. On the relation b<strong>et</strong>ween the<br />
median and the maximum common subgraph of a s<strong>et</strong> of graphs. In<br />
Proceedings of the Workshop on Graph-based Representations in Pattern<br />
Recognition (GBRPR’07), pages 351–360, 2007.<br />
[79] M. Ferrer, E. Valveny, and F. Serratosa. Spectral median graphs applied<br />
to graphical symbol recognition. In Proceedings of the Iberoamerican<br />
Congress on Pattern Recognition (CIARP’06), pages 774–783, 2006.<br />
[80] C. Ferri and P. Flach. Learning decision trees using the area under the<br />
roc curve. In Proceedings of the International Conference on Machine<br />
Learning (ICML’02), pages 139–146, 2002.<br />
[81] C. Ferri, P. Flach, and J. Hernandez-Orallo. Learning decision trees<br />
using the area under the roc curve. In Proceedings of the International<br />
Conference on Machine Learning (ICML’02), pages 139–146, 2002.<br />
[82] C.M. Fonseca and P.J. Flemming. Gen<strong>et</strong>ic algorithm for multiobjective<br />
optimization : formulation, discussion and generalization. In Proceedings<br />
of the International Conference on Gen<strong>et</strong>ic Algorithms (ICGA’93), pages<br />
416–423, 1993.<br />
[83] X. Gao, B. Xiao, D. Tao, and X. Li. A survey of graph edit distance.<br />
Pattern Analysis & Applications (PAA), 13(1) :113–129, 2010.<br />
[84] M. R. Garey and D. S. Johnson. Computers and Intractability : A Guide<br />
to the Theory of NP-Compl<strong>et</strong>eness. Freeman & co., 1979.<br />
[85] T. Gartner, P. Flach, and S. Wrobel. On graph kernels : Hardness results<br />
and efficient alternatives. In Bernhard Schölkopf and Manfred K.<br />
Warmuth, editors, COLT, volume 2777, pages 129–143. Springer-Verlag ;<br />
1999, 2003.<br />
[86] E.N. Gerasimov and V.N. Repko. <strong>Multi</strong>criterial optimization. International<br />
Applied Mechanics, 14(11) :1179–1184, 1978.<br />
[87] D. E. Goldberg. Gen<strong>et</strong>ic Algorithms in Search, Optimization and Machine<br />
Learning. Addison-Wesley Longman Publishing Co., Inc., Boston,<br />
MA, USA, 1989.<br />
[88] E. Grosicki and H. El Abed. ICDAR 2011 - French handwriting recognition<br />
comp<strong>et</strong>ition. In Proceedings of the International Conference<br />
on Document Analysis and Recognition (ICDAR’11), pages 1459–1463,<br />
2011.<br />
[89] I. Guyon, A. Saffari, G. Dror, and G. Cawley. Model selection : Beyond<br />
the Bayesian/frequentist divide. Journal of Machine Learning Research<br />
(JMLR), 11 :61–87, 2010.<br />
[90] Y.Y. Haimes, L.S. Lasdon, and D.A. Wismer. On a Bicriterion Formulation<br />
of the Problems of Integrated System Identification and System<br />
Optimization. IEEE Transactions on Systems, Man and Cybern<strong>et</strong>ics<br />
(IEEE SMC), 1(3) :296–297, 1971.<br />
[91] P. E. Hart. The condensed nearest neighbour rule. IEEE Transaction<br />
on Information Theory (IEEE TIT), 14(5) :515–516, 1968.
tel-00671168, version 1 - 8 Oct 2012<br />
106 Chapitre 6. Bibliographie<br />
[92] X. Hilaire and K. Tombre. Robust and accurate vectorization of line drawings.<br />
IEEE Transaction on Pattern Analysis and Machine Intelligence<br />
(IEEE PAMI), 28(6) :890–904, 2006.<br />
[93] A. Hlaoui and S. Wang. Median graph computation for graph clustering.<br />
Soft Computing - A Fusion of Foundations, M<strong>et</strong>hodologies and Applications,<br />
10(1) :47–53, 2005.<br />
[94] J. Horn, N. Nafpliotis, and D.E. Goldberg. A niched Par<strong>et</strong>o gen<strong>et</strong>ic<br />
algorithm for multiobjective optimization. In Proceedings of the IEEE<br />
World Congress on Computational Intelligence (WCCI’94), pages 82–87,<br />
1994.<br />
[95] J-H Horng. An adaptive smoothing approach for fitting digital planar<br />
curves with line segments and circular arcs. Pattern Recognition L<strong>et</strong>ters<br />
(PRL), 24(1-3) :565 – 577, 2003.<br />
[96] J-H. Horng and J.T. Li. A dynamic programming approach for fitting<br />
digital planar curves with line segments and circular arcs. Pattern Recognition<br />
L<strong>et</strong>ters (PRL), 22(2) :183 – 197, 2001.<br />
[97] J-S. Huang and H-C. Liu. Object recognition using gen<strong>et</strong>ic algorithms<br />
with a Hopfield’s neural model. Expert Systems with Applications (ESA),<br />
13(3) :191 – 199, 1997.<br />
[98] S-C. Huang and C-F. Wang. Gen<strong>et</strong>ic algorithm for approximation of<br />
digital curves with line segments and circular arcs. Journal of the chinese<br />
institute of Engineers, 32(4) :437 – 444, 2008.<br />
[99] F. K. Hwang, D. S. Richards, and P. Winter. The Steiner Tree Problem,<br />
volume 53 of Annals of Discr<strong>et</strong>e Mathematics. North-Holland, Amsterdam,<br />
N<strong>et</strong>herlands, 1992.<br />
[100] C. Ichoku, B. Deffontaines, and J. Chorowicz. Segmentation of digital<br />
plane curves : A dynamic focusing approach. Pattern Recognition L<strong>et</strong>ters<br />
(PRL), 17(7) :741 – 750, 1996.<br />
[101] A. Inokuchi, T. Washio, and H. Motoda. Compl<strong>et</strong>e mining of frequent<br />
patterns from graphs : Mining graph data. Machine Learning Journal<br />
(MLJ), 50(3) :321–354, 2003.<br />
[102] L. Jacob, F. Bach, and J.-P. Vert. Clustered multi-task learning. In<br />
Advances in Neural Information Processing Systems (NIPS), 2008.<br />
[103] J. Jia and K. Abe. Automatic generation of prototypes in 3D structural<br />
object recognition. In Proceedings of the International Conference on<br />
Pattern Recognition (ICPR’98), pages 697–700, 1998.<br />
[104] X. Jiang, A. Münger, and H. Bunke. On median graphs : Properties,<br />
algorithms, and applications. IEEE Transaction on Pattern Analysis<br />
and Machine Intelligence (IEEE PAMI), 23(10) :1144–1151, 2001.<br />
[105] Y. Jin, editor. <strong>Multi</strong>-Objective Machine Learning, volume 16 of Studies<br />
in Computational Intelligence. Springer, 2006.<br />
[106] T. Joachims. Making large-scale support vector machine learning practical.<br />
In A. Smola B. Scholkopf, C. Burges, editor, Advances in Kernel<br />
M<strong>et</strong>hods : Support Vector Machines, pages 169–184. MIT Press, Cambridge,<br />
MA, 1998.
tel-00671168, version 1 - 8 Oct 2012<br />
107<br />
[107] J.M. Jolion. Graph matching : what are we really talking about ? In<br />
Proceedings of the workshop on Graph-based Representations in Pattern<br />
Recognition (GbRPR’01), pages 170–175, 2001.<br />
[108] H. Kashima, K. Tsuda, and A. Inokuchi. Marginalized kernels b<strong>et</strong>ween<br />
labeled graphs. In Proceedings of the International Conference on Machine<br />
Learning (ICML’03), pages 321–328, 2003.<br />
[109] H. Kashima, K. Tsuda, and A. Inokuchi. Kernels for graphs, pages 155–<br />
170. MIT Press, 2004.<br />
[110] S. Keerthi, V. Sindhwani, and O. Chapelle. An efficient m<strong>et</strong>hod for<br />
gradient-based adaptation of hyperparam<strong>et</strong>ers in SVM models. In<br />
B. Schölkopf, J. Platt, and T. Hoffman, editors, Advances in Neural Information<br />
Processing Systems 19, pages 673–680. MIT Press, Cambridge,<br />
MA, 2007.<br />
[111] H. Kellerer, U. Pferschy, and D. Pisinger. Knapsack Problems. Springer,<br />
Berlin, Germany, 2004.<br />
[112] J. Kennedy and R. Eberhart. Particle swarm optimization. Proceedings<br />
of the IEEE International Conference on Neural N<strong>et</strong>works (ICNN’95),<br />
4 :1942–1948, 1995.<br />
[113] V. Khare, X. Yao, and K. Deb. Performance scaling of multiobjective<br />
evolutionary algorithm. In Technical report - SCS, University of Birmingham,<br />
pages 1–70, 2002.<br />
[114] G.H. Kim, V. Govindaraju, and S.N. Srihari. An architecture for handwritten<br />
text recognition systems. International Journal on Document<br />
Analysis and Recognition (IJDAR), 2(1) :37–44, 1999.<br />
[115] A. Kolesnikov and P. Fränti. Polygonal approximation of closed discr<strong>et</strong>e<br />
curves. Pattern Recognition (PR), 40(4) :1282–1293, 2007.<br />
[116] T. Kudo, E. Maeda, and Y. Matsumoto. An application of boosting to<br />
graph classification. In NIPS, 2004.<br />
[117] M. Kuramochi and G. Karypis. Frequent subgraph discovery. In Proceedings<br />
of the International Conference on Data Mining (ICDM’01), pages<br />
313–320, 2001.<br />
[118] M. Kuramochi and G. Karypis. Finding frequent patterns in a<br />
large sparse graph. Data Mining and Knowledge Discovery (DMKD),<br />
11(3) :243–271, 2005.<br />
[119] N.M. Kwok, D.K. Liu, and G. Dissanayake. Evolutionary computing<br />
based mobile robot localization. Engineering Applications of Artificial<br />
Intelligence (EAAI), 19(8) :857–868, 2006.<br />
[120] l. Zadeh. Optimality and non-scalar-valued performance criteria. IEEE<br />
Transactions on Automatic Control (IEEE TAC), 8(1) :59 – 60, 1963.<br />
[121] B. Lamiroy and D. Lopresti. An open architecture for end-to-end document<br />
analysis benchmarking. In Proceedings of the International Conference<br />
on Document Analysis and Recognition (ICDAR’11), pages 42–47,<br />
2011.
tel-00671168, version 1 - 8 Oct 2012<br />
108 Chapitre 6. Bibliographie<br />
[122] M. Laumanns, L. Thiele, K. Deb, and E. Zitzler. Combining convergence<br />
and diversity in evolutionary multiobjective optimization. MIT Press in<br />
Evolutionary Computation, 10(3) :263–282, 2002.<br />
[123] M. Laumanns, L. Thiele, k. Deb, and e. Zitzler. Combining convergence<br />
and diversity in evolutionary multiobjective optimization. Evolutionary<br />
Computation (EC), 10(3) :263–282, 2002.<br />
[124] B. Lazzerini, F. Marcelloni, and M. Vecchio. A multi-objective evolutionary<br />
approach to image quality/compression trade-off in JPEG baseline<br />
algorithm. Applied Soft Computing (ASC), 10(2) :548–561, 2010.<br />
[125] W. Lee, L. K. Burak Kara, and T.F. Stahovich. An efficient graph-based<br />
recognizer for hand-drawn symbols. Computers and Graphics (CG),<br />
31(4) :554–567, 2007.<br />
[126] J. Liang and D. S. Doermann. Logical labeling of document images<br />
using layout graph matching with adaptive learning. In Proceedings of<br />
the International Workshop on Document Analysis Systems (DAS’02),<br />
pages 224–235, 2002.<br />
[127] J. Lladoós, E. Martí, and J.J. Villanueva. Symbol recognition by<br />
error-tolerant subgraph matching b<strong>et</strong>ween region adjacency graphs.<br />
IEEE Transaction on Pattern Analysis and Machine Intelligence (IEEE<br />
PAMI), 23(10) :1137–1143, 2001.<br />
[128] J. Lladós and G. Sánchez. Graph matching versus graph parsing in<br />
graphics recognition - a combined approach. International Journal on<br />
Pattern Recognition and Articicial Intelligence (IJPRAI), 18(3) :455–<br />
473, 2004.<br />
[129] H. Locteau. Contributions à la localisation de symboles dans les documents<br />
graphiques. PhD thesis, Université de Rouen, 2008.<br />
[130] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and É.<br />
Trupin. Approximation of digital curves using a multi-objective gen<strong>et</strong>ic<br />
algorithm. In Proceedings of the International Conference on Pattern<br />
Recognition (ICPR’06), pages 716–719, 2006.<br />
[131] A. G. López-Herrera, E. Herrera-Viedma, and F. Herrera. Applying<br />
multi-objective evolutionary algorithms to the automatic learning of extended<br />
boolean queries in fuzzy ordinal linguistic information r<strong>et</strong>rieval<br />
systems. Fuzzy S<strong>et</strong>s and Systems (FSS), 160(15) :2192 – 2205, 2009.<br />
[132] D. Lopresti and G. Wilfong. A fast technique for comparing graph representations<br />
with applications to performance evaluation. International<br />
Journal of Document Analysis and Recognition (IJDAR), 6(4) :219–229,<br />
2003.<br />
[133] M.A. Lozano and F. Escolano. Protein classification by matching and<br />
clustering surface graphs. Pattern Recognition (PR), 39(4) :539–551,<br />
2006.<br />
[134] S.W. Lu, Y. Ren, and C.Y. Suen. Hierarchical attributed graph representation<br />
and recognition of handwritten chinese characters. Pattern<br />
Recognition (PR), 24(7) :617–632, 1991.
tel-00671168, version 1 - 8 Oct 2012<br />
[135] B. Luo, R.C. Wilson, and E.R. Hancock. Spectral embedding of graphs.<br />
Pattern Recognition, pages 2213–2230, 2003.<br />
109<br />
[136] S. Mabu, K. Hirasawa, and J. Hu. A graph-based evolutionary algorithm :<br />
Gen<strong>et</strong>ic n<strong>et</strong>work programming (gnp) and its extension using reinforcement<br />
learning. Evolutionary Computation (EC), 15(3) :369–398, 2007.<br />
[137] P. Mahé, N. Ueda, T. Akutsu, J.-L. Perr<strong>et</strong>, and J.-P. Vert. Extensions of<br />
marginalized graph kernels. In Proceedings of the International Conference<br />
on Machine Learning (ICML’04), pages 552–559, 2004.<br />
[138] P. Mahé, N. Ueda, T. Akutsu, J.-L. Perr<strong>et</strong>, and J.-P. Vert. Graph kernels<br />
for molecular structure-activity relationship analysis with support vector<br />
machines. Journal of Chemical Information and Modeling (JCIM),<br />
45(4) :939–951, 2005.<br />
[139] S. Marini, M. Spagnuolo, and B. Falcidieno. Structural shape prototypes<br />
for the automatic classification of 3d objects. IEEE Computer Graphics<br />
and Applications (IEEE CGA), 27(4) :28–37, 2007.<br />
[140] M. Marji and P. Siy. A new algorithm for dominant points d<strong>et</strong>ection and<br />
polygonization of digital curves. Pattern Recognition (PR), 36(10) :2239<br />
– 2251, 2003.<br />
[141] M. Marji and P. Siy. Polygonal representation of digital planar curves<br />
through dominant point d<strong>et</strong>ection – a nonparam<strong>et</strong>ric algorithm. Pattern<br />
Recognition (PR), 37(11) :2113 – 2130, 2004.<br />
[142] R.T. Marler and J.S. Arora. Survey of multi-objective optimization<br />
m<strong>et</strong>hods for engineering. Structural and <strong>Multi</strong>disciplinary Optimization<br />
(SMO), 26(6) :369–395, 2004.<br />
[143] A. Masood. Optimized polygonal approximation by dominant point del<strong>et</strong>ion.<br />
Pattern Recognition (PR), 41(1) :227–239, 2008.<br />
[144] B. McKay. Practical graph isomorphism. In Numerical mathematics and<br />
computing, pages 45–87, 1981.<br />
[145] A. Messac and P.D. Hattis. Physical programming design optimization<br />
for high speed civil transport. Journal of aircraft, 33(2) :446–449, 1966.<br />
[146] B. T. Messmer and H. Bunke. A new algorithm for error-tolerant subgraph<br />
isomorphism d<strong>et</strong>ection. IEEE Transactions on Pattern Analysis<br />
and Machine Inteligence (IEEE PAMI), 20(5) :493–504, 1998.<br />
[147] D. A. Mitzias and B. G. Mertzios. Shape recognition with a neural<br />
classifier based on a fast polygon approximation technique. Pattern Recognition<br />
(PR), 27(5) :627 – 636, 1994.<br />
[148] S. Mostaghim and J. Teich. The role of ε-dominance in multi-objective<br />
particle swarm optimization. In Proceedings of the Congress on Evolutionary<br />
Computation (CEC’03), volume 3, pages 1764–1771, 2003.<br />
[149] S. Mostaghim and J. Teich. Strategies for finding good local guides<br />
in multi-objective particle swarm optimization. In Swarm Intelligence<br />
Symposium, 2003.
tel-00671168, version 1 - 8 Oct 2012<br />
110 Chapitre 6. Bibliographie<br />
[150] S. Mostaghim and J. Teich. Covering par<strong>et</strong>o-optimal fronts by subswarms<br />
in multi-objective particle swarm optimization. In IEEE Proceedings,<br />
World Congress on Computational Intelligence (CEC’04), volume<br />
2, pages 1404–1411, 2004.<br />
[151] C. R. Mouser and S. A. Dunn. Comparing gen<strong>et</strong>ic algorithms and particle<br />
swarm optimisation for an inverse problem exercise. In Rob May<br />
and A. J. Roberts, editors, Proc. of the Computational Techniques and<br />
Applications Conference (CTAC’04), volume 46, pages 89–101, 2005.<br />
[152] G. L. Nemhauser and L. A. Wolsey. Integer and combinatorial optimization.<br />
Wiley-Interscience, New York, NY, USA, 1988.<br />
[153] M. Neuhaus and H. Bunke. Edit distance-based kernel functions for<br />
structural pattern classification. Pattern Recognition (PR), 39(10) :1852–<br />
1863, 2006.<br />
[154] R. Neumann and G. Teisseron. Extraction of dominant points by estimation<br />
of the contour fluctuations. Pattern Recognition (PR), 35(7) :1447<br />
– 1462, 2002.<br />
[155] T.P. Nguyen and I. Debled Rennesson. Decomposition of a curve into<br />
arcs and line segments based on dominant point d<strong>et</strong>ection. In Proceedings<br />
of the Scandinavian Conference on Image Analysis - (SCIA’11), pages<br />
794–805, 2011.<br />
[156] L. S. Oliveira, M. Morita, and R. Sabourin. Feature selection for ensembles<br />
applied to handwriting recognition. International Journal on<br />
Document Analysis and Recognition (IJDAR), 8(4) :262–279, 2006.<br />
[157] L. S. Oliveira, R. Sabourin, F. Bortolozzi, and C. Y. Suen. Feature<br />
selection using multi-objective gen<strong>et</strong>ic algorithms for handwritten digit<br />
recognition. Proceedings of the International Conference on Pattern Recognition<br />
(ICPR’02), 1 :10568–10571, 2002.<br />
[158] E. Osuna, R. Freund, and F. Girosi. Support vector machines : Training<br />
and applications. Technical report, AI Memo 1602, Massachus<strong>et</strong>ts<br />
Institute of Technology, 1997.<br />
[159] E. Papageorgiou, K. Parsopoulos, C. Stylios, P. Groumpos, and M. Vrahatis.<br />
Fuzzy cognitive maps learning using particle swarm optimization.<br />
Journal of Intelligent Information Systems (JIIS), 25(1) :95–121, 2005.<br />
[160] M.T. Parvez and S.A. Mahmoud. Polygonal approximation of digital planar<br />
curves through adaptive optimizations. Pattern Recognition L<strong>et</strong>ters<br />
(PRL), 31(13) :1997–2005, 2010.<br />
[161] S-C. Pei and J-H. Horng. Optimum approximation of digital planar<br />
curves using circular arcs. Pattern Recognition (PR), 29(3) :383 – 388,<br />
1996.<br />
[162] J-C. Perez and E. Vidal. Optimum polygonal approximation of digitized<br />
curves. Pattern Recognition L<strong>et</strong>ters (PRL), 15(8) :743 – 750, 1994.<br />
[163] A. M. G. Pinheiro and M. Ghanbari. Piecewise approximation of contours<br />
through scale-space selection of dominant points. IEEE Transaction<br />
Image Processing (IEEE TIP), 19(6) :1442–1450, 2010.
tel-00671168, version 1 - 8 Oct 2012<br />
[164] H. Qiu and E. R. Hancock. Graph matching and clustering using spectral<br />
partitions. Pattern Recognition (PR), 39(1) :22–34, 2006.<br />
111<br />
[165] R. J. Queshri, J.-Y. Ramel, and H. Cardot. De l’appariement de graphes<br />
symboliques à l’appariements de graphes numériques : Application à la<br />
reconnaissance de symboles. In Actes de la Conférence Internationale<br />
Francophone sur l’Écrit <strong>et</strong> le Document (CIFED), pages 31–36, 2006.<br />
[166] P. V. Radtke, R. Sabourin, and T. Wong. Classification system optimization<br />
with multi-objective gen<strong>et</strong>ic algorithms. Proceedings of the International<br />
Workshop on Frontiers in Handwriting Recognition (IWFHR’06),<br />
2006.<br />
[167] M. A. Rahgozar. Document table recognition by graph rewriting. In<br />
Proceedings of the International Workshop on Applications of Graph<br />
Transformations with Industrial Relevance (AGTIVE ’99), pages 279–<br />
295, 2000.<br />
[168] A. Rakotomamonjy. Optimizing AUC with support vector machine. Proceedings<br />
of ECAI Workshop on ROC Curve and AI (ROCAI’04), pages<br />
469–478, 2004.<br />
[169] T. K. Ralphs and M. Gzelsüoy. The Next Wave in Computing, Optimization,<br />
and Decision Technologies, volume 29 of Operations Research/Computer<br />
Science Interfaces Series, chapter The Symphony Callable<br />
Library for Mixed Integer Programming, pages 61–76. Springer US,<br />
2005.<br />
[170] R. Raveaux, S. Adam, P. Héroux, and E. Trupin. Learning graph prototypes<br />
for shape recognition. Computer Vision and Image Understanding<br />
(CVIU), 115(7) :905 – 918, 2011.<br />
[171] R. Raveaux, E. Barbu, H. Locteau, S. Adam, P. Héroux, and É. Trupin.<br />
A graph classification approach using a multi-objective gen<strong>et</strong>ic algorithm<br />
application to symbol recognition. In Francisco Escolano and<br />
Mario Vento, editors, Proceedings of the IAPR International Workshop<br />
on Graph Based Representations for Pattern Recognition (GbR-PR’07),<br />
volume 4538 of Lecture Notes in Computer Science, pages 361–370. Springer,<br />
2007.<br />
[172] R. Raveaux, J.C. Burie, and J.M. Ogier. A graph matching m<strong>et</strong>hod<br />
and a graph matching distance based on subgraph assignments. Pattern<br />
Recognition L<strong>et</strong>ters (PRL), 31(5) :394–406, 2010.<br />
[173] B.K. Ray and K.S. Ray. An algorithm for d<strong>et</strong>ection of dominant points<br />
and polygonal approximation of digitized curves. Pattern Recognition<br />
L<strong>et</strong>ters (PRL), 13(12) :849 – 856, 1992.<br />
[174] P. Ren, R. C. Wilson, and E. R. Hancock. Graph characterization via<br />
Ihara coefficients. IEEE Transactions on Neural N<strong>et</strong>works (IEEE TNN),<br />
22(2) :233–245, 2011.<br />
[175] M. Reyes-sierra and C.A.C. Coello. <strong>Multi</strong>-objective particle swarm optimizers<br />
: A survey of the state-of-the-art. International journal of computational<br />
intelligence research (IJCIR), 2(3) :287–308, 2006.
tel-00671168, version 1 - 8 Oct 2012<br />
112 Chapitre 6. Bibliographie<br />
[176] K. Riesen and H. Bunke. Approximate graph edit distance computation<br />
by means of bipartite graph matching. Image Vision Computing (IVC),<br />
27(7) :950–959, 2009.<br />
[177] K. Riesen and H. Bunke. Graph classification based on vector space<br />
embedding. International Journal on Pattern Recognition and Articicial<br />
Intelligence (IJPRAI), 23(6) :1053–1081, 2009.<br />
[178] J. Ros, C. Laurent, and J-M. Jolion. A Bag of Strings representation for<br />
Image Categorization. International Journal of Mathematical Imaging<br />
and Vision (JMIV), 35(1) :51–67, 2009.<br />
[179] A. Rosenfeld and J.S. Weszka. An improved m<strong>et</strong>hod of angle d<strong>et</strong>ection on<br />
digital curves. IEEE Transaction on Computers (IEEE TC), 24(9) :940–<br />
941, 1975.<br />
[180] P.L. Rosin and G.A.W. West. Segmentation of edges into lines and arcs.<br />
Image and Vision Computing (IVC), 7(2) :109 – 114, 1989.<br />
[181] M. Rusiñol, J. Lladós, and G. Sánchez. Symbol spotting in vectorized<br />
technical drawings throug a lookup table of region strings. Pattern Analysis<br />
and Applications (PAA), 33(3) :321–331, 2009.<br />
[182] M. Salotti. An efficient algorithm for the optimal polygonal approximation<br />
of digitized curves. Pattern Recognition L<strong>et</strong>ters (PRL), 22(2) :215 –<br />
221, 2001.<br />
[183] G. Salton. The SMART R<strong>et</strong>rieval System - Experiments in Automatic<br />
Document Processing. Prentice Hall Inc., Englewood Cliffs, 1971.<br />
[184] B. Sarkar, L.K. Singh, and D. Sarkar. Approximation of digital curves<br />
with line segments and circular arcs using gen<strong>et</strong>ic algorithms. Pattern<br />
Recognition L<strong>et</strong>ters (PRL), 24(15) :2585–2595, 2003.<br />
[185] D. Sarkar. A simple algorithm for d<strong>et</strong>ection of significant vertices for polygonal<br />
approximation of chain-coded curves. Pattern Recognition L<strong>et</strong>ters<br />
(PRL), 14(12) :959–964, 1993.<br />
[186] J.D. Schaffer and J.J. Grefenst<strong>et</strong>te. <strong>Multi</strong>objective learning via gen<strong>et</strong>ic<br />
algorithms. In Proceedings of the International Joint Conferences on<br />
Artificial Intelligence (IJCAI’85), pages 593–595, 1985.<br />
[187] A. Schrijver. Theory of Linear and Integer Programming. John Wiley &<br />
Sons, New York, NY, USA, 1998.<br />
[188] M. Sebag, J.Azé, and N. Lucas. Roc-based evolutionary learning : Application<br />
to medical data mining. Proceedings of the International Conference<br />
on Artificial Evolution (ICAI’03), pages 384–396, 2003.<br />
[189] T.C. Service. A no free lunch theorem for multi-objective optimization.<br />
Information Processing L<strong>et</strong>ters (IPL), 110(21) :917–923, 2010.<br />
[190] M. S<strong>et</strong>tles, B. Rodebaugh, and T. Soule. Comparison of gen<strong>et</strong>ic algorithm<br />
and particle swarm optimizer when evolving a recurrent neural<br />
n<strong>et</strong>work. In Springer Berlin / Heidelberg, editor, Gen<strong>et</strong>ic and Evolutionary<br />
Computation - GECCO 2003, volume 2723/2003 of Lecture Notes<br />
in Computer Science, pages 148–149, 2003.
tel-00671168, version 1 - 8 Oct 2012<br />
113<br />
[191] N. Sidère, P. Héroux, and J-Y. Ramel. Vector representation of graphs :<br />
Application to the classification of symbols and l<strong>et</strong>ters. In Proceedings<br />
of the International Conference on Document Analysis and Recognition<br />
(ICDAR’09), pages 681–685, 2009.<br />
[192] J. Sivic, B. Russell, A. Efros, A. Zisserman, and W. Freeman. Discovering<br />
object categories in image collections. In Proceedings of the International<br />
Conference on Computer Vision (ICCV), 2005.<br />
[193] C. Solnon. Alldifferent-based filtering for subgraph isomorphism. Artificial<br />
Intelligence (AI), 174(12-13) :850 – 864, 2010.<br />
[194] N. Srinivas and K. Deb. <strong>Multi</strong>objective optimization using nondominated<br />
sorting in gen<strong>et</strong>ic algorithms. Evolutionary Computation, 2(3) :221–248,<br />
1994.<br />
[195] W. Stadler. Fundamentals of <strong>Multi</strong>criteria Optimization. pages 1–25.<br />
Plenum Press, 1988.<br />
[196] R. Steuer and E-U. Choo. An interactive weighted tchebycheff procedure<br />
for multiple objective programming. Mathematical Programming,<br />
26(3) :326–344, 1983.<br />
[197] F. Suard, V. Guigue, A. Rakotomamonjy, and A. Bensrhair. Pedestrian<br />
d<strong>et</strong>ection using stereovision and graph kernels. In Proceedings of the<br />
IEEE Intelligent Vehicle Sysposium (IVS’05), pages 267–272, 2005.<br />
[198] K.C. Tan, T.H. Lee, and E.F. Evolutionary algorithms for multi-objective<br />
optimization : Performance assessments and comparisons. Artificial Intelligence<br />
Review, 17(4) :251–290, 2002.<br />
[199] M. Tanaka, H. Watanabe, Y. Furukawa, and T. Tanino. GA-based decision<br />
support system for multicriteria optimization. In Proceedings of the<br />
International Conference on Systems, Man and Cybern<strong>et</strong>ics (ICSMC’95),<br />
volume 2, pages 1556–61, 1995.<br />
[200] M. Teague. Image analysis via the general theory of moments. Journal<br />
of the Optical Soci<strong>et</strong>y of America (JOSA), 70(8) :920–930, 1980.<br />
[201] C.H. Teh and R.T. Chin. On the d<strong>et</strong>ection of dominant points on digital<br />
curves. IEEE Transaction on Pattern Analysis and Machine Intelligence<br />
(IEEE PAMI), 11(8) :859–872, 1989.<br />
[202] O. R. Terrades, S. Tabbone, and E. Valveny. A review of shape descriptors<br />
for document analysis. In Proceedings of the International Conference<br />
on Document Analysis and Recognition (ICDAR), pages 227–231,<br />
2007.<br />
[203] S. M. Thomas and Y. T. Chan. A simple approach for the estimation<br />
of circular arc center and its radius. Computer Vision, Graphics, and<br />
Image Processing (CVGIP), 45(3) :362 – 370, 1989.<br />
[204] K. Tombre. Is graphics recognition an unidentified scientific object ?<br />
In Wenyin Liu, Josep Lladós, and Jean-Marc Ogier, editors, Graphics<br />
Recognition. Recent Advances and New Opportunities, pages 329–334.<br />
Springer-Verlag, Berlin, Heidelberg, 2008.
tel-00671168, version 1 - 8 Oct 2012<br />
114 Chapitre 6. Bibliographie<br />
[205] K. Tombre. Graphics Recognition – What Else ? In Jean-Marc Ogier,<br />
Wenyin Liu, and Josep Llados, editors, Graphics Recognition - Achievements,<br />
Challenges and Evolution. Selected Paper from 8th International<br />
Workshop GREC 2009, La Rochelle, July 2009, volume 6020 of Lecture<br />
Notes in Computer Science, pages 272–277. Springer Verlag, 2010.<br />
[206] K. Tombre, S. Tabbone, and Ph. Dosch. Musings on Symbol Recognition.<br />
In Wenyin Liu and Josep Lladós, editors, Graphics Recognition—Ten<br />
Years Review and Future Pespectives, volume 3926 of Lecture Notes in<br />
Computer Science, pages 23–34. Springer Verlag, 2006.<br />
[207] F. Tortorella, R. Patraccone, and M. Molinara. A dynamic programming<br />
approach for segmenting digital planar curves into line segments and<br />
circular arcs. In Proceedings of the International Conference on Pattern<br />
Recognition (ICPR’08), pages 1–4, 2008.<br />
[208] J. R. Ullmann. An algorithm for subgraph isomorphism. Journal of the<br />
ACM (JACM), 23(1) :31–42, 1976.<br />
[209] S. V. N. Vishwanathan, N. N. Schraudolph, R. Kondor, and K. Borgwardt.<br />
Graph kernels. Journal of Machine Learning Research (JMLR),<br />
11 :1201–1242, 2010.<br />
[210] G. Wahba, X. Lin, F. Gao, D. Xiang, R. Klein, and B. Klein. The<br />
bias-variance tradeoff and the randomized gacv. In Proceedings of NIPS,<br />
pages 620–626, 1999.<br />
[211] W. D. Wallis, P. Shoubridge, M. Kra<strong>et</strong>z, and D. Ray. Graph distances<br />
using graph union. Pattern Recognition L<strong>et</strong>ters, 22(6-7) :701–704, 2001.<br />
[212] R. C. Wilson, E. R. Hancock, and B. Luo. Pattern vectors from algebraic<br />
graph theory. IEEE Transaction on Pattern Analysis and Machine<br />
Intelligence (IEEE PAMI), 27(7) :1112–1124, 2005.<br />
[213] D.H. Wolpert and W.G. Macready. No free lunch theorems for optimization.<br />
IEEE Transaction on evolutionary computation (IEEE TEC),<br />
1(1) :67–82, 1997.<br />
[214] S. Wu and P. Flach. A scored AUC m<strong>et</strong>ric for classifier evaluation and<br />
selection. In Proceedings of the workshop on ROC analysis in Machine<br />
Learning at ICML (ROCML’05), 2005.<br />
[215] S. Yu and F. K. Soong. A symbol graph based handwritten math expression<br />
recognition. In Proceedings of the International Conference on<br />
Pattern Recognition (ICPR’08), pages 1–4, 2008.<br />
[216] H. Zanghi, C. Ambroise, and V. Miele. Fast online graph clustering<br />
via Erdös-Rényi mixture. Pattern Recognition (PR), 41(12) :3592–3599,<br />
2008.<br />
[217] H. Zhang, C.M. Tam, and H. Li. <strong>Multi</strong>mode project scheduling based on<br />
particle swarm optimization. Computer Aided Civil and Infrastructure<br />
Engineering (CACIE), 21(2) :93–103, 2006.<br />
[218] E. Zitzler, M. Laumanns, and L. Thiele. SPEA2 : Improving the strength<br />
Par<strong>et</strong>o evolutionary algorithm. Technical report, Computer Engineering<br />
and N<strong>et</strong>works Laboratory (TIK), ETH Zurich, 2001.
tel-00671168, version 1 - 8 Oct 2012<br />
115<br />
[219] E. Zitzler and L. Thiele. <strong>Multi</strong>objective evolutionary algorithms : A comparison<br />
case study and the strength Par<strong>et</strong>o approach. IEEE Transactions<br />
on Evolutionary Computation (IEEE TEC), 3(4) :257–271, 1999.
tel-00671168, version 1 - 8 Oct 2012<br />
116 Chapitre 6. Bibliographie
tel-00671168, version 1 - 8 Oct 2012<br />
Troisième partie<br />
Recueil de publications<br />
117
tel-00671168, version 1 - 8 Oct 2012
tel-00671168, version 1 - 8 Oct 2012<br />
Annexe A<br />
Réference CV : 6<br />
E. Barbu, P. Héroux, S. Adam, and E. Trupin. Frequent graph discovery :<br />
Application to line drawing document images. Electronic L<strong>et</strong>ters on Computer<br />
Vision and Image Analysis (ELCVIA), 5(2) :47-57, 2005.<br />
i
tel-00671168, version 1 - 8 Oct 2012<br />
Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />
Frequent Graph Discovery: Application to Line Drawing Document<br />
Images<br />
Eugen Barbu, Pierre Héroux, Sébastien Adam, and Éric Trupin<br />
Laboratoire PSI<br />
CNRS FRE 2645 - Université de Rouen<br />
76 821 Mont-Saint-Aignan cedex - France<br />
Received 16 July 2004; accepted 16 November 2004<br />
Abstract<br />
In this paper a sequence of steps is applied to a graph representation of line drawings using concepts from<br />
data mining. This process finds frequent subgraphs and then association rules b<strong>et</strong>ween these subgraphs.<br />
The distant aim is the automatic discovery of symbols and their relations, which are parts of the document<br />
model. The main outcome of our work is firstly an algorithm that finds frequent subgraphs in a single graph<br />
s<strong>et</strong>ting and secondly a modality to find rules and m<strong>et</strong>a-rules b<strong>et</strong>ween the discovered subgraphs. The searched<br />
structures are closed [1] and disjunct subgraphs. One aim of this study is to use the discovered symbols for<br />
classification and indexation of document images when a supervised approach is not at hand. The relations<br />
found b<strong>et</strong>ween symbols can be used in segmentation of noisy and occluded document images. The results show<br />
that this approach is suitable for patterns, symbols or relation discovery.<br />
Key Words: Computer Vision, Image Analysis, Pattern Recognition, Graph Mining, Line Drawings,<br />
Association Rules.<br />
1 Introduction<br />
A symbol encodes a message into the form of an arbitrary sign. This sign has acquired a conventional<br />
significance. According to the document model, the symbol conveys graphical and semantic information. In<br />
this paper we try to discover both the representation as a written sign, and the relations (rules) that a symbol<br />
respects. The graphical representation and the rules found can be considered as an approximation of the<br />
message carried by the symbol. Automatic symbol extraction on document images without any prior domain<br />
knowledge is an appealing task. This approach has been pursued by Altamura [2] and Messmer [3]. In the<br />
context of line drawings document, one way to d<strong>et</strong>ect symbols is to consider the frequent occurrences of<br />
included entities. The entities can be graphs, geom<strong>et</strong>ric shapes or image parts depending at which processing<br />
level (segmentation) we apply this m<strong>et</strong>hod [4], [5], [6]. A possible extension of this approach is to find<br />
relations b<strong>et</strong>ween symbols. Such a relation can be viewed as a new entity that can be frequent and<br />
participates on its own right in other more complex relations. The standard for mining frequent item s<strong>et</strong>s is<br />
the A priori algorithm [7]. However if the objects are graphs, some modifications to the basic algorithm<br />
Correspondence to: eugen.barbu@univ-rouen.fr<br />
Recommended for acceptance by J.M. Ogier, T. Paqu<strong>et</strong>, G. Sanchez<br />
ELCVIA ISSN: 1577-5097<br />
Published by Computer Vision Center / Universitat Autonoma de Barcelona, Barcelona, Spain
tel-00671168, version 1 - 8 Oct 2012<br />
48 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />
should be made. Several papers describe A priori-like algorithms for mining frequent graph substructures<br />
[8], [9], [10].<br />
This paper presents an algorithm that finds frequent subgraphs in a graph, a modality of creating rules and<br />
m<strong>et</strong>a-rules b<strong>et</strong>ween the discovered symbols and some possible utilization for the d<strong>et</strong>ected rules.<br />
The principle of our approach is described on Fig.1.<br />
A document image is characterised in a certain extent by the s<strong>et</strong> of symbols that are frequent. Using this<br />
incompl<strong>et</strong>e description of a document, generated in an unsupervised manner, we can use techniques from<br />
Information R<strong>et</strong>rieval in order to index [11] and classify [12] document images.<br />
A good example for using the rules b<strong>et</strong>ween objects can be to cluster a s<strong>et</strong> of document images. If the<br />
symbols are described in the common graph language, the rules can also be shared. Two documents are from<br />
the same class if they respect the same rules. The distance b<strong>et</strong>ween two documents can be evaluated using<br />
the extent to which one document conforms to the rules of the other.<br />
Another application of the rules b<strong>et</strong>ween symbols is to apply these rules in the segmentation process<br />
when noise or occluded symbols are present.<br />
Fig. 1. Approach principle<br />
This paper is organized as follows. Section 2 addresses the algorithm for finding frequent subgraphs.<br />
Section 3 emphasizes the ways we can find association rules b<strong>et</strong>ween symbols. Section 4 presents an<br />
example of the proposed m<strong>et</strong>hod. Section 5 elaborates several conclusions.<br />
2 An algorithm that finds frequent subgraphs<br />
The proposed approach is based on the fact that symbols on technical drawings graphically encode<br />
message elements according to a certain convention. So, in several document images sharing the same<br />
document model, a pattern always describes the same entity. The symbols of a document class appear with a<br />
certain frequency.<br />
The purpose of this algorithm is to find the frequent subgraphs from a graph that describes the<br />
neighbourhood relations b<strong>et</strong>ween shapes in a line drawing document. The subgraphs which represent<br />
symbols are closed graphs (a graph is closed if it does not have a super-graph with the same number of<br />
apparitions in the datas<strong>et</strong>) [1].<br />
In the process of document image analysis, different graph based representations can be used. These<br />
representations can be constructed depending on the understanding level of the document when the graph is<br />
generated or according to the type of document that one tries to model (mostly textual, mostly graphical,<br />
mixed…)
tel-00671168, version 1 - 8 Oct 2012<br />
Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 49<br />
In this paper we extract a graph from the document image at a low level of document understanding. We<br />
only use connected components and their neighbouring relations to construct the graph. The documents<br />
analysed are mostly graphical documents called line drawings. From a semantic point of view, a line drawing<br />
document is a document that does not lose information when the morphological operation of skel<strong>et</strong>onisation<br />
is applied on it.<br />
The document graph is obtained from a line drawing considering:<br />
• the regions (closed loops, two-dimensional shapes) or one-dimensional shapes as nodes.<br />
• the neighbouring relations b<strong>et</strong>ween these shapes as edges.<br />
Two shapes are neighbours if they share a common frontier (see Fig. 2). This relation of neighbourhood<br />
can also be computed using a distance b<strong>et</strong>ween node regions. One example can be: two occlusions are<br />
neighbours if the distance b<strong>et</strong>ween their centers is less than a fixed or relative threshold. This<br />
representation is more robust than the binary relation of neighbourhood computed using the existence or<br />
not of a common frontier but has the disadvantage of using a more or less arbitrary threshold.<br />
In order to label each node we extract a vector of features called Zernike moments for every part of the<br />
image that represents a node of the representation graph. These features are rotation invariant. More<br />
properties on these features can be found in [13].<br />
We apply an unsupervised clustering algorithm on the nodes of the representation and each node has the<br />
class it belongs to as label. The clustering algorithm used is hierarchical ascendant, clustering using the<br />
Euclidean distance as dissimilarity, compl<strong>et</strong>e-linkage distance b<strong>et</strong>ween clusters, and the Calinsky-Harabasz<br />
index to obtain the number of clusters. This algorithm has been chosen after a comparison with a hierarchical<br />
descendant clustering using the Duda-Hart index as stopping criterion and based on the conclusions from<br />
[14].<br />
Two graphs represent the same symbol if they are isomorphic and if each pair of nodes (associated by the<br />
isomorphism function) has the same label.
tel-00671168, version 1 - 8 Oct 2012<br />
50 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />
Fig. 2. A drawing a.) and its associated graph d.), considering the background region n0. The 1dimensional<br />
shapes are represented by circles. The 2-dimensional shapes are represented by rectangles.<br />
In this context a subgraph is considered frequent if its number of apparitions as non-included in other<br />
subgraphs is greater than a certain threshold s.<br />
The way the threshold is defined can be linked to two possible s<strong>et</strong>tings: single or multiple graphs. In<br />
multiple graphs s<strong>et</strong>ting, i.e. we have a s<strong>et</strong> of graphs and each graph is called a “transaction”, we can say a<br />
subgraph is frequent if it appears in more than ²s% transactions. In our case we are interested in the frequent<br />
occurrences of a subgraph in the same graph, so we are in a single graph s<strong>et</strong>ting.<br />
Because the number of subgraphs of the same class (any two subgraphs from the same class are<br />
isomorphic) is considered for a single graph, the threshold cannot be defined in relation with the number of<br />
transactions as it is done in other similar algorithms ([9], [10]). Considering a single transaction, we are<br />
interested in symbol occurrences included in that transaction. Here the threshold s is computed considering<br />
an approximation of the maximum possible number of subgraphs, with disjoint node s<strong>et</strong>s and fixed number<br />
of edges and nodes, contained in the document graph.<br />
The proposed algorithm uses the principle behind “A priori”-like algorithms combined with two<br />
simplifying hypotheses:<br />
– the symbols are rarely expressed by graphs with a large number of nodes (10)<br />
– occurrences for the same symbol are subgraphs with disjoint node s<strong>et</strong>s<br />
The idea behind all A priori-like algorithms is that we can construct the frequent s<strong>et</strong>s of objects by adding<br />
objects to a s<strong>et</strong> that is frequent until it is not frequent anymore. When objects are graphs, a graph is frequent<br />
if all its subgraphs are also frequent. In the general case this last proposition is not true but if we are in the<br />
context of disjoint node s<strong>et</strong>s for subgraphs, this proposition is true. On Fig. 3, the graph c) has only one<br />
occurrence in the graph a). If we consider that subgraphs can have common nodes, three occurrences of<br />
graph b) can be found in graph a). In our case, nodes only participate in the representation of a single<br />
symbol. Hence, subgraphs must have distinct nodes. Then, only one occurrence of graph b) can be found<br />
graph a).<br />
Fig. 3. Illustration for frequent subgraph search
tel-00671168, version 1 - 8 Oct 2012<br />
Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 51<br />
Fig. 4. Non-isomorphic graph n<strong>et</strong>work<br />
In the algorithm used here, in order to reduce time complexity, we compute a n<strong>et</strong>work of non-isomorphic<br />
graphs off-line.<br />
The n<strong>et</strong>work is used to guide the search for frequent subgraphs and to avoid isomorphism related<br />
computations (exponential in time) during this procedure. The n<strong>et</strong>work contains all graphs that have less than<br />
MAX edges. The graphs and their relations of inclusion are generated using the m<strong>et</strong>hod presented in [15].<br />
This m<strong>et</strong>hod generates all non isomorphic subgraphs of a particular size. The complexity of this m<strong>et</strong>hod is<br />
exponential.<br />
Based on the relation of inclusion b<strong>et</strong>ween these graphs the n<strong>et</strong>work is an acyclic oriented graph, whose<br />
nodes are all non-isomorphic graphs with less than MAX edges, where MAX is an input param<strong>et</strong>er. Fig. 4<br />
presents how a search for frequent subgraphs is done. If at a certain stage a graph is not frequent, all of its<br />
descendants, with more edges, cannot be frequent. This n<strong>et</strong>work was computed with MAX=9 in our<br />
application. Two reasons sustain this choice: the size of the n<strong>et</strong>work increases more than exponentially with<br />
the number of graph edges and the symbols are rarely expressed with graphs that have a bigger number of<br />
edges. The algorithm uses the information contained in the n<strong>et</strong>work of non-isomorphic graphs (the inclusion<br />
relations and automorphisms for each graph) to efficiently search for frequent subgraphs. Based on the nonisomorphic<br />
graph n<strong>et</strong>work, the search for frequent subgraphs is done in polynomial time.<br />
2.1Algorithm<br />
N<strong>et</strong>work initialisation till level MAX<br />
begin<br />
Input An undirected labelled graph<br />
Output A list of frequent subgraphs and for each one the apparition list<br />
k:=1<br />
while k
tel-00671168, version 1 - 8 Oct 2012<br />
52 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />
then update the list of predecessor s<strong>et</strong>ting the (inclusion in a frequent graph) flag on true<br />
else update the successors of G s<strong>et</strong>ting the flag, for the possibility to be frequent, on false<br />
for all frequent graphs from level k-1<br />
update the list of apparitions taking into account the inclusion in other frequent graphs<br />
update accordingly the frequent flag<br />
k:=k+1<br />
end while<br />
end.<br />
The threshold is computed using the following formula:<br />
min( , n)<br />
e' n' e<br />
threshold= p∗<br />
This formula represents an approximation of the maximum number of subgraphs that can be found in a<br />
graph. We consider that a subgraph is frequent if the number of occurrences is bigger than p% out of the<br />
maximum (possible) total number of subgraphs having e’ edges and n’ nodes. This algorithm can be applied<br />
to a graph or a s<strong>et</strong> of graphs associated to a document or a collection of documents.<br />
3 Rules and m<strong>et</strong>a-rules<br />
After some symbols were found using the above algorithm, relations b<strong>et</strong>ween those symbols can be<br />
considered. The search for association rules b<strong>et</strong>ween symbols is made using the “A priori” algorithm [7]. In<br />
the subsequent paragraphs the s<strong>et</strong>ting of this algorithm is presented. If we consider a s<strong>et</strong> of symbols all<br />
having a common property, for example being on the same level in the inclusion tree (this tree models the<br />
inclusions b<strong>et</strong>ween shapes), we may say this s<strong>et</strong> of symbols participates in a transaction. All transactions are<br />
considered when relations b<strong>et</strong>ween symbols are computed. An example for a s<strong>et</strong> of transactions that<br />
describes how the objects are related can be:<br />
T<br />
1(<br />
1 2 3 2 1 2 3 2 3 4 1 2 4<br />
o , o , o ); T ( o , o ); T ( o , o ); T ( o , o , o )<br />
From this s<strong>et</strong> of transactions one can extract a rule as the following “if the object o1 participates in a<br />
transaction then the object o2 will probably be there too”.<br />
The transactions can be defined using other criterions such as: a document represents a single transaction.<br />
The relations found have the meaning that if a s<strong>et</strong> of symbols appears in a document then it is highly<br />
probable that the consequent s<strong>et</strong> of symbols will appear as well.<br />
In the single graph s<strong>et</strong>ting we can relate transactions to graph partitioning or subgraph clustering.<br />
However, in the present paper only transactions based on the inclusion relation are used.<br />
Applying the A priori algorithm in this context (i.e. using the above described transactions) we find<br />
relations of the following type:<br />
Where<br />
( 2<br />
(1)<br />
oi1, oi2,...,<br />
oin)<br />
⇒ ( o j1,<br />
oj<br />
,..., ojm)<br />
(2)<br />
( o i1, oi2,...,<br />
oin)<br />
∩ ( o j1,<br />
oj2,...,<br />
ojm)<br />
= ∅
tel-00671168, version 1 - 8 Oct 2012<br />
Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 53<br />
If we consider a rule R obtained by the “A priori” algorithm, we can compute for each transaction<br />
wh<strong>et</strong>her R is confirmed or not. The confirmation is verified using the logical definition of the implication<br />
relation.<br />
This computation has the following meaning: a rule is considered in its own right as a pattern and we<br />
consider that this particular rule appears in the transaction if it is confirmed in that transaction.<br />
When in a given document we find a relation b<strong>et</strong>ween some symbols then this fact implies the existence<br />
of a relation b<strong>et</strong>ween some other symbols in the document.<br />
Considering rules as patterns can be recursively applied in order to obtain m<strong>et</strong>a-rules of type:<br />
(( ,..., ok1<br />
) ⇒ ( o ,..., ok 2 )) ⇒ (( o ,..., ok 3 ) ⇒ ( o ,..., ok 4 ))<br />
oi 1<br />
i 2<br />
i 3<br />
i 4<br />
or<br />
or<br />
( oi1,..., ok1)<br />
⇒ (( oi<br />
2,...,<br />
ok2)<br />
⇒(<br />
oi3,...,<br />
ok3))<br />
(( oi1,..., ok1)<br />
⇒ ( oi<br />
2,...,<br />
ok2))<br />
⇒(<br />
oi3,...,<br />
ok3)<br />
The m<strong>et</strong>a-rules found add knowledge to the associations and are not equivalent with simple rules. To support<br />
this assertion, we present an example where a m<strong>et</strong>a-rule is not reducible to a simple rule (like Eq. 2.). The<br />
⇒ is written in a disjunctive normal form as: o 1o2+<br />
o3+<br />
o4<br />
− −<br />
( o1, o2)<br />
⇒( o3,<br />
o4<br />
or 1 ( o2,<br />
o3,<br />
o4)<br />
m<strong>et</strong>a-rule ( o1 o2)<br />
⇒(<br />
o3⇒o4)<br />
but no simple rule such<br />
as ) o ⇒ written in a disjunctive normal form will contain a conjunction of a<br />
statement l<strong>et</strong>ter and a negation of other l<strong>et</strong>ter as it is the case for the m<strong>et</strong>a-rule.<br />
These types of m<strong>et</strong>a-rules are more difficult to be expressed in informal language but are closer to the<br />
domain knowledge rules. One can describe a relation R1⇒R 2 b<strong>et</strong>ween rules as follows: all transactions that<br />
contain a certain rule will probably contain the second rule as well.<br />
4 Examples<br />
4.1 Tutorial example<br />
This section presents a didactic example of our approach applied on a synth<strong>et</strong>ic document (Fig. 5.)<br />
containing architectural symbols. First, connected components, loops and neighbouring relations are<br />
extracted. After that, the neighbouring graph is built (Fig. 6(a)). Inclusion of shapes can be obtained from the<br />
graph [17]. Then, the corresponding inclusion tree is obtained (Fig. 6(b)). The threshold s is computed (s = 6)<br />
by applying equation (1) with p = 0.2. Then a subgraph is considered frequent if we can find 6 occurrences at<br />
least. The results of frequent subgraph search are shown on Fig. 7. In this search the inclusion relation is not<br />
considered as a neighbouring relation. Using the discovered symbols, transactions that contain these symbols<br />
can be obtained. Each transaction represents a leaf of the inclusion tree.<br />
(3)
tel-00671168, version 1 - 8 Oct 2012<br />
54 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />
Fig. 5. A technical drawing<br />
Fig. 6. Neighbourhood graph and inclusion tree<br />
Fig. 7. Frequent subgraphs and corresponding symbols
tel-00671168, version 1 - 8 Oct 2012<br />
Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 55<br />
The symbols are named S0, S1, S2, and S3. Considering the above assumptions the transactions are:<br />
T1(<br />
S0,<br />
S1),<br />
T2(<br />
S0,<br />
S1),<br />
T3(<br />
S0,<br />
S1),<br />
T4(<br />
S0,<br />
S1),<br />
T5(<br />
S0,<br />
S1),<br />
T6(<br />
S0,<br />
S1),<br />
T7(<br />
S0,<br />
S1,<br />
S3),<br />
T8(<br />
S0,<br />
S1),<br />
T9(<br />
S0,<br />
S1),<br />
T10(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T11(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T12(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T13(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T14(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T15(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T16(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T17(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T18(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T19(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T20(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T21(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T22(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T23(<br />
S0,<br />
S1,<br />
S2,<br />
S3),<br />
T24(<br />
S0,<br />
S2,<br />
S3),<br />
T25(<br />
S0,<br />
S2),<br />
T26(<br />
S0,<br />
S2),<br />
T27(<br />
S1,<br />
S2),<br />
T28(<br />
S1,<br />
S2),<br />
T29(<br />
S1,<br />
S2),<br />
T 30( S1,<br />
S3),<br />
T31(<br />
S1,<br />
S3),<br />
T32(<br />
S3),<br />
T33(<br />
S3),<br />
T34(<br />
S3),<br />
T35(<br />
S3).<br />
The support and the confidence are often used to qualify association rules. For a rule a ⇒b, these are defined<br />
by:<br />
na<br />
ab<br />
Support= Confidence= n<br />
n<br />
na<br />
where n is the number of transactions, n a is the number of transactions which satisfy a and n ab is the<br />
number of transaction which satisfy a∧b.<br />
Based on these transactions the following rules and m<strong>et</strong>a-rules were obtained:<br />
R1: ( S0⇒<br />
S1)<br />
support=0.74 confidence=0.88<br />
R2: ( S2⇒<br />
S0)<br />
support=0.57 confidence=0.85<br />
R3: ( S3⇒<br />
( S2⇒S0))<br />
support=0.62 confidence=1.0<br />
The rules were found considering a threshold of 0.8 for confidence and 0.5 for support in the “A priori”<br />
algorithm.<br />
The m<strong>et</strong>a-rule found using the above thresholds has a significance (in the context of these artificially created<br />
document image) equivalent with a logo in a real document image. When we find a certain logo we expect<br />
rules b<strong>et</strong>ween symbols which are specific to that document.<br />
4.2 Robustness<br />
This section presents an experiment which aims at assessing the robustness of our approach. Fig. 8(a)<br />
represents several occurrences of the same symbol with different levels of noise. Two kinds of noise have<br />
been introduced :<br />
– Vb1 models the connectivity of several graphic information,<br />
– Vb2 is a gaussian noise on the grey level image.<br />
The Vb1 noise highlights the capacity of the m<strong>et</strong>hod to deal with connected and distorted symbols. Even<br />
when some symbols are unrecognisable the property of being frequent is kept.<br />
Fig. 8(b) gives for each noise level of Vb1, the proportion of found symbols in relation to Vb2. Even if this<br />
proportion decreases with the noise, our objective is not to extract all symbols but rather to find redundancies<br />
that qualify the document. However, we can conclude that the thresholds have to be adapted to the noise on<br />
the document image.
tel-00671168, version 1 - 8 Oct 2012<br />
56 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />
5 Conclusions<br />
(a)Different noise levels (b)Robustness evaluation<br />
Fig. 8. Robustness to noise<br />
The research undertaken represents a novel approach for finding symbols in line drawing documents as<br />
well as for discovering relations b<strong>et</strong>ween automatically mined symbols. The approach uses data mining<br />
concepts for knowledge extraction. It aims at finding frequent symbols and relations. These frequent patterns<br />
are part of the document model and can be put in relation with the domain knowledge. The exposed m<strong>et</strong>hod<br />
can be applied to other graph representations of a document. The only condition is that the document graph<br />
should contain symbols as disjoint graphs. In our future works, we will apply this approach to layout<br />
structures of textual document images to extract formatting rules. Some follow-up activities could be:<br />
– post-processing of the neighbourhood graph in order to attenuate the noise influence;<br />
– employment of error tolerant graph matching;<br />
– utilization, at a semantic level, of more powerful indices for association rules;<br />
– creation of a hierarchy of rules, probably a similar approach with Gras <strong>et</strong> al. [17].<br />
References<br />
[1] Yan, X., Han, J.: “Closegraph: mining closed frequent graph patterns”. In: Proceedings of the Ninth<br />
ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press<br />
(2003) 286–295<br />
[2] Altamura, O., Esposito, F., Malerba, D.: “Transforming paper documents into xml format with<br />
Wisdom++”. International Journal on Document Analysis and Recognition 4 (2001) 2–17
tel-00671168, version 1 - 8 Oct 2012<br />
Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 57<br />
[3] Messmer, B.: “Efficient Graph Matching Algorithms for Preprocessed Model Graphs”. PhD thesis,<br />
University of Bern, CH, Institute of Applied Mathematics (1995)<br />
[4] Berardi, M., Ceci, M., Malerba, D.: “Mining spatial association rules from document layout<br />
structures”. In: Proceedings of the Third International Workshop on Document Layout Interpr<strong>et</strong>ation<br />
and its Applications. (2003)<br />
[5] Cornuéjols, A., Mary, J., Sebag, M.: « Classification d’images à l’aide d’un codage par motifs<br />
fréquents ». In: Actes de la Journée analyse de données, statistique <strong>et</strong> apprentissage pour la fouille<br />
d’image du Congrès RFIA. (2004) 11–16<br />
[6] Ordonez, C., Omiecinski, E.: “Discovering association rules based on image content”. In: Proceeding<br />
of the IEEE Advances in Digital Libraries Conference. (1999)<br />
[7] Agrawal, R., Srikant, R.: “Fast algorithms for mining association rules”. In Bocca, J.B., Jarke, M.,<br />
Zaniolo, C., eds.: Proc. 20th Int. Conf. Very Large Data Bases, VLDB, Morgan Kaufmann (1994)<br />
487–499<br />
[8] Washio, T., Motoda, H.: “State of the art of graph-based data mining”. SIGKDD Explor. Newsl. 5<br />
(2003) 59–68<br />
[9] Kuramochi, M., Karypis, G.: “Frequent subgraph discovery”. In: Proceedings of the International<br />
Conference on Data Mining. (2001)<br />
[10] Inokuchi, A., Washio, T., Motoda, H.: “An apriori-based algorithm for mining frequent substructures<br />
from graph data”. In: Proceedings of the Conference on Principle and Practice of Knowledge<br />
Discovery in Databases. (2000)<br />
[11] Gupta, A., Jain, R.: Visual information r<strong>et</strong>rieval. Comm. Assoc. Comp. Mach., 40 (May 1997) 70-79<br />
[12] Barbar D., Domeniconi C., Kang N., Classifying <strong>Documents</strong> Without Labels, In : Proceedings of the<br />
Fourth SIAM International Conference on Data Mining, Lake Buena Vista, Florida, USA, April 22-<br />
24,2004<br />
[13] Khotanzad, A. and Hong, Y.H. Invariant Image Recognition by Zernike Moments. IEEE Trans. on<br />
PAMI, 12 (5). 289-497, 1990<br />
[14] Milligan, G. W., Cooper, M.C.: An Examination of Procedures for D<strong>et</strong>ermining the Number of<br />
Clusters in a Data S<strong>et</strong>. Psychom<strong>et</strong>rika, 58(2),(1985)159-179.<br />
[15] Skvor<strong>et</strong>z J., An algorithm to generate connected graphs, In: Current research in social psychology,<br />
Vol. 1, No. 5, 1996<br />
[16] Pavlidis, T., Algorithms or Graphics and Image Processing, Computer Science Press, 1982.<br />
[17] Gras, R., Kuntz, P., Briand, H.: « Hiérarchie orientée de règles généralisées en analyse implicative ».<br />
In: Actes des journées francophones d’extraction <strong>et</strong> de gestion des connaissances. (2003)
tel-00671168, version 1 - 8 Oct 2012<br />
Annexe B<br />
Réference CV : 5<br />
E. Valveny, P. Dosch, A. Winstanley, Y. Zhou, S. Yang, L. Yan, W. Liu,<br />
D. Elliman, M. Delalandre, É. Trupin, S. Adam, and JM. Ogier. A general<br />
framework for the evaluation of symbol recognition m<strong>et</strong>hods. International<br />
Journal of Document Analysis and Recognition (IJDAR), 9(1) :59-74, 2007.<br />
xiii
tel-00671168, version 1 - 8 Oct 2012<br />
IJDAR (2007) 9:59–74<br />
DOI 10.1007/s10032-006-0033-x<br />
ORIGINAL PAPER<br />
A general framework for the evaluation of symbol recognition<br />
m<strong>et</strong>hods<br />
E. Valveny · P. Dosch · Adam Winstanley ·<br />
Yu Zhou · Su Yang · Luo Yan · Liu Wenyin ·<br />
Dave Elliman · Mathieu Delalandre · Eric Trupin ·<br />
Sébastien Adam · Jean-Marc Ogier<br />
Received: 1 April 2005 / Accepted: 22 September 2006 / Published online: 18 November 2006<br />
© Springer-Verlag 2006<br />
Abstract Performance evaluation is receiving increasing<br />
interest in graphics recognition. In this paper, we discuss<br />
some questions regarding the definition of a general<br />
framework for evaluation of symbol recognition m<strong>et</strong>hods.<br />
The discussion is centered on three key elements<br />
in performance evaluation: test data, evaluation m<strong>et</strong>rics<br />
and protocols of evaluation. As a result of this discussion<br />
we state some general principles to be taken into<br />
account for the definition of such a framework. Finally,<br />
we describe the application of this framework to the<br />
organization of the first contest on symbol recognition<br />
in GREC’03, along with the results obtained by the participants.<br />
Keywords Performance evaluation · Symbol<br />
recognition<br />
E. Valveny (B)<br />
Centre de Visió per Computador, Edifici O, Campus UAB,<br />
Bellaterra (Cerdanyola), 08193 Barcelona, Spain<br />
e-mail: ernest@cvc.uab.es<br />
P. Dosch<br />
LORIA, 615, rue du jardin botanique, B.P. 101,<br />
54602 Villers-lès-Nancy Cedex, France<br />
e-mail: Philippe.Dosch@loria.fr<br />
A. Winstanley · Y. Zhou<br />
National University of Ireland, Maynooth,<br />
County Kildare, Ireland<br />
e-mail: adam.winstanley@nuim.ie<br />
Y. Zhou<br />
e-mail: yuzhou@cs.nuim.ie<br />
S. Yang<br />
Department of Computer Science and Engineering,<br />
Fudan University, Shanghai 200433, China<br />
e-mail: suyang@fudan.edu.cn<br />
1 Introduction<br />
Performance evaluation has become an important<br />
research interest in pattern recognition during the last<br />
years. As the number of m<strong>et</strong>hods increases there is<br />
a need for standard protocols to compare and evaluate<br />
all these m<strong>et</strong>hods. The goal of evaluation should<br />
be to establish a solid knowledge of the state of the<br />
art in a given research problem, i.e., to d<strong>et</strong>ermine the<br />
weaknesses and strengths of the proposed m<strong>et</strong>hods on<br />
a common and general s<strong>et</strong> of input data. Performance<br />
evaluation should allow the selection of the best-suited<br />
m<strong>et</strong>hod for a given application of the m<strong>et</strong>hodology under<br />
evaluation.<br />
L. Yan · L. Wenyin<br />
Department of Computer Science,<br />
City University of Hong Kong, Honk Kong, China<br />
e-mail: luoyan@cs.cityu.edu.hk<br />
L. Wenyin<br />
e-mail: csliuwy@cityu.edu.hk<br />
D. Elliman<br />
University of Nottingham, Nottingham, UK<br />
e-mail: dge@cs.nott.ac.uk<br />
E. Trupin · S. Adam<br />
LITIS Laboratory, Rouen University, Rouen, France<br />
e-mail: Sebastien.Adam@univ-rouen.fr<br />
M. Delalandre · J.-M. Ogier<br />
L3i Laboratory, La Rochelle University, Rochelle, France<br />
e-mail: mathieu.delalandre@univ-lr.fr<br />
J.-M. Ogier<br />
e-mail: jean-marc.ogier@univ-lr.fr
tel-00671168, version 1 - 8 Oct 2012<br />
60 E. Valveny <strong>et</strong> al.<br />
Following these criteria, image databases have been<br />
collected and performance m<strong>et</strong>rics have been proposed<br />
for several domains and applications [6,12,18,21,29].<br />
Several of these works deal with the evaluation of processes<br />
involved in document analysis systems, such as<br />
thinning [13], page segmentation [2], OCR [28], vectorization<br />
[22,26,27] or symbol recognition [1], among<br />
others. In fact, the general performance evaluation<br />
framework proposed in this paper is based on the work<br />
carried out for the contest on symbol recognition organized<br />
during GREC’03 [25].<br />
Although in any domain there are always some specific<br />
constraints, we can identify three main issues that<br />
must be taken into account in the definition of any<br />
framework for performance evaluation: a common datas<strong>et</strong>,<br />
standard evaluation m<strong>et</strong>rics and a protocol to handle<br />
the evaluation process. The common datas<strong>et</strong> should be<br />
as general as possible, including all kinds of variability<br />
that could be found in real data. It must contain a<br />
large number of images, each of them annotated with its<br />
corresponding ground-truth. M<strong>et</strong>rics must be objective,<br />
quantitative and accepted by the research community<br />
as a good estimate of the real performance. They must<br />
help to d<strong>et</strong>ermine the weaknesses and strengths of each<br />
m<strong>et</strong>hod. In many cases, it is not possible to define a single<br />
m<strong>et</strong>ric, but several m<strong>et</strong>rics have to be defined according<br />
to different evaluation goals. The protocol must define<br />
the s<strong>et</strong> of rules and formats required to run the evaluation<br />
process.<br />
In this paper, we propose a general framework for<br />
performance evaluation of symbol recognition. For each<br />
of these issues (data, m<strong>et</strong>rics and protocol), we describe<br />
the main problems and difficulties that we must face and<br />
we state the general guidelines that we have followed for<br />
the development of such a framework. Finally, we show<br />
how we have applied this framework to the organization<br />
of the GREC’03 contest on symbol recognition.<br />
Symbol recognition is one of the main tasks in many<br />
graphics recognition systems. Symbols are key elements<br />
in all kinds of graphic documents, as they usually convey<br />
a particular meaning in the context of the application<br />
domain. Therefore, identifying and recognizing the symbols<br />
in a drawing is essential for its analysis and interpr<strong>et</strong>ation<br />
and a great vari<strong>et</strong>y of m<strong>et</strong>hods and approaches<br />
have been developed (see some of the surveys on symbol<br />
recognition [5,8,17] to g<strong>et</strong> an overview of the current<br />
state of the art).<br />
In fact, symbol recognition could be regarded as a<br />
particular case of shape recognition. However, there<br />
are some specific issues that should be taken into account<br />
in the definition of an evaluation framework. First,<br />
symbol recognition is not a stand-alone process. Usually,<br />
it is embedded in a whole graphics recognition system<br />
where the final goal is not only to recognize perfectly segmented<br />
images of symbols, but to recognize and localize<br />
the symbols in the whole document. Som<strong>et</strong>imes segmentation<br />
and recognition are compl<strong>et</strong>ely independent processes,<br />
but som<strong>et</strong>imes they are related and performed<br />
in a single step. For evaluation, that means that we<br />
must consider two different sub-problems: recognition<br />
of segmented images of symbols and localization and<br />
recognition of symbols in a non-segmented image of a<br />
document. These two different sub-problems will be referred<br />
to as symbol recognition and symbol localization,<br />
respectively, throughout the paper. Second, som<strong>et</strong>imes,<br />
symbol recognition depends on other tasks in the graphics<br />
recognition chain (for example, binarization or vectorization).<br />
The performance of these processes can also<br />
influence the performance of symbol recognition. We<br />
should try to make the evaluation of symbol recognition<br />
independent of these other tasks. At least, the analysis<br />
of the results should be made taking into account<br />
their influence. Third, symbol recognition is applied to a<br />
wide vari<strong>et</strong>y of domains (architecture, electronics, engineering,<br />
flowcharts, geographic maps, music, <strong>et</strong>c.). Some<br />
m<strong>et</strong>hods have been designed to work only in some of<br />
these domains and have been only tested using very<br />
specific data.<br />
Finally, if the goal of performance evaluation is to<br />
help to d<strong>et</strong>ermine the current state-of-art of research,<br />
then, any proposal should give response to the needs of<br />
the whole research community and should be accepted<br />
by it. Therefore, in our proposal, a key point is the idea<br />
of collaborative framework. The initial proposal must<br />
be validated by the users and must be easily extended<br />
as research advances and new needs or requirements<br />
appear. Thus, our proposal relies on four desirable properties:<br />
public availability of data, ground-truth and m<strong>et</strong>rics<br />
adaptability to user needs: each person must be able<br />
to select a subs<strong>et</strong> of the framework to work with<br />
extensibility the framework must allow for new kinds<br />
of images or m<strong>et</strong>rics to be easily added<br />
collaborative validation of data, m<strong>et</strong>rics and groundtruth.<br />
The paper is organized as follows: Sects. 2 and 3<br />
are devoted to discuss each of the main aspects in<br />
performance evaluation, data and evaluation m<strong>et</strong>rics,<br />
respectively. In Sect. 4 we describe the protocol and<br />
implementation issues of the framework. In Sect. 5 we<br />
show the application of this framework to the GREC’03<br />
contest. Finally, in Sect. 6 we state the main conclusions<br />
and discuss the future work.
tel-00671168, version 1 - 8 Oct 2012<br />
A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 61<br />
2Data<br />
One of the key issues in any performance evaluation<br />
scheme is the definition of a common s<strong>et</strong> of test data.<br />
Running all m<strong>et</strong>hods on this common s<strong>et</strong> will permit<br />
to obtain comparable results. This s<strong>et</strong> should be generic,<br />
large, and should contain all kinds of variability of<br />
real data.<br />
In symbol recognition, generality means including all<br />
different kinds of symbols, i.e., symbols from all applications<br />
(architecture, electronics, engineering, flowcharts,<br />
geographic maps, music, <strong>et</strong>c.) and symbols containing all<br />
types of features or primitives (lines, arcs, dashed-lines,<br />
solid regions, compound symbols, <strong>et</strong>c.). In this way, we<br />
will be able to evaluate the ability of recognition m<strong>et</strong>hods<br />
to work properly in any application.<br />
On the other hand, variability can be originated by<br />
multiple sources: acquisition, degradation or manipulation<br />
of the document, handwriting, <strong>et</strong>c. All of them<br />
should be taken into account, when collecting test data in<br />
order to evaluate the robustness of recognition m<strong>et</strong>hods.<br />
However, in symbol recognition many m<strong>et</strong>hods are<br />
specifically designed for a particular application or a<br />
particular kind of symbols under specific constraints.<br />
Therefore, it is not possible to define a single datas<strong>et</strong> containing<br />
all kinds of images. Then, following the general<br />
principle of adaptability, stated in the previous section,<br />
we propose to define several datas<strong>et</strong>s, instead of a single<br />
one. Each datas<strong>et</strong> will be labeled according to the kind<br />
of images contained in it. In this way, users can select<br />
the datas<strong>et</strong>s they want to use according to the properties<br />
of their m<strong>et</strong>hod. In addition, we can generate as many<br />
datas<strong>et</strong>s as required, combining all kinds of symbols and<br />
criteria of variability.<br />
Therefore, we need to establish some criteria to classify<br />
and organize all kinds of symbols (Sect. 2.1). Then,<br />
we must also identify and categorize all kinds of variability<br />
of real images (Sect. 2.2). Finally, we will be able<br />
to discuss how to collect and generate a large amount<br />
of data and organize it according to these criteria of<br />
classification (Sect. 2.3).<br />
2.1 Classification of symbols<br />
In general, there are two points of view for classifying<br />
evaluation tests and their associated data [9]: technological<br />
and application. The technological point of<br />
view refers to the evaluation of m<strong>et</strong>hods as stand-alone<br />
processes trying to measure their response to varying<br />
m<strong>et</strong>hodological properties of input data and execution<br />
param<strong>et</strong>ers. Datas<strong>et</strong>s must be independent of the application<br />
and must differ on the kind of image features. For<br />
symbol recognition this point of view corresponds to the<br />
generic evaluation of performance independently of the<br />
application domain. Image features will be the different<br />
shape primitives that can be found in the symbols.<br />
According to the data used in the contest, we have identified<br />
three shape primitives: straight lines, arcs and solid<br />
regions. However, new primitives (for example, dashed<br />
lines, text, textured areas) could be added to the datas<strong>et</strong><br />
if required.<br />
On the other hand, the application point of view<br />
refers to the evaluation of m<strong>et</strong>hods in a particular application<br />
scenario. Different datas<strong>et</strong>s will correspond to<br />
different application domains of a given m<strong>et</strong>hod, and<br />
each datas<strong>et</strong> will only include specific data for the given<br />
application. In symbol recognition, categories refer to<br />
the different domains of application: architecture, electronics,<br />
geographic maps, engineering drawings or whatever<br />
domain we should consider.<br />
We have used this double criteria to classify symbols<br />
in our framework. The support for it is that algorithms<br />
are usually designed using these two points of view too.<br />
Some m<strong>et</strong>hods are intended to be as general as possible,<br />
and work well with symbols in a wide range of applications.<br />
On the other hand, some other m<strong>et</strong>hods are<br />
intended to be part of a compl<strong>et</strong>e chain of a graphics<br />
recognition system in a particular application domain.<br />
They are specifically designed to recognize the symbols<br />
in that application.<br />
These are the two main criteria for classifying test<br />
data. But from a more general viewpoint, we can use<br />
labels corresponding to property/value pairs. The property<br />
can refer to the application domain, primitives, origin,<br />
<strong>et</strong>c., while values are occurrences of these properties<br />
(respectively, architecture/electronic/..., segments/arcs<br />
and segments/..., CAD design/sk<strong>et</strong>ch/...). This provides<br />
a general labeling system which can be easily extended,<br />
allowing to define as much data as needed.<br />
Therefore, we will assign at least two categories of<br />
labels to each symbol: one with the domain of the symbol<br />
and the other with the s<strong>et</strong> of primitives composing it.<br />
Each datas<strong>et</strong> is also labeled in the same way according<br />
to the symbols included in it. With this organization each<br />
user can select those datas<strong>et</strong>s that fit the features of the<br />
m<strong>et</strong>hod under evaluation. In addition, new categories of<br />
data can be easily added or modified and therefore, the<br />
framework can evolve according to research needs. In<br />
Fig. 1 we can see several examples of images classified<br />
according to both points of view. Note that each symbol<br />
can be included in several categories.<br />
2.2 Variability of symbol images<br />
Robustness to image degradation is essential for the<br />
development of generic algorithms. Then, a framework
tel-00671168, version 1 - 8 Oct 2012<br />
62 E. Valveny <strong>et</strong> al.<br />
Fig. 1 Classification of the same images according to the two<br />
points of view: a technological, b application<br />
for performance evaluation must include all kinds of<br />
degradation in the test data. Besides, images should be<br />
ranked according to the degree of degradation in order<br />
to be able to d<strong>et</strong>ermine wh<strong>et</strong>her the performance decreases<br />
as the difficulty of images increases.<br />
In general, we can distinguish four sources of variability<br />
in symbol recognition:<br />
acquisition param<strong>et</strong>ers: acquisition device (scanner,<br />
camera or online device) and acquisition resolution<br />
global transformations: global skew of the document,<br />
rotation and scaling of symbols<br />
binary noise: degradation of old documents, photocopies,<br />
faxes and binarization errors.<br />
Shape transformations: missing or extra primitives<br />
(due to segmentation errors) and shape deformations<br />
due to hand-drawing.<br />
We need to guarantee that all these types of degradations<br />
are included in the common datas<strong>et</strong>. We will generate<br />
different datas<strong>et</strong>s corresponding to each kind and<br />
degree of transformation and to selected combinations<br />
of them. Each datas<strong>et</strong> will be labeled accordingly too.<br />
2.3 Generation of test data<br />
According to the principles stated in previous sections<br />
we need to collect a large number of images. These images<br />
will be organized into several datas<strong>et</strong>s, including<br />
all kinds of symbols described in Sect. 2.1 and all types<br />
of variability identified in Sect. 2.2. In addition, images<br />
must be labeled with the ground-truth, i.e., the expected<br />
result. We have to collect segmented images of isolated<br />
symbols, but also non-segmented images of documents<br />
in order to evaluate both symbol recognition and symbol<br />
localization, as stated in Sect. 1.<br />
There are basically two possibilities for collecting test<br />
data: to use real data or to generate synth<strong>et</strong>ic data. In<br />
the following of this section, first, we will discuss the<br />
advantages and drawbacks of each approach and how<br />
we use them in our framework. Then, we will consider<br />
some other specific issues related to the generation of<br />
data for evaluation of symbol recognition.<br />
2.3.1 Real data<br />
Clearly, the main advantage of using real data is that it<br />
permits to evaluate the algorithms with the same kind<br />
of images as for real applications. Then, evaluation will<br />
be a very good estimate of performance in real situations.<br />
However, manually collecting a large number of<br />
real images is a great effort, unaffordable in many cases.<br />
The task of annotating images with their corresponding<br />
ground-truth is also time-consuming, and errors can easily<br />
be introduced. Another disadvantage is the difficulty<br />
of collecting images with all kinds of transformations<br />
and noise. Besides, it is not easy to quantify the degree<br />
of noise in a real image. Then, it is not possible to define<br />
a ranking of difficulty of images according to the degree<br />
of noise.<br />
2.3.2 Synth<strong>et</strong>ic data<br />
As an alternative, we can develop automatic m<strong>et</strong>hods to<br />
generate synth<strong>et</strong>ic data. Clearly, the main advantage is<br />
that it allows to generate as many images as necessary,<br />
and the annotation of images with the ground-truth is<br />
also automatic. Then, manual effort is reduced. However,<br />
we need to devote research effort to the development<br />
of models and m<strong>et</strong>hods able to generate images<br />
resembling real ones with all possibilities of noise and<br />
transformations. This is not an straightforward task in<br />
many cases although several works have been done in<br />
related fields of document analysis [3,11,15,16]. Images<br />
generated using these m<strong>et</strong>hods will be easily classified<br />
according to the type and degree of noise or degradation<br />
applied, permitting to assess the reduction in performance<br />
with increasing degrees of image degradation.<br />
We argue that both types of images are useful in a general<br />
framework for performance evaluation of symbol<br />
recognition. We believe that real images are the best test<br />
for assessing performance in symbol localization. It is<br />
really difficult to develop automatic m<strong>et</strong>hods to generate<br />
non-segmented images of compl<strong>et</strong>e graphic documents.<br />
Besides, as we can find many symbols in a single graphic<br />
document, not many images are required. The problem<br />
can be the annotation of images with the ground-truth.<br />
We discuss it in Sect. 3.3.<br />
On the other hand, synth<strong>et</strong>ic images are the only way<br />
to perform evaluation tests with large s<strong>et</strong>s of segmented<br />
images taking into account all degrees of degradation<br />
and variation. In this case, many images are required<br />
and it is easier to develop m<strong>et</strong>hods for their generation.<br />
In our framework we have developed m<strong>et</strong>hods for<br />
the generation of global transformations, binary noise<br />
(based on Kanungo’s m<strong>et</strong>hod [15] and shape transformation<br />
(based on active shape models [25]).
tel-00671168, version 1 - 8 Oct 2012<br />
A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 63<br />
Fig. 2 Generation of data: a synth<strong>et</strong>ic images, b real images<br />
Figure 2 shows both synth<strong>et</strong>ic and real images for<br />
symbol recognition.<br />
2.3.3 Specific issues<br />
In addition, we have to take into account two other<br />
specific issues of symbol recognition when generating<br />
test data.<br />
Relation to vectorization: As explained in Sect. 1 symbol<br />
recognition is simply one task in the graphics rec-<br />
ognition chain. Vectorization is usually performed<br />
as a previous step for recognition and then, many<br />
symbol recognition m<strong>et</strong>hods work directly on the<br />
vectorial representation of the image. The problem<br />
is that, although there is not an optimal vectorization<br />
m<strong>et</strong>hod, the result of vectorization can influence<br />
the performance of recognition. Then, apart from a<br />
raster representation of images, we must also provide<br />
images in a common vectorial format so that all<br />
m<strong>et</strong>hods can use the same vectorial data and recognition<br />
results are not influenced by the selected vectorization<br />
m<strong>et</strong>hod. For images that can be automatically<br />
generated in vectorial format, we can provide images<br />
in their ideal vectorial representation, without need<br />
for applying any vectorization m<strong>et</strong>hod. If not possible<br />
(for example, for real images of for synth<strong>et</strong>ic<br />
images with binary degradations), we should apply<br />
different standard vectorization m<strong>et</strong>hods to the raster<br />
image.<br />
The problem of scalability: One of the problems in<br />
symbol recognition [17] concerns scalability: many<br />
m<strong>et</strong>hods work well with a limited number of symbol<br />
models, but their performance decrease when<br />
the number of symbols is very large (hundreds or<br />
thousands of symbols). One of the goals of the evaluation<br />
of symbol recognition must be to assess the<br />
robustness of m<strong>et</strong>hods with a large number of symbols.<br />
Then, for each kind of test several datas<strong>et</strong>s with<br />
an increasing number of symbols will be generated.<br />
3 Performance evaluation<br />
3.1 Objectives<br />
In some pattern recognition fields, the main goal of evaluation<br />
is the definition of a global measure that permits<br />
to d<strong>et</strong>ermine the “best” m<strong>et</strong>hod on a standard and<br />
common datas<strong>et</strong>. However, it seems difficult to follow<br />
the same approach for symbol recognition. As we have<br />
stated in previous sections, performance of symbol recognition<br />
depends on many factors and it is not realistic<br />
trying to define a single measure and datas<strong>et</strong> taking into<br />
account all of them. Then, as symbol recognition remains<br />
an active research domain, it seems more interesting to<br />
focus on analyzing and understanding the strengths and<br />
the weaknesses of the existing m<strong>et</strong>hods. This will be the<br />
main goal of the proposed evaluation framework.<br />
In this context, evaluation relies on three issues: first,<br />
the definition of a number of standard datas<strong>et</strong>s, covering<br />
the full range of variability, as discussed in Sect. 2.<br />
Second, the definition of a s<strong>et</strong> of measures, each of them<br />
aiming at evaluating a specific aspect of performance.
tel-00671168, version 1 - 8 Oct 2012<br />
64 E. Valveny <strong>et</strong> al.<br />
This will be discussed in Sect. 3.2. The definition of m<strong>et</strong>rics<br />
is highly related to the definition of the ground-truth.<br />
This point will be developed in Sect. 3.3. Third, the analysis<br />
of the results after calculating all the measures over<br />
all the datas<strong>et</strong>s, in order to draw conclusions on the<br />
strengths and weaknesses of each m<strong>et</strong>hod (Sect. 3.4).<br />
3.2 M<strong>et</strong>rics<br />
In the last years, several graphics recognition contests<br />
have been organized, notably in the framework of the<br />
International Workshop on Graphics Recognition<br />
(GREC). As a result of this effort, several m<strong>et</strong>rics and<br />
protocols have been developed [14,22,26], with more or<br />
less success, as som<strong>et</strong>imes, they favor the properties of<br />
some of the contestant m<strong>et</strong>hods.<br />
A similar work has to be done for symbol recognition:<br />
what is the measure that permits to say that a given symbol<br />
recognition m<strong>et</strong>hod is good? Clearly, the answer will<br />
be different for each of the two sub-problems identified<br />
in Sect. 1: symbol recognition and symbol localization.<br />
In the first case, for the recognition of isolated symbols,<br />
it can be enough to count the number of correctly recognized<br />
symbols. But, in the second case, other information,<br />
such as location, orientation and scale of symbols<br />
should also be considered. Thus, in the following, we will<br />
discuss different m<strong>et</strong>rics for each of these sub-problems.<br />
3.2.1 Symbol recognition<br />
It seems clear that the basic m<strong>et</strong>ric for symbol recognition<br />
should be to test if the recognized symbol matches<br />
the test symbol according to the ground-truth. Thus,<br />
the recognition rate is the main evaluation criteria. This<br />
was the simple approach used in the GREC’03 contest.<br />
Because of the wide number of open questions regarding<br />
performance evaluation of symbol recognition, we<br />
decided, in a first time, to consider only the basic features<br />
in order to advance in a b<strong>et</strong>ter understanding of<br />
all issues involved in it.<br />
However, we believe that this criteria could be complemented<br />
with other measures, in order to g<strong>et</strong> a deeper<br />
analysis of recognition m<strong>et</strong>hods, taking into account<br />
other evaluation aspects. For example,<br />
The recognition rate, considering second or third<br />
candidates, if this information is provided by some<br />
m<strong>et</strong>hods.<br />
The orientation and scale of the symbol: we could<br />
compl<strong>et</strong>e the recognition rate with a measure of<br />
the accuracy in recovering the orientation and scale<br />
of the symbol. This measure can be based on the<br />
difference b<strong>et</strong>ween the orientation and scale<br />
provided by the recognition m<strong>et</strong>hod and the groundtruth.<br />
The computation time: we propose to use the average<br />
time per image. This m<strong>et</strong>ric will allow to compare<br />
the results on tests with different number of images<br />
or symbols. However, to be comparable, all recognition<br />
m<strong>et</strong>hods should be run on the same machine<br />
under the same conditions. That should be considered<br />
in the definition of the protocol (Sect. 4.2).<br />
Scalability, i.e., how the performance degrades as the<br />
number of symbol models increases. We can measure<br />
it according to the degradation of recognition rates<br />
or according to the computation time.<br />
3.2.2 Symbol localization<br />
In the best of our knowledge, no performance evaluation<br />
has ever been organized on symbol localization.<br />
For this task, the problem of defining accurate m<strong>et</strong>rics is<br />
harder than in the case of symbol recognition. We have<br />
to face two issues: the representation of the symbols,<br />
and the definition of the m<strong>et</strong>ric itself.<br />
The representation of a symbol (in the ground-truth<br />
as well as in the recognition result) must include not<br />
only an identifying label (as in the case of symbol recognition),<br />
but also the location of the symbol. The problem<br />
is that it is not easy to define a single representation of<br />
the location of a symbol. The best representation will<br />
depend on the kind of m<strong>et</strong>hod. For example, if a recognition<br />
m<strong>et</strong>hod works on the raster representation of<br />
a symbol, the symbol location has to be computed with<br />
respect to the related s<strong>et</strong> of pixels. But if a recognition<br />
m<strong>et</strong>hod works on the vectorial representation of the<br />
symbol, its location has to be computed with respect to<br />
the involved s<strong>et</strong> of vectorial primitives, maybe taking<br />
into account some attributes of these primitives, such as<br />
thickness. Clearly, both representations do not have to<br />
be equal.<br />
In fact, we argue that the representation of the location<br />
of a symbol must be unique and independent of<br />
the kind of m<strong>et</strong>hod or image format, as the definition of<br />
multiple representations arise the following issues:<br />
<strong>Multi</strong>ple m<strong>et</strong>rics have to be defined as the definition<br />
of the m<strong>et</strong>ric depends on the representation of<br />
the symbols. This can permit to define more accurate<br />
m<strong>et</strong>rics but also requires to take into account all<br />
possibilities.<br />
<strong>Multi</strong>ple representations also lead to the definition<br />
of multiple ground-truth for the same data.
tel-00671168, version 1 - 8 Oct 2012<br />
A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 65<br />
<strong>Multi</strong>ple m<strong>et</strong>rics and multiple ground-truth then lead<br />
to multiple performance analysis as it will be difficult<br />
to compare results evaluated with different m<strong>et</strong>rics.<br />
As a first approach for representing the location of<br />
a symbol, we propose the use of basic including rectangles,<br />
that enclose symbols, as described by Mariano<br />
<strong>et</strong> al. [20]. This representation seems to be simple and<br />
efficient. These rectangles can even be defined as<br />
bounding-boxes.<br />
Then, the m<strong>et</strong>ric b<strong>et</strong>ween a ground-truth symbol and<br />
a result symbol can be based on the percentage of overlapping<br />
b<strong>et</strong>ween their including rectangles, in the case<br />
that their associated labels match. Otherwise, the similarity<br />
value will be 0. This m<strong>et</strong>ric permits to work at the<br />
desired level of accuracy. We can fix a threshold so that<br />
only symbols with a percentage of overlapping above<br />
this threshold are considered as recognized. In this way,<br />
defining several thresholds, we can obtain different recognition<br />
results at different levels of accuracy.<br />
In order to combine the results of the m<strong>et</strong>ric obtained<br />
for every symbol in the image, we propose to adopt a<br />
m<strong>et</strong>ric similar to the one used during the ICDAR’03<br />
conference on the robust reading comp<strong>et</strong>ition [19] for<br />
the text recognition in everyday scenes. The definition<br />
principles are based on the fact that the m<strong>et</strong>ric must<br />
favor the most pertinent applications, and penalize trivial<br />
solutions, like the definition of a single bounding-box<br />
which fully overlaps the image, or the definition of an<br />
excessive large number of bounding-boxes.<br />
So the proposed m<strong>et</strong>ric is based on the notions of<br />
precision and recall. For a given test, l<strong>et</strong> T be the number<br />
of targ<strong>et</strong>s belonging to the ground-truth, and R the<br />
s<strong>et</strong> of results supplied by an application. The number of<br />
exact results is called e. The precision p is then defined<br />
as the number of exact results divided by the number of<br />
results:<br />
p = e<br />
|R| .<br />
Thus, the applications that overestimate the number of<br />
results are penalized by a little precision score. The recall<br />
r is defined as the number of exact results divided by the<br />
number of targ<strong>et</strong>s:<br />
r = e<br />
|T| .<br />
Thus, the applications that underestimate the number of<br />
results are penalized by a little recall score. The precision<br />
and the recall may then be combined, if needed, to d<strong>et</strong>ermine<br />
the global score s, expressing the recognition rate:<br />
s =<br />
2<br />
(1/p) + (1/r) .<br />
3.3 Ground-truth<br />
As said above, the definition of the ground-truth depends<br />
basically on the representation of the symbols. Once<br />
again, we have to distinguish b<strong>et</strong>ween the definition of<br />
the ground-truth for symbol recognition and for symbol<br />
localization.<br />
If we consider symbol recognition, where only segmented<br />
symbols are involved, ground-truthing can be a<br />
simple task. It basically consists of d<strong>et</strong>ermining the label<br />
of the symbol and this can be easily done by an human<br />
operator and even, more easily by an automatic m<strong>et</strong>hod<br />
of image generation. If we also want to take into account<br />
the accuracy in orientation and scale, we must include<br />
this information in the labeling of the symbol too. But<br />
this can be easily done with an automatic m<strong>et</strong>hod of<br />
image generation.<br />
However, if we consider symbol localization, groundtruthing<br />
is more difficult. In this case, both the label and<br />
the location of the symbol have to be defined. According<br />
to the single proposed m<strong>et</strong>ric (see Sect. 3.2), the definition<br />
of the ground-truth is also unique, and then easier<br />
and more realistic to manage.<br />
Although the representation of the symbol gives a<br />
theor<strong>et</strong>ical and concr<strong>et</strong>e framework for the definition<br />
of the ground-truth, some differences can exist b<strong>et</strong>ween<br />
the theor<strong>et</strong>ical definition and the real definition of a<br />
given ground-truth. Indeed, the bounding-box defined<br />
by one person for a given symbol could appear misplaced<br />
to another person. Thus, there is a part of personal<br />
and subjective interpr<strong>et</strong>ation in the definition of<br />
the ground-truth.<br />
This point can be a serious problem, as the groundtruth<br />
has to be accepted by the whole community to be<br />
fully considered as a reference. To address this issue,<br />
we are fully convinced that a collaborative framework<br />
is required, as already pointed out in Sect. 1.<br />
The basic idea is to involve a ground-truth designer<br />
and some ground-truth validators for a given groundtruth.<br />
Meanwhile, a ground-truth definition can be<br />
modified if it is not satisfactory. Of course, a groundtruth<br />
designer of some test data cannot be the groundtruth<br />
validator of the same test data too. Once a<br />
ground-truth is validated by some people, say two or<br />
three, then, it can be considered valid. This organization<br />
could be compared to a review process for a scientific<br />
conference. Obviously, this organization is easier<br />
to implement if a collaborative tool is available, as the<br />
associated workflow is crucial. This tool includes the<br />
following features:
tel-00671168, version 1 - 8 Oct 2012<br />
66 E. Valveny <strong>et</strong> al.<br />
General ground-truthing functionalities: images visualization<br />
(raster, vectorial), bounding-box definition,<br />
label definition ...<br />
Directly interfaces with the database implementing<br />
the information system containing all information<br />
required for performance evaluation:<br />
information about the data: models of symbols,<br />
test data and related ground-truthing.<br />
information about users involved in the evaluation:<br />
their role and corresponding access privileges<br />
(ground-truth design and validation, data<br />
contributor ...)<br />
The collaborative tool must be unique, in order to<br />
be used in good conditions by all people involved<br />
in the ground-truthing process. This implies that it<br />
has to be available for a sufficient number of platforms<br />
and ensures that all people work with the same<br />
environment or references.<br />
We want to point out that these principles and this<br />
framework are a priori necessary in order to ensure that<br />
test data, as well as their associated ground-truth, are<br />
considered as valid by the whole community, and not by<br />
only one person. All the performance evaluation process<br />
relies on this assertion.<br />
3.4 Analysis of the results<br />
The results of the participants have to be analyzed in<br />
order to d<strong>et</strong>ermine the objectives of such a performance<br />
evaluation campaign: the understanding of the strengths<br />
and the weaknesses of the existing m<strong>et</strong>hods. This analysis<br />
must be done with respect to the considered categories<br />
of data, the number of model symbols involved and<br />
several other interesting criteria.<br />
Independently of this large number of criteria, we<br />
would point out that basically the analysis can be led<br />
from the data point of view (data based), as well as from<br />
the m<strong>et</strong>hods point of view (m<strong>et</strong>hods based). Indeed, if<br />
it is interesting to understand what are the m<strong>et</strong>hods giving<br />
good results with a lot of data, it is also interesting<br />
to understand what are the data difficult to recognize<br />
with respect to the several recognition approaches. The<br />
interest of a performance evaluation campaign is guided<br />
by these two points of view.<br />
Based on the m<strong>et</strong>ric that has been defined for symbol<br />
recognition, we propose to define an index that permits<br />
to perform the analysis of the results from different<br />
points of view. This index is a measure of the degradation<br />
of the performance along a s<strong>et</strong> of tests with an<br />
increasing level of difficulty. L<strong>et</strong> r0 be the recognition<br />
rate for the test acting as the reference test (it should be<br />
the “easiest” test in the series). Then the degradation of<br />
performance for a given test i is defined as<br />
di = r0 − ri<br />
.<br />
r0<br />
This index gives the measure of how the original performance<br />
degrades when some kind of degradation is<br />
applied to the original images. As the index is normalized<br />
by the original recognition rate it provides a good<br />
estimate of the loss of performance as it does not depend<br />
on the recognition rate for ideal images.<br />
In this way, we can measure the robustness of recognition<br />
m<strong>et</strong>hods to several properties, such as scalability<br />
or degradation. We simply need to define a series of tests<br />
with an increasing number of symbols (for scalability)<br />
or with different levels of degradation and compute the<br />
degradation index for every test. Some examples of the<br />
application of this index to the analysis of the results will<br />
be shown in Sect. 5.<br />
4 Implementation<br />
4.1 Introduction<br />
The implementation of any performance evaluation system<br />
requires the definition of a s<strong>et</strong> of tools and protocols<br />
in order to execute the tests, exchange information<br />
b<strong>et</strong>ween the participants and the organizers and manage<br />
all the information about test data and results. This s<strong>et</strong><br />
of tools and protocols must rely on the general concepts<br />
stated in Sect. 1, such as the public availability of data,<br />
the adaptation to user requirements and the simplicity<br />
of management.<br />
Among all these issues, in the remainder of this section<br />
we will discuss the main ideas regarding protocols<br />
and formats (Sect. 4.2), the organization of datas<strong>et</strong>s<br />
(Sect. 4.3) and the general architecture of the system<br />
(Sect. 4.4).<br />
4.2 Protocols and formats<br />
Whatever the evaluation criteria and data, an evaluation<br />
framework must provide formats and tools allowing<br />
to exchange information about models, tests and<br />
results [24]. In performance evaluation of symbol recognition,<br />
the first issue is about the format of images.<br />
One basic assumption to be made is that the format of<br />
images must not degrade the original image and must be<br />
freely available for all participants. As there are m<strong>et</strong>hods<br />
working on raster binary images and m<strong>et</strong>hods working<br />
on vectorial images, whenever it is possible, we have to
tel-00671168, version 1 - 8 Oct 2012<br />
A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 67<br />
Information System<br />
Degradation<br />
Model Symbols Ground Truth<br />
Test Data<br />
Define Modify Validate Recognize<br />
Data<br />
Contribute<br />
Process<br />
Fig. 3 Overview of the discribed performance evalution system<br />
provide test images in both formats. Raster images are<br />
not a big problem as there are a lot of very popular<br />
solutions (such as TIFF, BMP and PNG). On the vectorial<br />
side, some “standard” formats exist, such as DXF<br />
or more recently SVG, but they are complex to manage.<br />
Thus, we have decided to use a simpler vectorial representation,<br />
the VEC format proposed by Chhabra and<br />
Phillips [4]. This simple format have already been used<br />
in other contests on graphics recognition (vectorization<br />
and arc d<strong>et</strong>ection) and therefore, it is already known<br />
by the symbol recognition community. Moreover, the<br />
simplicity of its definition would permit to eventually<br />
extend it, if required.<br />
To manage the contest, several other file formats are<br />
required to precisely describe the tests, the results and<br />
the ground-truth. In this case, the choice of the format<br />
is a question of finding the best compromise that permits<br />
to express all the information that is required without<br />
obliging the participant m<strong>et</strong>hods to interface with<br />
too complex formats. We have found that XML fulfills<br />
these requirements as it is a flexible and standard format,<br />
allowing to easily describe complex information.<br />
Moreover, the use of a DTD or a scheme can help to<br />
normalize the data, avoiding description problems or<br />
confusions, and associated with the XSLT style-she<strong>et</strong>s,<br />
it allows the extraction and filtering of data that can be<br />
automatically processed, both for participants and organizers.<br />
Examples of these XML files can be seen in Figs. 3<br />
and 4.<br />
Data Stream Link<br />
Evaluation<br />
Results<br />
Performance<br />
Evaluation<br />
Participant<br />
Results<br />
Participant<br />
Fig. 4 Fifty symbols used in Contest<br />
Another important issue is the protocol for execution<br />
of the tests. Following the principle of adaptability<br />
to user requirements, the basic idea must be to give each<br />
participant the possibility to choose which tests he want<br />
to comp<strong>et</strong>e in, according to the features of his m<strong>et</strong>hod.<br />
To achieve this point, each test has to be considered as<br />
a stand-alone part and described with an independent<br />
XML file as explained in the next section. This principle<br />
is useful in some other situations. Thus, if a program<br />
crashes during a test, it is able to run the other tests.
tel-00671168, version 1 - 8 Oct 2012<br />
68 E. Valveny <strong>et</strong> al.<br />
The model that we have selected for the execution<br />
of the tests is a distributed model: each participant can<br />
take a file describing a test, execute it locally and then,<br />
provide the XML file with the results to the organizers.<br />
This option gives the maximum freedom to the users,<br />
for example regarding the platform of development or<br />
the interface of the recognition m<strong>et</strong>hod. This is coherent<br />
with the general principles of the framework, but it can<br />
also have some drawbacks as the organizers do not have<br />
compl<strong>et</strong>e control on the development of evaluation and<br />
on some of the results. For example results regarding<br />
computation time are not fully comparable.<br />
Finally, we want to point out that the availability of<br />
the framework (formats, data, <strong>et</strong>c.) is very important.<br />
In the context of performance evaluation, information<br />
about formats and data is required to prepare the m<strong>et</strong>hods<br />
for running the tests and for learning purposes.<br />
4.3 Organization of datas<strong>et</strong>s<br />
A general framework for performance evaluation must<br />
include a very large number of datas<strong>et</strong>s, taking into<br />
account all the variability described in previous sections.<br />
In order to manage this volume of datas<strong>et</strong>s, we have to<br />
organize and classify them according to their properties.<br />
We will achieve this goal in a double way. On one<br />
hand, internally, we will store all information of every<br />
test in the information system that supports the evaluation<br />
framework and is described in the next section. On<br />
the other hand, externally, we will make it public to the<br />
participants by providing an XML description file for<br />
every test, as can be seen in Fig. 3. This file contains all<br />
the information that a participant has to know about a<br />
test:<br />
the name of images<br />
the ground-truth for each image (for training s<strong>et</strong>s<br />
only)<br />
the category of symbols (as described in Sect. 2.1)<br />
from technological and application point of view<br />
the number of symbols involved in the datas<strong>et</strong> (for<br />
scalability issues)<br />
supported formats for images in the test<br />
wh<strong>et</strong>her the test corresponds to segmented or nonsegmented<br />
images<br />
wh<strong>et</strong>her the test includes real or synth<strong>et</strong>ic images<br />
wh<strong>et</strong>her the image acquisition is online or offline<br />
the type and degree of degradation applied to the<br />
data.<br />
This organization allows to describe each test, so its<br />
associated properties are known. In this way, each participant<br />
can select the tests with the properties that fit<br />
to the m<strong>et</strong>hod being evaluated. Moreover, it facilitates<br />
the analysis of the results, as it allows to organize the<br />
analysis according to the properties of the tests.<br />
4.4 Information system<br />
In order to manage all this framework, we propose to<br />
implement an information system supporting all required<br />
features. This information system must be implemented<br />
on the organizer’s side, but it must be of public access<br />
and available through the Web with standard navigation<br />
tools. It plays the role of a public repository where any<br />
user (participant, organizer, ground-truth validator) can<br />
find all the required information about the evaluation<br />
process. However, the users are not tied to the implementation<br />
of the information system as the access is<br />
done through the web and all the exchange of information<br />
through the XML files that have been described in<br />
Sect. 4.2. Providing public access to all the information<br />
about data stored in the information system permits to<br />
s<strong>et</strong> up a continuous evaluation framework. Evaluation<br />
does not depend on some predefined milestones, such as<br />
the organization of specific contests, but any user can, at<br />
any moment, download a s<strong>et</strong> of tests, run a given m<strong>et</strong>hod<br />
on them and provide the results back to the organizers.<br />
In this way we obtain the maximum flexibility for evaluation<br />
of current research.<br />
Fig. 5 Samples of some degraded images generated using the<br />
kanungo m<strong>et</strong>hod for each model of degradation used
tel-00671168, version 1 - 8 Oct 2012<br />
A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 69<br />
An overview of the system is presented in Fig. 5. Of<br />
course, the processes associated to the “participants” are<br />
related to all kinds of participants (contributors, groundtruth<br />
designers, contest participants ...) and some constraints<br />
are associated to the system. In particular, a<br />
participant cannot validate a ground-truth he has defined<br />
before, he cannot g<strong>et</strong> his own test data (at least if it<br />
has not been degraded before), <strong>et</strong>c. Our aim is to point<br />
out that collaborative aspects must be taken into account<br />
from the beginning of the design of such a system.<br />
5 Application of the framework: contest on symbol<br />
recognition at GREC’03<br />
In this section we will show an example of application of<br />
the general framework presented before used in the First<br />
Contest on Symbol Recognition held during GREC’03.<br />
In this section we will explain how we have defined the<br />
two main issues involved in evaluation systems: data and<br />
m<strong>et</strong>rics. We will also show the results obtained by the<br />
participants in the contest.<br />
5.1 Data<br />
The first decision concerned which symbols we were<br />
going to use in the contest and how to classify and organize<br />
them. For this first edition of the contest, we selected<br />
50 symbols from two domains: architecture and<br />
electronics. All symbols were composed of at most two<br />
graphical primitives: lines and arcs. Then, according to<br />
the classification introduced in Sect. 2.1 we have used<br />
two features at the technological level (lines and arcs)<br />
and two categories at the application level (architecture<br />
and electronics) which have been used to classify test<br />
data. In Fig. 6 we can see all the symbols used in the<br />
contest.<br />
We decided to use only synth<strong>et</strong>ic data since it was<br />
easier to have a lot of well-organized images. Regarding<br />
the variability of data we worked with five categories<br />
of images: ideal data, images with aspect transformation<br />
(rotation and scaling), images with binary noise,<br />
images with shape distortions and images combining<br />
Fig. 6 Examples of increasing levels of vectorial distontion<br />
binary noise and shape distortion. We used the degradation<br />
model of Kanungo <strong>et</strong> al. [15] to generate nine<br />
different models of binary noise, and we defined a shapedistortion<br />
model based on Active Shape Models [7] to<br />
simulate hand-drawn images. Figures 7 and 8 show some<br />
examples of images with binary noise and shape degradation,<br />
respectively.<br />
Concerning specific issues of symbol recognition, we<br />
only used segmented images, so that only recognition<br />
was evaluated and not the ability to segment. Whenever<br />
possible, we provided both binary and vectorial versions<br />
of images. We used ideal vectorial representation when<br />
it could be automatically generated by the generation<br />
model. Therefore, for images with binary noise, only<br />
the binary representation was available as we did not<br />
apply any vectorization m<strong>et</strong>hod to noisy binary images.<br />
Finally, we defined three different s<strong>et</strong>s of symbols, with<br />
5, 20 and 50 symbols each, to test the robustness of<br />
m<strong>et</strong>hods to scalability.<br />
With all these combinations we generated a total<br />
number of 72 different tests of data. For each test, we<br />
provided a description file to the participants with the<br />
specification of symbols and images included in the test.<br />
Besides, we generated an XML file (Fig. 3) for each test,<br />
describing all the properties of the test, along with the<br />
ground-truth. Finally, participants generated an XML<br />
file (Fig. 4) with the description of the results obtained<br />
by their m<strong>et</strong>hod for each test. Both kinds of XML files<br />
were imported to the contest database allowing for automatic<br />
comparison of the results with the ground-truth<br />
and automatic generation of recognition rates for each<br />
m<strong>et</strong>hod and test.<br />
5.2 M<strong>et</strong>rics<br />
In this case, the definition of the m<strong>et</strong>rics was very simple.<br />
We only worked with non-segmented images and,<br />
therefore, the only result of the application of a symbol<br />
recognition m<strong>et</strong>hod was the label of the symbol identified<br />
in the image. Then, the m<strong>et</strong>ric simply consists of<br />
a recognition rate for each m<strong>et</strong>hod and test, without<br />
taking into account the rejection.<br />
5.3 Results<br />
Five m<strong>et</strong>hods took part in the contest, although not all of<br />
them could run all the tests, due to the properties of their<br />
m<strong>et</strong>hods. The five participants were groups from the following<br />
institutions: University of Rouen—La Rochelle,<br />
National University of Ireland—Maynooth, City University<br />
of Hong Kong, University of Nottingham and<br />
Fudan Universty.
tel-00671168, version 1 - 8 Oct 2012<br />
70 E. Valveny <strong>et</strong> al.<br />
Fig. 7 Examples of XML file<br />
for test description<br />
In Figs. 9, 10, 11, 12, 13, 14, 15, 16, we can see the<br />
results obtained by each of the m<strong>et</strong>hods in the tests they<br />
took part in. Figure 9 shows the results with ideal images<br />
of the symbols for the s<strong>et</strong>s of 5, 20 and 50 symbols. It<br />
shows how the m<strong>et</strong>hods are able to discriminate among<br />
a large number of symbols. In Fig. 10 we can find the<br />
results for rotated and scaled images (for the s<strong>et</strong> of 5, 20<br />
and 50 symbols too).<br />
Figure 11 contains the results with binary degraded<br />
images. In this case, only two m<strong>et</strong>hods were run on all<br />
the images and, therefore, only the results for these two<br />
m<strong>et</strong>hods are included. For each of the nine models of<br />
degradation the results with 5, 20 and 50 symbols are<br />
shown. In order to provide a more d<strong>et</strong>ailed analysis<br />
of the results with degradation we have also generated<br />
Fig. 12. In this figure we apply the degradation index defined<br />
in Sect. 3.4 to the nine models of binary degradation<br />
with the s<strong>et</strong> of 50 symbols. The reference recognition<br />
rate for computing the index is the recognition rate for<br />
ideal images. This index clearly shows that for all models<br />
of degradation the m<strong>et</strong>hod by the Fudan University is<br />
more robust to degradation than the m<strong>et</strong>hod by the City<br />
University of Hong Kong.<br />
Figures 13 and 14 show the results for images with<br />
vectorial distortion (for three levels of distortion) and<br />
with a combination of vectorial distortion and binary<br />
degradation.<br />
In order to evaluate more precisely the scalability of<br />
m<strong>et</strong>hods we have included Fig. 15. This figure has been<br />
generated taking, for each m<strong>et</strong>hod, the mean of recognition<br />
rates for all tests with 5 symbols, for all tests with<br />
20 symbols and for all tests with 50 symbols. In this way,<br />
we can g<strong>et</strong> a measure of the global scalability of each<br />
m<strong>et</strong>hod. In Fig. 15a we can see the absolute recognition<br />
rates, while in Fig. 15b we have the degradation index<br />
defined in Sect. 3.4 applied to scalability. It is clear that<br />
this index helps to see the robustness of each m<strong>et</strong>hod as<br />
the number of symbol increases.
tel-00671168, version 1 - 8 Oct 2012<br />
A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 71<br />
Fig. 8 Examples of XML file<br />
for discription of results<br />
Finally, in Fig. 16 we can see the computation time<br />
for every kind of test for s<strong>et</strong>s with 5, 20 and 50 symbols.<br />
Only the m<strong>et</strong>hod by the City University of Hong Kong<br />
reported results about the computation time. As expected,<br />
computation time increases as the number of<br />
symbols in the datas<strong>et</strong> increases too.<br />
From these results we can draw some general conclusions:<br />
As expected, performance decreases when the number<br />
of symbols increase, even with ideal images.<br />
In general, m<strong>et</strong>hods can handle well the images with<br />
rotation or scaling. However, the performance degrades<br />
when both transformations are combined.<br />
There are no significant differences in the performance<br />
for the nine models of binary degradation.<br />
M<strong>et</strong>hods are robust to the kind of shape deformations<br />
generated by the model of deformation.<br />
Fig. 9 Recognition rates (in the y-axis) of each participant<br />
m<strong>et</strong>hod (in x-axis) for ideal tests<br />
A more d<strong>et</strong>ailed discussion of these results can be<br />
found in the report on the GREC’03 contest [25].<br />
Later, some of the groups have done further work<br />
on their m<strong>et</strong>hods and have obtained and published improved<br />
results [10].
tel-00671168, version 1 - 8 Oct 2012<br />
72 E. Valveny <strong>et</strong> al.<br />
Fig. 10 Recognition rates (in the y-axis) of each participant<br />
m<strong>et</strong>hod (in x-axis) for tests with rotation, scaling and combination<br />
of rotation and scaling<br />
6 Conclusion and future work<br />
We have presented a general framework for performance<br />
evaluation of symbol recognition m<strong>et</strong>hods. This<br />
framework relies on some general principles that could<br />
also be applied to other similar performance evaluation<br />
tasks in the domain of graphics recognition and<br />
pattern recognition. These general principles arise from<br />
the discussion about the two main issues concerning any<br />
performance evaluation task: data and evaluation.<br />
Concerning data, the framework relies on the classification<br />
of input data according to two different points<br />
of view: m<strong>et</strong>hodological—based on image features and<br />
application—based on the application scenario. This<br />
classification permits to define many different datas<strong>et</strong>s<br />
for all possible kinds of input data. Regarding data generation<br />
we have stated the importance of using both<br />
Fig. 11 Recognition rates (in the y-axis) for tests with the nine<br />
models of degradation (in x-axis) for m<strong>et</strong>hods by the City University<br />
of Hong Kong and the Fudan University<br />
Fig. 12 Measure of robustness to degradation for the nine models<br />
of degradation with 50 symbols<br />
real and synth<strong>et</strong>ic images, including all types of noise<br />
and distortion. We have introduced a possible classification<br />
of distortion types and remarked the importance<br />
of including in the framework models and m<strong>et</strong>hods for<br />
automatic generation of degraded images.<br />
Concerning evaluation, we have defined several m<strong>et</strong>rics<br />
for symbol recognition and symbol location. Each<br />
m<strong>et</strong>ric gives response to different goals of performance<br />
evaluation.<br />
In addition, one of the key ideas in the proposed<br />
framework is that of collaborative work so that the<br />
framework can be validated by the research community,<br />
and evolve according to its needs. Following this idea, a<br />
public and collaborative environment for performance<br />
evaluation of symbol recognition m<strong>et</strong>hods, ÉPEIRES, 1<br />
1 http://www.epeires.org
tel-00671168, version 1 - 8 Oct 2012<br />
A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 73<br />
Fig. 13 Recognition rates (in the y-axis) of each participant<br />
m<strong>et</strong>hod (in x-axis) for tests with deformation for both s<strong>et</strong>s of<br />
symbols<br />
Fig. 14 Recognition rates (in the y-axis) for tests with the nine<br />
models of degradation (in x-axis) and three levels of degradation<br />
for m<strong>et</strong>hods by the City University of Hong Kong and the Fudan<br />
University<br />
is currently under development. We hope that this environment<br />
will supply all data and resources needed by the<br />
symbol recognition community for evaluation purposes.<br />
All interested people are urged to use and to contribute<br />
to this environment.<br />
Fig. 15 a Evolution of recognition rates (in the y-axis) of each<br />
participant m<strong>et</strong>hod (in x-axis) for tests with increasing number of<br />
symbols (5,20 and 50). b Measure of robustness to scalability for<br />
each participant m<strong>et</strong>hod<br />
Fig. 16 Evolution of the computation time with the m<strong>et</strong>hod by<br />
the City University of Hong Kong with an increasing number of<br />
symbol for each kind of test<br />
Finally, we have described how these general principles<br />
have been used in the first international contest on<br />
symbol recognition, held during GREC’03. Currently,<br />
we are working on the extension of the framework for<br />
the next editions of the contest. In it, we plan to add real<br />
images with non-segmented symbols and, therefore, we<br />
will need to include the new m<strong>et</strong>rics for symbol localization,<br />
as discussed in this paper.<br />
Acknowledgments The contest organizers would like to acknowledge<br />
all participants of the first contest of performance evaluation<br />
of symbol recognition m<strong>et</strong>hods, as well as the organizers of the<br />
GREC workshop for the promotion and the opportunity given in<br />
these contests. The work of Luo Yan and Liu Wenyin was fully<br />
supported by grants from the City University of Hong Kong<br />
(Project No. 7001771 and 7001842) The work of E. Valveny was<br />
partially supported by CICYT TIC2003-09291, Spain.
tel-00671168, version 1 - 8 Oct 2012<br />
74 E. Valveny <strong>et</strong> al.<br />
References<br />
1. Aksoy, S., Ye, M., Schauf, M., Song, M., Wang, Y., Haralick, R.,<br />
Parker, J., Pivovarov, J., Royko, D., Sun, C., Farneboock, G.:<br />
Algorithm performance contest. In: Proceedings of 15th<br />
International Conference on Pattern Recognition, vol. 4,<br />
pp. 870–876, Barcelona, Spain (2000)<br />
2. Antonacopoulos, A., Gatos, B., Karatzas, D.: ICDAR 2003<br />
page segmentation comp<strong>et</strong>ition. In: Proceedings of 7th International<br />
Conference on Document Analysis and Recognition,<br />
Edinburgh (Scotland, UK), pp. 688–689 (2003)<br />
3. Baird, H.S.: The state of the art of document image degradation<br />
modeling. In: Proceedings of 4th IAPR International<br />
Workshop on Document Analysis Systems, Rio de Janeiro<br />
(Brazil) (2000)<br />
4. Chhabra, A., Phillips, I.T.: The 2nd international graphics recognition<br />
contest—raster to vector conversion: a report. In:<br />
Tombre, K., Chhabra, A.K. (eds.): Graphics Recognition—<br />
Algorithms and Systems. Lecture Notes in Computer Science,<br />
vol. 1389, pp. 390–410. Springer, Berlin Heidelberg New York<br />
(1998)<br />
5. Chhabra, A.K.: Graphic symbol recognition: an overview. In:<br />
Tombre, K., Chhabra, A.K. (eds.): Graphics Recognition—<br />
Algorithms and Systems. Lecture Notes in Computer Science,<br />
vol. 1389, pp. 68–79. Springer, Berlin Heidelberg New York<br />
(1998)<br />
6. Clark, A.F., Courtney, P.: Databases for performance characterization.<br />
In: Stiehl, H.H., Viergever, M.A., Vincken, K.L.<br />
(eds.) Performance Characterization in Computer Vision.<br />
Kluwer, Dordrecht (2000)<br />
7. Cootes, T.F., Taylor, C.J., Cooper, D.H., Graham, J.: Active<br />
shape models: Their training and application. Comput. Vis.<br />
Image Underst. 61(1), 38–59 (1995)<br />
8. Cordella, L.P., Vento, M.: Symbol recognition in documents:<br />
a collection of techniques? Int. J. Doc. Anal. Recognit. 3(2),<br />
73–88 (2000)<br />
9. Courtney, P., Thacker, N.A.: Performance characterization in<br />
computer vision: the role of statistics in testing and design. In:<br />
Blanc-Talon, J., Popescu, D.C. (eds.) Imaging and Vision Systems:<br />
Theory, Assessment and Applications. NOVA Science,<br />
Hungtington, NY (2003)<br />
10. Delalandre, M., Trupin, E., Ogier, J., Labiche, J.: Contextual<br />
system of symbol structural recognition based on an objectprocess<br />
m<strong>et</strong>hodology. Electron. L<strong>et</strong>t. Comput. Vis. Image<br />
Anal. 5(2), 16–29 (2005)<br />
11. Ghosh, D., Shivaprasad, A.P.: An analytic approach for generation<br />
of artificial hand-printed character database from<br />
given generative models. Pattern Recognit. 32, 907–920<br />
(1999)<br />
12. Guyon, I., Haralick, R.M., Hull, J.J., Phipliops, I.T.: Data s<strong>et</strong>s<br />
for OCR and document image understanding research. In:<br />
Bunke, H., Wang, P.S.P. (eds.) Handbook of Character Recognition<br />
and Document Image Analysis, pp. 779–800. World<br />
Scientific, Singapore (1997)<br />
13. Haralick, R.: Performance characterization in image analysis:<br />
thinning, a case in point. Pattern Recognit. L<strong>et</strong>t. 13, 5–12<br />
(1992)<br />
14. Hilaire, X.: A matching scheme to enhance performance evaluation<br />
of raster-to-vector conversion algorithms. In: Proceedings<br />
of 7th International Conference on Document Analysis<br />
and Recognition, vol. 1, pp. 629–633. Edinburgh, Scotland<br />
(2003)<br />
15. Kanungo, T., Haralick, R.M., Baird, H.S., Stu<strong>et</strong>zle, W., Madigan,<br />
D.: Document degradation models: param<strong>et</strong>er estimation<br />
and model validation. In: Proceedings of IAPR Workshop on<br />
Machine Vision Applications, Kawasaki (Japan), pp. 552–557<br />
(1994)<br />
16. Kanungo, T., Haralick, R.M., Baird, H.S., Stuezle, W.,<br />
Madigan, D.: A statistical, nonparam<strong>et</strong>ric m<strong>et</strong>hodology for<br />
document degradation model validation. IEEE Trans. Pattern<br />
Anal. Mach. Intell. 22(11), 1209–1223 (2000)<br />
17. Lladós, J., Valveny, E., Sánchez, G., Martí, E.: Symbol recognition:<br />
current advances and perspectives. In: Blostein, D.,<br />
Kwon, Y.-B. (eds.) Graphics Recognition—Algorithms and<br />
Applications. Lecture Notes in Computer Science, vol. 2390,<br />
pp. 104–127. Springer, Berlin Heidelberg New York<br />
(2002)<br />
18. Lopresti, D., Nagy, G.: Issues in ground-truthing graphic<br />
documents. In: Blostein, D., Kwon, Y.-B. (eds.) Graphics<br />
Recognition—Algorithms and Applications. Lecture Notes<br />
in Computer Science, vol. 2390, pp. 46–66. Springer, Berlin<br />
Heidelberg New York (2002)<br />
19. Lucas, S.M., Panar<strong>et</strong>os, A., Sosa, L., Tang, A., Wong, S., Young,<br />
R., Ashida, K., Nagai, H., Okamoto, M., Yamamoto, H.,<br />
Miyao, H., Zhu, J., Ou, W., Wolf, C., Jolion, J.M., Todoran,<br />
L., Worring, M., Lin, X.: ICDAR 2003 robust reading comp<strong>et</strong>itions:<br />
entries, results, and future directions. Int. J. Doc. Anal.<br />
Recognit. 7(2-3), 105–122 (2005)<br />
20. Mariano, V.Y., Min, J., Park, J.-H., Kasturi, R., Mihalcik, D.,<br />
Li, H., Doermann, D., Drayer, T.: Performance evaluation<br />
of object d<strong>et</strong>ection algorithms. In: Proceedings of the 16th<br />
International Conference on Pattern Recognition, Quebec<br />
(Canada), vol. 3, pp. 965–969 (2002)<br />
21. Philips, P.J., Moon, H., Rizvi, S.A., Rauss, P.J.: The fer<strong>et</strong><br />
evaluation m<strong>et</strong>hodology for face-recognition algorithms.<br />
IEEE Trans. Pattern Anal. Mach. Intell. 22(10), 1090–1104<br />
(2000)<br />
22. Phillips, I.T., Chhabra, A.K.: Empirical performance evaluation<br />
of graphics recognition systems. IEEE Trans. Pattern<br />
Anal. Mach. Intell. 21(9), 849–870 (1999)<br />
23. Tombre, K., Chhabra, A.K. (eds.): Graphics Recognition—<br />
Algorithms and Systems. Lecture Notes in Computer Science,<br />
vol. 1389. Springer, Berlin Heidelberg New York (1998)<br />
24. Valveny, E., Dosch, Ph.: Performance evaluation of symbol<br />
recognition. In: Marinai, S., Dengel, A. (eds.) Document<br />
Analysis Systems VI – Proceedings of 6th IAPR International<br />
Workshop on Document Analysis Systems, Florence (Italy).<br />
Lecture Notes in Computer Science, vol. 3163, pp. 354–365.<br />
Springer, Berlin Heidelberg New York (2004)<br />
25. Valveny, E., Dosch, Ph.: Symbol recognition contest: a synthesis.<br />
In: Selected Papers from 5th International Workshop on<br />
Graphics Recognition, GREC’03. Lecture Notes in Computer<br />
Science, vol. 3088, pp. 368–385. Springer, Berlin Heidelberg<br />
New York (2004)<br />
26. Wenyin, L., Dori, D.: A protocol for performance evaluation<br />
of line d<strong>et</strong>ection algorithms. Mach. Vis. Appl. 9, 240–250<br />
(1997)<br />
27. Wenyin, L., Zhai, J., Dori, D.: Extended summary of the<br />
arc segmentation contest. In: Blostein, D., Kwon, Y.B. (eds.)<br />
Graphics Recognition: Algorithms and Applications, Selected<br />
Papers from 4th International Workshop on Graphics Recognition,<br />
GREC’01. Lecture Notes in Computer Science,<br />
vol. 2390, pp. 343–349. Springer, Berlin Heidelberg New York<br />
(2002)<br />
28. Wilson, C.L., Geist, J., Garris, M.D., Chellappa, R.: Design,<br />
integration and evaluation of form-based handprint and OCR<br />
systems. Technical report, National Institute of Standards and<br />
Technology, Technical Report NISTIR 5932 (1996)<br />
29. Zhang, Y.J.: A survey on evaluation m<strong>et</strong>hods for image segmentation.<br />
Pattern Recognit. 29(8), 1335–1346 (1996)
tel-00671168, version 1 - 8 Oct 2012<br />
xxx Annexe B. Réference CV : 5
tel-00671168, version 1 - 8 Oct 2012<br />
Annexe C<br />
Réference CV : 4<br />
G. Dupont, S. Adam, Y. Lecourtier, and B. Grilhère. <strong>Multi</strong> objective particle<br />
swarm optimization using enhanced dominance and guide selection. International<br />
Journal of Computational Intelligence Research (IJCIR), 4(2) :145-<br />
158, 2008.<br />
xxxi
tel-00671168, version 1 - 8 Oct 2012<br />
International Journal of Computational Intelligence Research.<br />
ISSN 0973-1873 Vol.4, No.2 (2008), pp.145–158 doi:10.5019/j.ijcir.2008.134<br />
© Research India Publications http://www.ijcir.info<br />
<strong>Multi</strong> objective particle swarm optimization<br />
using enhanced dominance and guide selection<br />
Gérard Dupont 1 2 , Sébastien Adam 1 , Yves Lecourtier 1 1 2<br />
and Bruno Grilheres<br />
1 Laboratoire d’Informatique de Traitement de l’Information <strong>et</strong> des Systmes (LITIS),<br />
Universit de Rouen, Saint- ´ Etienne-du-Rouvray, France<br />
2 EADS Defense and Systems, Information Processing and Comp<strong>et</strong>ence Center,<br />
Val de Reuil, France<br />
Abstract: Nowadays, the core of the Particle Swarm<br />
Optimization (PSO) algorithm has proved to be reliable.<br />
However, faced with multi-objective problems, adaptations are<br />
needed. Deeper researches must be conducted on its key steps,<br />
such as solution s<strong>et</strong> management and guide selection, in order<br />
to improve its efficiency in this context. Indeed, numerous<br />
param<strong>et</strong>ers and implementation strategies can impact on the<br />
optimization performance in a particle swarm optimizer. In<br />
this paper, our recent works on those topics are presented. We<br />
introduce an "dominance variation which enables a finer<br />
neighborhood handling in criterion space. Then we propose<br />
some ideas concerning the guide selection and memorization<br />
for each particle. These m<strong>et</strong>hods are compared against a<br />
standard MOPSO implementation on benchmark problems<br />
and against an evolutionary approach (NSGAII) for a real<br />
world problem: SVM classifier optimization (or model<br />
selection) for a handwritten digits/outliers discrimination<br />
problem.<br />
Keywords: Optimization, particle swarm, SVM model<br />
selection, multi objective optimizer, epsilon-dominance.<br />
I. Introduction<br />
In several technical fields, engineers are dealing with<br />
complex optimization problems which involve contradictory<br />
objectives. Such multi-objective optimization problems have<br />
been extensively studied during the last decades. Existing<br />
approaches can be classified with respect to the hypotheses<br />
which are required for the computation. A common<br />
hypothesis is the derivability or continuity of the functions<br />
to be optimized. Unfortunately, such hypotheses are not<br />
verified for problems with complex models. Thus other<br />
ways have been found through m<strong>et</strong>a-heuristic algorithms.<br />
Gen<strong>et</strong>ic algorithms are famous techniques in that domain<br />
and they have shown to be efficient on many optimization<br />
problems (see [13]). Recently, some researchers also tackle<br />
those problems with multi-objective particle swarm<br />
optimizer (see [10]).<br />
Based on the work of James Kennedy and Russel<br />
Eberhart presented in [15], the particle swarm optimizers try<br />
to find solutions of optimization problems by using<br />
techniques inspired by the nature, as the gen<strong>et</strong>ic algorithms<br />
mimic evolution in species. In the last few years, PSO has<br />
been extensively studied and some results have shown that it<br />
can comp<strong>et</strong>e with other evolutionary algorithms such as<br />
gen<strong>et</strong>ic algorithms (see [16, 21, 31]). <strong>Multi</strong>-Objective PSO<br />
algorithms (refered as MOPSO in the paper) have also been<br />
implemented and have opened a large new field of interest<br />
(see [28]).<br />
The aim of this paper is to propose some improvements<br />
of particle swarm optimizer dealing with multi-objective<br />
problems. These improvements concern the introduction of<br />
a new dominance and an original strategy for guide<br />
selection.<br />
The paper is organized as follows: section II gives a brief<br />
overview on basic definitions involved in multi-objective<br />
optimization problems and in particle swarm optimization.<br />
In section III, our contributions concerning the dominance<br />
and the guide selection strategy are described. In section IV,<br />
these contributions are discussed through experimental<br />
results on benchmark problems. Finally, the proposed<br />
variant of the MOPSO algorithm is applied on a real world<br />
problem which concerns SVM multi-model selection for<br />
handwritten digit identification.<br />
II. Basic definitions<br />
This section presents the basic formalization of multi<br />
objective optimization problems. Then it describes the<br />
particle swarm core algorithm and its classical multiobjective<br />
implementation (see [10]).<br />
A. <strong>Multi</strong>-objective optimization problems<br />
Many definitions can be found for multi-objective<br />
optimization problems (see [9] for a precise definition of all<br />
the following equations). Such problems seek to minimize<br />
simultaneously N objective functions fk depending on n<br />
param<strong>et</strong>ers in the form:
tel-00671168, version 1 - 8 Oct 2012<br />
146 Gérard Dupont <strong>et</strong> al<br />
(1)<br />
In order to express param<strong>et</strong>er limitations that can be m<strong>et</strong><br />
in real world problems (such as material characteristics in<br />
engineering applications), some constraints must be<br />
introduced. They reduce the feasible region of R n to a<br />
smaller one noted S. Usually, these constraints are modeled<br />
as M equations expressed as inequalities or equalities:<br />
(3)<br />
The global multi-objective problem can thus be defined<br />
as the minimization of:<br />
B. <strong>Multi</strong>-objective solutions<br />
In most case, multi-objective problems do not have a<br />
single global optimal solution according to equation 4 and a<br />
new definition of minimizing has to be used. The<br />
concept of optimum changes, because in multi-objective<br />
optimization problems the purpose is to find trade-off<br />
solutions rather than a single solution. Thus to compare<br />
those solutions and d<strong>et</strong>ermine which are useful, the wellknown<br />
Par<strong>et</strong>o dominance is commonly used. Based on the<br />
work of Vilfredo Par<strong>et</strong>o (see [25]), it can be expressed as<br />
follows:<br />
(6)<br />
In accordance with [9], this expression means that a<br />
given decision vector dominates another one if, and<br />
only if none of the corresponding objective function values<br />
is worse than and if there is a dimension in<br />
the criterion space where it is strictly b<strong>et</strong>ter. Using such a<br />
definition, the Par<strong>et</strong>o optimal s<strong>et</strong> P_ can be defined as the<br />
s<strong>et</strong> of all non dominated vectors (see [29]).<br />
(7)<br />
The s<strong>et</strong> of corresponding objective values in the criterion<br />
space constitutes the so-called Par<strong>et</strong>o front.<br />
The aim of a multi-objective optimization algorithm is to<br />
find a good estimation of P* noted P in accordance to some<br />
other concepts which can be linked to the problem. As stated<br />
in Deb’s book [12], the quality of this estimation must be at<br />
least measured in terms of diversity of the distribution and<br />
spread along the front.<br />
C. PSO core<br />
The PSO is a population based algorithm which deals<br />
(2)<br />
(4)<br />
(5)<br />
with swarm intelligence. Each particle in this swarm has a n<br />
dimensional vector used as a position in the param<strong>et</strong>er<br />
space. At each iteration, particles are moving using some<br />
core equations to compute their velocity and decide their<br />
movements. The main advantage of PSO is its simple<br />
implementation as it can be reduced to the two following<br />
equations (see [29]):<br />
(9)<br />
xi,t is the position of the i th particle at time t, and v i,t its<br />
velocity. pi,best and pi,guide are respectively the best position<br />
(in term of optimization) that the current particle has found<br />
in its path and the position of a particle that has been chosen<br />
as a guide. The weights applied to those positions are called<br />
the individual and social factors because they respectively<br />
depend on the current particle memory of its own best<br />
position and on another particle position from the swarm.<br />
They are both weighted independently by a coefficient cx<br />
and a random value rx in [0, 1]. The particles will either tend<br />
to explore the param<strong>et</strong>er space or to further investigate<br />
around a previously found solution according to their<br />
variations. Thus they have a significant impact on the<br />
convergence. ω is the inertia weight which can be constant<br />
or time-dependant like in [36]. Large values of this<br />
param<strong>et</strong>er tend to make the particle following its last<br />
direction with a turbulence factor r0 whose value is chosen<br />
in [0, 1]. A last part is modeled by the function X(). It is<br />
generally implemented as a simple factor known as the<br />
turbulence factor like in [20] and thus replacing the random<br />
part of the inertia weight. However some implementations<br />
use it as a velocity normalization function or a constriction<br />
factor, keeping the direction but avoiding speed divergence<br />
(see [23]).<br />
D. From PSO to MOPSO<br />
Only few modifications need to be made on the core<br />
algorithm to adapt it to multi-objective problems. These<br />
modifications are presented in algorithm 1. The global PSO<br />
algorithm is kept : a loop where particles criteria values are<br />
computed then guides selected for each particle and<br />
positions updated. The end of the loop relies on stopping<br />
criteria which can be simply the number of iteration, the size<br />
of archive or based on specific m<strong>et</strong>rics. The main changes<br />
are to consider a criterion space of dimensions N and to<br />
compare the solutions offered by each particle. It increases<br />
the algorithm computation cost, but does not change its core.<br />
An elitist strategy should be engaged in order to remember<br />
only the good param<strong>et</strong>er combinations and therefore an<br />
archive has to be built. It r<strong>et</strong>ains only the particle position<br />
that can be included in ˆ P, the current Par<strong>et</strong>o s<strong>et</strong> estimation.<br />
In accordance to the cooperative approach in PSO, this<br />
system is called the collaborative memory.<br />
(8)
tel-00671168, version 1 - 8 Oct 2012<br />
<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 147<br />
Reyes-Sierra proposed a review of state-of-the-art<br />
MOPSO variants in [28]. A categorization of the various<br />
approaches is presented. It allows to point out that despite<br />
the youth of this research field, the variants of MOPSO<br />
proposed are very diversified. The most discriminative<br />
aspect is the strategy used to manage the<br />
multidimensionality of the solution. The simplest technique<br />
is to refine the problem through a single objective using<br />
aggregation m<strong>et</strong>hods (such as a weighted summarization) or<br />
to apply an ordering strategy on the different objectives.<br />
Sub-population approaches use multiple swarms, optimizing<br />
separately each objective but sharing information to propose<br />
a global s<strong>et</strong> of solutions. However, as presented in the<br />
bibliography, a consensus seems to be established on Par<strong>et</strong>o<br />
dominance based approaches (or combination of<br />
approaches) which appear to have b<strong>et</strong>ter performance (see<br />
[28] for a compl<strong>et</strong>e description of the MOPSO variants and<br />
references).<br />
The study of existing MOPSO variants also allows to<br />
point out that dominance and guide selection strategy have a<br />
significant impact on the algorithm performance. Thus, our<br />
contributions, described in the next sections, are mainly<br />
focused on them.<br />
III. An enhanced epsilon dominance and guide<br />
selection<br />
In accordance to [28], the major difficulties in the adaptation<br />
of PSO to multi objectives problems are : (i) the guide<br />
selection (called the leader in the paper), (ii) the<br />
maintenance of the non-dominated solutions and (iii) the<br />
diversity of the swarm. Our contributions, described in the<br />
next sections, are mainly focused on the two first of them.<br />
Our proposal can be described as a Par<strong>et</strong>o dominance based<br />
one, using an external archive of non-dominated solutions<br />
and a density estimator to select the guide. Indeed, we<br />
propose a new guide selection strategy and a variation of the<br />
domination concept to ease the archive maintenance. The<br />
steps of theMOPSO algorithm impacted by such<br />
contributions are highlighted with stars in the algorithm 1.<br />
A. Building the archive<br />
As mentioned before, an archive of solutions eligible for<br />
the Par<strong>et</strong>o s<strong>et</strong> has to be maintained. In order to d<strong>et</strong>ermine if<br />
a particle should be included in the archive, the most<br />
common m<strong>et</strong>hod has been to r<strong>et</strong>ain all non-dominated<br />
solutions in accordance to the Par<strong>et</strong>o dominance. The<br />
drawback of such an approach is the control of the archive<br />
size, which can quickly become very large and hard to<br />
maintain, whereas only some key values are needed to<br />
obtain a good Par<strong>et</strong>o S<strong>et</strong> description. Thus other strategies<br />
have to be found to limit the archive size while preserving<br />
its diversity and spread along the front.<br />
The ∈ dominance introduced in [17] and evaluated in<br />
[19] presents good capabilities to tackle this problem. Two<br />
definitions exist based on the deviation type: absolute<br />
(additive ∈ see equation 10 from [17]) or relative<br />
(multiplicative ∈ see equation 11 from [18]). According to<br />
previous studies, the relative definition is commonly chosen<br />
as it permits to easily define the ∈ value and provides more<br />
results for smaller objective values.<br />
(10)<br />
(11)<br />
The difference with the classic Par<strong>et</strong>o dominance can<br />
clearly be focused on the figure 1. The first illustration (a)<br />
shows the domination area induced by the Par<strong>et</strong>o dominance<br />
for the current particle (in white) on a problem limited to 2<br />
criteria. Other particles are respectively in black, gray or<br />
hatched when their are dominated, equivalent or when they<br />
dominate the current particle. The illustration (b) shows the<br />
∈ domination area. It is bigger and allows to dominate<br />
elements too much near from the current particle<br />
(illustration (c) will be described later). As noticed in [18],<br />
this definition allows to quickly achieve an estimation of the<br />
Par<strong>et</strong>o front by modifying the domination area of a particle<br />
proportionally to its criterion values. It is one way to<br />
manage simultaneously the dominance b<strong>et</strong>ween particles<br />
and the neighborhood in the criterion space and will yield a<br />
b<strong>et</strong>ter diversity along the Par<strong>et</strong>o front.<br />
However, with such a definition, the difference with the<br />
Par<strong>et</strong>o domination area is larger for particle with bigger<br />
objectives values. This could induce a drawback as shown in<br />
figure 2 on a benchmark problem, where the domination<br />
area of the considered element (p1) limits the front<br />
description. Particular shapes of the Par<strong>et</strong>o front estimation<br />
(for instance areas with only minor variations on one<br />
objective and large variations on another) can thus be
tel-00671168, version 1 - 8 Oct 2012<br />
148 Gérard Dupont <strong>et</strong> al<br />
mistaken. This is a consequence of the ∈ dominance<br />
definition, which limits the number of particles used to<br />
describe the extremes or the parts of the front where one of<br />
the criteria is almost constant.<br />
Such a problem was noticed in [18], but surprisingly, no<br />
work exists in the literrature about the study of the effects on<br />
Par<strong>et</strong>o front results and no solution has been proposed to<br />
avoid this. In order to tackle this problem without involving<br />
a CPU greedy clustering m<strong>et</strong>hod, we introduce an "<br />
dominance variant. It limits the domination area introduced<br />
by the standard ∈ dominance to local neighborhood in order<br />
to avoid the limitations on large criteria value. The figure 1<br />
(c) presents a schematic illustration of this variant in<br />
comparison with Par<strong>et</strong>o and ∈ dominance. One can see that<br />
the classic ∈ dominance allows to handle the neighborhood<br />
of the considered particle (white one) in the objective space<br />
by extending the domination area. Thus closest solutions,<br />
which reduce the diversity of the solutions s<strong>et</strong>, are removed.<br />
However, it also removes some other particles not present in<br />
the local neighborhood because of the global extension of<br />
the domination area. Using the ∈ dominance variant allows<br />
to limit such extension, keeping its benefits and avoiding the<br />
highlighted drawbacks.<br />
Figure 1 : Illustration of Par<strong>et</strong>o dominance (a), ∈<br />
dominance (b) and our ∈ dominance variant (c).<br />
Figure 2 : Example of limitations introduced by ∈<br />
dominance against an estimation of the Par<strong>et</strong>o front (black<br />
line) on TNK problem. The highlighted zone will never be<br />
covered by new elements as they are under the ∈<br />
domination area of already present elements (red crosses).<br />
The principle of this variant is to use the implicit<br />
neighborhood management introduced by the ∈ dominance.<br />
The dominated neighborhood is proportional to ∈ (i.e.<br />
multiplicative∈) which is easy to implement and define. The<br />
mathematical formalization of such a variant is expressed in<br />
equation 12. The first part is simply the Par<strong>et</strong>o dominance<br />
whereas the second part defines the local domination areas<br />
in the neighborhood.<br />
(12)<br />
This variant of ∈ dominance allows to overcome the<br />
problem mentionned above while maintaining the benefits<br />
of classical ∈ dominance. It keeps a good diversity while<br />
avoiding the maintenance of a complex data structure for the<br />
non-dominated particles induced by m<strong>et</strong>hods based on<br />
clustering. Such criterion space clustering approaches have<br />
been largely tested in [10] with the hypercube strategy, in<br />
[21] with the sigma m<strong>et</strong>hod or in [14] with the dominated<br />
trees. The advantages of our variant will be highlighted in<br />
the experimentations presented in section IV.<br />
As it is presented in the papers mentioned above, the<br />
maintenance of the archive of the non-dominated particles is<br />
strongly linked to the guide selection which is one of the<br />
core step of the MOPSO. Thus we also contribute on the<br />
guide selection behavior.<br />
B. Guide selection behavior<br />
Performance of PSO algorithm depends on the factors
tel-00671168, version 1 - 8 Oct 2012<br />
<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 149<br />
which will influence each particles movement through the<br />
core equation 8. The particle will be influenced by its<br />
previous position, which is regulated through the inertia<br />
factor, its personal memory pi,best and a guide pi,guide.<br />
B<strong>et</strong>ween the numerous possible implementations of personal<br />
memory influence, we choose to select the last nondominated<br />
position of the particle to be the individual<br />
memorization of its best position. [5] has shown that more<br />
complex strategies can provide small improvements, but this<br />
approach (called newest strategy in [5]) allows good<br />
performance with a very small computational cost.<br />
Then the most important factor is the global guide who<br />
will try to help the particle to find to the Par<strong>et</strong>o front by<br />
modifying its trajectory. According to [28], the guide has to<br />
be selected in the archive of non-dominated solutions.<br />
Nevertheless the selection heuristic can drastically change<br />
the swarm convergence behavior.<br />
Our approach is based on the use of a probabilistic<br />
framework since it has shown to have b<strong>et</strong>ter performance in<br />
[1]. The idea is to select each particle guide through a<br />
roul<strong>et</strong>te wheel selection where each non-dominated solution<br />
will have a different selection probability evaluated at each<br />
iteration. However, instead of using a computation based on<br />
the Par<strong>et</strong>o domination to d<strong>et</strong>ermine the probability, we use a<br />
local density evaluation in order to tend the swarm to fill the<br />
holes of the current Par<strong>et</strong>o front estimation. Thus for each<br />
archive member, the probability is computed as an inverted<br />
density measure on its local neighborhood in the criterion<br />
space. Such an approach has also been tested in [5] for local<br />
best selection with quite good results. A similar approach<br />
can also be found in [2] but unfortunately without any<br />
further d<strong>et</strong>ail on the chosen estimator. However, the choice<br />
of the density measurement is not trivial because some<br />
particular shapes of the Par<strong>et</strong>o front or specific constraints<br />
can introduce discontinuities. A classic density measure,<br />
based on the counting of particles in a fixed area around the<br />
current archive element, will be biased by configurations<br />
similar to figure 2 : the area could be almost empty because<br />
of the front discontinuity. We propose a simple and intuitive<br />
solution which provides density estimation on an adaptive<br />
local neighborhood. It computes the sum of the inverted<br />
distances b<strong>et</strong>ween the current particle and its K nearest<br />
neighbors. Then the selection probability is computed by<br />
inverting this estimation and normalizing it as a probability<br />
as shown hereafter (where Ψ is the s<strong>et</strong> of the K nearest<br />
neighbors of the current particle in the criterion space). This<br />
probability needs indeed to be computed again at each<br />
archive update.<br />
(13)<br />
According to equation 13, a particle with closest<br />
neighbors will have an important local density evaluation<br />
and thus a small selection probability.<br />
The last problem to solve is the choice of a decision rule<br />
for changing the guide of a particle. Indeed the guide<br />
selection strategy has a computational cost. Moreover if the<br />
particles change their guide too often (at each iteration) their<br />
movements cannot be really influenced by their guide and<br />
the social effect can be lost. In mono-objective optimization,<br />
this behavior is not a problem because the new guide should<br />
always be b<strong>et</strong>ter than the previous one. However in<br />
MOPSO, guides are equivalent since they’re all included in<br />
P. This problem is partly solved by using complex swarm<br />
clustering (for example by sub-swarming on each criterion,<br />
see [28]), but we propose a more simple technique: enabling<br />
a particle guide memorization. Indeed, we did not find any<br />
studies on a guide memorization influence. Thereby the<br />
guide selection step, highlighted by a star in Algorithm 1, is<br />
modified. This is described in Algorithm 2.<br />
The idea is to allow a particle p to keep its previous guide<br />
in particular case. To avoid the swarm to only explore<br />
locally the front because of the stronger influence of guides,<br />
a particle which has been recently added in the archive<br />
(which means, when it reaches a non-dominated position)<br />
does not select any guide. This is the reason of the first test<br />
in the algorithm. In such case, p can be considered to be a<br />
pioneer and it is assumed that it does not need any guide. It<br />
is compl<strong>et</strong>ely free to explore any part of the param<strong>et</strong>er space<br />
using only its personal best position and its inertia. In the<br />
other case, the particle uses a new characteristic added to the<br />
swarm: a guide memory threshold which will define a global<br />
behavior of guide memorization. A new guide will be<br />
selected for this particle only if its threshold is exceeded as<br />
shown hereafter (i.e. the particle remembers its guide) and if<br />
its previous guide has not been del<strong>et</strong>ed from archive.<br />
The main advantage of this implementation is that the<br />
memorization is under control with the threshold.<br />
Experimentations have been conducted on the standard<br />
problems in order to select a good trade-off for this new
tel-00671168, version 1 - 8 Oct 2012<br />
150 Gérard Dupont <strong>et</strong> al<br />
param<strong>et</strong>er. The obtained results are presented in the<br />
following section.<br />
IV. Evaluation on standards problems<br />
In this section, benchmark problems are used in order to<br />
validate our approach against a baseline MOPSO with basic<br />
implementation.<br />
A. Evaluation strategies<br />
1) Algorithm s<strong>et</strong>ting<br />
As explained in [26] and theor<strong>et</strong>ically studied in [35], the<br />
numerous param<strong>et</strong>ers of a PSO algorithm can be adapted to<br />
maximize the convergence on each problem. However our<br />
experimental approach was to select values which present a<br />
good trade-off in order to have a problem-free<br />
implementation. As the aim was to study the performance of<br />
our contributions concerning dominance and guide<br />
selection, there was no need for fine tuning of these<br />
param<strong>et</strong>ers. Thus they have been uniformly chosen in<br />
controled domains which best fit the state of the art advices<br />
(see [26] and [28]):<br />
• Inertia weight !r0 in [0.8; 1.0]<br />
• Individual cognitive factor c1r1 in [1.6; 1.8]<br />
• Social cognitive factor c2r2 in [1.4; 1.6]<br />
• The constriction function _() implemented as a velocity<br />
threshold: when a dimension of the velocity vector<br />
exceeds the threshold, the whole vector is normalized<br />
such as the global direction is kept. Thus it constricts<br />
the velocity when it has a dimension greater than 0.1<br />
(with criteria values normalized in [0; 1]).<br />
This approach can be linked to [27]. However we limit<br />
the scales for the social and individual cognitive factors to<br />
different values since it has shown a statistically significant<br />
improvement in mono-objective PSO (see [35]) and in our<br />
multi-objective studies. We chose to introduce the uniform<br />
randomization through the specified domain instead of using<br />
secondary random factor rx in order to control their<br />
variability. The swarm size was limited to 40 elements in<br />
order to offer a good trade-off b<strong>et</strong>ween the number of<br />
potential solutions at each iteration and the update rate of<br />
the swarm. The number of iterations is not fixed and<br />
depends on the problems. For performance comparisons on<br />
the experiments, our stopping criteria was a limitation on the<br />
number of objective function evaluations, empirically fixed<br />
in order to obtain an acceptable estimation of the Par<strong>et</strong>o<br />
front.<br />
2) Benchmark problems<br />
Four problems from the literature have been chosen for<br />
the experiments. The first one is BNH, or also called<br />
MOPC1 (see [3]). It is considered to be simple because<br />
constraints do not introduce serious difficulties in finding<br />
the Par<strong>et</strong>o s<strong>et</strong> and the front does not have any discontinuity<br />
or complex convexity. The MOP5, proposed by Vienn<strong>et</strong>e,<br />
and MOP6<br />
Table 1 : Benchmark functions (f()) and constraints (g()).<br />
Name Criteria/constraints<br />
(see [6] for compl<strong>et</strong>e references) are two unconstrained<br />
problems used to test optimization algorithms against two<br />
major difficulties: an increase of the criterion number and a<br />
discontinued Par<strong>et</strong>o front. Then the last problem, called<br />
TNK by Tanaka [33], is considered to be quite difficult<br />
because of the restriction of the solution space introduced by<br />
the constraints. The descriptions of the mathematical<br />
functions, as they have been implemented, are shown in<br />
table 1.<br />
3) M<strong>et</strong>rics<br />
Comparing different executions of two multi-objective<br />
algorithms is a very complicated task. However, in our case,<br />
we only need to compare different variants of the same<br />
algorithm. Thus we use only simple m<strong>et</strong>rics to compare the<br />
spread and diversity of the front obtained by each<br />
implementation.<br />
The spacing m<strong>et</strong>ric S (see [30]) measures the<br />
homogeneity of the front description by computing the mean<br />
distance b<strong>et</strong>ween each element of the Par<strong>et</strong>o s<strong>et</strong> estimation.<br />
Thus small values are b<strong>et</strong>ter than large ones. A null value<br />
means that the elements are equidistant. This limit cannot be<br />
reached with the relative implementation of the ∈<br />
dominance because of its intrinsic definition which<br />
introduces a neighborhood limitation relative to the criterion<br />
value. The maximal extension D simply measures the<br />
diagonal b<strong>et</strong>ween the extremes elements on each criterion<br />
and must be maximized in order to cover the entire front.<br />
Then the s<strong>et</strong> coverage SC proposed in [37] tries to evaluate<br />
the domination of a Par<strong>et</strong>o front estimation PA against<br />
another one, PB, by counting the number of elements of PB<br />
which are dominated by a least one element of PA. By<br />
definition if SC (PA, PB) = 1 and SC( PB, PA) = 0 we can say<br />
that the estimation PA is b<strong>et</strong>ter than PB. They were
tel-00671168, version 1 - 8 Oct 2012<br />
<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 151<br />
respectively computed as presented in equations 14, 15 and<br />
16<br />
Table 2 : M<strong>et</strong>rics for dominance comparison (left columns<br />
results for MOPSO baseline with ∈ dominance and right<br />
with enhanced ∈ dominance).<br />
with normalized objective values.<br />
(14)<br />
(15)<br />
(16)<br />
As the algorithm involves random values in its execution,<br />
many differences can appear in two different runs. Thus in<br />
our experimental protocol, the different configurations of<br />
MOPSO used the same initial swarm with random position<br />
vectors assigned in the param<strong>et</strong>er space. Then we repeat 100<br />
times the execution (with different initial swarms) of each<br />
implementation of the algorithm. Our aims were to obtain a<br />
good estimation of the general algorithm behavior and to<br />
enable statistical estimators computation for each m<strong>et</strong>ric at<br />
each iteration.<br />
The computional cost involved by the enhancement of<br />
neighborhood and guide selection was evaluated both on<br />
benchmark and real life problems. It appears that the most<br />
critical point was the objective computations and that the<br />
computational overload in comparison to the baseline was<br />
not significative. Thus it has not been studied in the<br />
following results.<br />
B. Results and discussion<br />
1) Dominance<br />
We compare the ∈ dominance variant to the ∈<br />
dominance classically used in MOPSO on the benchmark<br />
problems. Table 2 presents the m<strong>et</strong>ric mean values over all<br />
executions of our approach (in the right columns and bolded<br />
when there is some improvement) against standard ∈<br />
dominance approach (in the left columns). As the s<strong>et</strong><br />
coverage is a non-symm<strong>et</strong>ric binary measure, we present<br />
both the results of our approach against the standard and the<br />
standard against our variant.<br />
The results summarized in table 2 must be carefully<br />
interpr<strong>et</strong>ed. First of all we can see that MOP5 is a problem<br />
that highlights the standard ∈ dominance drawbacks. Since<br />
one of the objectives has small variability, the front is<br />
extended on very high values. The limitation introduced by<br />
the standard ∈ dominance does not allow to describe those<br />
parts and thus the final estimation is very different (and<br />
worst) than the one obtained with our variant. Closely<br />
considering the s<strong>et</strong> coverage allows a b<strong>et</strong>ter understanding<br />
of the situation: the dissymm<strong>et</strong>ry on the m<strong>et</strong>ric implies that<br />
all the elements from the Par<strong>et</strong>o front estimated with our<br />
dominance variant dominates the ones from the other<br />
approach estimation.<br />
The consequence of this is the large differences on the<br />
other m<strong>et</strong>rics: the maximal extension is clearly improved<br />
and the spacing m<strong>et</strong>ric values are not comparable since the<br />
objective values are too different. So on this particular<br />
problem, our variant allows to perform a b<strong>et</strong>ter (or faster)<br />
estimation of the Par<strong>et</strong>o front.<br />
Figure 3 : Dominance comparison on the benchmark<br />
problems (the left blue front is for the standard " dominance<br />
and the right red one for our variant).
tel-00671168, version 1 - 8 Oct 2012<br />
152 Gérard Dupont <strong>et</strong> al<br />
For the other problems, one can observe that the s<strong>et</strong><br />
coverage m<strong>et</strong>rics of both approaches are quite similar and<br />
thus we can conclude that the Par<strong>et</strong>o front estimations are<br />
both near the real Par<strong>et</strong>o front (or near the limit of the<br />
algorithm capacities for the number of iterations). As the<br />
archive size is always significantly improved by our<br />
approach, we can argue that it generally permits to obtain a<br />
finer description of the front. This is confirmed by the<br />
spacing m<strong>et</strong>ric which is also improved and proves that the<br />
results are well distributed along the front. Finally, we<br />
provide the maximal extension in a specific way in order to<br />
allow a b<strong>et</strong>ter interpr<strong>et</strong>ation. The evaluation has been made<br />
not on the final front estimation on each runs but on the<br />
filtered front. It means that the archive obtained with one<br />
approach is reduced by removing all the elements that are<br />
dominated by at least one element from the other approach<br />
archive. We choose this m<strong>et</strong>hod because some front<br />
estimations contain incorrect elements which corrupt the<br />
maximal extension value. The results show that if our<br />
approach appears to yield less satisfactory results at first, it<br />
is only due to the presence of dominated solutions in the<br />
other estimation. Thus its maximal extension artificially<br />
grows because of such false Par<strong>et</strong>o front estimation. This<br />
particular difficulty on the m<strong>et</strong>ric interpr<strong>et</strong>ation highlights<br />
the difficulty of quantitative comparison.<br />
Table 3 : M<strong>et</strong>rics for guide selection behavior comparison<br />
(left columns results for MOPSO baseline with random<br />
guide selection and right with enhanced guide selection).<br />
A more thorough comparison requires a qualitative<br />
observation of the estimated Par<strong>et</strong>o front. As seen in Figure<br />
3, the quality of the front is clearly enhanced with our<br />
variant: the extremes are b<strong>et</strong>ter described and the description<br />
of parts where a criterion is almost invariant is also<br />
enhanced. This is highlighted on MOP5, where the classic ∈<br />
dominance does not allow describing the right part of the<br />
front because of the particular shape of the Par<strong>et</strong>o front.<br />
It is obvious that the classic ∈ dominance can also tackle<br />
those problems by reducing the epsilon value and allow<br />
more elements to be included in the archive. But other parts<br />
of the front which are well described will also suffer from<br />
this by more and more elements inclusion and thus the<br />
archive size bounds can be quickly broken. Moreover, it will<br />
not resolve the problem involved in ‘flat‘ parts of the front<br />
as our approach can do.<br />
2) Guide selection strategy<br />
Both configurations in this study use the proposed<br />
enhanced ∈ dominance. Their differences are only on the<br />
guide management: the first uses a full random selection and<br />
no guide memorization whereas the other involves the<br />
density based probability to select the guide that can be kept<br />
through the next iteration. The number of neighbors was<br />
experimentally limited to 4 and the memory factor to 0.6 as<br />
it appears to be the most effective values in our experiments<br />
(not presented here). Figure 4 shows the evolution of the<br />
different m<strong>et</strong>rics through the iterations on each problem.<br />
Table 3 presents the mean improvements over all executions<br />
of our approach (right columns) against random selection<br />
(left columns). BNH: The improvement is not obvious on<br />
BNH tests. Such a result is quite logical since the objective<br />
functions are quite simple and do not need a strong strategy<br />
to allow a good estimation of the Par<strong>et</strong>o s<strong>et</strong>. Improvements<br />
of the front diversity can be seen but through a reduction of<br />
archive size.
tel-00671168, version 1 - 8 Oct 2012<br />
<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 153<br />
Figure 4 : Evolution of m<strong>et</strong>rics through iteration on<br />
different problems (means values for standard guide<br />
selection in blue dashed lines and our variant in red lines).<br />
MOP5: The performance of our approach must be well<br />
interpr<strong>et</strong>ed for this problem. As shown by the dynamic<br />
evolution of the m<strong>et</strong>ric in figure 4, the results are biased.<br />
Indeed after about 20 iterations the values of m<strong>et</strong>rics fall<br />
drastically for the random selection. The reason is that the<br />
front of this problem is particularly difficult to find as it has<br />
a lot of local optimal solutions as explained previously. This<br />
is confirmed by the evolution of the s<strong>et</strong> coverage and<br />
maximal extension which allow concluding that the front<br />
estimated by the probabilistic approach is quite b<strong>et</strong>ter.<br />
MOP6: The solution is significantly improved by our<br />
approach on MOP6 tests. It is quite obvious that this<br />
particular problem, which contains much discontinuities on<br />
its Par<strong>et</strong>o front, is b<strong>et</strong>ter solved by our enhanced guide<br />
selection behavior. The only exception is the maximal<br />
extension. The reasons are the same as in the precedent<br />
study on dominance. TNK: The problem involves a lot of<br />
hard constraints which strongly limit the param<strong>et</strong>er space.<br />
Thus our approach based on a density estimator evaluated in<br />
the criterion space does not improve the global results since<br />
it does not permit to tackle the specific difficulties<br />
introduced in this problem.<br />
Such results can be difficult to analyze since some<br />
behavioral particularities are kept und<strong>et</strong>ected even when<br />
using several m<strong>et</strong>rics. Thus, we interpr<strong>et</strong> the values as<br />
relative improvement in order to facilitate the analysis on<br />
each problem. The classical qualitative evaluation of the<br />
Par<strong>et</strong>o front has also led us these interpr<strong>et</strong>ations. With<br />
respect to all the measures, we can conclude that our<br />
approach obtained a significant improvement in most cases.<br />
As we saw, the higher improvement is reached with difficult<br />
problems (i.e. with discontinued front) without strong<br />
constraints. However such results are limited to the context<br />
of our experiments, which is the comparison b<strong>et</strong>ween<br />
different MOPSO approaches on standard problems. Thus<br />
we have also tested our MOPSO in a real world<br />
environment against an evolutionary algorithm.<br />
V. SVM model selection using the proposed<br />
MOPSO<br />
This section proposes an original application of the<br />
proposed MOPSO for tuning the hyper param<strong>et</strong>ers of a<br />
classifier. Such a problem is a critical step for building an<br />
efficient classification system as this crucial aspect of model<br />
selection strongly impacts the performance of a<br />
classification system. For a long time, this problem has been<br />
tackled using a mono objective optimization process, with<br />
the predictive accuracy or error rate as objective. Now, it is<br />
well-known that a single criterion is not always a good<br />
performance indicator. Indeed, in many real-world problems<br />
(medical domain, road saf<strong>et</strong>y, biom<strong>et</strong>ry, <strong>et</strong>c...), the miss<br />
classification costs are (i) asymm<strong>et</strong>ric as error consequences<br />
are class-dependant ; (ii) difficult to estimate, for instance<br />
when the classification process is embedded in a more<br />
complex system. In such cases, a single criterion might be a<br />
poor indicator. Since the works of Bradley [4] concerning<br />
the Receiver Operating Characteristics (ROC) curve,<br />
classifier model selection has been implicitly considered to<br />
be a multi-objective optimization problem, particularly in<br />
the context of a two-class classification problem. Indeed, a<br />
classifier ROC curve represents the s<strong>et</strong> of trade-offs b<strong>et</strong>ween<br />
False Rejection (FR) and False Acceptance (FA) rates (also<br />
known as sensitivity vs. specificity trade-off). As a<br />
consequence, some approaches have been proposed in order<br />
to choose the classifier hyper param<strong>et</strong>ers using the ROC<br />
curve as a performance indicator. Unfortunately, these<br />
approaches are always based on a reduction of the FR and<br />
FA rates into a single criterion such as the Area Under<br />
Curve (AUC) or the FMeasure (FM).<br />
In this section, classifier hyper param<strong>et</strong>ers tuning is<br />
explicitly considered to be a multi-objective optimization<br />
problem aiming at optimizing simultaneously FA and FR. It<br />
is tackled using the proposed MOPSO optimizer.<br />
Consequently, the aim is to use the proposed MOPSO to<br />
find a s<strong>et</strong> of classifiers in order to select the best s<strong>et</strong> of<br />
FA/FR trade-offs. Such a strategy is evaluated on data<br />
extracted from a real-world application which takes place in<br />
the context of a handwritten digit/outlier discrimination<br />
problem.
tel-00671168, version 1 - 8 Oct 2012<br />
154 Gérard Dupont <strong>et</strong> al<br />
On can note that some other combinations of SVM<br />
classifier and particle swarm optimization (limited to monoobjective<br />
optimization) can be found in the literature with<br />
different approaches. Two examples can be found in [32]<br />
and [24]. In the first one, the PSO is used to select the<br />
characteristics (genes in a tumor classification problem)<br />
exploited by the SVM classifier and thus appears as a very<br />
efficient preprocessing module in the overall classification<br />
system. And in the second one, a Modified PSO called the<br />
Converging Linear Particle Swarm Optimizer is proposed to<br />
replace the traditional learning algorithm. Tested against<br />
baseline algorithms on the handwritten characters database<br />
from MNIST, it has shown to have similar capabilities. In<br />
both studies, an original combination is proposed and<br />
promising results are presented. The following sections will<br />
describe our own proposal.<br />
The application is quickly described in subsection V-A,<br />
in order to justify our choices. The SVM classifier used and<br />
its optimization strategy are described in subsection V-B.<br />
Finally, obtained results are presented and discussed in V-C.<br />
A. Digits/outliers discrimination<br />
The work described in this section is part of the design of<br />
a more complex system which aims at extracting numerical<br />
fields (phone number, zip code, customer code, <strong>et</strong>c.) from<br />
incoming handwritten mail document images. The proposed<br />
approach is applied to a particular stage of this numerical<br />
field extraction system [7]. More precisely, the classifier to<br />
be optimized is used as a fast two-class classifier which has<br />
to identify the digits among a huge number of irrelevant<br />
shapes (words, l<strong>et</strong>ters, fragments of words, <strong>et</strong>c).<br />
Consequently, the classifier objective is to reject as many<br />
outliers as possible, while accepting as many digits as<br />
possible. However, rejecting a digit has a much more serious<br />
consequence than accepting an outlier. The rejected data<br />
will never be processed and thus a numerical field can be<br />
lost. If a non-digit is accepted, it will increase the<br />
computation cost on non-relevant data. This problem is a<br />
good example of a classification task with asymm<strong>et</strong>ric and<br />
unknown misclassification costs since the influence of a FA<br />
or a FR rate on the whole system results is unknown a priori.<br />
Concerning the classifier to be optimized, the Support<br />
Vector Machines classifier has been chosen for its wellknown<br />
efficiency in a two-class context.<br />
B. SVM classifier and optimization strategy<br />
Support Vector Machines are a well-founded and largely<br />
used learning machine algorithm which have been proved to<br />
be very effective on several real-world problems. In order to<br />
take into account asymm<strong>et</strong>ric misclassification costs, we<br />
adopt the strategy proposed in [22] that consists in the<br />
introduction of two distinct penalty param<strong>et</strong>ers C − and C +<br />
(also called positive and negative margins).<br />
Figure 5 : Schematic view of the SVM optimization<br />
strategy through MOPSO.<br />
In such a case, given a s<strong>et</strong> of m training examples xi<br />
belonging to the class yi, the classical maximization of the<br />
dual Lagrangian with respect to the αi becomes: max<br />
subject to the constraints :<br />
(17)<br />
Where αi denotes the Lagrange multipliers, C − and C + are<br />
respectively the cost factors for the two classes (−1) and<br />
(+1), and k (xi, xj) denotes the kernel transformation. In the<br />
classical case of a Gaussian (RBF) kernel, k (xi, xj) is<br />
defined as:<br />
k (xi, xj) = e −γ×||xi−xj ||2 (18)<br />
In accordance with [8], we choose to keep the intrinsic<br />
optimization of support vector in SVM using the Lagrangian<br />
maximization and we apply the optimization process to the<br />
classifier hyper-param<strong>et</strong>ers. Hence, our optimization<br />
param<strong>et</strong>ers are:<br />
the kernel param<strong>et</strong>er of the SVM-rbf : γ<br />
the penalty param<strong>et</strong>ers introduced above: C − and C + .<br />
As explained before, the criteria to be optimized are both<br />
the FA rate and the FR rate which are obtained by testing<br />
the hyperparam<strong>et</strong>ers s<strong>et</strong> on a test database. The proposed<br />
strategy is illustrated on figure 5.<br />
C. MOPSO on SVM experimentation and comparison<br />
In this section, the experimental results obtained using<br />
the approach shown on figure 5 are presented and discussed.<br />
Two kinds of tests are presented. The first one aims at<br />
showing the interests of our MOPSO improvements. The<br />
second one consists in a comparison of the proposed<br />
MOPSO with respectively a state of the art multi-objective<br />
algorithm (NSGA-II [11]) and a classic SVM model<br />
selection approach.<br />
Our first comparison has been made against a baseline
tel-00671168, version 1 - 8 Oct 2012<br />
<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 155<br />
MOPSO (standard ∈ dominance and random guide<br />
selection) in order to ensure that our contributions<br />
concerning MOPSO are efficient on a real world problem.<br />
The comparative results are presented on figure 6. As one<br />
can see, the problem does not appear to be difficult. The<br />
Par<strong>et</strong>o front estimation does not contain any discontinuity.<br />
However the gain of our contributions can be clearly<br />
observed. The standard MOPSO mainly focusses its search<br />
on the middle part of the front and has a poor description of<br />
the extremes. The results obtained using our approach are<br />
quite b<strong>et</strong>ter. One can be observed a b<strong>et</strong>ter homogeneity of<br />
the description and well defined extremes parts.<br />
Figure 6 : Final Par<strong>et</strong>o Front estimation for both baseline<br />
MOPSO (up) and enhanced (down) MOPSO.<br />
The second test concerns a comparison b<strong>et</strong>ween the<br />
proposed MOPSO and a state-of-the-art MOEA: the NSGA-<br />
II (report to [11] for a compl<strong>et</strong>e description). As the<br />
approach differs from ours, some adaptations have been<br />
needed to offer a fair comparison. The most important<br />
param<strong>et</strong>er is the archive size which is limited to the initial<br />
population size in NSGA-II. Thus our MOPSO<br />
implementation was modified in order to limit its archive<br />
size. Using such a limitation, ∈ value was dynamically<br />
computed with a specific heuristic in order to rebuild the<br />
archive. Both algorithms were ran using the same population<br />
size (40) for a limited number of objective evaluations<br />
(1000). Such values appear as good trade-offs b<strong>et</strong>ween the<br />
running time and the quality of the final Par<strong>et</strong>o s<strong>et</strong><br />
estimation. The results obtained are shown on figure 7 for<br />
the Par<strong>et</strong>o front estimation and on figure 8 for the m<strong>et</strong>rics<br />
previously introduced.<br />
Figure 7 : Final Par<strong>et</strong>o Front estimation for both approaches<br />
(NSAGII in green and enhanced MOPSO in red).<br />
One can note that we also introduce on figure 7 the<br />
results obtained using a classical SVM model selection<br />
called SVM-perf [34]. This approach has been configured to<br />
use the Area Under the ROC curve (AUC) as a single<br />
criterion during the classifier learning.<br />
Figure 8 : Comparative values of m<strong>et</strong>rics (NSAGII in green<br />
and enhanced MOPSO in red).<br />
One can observe on figure 7 that both MO approaches<br />
allow a major improvement of the classic optimization w.r.t.<br />
SVMperf approach. Of course, such a comparison is not fair<br />
from a theor<strong>et</strong>ical point of view since we compare a ROC<br />
curve obtained using a single param<strong>et</strong>erized classifier (using
tel-00671168, version 1 - 8 Oct 2012<br />
156 Gérard Dupont <strong>et</strong> al<br />
AUC as building criterion) with an approach that considers a<br />
s<strong>et</strong> of classifiers. Nevertheless, from a practitioner point of<br />
view, these results aim at justifying the use of a multiobjective<br />
optimization framework in the context of SVM<br />
model selection. Indeed, for a chosen FA/FR trade-off, our<br />
framework provides a solution to the practitioner which is<br />
b<strong>et</strong>ter than the solution obtained using a single classifier<br />
with a given output threshold.<br />
Concerning the comparison of our approach with NSGA-<br />
II, the qualitative analysis proposed on figure 7 does not<br />
conclude to any dominance b<strong>et</strong>ween the two multi objective<br />
optimizers. The quantitative comparison of m<strong>et</strong>ric values<br />
confirms this idea. The Figure 8 presents their variations per<br />
iteration and shows that both approaches obtain similar<br />
values very quickly. Thus the two approaches are quite<br />
comp<strong>et</strong>itive and perform both well on this problem. Such a<br />
result is quite interesting as it shows that our MOPSO<br />
implementation can comp<strong>et</strong>e with the state-of-the-art<br />
MOEA.<br />
VI. Conclusion and further works<br />
This paper introduces two contributions on two intrinsic<br />
difficulties faced when adapting the PSO to multi objective<br />
optimization: the archive and social guide management. Our<br />
variant on ∈ dominance enables a fast neighborhood<br />
management in criterion space and has proved to well<br />
maintain the diversity in the archive. Then our guide<br />
selection strategy and guide memorization have shown to<br />
allow the Par<strong>et</strong>o front estimation to be enhanced in its<br />
difficult parts. The validation of such m<strong>et</strong>hods has been<br />
made both on standard and real world problems and against<br />
a state-of-the-art multi objective optimizer. Our approach<br />
appears to be comp<strong>et</strong>itive and reliable.<br />
Managing neighborhood, in order to avoid premature<br />
convergence and to promote a good spreading of solutions<br />
on the Par<strong>et</strong>o front estimation, is an open problem and<br />
several authors have proposed ideas to tackle this problem.<br />
This paper proposes an approach which has proven its low<br />
computational cost and its performance on a s<strong>et</strong> of<br />
problems. A comparison with other proposal remains to be<br />
made in a near future.<br />
However, what we tried to prove here was that our<br />
implementation allows obtaining a b<strong>et</strong>ter Par<strong>et</strong>o s<strong>et</strong><br />
estimation than others using the classic ∈ dominance. Our<br />
proposition on the guide selection allows studying the guide<br />
memorization, a topic rarely discussed in other studies. It<br />
has shown to allow a significant improvement while keeping<br />
the MOPSO performance at the state-of-the-art level on a<br />
real world problem. Thus our approach appears as a good<br />
improvement to easily handle neighborhood in criterion<br />
space.<br />
Much more experiments can then be conducted in order<br />
to compare to more MOPSO implementations. But before<br />
this, other improvements can be studied to go beyond the<br />
ones proposed in this paper. In particular, after proposing a<br />
new guide selection strategy, we are looking on the personal<br />
best management and selection which is the most natural<br />
continuation of our researches. The problem of the extremes<br />
handling, which has been partly solved by the neighborhood<br />
management, is always present because of the bias<br />
introduced by the relative ∈ dominance. This will also be<br />
one of the next big steps of our future work. The<br />
management of algorithms param<strong>et</strong>ers also needs to be finer<br />
studied and our aim is to reduce the number of algorithm<br />
param<strong>et</strong>ers (some successful tests have been conducted on<br />
an auto adaptive ∈). Then, the neighborhood has to be<br />
enlarged to the param<strong>et</strong>er space. It will avoid a guide to be<br />
selected when it will add to much turbulence to its<br />
movements because its param<strong>et</strong>ers combinaison is too<br />
different from the guided particle.<br />
We also want to adapt our experimental approach to a<br />
more realistic environment in order to ensure the usability of<br />
our particle swarm optimizer. Some experiments will be<br />
conducted by considering the kernel choice as a new<br />
param<strong>et</strong>ers in the optimization process for SVM model<br />
selection. This induces h<strong>et</strong>erogeneity in the param<strong>et</strong>ers but it<br />
can be tackled by MOPSO without too many difficulties.<br />
This research path is particularly valuable since it really<br />
helps the engineers to design their systems which have<br />
several h<strong>et</strong>erogeneous param<strong>et</strong>ers. Finally, we plan to<br />
enlarge our s<strong>et</strong> of applications in terms of system<br />
complexity and domains. Information r<strong>et</strong>rieval systems will<br />
be our most promising research paths especially for<br />
information extraction tasks through linguistic patterns<br />
which involve many param<strong>et</strong>ers.<br />
References<br />
[1] J.E. Alvarez-Benitez, R.M. Everson, and J.E.<br />
Fieldsend. Mopso algorithm based exclusively on<br />
par<strong>et</strong>o dominance concepts. Third International<br />
Conference on Evolutionary Mutli-Criterion<br />
Optimization, pages 726–732, 2005.<br />
[2] Alexandre M. Baltar and Darrell G. Fontane. A<br />
generalized multi objective particle swarm<br />
optimization solver for spreadshe<strong>et</strong> models:<br />
application to water quality. In AGU Hydrology<br />
Days 2006, March 2006.<br />
[3] To Thanh Binh and Urlich Korn. MOBES: A multi<br />
objective evolution strategy for constrained<br />
optimization problems. In The Third International<br />
Conference on Gen<strong>et</strong>ic Algorithms (Mendel 97),<br />
pages 176–182, Brno, Czech Republic, 1997.<br />
[4] Bradley. The use of the area under the roc curve in<br />
the evaluation of machine learning algorithms.<br />
Pattern- Recognition, 30:11451159, 1997.<br />
[5] J¨urgen Branke and Sanaz Mostaghim. About<br />
selecting the personal best in multi-objective<br />
particle swarm optimization. In Parallel Problem<br />
Solving from Nature, volume 4193 of Lecture<br />
Notes in Computer Science, pages 523–532.<br />
Springer, September 2006. ISBN=3- 540-38990-3.
tel-00671168, version 1 - 8 Oct 2012<br />
<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 157<br />
[6] L<strong>et</strong>icia Cagnina, Susana Esquivel, and Carlos A.<br />
Coello Coello. A particle swarm optimizer for<br />
multi-objective optimization. Journal of Computer<br />
Science & Technology, 5(4), 2005.<br />
[7] Chatelain Cl´ement. Extraction de squences<br />
numriques dans des documents manuscrits<br />
quelconques. Phd thesis, University of Rouen,<br />
December 2006.<br />
[8] Chatelain Cl´ement, Adam S´ebastien, Lecourtier<br />
Yves, Heutte Laurent, and Paqu<strong>et</strong> Thierry. <strong>Multi</strong>objective<br />
optimization for svm model selection. In<br />
ICDAR07 – to be published, 2007.<br />
[9] Carlos A. Coello Coello. Evolutionary <strong>Multi</strong>-<br />
Criterion Optimization: First International<br />
Conference, volume 1993/2001 of Lecture Notes in<br />
Computer Science, chapter A Short Tutorial on<br />
Evolutionary <strong>Multi</strong>objective Optimization, page<br />
21. Springer Berlin / Heidelberg, emo edition,<br />
2001.<br />
[10] Carlos A. Coello Coello and Maximino Salazar<br />
Lechuga. A proposal for multiple objective particle<br />
swarm optimization. Computational Intelligence,<br />
pages 12–17, May 2002.<br />
[11] K. Deb, A. Pratap, S. Agarwal, and T. Meyarivan.<br />
A fast and elitist multiobjective gen<strong>et</strong>ic algorithm :<br />
Nsgaii. IEEETransactions on Evolutionary<br />
Computation, 6:182197, 2002.<br />
[12] Kalyanmony Deb. <strong>Multi</strong>-Objective Optimization<br />
Using Evolutionary Algorithms. John Wiley and<br />
Sons, 2001. ISBN 047187339X.<br />
[13] David E. (edward) Goldberg. Gen<strong>et</strong>ic algorithms in<br />
search, optimization & machine learning. Addison-<br />
Wesley Publishing Co. - Reading, Mass, 1989.<br />
[14] J. Fieldsend and S. Singh. A multi-objective<br />
algorithm based upon particle swarm optimisation.<br />
In The 00 U.K. Workshop on Computational<br />
Intelligence, pages 34–44, 2002.<br />
[15] J. Kennedy and R. Eberhart. Particle swarm<br />
optimization. Neural N<strong>et</strong>works, 1995.<br />
Proceedings., IEEE International Conference on,<br />
4:1942–1948, 1995.<br />
[16] N. M. Kwok, D. K. Liu, and G. Dissanayake.<br />
Evolutionary computing based mobile robot<br />
localization. Engineering Applications of Artificial<br />
Intelligence, 19(8):857–868, December 2006.<br />
[17] Marco Laumanns, Lothar Thiele, Kalyanmoy Deb,<br />
and Eckart Zitzler. Combining convergence and<br />
diversity in evolutionary multiobjective<br />
optimization. MIT Press in Evolutionary<br />
Computation, 10, n3:263–282, 2002.<br />
[18] Sanaz Mostaghim and J¨urgen Teich. The role of "-<br />
dominance in multi-objective particle swarm<br />
optimization. In Proc. CEC´ 03, the Congress on<br />
Evolutionary Computation, volume 3, pages 1764–<br />
1771, Canberra, Australia, December 2003.<br />
[19] Sanaz Mostaghim and J¨urgen Teich. Strategies for<br />
finding good local guides in multi-objective<br />
particle swarm optimization. In Swarm Intelligence<br />
Symposium, Indianapolis, USA, April 2003. IEEE<br />
service center.<br />
[20] Sanaz Mostaghim and J¨urgen Teich. Covering<br />
par<strong>et</strong>o optimal fronts by subswarms in multiobjective<br />
particle swarm optimization. In IEEE<br />
Proceedings, World Congress on Computational<br />
Intelligence (CEC’04), volume 2, pages 1404–<br />
1411, Portland, USA, June 2004.<br />
[21] C. R. Mouser and S. A. Dunn. Comparing gen<strong>et</strong>ic<br />
algorithms and particle swarm optimisation for an<br />
inverse problem exercise. In Rob May and A. J.<br />
Roberts, editors, Proc. of 12th Computational<br />
Techniques and Applications Conference CTAC-<br />
2004, volume 46, pages C89–C101, March 2005.<br />
[22] Osuna, Freund R., and Girosi F. Support vector<br />
machines: Training and applications. 1997.<br />
[23] Elpiniki Papageorgiou, Konstantinos Parsopoulos,<br />
Chrysostomos Stylios, P<strong>et</strong>ros Groumpos, and<br />
Michael Vrahatis. Fuzzy cognitive maps learning<br />
using particle swarm optimization. Journal of<br />
Intelligent Information Systems, 25(1):95–121,<br />
July 2005.<br />
[24] A.P. Paqu<strong>et</strong>, U.; Engelbrecht. Training support<br />
vector machines with particle swarms. In Neural<br />
N<strong>et</strong>works, 2003. Proceedings of the International<br />
Joint Conference on, volume 2, pages 1593 – 1598,<br />
2003.<br />
[25] Vilfredo Par<strong>et</strong>o. Cours d’Economie Politique.<br />
1897.<br />
[26] K. E. Parsopoulos and M. N. Vrahatis. Recent<br />
approaches to global optimization problems<br />
through particle swarm optimization. Natural<br />
Computing, 1(2):235–306, June 2002.<br />
[27] Margarita Reyes-Sierra and Carlos A. Coello<br />
Coello. Improving pso-based multi-objective<br />
optimization using crowding, mutation and epsilondominance.<br />
In Evolutionary <strong>Multi</strong>-Criterion<br />
Optimization. Third International Conference,<br />
volume 3410 of Lecture Notes in Computer<br />
Science, pages 505–519. Springer, 2005.<br />
[28] Margarita Reyes-Sierra and Carlos A. Coello<br />
Coello. <strong>Multi</strong>-objective particle swarm optimizers:<br />
A survey of the state-of-the-art. International<br />
Journal of Computational Intelligence Research<br />
(IJCIR), 2:287–308, 2006.<br />
[29] Mara Margarita Reyes-Sierra. Use of Coevolution<br />
and Fitness Inheritance for <strong>Multi</strong>-Objective Particle<br />
Swarm Optimization. PhD thesis, Center of<br />
Research and Advanced Studies of the National<br />
Polytechnic Institute, Mexico City, Mexico, August<br />
25th 2006.<br />
[30] J. R. Schott. Fault tolerant design using single and<br />
multi-criteria gen<strong>et</strong>ic algorithms. Master’s thesis,<br />
Department of Aeronautics and Astronautics,<br />
Massachus<strong>et</strong>ts Institute of Technology, 1995.<br />
[31] Matthew S<strong>et</strong>tles, Brandon Rodebaugh, and Terence
tel-00671168, version 1 - 8 Oct 2012<br />
158 Gérard Dupont <strong>et</strong> al<br />
Soule. Comparison of gen<strong>et</strong>ic algorithm and<br />
particle swarm optimizer when evolving a recurrent<br />
neural n<strong>et</strong>work. In Springer Berlin / Heidelberg,<br />
editor, Gen<strong>et</strong>ic and Evolutionary Computation<br />
GECCO 2003, volume 2723/2003 of Lecture Notes<br />
in Computer Science, pages 148–149, 2003.<br />
[32] Qi Shen, Wei-Min Shi, Wei Kong, and Bao-Xian<br />
Ye. A combination of modified particle swarm<br />
optimization algorithm and support vector machine<br />
for gene selection and tumor classification. Talanta,<br />
In Press, Corrected Proof, 2006.<br />
[33] M. Tanaka, H. Watanabe, Y. Furukawa, and T.<br />
Tanino. GA-based decision support system for<br />
multicriteria optimization. In 1995 IEEE<br />
International Conference on Systems, Man and<br />
Cybern<strong>et</strong>ics. Intelligent Systems for the 21st<br />
Century (Cat. No. 95CH3576-7), volume 2, pages<br />
1556–61, New York, NY, USA, 1995. IEEE.<br />
[34] Joachims Thorsten. A support vector m<strong>et</strong>hod for<br />
multivariate performance measures. In Conference<br />
on Machine Learning (ICML), 2005.<br />
[35] F. van den Bergh and A. P. Engelbrecht. A study of<br />
particle swarm optimization particle trajectories.<br />
Information Sciences, 176(8):937–971, April 2006.<br />
[36] Hong Zhang, C. M. Tam, and Heng Li. <strong>Multi</strong>mode<br />
project scheduling based on particle swarm<br />
optimization. Computer Aided Civil and<br />
Infrastructure Engineering, 21(2):93–103, February<br />
2006.<br />
[37] Eckart Zitzler, Kalyanmoy Deb, and Lothar Thiele.<br />
Comparison of multiobjective evolutionary<br />
algorithms: Empirical results. Evolutionary<br />
Computation, 8(2):173–195, 2000.<br />
Author Biographies<br />
G´erard DUPONT was born in 1982 in Poitiers, France. He<br />
received two M.S. degrees in computer engineering and<br />
computer science at Rouen University in 2006. Since then,<br />
he began a Ph.D. degree in computer science at EADS-DS<br />
in Val de Reuil (France) and with the LITIS Laboratory of<br />
computer science in Rouen University on implicit feedback<br />
learning for semantic information r<strong>et</strong>rieval. His research<br />
interests include evolutionary multi objective optimization,<br />
swarm intelligence, learning algorithm, information r<strong>et</strong>rieval<br />
and semantic.<br />
Sébastien ADAM was born in 1975 in Dieppe, France. He<br />
received a PhD in graphical document analysis from the<br />
University of Rouen in 2001. This PhD has been led for<br />
France Telecom, the historical French telecommunication<br />
operator and tackles the problem of multi-oriented and<br />
multi-scaled pattern recognition. Then he joined the LITIS<br />
labs in Rouen, France. His domains of interest are at the<br />
merging of document analysis and multi-objective<br />
optimization.<br />
Yves LECOURTIER was born in Marseilles in 1950. After<br />
a thesis in signal processing in 1978, and a second thesis in<br />
physics (Automatic Control) in 1985 from the University of<br />
Paris-Sud, Orsay, France, he joined the University of Rouen<br />
as a Professor in 1987. His research domain is in pattern<br />
recognition and optimisation, especially for document<br />
analysis and text recognition. Pr. Lecourtier is a member of<br />
AFRIF, ASTI, IAPR. From 1994 to 2000, he was the<br />
chairman of the GRCE, a french soci<strong>et</strong>y which gather most<br />
of the french researchers working in document analysis and<br />
text recognition fields.<br />
Bruno GRILHERES joined EADS Information Processing<br />
Comp<strong>et</strong>ence Center in 2002. He has been working on Edemocracy<br />
and Text Mining. He led the technical<br />
architecture activity on IST CyberVote (IST Prize 2006) and<br />
Trade Chamber Elections. He has acted as information<br />
technology consultant for EADS Defense and Security<br />
Global Security and Mission Systems, Airbus. He is<br />
currently compl<strong>et</strong>ing a PhD (to be presented in 2007) on<br />
statistical learning for information extraction.
tel-00671168, version 1 - 8 Oct 2012<br />
xlvi Annexe C. Réference CV : 4
tel-00671168, version 1 - 8 Oct 2012<br />
Annexe D<br />
Réference CV : 2<br />
C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. A multimodel<br />
selection framework for unknown and/or evolutive misclassification cost<br />
problems. Pattern Recognition (PR), 43(3) :815-823, 2010.<br />
xlvii
tel-00671168, version 1 - 8 Oct 2012<br />
Pattern Recognition 43 (2010) 815 -- 823<br />
Contents lists available at ScienceDirect<br />
Pattern Recognition<br />
journal homepage: www.elsevier.com/locate/pr<br />
A multi-model selection framework for unknown and/or evolutive misclassification<br />
cost problems<br />
Clément Chatelain, Sébastien Adam, Yves Lecourtier, Laurent Heutte ∗ , Thierry Paqu<strong>et</strong><br />
Université de Rouen, LITIS EA 4108, BP12, 76801 Saint Etienne du Rouvray, France<br />
A R T I C L E I N F O A B S T R A C T<br />
Article history:<br />
Received 11 January 2008<br />
Received in revised form 24 February 2009<br />
Accepted 5 July 2009<br />
Keywords:<br />
ROC front<br />
<strong>Multi</strong>-model selection<br />
<strong>Multi</strong>-objective optimization<br />
ROC curve<br />
Handwritten digit/outlier discrimination<br />
1. Introduction<br />
Tuning the hyperparam<strong>et</strong>ers of a classifier is a critical step for<br />
building an efficient pattern recognition system as this crucial aspect<br />
of model selection strongly impacts the generalization performance.<br />
In the literature, many contributions in this field have focused on the<br />
computation of the model selection criterion, i.e. the value which is<br />
optimized with respect to the hyperparam<strong>et</strong>ers. These contributions<br />
have led to efficient scalar criteria and strategies used to estimate<br />
the expected generalization error. One can cite Xi-Alpha bound of<br />
[24], the generalized approximate cross-validation of [33], the empirical<br />
error estimate of [3], the radius-margin bound of [9] or the<br />
maximal-discrepancy of [2]. Based on these criteria, hyperparam<strong>et</strong>ers<br />
are usually chosen using a grid search, coupled with a crossvalidation<br />
procedure. In order to decrease the computational cost of<br />
grid search, some authors suggest to use gradient-based techniques<br />
(e.g. [4,25]). In these works, the performance validation function is<br />
adapted in order to be differentiable with respect to the param<strong>et</strong>ers<br />
to be optimized.<br />
All the approaches mentioned above, though efficient, use a single<br />
criterion as the objective during the optimization process. Now, it is<br />
well known that a single criterion is not always a good performance<br />
indicator. Indeed, in many real-world pattern recognition problems<br />
(medical domain, road saf<strong>et</strong>y, biom<strong>et</strong>ry, <strong>et</strong>c.), the misclassification<br />
∗ Corresponding author.<br />
E-mail address: Laurent.Heutte@univ-rouen.fr (L. Heutte).<br />
0031-3203/$ - see front matter © 2009 Elsevier Ltd. All rights reserved.<br />
doi:10.1016/j.patcog.2009.07.006<br />
In this paper, we tackle the problem of model selection when misclassification costs are unknown and/or<br />
may evolve. Unlike traditional approaches based on a scalar optimization, we propose a generic multimodel<br />
selection framework based on a multi-objective approach. The idea is to automatically train a pool<br />
of classifiers instead of one single classifier, each classifier in the pool optimizing a particular trade-off<br />
b<strong>et</strong>ween the objectives. Within the context of two-class classification problems, we introduce the “ROC<br />
front concept” as an alternative to the ROC curve representation. This strategy is applied to the multimodel<br />
selection of SVM classifiers using an evolutionary multi-objective optimization algorithm. The<br />
comparison with a traditional scalar optimization technique based on an AUC criterion shows promising<br />
results on UCI datas<strong>et</strong>s as well as on a real-world classification problem.<br />
© 2009 Elsevier Ltd. All rights reserved.<br />
costs are (i) asymm<strong>et</strong>ric as error consequences are class-dependant;<br />
(ii) difficult to estimate (for example when the classification process<br />
is embedded in a more complex system) or subject to change (for<br />
example in the field of fraud d<strong>et</strong>ection where the amount of fraud<br />
changes monthly). In such cases, a single criterion might be a poor<br />
performance indicator.<br />
Onesolutiontotackl<strong>et</strong>hisproblemistouseasperformance<br />
indicator the receiver operating characteristics (ROC) curve proposed<br />
in [6]. Such a curve offers a synth<strong>et</strong>ic representation of the trade-off<br />
b<strong>et</strong>ween the true positive (TP) rate and the false positive (FP) rate,<br />
also known as sensitivity vs. specificity trade-off. One way to take into<br />
account both FP and TP in the model selection process is to resume<br />
the ROC curve into a single criterion, such as the F-measure (FM), the<br />
break-even point (BEP) or the area under ROC curve (AUC). However,<br />
we will show in the following that we can g<strong>et</strong> more advantages<br />
in formulating the model selection problem as a true 2-D objective<br />
optimization task.<br />
In this paper, our key idea is to turn the problem of the search for<br />
a global optimal classifier (i.e. the best s<strong>et</strong> of hyperparam<strong>et</strong>ers) using<br />
a single criterion or a resume of the ROC curve, into the search for a<br />
pool of locally optimal classifiers (i.e. the pool of the best s<strong>et</strong>s of hyperparam<strong>et</strong>ers)<br />
w.r.t. FP/TP rates. The best classifier among the pool<br />
can then be selected according to the needs of some practitioner.<br />
Consequently, the proposed framework can be viewed as a multiple<br />
model selection approach (rather than a model selection problem)<br />
and can naturally be expressed in a multi-objective optimization<br />
(MOO) framework. Under particular conditions, we assume that<br />
such an approach leads to very interesting results since it enables
tel-00671168, version 1 - 8 Oct 2012<br />
816 C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823<br />
Fig. 1. <strong>Multi</strong>-model selection framework.<br />
a practitioner to (i) postpone the choice of the final classifier as late<br />
as possible and (ii) to change the classifier without a computationally<br />
expensive new learning stage when targ<strong>et</strong> conditions change.<br />
Fig. 1 depicts our overall multi-model selection process. The<br />
resulting output of such a process is a pool of classifiers, each one<br />
optimizing some FP/TP rate trade-off. The s<strong>et</strong> of trade-off values<br />
constitutes an optimal front we call “ROC front” by analogy with<br />
MOO field.<br />
The remainder of the paper is organized as follows. In Section 2,<br />
we d<strong>et</strong>ail the rationale behind the ROC front concept and illustrate<br />
how our multi-model selection approach may provide solutions that<br />
outperform traditional approaches in a MOO framework. Section 3<br />
gives an overview of multi-objective optimization strategies and d<strong>et</strong>ails<br />
the algorithm used in the proposed framework to compute the<br />
“ROC front”. Section 4 presents a particular application of our approach<br />
to the problem of SVM hyperparam<strong>et</strong>er selection and shows<br />
that our m<strong>et</strong>hod enables to reach more interesting trade-offs than<br />
traditional model selection techniques on standard benchmarks (UCI<br />
datas<strong>et</strong>s). In Section 5, we discuss ways of selecting the best model<br />
from the pool of locally optimal models. Then, in order to assess the<br />
usefulness of our approach, we present in Section 6 its application on<br />
a real world classification problem which consists in a digit/outlier<br />
discrimination task embedded in a numerical field extraction system<br />
for handwritten incoming mail documents. Finally, a conclusion and<br />
future works are drawn in Section 7.<br />
2. The “ROC front” concept<br />
As stated in the Introduction, a model selection problem may be<br />
seen from a multi-objective point of view, turning thus into a multimodel<br />
selection approach. In the literature, some multi-model selection<br />
approaches have been proposed. However, these approaches<br />
aim at designing a single classifier and thus cannot be considered<br />
as real multi-model selection approaches. Caruana for example proposed<br />
in [8] an approach for constructing ensembles of classifiers, but<br />
this m<strong>et</strong>hod aims at combining these classifiers in order to optimize a<br />
scalar criterion (accuracy, cross-entropy, mean precision, AUC). Bagging,<br />
boosting or error-correcting-output-codes (ECOC) [17] are also<br />
classifier ensemble m<strong>et</strong>hods that can be viewed as producing single<br />
classifiers efficient with respect to a scalar performance m<strong>et</strong>ric.<br />
In [27], an evolutionary algorithm (EA) based approach is applied<br />
to find the best hyperparam<strong>et</strong>ers of a s<strong>et</strong> of binary SVM classifiers<br />
combined to produce a multi-class classifier.<br />
The approach which is proposed in this paper is different since<br />
our aim is not to build a single classifier but a pool of classifiers,<br />
each one optimizing both FP and TP rates in the ROC space. In such<br />
a context, l<strong>et</strong> us recall that a problem arising when ROC space is<br />
used to quantify classifier performance is their comparison in a 2-D<br />
Fig. 2. Comparing ROC curves: the solid ROC curve provides a b<strong>et</strong>ter AUC than the<br />
dashed ROC curve, but is not locally optimal for a given range of specificity (false<br />
positive rate).<br />
objective space: a classifier may be b<strong>et</strong>ter for one of the objectives<br />
(e.g. FP) and worse for the other one (e.g. TP). Consequently, the<br />
strict order relation that can be used to compare classifiers when a<br />
single objective is only considered becomes unusable and classical<br />
mono-objective optimization strategies cannot be applied.<br />
Usually, in ROC space, this problem is tackled using a reduction<br />
of the FP and TP rates into a single criterion such as the area under<br />
ROC curve (AUC) [30]. However, such performance indicators are a<br />
resume of the ROC curve taken as a whole and do not consider the<br />
curve from a local point of view. The didactic example proposed<br />
in Fig. 2 illustrates this statement. One can see on this figure two<br />
synth<strong>et</strong>ic ROC curves. The curve plotted as solid line has a b<strong>et</strong>ter AUC<br />
value, but the corresponding classifier is not b<strong>et</strong>ter for any specific<br />
desired value of FP rate (resp. TP). Consequently, optimizing such<br />
a scalar criterion to find the best hyperparam<strong>et</strong>ers could lead to<br />
solutions that do not fit the practitioner needs in certain context. A<br />
b<strong>et</strong>ter idea could be to optimize simultaneously FP and TP rates using<br />
a MOO framework and a dominance relation to compare classifier<br />
performance.<br />
L<strong>et</strong> us recall that the dominance concept has been proposed by<br />
Vilfredo Par<strong>et</strong>o in the 19th century. A decision vector −→ u is said to<br />
dominate another decision vector −→ v if −→ u is not worse than −→ v for any<br />
objective function and if −→ u is b<strong>et</strong>ter than −→ v for at least one objective<br />
function. This is denoted by −→ u ≺ −→ v . More formally, in the case of<br />
the minimization of all the objectives, a vector −→ u = (u1, u2,...,u k)<br />
dominates a vector −→ v = (v1, v2,...,v k) if and only if:<br />
∀i ∈{1,...,k}, u i v i ∧∃j ∈{1,...,k} : u j < v j<br />
Using such a dominance concept, the objective of a multi-objective<br />
optimization algorithm is to search for the Par<strong>et</strong>o optimal s<strong>et</strong> (POS),<br />
defined as the s<strong>et</strong> of all non-dominated solutions of the problem.<br />
Such a s<strong>et</strong> is formally defined as the s<strong>et</strong>:<br />
POS ={ −→ u ∈ /¬∃ −→ v ∈ , −−→<br />
f (v) ≺ −−→<br />
f (u)}<br />
where denotes the feasible region (i.e. the param<strong>et</strong>er space regions<br />
where the constraints are satisfied) and −→ f denotes the objective<br />
function vector. The corresponding values in the objective space<br />
constitute the so-called Par<strong>et</strong>o front.<br />
From our model selection point of view, the POS corresponds to<br />
the pool of non-dominated classifiers (the pool of the best s<strong>et</strong>s of<br />
hyperparam<strong>et</strong>ers). In this pool, each classifier optimizes a particular<br />
FP/TP trade-off. The resulting s<strong>et</strong> of FP/TP points constitutes an<br />
optimal front we call “ROC front”. This concept is illustrated with a<br />
didactic example as shown in Fig. 3: l<strong>et</strong> us assume that ROC curves<br />
have been obtained from three distinct hyperparam<strong>et</strong>er s<strong>et</strong>s. This<br />
could lead to the three synth<strong>et</strong>ic curves plotted as dashed lines. One
tel-00671168, version 1 - 8 Oct 2012<br />
Fig. 3. Illustration of the ROC front concept: the ROC front depicts the FP/TP<br />
performance corresponding to the pool of non-dominated operating points.<br />
can see on this example that none of the classifiers dominates the<br />
others on the whole range of FP/TP rates. An interesting solution for<br />
a practitioner is the “ROC front” (the dotted solid curve), which is<br />
made of some non-dominated parts of each classifier ROC curves.<br />
The m<strong>et</strong>hod proposed in this paper aims at finding this “ROC front”<br />
(and the corresponding POS), using an evolutionary multi-objective<br />
optimization (EMOO) algorithm. This class of optimization algorithm<br />
has been chosen since evolutionary algorithms (EA) are known to be<br />
well-suited to search for multiple Par<strong>et</strong>o optimal solutions concurrently<br />
in a single run, through their implicit parallelism.<br />
In the following section, a brief review of existing EMOO algorithms<br />
is proposed and the chosen algorithm is described.<br />
3. Evolutionary multi-objective optimization<br />
As stated earlier, our objective in this paper is to search for a<br />
pool of param<strong>et</strong>rized classifiers corresponding to the optimal s<strong>et</strong> of<br />
FP/TP trade-offs. From a multi-objective optimization point of view,<br />
this s<strong>et</strong> can naturally be seen as the Par<strong>et</strong>o optimal s<strong>et</strong> and the s<strong>et</strong><br />
of corresponding FP/TP trade-offs is the ROC front. To tackle such a<br />
problem of searching a s<strong>et</strong> of solutions describing the Par<strong>et</strong>o front,<br />
EA are known to be well-suited. This is why we do not consider in<br />
our review the approaches that optimize a single objective using the<br />
aggregation of different objectives into a single one (e.g. the use of<br />
the AUC) or the transformation of some objectives into constraints.<br />
For more d<strong>et</strong>ails concerning these m<strong>et</strong>hods, see for example [16].<br />
3.1. Short review of existing approaches<br />
Since the pioneering work of [31] in the mid eighties, a considerable<br />
amount of EMOO approaches have been proposed (MOGA from<br />
[21], NSGA from [32], NPGA from [23], SPEA from [37], NSGA II from<br />
[15], PESA from [12], SPEA2 [36]). In a study reported in [26] the<br />
performance of the three most popular algorithms (SPEA2, PESA and<br />
NSGA-II) are compared. These three approaches are elitist, i.e. they<br />
all use a history archive that records all the non-dominated solutions<br />
previously found in order to ensure the preservation of good<br />
solutions. This comparative study has been performed on different<br />
test problems using as quality measurement the two important criteria<br />
of an EMOO, i.e. the closeness to the Par<strong>et</strong>o front and the solution<br />
distribution in the objective space. Indeed, achieving a good<br />
spread and a good diversity of solutions on the obtained front is important<br />
to give the user as many choices as possible. The results obtained<br />
in [26] (which are corroborated in [36,7]) showed that none of<br />
the proposed algorithms “dominate” the others in the Par<strong>et</strong>o sense.<br />
SPEA2 and NSGA-II perform equally well in convergence and diversity<br />
maintenance. Their convergence through the real Par<strong>et</strong>o optimal<br />
C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823 817<br />
s<strong>et</strong> is inferior to that of PESA but diversity among solutions is b<strong>et</strong>ter<br />
maintained. The study also showed that NSGA-II is faster than<br />
SPEA2, because of the expensive clustering of solutions in SPEA2.<br />
In the context of multi-model selection, computation of the objective<br />
values is often very time consuming since it involves learning<br />
and testing the classifier for each hyperparam<strong>et</strong>er s<strong>et</strong>. Moreover,<br />
a good diversity of solutions is necessary since there is no a priori<br />
information concerning the adequate operating point on the Par<strong>et</strong>o<br />
front. That is why we have chosen to use NSGA-II in the context of<br />
our study. We give in the next subsection a concise description of<br />
this algorithm. For more d<strong>et</strong>ails, we refer to [15].<br />
3.2. NSGA-II<br />
NSGA II is a modified version of a previously proposed algorithm<br />
called NSGA [32]. It is a population-based, fast, elitist and param<strong>et</strong>er<br />
free approach that uses an explicit diversity preserving mechanism.<br />
Algorithm 1. NSGA-II algorithm.<br />
P0 ← pop-init()<br />
Q0 ← make-new-pop (P0)<br />
t ← 0<br />
while t < M do<br />
Rt ← Pt ∪ Qt<br />
F ← non-dominated-sort(Rt)<br />
Pt+1 ←∅<br />
i ← 0<br />
while |Pt+1|+|Fi| N do<br />
Pt+1 ← Pt+1 ∪ Fi crowding-distance-assignment(Fi) i ← i + 1<br />
end while<br />
Sort (Fi, ≺n)<br />
Pt+1 ← Pt+1 ∪ Fi[1 : (N −|Pt+1|)]<br />
Qt+1 ← make-new-pop (Pt+1)<br />
t ← t + 1<br />
end while<br />
As one can see in Algorithm 1, the approach starts with the random<br />
creation of a parent population P0 of N solutions (individuals).<br />
This population is used to create an offspring population Q0. For this<br />
step, P0 is first sorted using a non-domination criterion. This sorting<br />
assigns to each individual a domination rank. The non-dominated<br />
individuals have rank 1, they constitute the front F1. Then, the others<br />
front F i are defined recursively by ignoring the lower ranked<br />
solutions. This ranking is illustrated on the left of Fig. 4 in the case<br />
of a two-objective problem (f1,f2). Using the results of the sorting<br />
procedure, each individual is assigned a fitness equal to its nondomination<br />
level. Then, binary tournament selection, recombination<br />
and mutation operators (see [22,15]) are used to create a child population<br />
Q0 with the same size as P0.<br />
After these first steps, the main loop is applied for M generations.<br />
In each loop of this algorithm, t denotes the current generation,<br />
F denotes the result of the non-domination sorting procedure, i.e.<br />
F ={F i} where F i denotes the ith front. Pt and Qt denote the<br />
population and the offspring at generation t, respectively, and Rt is<br />
a temporary population.<br />
As one can see, the main loop of the algorithm starts with a merging<br />
of the current Pt and Qt to build Rt. Thispopulationof2N solutions<br />
is sorted using the non-domination sorting procedure in order<br />
to build the population Pt+1. In this step, a second sorting criterion<br />
is used to keep Pt+1 to a constant size N during the integration of<br />
the successive F i. Its aim is to take into account the contribution<br />
of the solutions to the spread and the diversity of objective function
tel-00671168, version 1 - 8 Oct 2012<br />
818 C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823<br />
Fig. 4. Illustration of the Fi concept (left). Illustration of the crowding distance concept (right). The black points stand for the dominant vectors, whereas white ones are<br />
dominated.<br />
values in the population. This sorting is based on a measure called<br />
crowding_distance. This measure which is precisely described in [15]<br />
is based on the average distance of the two points on both sides of<br />
this point along each of the objectives. This measure is illustrated<br />
on the right of Fig. 4. The larger the surface around the considered<br />
point, the b<strong>et</strong>ter the solution from the diversity point of view. Using<br />
such values, the solutions in Rt that most contribute to the diversity<br />
are preferred in the construction of Pt+1. This step is illustrated<br />
in Algorithm 1 through the use of Sort(F i,≺n), where ≺n denotes a<br />
partial order relation based on both domination and crowding distance.<br />
According to this relation, a solution i is b<strong>et</strong>ter than a solution<br />
j if i rank < j rank or if (i rank = j rank) and(i distance > j distance). One can note<br />
that ≺n is also used in the tournament operator.<br />
Using this algorithm, the population Pt necessarily converges<br />
through a s<strong>et</strong> of points of the Par<strong>et</strong>o front of the problem since nondominated<br />
solutions are preserved along generations. Furthermore,<br />
the use of the crowding-distance as a sorting criterion guarantees a<br />
good diversity in the population [15]. In the following section, NSGA-<br />
II is used in the proposed framework for SVM multi-model selection.<br />
4. Application to SVM multi-model selection<br />
As explained in the previous sections, the proposed framework<br />
aims at finding a pool of classifiers, optimizing simultaneously FP<br />
and TP rates. The approach can be used for any classifier that uses at<br />
least one hyperparam<strong>et</strong>er. In this section, we have chosen to consider<br />
support vector machines (SVM) since it is well known that the choice<br />
of SVM model param<strong>et</strong>ers can dramatically affect the quality of their<br />
solution. Moreover, the problem of SVM model selection is known<br />
to be a difficult problem.<br />
4.1. SVM classifiers and their hyperparam<strong>et</strong>ers for model selection<br />
As stated in [28], classification problems with asymm<strong>et</strong>ric and<br />
unknown misclassification costs can be tackled using SVM through<br />
the introduction of two distinct penalty param<strong>et</strong>ers C− and C+. In<br />
such a case, given a s<strong>et</strong> of m training samples x i in R n belonging to<br />
class y i:<br />
(x1, y1)...(xm, ym), x i ∈ R n , y i ∈{−1, +1}<br />
the maximization of the dual Lagrangian with respect to the i becomes<br />
⎧<br />
⎨ m<br />
Max i −<br />
⎩<br />
i=1<br />
1<br />
⎫<br />
m<br />
⎬<br />
<br />
2<br />
ijyiy jK(xi, xj) ⎭<br />
i,j=1<br />
⎧<br />
⎪⎨<br />
0 i C+ for yi =−1<br />
0 <br />
s.t. the constraints : i C− for yi =+1<br />
m<br />
⎪⎩ iyi = 0<br />
i=1<br />
where i denote the Lagrange multipliers and K(·) denotes the kernel.<br />
In the case of a Gaussian (RBF) kernel, K(·) is defined as<br />
K(x i, x j) = exp(− ×x i − x j 2 )<br />
Hence, in the case of asymm<strong>et</strong>ric misclassification costs, three param<strong>et</strong>ers<br />
have to be d<strong>et</strong>ermined to perform an optimal learning of<br />
the SVM classifier:<br />
• The kernel param<strong>et</strong>er of the SVM-rbf: .<br />
• The penalty param<strong>et</strong>ers introduced above: C− and C+.<br />
In the following, the proposed framework is used in order to select<br />
the value of these three hyperparam<strong>et</strong>ers.<br />
4.2. Application of NSGA-II for SVM model selection<br />
Two particular points have to be specified for the application of<br />
NSGA-II to SVM multi-model selection:<br />
• the solution coding: as said before, three param<strong>et</strong>ers are involved<br />
in the learning of SVM for classification problems with asymm<strong>et</strong>ric<br />
misclassification costs: C+, C− and . These three param<strong>et</strong>ers<br />
constitute the param<strong>et</strong>er space of our optimization problem. Consequently,<br />
each individual in NSGA-II has to encode these three<br />
real values. We have chosen to use a real encoding of these param<strong>et</strong>ers<br />
in order to be as precise as possible.<br />
• the evaluation procedure: each individual in the population corresponds<br />
to some given values of hyperparam<strong>et</strong>ers. In order to<br />
compute the performance associated to this individual, a classical<br />
SVM learning is performed using the encoded param<strong>et</strong>er values<br />
on a learning datas<strong>et</strong>. Then, this classifier is evaluated on a test<br />
datas<strong>et</strong> with the classical FP and TP rates as performance criteria.<br />
One can see in Fig. 5 a synth<strong>et</strong>ic scheme of our multi-model selection<br />
m<strong>et</strong>hod.<br />
4.3. Experimental results on UCI datas<strong>et</strong>s<br />
In this subsection, the proposed multi-model selection approach<br />
based on the ROC front concept is evaluated and compared with<br />
other approaches on publicly available benchmark datas<strong>et</strong>s [1].First,<br />
the experimental protocol of our tests is described. Then, the results
tel-00671168, version 1 - 8 Oct 2012<br />
Fig. 5. SVM multi-model selection framework.<br />
Table 1<br />
Number of samples and number of attributes of the considered 2-class UCI problems.<br />
Problem # samples # attributes<br />
Australian 690 14<br />
wdbc 569 30<br />
Breast cancer 699 10<br />
Ionosphere 351 34<br />
Heart 270 13<br />
Pima 768 8<br />
are shown and compared with some reference works, and finally<br />
several comments on these results are proposed.<br />
Our approach has been applied on several 2-class benchmark<br />
datas<strong>et</strong>s publicly available in the UCI machine learning repository on<br />
which state-of-the-art results have been published. The number of<br />
samples and the number of attributes for each problem are reported<br />
in Table 1.<br />
As we propose a real multi-objective approach, the result of our<br />
experiments is a pool of classifiers describing the ROC front. Thus, the<br />
evaluation of our approach and more precisely its comparison with<br />
other approaches of the literature is not easy since as mentioned<br />
in the Introduction, comparing some results in a multi-dimensional<br />
space is a difficult task. Note that there exist some dedicated measures<br />
such as the s<strong>et</strong> coverage m<strong>et</strong>ric proposed in [35]. However, to<br />
the best of our knowledge, the other referred m<strong>et</strong>hods in the literature<br />
always consider a single classifier as a solution for a classification<br />
problem, which makes it difficult to compare our results with<br />
those found in the literature.<br />
Based on this statement, we have therefore chosen to average all<br />
the local performance of the ROC front to produce a way to compare<br />
our approach to existing ones based on AUC. For that, an area under<br />
the ROC front (AUF) is calculated and compared with the area under<br />
the ROC curve (AUC) of the other approaches. We do know that this<br />
comparison is not theor<strong>et</strong>ically correct since the best results of a<br />
pool of classifiers are compared with a curve obtained by varying the<br />
threshold of a single classifier. However, the aim of this comparison<br />
is not to show that our approach gives b<strong>et</strong>ter performance but only<br />
to highlight the fact that more interesting trade-offs may be locally<br />
reached through the ROC front approach. This comparison may also<br />
be justified by the fact that finally, in both cases, only one classifier<br />
with a unique threshold will be r<strong>et</strong>ained for a given problem. We<br />
discuss in Section 5 how to select the best model among the pool of<br />
classifiers and offer a solution to this problem.<br />
The result of our approach is compared with several works based<br />
on the optimization of a scalar criterion for various classifiers: [5]<br />
(decision lists and rules s<strong>et</strong>s), [13] (rankboost), [19] (decision trees),<br />
[30] (SVMs) and [34] (five models: naive Bayes, logistic, decision<br />
C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823 819<br />
Table 2<br />
Comparison of the area under the ROC curve (AUC) in the literature with the area<br />
under the ROC front (AUF).<br />
Problem AUC literature Ref. AUF<br />
Australian 90.25 ± 0.6 [34] 96.22 ± 1.7<br />
wdbc 94.7 ± 4.6 [19] 99.59 ± 0.4<br />
Breast cancer 99.13 [5] 99.78 ± 0.2<br />
Ionosphere 98.7 ± 3.3 [30] 99.00 ± 1.4<br />
Heart 92.60 ± 0.7 [34] 94.74 ± 1.9<br />
Pima 84.80 ± 6.5 [13] 87.42 ± 1.2<br />
tree, kstar, and voting feature interval). We refer to these papers for<br />
more explanation of the criterion and the model used.<br />
Concerning the application of our multi-objective strategy, a<br />
cross-validation procedure has been performed with five folds for<br />
each datas<strong>et</strong>. The results are presented in Table 2, where the first<br />
column is the best AUC found until now among the predicted works<br />
based on the optimization of a scalar criterion, and the second one<br />
is the AUF of our approach.<br />
As expected, one can see that for every datas<strong>et</strong> the ROC front<br />
yielded by the pool of classifiers leads to a higher area than the area<br />
under the ROC curve of the other single classifiers. As said before,<br />
it is important to emphasize that the AUF cannot theor<strong>et</strong>ically be<br />
compared with AUC since the various operating points of the ROC<br />
front cannot be reached by a single classifier. However, this comparison<br />
with m<strong>et</strong>hods which directly optimize AUC clearly shows that<br />
our approach enables to reach very interesting local operating points<br />
which cannot be reached at the same time by the AUC-based classifiers.<br />
Hence, we claim that if the good model can be selected among<br />
the pool of classifiers, our approach can lead to b<strong>et</strong>ter results than<br />
AUC-based m<strong>et</strong>hods. Despite these interesting results, the model selection<br />
problem still remains partly open since the choice of the r<strong>et</strong>ained<br />
classifier among the s<strong>et</strong> of locally optimal classifiers has to<br />
be performed. This crucial final model selection step is discussed in<br />
the following section.<br />
5. How to select the best model?<br />
The problem of choosing an operating point in the ROC space is<br />
not specific to the proposed approach. For example, when training<br />
a single classifier with an AUC criterion, the practitioner still has to<br />
choose the appropriate threshold value, i.e. the operating point in<br />
the ROC space.<br />
Theor<strong>et</strong>ically, the best operating point must be d<strong>et</strong>ermined according<br />
to Bayes theory by minimizing the following decision function,<br />
known as the expected cost and defined as<br />
expected cost(FP, TP) = p(p).(1 − TP).c(N, p) + p(n).FP.c(Y, n)<br />
where p(p) and p(n) are, respectively, the prior probabilities of<br />
(p)ositive samples and (n)egative samples (class distribution), c(N, p)<br />
is the cost of a false negative error and c(Y,n)isthecostofafalse<br />
positive error.<br />
Obviously, targ<strong>et</strong> conditions (p(p), p(n), c(N, p), c(Y, n)) are rarely<br />
all known at runtime. Consequently, two runtime conditions may be<br />
distinguished to select the best model on the ROC front, depending<br />
on wh<strong>et</strong>her the misclassification costs and the class distributions are<br />
known with an acceptable precision or not.<br />
• If the targ<strong>et</strong> conditions are known, then iso-performance lines proposed<br />
in [18] can be used to select the best model. It is based on<br />
the projection of the Bayes decision function onto the ROC space.<br />
An iso-performance line is defined as the s<strong>et</strong> of points providing the<br />
same expected cost. The slope of an iso-performance line is given by
tel-00671168, version 1 - 8 Oct 2012<br />
820 C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823<br />
Fig. 6. When the targ<strong>et</strong> conditions of a given problem are known, representing the<br />
iso-performance line allows to select the appropriate operating point.<br />
slope =<br />
p(n).c(Y, n)<br />
p(p).c(N, p)<br />
Using this iso-performance line on the ROC space, the optimal operating<br />
point can be found by starting from the upper left corner and<br />
moving the iso-performance line towards the lower right corner.<br />
The optimal operating point is the first intersection b<strong>et</strong>ween the<br />
line and the ROC front. This m<strong>et</strong>hod is illustrated in Fig. 6. Wecan<br />
notice on this figure that the best classifier can be easily selected.<br />
Note that in this case, as the accuracy can be computed from the<br />
targ<strong>et</strong> conditions, a less computational classical scalar-based optimization<br />
may be performed, thus avoiding the whole ROC front<br />
to be generated. However, if the targ<strong>et</strong> conditions are subject to<br />
change, generating the whole ROC front is a suitable solution since<br />
the adapted operating point can be easily changed using the isoperformance<br />
line m<strong>et</strong>hod, without any additional training stage.<br />
• If the targ<strong>et</strong> conditions are unknown at runtime, the expected cost<br />
cannot be evaluated. Consequently, the slope of the appropriate<br />
iso-performance line cannot be d<strong>et</strong>ermined. Then, the only way for<br />
choosing the best classifier is to perform a testing stage in context,<br />
i.e. testing each classifier of the ROC front, and choosing the one<br />
that best fits the application constraints. We present in Section 6<br />
a real world problem with this kind of scenario.<br />
One can note that, in the second case, browsing all possible isoperformance<br />
lines could be used in order to “filter” the ROC-front<br />
by removing concavities. Indeed, classifiers lying on the concavities<br />
of the ROC front cannot be theor<strong>et</strong>ically optimal since any<br />
performance on a line segment connecting two ROC points can be<br />
achieved by randomly choosing b<strong>et</strong>ween them [20]. Thisisillustrated<br />
in Fig. 7. Such an idea has been proposed in [29] to generate<br />
the ROC convex hull of a s<strong>et</strong> of classifiers. Consequently, one can<br />
consider that our proposed m<strong>et</strong>hod enables to find the optimal<br />
ROC-CH.<br />
6. Application to a real-world pattern recognition problem<br />
In this section, an interesting example of real-world problem<br />
for which our approach suits b<strong>et</strong>ter than an AUC-based m<strong>et</strong>hod is<br />
presented.<br />
6.1. Digit/outlier discrimination<br />
The work described in this paper has been motivated by the<br />
design of a more complex system that aims at extracting numerical<br />
fields (phone number, zip code, customer code, <strong>et</strong>c.) from incom-<br />
Fig. 7. Browsing all possible iso-performance lines on a non-convex ROC front allows<br />
to filter the non-filled squares the performance of which can be outperformed.<br />
Fig. 8. Example of an incoming mail document. Numerical fields to extract are<br />
highlighted.<br />
Fig. 9. Examples of digits and outliers. The first line (a) contains shapes which can<br />
be considered as “obvious” outliers. The last line (c) contains digits that should be<br />
accepted as they are, whereas the middle line (b) contains “ambiguous outliers”<br />
(i.e. shaped as digits) that should be rejected by the proposed approach.<br />
ing handwritten mail document images [10,11] (see Fig. 8). The<br />
main difficulty of such a task comes from the fact that handwritten<br />
digits may touch each other in the image while some textual<br />
parts som<strong>et</strong>imes are made of separated or touching characters.<br />
Fig. 9 gives some examples of segmented components to deal with.<br />
In such a variable context, segmentation, d<strong>et</strong>ection and recognition<br />
of a digit and rejection of textual components must be performed<br />
simultaneously.
tel-00671168, version 1 - 8 Oct 2012<br />
In this paper, the proposed approach is applied to a particular<br />
stage of the numerical field extraction system. More precisely, the<br />
SVM to be optimized is used as a fast two-class classifier prior to the<br />
digit recognizer itself, aiming at filtering the “obvious outliers” (see<br />
Fig. 9a) from all the other shapes (see Fig. 9b and c) in order to avoid<br />
a costly digit recognition stage when it is not necessary. The choice of<br />
the SVM classifier has been motivated by its efficiency in a two-class<br />
context. Its objective is to reject as many outliers as possible, while<br />
accepting as many digits as possible. Further stages of the system<br />
deal with digit recognition and ambiguous outlier rejection. This<br />
context is a good example of a classification task with asymm<strong>et</strong>ric<br />
and unknown misclassification costs since the influence of a FP or a<br />
FN on the whole system results is unknown at runtime. In the next<br />
subsection, the performance of the proposed system are assessed.<br />
6.2. Experimental results and discussion<br />
In this section, the experimental results obtained using the proposed<br />
approach are analysed. These results are compared with those<br />
obtained using a state-of-the-art algorithm [30], where a SVM classifier<br />
is trained with respect to an AUC criterion. Both NSGA-II and<br />
AUC-based approaches have been applied on a learning database of<br />
7129 patterns ( 1 2<br />
3 digit, 3 outliers), tested and evaluated on a test<br />
and a validation database of resp. 7149 and 5000 patterns with the<br />
same proportions of digits and outliers. In the case of NSGA-II, the<br />
range values for SVM hyperparam<strong>et</strong>ers are given in Table 3. Concerning<br />
the NSGA-II param<strong>et</strong>ers, we have used some classical values,<br />
proposed in [15]. Among them, one can note that the size of the<br />
population has been s<strong>et</strong> to 40 in order to have enough points on the<br />
Par<strong>et</strong>o front. The resulting curves are presented in Fig. 10.<br />
Several comments can be made from the obtained results. First,<br />
one can remark that each point of the ROC curve obtained for a single<br />
classifier trained with AUC criterion is dominated by at least one of<br />
Table 3<br />
Range values for SVM hyperparam<strong>et</strong>ers.<br />
Hyperparam<strong>et</strong>er C− C+<br />
Range 0–1 0–5000 0–5000<br />
C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823 821<br />
the point of the ROC front. Such a result stems from the fact that using<br />
an EMOO approach, FP and TP rates are minimized simultaneously<br />
through the variation of the three involved SVM hyperparam<strong>et</strong>ers,<br />
whereas in the case of an AUC approach, a single param<strong>et</strong>rized classifier<br />
is trained to optimize every possible FP/TP trade-offs. Fig. 11 is<br />
another illustration of the interest of the ROC front concept. It shows<br />
the ROC curves computed from four classifiers which have been selected<br />
using the proposed framework. This figure clearly shows that<br />
the ROC front corresponds to a s<strong>et</strong> of classifiers which are specialized<br />
on some specific ranges of FP/TP trade-offs.<br />
A second remark concerns the possibility when using an EMOO<br />
to apply some constraints on the objective values (as in the param<strong>et</strong>er<br />
space). Such a possibility is very useful in the context of our<br />
application since it enables to focus on a small part of the ROC front.<br />
Indeed, we are particularly interested by a small part of the ROC<br />
front since we want the rejection of a digit be as rare as possible<br />
Fig. 10. FP/TP curves obtained using the two approaches: a s<strong>et</strong> of SVM classifiers<br />
obtained with NSGA-II (ROC front), and a single SVM classifier trained with AUC<br />
criterion (ROC curve).<br />
Fig. 11. Illustration of the ROC front concept on a classification datas<strong>et</strong>. The solid lines are the ROC curves computed from 4 of the 40 classifiers selected using the proposed<br />
framework. The performance of the classifiers of the ROC front appear as `×'.
tel-00671168, version 1 - 8 Oct 2012<br />
822 C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823<br />
Fig. 12. ROC curve obtained for a true positive rate b<strong>et</strong>ween 97% and 100%.<br />
Table 4<br />
Recall/precision values of the whole numerical field extraction system for several<br />
digit/outlier classifiers, represented here by their TP rate.<br />
Classifier TP rate in % 98.8 99.04 99.26 99.48 99.76 99.96 100<br />
Recall 0.370 0.410 0.440 0.458 0.462 0.481 0.488<br />
Precision 0.110 0.130 0.150 0.176 0.246 0.223 0.152<br />
F1-Measure 0.170 0.197 0.224 0.254 0.321 0.305 0.232<br />
to prevent errors in the whole recognition process, this would imply<br />
a null false negative rate (i.e. a 100% TP rate). But on the other hand,<br />
Fig. 10 shows that a 100% TP rate leads to a FP higher than 50%.<br />
Such a result involves a very time consuming recognition stage, that<br />
cannot be accepted regarding our processing time constraints during<br />
the decision stage. Thus, we have applied an lower bound of 97% to<br />
the TP rate in order to obtain an acceptable trade-off b<strong>et</strong>ween the<br />
recognition quality of the system and the computational constraints.<br />
Fig. 12 shows the results obtained with this additional constraint.<br />
One can see that such a s<strong>et</strong>ting enables to obtain more diversity<br />
among the FP/TP trade-offs in the chosen TP range.<br />
6.3. How to select the best model?<br />
Once the ROC front has been built for our application, the final<br />
best model among the classifiers has to be selected. As discussed<br />
in Section 5, two scenarios may occur at runtime, wh<strong>et</strong>her the<br />
expected cost can be computed or not. In our digit/outlier discrimination<br />
problem, this expected cost cannot be computed since the<br />
classification task is embedded in the whole numerical field extraction<br />
application and is evaluated by recall/precision measures.<br />
Hence, a test stage in context has to be performed by successively<br />
embedding each classifier of the front in the whole system. Table 4<br />
presents the results obtained by the whole numerical field extraction<br />
system for several digit/outlier classifiers of the ROC front, i.e.<br />
for several FP/TP trade-offs.<br />
As one can expected the true positive rate has to be very high<br />
to provide good recall and precision values since rejecting a digit<br />
may imply to miss a numerical field. We do not show the results<br />
for the classifiers the TP rate of which is lower than 98.8% since<br />
both recall and precision are lower than those presented in Table 4.<br />
Finally, given the final application constraints, the system designer<br />
is able to choose the model that best fits the industrial needs. As an<br />
example, if one choose to maximize the F1-measure, the classifier<br />
providing TPR = 99.76% will be selected. The results of this real-<br />
world application corroborate the idea that model selection must be<br />
considered as long as possible as a multi-objective optimization task<br />
in a pattern recognition system.<br />
7. Conclusion<br />
In this paper, we have presented a framework to tackle the problem<br />
of classifier model selection with unknown and/or evolutive misclassification<br />
costs. The approach is based on a multi-model selection<br />
strategy in which a pool of classifiers is trained in order to depict<br />
an optimal ROC front. Using such a front, it is possible to choose the<br />
FP/TP trade-off that best fits the application constraints. An application<br />
of this strategy with evolutionary multi-objective optimization<br />
for the training of a s<strong>et</strong> of SVM classifiers has been proposed, with a<br />
validation on both UCI datas<strong>et</strong>s and a real-world application on the<br />
discrimination of handwritten digits from outliers. Obtained results<br />
have shown that our approach enables to reach b<strong>et</strong>ter local operating<br />
points that state-of-the-art approaches based on the area under<br />
ROC curve criterion. As a conclusion, one can say that an AUC-based<br />
approach suits pattern recognition problems where the operating<br />
point may vary, whereas our approach b<strong>et</strong>ter suit problems where<br />
the operating point is supposed to be static.<br />
The proposed approach is simple and generic and can thus be of<br />
great interest for the practitioner who has to optimize a classifier in<br />
the context of unknown and/or evolutive misclassification costs. It<br />
can be applied to other param<strong>et</strong>ric classifiers (KNN, Neural n<strong>et</strong>work,<br />
<strong>et</strong>c.) with other optimization m<strong>et</strong>hods [14]. Moreover, it can be easily<br />
extended through the introduction of other param<strong>et</strong>ers (kernel type)<br />
or objectives (number of support vectors, decision time).<br />
In our future works, we plan to extend the approach to the multiclass<br />
problem. We also plan to apply a multi-objective optimization<br />
strategy to the whole numerical field extraction system, using recall<br />
and precision as criteria.<br />
References<br />
[1] D.J. Newman A. Asuncion, UCI machine learning repository, 2007.<br />
[2] D. Anguita, S. Ridella, F. Rivieccio, R. Zunino, Hyperparam<strong>et</strong>er design criteria<br />
for support vector classifiers, Neurocomputing 55 (1–2) (2003) 109–134.<br />
[3] N.E. Ayat, M. Cheri<strong>et</strong>, C.Y. Suen, Automatic model selection for the optimization<br />
of SVM kernels, Pattern Recognition 30 (2004) 1733–1745.<br />
[4] Y. Bengio, Gradient-based optimization of hyperparam<strong>et</strong>ers, Neural<br />
Computation 12 (2000) 1889–1900.<br />
[5] H. Boström, Maximizing the area under the ROC curve using incremental<br />
reduced error pruning, in: Proceedings of ROCML, 2005.<br />
[6] A.P. Bradley, The use of the area under the ROC curve in the evaluation of<br />
machine learning algorithms, Pattern Recognition 30 (1997) 1145–1159.<br />
[7] L.T. Bui, D. Essam, H.A. Abbass, D. Green, Performance analysis of multiobjective<br />
evolutionary m<strong>et</strong>hods in noisy environments, in: Proceedings of APS 2004,<br />
pp. 29–39.<br />
[8] R. Caruana, A. Niculescu-Mizil, G. Crew, A. Ksikes, Ensemble selection from<br />
libraries of models, in: Proceedings of ICML, 2004.<br />
[9] O. Chapelle, V. Vapnik, O. Bousqu<strong>et</strong>, S. Mukherjee, Choosing multiple param<strong>et</strong>ers<br />
for support vector machines, Machine Learning 46 (1) (2002) 131–159.<br />
[10] C. Chatelain, L. Heutte, T. Paqu<strong>et</strong>, Segmentation-driven recognition applied to<br />
numerical field extraction from handwritten incoming mail documents, in:<br />
Document Analysis System, Lecture Notes in Computer Sciences, vol. 3872,<br />
2006, pp. 564–575.<br />
[11] C. Chatelain, L. Heutte, T. Paqu<strong>et</strong>, A two-stage outlier rejection strategy for<br />
numerical field extraction in handwritten documents, in: Proceedings of ICPR,<br />
2006, pp. 224–227.<br />
[12] D.W. Corne, J.D. Knowles, M.J. Oates, The Par<strong>et</strong>o envelope-based selection<br />
algorithm for multiobjective optimization, in: Parallel Problem Solving from<br />
Nature, 2000, pp. 839–848.<br />
[13] C. Cortes, M. Mohri, AUC optimization vs. error rate minimization, in: Advances<br />
in NIPS, MIT Press, Cambridge, MA, 2004.<br />
[14] B.F. de Souza, A.C.P.L.F. de Carvalho, R. Calvo, R.P. Ishii, <strong>Multi</strong>class SVM model<br />
selection using particle swarm optimization, in: Proceedings of HIS, 2006, p. 31.<br />
[15] K. Deb, S. Agrawal, A. Pratap, T. Meyarivan, A fast elitist nondominated sorting<br />
gen<strong>et</strong>ic algorithm for multiobjective optimization: NSGA-II, IEEE Transactions<br />
on Evolutionary Computation (2002) 182–197.<br />
[16] K. Deb, <strong>Multi</strong>-Objective Optimization Using Evolutionary Algorithms, Wiley,<br />
New York, NY, USA, 2001.<br />
[17] T.G. Di<strong>et</strong>terich, G. Bakiri, Solving multiclass learning problems via errorcorrecting<br />
output codes, Journal of Artificial Intelligence Research 2 (1995)<br />
263–286.
tel-00671168, version 1 - 8 Oct 2012<br />
[18] T. Fawc<strong>et</strong>t, ROC graphs: notes and practical considerations for researchers,<br />
Technical Report, HP Laboratories, 2004.<br />
[19] C. Ferri, P. Flach, J. Hernandez-Orallo, Learning decision trees using the area<br />
under the ROC curve, in: Proceedings of ICML, 2002, pp. 139–146.<br />
[20] P.A. Flach, S. Wu, Repairing concavities in ROC curves, in: Proceedings of the<br />
2003 UK Workshop on Computational Intelligence, University of Bristol, August<br />
2003, pp. 38–44.<br />
[21] C.M. Fonseca, P.J. Flemming, Gen<strong>et</strong>ic algorithm for multiobjective optimization:<br />
formulation, discussion and generalization, in: Proceedings of ICGA, 1993, pp.<br />
416–423.<br />
[22] D.E. Goldberg, Gen<strong>et</strong>ic Algorithms in Search, Optimization and Machine<br />
Learning, Addison-Wesley, Longman Publishing Co., Inc., Boston, MA, USA,<br />
1989.<br />
[23] J. Horn, N. Nafpliotis, D.E. Goldberg, A niched Par<strong>et</strong>o gen<strong>et</strong>ic algorithm for<br />
multiobjective optimization, in: Proceedings of IEEE-WCCC, 1994, pp. 82–87.<br />
[24] T. Joachims, Making large-scale support vector machine learning practical, in:<br />
A. Smola, B. Scholkopf, C. Burges (Eds.), Advances in Kernel M<strong>et</strong>hods, MIT Press,<br />
Cambridge, MA, 1998.<br />
[25] S. Keerthi, V. Sindhwani, O. Chapelle, An efficient m<strong>et</strong>hod for gradient-based<br />
adaptation of hyperparam<strong>et</strong>ers in SVM models, in: B. Schölkopf, J. Platt, T.<br />
Hoffman (Eds.), Advances in Neural Information Processing Systems, vol. 19,<br />
MIT Press, Cambridge, MA, 2007, pp. 673–680.<br />
[26] V. Khare, X. Yao, K. Deb, Performance scaling of multiobjective<br />
evolutionary algorithm, Technical Report—SCS, University of Birmingham, 2002,<br />
pp. 1–70.<br />
C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823 823<br />
[27] G. Lebrun, O. Lezoray, C. Charrier, H. Cardot, An EA multi-model selection for<br />
SVM multiclass schemes, in: Proceedings of IWANN, 2007, pp. 257–264.<br />
[28] E. Osuna, R. Freund, F. Girosi, Support vector machines: training and<br />
applications, Technical Report, 1997.<br />
[29] F. Provost, T. Fawc<strong>et</strong>t, Robust classification for imprecise environments, Machine<br />
Learning 42 (3) (2001) 203–231.<br />
[30] A. Rakotomamonjy, Optimizing AUC with support vector machine, in:<br />
Proceedings of ECAI Workshop on ROC Curve and AI, 2004, pp. 469–478.<br />
[31] J.D. Schaffer, J.J. Grefenst<strong>et</strong>te, <strong>Multi</strong>objective learning via gen<strong>et</strong>ic algorithms,<br />
in: Proceedings of IJCAI 1985, 1985, pp. 593–595.<br />
[32] N. Srinivas, K. Deb, <strong>Multi</strong>objective optimization using nondominated sorting in<br />
gen<strong>et</strong>ic algorithms, Evolutionary Computation 2 (3) (1994) 221–248.<br />
[33] G. Wahba, X. Lin, F. Gao, D. Xiang, R. Klein, B. Klein, The bias-variance tradeoff<br />
and the randomized GACV, in: Proceedings of NIPS, 1999, pp. 620–626.<br />
[34] S. Wu, A scored AUC m<strong>et</strong>ric for classifier evaluation and selection, in:<br />
Proceedings of ROCML, 2005.<br />
[35] E. Zitzler, K. Deb, L. Thiele, Comparison of multiobjective evolutionary<br />
algorithms: empirical results, IEEE Transactions on Evolutionary Computation<br />
2 (8) (1999) 173–195.<br />
[36] E. Zitzler, M. Laumanns, L. Thiele, SPEA2: improving the strength Par<strong>et</strong>o<br />
evolutionary algorithm, Technical Report, Computer Engineering and N<strong>et</strong>works<br />
Laboratory (TIK), ETH Zurich, 2001.<br />
[37] E. Zitzler, L. Thiele, <strong>Multi</strong>objective evolutionary algorithms: a comparison case<br />
study and the strength Par<strong>et</strong>o approach, IEEE Transactions on Evolutionary<br />
Computation 3 (4) (1999) 257–271.<br />
About the Author—CLÉMENT CHATELAIN is an Assistant Professor in the Department of Information Systems Engineering at the INSA of Rouen, France. His research interests<br />
include document analysis, handwriting recognition and machine learning. His teaching interests include signal processing, automatic and pattern recognition. Dr. Chatelain<br />
received his PhD “Numerical sequences extraction from weakly constrained handwritten documents” from the University of Rouen in 2006.<br />
About the Author—SÉBASTIEN ADAM was born in 1975 in Dieppe, France. He received a PhD in graphical document analysis from the University of Rouen in 2001. This<br />
PhD has been led for France Telecom, the historical French telecommunication operator and tackles the problem of multi-oriented and multi-scaled pattern recognition.<br />
Then he joined the LITIS labs in Rouen, France. His domains of interest are at the merging of document analysis and multi-objective optimization.<br />
About the Author—YVES LECOURTIER was born in Marseille in 1950. After a thesis in signal processing in 1978, and a second thesis in Physics (automatic control) in 1985<br />
from the University of Paris-Sud, Orsay, France, he joined the University of Rouen as a Professor in 1987. His research domain is in pattern recognition and optimization,<br />
especially for document analysis and text recognition. Pr. Lecourtier is a member of AFRIF, ASTI, IAPR. From 1994 to 2000, he was the chairman of the GRCE, a French<br />
soci<strong>et</strong>y which gathers most of the French researchers working in document analysis and text recognition fields.<br />
About the Author—LAURENT HEUTTE (30/05/1964) received his PhD degree in Computer Engineering from the University of Rouen, France, in 1994. From 1996 to 2004, he<br />
was a Senior Lecturer in Computer Engineering and Control System at the University of Rouen. Since 2004, he has been a Professor in the same university. Professor Heutte's<br />
present research interests are multiple classifier systems, off-line cursive handwriting analysis and recognition, handwritten document layout analysis and information<br />
extraction from handwritten documents. Since 2003, he is an Associate Editor of Pattern Recognition journal and the representative member of the French association for<br />
pattern recognition (AFRIF) in the Governing Board of the IAPR. He is currently the Head of the “Document and Learning” group in LITIS lab, University of Rouen.<br />
About the Author—THIERRY PAQUET received the PhD degree from the University de Rouen in 1992 in the field of Pattern Recognition. From 1992 to 2002 he has been<br />
appointed as a Senior Lecturer at the University of Rouen where he taught Signal and Image Processing. From 1992 to 1996 he was involved in an industrial collaboration<br />
with Matra MCS and the French Postal Research Center (SRTP) for the automatization of mail sorting and bank checks reading. Thierry PAQUET was appointed as a full<br />
professor in 2002 at the University of Rouen. His current research area concern statistical Pattern Recognition and Image Processing for Document Image Processing including<br />
Handwriting Analysis and Recognition. Thierry Paqu<strong>et</strong> is Vice Director of the LITIS laboratory at the University of Rouen since 2007. He is also President of the French<br />
association Research Group on Document and Written Communication.
tel-00671168, version 1 - 8 Oct 2012<br />
Annexe E<br />
Réference CV : 1<br />
R. Raveaux, S. Adam, P. Héroux, and É. Trupin. Learning graph prototypes<br />
for shape recognition. Computer Vision and Image Understanding (CVIU),<br />
115(7) :905-918, 2011.<br />
lvii
tel-00671168, version 1 - 8 Oct 2012<br />
Learning graph prototypes for shape recognition<br />
Romain Raveaux a , Sébastien Adam b,⇑ , Pierre Héroux b , Éric Trupin b<br />
a Université de la Rochelle – L3I EA 2128, BP 12, 17042 La Rochelle cedex 01, France<br />
b Université de Rouen – LITIS EA 4108, BP 12, 76801 Saint-Etienne du Rouvray, France<br />
article info<br />
Article history:<br />
Received 26 November 2009<br />
Accepted 1 December 2010<br />
Available online 12 March 2011<br />
Keywords:<br />
Graph classification<br />
Graph prototypes<br />
Median graphs<br />
Discriminative graphs<br />
Gen<strong>et</strong>ic algorithm<br />
Symbol recognition<br />
1. Introduction<br />
abstract<br />
Labeled graphs are powerful data structures for the representation<br />
of complex entities. In a graph-based representation, vertices<br />
and their labels describe objects (or part of objects) while labeled<br />
edges represent interrelationships b<strong>et</strong>ween the objects. Due to<br />
the inherent genericity of graph-based representations, and thanks<br />
to the improvement of computer capacities, structural representations<br />
have become more and more popular in many application domains<br />
such as computer vision, image understanding, biology,<br />
chemistry, text processing or pattern recognition. As a consequence<br />
of the emergence of graph-based representations, new<br />
computing issues such as graph mining [1,2], graph clustering<br />
[3,4] or supervised graph classification [5–7] provoked a growing<br />
interest.<br />
This paper deals with the supervised graph classification problem.<br />
In the literature, this problem is generally tackled using two<br />
⇑ Corresponding author. Fax: +33 2 32 95 52 10.<br />
E-mail addresses: Romain.Raveaux@univ-lr.fr (R. Raveaux), Sebastien.Adam@<br />
univ-rouen.fr (S. Adam), Pierre.Heroux@univ-rouen.fr (P. Héroux), Eric.Trupin@<br />
univ-rouen.fr (É. Trupin).<br />
1077-3142/$ - see front matter Ó 2011 Elsevier Inc. All rights reserved.<br />
doi:10.1016/j.cviu.2010.12.015<br />
Computer Vision and Image Understanding 115 (2011) 905–918<br />
Contents lists available at ScienceDirect<br />
Computer Vision and Image Understanding<br />
journal homepage: www.elsevier.com/locate/cviu<br />
This paper presents some new approaches for computing graph prototypes in the context of the design of<br />
a structural nearest prototype classifier. Four kinds of prototypes are investigated and compared: s<strong>et</strong> median<br />
graphs, generalized median graphs, s<strong>et</strong> discriminative graphs and generalized discriminative graphs. They<br />
differ according to (i) the graph space where they are searched for and (ii) the objective function which is<br />
used for their computation. The first criterion allows to distinguish s<strong>et</strong> prototypes which are selected in<br />
the initial graph training s<strong>et</strong> from generalized prototypes which are generated in an infinite s<strong>et</strong> of graphs.<br />
The second criterion allows to distinguish median graphs which minimize the sum of distances to all input<br />
graphs of a given class from discriminative graphs, which are computed using classification performance<br />
as criterion, taking into account the inter-class distribution. For each kind of prototype, the proposed<br />
approach allows to identify one or many prototypes per class, in order to manage the trade-off b<strong>et</strong>ween<br />
the classification accuracy and the classification time.<br />
Each graph prototype generation/selection is performed through a gen<strong>et</strong>ic algorithm which can be specialized<br />
to each case by s<strong>et</strong>ting the appropriate encoding scheme, fitness and gen<strong>et</strong>ic operators.<br />
An experimental study performed on several graph databases shows the superiority of the generation<br />
approach over the selection one. On the other hand, discriminative prototypes outperform the generative<br />
ones. Moreover, we show that the classification rates are improved while the number of prototypes<br />
increases. Finally, we show that discriminative prototypes give b<strong>et</strong>ter results than the median graph<br />
based classifier.<br />
Ó 2011 Elsevier Inc. All rights reserved.<br />
kinds of approaches. The first one consists in using kernel based<br />
algorithms such as Support Vector Machines (SVM) or Kernel Principal<br />
Component Analysis (KPCA) [8–13]. Using such m<strong>et</strong>hods, the<br />
graph is embedded in a feature space composed of label sequences<br />
which are obtained through a graph traversal. The kernel values<br />
are then computed by measuring the similarity b<strong>et</strong>ween label sequences.<br />
Such approaches have proven to achieve high performance<br />
but they are computationally expensive when the datas<strong>et</strong><br />
is large. The second family consists in using a k-Nearest Neighbors<br />
(k-NN) rule in a dissimilarity space, using a given dissimilarity<br />
measure. This kind of approach is the most frequently chosen for<br />
its simplicity to implement and its good asymptotic behavior.<br />
However, it suffers from three major drawbacks: its combinatorial<br />
complexity, its large storage requirements and its sensitivity to<br />
noisy examples. A classical solution to overcome these problems<br />
consists in reducing the learning datas<strong>et</strong> through an object prototype<br />
learning procedure and to use a Nearest Prototype Classifier<br />
(NPC). Such a prototype-based strategy is not inherent to the graph<br />
classification problem. It has already been tackled for comparing<br />
shapes in computer vision application, e.g. in the approach described<br />
in [14] that learns some contour prototypes. It has also<br />
been studied for a long time in the context of statistical pattern
tel-00671168, version 1 - 8 Oct 2012<br />
906 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />
recognition, using either prototype selection m<strong>et</strong>hods (see e.g<br />
[15,16]) or prototype generation m<strong>et</strong>hods (see e.g. [17,18]).<br />
In the field of structural pattern recognition, there also has been<br />
some recent efforts dedicated to the learning of prototypes. Among<br />
them, one can cite the pioneering approach proposed in [19] which<br />
builds prototypes by d<strong>et</strong>ecting subgraphs that occur in most<br />
graphs. Another approach concerning trees is proposed in [20]. It<br />
consists in learning some kinds of tree prototypes through the definition<br />
of a superstructure called tree-union that captures the<br />
information about the tree training s<strong>et</strong>. In the domain of graphs,<br />
the approaches proposed in [21,22] aim at creating super-graph<br />
representations from the available samples. One can also cite the<br />
interesting work of Marini proposed in [23] that generates some<br />
creative prototype by applying to a seed model a well selected s<strong>et</strong><br />
of editing operation. A last approach which is probably the most<br />
frequently used concerns median graphs [24–28]. In a classification<br />
context, median graphs are computed independently in each<br />
class through a minimization process of the sum of distances to<br />
all input graphs. Two kinds of median graphs are proposed in the<br />
literature: the s<strong>et</strong> median graphs (smg) and the generalized median<br />
graphs (gmg). The only difference b<strong>et</strong>ween them lies in the space<br />
where the medians are searched for. In the first case, the search<br />
space is limited to the initial s<strong>et</strong> of graphs (the problem is thus a<br />
graph prototype selection problem) whereas in the second case,<br />
medians are searched among an infinite s<strong>et</strong> of graphs built using<br />
the labels of the initial s<strong>et</strong> (the problem is thus a graph prototype<br />
generation problem). Generalized median graphs approaches have<br />
proven to keep the most important information in the classes and<br />
reject noisy examples [25]. However, a drawback of median graphs<br />
when they are used as learning samples of a classification process,<br />
as for the all the approaches mentionned before, is that they do not<br />
take into account the inter-classes data distribution. In other<br />
words, median graphs are rather generative prototypes than discriminative<br />
ones.<br />
In this paper, we overcome this drawback by using a discriminative<br />
approach while searching an optimal s<strong>et</strong> of prototypes.<br />
Thus, it is the classification performance obtained on a validation<br />
datas<strong>et</strong> which is used as criterion in the prototype optimization<br />
process. Hence, we propose to use a graph based gen<strong>et</strong>ic algorithm<br />
in order to learn a s<strong>et</strong> of graph prototypes, called discriminative<br />
graphs (dg), which minimize the error rate of a classification system.<br />
Two configurations are successively considered for extracting<br />
the discriminative graphs. In the first one, a single prototype is<br />
generated for each class of the classification problem, as in the case<br />
of median graphs. Then, this concept is extended to the extraction<br />
of multiple prototypes for each class in order to obtain a b<strong>et</strong>ter<br />
description of the data. This extension is also considered in the case<br />
of median graphs in order to provide a suitable comparison. In both<br />
configurations, we show that discriminative graphs, and particularly<br />
multiple discriminative graphs, enable to obtain very good<br />
classification results while considerably reducing the number of<br />
dissimilarity computations in the decision stage.<br />
Four datas<strong>et</strong>s are used in the experimental protocol. The first is<br />
a huge synth<strong>et</strong>ic datas<strong>et</strong>. The others are real-world datas<strong>et</strong>s consisting<br />
of graphs built from a graphical symbol recognition benchmark<br />
[29] for the second and the third and from character<br />
recognition for the fourth. The classification performance obtained<br />
using discriminative graphs and median graphs are compared on<br />
these four datas<strong>et</strong>s.<br />
The paper is organized as follows. In section 2, the most important<br />
concepts and notations concerning median graphs and discriminative<br />
graphs are defined. In section 3, the proposed<br />
approach for graph prototypes extraction is d<strong>et</strong>ailed. Section 4 describes<br />
the experimental evaluation of the algorithm and discusses<br />
results. Finally, Section 5 offers some conclusions and suggests<br />
directions for future works.<br />
2. Definitions and notations<br />
In this work, the problem which is considered concerns the<br />
supervised classification of directed labeled graphs. Such graphs<br />
can be defined as follows:<br />
Definition 1. A directed labeled graph G is a 4-tuple G =(V,E,l,n)<br />
where:<br />
V is the s<strong>et</strong> of vertices,<br />
E # V V is the s<strong>et</strong> of edges,<br />
l:V ? LV is a function assigning a label to a vertex,<br />
n:E ? L E is a function assigning a label to an edge.<br />
A graph classification algorithm aims at assigning a class to an unknown<br />
graph using a mapping function f. This function is usually induced<br />
from a learning stage which can be defined as follows:<br />
Definition 2. L<strong>et</strong> v be the s<strong>et</strong> of the labeled graphs. Given a graph<br />
learning datas<strong>et</strong> L ¼fhgi; ciig M<br />
i¼1 , where gi 2 v is a labeled graph and<br />
ci 2 C is the class of the graph among the N classes. The learning of a<br />
graph classifier consists in inducing from L a mapping function f(g):<br />
v ? C which assigns a class to an unknown graph.<br />
In this paper, graph classification is tackled with a Nearest<br />
Prototype Classifier (NPC), i.e. with a NN rule applied on a reduced<br />
s<strong>et</strong> of representative graph prototypes. Hence, the learning stage of<br />
the classifier consists in generating these prototypes. The objectives<br />
are (i) to overcome the well-known disadvantages of a k-NN<br />
procedure, i.e. the large storage requirements, the large computational<br />
effort and the sensitivity to noisy examples and (ii) to keep<br />
classification performance as high as possible.<br />
As mentioned before, median graphs are frequently used as<br />
representative in a graph classification context. Two kinds of<br />
median graphs may be distinguished: the s<strong>et</strong> median graph smg<br />
and the generalized median graph gmg. Both are based on the<br />
minimization of the sum of distances (SOD) to all input graphs.<br />
Formally, they are defined as follows:<br />
Definition 3. L<strong>et</strong> d(.,.) be a distance or a dissimilarity function that<br />
measures the dissimilarity b<strong>et</strong>ween two graphs. L<strong>et</strong> S ={g1,<br />
g 2,...,g n} be a s<strong>et</strong> of graphs. The s<strong>et</strong> median graph (smg) ofS is<br />
defined by:<br />
smg ¼ arg min<br />
g2S<br />
X n<br />
i¼1<br />
dðg; g iÞ ð1Þ<br />
According to this definition, smg necessarily belongs to the s<strong>et</strong> S.<br />
This definition has been extended in [25] to the generalized median<br />
graph (gmg) which does not necessarily belong to S:<br />
Definition 4. L<strong>et</strong> d(.,.) be a distance or a dissimilarity function that<br />
measures the dissimilarity b<strong>et</strong>ween two graphs. L<strong>et</strong> S ={g1,<br />
g 2,...,g n} be a s<strong>et</strong> of graphs. L<strong>et</strong> U be the infinite s<strong>et</strong> of graphs that<br />
can be built using the labels of S. The generalized median graph<br />
(gmg) of the subs<strong>et</strong> S is defined by:<br />
gmg ¼ arg min<br />
g2U<br />
X n<br />
i¼1<br />
dðg; g iÞ ð2Þ<br />
Median graphs, generalized or not, have already been used as class<br />
representatives in a classification process, e.g. in [25–27]. In this<br />
case, if N is the number of classes in the learning datas<strong>et</strong> L, N smg<br />
(resp. gmg) are computed independently (one for each class) and<br />
the resulting graph s<strong>et</strong> constitutes the learning datas<strong>et</strong> SMG ¼<br />
fsmgig N<br />
i¼1 (resp. GMG ¼fgmgig N<br />
i¼1 ) of the nearest prototype classi-
tel-00671168, version 1 - 8 Oct 2012<br />
fier. It has been shown in [25] that generalized median graphs capture<br />
the essential information of a given class. However, such prototypes<br />
do not take into account the inter-class distribution of<br />
learning samples.<br />
In order to overcome this problem, we propose to use discriminative<br />
graphs (dg) as prototypes for graph classification. The main<br />
difference b<strong>et</strong>ween median graphs and discriminative graphs lies<br />
in the criterion which is used to generate the prototypes. In the<br />
case of dg, rather than optimizing a sum of intra-class distances,<br />
prototypes are generated in order to minimize the classification<br />
error rate obtained on a validation datas<strong>et</strong>. Obviously, as in the<br />
case of median graphs, these prototypes can be computed in the<br />
initial s<strong>et</strong> of graphs, leading to s<strong>et</strong> discriminative graphs (sdg), or in<br />
the whole s<strong>et</strong> of graphs, leading to generalized discriminative<br />
graphs (gdg). As a consequence, the dg for each class are related to<br />
each other and can not be expressed independently. The s<strong>et</strong> SDG of<br />
sdg i can be defined as follows:<br />
Definition 5. L<strong>et</strong> N be the number of classes in the learning datas<strong>et</strong><br />
L. L<strong>et</strong> T be a validation datas<strong>et</strong> and l<strong>et</strong> DðT; fgig N<br />
i¼1Þ be a function<br />
computing the error rate obtained by a 1-NN classifier on T using<br />
the graph prototypes fgig N<br />
i¼1 2 L as learning samples. Then the s<strong>et</strong><br />
SDG composed of the sdgi of each class is given by:<br />
SDG ¼fsdg1; sdg2; ...; sdgNg¼arg min<br />
fgig N<br />
i¼1 L<br />
D T; fgig N<br />
i¼1<br />
In the same way, the s<strong>et</strong> GDG of gdg is defined as follows:<br />
Definition 6. L<strong>et</strong> N be the number of classes in the learning datas<strong>et</strong><br />
L. L<strong>et</strong> U be the infinite s<strong>et</strong> of graphs that can be built using labels<br />
from L. L<strong>et</strong> T be a validation datas<strong>et</strong> and l<strong>et</strong> DðT; fgig N<br />
i¼1Þ be the error<br />
rate obtained by a 1-NN classifier on T using the graph prototypes<br />
fgig N<br />
i¼1 2 U as learning samples. Then the s<strong>et</strong> GDG composed of the<br />
gdg of each class is given by:<br />
GDG ¼fgdg1; gdg2; ...; gdgNg¼arg min<br />
fgig N<br />
i¼1 U<br />
D T; fgig N<br />
i¼1<br />
The concepts presented above involve the generation of a single<br />
prototype for each class. In some particular applications, it may<br />
be interesting to generate m prototypes for each class in order to<br />
obtain a b<strong>et</strong>ter description of the data. In the following, we give<br />
the definition of such prototypes called m-gdg. 1<br />
Definition 7. L<strong>et</strong> N be the number of classes in the learning datas<strong>et</strong><br />
L. L<strong>et</strong> U be the infinite s<strong>et</strong> of graphs that can be built using labels<br />
from L. L<strong>et</strong> m be the number of prototypes to be computed in each<br />
class. L<strong>et</strong> T be a validation datas<strong>et</strong> and l<strong>et</strong> DðT; fgikg N;m<br />
i¼1;k¼1Þ be the<br />
error rate obtained by a 1-NN classifier 2 on T using the graph prototypes<br />
fgikg N;m<br />
i¼1;k¼1 2 U as learning samples. Then the s<strong>et</strong> mGDG composed<br />
of the m-gdg of each class is given by:<br />
mGDG ¼fgdg 11; ...; gdg 1m; ...; gdg N1; ...; gdg Nmg<br />
¼ arg min<br />
fgikg N;m<br />
i¼1;k¼1 U<br />
D T; fgikg N;m<br />
i¼1;k¼1<br />
In order to provide some fair comparisons in the experimental protocol,<br />
we also extend the median graph concept to multiple prototypes.<br />
In this case, the m-gmg (as well the m-smg) are defined<br />
independently for each class:<br />
1<br />
The definition of m-sdg is easily obtained through the change of the search space<br />
from U to S.<br />
2<br />
In this case, a k-NN procedure with k > 1 will be considered in future works, for<br />
example to allow the system to reject some patterns.<br />
R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 907<br />
ð3Þ<br />
ð4Þ<br />
ð5Þ<br />
Definition 8. L<strong>et</strong> d(.,.) be a distance or a dissimilarity function that<br />
measures the dissimilarity b<strong>et</strong>ween two graphs. L<strong>et</strong> n be the number<br />
of samples in the considered class. L<strong>et</strong> m be the number of prototypes,<br />
gp k be the prototypes and g i be the graphs of the<br />
considered class. Then, the s<strong>et</strong> mGMG composed of the m-gmg for<br />
the considered class is given by:<br />
mGMG ¼fgmg1; ...; gmgmg¼arg min<br />
fgpkg m<br />
k¼1 U<br />
Xn i¼1<br />
min dðgpk; giÞ ð6Þ<br />
k2f1;mg<br />
The algorithms involved in the computation of the different kinds of<br />
representative prototypes are presented in the following section.<br />
3. Gen<strong>et</strong>ic algorithms for graph prototypes generation<br />
In Section 2, the graph prototype search problem has been defined<br />
as an optimization process. Two kinds of prototypes have<br />
been distinguished: (i) s<strong>et</strong> prototypes and (ii) generalized<br />
prototypes.<br />
(i) The s<strong>et</strong> prototype search problem consists in selecting the m<br />
prototypes per class which optimize an objective function. A<br />
combinatorial exploration of the solution space would result<br />
in evaluating the criterion for each of the potential solutions.<br />
If we consider that each of the N classes contains ni elements,<br />
there are<br />
m<br />
n1<br />
m<br />
n2<br />
m<br />
nN<br />
combinations for selecting m prototypes to represent each<br />
class. For a quite simple problem with two classes and 100<br />
graphs in each class, the search for five prototypes per class<br />
would result in more than 75 10 6 evaluations of the criterion.<br />
Hence, a compl<strong>et</strong>e exploration of the solution space rapidly<br />
becomes intractable. Many heuristic m<strong>et</strong>hods such as<br />
multistart, gen<strong>et</strong>ic algorithms or tabu search [18] have been<br />
used to tackle the problem of s<strong>et</strong> prototype search when<br />
dealing with vectorial data. Among them, gen<strong>et</strong>ic based<br />
m<strong>et</strong>hods have shown good performance [30,18].<br />
(ii) The generalized prototype search problem can also be stated<br />
as an optimization problem. However, it cannot be solved<br />
with a combinatorial approach since the s<strong>et</strong> U in which the<br />
solutions are searched for is unbounded (only a subs<strong>et</strong> S of<br />
U is known). In [24], the authors use gen<strong>et</strong>ic algorithms to<br />
approximate the generalized median graph of a s<strong>et</strong> of graphs.<br />
In the context of computing a single generative prototype,<br />
they report that the solution reached by a gen<strong>et</strong>ic approach<br />
is often the optimal solution. In this paper, we also propose<br />
to use gen<strong>et</strong>ic algorithms but to solve both the s<strong>et</strong>/generalized<br />
median/discriminative prototype extraction problem. The<br />
next subsections precisely describe our approach.<br />
3.1. Gen<strong>et</strong>ic algorithm<br />
Gen<strong>et</strong>ic Algorithms (GA) are evolutionary optimization techniques<br />
with a wide scope of applications [31]. They have been used<br />
to solve many combinatorial problems [32]. An individual of a GA<br />
corresponds to a possible solution of an optimization problem. The<br />
relationship b<strong>et</strong>ween this individual and the corresponding solution<br />
is given by an appropriate encoding. The quality of each individual<br />
is evaluated thanks to a score function which enables to<br />
quantify the quality of the corresponding solution. In order to<br />
converge to the optimal solution, individuals from a size-limited<br />
population are randomly selected at each generation according to<br />
a fitness value which is computed using the scores of all the indi-<br />
ð7Þ
tel-00671168, version 1 - 8 Oct 2012<br />
908 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />
viduals of the population. New individuals are then generated from<br />
those selected individuals thanks to gen<strong>et</strong>ic operators such as<br />
crossover or mutation. From a general point of view, the crossover<br />
operator aims at promoting the exchange of good gen<strong>et</strong>ic material<br />
b<strong>et</strong>ween individuals of the previous generation. The mutation<br />
operator is used to promote gen<strong>et</strong>ic diversity and to explore the<br />
solution space. Given these general principles, solving a specific<br />
optimization problem using GA requires the definition of:<br />
an appropriate encoding of the solutions;<br />
a function which evaluates the score of the individual;<br />
a selection strategy;<br />
some dedicated gen<strong>et</strong>ic operators (mutation and crossover<br />
operators).<br />
The following paragraphs tackle each of these points for both<br />
graph prototype selection and generation, and describe the proposed<br />
gen<strong>et</strong>ic algorithm.<br />
3.2. Individual encoding<br />
The encoding aims at giving a one-to-one relationship b<strong>et</strong>ween<br />
the individuals manipulated by the GA and the solutions of the<br />
optimization problem. As defined before, the prototype selection/<br />
generation problem aims at providing m prototypes for each of<br />
the N classes. So, we adopt a general scheme where an individual<br />
contains m N genes, and each gene encode a graph prototype.<br />
An example is given in Fig. 1. In this example, the individual encodes<br />
two prototypes for each class in a 3 classes problem and<br />
gi,j is the ith graph prototype describing class j. Obviously, this<br />
encoding is specialized for each problem.<br />
3.2.1. S<strong>et</strong> prototype problem encoding<br />
As stated in Section 2, the possible solutions of a s<strong>et</strong> prototype<br />
problem are the combinations of m elements selected from each<br />
class in the initial graph s<strong>et</strong>. For this kind of problem, an individual<br />
can be defined by a list of N m integers which is structured as a<br />
sequence of Nm-s<strong>et</strong>s. Each m-s<strong>et</strong> describes one of the N classes and<br />
contains the m indices of the elements from the initial s<strong>et</strong> which<br />
are selected as prototype. The exemple in Fig. 2 presents the<br />
encoding of an individual for a 3-class problem where 2 prototypes<br />
are selected to describe each class. This individual indicates that<br />
class 1 is described with elements 1 and 3 of a learning subs<strong>et</strong><br />
composed of the graphs of the first class, that class 2 is described<br />
with elements 5 and 2 of the class, and that class 3 is described<br />
with graphs the indices of which are 7 and 3 in the third class<br />
subs<strong>et</strong>.<br />
3.2.2. Generalized prototype problem encoding<br />
The index model used in the s<strong>et</strong> prototype problem can not be<br />
used for the solution encoding of the generalized prototype problem<br />
since the definition of generalized (median and discriminative)<br />
Fig. 1. General encoding scheme for the m prototypes problem. Each individual<br />
contains m N genes. Each one corresponds to a graph prototype.<br />
Fig. 2. S<strong>et</strong> prototype encoding scheme for the m prototypes problem. Each<br />
individual contains m N genes. Each gene is the index of the graph in the<br />
considered class of the learning datas<strong>et</strong>.<br />
graphs implies that prototypes may be outside of the initial s<strong>et</strong> of<br />
graphs. As a consequence, each gene of an individual can not be a<br />
simple index and has to encode all the information contained in the<br />
corresponding graph. We have chosen to represent each graph<br />
with its adjacency matrix. Hence, an individual can be defined by<br />
a list of N m adjacency matrices, structured as a sequence of N<br />
m-s<strong>et</strong>s. Fig. 3 illustrates such an encoding where only one of the<br />
six genes is represented.<br />
3.3. Fitness function<br />
A fitness function aims at evaluating how the solution encoded<br />
by an individual is good for the optimization problem with respect<br />
to the entire population. The computation of a fitness value relies<br />
on two steps. First, the score of the individual has to be evaluated.<br />
It corresponds to the value of the objective function to be optimized.<br />
Then, this value is normalized with respect to the scores<br />
of all the individuals of the population. As mentioned in Section<br />
2, objectives are different for the median prototype problem and<br />
for the discriminative prototype problem. As a consequence, score<br />
functions differ for each problem.<br />
3.3.1. Score function for median prototypes<br />
As defined in Section 2, the score function in the median prototype<br />
problem is given by:<br />
!<br />
Sa ¼ XN<br />
i¼1<br />
X n i<br />
j¼1<br />
min dLij; smgik k2½1;mŠ<br />
where N is the number of classes, ni is the number of elements of<br />
class i in the learning datas<strong>et</strong>, m is the number of prototypes per<br />
class, Lij is the jth sample of class i, and smgik is the kth prototype<br />
of class i in the individual a.<br />
3.3.2. Score function for discriminative prototypes<br />
The score value of an individual in the discriminative prototype<br />
problem is a function which is directly linked to the error rate of<br />
the Nearest Prototype Classifier evaluated on a validation datas<strong>et</strong><br />
T using the prototypes encoded in the individual. It is given by:<br />
Sa ¼ D T; fg ikg N;m<br />
i¼1;k¼1<br />
where T is the validation datas<strong>et</strong>, N is the number of classes, m is the<br />
number of prototypes per class, gik is the kth prototype of class i in<br />
the individual and DðT; fgikg N;m<br />
i¼1;k¼1Þ is the error rate obtained by a 1-<br />
NN classifier on T using the graph prototypes fgikg N;m<br />
i¼1;k¼1 as learning<br />
samples.<br />
Fig. 3. Generalized prototype encoding scheme for the m prototypes problem. Each<br />
individual contains m N genes. Each gene is an adjacency matrix describing the<br />
corresponding graph. Only g1,2 is represented here. In the adjacency matrix, the<br />
digits state for vertex identifiers. a, b, and c are vertices labels, they appear in the<br />
last column of the matrix. W, X and Y are edge labels, they appear in the adjacency<br />
matrix at the line (resp. column) corresponding to the source (resp. targ<strong>et</strong>) vertex.<br />
ð8Þ<br />
ð9Þ
tel-00671168, version 1 - 8 Oct 2012<br />
The computation of both the D value of Eq. (9) and the Sa value<br />
of Eq. (8) makes use of graph distance computation. The following<br />
paragraph discusses our choice for this distance definition.<br />
3.3.3. Distance computation<br />
Any kind of distance can be used in the proposed framework<br />
(graph edit distance [33,34] or its approximations [35], distance<br />
based on the maximum common subgraph [36], distance based<br />
on graph union [37], <strong>et</strong>c.). In the experiments proposed in section<br />
4, the graph comparison computation is performed using a dissimilarity<br />
measure proposed by Lopresti and Wilfong [38]. This measure<br />
is based on graph probing which has been proved to be a<br />
lower bound for the reference graph edit distance within a factor<br />
of 4.<br />
L<strong>et</strong> g be a directed attributed graph with edges labeled from a<br />
finite s<strong>et</strong> L E ={l 1,...,l a}. A given vertex of g can be represented with<br />
its edge structure as a 2a-tuple of non-negative integers {x1,...,xa,<br />
y 1,...,y a} such that the vertex has exactly x i incoming edges<br />
labeled li and yj outgoing edges labeled lj.<br />
In this context, two types of probes are defined in [38]:<br />
P1(g): a vector which gathers the counts of vertices sharing the<br />
same edge structure for all encountered edge structures;<br />
P2(g): a vector which gathers the number of vertices for each<br />
vertex label.<br />
Based on these probes and on the L 1-norm, the graph probing<br />
distance b<strong>et</strong>ween two graphs g1 and g2 is given by:<br />
gpdðg 1; g 2Þ¼L1ðP1ðg 1Þ; P1ðg 2ÞÞ þ L1ðP2ðg 1Þ; P2ðg 2ÞÞ ð10Þ<br />
The graph probing distance respects the non-negativity, symm<strong>et</strong>ry,<br />
and triangle inequality properties of a m<strong>et</strong>ric, but it does not respect<br />
the uniqueness property. In other words, gpd is a pseudo-m<strong>et</strong>ric and<br />
two non-isomorphic graphs can have the same probes.<br />
However, the main advantage of graph probing in this study is<br />
its low computational cost (linear function of the vertex number).<br />
Due to the intensive use of distance computations during the gen<strong>et</strong>ic<br />
algorithm, this property makes the graph probing distance<br />
a good candidate. Nevertheless, it is important to note that any<br />
kind of dissimilarity measure may be used in the proposed<br />
framework.<br />
3.3.4. Fitness computation<br />
Once the score value of an individual has been computed, a second<br />
step of individual evaluation consists in computing its fitness,<br />
through a normalization of the score value with respect to all the<br />
individuals of the population. We use the following classical fitness<br />
assignment procedure in this scope:<br />
Fa ¼ Sa<br />
Pq<br />
i¼1Si 3.4. Selection strategy<br />
ð11Þ<br />
The selection operator aims at selecting a proportion of the<br />
existing population to breed a new generation. Individual solutions<br />
are selected through a fitness-based process, where fitter solutions<br />
(as measured by the fitness function defined in Eq. (11)) are typically<br />
more likely to be selected. We use the well-known roul<strong>et</strong>te<br />
wheel strategy [31] in which the probability of an individual to<br />
be selected is proportional to its fitness value. In the whole reproduction<br />
process, an elitism mechanism is coupled with this selection<br />
strategy such that the l best individuals from the previous<br />
generation are ensured to be in the next generation.<br />
R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 909<br />
3.5. Crossover<br />
As mentioned before, the crossover operator is designed to generate<br />
offsprings from selected individuals. The exchange of gen<strong>et</strong>ic<br />
material aims at generating offsprings sharing good genes from<br />
their parents.<br />
In our case, the crossover is performed by a random exchange of<br />
prototypes b<strong>et</strong>ween the parent for each class. Fig. 4 illustrates the<br />
crossover operation. The operation is the same for all the kinds of<br />
prototypes. In the case of s<strong>et</strong> prototypes, where the graphs prototypes<br />
are designated by indices, only indices are permuted<br />
whereas the compl<strong>et</strong>e graph descriptions are exchanged when<br />
dealing with the generalized prototype problem.<br />
3.6. Mutation<br />
Mutations are used to promote gen<strong>et</strong>ic diversity and allow the<br />
exploration of regions of the solution space which can not be<br />
reached only with crossover. As the solution space is different for<br />
s<strong>et</strong> prototype and generalized prototype problems, the mutation<br />
operator has to be specialized for each case.<br />
3.6.1. Mutation for s<strong>et</strong> prototype problem<br />
In the s<strong>et</strong> prototype problem, the solution space is defined by<br />
the combinations allowing the selection of m prototypes for each<br />
class. An elementary modification of an individual would consist<br />
in replacing a prototype by an element from the same class that<br />
is not already selected in the individual. Hence, considering the index<br />
model used to represent graphs, a simple way to perform a<br />
mutation is to arbitrarily substitute an index values by a random<br />
integer. Fig. 5 illustrates the mutation process. In this example,<br />
we can observe that element 3 has been replaced by element 4<br />
in the mutated version of the description of class 1. In the same<br />
way, instance 5 has been replaced by instance 6 in the description<br />
of class 2. Finally, the mutated version describes class 3 using the<br />
element 5 instead of element 3.<br />
3.6.2. Mutation for the generalized prototype problem<br />
In the generalized prototype problem, the solution space is not<br />
restricted to the combinations of elements selected in L. Graphs<br />
that are not element of L can be generated as prototypes. As a consequence,<br />
the mutation operation can not be restricted to an index<br />
modification. It must be able to produce new graphs. To do this, a<br />
Fig. 4. Illustration of the crossover operator: two selected parents (a) generate two<br />
offsprings (b). Genes 1, 3 and 4 have been swapped during the operation.<br />
Fig. 5. Illustration of the mutation operator for s<strong>et</strong> prototypes: genes 2, 3 and 6<br />
have mutated.
tel-00671168, version 1 - 8 Oct 2012<br />
910 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />
random edit operation is applied to the graph prototypes that are<br />
included in the individual. For each graph of a given individual, a<br />
first random choice according to a mutation probability enables<br />
to decide if a mutation is applied or not. Then, one of the six following<br />
possible operations illustrated on Fig. 6 is chosen randomly:<br />
Vertex del<strong>et</strong>ion: del<strong>et</strong>e a randomly chosen vertex and all its connected<br />
edges. This operation corresponds to the del<strong>et</strong>ion of a<br />
row and a column in the adjacency matrix (see Fig. 6b).<br />
Edge del<strong>et</strong>ion: del<strong>et</strong>e a randomly chosen edge. This operation<br />
corresponds to the del<strong>et</strong>ion of an edge value in the adjacency<br />
matrix (see Fig. 6c).<br />
Vertex insertion: insert a new vertex in the graph with a randomly<br />
chosen label among the vertex label dictionary. This<br />
operation corresponds to the addition of a new row and a<br />
new column in the adjacency matrix. The label column is also<br />
updated using the randomly chosen label (see Fig. 6d).<br />
Edge insertion: insert a new edge b<strong>et</strong>ween two random vertices<br />
with a randomly chosen label among the edge label dictionary.<br />
This operation corresponds to the addition of a randomly<br />
labeled edge in the adjacency matrix (see Fig. 6e).<br />
Vertex substitution: substitute the label of a randomly chosen<br />
vertex using the vertex label dictionary. This operation corresponds<br />
to the modification of the label column for the randomly<br />
chosen vertex(see Fig. 6f).<br />
Edge substitution: substitute the label of a randomly chosen<br />
edge using the edge label dictionary. This operation corre-<br />
sponds to the modification of the label for the randomly chosen<br />
edge (see Fig. 6g).<br />
3.7. Proposed algorithm<br />
Algorithm 1 gives the generic structure of the GA used for the<br />
graph prototype generation/selection problems. This algorithm<br />
complies with the principles defined in Section 3.1 and is specialized<br />
by s<strong>et</strong>ting the adapted encoding, fitness function and gen<strong>et</strong>ic<br />
operators presented previously.<br />
First, an initialization procedure aims at building the initial population<br />
where each individual corresponds to a possible solution of<br />
the optimization problem. In the case of s<strong>et</strong> prototypes, distinct<br />
indices are randomly chosen for each individual in order to represent<br />
the N classes with N m graphs. For generalized prototypes,<br />
we have chosen to initialize the individuals with randomly chosen<br />
graphs from the learning datas<strong>et</strong>, since it has been shown in [24]<br />
that it is a b<strong>et</strong>ter solution than a compl<strong>et</strong>e random procedure.<br />
Then, the GA iterates over the generations, building new sizelimited<br />
populations from the previous ones. Each new generation<br />
is composed of:<br />
the l best individuals from the previous one. Such an elitist<br />
strategy ensures the convergence of the algorithm.<br />
mutated or crossed version of individuals that have been<br />
selected from the previous generation.<br />
Fig. 6. Illustration of the mutation operators on both generalized graphs and the corresponding adjacency matrices.
tel-00671168, version 1 - 8 Oct 2012<br />
Finally, the algorithm provides the best individual from the last<br />
generation as the best solution of the optimization procedure.<br />
Algorithm 1. Gen<strong>et</strong>ic algorithm<br />
Require: L: the training s<strong>et</strong><br />
Require: T: the validation s<strong>et</strong><br />
Require: m: number of prototypes per class<br />
Require: populationSize<br />
Require: generationNumber<br />
Require: mutationRate<br />
Require: l: elitism value<br />
Ensure: A s<strong>et</strong> of N m prototypes<br />
Pop[0][] popInit(L,T,m,populationSize) 1<br />
popEval(Pop[0],L,T)<br />
fitnessEval(Pop[0])<br />
for i = 1 to generationNumber do<br />
Pop[i][1:l] l best individuals in Pop[i 1]<br />
j l +1<br />
while j 6 populationSize do<br />
op choice b<strong>et</strong>ween mutation and crossover 2<br />
if op = mutation then<br />
ind select an individual in Pop[i 1] 3<br />
Pop[i][j] mutation(ind)<br />
j j +1<br />
else<br />
ind1 select an individual in Pop[i 1] 3<br />
ind 2 select an individual in Pop[i 1] 3<br />
(newInd1,newInd2) crossover(ind1,ind2)<br />
Pop[i][j] ind 1<br />
Pop[i][j +1] ind2<br />
j j +2<br />
end if<br />
popEval(Pop[i],L,T)<br />
fitnessEval(Pop[i])<br />
end while<br />
end for<br />
r<strong>et</strong>urn the best individual from the last generation<br />
1 T is not used for the initialization in the case of<br />
discriminative graphs<br />
2<br />
This choice is made according to mutationRate<br />
3<br />
Selection is done using a roul<strong>et</strong>te wheel according to<br />
fitness values<br />
4. Experimental results and analysis<br />
This section is devoted to the experimental evaluation of the<br />
proposed approach. First, both the datas<strong>et</strong>s and the experimental<br />
protocol are described before investigating and discussing the merits<br />
of the proposed approach.<br />
4.1. Datas<strong>et</strong> description<br />
The experiments described in this section have been carried out<br />
on four databases. The first one is composed of synth<strong>et</strong>ic data<br />
allowing (i) an evaluation in a general context on a huge datas<strong>et</strong><br />
and (ii) an evaluation with respect to the number of classes. The<br />
others s<strong>et</strong>s are domain specific, they are related to pattern recognition<br />
issues where graphs are meaningful. Each datas<strong>et</strong> has been<br />
split into three subs<strong>et</strong>s respectively called training subs<strong>et</strong>, validation<br />
subs<strong>et</strong> and test subs<strong>et</strong>. The content of each database is summarized<br />
in Table 1. For each datas<strong>et</strong>, this table gives: the number<br />
of classes (Classes), the total number of data (Samples), the sizes<br />
of learning/validation/test datas<strong>et</strong>s and the mean properties of<br />
the graphs.<br />
R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 911<br />
Table 1<br />
Properties of the four datas<strong>et</strong>s (A,B, C,D) used in the experiments: number of graphs,<br />
distribution of the graphs in the learning/validation/test subs<strong>et</strong>s and properties of the<br />
graphs in the datas<strong>et</strong>.<br />
A B C D<br />
jClassesj (N) 50 10 32 15<br />
jSamplesj 28,229 200 12,800 6750<br />
jTrainingj 10,596 88 7200 3796<br />
jValidationj 14,101 56 3200 1688<br />
jTestj 3532 56 2400 1266<br />
jverticesjmean 12.03 5.56 8.84 4.7<br />
jedgesjmean 9.86 11.71 10.15 3.6<br />
jdegreejmean 1.63 4.21 1.15 1.3<br />
4.1.1. Synth<strong>et</strong>ic datas<strong>et</strong>: Base A<br />
This datas<strong>et</strong> contains over 28,000 graphs, roughly identically<br />
distributed in 50 classes (about 560 graphs per class). The graphs<br />
are directed with edges and vertices labeled from two distinct<br />
alphab<strong>et</strong>s. They are built using a modified version of the generic<br />
framework used to construct random graphs proposed in [39].<br />
Since this framework does not aim at depicting classes, in the sense<br />
of similar graphs, we add a second step to the data generation process<br />
in order to create classes of graphs. In the initial step a number<br />
N (where N is the desired number of classes) of graphs are constructed<br />
using the Erdös-Rényi model [39]. This model takes as input<br />
the number of vertices of the graph to be generated, and the<br />
probability of generating an edge b<strong>et</strong>ween two vertices. A low<br />
probability for edges leads to sparse graphs, that typically occur<br />
in proximity based graph representations found in pattern recognition.<br />
In the second step, each of the generated graphs are modified<br />
using two processes. In a first stage edges and vertices are randomly<br />
del<strong>et</strong>ed or relabeled according to a given probability. Then,<br />
a second stage of modifications is applied by selecting a vertex<br />
from a graph and replacing it with a random subgraph. The whole<br />
process leads to graph classes which have an intra-class similarity<br />
greater than the inter-class similarity. Numerical d<strong>et</strong>ails concerning<br />
this datas<strong>et</strong> are presented in Table 1. The large size of this datas<strong>et</strong><br />
is a key point to measure up our approach to the scalability<br />
problem.<br />
4.1.2. Symbol recognition related datas<strong>et</strong>: Base B<br />
This second datas<strong>et</strong> contains graphs which are generated from a<br />
corpus of 200 noisy symbol images, corresponding to 10 ideal<br />
models (classes) proposed in a symbol recognition contest [29]<br />
(GREC workshop). The class distribution is given in Table 2. Ina<br />
first step, considering the symbol binary image, both black and<br />
white connected components are extracted. These connected components<br />
are then automatically labeled with a partitional clustering<br />
algorithm [40] using Zernike moments as features[41]. Using<br />
these labeled items, a graph is built. Each connected component<br />
correspond to an attributed vertex in this graph. Then, edges are<br />
built using the following rule: two vertices are linked with an undi-<br />
Table 2<br />
Class sizes of the dababase B.<br />
Class Samples<br />
1 25<br />
2 13<br />
3 17<br />
4 13<br />
5 20<br />
6 39<br />
7 22<br />
8 17<br />
9 17<br />
10 17
tel-00671168, version 1 - 8 Oct 2012<br />
912 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />
rected and unlabeled edge if one of the vertices is a neighbor of the<br />
other vertex in the corresponding image. This neighborhood is<br />
decided according to the distance b<strong>et</strong>ween the centroids of each<br />
Fig. 7. From symbols to graphs through connected component analysis. At the top:<br />
a model symbol. At the bottom: a distorded symbol. In both graphs, the vertex a<br />
denotes the black connected component whereas the others denote white<br />
connected components. In the bottom graph (distorded version), the label e has<br />
replaced the label b of the initial.<br />
connected components with respect to a predefined threshold<br />
(see [42] for more d<strong>et</strong>ails). An example of the association b<strong>et</strong>ween<br />
two symbol images and the corresponding graphs is illustrated in<br />
Fig. 7. Numerical d<strong>et</strong>ails concerning this datas<strong>et</strong> are presented in<br />
Table 1.<br />
4.1.3. Ferrer datas<strong>et</strong>: Base C<br />
This third datas<strong>et</strong> is also related to the symbol recognition problem.<br />
It is derived from the GREC database [29]. It is composed of<br />
12,800 graphs identically distributed among 32 classes (examples<br />
of symbols are given on Fig. 8). These graphs are built using a<br />
slightly modified version of the approach proposed in [26]. Using<br />
Ferrer’s approach, a symbol is represented as an undirected labeled<br />
graph which stems from a vectorial representation of the symbol<br />
image. In this graph, the vertices correspond to the Terminal Points<br />
(TPs) and the Junction Points (JPs) of the vectorial representation<br />
and the edges correspond to the segments which connect those<br />
points in the image. The information associated to vertices or edges<br />
are their cartesian coordinates (x,y). Due to the graph spectral theory<br />
limitation, Ferrer’s graphs have to be labeled using real positive<br />
or null values and can not handle complex objects. This restriction<br />
leads to the construction of two graphs for a single symbol: a graph<br />
Gx labeled with x coordinates and a graph Gy with y coordinates, as<br />
Table 3<br />
Param<strong>et</strong>ers used for the gen<strong>et</strong>ic algorithm in the proposed<br />
experiments.<br />
Acronym Value<br />
Population Size q 200<br />
Mutation rate r 0.3<br />
] of generations G 100<br />
] of runs W 10<br />
Fig. 8. Examples of symbols used to build the graphs of the Ferrer datas<strong>et</strong> [29] – base C.<br />
Fig. 9. From symbols to graphs using a 2D mesh. On the left, a vectorized symbol. One the bottom right, the two graphs Gx and Gy obtained using Ferrer’s approach. The<br />
vertices correspond to the Terminal Points (TPs) and the Junction Points (JPs) of the vectorial representation, labeled with either their x coordinates (on the left) or their y<br />
coordinates (on the right). The edges correspond to the segments which connect those points in the image. On the top right, the graphs used to evaluate the proposed<br />
approach where the vertices label are obtained through a discr<strong>et</strong>ization of R 2 .
tel-00671168, version 1 - 8 Oct 2012<br />
Fig. 10. Evolution of the sum of SOD with respect to the generation number obtained using the proposed gen<strong>et</strong>ic algorithm for the computation of smg (blue curve) and gmg<br />
(gray curve) on the four datas<strong>et</strong>s. The red line states for the sum of SOD obtained using a combinatorial approach. (For interpr<strong>et</strong>ation of the references to color in this figure<br />
legend, the reader is referred to the web version of this article.)<br />
shown on Fig. 9. In our case, the chosen graph signature imposes<br />
the use of nominal labels. Consequently, a 2-Dimensional mesh is<br />
applied to achieve the JP and TP discr<strong>et</strong>isation (see the top right<br />
of Fig. 9 ). An experimental study which is not presented in this paper<br />
has been used in order to choose mesh granularity.<br />
In order to prove the robustness of such a graph representation<br />
against noise, 4 different levels of distortion were introduced in<br />
[26]. These distortions are generated by moving each TP or JP randomly<br />
within a circle of radius r (given as a param<strong>et</strong>er for each level)<br />
centered at original coordinates of the point. If a JP is randomly<br />
moved, all the segments connected to it are also moved. With such<br />
distortions, gaps in line segments, missing line segments and<br />
wrong line segments are not allowed. Moreover, the number of<br />
vertices of each symbol is not changed.<br />
R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 913<br />
4.1.4. L<strong>et</strong>ter database: Base D<br />
This last database consists of graphs representing distorted l<strong>et</strong>ter<br />
drawings. It is a slightly modified version of the l<strong>et</strong>ter datas<strong>et</strong><br />
proposed in the IAM graph database repository [43] 3 where LOW,<br />
HIGH and MED parts of the datas<strong>et</strong> have been merged. It considers<br />
the 15 capital l<strong>et</strong>ters of the Roman alphab<strong>et</strong> that consists of straight<br />
lines only (A, E, F, <strong>et</strong>c.). For each class, a prototype line drawing is<br />
manually constructed. To obtain arbitrarily large sample s<strong>et</strong>s of<br />
drawings with strong distortions, arbitrarily distortion operators<br />
are applied to the prototype line drawings. This results in randomly<br />
shifted, removed, and added lines. These drawings are then con-<br />
3 Available at http://www.greyc.ensicaen.fr/iapr-tc15/.
tel-00671168, version 1 - 8 Oct 2012<br />
914 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />
verted into graphs in a simple manner by representing lines by edges<br />
and ending points of lines by vertices. Each vertex is labeled with a<br />
two-dimensional attribute giving its position. Since our approach<br />
only focuses on nominal attributes, a quantification is performed<br />
by the use of a mesh, as in the case of database C. This datas<strong>et</strong> contains<br />
12,800 graphs, identically distributed among the 15 classes.<br />
More information concerning those data are given in Table 1.<br />
4.2. Experimental protocol<br />
The experiments proposed in this section aim at comparing the<br />
classification performance which can be reached using the different<br />
graph prototypes defined in Section 2. To achieve such a goal,<br />
the following protocol has been applied.<br />
First, each datas<strong>et</strong> has been split into three subs<strong>et</strong>s respectively<br />
called training subs<strong>et</strong> (Tr), validation subs<strong>et</strong> (Tv) and test subs<strong>et</strong><br />
(Ts). These subs<strong>et</strong>s are used differently according to the prototypes<br />
which are involved.<br />
In the case of using discriminative graphs as prototypes, the<br />
training s<strong>et</strong> is used to generate the initial population of the GA,<br />
as explained in Section 3.7. Hence, individuals of the first generation<br />
are composed of graphs of Tr. The validation s<strong>et</strong> Tv is involved<br />
in the evaluation of the individuals using the 1-NPC classifier during<br />
the GA. Finally, the test s<strong>et</strong> is used for evaluating the quality of<br />
the best individual (i.e. the best classifier) found at the end of the<br />
algorithm. Using such a split, the final performance of the proposed<br />
approach is evaluated on a s<strong>et</strong> that has not been considered in the<br />
graph prototype learning stage.<br />
In the case of using median graphs as prototypes, the learning<br />
process does not involve a classification stage. Consequently, the<br />
Table 4<br />
A single prototype per class, a comparison.<br />
% smg gmg sdg gdg<br />
Rec r Rec r Rec r Rec r<br />
Base A 33.75 0.0 36.00 1.52 66.10 0.981 66.67 1.59<br />
Base B 62.5 0.0 75 0.0 71.42 2.5 83.39 2.5<br />
Base C 86.92 0.0 85.48 2.05 86.58 0.596 90.70 0.59<br />
Base D 69.61 0.0 69.14 0.34 69.67 0.67 71.24 1.47<br />
Fig. 11. Recognition rates obtained using a 1-NN rule applied on Ts and using gdg,<br />
sdg, gmg and smg as learning prototypes for the four datas<strong>et</strong>s.<br />
training and the validation subs<strong>et</strong>s are merged tog<strong>et</strong>her for medians<br />
computation and the test s<strong>et</strong> is used for evaluating the final<br />
performance.<br />
Concerning the number m of prototypes to be computed for<br />
each class, different values have been tested in the protocol. These<br />
values have been chosen with respect to the properties of the<br />
datas<strong>et</strong>.<br />
Furthermore, since GA’s are stochastic algorithms, it is necessary<br />
to estimate the variability of the results in order to assess<br />
the statistical significance of the performance. This was done by<br />
running W times the GA and then calculating the conventional<br />
couple average and standard deviation hRec; ri at the end of the<br />
W runs.<br />
Algorithm 2 gives an overview of the whole protocol. The entire<br />
experimental session was performed according to the s<strong>et</strong>ting described<br />
in Table 3, these latter param<strong>et</strong>ers have been chosen<br />
experimentaly.<br />
Algorithm 2. Experimental protocol<br />
Require: Tr: the training datas<strong>et</strong><br />
Require: Tv: the validation datas<strong>et</strong><br />
Require: Ts: the test datas<strong>et</strong><br />
Require: W: the number of runs<br />
Require: m[m max]: the m max values of m to be tested 1<br />
Require: gaparam: GA param<strong>et</strong>ers 2<br />
ensure: m smg[m max],r smg[m max]<br />
ensure: mgmg[mmax],rgmg[mmax]<br />
ensure: m sdg[m max],r sdg[m max]<br />
ensure: mgdg[mmax],rgdg[mmax]<br />
for j =1tom max<br />
for i =1toW<br />
smg[i][1:j] GA(Tr,Tv,m[j],ga param) 3<br />
gmg[i][1:j] GA(Tr,Tv,m[j],gaparam) 3<br />
sdg[i][1:j] GA(Tr,Tv,m[j],ga param) 3<br />
gdg[i][1:j] GA(Tr,Tv,m[j],gaparam) 3<br />
err smg[i] err1ppv(Ts,smg[i][1:j])<br />
errgmg[i] err1ppv(Ts,gmg[i][1:j])<br />
err sdg[i] err1ppv(Ts,sdg[i][1:j])<br />
errgdg[i] err1ppv(Ts,gdg[i][1:j])<br />
end for<br />
msmg[j] mean(errsmg[i])<br />
rsmg[j] std(errsmg[i])<br />
mgmg[j] mean(errgmg[i])<br />
rgmg[j] std(errgmg[i])<br />
msdg[j] mean(errsdg[i])<br />
rsdg[j] std(errsdg[i])<br />
m gdg[j] mean(err gdg[i])<br />
rgdg[j] std(errgdg[i])<br />
end for<br />
1 m values differ according to the considered datas<strong>et</strong><br />
2 Include populationSize, generationNumber, mutationRate<br />
and l<br />
3 Each GA is specialized to the kind of prototypes to be<br />
computed<br />
From this stage, our experiments are organized in a five step<br />
m<strong>et</strong>hodology. First, a study on s<strong>et</strong> median graph computation is<br />
carried out to prove the good convergence of the proposed gen<strong>et</strong>ic<br />
algorithm. Second, an evaluation of the classification performance<br />
that can be reached using smg, gmg, sdg and gdg (m = 1) as prototypes<br />
is performed. Third, we have investigated the influence of<br />
m value on the obtained results when multiple prototypes are used<br />
for each class. These results are compared to those obtained by a 1-<br />
NN classifier trained on the whole learning base (Tr [ Tv), without<br />
reduction. Fourth, a closer look is given to the number of classes
tel-00671168, version 1 - 8 Oct 2012<br />
impact. Finally, the time complexity is benchmarked though different<br />
points of view, the prototype nature and the number of classes.<br />
4.3. Algorithm convergence<br />
In the particular case of computing a single s<strong>et</strong> median graph<br />
smg for a given class, the problem is computionally feasible and<br />
reachable in O(N 2 ) where N is the number of elements in the given<br />
class. Therefore, it is interesting to compare the s<strong>et</strong> median graphs<br />
when they are calculated in a computional way and by GA. This<br />
test is illustrated in Fig. 10 which reports the sum of the SOD for<br />
all classes when the computation is done (i) in a d<strong>et</strong>erministic<br />
way (red line) and (ii) when using GA (blue curve for smg and gray<br />
curve for gmg). Results highlight that our algorithm always reaches<br />
the global optimum and moreover that few generations are needed<br />
to obtain this good performance. In addition, over the four dat-<br />
R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 915<br />
abases, the lowest SODs are achieved by the generalized median<br />
graphs. Such a result shows the capacity of our algorithm to build<br />
efficient generalized graphs.<br />
4.4. Classification performance with a single prototype<br />
The first classification experiments which have been performed<br />
aim at comparing the performance in graph classification obtained<br />
on datas<strong>et</strong>s A, B, C, D using an 1-NPC when choosing a single representative<br />
per class. The obtained classification rates are reported<br />
in Table 4 and illustrated in Fig. 11. Such results lead to several remarks.<br />
First of all, regarding all the databases, results obtained by<br />
gmg are b<strong>et</strong>ter than those results obtained by smg. This latter<br />
observation corroborates the idea that gmg have a b<strong>et</strong>ter modeling<br />
behavior than smg. This observation relies on a straightforward<br />
explanation, gmg belong to a more compl<strong>et</strong>e graph space while<br />
Fig. 12. Recognition rate evolution according to m for each kind of prototypes and on the four datas<strong>et</strong>s.
tel-00671168, version 1 - 8 Oct 2012<br />
916 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />
smg are limited to elements constituting the training dababase.<br />
Secondly, another remark states the case that the discriminative<br />
approaches outperform the generative ones. This statement relies<br />
on the comparisons b<strong>et</strong>ween (sdg vs. smg) and (gdg vs. gmg). In both<br />
cases, the discriminative graph performance exceed median graph<br />
results in a significant way. These important improvements justify<br />
to choose gdg in order to synth<strong>et</strong>ize a given graph s<strong>et</strong> in a classification<br />
context.<br />
4.5. Classification performance with regard to the number of<br />
prototypes<br />
This second part of experiments aims at investigating the influence<br />
of the number m of prototypes on classification results. The<br />
results illustrated in Fig. 12 clearly show that the classification rate<br />
is improved when increasing the number of representatives for<br />
both median and discriminative graphs. This fact shows that a larger<br />
number of prototypes tends to b<strong>et</strong>ter describe the difficult<br />
problems of classification. Also we noticed that the use of a very restricted<br />
representative s<strong>et</strong> (i.e. m = 1) leads to a lower recognition<br />
rate in comparison to the results obtained by a 1-NN classifier<br />
trained on the whole learning datas<strong>et</strong> (Tr [ Tv). However, the time<br />
and memory complexities are considerably reduced since there are<br />
only N distances to be calculated. Nevertheless, when increasing<br />
the number of prototypes, performance match and even outperform<br />
the quality of the 1-NN classifier (see Table 5) while maintaining<br />
the reduction rate quite high. This trade-off to be made<br />
b<strong>et</strong>ween CPU resources and accuracy gives a solution to tackle<br />
the scalability problem and consequently to face large data s<strong>et</strong>s<br />
taking fast decisions in the classification stage.<br />
4.6. Impact of the number of classes<br />
Thanks to our synth<strong>et</strong>ic graph generator, the number of classes<br />
can be tuned to evaluate the algorithm behavior according to this<br />
criterion. In addition, the scalability problem can be addressed<br />
reaching a number of classes up to 50. This comparison is presented<br />
in Fig. 13. Implicitly, a higher number of classes will lead<br />
to a more complicated issue, in such a way that the recognition<br />
rate will be d<strong>et</strong>eriorated. When increasing the number of classes,<br />
the gap in term of accuracy b<strong>et</strong>ween modelizing and discriminative<br />
graphs is more important. This difference of accuracy starts<br />
from 3.68% in the 5-classes problem to reach 21.3% when the number<br />
of classes is 50. The higher is the number of classes, the larger is<br />
the gap b<strong>et</strong>ween modelizing and discriminative graphs. This<br />
advantage makes discriminative graphs suitable for difficult classification<br />
problems. Independently from the number of classes, it is<br />
interesting to report the following statements. This test strengthened<br />
our prior observations. The gmg b<strong>et</strong>ter modelizes classes than<br />
smg and gdg outperform all the others prototypes over the four<br />
subs<strong>et</strong>s.<br />
4.7. Time complexity analysis<br />
As a matter of fact, learning algorithms are performed off-line.<br />
In such a configuration, it seems reasonable to mention that time<br />
complexity is not a crucial issue. It is much more significant to<br />
Fig. 13. Performance comparison b<strong>et</strong>ween the different kinds of prototypes with<br />
respect to the number of classes on different subs<strong>et</strong>s of the database A.<br />
be fast at the decision stage. However, a way to compare the computational<br />
cost of the different types of prototypes was to undertake<br />
an empirical study. The algorithm complexity is directly<br />
linked to the number of classes, the influence of the datas<strong>et</strong> size<br />
is depicted by the Fig. 14. A first comment illustrates the strong impact<br />
of the class number on the computational cost when producing<br />
a discriminative graph. Moreover a comparison of the runtime<br />
execution according to the kind of prototypes on the largest data-<br />
Fig. 14. Run-time evolution with respect to the number of classes on different<br />
subs<strong>et</strong>s of the database A.<br />
Table 5<br />
Reduction rate and performance comparisons b<strong>et</strong>ween gdg and a 1-NN classifier using the entire learning s<strong>et</strong> Tr [ Tv. Reduction rate stands for 100 m N<br />
jTr[Tvj .<br />
Base A Base B Base C Base D<br />
gdg 1-NN gdg 1-NN gdg 1-NN gdg 1-NN<br />
Reduc. rate (%) 92.92 0 50.71 0 86.67 0 76.3 0<br />
Rec (%) 86.34 85.16 97.14 96.43 99.71 99.47 91.04 90.16
tel-00671168, version 1 - 8 Oct 2012<br />
base has been led. The complexity of the median graph search<br />
came out from this test. The SOD criterion is less demanding in<br />
term of distance computation, therefore, it is less time consuming.<br />
At worst case, in our experiments on the largest database, the median<br />
graph computation was 15 times faster. However, this overload<br />
does not discourage the use of discriminative graphs since<br />
the gain they imply is really significant. It is a commonplace in machine<br />
learning to state the case that training algorithms require<br />
much time and many computations to assimilate the data<br />
variability.<br />
5. Conclusion and future works<br />
This paper has presented several approaches for the construction<br />
of prototype-based structural classifiers. These approaches<br />
have been experimentally compared according to several criteria<br />
on both synth<strong>et</strong>ic and real databases.<br />
The experimental results first confirm that the generalized<br />
median graph approximated using a gen<strong>et</strong>ic algorithm has a b<strong>et</strong>ter<br />
modeling ability than the s<strong>et</strong> median graph. Moreover, the results<br />
show that prototypes which take into account the whole classification<br />
problem (discriminative approach) offer b<strong>et</strong>ter results than<br />
the class centered median graph approach.<br />
Furthermore, the proposed GA framework allows to synth<strong>et</strong>ize<br />
m graph prototypes per class. The experimental results illustrate<br />
that, when m increases, the classification problem is b<strong>et</strong>ter described<br />
and the performance improves and converges rapidly towards<br />
the classification rate of a 1-NN classifier applied on the<br />
whole learning datas<strong>et</strong>.<br />
Finally, the assessments carried out on four datas<strong>et</strong>s expressed<br />
that gdg and m-gdg obtain b<strong>et</strong>ter or comparable results, in terms of<br />
accuracy, than the state-of-the-art prototypes schemes for structural<br />
data on multi-class graph classification problem. Our contribution<br />
gives the proof for the following key points: (i) gen<strong>et</strong>ic<br />
algorithms are well suited to deal with graph structures and (ii)<br />
the recognition rate on a validation datas<strong>et</strong> is a b<strong>et</strong>ter criterion of<br />
the optimization process than a classical SOD in a classification<br />
context. Also, the scalability to large graph datas<strong>et</strong>s has been assessed<br />
on a synth<strong>et</strong>ic database with success. This observation illustrates<br />
that a prototype-based classifier is well suited to manage<br />
masses of structural data.<br />
Short-term, we intend to investigate the ability of s<strong>et</strong>ting a different<br />
number of prototypes for each class. This strategy would allow<br />
to distribute a global number of prototypes among the classes<br />
and then to automatically fit the difficulty of the classification<br />
problem. This modification impacts on the algorithm and requires<br />
a redefinition of the gen<strong>et</strong>ic algorithm (problem coding and gen<strong>et</strong>ic<br />
operators).<br />
We also intend to investigate the ability to propose several prototype<br />
s<strong>et</strong>s for different values for m. These s<strong>et</strong>s would correspond<br />
to different trade-offs b<strong>et</strong>ween the concurrent objectives that are<br />
the recognition rate and the reduction of the training s<strong>et</strong> which allows<br />
to reduce the classification time and spatial complexity. A<br />
multi-objective procedure [44] could be used to optimize these<br />
non commensurable criterions. Finally, a human operator would<br />
a posteriori make the final decision according to the use case.<br />
Finally, the reject of elements which do not belong to any<br />
known class is a feature which is often required when classifiers<br />
are faced with actual data. When dealing with Nearest Neighbor<br />
rule, it is generally implemented throught the definition of threshold<br />
values. In the same time, the reject of an element is often prefered<br />
to a misclassification. This kind of feature can be undertaken<br />
with k nearest neighbors rules with values of k greater than 1. Future<br />
works should be dedicated to include reject consideration as<br />
an additional criterion to be optimized while maintaining the clas-<br />
R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 917<br />
sification rate as high as possible. In this case again, a multi-objective<br />
procedure could be useful.<br />
References<br />
[1] M. Kuramochi, G. Karypis, Finding frequent patterns in a large sparse graph,<br />
Data Mining and Knowledge Discovery 11 (3) (2005) 243–271.<br />
[2] A. Inokuchi, T. Washio, H. Motoda, Compl<strong>et</strong>e mining of frequent patterns from<br />
graphs: mining graph data, Machine Learning 50 (3) (2003) 321–354.<br />
[3] H. Zanghi, C. Ambroise, V. Miele, Fast online graph clustering via erdos renyi<br />
mixture, Pattern Recognition 41 (12) (2008) 3592–3599.<br />
[4] H. Qiu, E.R. Hancock, Graph matching and clustering using spectral partitions,<br />
Pattern Recognition 39 (1) (2006) 22–34.<br />
[5] S. Auwatanamongkol, Inexact graph matching using a gen<strong>et</strong>ic algorithm for<br />
image recognition, Pattern Recognition L<strong>et</strong>ters 28 (12) (2007) 1428–1437.<br />
[6] M. Neuhaus, H. Bunke, Inexact graph matching using a gen<strong>et</strong>ic algorithm for<br />
image recognition, Pattern Recognition 39 (10) (2006) 1852–1863.<br />
[7] M.A. Lozano, F. Escolano, Protein classification by matching and clustering<br />
surface graphs, Pattern Recognition 39 (4) (2006) 539–551.<br />
[8] H. Kashima, K. Tsuda, A. Inokuchi, Marginalized kernels b<strong>et</strong>ween labeled<br />
graphs, in: Proceedings of the Twenti<strong>et</strong>h International Conference on Machine<br />
Learning, 2003, pp. 321–328.<br />
[9] H. Kashima, K. Tsuda, A. Inokuchi, Kernel for graph, in: Kernel M<strong>et</strong>hods in<br />
Computational Biology, 2004, pp. 155–170.<br />
[10] F. Suard, V. Guigue, A. Rakotomamonjy, A. Bensrhair, Pedestrian d<strong>et</strong>ection<br />
using stereovision and graph kernels, in: Proceedings of the IEEE Intelligent<br />
Vehicle Symposium, 2005, pp. 267–272.<br />
[11] P. MahT, N. Ueda, T. Akutsu, J.-L. Perr<strong>et</strong>, J.-P. Vert, Extensions of marginalized<br />
graph kernels, in: Proceedings of the Twenty-First International Conference on<br />
Machine Learning, 2004, pp. 552–559.<br />
[12] P. MahT, N. Ueda, T. Akutsu, J.-L. Perr<strong>et</strong>, J.-P. Vert, Graph kernels for molecular<br />
structure-activity relationship analysis with support vector machines, Journal<br />
of Chemical Information and Modeling 45 (4) (2005) 939–951.<br />
[13] S.V.N. Vishwanathan, N.N. Schraudolph, R. Kondor, K. Borgwardt, Graph<br />
kernels, Journal of Machine Learning Research 11 (2010) 1201–1242.<br />
[14] W.Y. Chen, W.L. Hwang, T.C. Lin, Planar-shape prototype generation using a<br />
tree-based random greedy algorithm, IEEE Transactions on Systems, Man, and<br />
Cybern<strong>et</strong>ics, Part B 36 (3) (2006) 649–659.<br />
[15] B.V. Dasarathy, Nearest Neighbor (NN) Norms: NN Pattern Classification<br />
Techniques, IEEE Computer Soci<strong>et</strong>y Press, Los Alamitos, 1990.<br />
[16] P.E. Hart, The condensed nearest neighbour rule, IEEE Transactions on<br />
Information Theory 14 (5) (1968) 515–516.<br />
[17] C.-L. Chang, Finding prototypes for nearest neighbor classifiers, IEEE<br />
Transactions on Computers 23 (11) (1974) 1179–1184.<br />
[18] J.C. Bezdek, T.R. Reichherzerand, G.S. Lim, Y. Attikiouzel, <strong>Multi</strong>ple-prototype<br />
classifier design, IEEE Transactions on Systems, Man, and Cybern<strong>et</strong>ics, Part C:<br />
Applications and Reviews 28 (1) (1998) 67–79.<br />
[19] J. Jia, K. Abe, Automatic generation of prototypes in 3d structural object<br />
recognition, in: ICPR ’98: Proceedings of the 14th International Conference on<br />
Pattern Recognition, vol. 1, 1998, p. 697.<br />
[20] A. Torsello, E.R. Hancock, Learning shape-classes using a mixture of treeunions,<br />
IEEE Transactions on Pattern Analysis and Machine Intelligence 28 (6)<br />
(2006) 954–967.<br />
[21] B. Bonev, F. Escolano, M.A. Lozano, P. Suau, M. Cazorla, W. Aguilar, Constellations<br />
and the unsupervised learning of graphs, in: GbRPR, 2007, pp. 340–350.<br />
[22] H. Bunke, P. Foggia, C. Guidobaldi, M. Vento, Graph clustering using the<br />
weighted minimum common supergraph, in: GbRPR, 2003, pp. 235–246.<br />
[23] S. Marini, M. Spagnuolo, B. Falcidieno, Structural shape prototypes for the<br />
automatic classification of 3d objects, IEEE Computer Graphics and<br />
Applications 27 (4) (2007) 28–37.<br />
[24] X.J.H. Bunke, A. Mnnger, Combinatorial search versus gen<strong>et</strong>ic algorithms: a<br />
case study based on the generalized median graph problem, Pattern<br />
Recognition L<strong>et</strong>ters 20 (11) (1999) 1271–1277.<br />
[25] X. Jiang, A. Mnnger, H. Bunke, On median graphs: Properties, algorithms, and<br />
applications, IEEE Transactions on Pattern Analysis and Machine Intelligence<br />
23 (10) (2001) 1144–1151.<br />
[26] M. Ferrer, E. Valveny, F. Serratosa, Spectral median graphs applied to graphical<br />
symbol recognition, in: CIARP, 2006, pp. 774–783.<br />
[27] M. Ferrer, F. Serratosa, E. Valveny, On the relation b<strong>et</strong>ween the median and the<br />
maximum common subgraph of a s<strong>et</strong> of graphs, in: GbRPR, 2007, pp. 351–360.<br />
[28] A. Hlaoui, S. Wang, Median graph computation for graph clustering, Soft<br />
Computing – A Fusion of Foundations, M<strong>et</strong>hodologies and Applications 10 (1)<br />
(2005) 47–53.<br />
[29] E. Valveny, P. Dosch, Symbol recognition contest: a synthesis, in: J. Lladós, Y.B.<br />
Kwon (Eds.), Selected Papers of the 5th IAPR International Workshop on<br />
Graphics Recognition, Lecture Notes in Computer Science, vol. 3088, Springer-<br />
Verlag, 2004, pp. 368–385.<br />
[30] L.I. Kuncheva, Editing for the k-nearest neighbors rule by a gen<strong>et</strong>ic algorithm,<br />
Pattern Recognition L<strong>et</strong>ters 16 (8) (1995) 809–814.<br />
[31] D.E. Goldberg (Ed.), Gen<strong>et</strong>ic Algorithms in Search, Optimization and Machine<br />
Learning, Addison-Wesley, 1989.<br />
[32] C.R. Reeves (Ed.), Modern Heuristic Techniques for Combinatorial Problems,<br />
Blackwell Scientific Press, 1993 (Chapter: Gen<strong>et</strong>ic Algorithms, pp. 151–196).<br />
[33] H. Bunke, On a relation b<strong>et</strong>ween graph edit distance and maximum common<br />
subgraph, Pattern Recognition L<strong>et</strong>ters 18 (8) (1997) 689–694.
tel-00671168, version 1 - 8 Oct 2012<br />
918 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />
[34] X. Gao, B. Xiao, D. Tao, X. Li, A survey of graph edit distance, Pattern Analysis<br />
and Applications 13 (1) (2010) 113–129.<br />
[35] K. Riesen, H. Bunke, Approximate graph edit distance computation by means<br />
of bipartite graph matching, Image Vision Computing 27 (7) (2009) 950–959.<br />
[36] H. Bunke, K. Shearer, A graph distance m<strong>et</strong>ric based on the maximal common<br />
subgraph, Pattern Recognition L<strong>et</strong>ters 19 (3–4) (1998) 255–259.<br />
[37] W.D. Wallis, P. Shoubridge, M. Kra<strong>et</strong>z, D. Ray, Graph distances using graph<br />
union, Pattern Recognition L<strong>et</strong>ters 22 (6–7) (2001) 701–704.<br />
[38] D.P. Lopresti, G.T. Wilfong, A fast technique for comparing graph<br />
representations with applications to performance evaluation, IJDAR 6 (4)<br />
(2003) 219–229.<br />
[39] P. Erdos, A. RTnyi, On random graphs, Publicationes Mathematicae Debrecen 6<br />
(1959) 290–297.<br />
[40] L. Kaufman, P.J. Rousseeuw, Finding Groups in Data: An Introduction to Cluster<br />
Analysis, Wiley, 1990.<br />
[41] A. Khotanzad, Y.H. Hong, Invariant image recognition by zernike moments,<br />
IEEE Transactions on PAMI 12 (5) (1990) 489–497.<br />
[42] E. Barbu, P. Heroux, S. Adam, E. Trupin, Clustering document images using a<br />
bag of symbols representation, in: Proceedings of the 8th International<br />
Conference on Document Analysis and Recognition, 2005, pp. 1216–1220.<br />
[43] K. Riesen, H. Bunke, Iam graph database repository for graph based pattern<br />
recognition and machine learning, in: SSPR & SPR ’08: Proceedings of the 2008<br />
Joint IAPR International Workshop on Structural, Syntactic, and Statistical<br />
Pattern Recognition, 2008, pp. 287–297.<br />
[44] K. Deb, <strong>Multi</strong>-Objective Optimization Using Evolutionary Algorithms, John<br />
Wiley & Sons, Inc., New York, NY, USA, 2001.
tel-00671168, version 1 - 8 Oct 2012<br />
lxxii Annexe E. Réference CV : 1
tel-00671168, version 1 - 8 Oct 2012<br />
Annexe F<br />
Réference CV : 25<br />
H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />
Approximation of digital curves using a multi-objective gen<strong>et</strong>ic algorithm.<br />
In Proceedings of the International Conference on Pattern Recognition (IC-<br />
PR’06), pages 716-719. 2006.<br />
lxxiii
tel-00671168, version 1 - 8 Oct 2012<br />
Approximation of Digital Curves using a <strong>Multi</strong>-Objective Gen<strong>et</strong>ic Algorithm<br />
Hervé Locteau, Romain Raveaux, Sébastien Adam, Yves Lecourtier, Pierre Héroux, Eric Trupin<br />
LITIS Labs – University of Rouen, FRANCE<br />
Herve.Locteau@univ-rouen.fr<br />
Abstract<br />
In this paper, a digital planar curve approximation<br />
m<strong>et</strong>hod based on a multi-objective gen<strong>et</strong>ic algorithm is<br />
proposed. In this m<strong>et</strong>hod, the optimization/exploration<br />
algorithm locates breakpoints on the digital curve by<br />
minimizing simultaneously the number of breakpoints<br />
and the approximation error. Using such an approach,<br />
the algorithm proposes a s<strong>et</strong> of solutions at its end.<br />
The user may choose his own solution according to its<br />
objective. The proposed approach is evaluated on<br />
curves issued from the literature and compared<br />
successfully with many classical approaches.<br />
1. Introduction<br />
Approximation of digital planar curves using<br />
vertices and/or circular arcs is an important issue in<br />
pattern recognition and image processing. It is a<br />
classical way to represent, store and process digital<br />
curves. For example, approximation results are<br />
frequently used for shape recognition. The problem<br />
can be stated as follows: Given a curve<br />
{ ( ) } N<br />
C = Ci<br />
≡ xi<br />
, yi<br />
constituted of N ordered<br />
i=<br />
1<br />
points, the goal is to find a subs<strong>et</strong><br />
{ ( ) } M<br />
S = Si<br />
≡ xi<br />
, yi<br />
of M ordered points and the<br />
= 1<br />
i<br />
corresponding param<strong>et</strong>er s<strong>et</strong> { ( ) } M<br />
P ≡ xc yc<br />
P i i,<br />
i i=<br />
1<br />
= .<br />
S contains the extremities of the line segments or the<br />
circular arcs (som<strong>et</strong>imes called breakpoints) and P the<br />
param<strong>et</strong>ers of the best approximation of the s<strong>et</strong> of<br />
points b<strong>et</strong>ween each couple of breakpoints (a specific<br />
value is applied in the case of segment)<br />
Whereas many paradigms have been proposed to<br />
solve the problem of polygonal approximation or the<br />
problem of approximation with circular arcs, much less<br />
papers were proposed concerning the approximation of<br />
digital curves with both representations. Among the<br />
existing papers [1][2][3][4], an approach recently<br />
proposed in [4] consists in using Gen<strong>et</strong>ic Algorithms<br />
(GA) in order to find a near-optimal approximation. In<br />
such a case, the approximation of digital curves is<br />
considered as an optimization process. The algorithm<br />
automatically selects the best points of the curves by<br />
minimizing a given criterion. In [4], the number N of<br />
breakpoints to be obtained is fixed and the m<strong>et</strong>hod<br />
uses the concept of gen<strong>et</strong>ic evolution to obtain a nearoptimal<br />
approximation.<br />
In this paper, we adopt the same paradigm and we<br />
propose a new GA for the approximation of digital<br />
curves. The originality of the described approach is the<br />
use of a multi-objective optimization process. Such a<br />
new viewpoint enables the user of the system to<br />
choose a trade-off b<strong>et</strong>ween different quality criteria<br />
after a single run of the GA.<br />
The remainder of the paper is organized as follows.<br />
In section 2, an introduction to the multi-objective<br />
optimization problem is proposed and our algorithm is<br />
presented. In section 3, the application of this<br />
algorithm to the approximation problem is shown.<br />
Section 4 presents the experimentally obtained results<br />
and a comparison with existing approaches. Section 5<br />
gives the concluding remarks.<br />
2. <strong>Multi</strong> objective optimization GA<br />
When an optimization problem involves more than<br />
one objective function, the task of finding one or more<br />
optimum solutions is known as multi-objective<br />
optimization. Some classical textbooks on this subject<br />
have been published, e.g. [5]. We just recall here some<br />
essential notions in order to introduce the proposed<br />
algorithm. The main difference b<strong>et</strong>ween single and<br />
multi-optimization tasks lies in the requirement of<br />
compromises b<strong>et</strong>ween the various objectives in the<br />
multi-optimization case. Even with only two<br />
objectives, if they are conflicting, the improvement of<br />
one of them leads to a d<strong>et</strong>erioration of the other one.<br />
For example, in the context of polygonal<br />
approximation, the decrease of the approximation error<br />
always leads to an increase of the vertices number.<br />
Two main approaches are used to overcome this
tel-00671168, version 1 - 8 Oct 2012<br />
problem in the literature. The first one consists in the<br />
combination of the different objectives into a single<br />
one (the simpler way being to use a linear combination<br />
of the various objectives), and then to use one of the<br />
well-known techniques of single objective<br />
optimization (like gradient based m<strong>et</strong>hods, simulated<br />
annealing or classical gen<strong>et</strong>ic algorithm). In such a<br />
case, the compromise b<strong>et</strong>ween the objectives is a priori<br />
d<strong>et</strong>ermined through the choice of the combination rule.<br />
The main critic addressed to this approach is the<br />
difficulty to choose a priori the compromise. It seems a<br />
b<strong>et</strong>ter idea to postpone this choice after having several<br />
candidate solutions at hand. This is the goal of Par<strong>et</strong>o<br />
based m<strong>et</strong>hod using the notion of dominance b<strong>et</strong>ween<br />
candidate solutions. A solution dominates another one<br />
if it is b<strong>et</strong>ter for all the objectives. This dominance<br />
concept is illustrated on figure 1. Two criteria J1 and J2<br />
have to be minimized. The s<strong>et</strong> of non-dominated points<br />
that constitutes the Par<strong>et</strong>o-Front appears as ‘O’ on the<br />
figure, while dominated solutions are drawn as ‘X’.<br />
Using such a dominance concept, the objective of<br />
the optimization algorithm becomes to d<strong>et</strong>ermine the<br />
Par<strong>et</strong>o front, that is to say the s<strong>et</strong> of non-dominated<br />
points. Among the optimization m<strong>et</strong>hods that can be<br />
used for such a task, gen<strong>et</strong>ic algorithms are well-suited<br />
because they work on a population of candidate<br />
solutions. They have been extensively used in such a<br />
context. The most common algorithms are VEGA –<br />
Vector Evaluated Gen<strong>et</strong>ic Algorithm – [6], MOGA –<br />
<strong>Multi</strong> Objective Gen<strong>et</strong>ic Algorithm –approach [7],<br />
NSGA – Non-Dominated Sorting Gen<strong>et</strong>ic Algorithm –<br />
[8], NSGA II [9], PAES – Par<strong>et</strong>o Archived Evolution<br />
Strategy – [10] and SPEA – Strength Par<strong>et</strong>o<br />
Evolutionary Algorithm – [11]. The strategies used in<br />
these contributions are different, but the obtained<br />
results mainly vary from the convergence speed point<br />
of view. A good review can be found in [12].<br />
J2<br />
X<br />
X<br />
X<br />
X<br />
Fig. 1. Illustration of the Par<strong>et</strong>o Front concept<br />
The proposed gen<strong>et</strong>ic algorithm is elitist and steadystate.<br />
This means that (i) it manages two populations<br />
and (ii) the replacement strategy of individuals in the<br />
populations is not made as a whole, but individual per<br />
individual. The two populations are a classical<br />
J1<br />
population, composed of evolving individuals and an<br />
“archive” population composed of the current Par<strong>et</strong>o<br />
Front elements. These two populations are mixed<br />
during the iterations of the gen<strong>et</strong>ic algorithm. The first<br />
population guarantees space exploration while the<br />
archive guarantees the exploitation of acquired<br />
knowledge and the convergence of the algorithm.<br />
Based on such concepts, our optimization m<strong>et</strong>hod<br />
uses the following algorithm:<br />
Population (I) and Archive (A) Initialization<br />
do<br />
- Random selection of two individuals I1 and I2 in (I)<br />
- Crossover b<strong>et</strong>ween I1 and I2 to generate I3 and I4<br />
- Mutation applied to the generated children I3 and I4<br />
- Evaluation of children I3 and I4<br />
- Selection either of the dominant individual I5<br />
b<strong>et</strong>ween mutated children (if it exists) or random<br />
selection of I5 b<strong>et</strong>ween I3 and I4<br />
- Random selection of (I6) a in (A)<br />
- Crossover b<strong>et</strong>ween I5 and I6 to generate I7 and I8<br />
- Evaluation of children I7 and I8<br />
- Test for the integration of I7 and I8 in (A)<br />
- Test for the integration of I7 and I8 in (I)<br />
While i < the maximal generation number<br />
This algorithm has been designed in order to be<br />
applied to various problems. The design of a new<br />
application consists in the choice of a coding scheme<br />
for individuals, in the design of the evaluation m<strong>et</strong>hod<br />
and in the choice of both param<strong>et</strong>ers values and of<br />
some specific operators. In its current implementation,<br />
the coding of an individual is a classical bit string.<br />
Crossover is a well-known 2-points crossover whereas<br />
initialization and mutation are application-dependent.<br />
Concerning the replacement strategy, several choices<br />
can be made for the integration of a candidate<br />
individual in the archive. The simplest is a dominance<br />
test b<strong>et</strong>ween the candidate and the archive elements.<br />
The candidate is inserted within the archive if no<br />
archive element dominates it. In the same time, archive<br />
elements dominated by the candidate are eliminated<br />
from the archive. A problem reported in the literature<br />
on evolutionary multi-objective optimization is the<br />
possible bad exploration of Par<strong>et</strong>o front: the archive<br />
population elements concentrate on only some parts of<br />
the front. This difficulty is overcome in our approach<br />
by defining a minimal distance b<strong>et</strong>ween two points in<br />
the objective space. This algorithm has been tested on<br />
classical multi-objective problems such as BNH or<br />
TNK [13]. The obtained results have shown the quality<br />
of the proposed approach since it is able to find a<br />
similar approximation of the Par<strong>et</strong>o Front for the same<br />
number of calls to the evaluation function.
tel-00671168, version 1 - 8 Oct 2012<br />
3. Application to curve approximation<br />
In order to apply the algorithm presented above to<br />
the curve approximation problem, an individual has to<br />
represent a possible solution to the approximation<br />
problem. That is why an individual is composed of N<br />
genes, where N is the number of points in the initial<br />
curve. A gene is s<strong>et</strong> to ‘1’ if the point is kept as a<br />
breakpoint, ‘0’ if it is not. An example of an individual<br />
coding is given in figure 2. Each point Ci of the curve<br />
S corresponds to a bit in the chromosome. In the<br />
example of figure 2, the individual is a binary string of<br />
45 genes corresponding to the initial C1-C45.. The<br />
approximation is composed of 2 line-segments and 6<br />
circular arcs. The corresponding breakpoints are<br />
respectively C3, C5, C20, C29, C35, C37, C41, and C44.<br />
Such an approximation (the optimal approximation for<br />
8 breakpoints) corresponds to the individual<br />
“001010000000000000010000<br />
000010000010100010010”.<br />
Fig. 2: An example of the coding scheme<br />
Using such a coding scheme, the GA described in<br />
section 2 is applied. In order to reduce the number of<br />
iteration in the GA, a specific initialization operator is<br />
used. It is based on a simple analysis of the curve to be<br />
approximated. An histogram of the curvature along the<br />
curve is first computed. During initialization, for each<br />
point, a probability to be selected is deduced from this<br />
histogram. This strategy enables to avoid the selection<br />
of collinear points and on the contrary enables to select<br />
points with high curvature. A specific mutation<br />
operator is also used. It is based on the shift of a<br />
selected point to the preceding or the next one.<br />
Concerning the criteria to be optimized, two objectives<br />
have been included in the current version. The first one<br />
is the Integral Square Error (ISE) and the second one is<br />
the number of points. This enables to have a trade-off<br />
b<strong>et</strong>ween the precision of the result and the number of<br />
line segments, thanks to elements of the Par<strong>et</strong>o front.<br />
One can note that the use of a discr<strong>et</strong>e objective<br />
(vertices number) guarantees itself the diversity on the<br />
Par<strong>et</strong>o front, we do not need to specify any minimal<br />
distance b<strong>et</strong>ween any couples of solutions of the Par<strong>et</strong>o<br />
Front. For the computation of the ISE, the error is<br />
computed both in the case of line-segments and<br />
circular arcs and the best solution is kept as Pi. Circular<br />
arcs are obtained using a LMS approach [4].<br />
4. Experimental results<br />
In order to assess the performances of the proposed<br />
algorithm, it has been applied to the four broadly used<br />
digital curves presented in [14] and proposed in Fig. 3.<br />
c) d)<br />
a) b)<br />
Fig. 3. The four digital test curves<br />
Such tests allow to test the performances of the<br />
proposed algorithm versus those of published<br />
approaches. For each of these curves, the program has<br />
been run for 2000 generations, using a population size<br />
of 100 individuals. Such a param<strong>et</strong>er s<strong>et</strong> involves<br />
about 8000 calls to the evaluation m<strong>et</strong>hod (see the<br />
algorithm below). The mutation rate has been fixed to<br />
0.05 and the crossover rate to 0.6. As said before, the<br />
output of the presented algorithm is not a single ISE<br />
for a number of vertices given a priori. It consists in<br />
the whole Par<strong>et</strong>o front of the optimization problem.<br />
That is why the result is a s<strong>et</strong> of couple (ISE – number<br />
of vertices). As an example, figure 4 shows the s<strong>et</strong> of<br />
couple obtained at the end of the algorithm applied on<br />
the “semicircle” curve. Another remark has to be done.<br />
Since GA are stochastic, results may be different at<br />
independent runs. That is why, in these experiments,<br />
we give (table 1) both the best (B) and the worst (W )<br />
ISE for each number of vertices obtained after 5<br />
independent runs on each curve. The obtained results<br />
can be compared with the results of table 2 issued from<br />
an existing comparative study [4]. As one can see on<br />
table 1 and 2, results obtained using the GA approach
tel-00671168, version 1 - 8 Oct 2012<br />
enables to obtain comp<strong>et</strong>itive results. Moreover, theses<br />
tables also show the stability of the proposed approach<br />
since best (B) and worst (W) results are generally the<br />
same for the 5 runs.<br />
Fig. 4: Two obtained approximations<br />
Table 1 : Results obtained using the GA<br />
Fig 3a Fig 3b Fig 3c Fig 3d<br />
N B W N B W N B W N B W<br />
4 6.9 6.9 12 43.5 43.9 5 5.2 5.9 9 4.6 4.6<br />
5 6.1 6.1 14 22.1 22.7 6 3.0 3.4 10 2.4 2.4<br />
6 5.7 5.8 16 10.7 10.7 7 2.6 2.8 11 1.9 2.0<br />
7 5.4 5.7 18 7.3 7.4 8 2.3 2.3 12 1.6 1.7<br />
8 5.2 5.2 25 3.2 3.3 9 1.9 1.9 13 1.4 1.4<br />
12 4.2 4.4 27 2.9 3.0 10 1.5 1.5 14 1.2 1.2<br />
14 3.8 4.0 29 2.7 2.8 11 1.2 1.3 15 1.0 1.1<br />
22 2.3 2.4 31 2.6 2.8 13 0.7 0.8 16 0.9 1.0<br />
Table 2 : Best results found in the literature<br />
for the approximation of the curves of figure 3<br />
Fig 3a Fig 3b Fig 3c Fig 3d<br />
N° ISE N° ISE N° ISE N° ISE<br />
4 6.9 16 10.9 6 3.0 10 2.6<br />
6 6.4 18 7.4 8 2.3 11 2.1<br />
12 10.9 27 8.8 9 2.0 15 1.2<br />
14 17.7 29 14.9 13 5.9<br />
22 20.6 31 1.6<br />
5. Conclusion and future works<br />
In this paper, we have proposed a new approach for<br />
the approximation of curves. This approach is inspired<br />
from previous approaches in the way that it considers<br />
the polygonal approximation as an optimization<br />
process. The fundamental difference with the existing<br />
approaches lies in the fact that we use a multi-objective<br />
optimization process while other contributions only<br />
optimize a unique objective, that is to say the ISE. One<br />
can see several interests in such an approach. As many<br />
solutions are proposed, the user or the system may<br />
choose the optimal solution regarding its constraints.<br />
Another interest is to offer the possibility to add a new<br />
objective easily. As an example, such an approach may<br />
be used for the vectorization of shape contours by<br />
adding a parallelism constraint.<br />
7. References<br />
[1] C. Ichoku, B. Deffontaines and J. Chorowicz,<br />
“Segmentation of digital plane curves: a dynamic focusing<br />
approach”, Pattern Recognition L<strong>et</strong>ters, 17, 1996, pp 741–<br />
750.<br />
[2] P.L. Rosin and G.A.W. West, “Nonparam<strong>et</strong>ric<br />
segmentation of curves into various representations”, IEEE<br />
Trans. Pattern Anal. Machine Intell., 17, 1995, pp 1140-<br />
1153.<br />
[3] J-H. Horng and J.T. Li, “A dynamic programming<br />
approach for fitting digital planar curves with line segments<br />
and circular arcs”, Pattern Recognition L<strong>et</strong>ters, 22, 2001, pp<br />
183–197.<br />
[4] B. Sarkar, L.K. Singh and D. Sarkar, “Approximation of<br />
digital curves with line segments and circular arcs using<br />
gen<strong>et</strong>ic algorithms”, Pattern Recognition L<strong>et</strong>t. 24, 2003,<br />
2585-2595.<br />
[5] K. Deb, “<strong>Multi</strong>-Objective optimization using<br />
Evolutionary algorithms”, Wiley, London, 2001.<br />
[6] J.D. Schaffer and J.J. Grefenst<strong>et</strong>te, “<strong>Multi</strong>objective<br />
learning via gen<strong>et</strong>ic algorithms”, In Proceedings of the 9th<br />
international joint conference on artificial intelligence, Los<br />
Angeles, California, pp 593-595, 1985.<br />
[7] C.M. Fonseca, P.J. Fleming, “Gen<strong>et</strong>ic algorithm for<br />
multi-objective optimization: formulation, discussion and<br />
generalization”, In Stephanie editor, Proceedings of the fifth<br />
international conference on gen<strong>et</strong>ic algorithm, San Mateo,<br />
California, pp 416-423, 1993.<br />
[8] N. Srinivas, K. Deb, “<strong>Multi</strong>objective optimization using<br />
nondominated sorting in gen<strong>et</strong>ic algorithm”, Evolutionary<br />
Computation 2, 1994, pp 221-248.<br />
[9] K. Deb, S. Agrawal, A. Pratab and T. Meyarivan, “A fast<br />
and elitist multi-objective gen<strong>et</strong>ic algorithm: NSGA-II”,<br />
IEEE Transactions on Evolutionary Computation 6, 2000, pp<br />
182-197.<br />
[10] J.D. Knowles, D.W. Corne, “Approximating the<br />
nondominated front using the Par<strong>et</strong>o archived evolution<br />
strategy”, Evolutionary computation 8, 2000, pp 149-172.<br />
[11] E. Zitzler, L. Thiele, “<strong>Multi</strong>objective evolutionary<br />
algorithms : a comparative study and the strength par<strong>et</strong>o<br />
approach”, IEEE Transactions on Evolutionary Computation<br />
3, 1999, pp 257-271.<br />
[12] C. A. Coello Coello, “A short tutorial on Evolutionary<br />
<strong>Multi</strong>objective <strong>Optimisation</strong>”, In Eckart Zitzler, Kalyanmoy<br />
Deb, Lothar Thiele, Carlos A. Coello Coello and David<br />
Corne (editors), First International Conference on<br />
Evolutionary <strong>Multi</strong>-Criterion Optimization, Lecture Notes in<br />
Computer Science, . Springer-Verlag n° 1993, pp 21-40,<br />
2001.<br />
[13] D. Chafekar, J. Xuan, K. Rasheed, “Constrained <strong>Multi</strong>objective<br />
Optimization Using Steady State Gen<strong>et</strong>ic<br />
Algorithms”, In Proceedings of Gen<strong>et</strong>ic and Evolutionary<br />
Computation Conference, Chicago, Illinois, pp 813-824,<br />
2003.<br />
[14] R.T. Teh and Chin, “On the d<strong>et</strong>ection of dominant<br />
points on digital curves”, IEEE transaction on Pattern<br />
Analysis and Machine Intelligence 23 , 1989, pp 859-872.