Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
03.04.2013 Views

Documents, Graphes et Optimisation Multi-Objectifs

Documents, Graphes et Optimisation Multi-Objectifs

Documents, Graphes et Optimisation Multi-Objectifs

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

tel-00671168, version 1 - 8 Oct 2012<br />

<strong>Documents</strong>, <strong>Graphes</strong> <strong>et</strong> <strong>Optimisation</strong><br />

<strong>Multi</strong>-<strong>Objectifs</strong><br />

Sébastien Adam<br />

Habilitation à Diriger les Recherches<br />

de l’Université de Rouen<br />

(Spécialité Génie Informatique, Automatique <strong>et</strong> Traitement du Signal)<br />

Composition du jury<br />

Soutenue le 29/11/2011<br />

Rapporteurs : Jean-Michel Jolion, INSA de Lyon<br />

Robert Sabourin, ETS, Université du Québec<br />

Karl Tombre, École des mines de Nancy<br />

Examinateurs : Jean-Marc Ogier, Université de La Rochelle<br />

Yves Lecourtier, Université de Rouen<br />

Laurent Heutte, Université de Rouen<br />

Laboratoire d’Informatique, de Traitement de l’Information <strong>et</strong> des Systèmes - EA 4108


tel-00671168, version 1 - 8 Oct 2012<br />

Mis en page avec la classe thloria.


tel-00671168, version 1 - 8 Oct 2012<br />

Remerciements<br />

Je tiens à remercier vivement Jean-Michel Jolion, Robert Sabourin <strong>et</strong> Karl<br />

Tombre d’avoir accepté d’être les rapporteurs de ce document. Ils sont des références<br />

pour moi <strong>et</strong> j’ai beaucoup apprécié leur travail d’expertise.<br />

Je remercie aussi Jean-Marc Ogier d’avoir accepté mon invitation <strong>et</strong> d’avoir<br />

présidé ce jury. Jean-Marc est la personne qui m’a donné le goût de la recherche<br />

<strong>et</strong> ses qualités humaines <strong>et</strong> scientifiques sont trop nombreuses pour les lister ici.<br />

Mention spéciale aux collègues locaux de ce jury. Yves <strong>et</strong> Laurent ont pris<br />

le relai de Jean-Marc quand ce dernier est parti chercher ses fameuses 2250<br />

heures de soleil par an sur la côte atlantique. J’apprécie énormément de travailler<br />

avec eux, <strong>et</strong> j’espère que ce n’est qu’un début.<br />

Je remercie aussi vivement les nombreux doctorants <strong>et</strong> stagiaires avec qui<br />

j’ai travaillé ces dix dernières années. Les encadrer a été un véritable plaisir <strong>et</strong><br />

je leur dois pour beaucoup les résultats obtenus.<br />

Coté laboratoire, là encore les personnes auxquelles je voudrais témoigner<br />

ma reconnaissance sont très nombreuses. Je pense que travailler au LITIS est<br />

une chance, pour l’ambiance <strong>et</strong> la qualité des travaux qui y sont menés. Parmi<br />

tous les collègues, une mention particulière va à Pierrot <strong>et</strong> Clem. Ce sont mes<br />

binômes de travail <strong>et</strong> des amis, <strong>et</strong> j’espère qu’on va avoir l’occasion de travailler<br />

encore beaucoup ensemble. Merci également à Thierry avec qui c’est un réel<br />

plaisir de travailler. Une spéciale dédicace aussi à super Fabienne dont l’efficacité<br />

est impressionnante.<br />

Enfin, merci à tous ceux qui ont fait que les choses se passent bien, que ce<br />

soit au niveau du laboratoire, au niveau du département ou ailleurs.<br />

1


tel-00671168, version 1 - 8 Oct 2012<br />

2


tel-00671168, version 1 - 8 Oct 2012<br />

Table des matières<br />

I Curriculum Vitæ 7<br />

1 Synthèse de mes activités 9<br />

1.1 Curriculum Vitæ . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

1.1.1 Situation actuelle . . . . . . . . . . . . . . . . . . . 9<br />

1.1.2 Formation . . . . . . . . . . . . . . . . . . . . . . . 9<br />

1.1.3 Dates importantes . . . . . . . . . . . . . . . . . . . 9<br />

1.2 Résumé des activités . . . . . . . . . . . . . . . . . . . . . . 10<br />

1.2.1 Résumé des activités de recherche . . . . . . . . . . 10<br />

1.2.2 Résumé des activités d’enseignement . . . . . . . . . 11<br />

1.2.3 Résumé des activités administratives . . . . . . . . . 11<br />

1.3 Activités de recherche . . . . . . . . . . . . . . . . . . . . . 12<br />

1.3.1 Contexte des travaux . . . . . . . . . . . . . . . . . 12<br />

1.3.2 Parcours de recherche . . . . . . . . . . . . . . . . . 13<br />

1.3.3 Contributions . . . . . . . . . . . . . . . . . . . . . 15<br />

1.3.4 Perspectives . . . . . . . . . . . . . . . . . . . . . . 19<br />

1.3.5 Encadrement doctoral . . . . . . . . . . . . . . . . . 22<br />

1.3.6 Activités contractuelles, proj<strong>et</strong>s ANR . . . . . . . . 23<br />

1.3.7 Relations avec la communauté scientifique nationale<br />

<strong>et</strong> internationale . . . . . . . . . . . . . . . . . . . . 26<br />

1.3.8 Publications . . . . . . . . . . . . . . . . . . . . . . 26<br />

1.4 Activités d’enseignement . . . . . . . . . . . . . . . . . . . 34<br />

1.4.1 Filières d’enseignement . . . . . . . . . . . . . . . . 34<br />

1.4.2 Enseignements dispensés . . . . . . . . . . . . . . . 34<br />

1.4.3 Volumes horaires . . . . . . . . . . . . . . . . . . . . 35<br />

1.5 Activités administratives . . . . . . . . . . . . . . . . . . . 35<br />

1.5.1 Responsabilités administratives <strong>et</strong> pédagogiques . . 35<br />

1.5.2 Fonctions électives au sein de l’établissement . . . . 36<br />

3


tel-00671168, version 1 - 8 Oct 2012<br />

4 Table des matières<br />

II Contributions <strong>et</strong> Perspectives 37<br />

2 Introduction générale 39<br />

3 <strong>Documents</strong> <strong>et</strong> graphes 43<br />

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.2 Classification de graphes . . . . . . . . . . . . . . . . . . . 44<br />

3.2.1 Définition du problème <strong>et</strong> revue de l’existant . . . . 44<br />

3.2.2 Contributions . . . . . . . . . . . . . . . . . . . . . 47<br />

3.3 Isomorphismes de sous-graphes . . . . . . . . . . . . . . . . 51<br />

3.3.1 Définition du problème <strong>et</strong> revue de l’existant . . . . 51<br />

3.3.2 Contributions . . . . . . . . . . . . . . . . . . . . . 53<br />

3.4 Applications à l’analyse de documents graphiques . . . . . 56<br />

3.4.1 Détection de symboles . . . . . . . . . . . . . . . . . 57<br />

3.4.2 Classification <strong>et</strong> indexation de documents . . . . . . 60<br />

3.5 Discussion <strong>et</strong> problèmes ouverts . . . . . . . . . . . . . . . 63<br />

3.5.1 Classification de graphes . . . . . . . . . . . . . . . 63<br />

3.5.2 Recherche d’isomorphisme . . . . . . . . . . . . . . 64<br />

4 <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif 67<br />

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . 67<br />

4.2 <strong>Optimisation</strong> multiobjectif . . . . . . . . . . . . . . . . . . 69<br />

4.2.1 Définition du problème . . . . . . . . . . . . . . . . 69<br />

4.2.2 Synthèse de la littérature . . . . . . . . . . . . . . . 70<br />

4.3 Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

4.3.1 Essaims particulaires <strong>et</strong> optimisation multiobjectif . 74<br />

4.3.2 Approximation de courbes . . . . . . . . . . . . . . 78<br />

4.3.3 Sélection de modèles . . . . . . . . . . . . . . . . . . 82<br />

4.4 Problèmes ouverts . . . . . . . . . . . . . . . . . . . . . . . 86<br />

4.4.1 Analyse de documents <strong>et</strong> objectifs multiples . . . . 87<br />

4.4.2 Apprentissage multiobjectif . . . . . . . . . . . . . . 88<br />

5 Perspectives 91<br />

6 Bibliographie 95


tel-00671168, version 1 - 8 Oct 2012<br />

III Recueil de publications 113<br />

A Réference CV : 6 i<br />

B Réference CV : 5 iii<br />

C Réference CV : 4 v<br />

D Réference CV : 2 vii<br />

E Réference CV : 1 ix<br />

F Réference CV : 25 xi<br />

5


tel-00671168, version 1 - 8 Oct 2012<br />

6 Table des matières


tel-00671168, version 1 - 8 Oct 2012<br />

Première partie<br />

Curriculum Vitæ<br />

7


tel-00671168, version 1 - 8 Oct 2012


tel-00671168, version 1 - 8 Oct 2012<br />

Chapitre 1<br />

Synthèse de mes activités<br />

1.1 Curriculum Vitæ<br />

Sébastien Adam<br />

Né le 27 novembre 1975<br />

Nationalité Française, célibataire, 2 enfants<br />

1.1.1 Situation actuelle<br />

Maître de Conférences (61ème section)<br />

Laboratoire d’Informatique, de Traitement de l’Information, <strong>et</strong> des Systèmes<br />

LITIS - EA 4108<br />

UFR des Sciences <strong>et</strong> Techniques, Université de Rouen<br />

BP 12 - 76801 Saint-Etienne du Rouvray, FRANCE<br />

Tel : 02.32.95.52.10 - Fax : 02.32.95.50.22<br />

Courriel : Sebastien.Adam@litislab.eu<br />

1.1.2 Formation<br />

2001 Doctorat de l’Université de Rouen<br />

Suj<strong>et</strong> : Interprétation de <strong>Documents</strong> Techniques :<br />

des Outils à leur Intégration dans un Système à Base de Connaissances<br />

Jury : N. Vincent (rapporteur), J.M. Chassery (rapporteur),<br />

K. Tombre (examinateur), J. Gardes (examinateur),<br />

J. Labiche (Directeur), J.M. Ogier (Co-Directeur)<br />

Mention très honorable avec Félicitations du jury<br />

1998 DEA Instrumentation <strong>et</strong> Commande pour les Systèmes de Vision<br />

Université de Rouen, mention Bien<br />

1998 DESS Automatique <strong>et</strong> Informatique Industrielle<br />

Université de Rouen, mention Bien<br />

1.1.3 Dates importantes<br />

2008 Bénéficiaire de la Prime d’Encadrement Doctoral <strong>et</strong> de Recherche (PEDR)<br />

2003 Titularisation dans le corps des Maîtres de Conférences<br />

2002 Nomination Maître de Conférences section 61 à l’Université de Rouen<br />

9


tel-00671168, version 1 - 8 Oct 2012<br />

10 Chapitre 1. Synthèse de mes activités<br />

1.2 Résumé des activités<br />

1.2.1 Résumé des activités de recherche<br />

Thèmes de recherche :<br />

– représentations structurelles <strong>et</strong> analyse de documents : classification de<br />

graphes, isomorphismes de sous-graphes, reconnaissance <strong>et</strong> localisation<br />

de symboles, analyse de documents graphiques ;<br />

– optimisation <strong>et</strong> analyse de documents : optimisation multiobjectif, approximation<br />

de courbes, sélection de modèles, forêts aléatoires ;<br />

– personnalisation de la recherche d’information : r<strong>et</strong>our de pertinence implicite,<br />

apprentissage de profils utilisateurs, sélection dynamique d’outils<br />

d’aide à la recherche.<br />

Publications :<br />

Encadrement doctoral :<br />

Type de publication total<br />

Revues internationales 8<br />

Chapitres de livre 2<br />

Ouvrages collectifs 6<br />

Revues francophones 2<br />

Conférences internationales de rang A 11<br />

Autres conférences internationales 21<br />

Conférences francophones 26<br />

Thèses soutenues 4<br />

Thèses en cours 2<br />

Jurys de thèse 3<br />

Master Recherche 13<br />

Relations avec la communauté scientifique nationale <strong>et</strong> internationale<br />

:<br />

– reviewer pour les revues internationales Pattern Recognition, Pattern Recognition<br />

L<strong>et</strong>ters, International Journal of Document Analysis and Recognition<br />

<strong>et</strong> Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis.<br />

– relecteur pour la revue nationale Traitement du Signal ;<br />

– membre du comité d’organisation de la conférence CIFED’08 ;<br />

– membre régulier des comités de programme <strong>et</strong>/ou comité de sélection<br />

de différentes conférences nationales <strong>et</strong> internationales (ICPR, ICDAR,<br />

GREC, RFIA, CIFED, JFPDA...) ;<br />

– membre du GRCE, de l’AFRIF, du GDR I3 au niveau national, <strong>et</strong> des<br />

TC-15 <strong>et</strong> TC-10 de l’IAPR au niveau international.<br />

Valorisation <strong>et</strong> contrats industriels :<br />

– coordinateur LITIS du proj<strong>et</strong> technovision EPEIRES de 2005 à 2007<br />

(plate-forme d’évaluation d’approche de reconnaissance <strong>et</strong> localisation<br />

de symboles) (15 ke) ;<br />

– correspondant scientifique du LITIS avec la société Algo-tech informatique<br />

dans le cadre d’un stage de Master Recherche en 2006 ;


tel-00671168, version 1 - 8 Oct 2012<br />

1.2. Résumé des activités 11<br />

– responsable scientifique <strong>et</strong> administratif d’une convention CORTECH<br />

avec la PME haut-normande ITS-IAE en 2008 (3 ke) ;<br />

– co-responsable scientifique <strong>et</strong> administratif de trois conventions de recherche<br />

accompagnant les thèses CIFRE de G. Dupont, N. Martin <strong>et</strong> A.<br />

Saint Réquier avec la société CASSIDIAN 1 ;<br />

1.2.2 Résumé des activités d’enseignement<br />

Filières concernées : j’interviens au sein du département de physique de<br />

l’Université de Rouen, dans les filières EEA (Électronique, Électrotechnique <strong>et</strong><br />

Automatique), GEII (Génie Électrique <strong>et</strong> Informatique Industrielle) <strong>et</strong> STIM<br />

(Système de Traitement des Informations <strong>Multi</strong>média), de la première année<br />

de licence jusqu’à la seconde année de master.<br />

Matières enseignées : j’assure des cours, TD <strong>et</strong>/ou TP en traitement<br />

numérique de l’information, programmation C, génie informatique, microprocesseurs,<br />

programmation système, systèmes d’exploitation, outils pour le traitement<br />

du signal, traitement numérique du signal, filtrage numérique, reconnaissance<br />

de formes, traitement d’images, optimisation.<br />

1.2.3 Résumé des activités administratives<br />

Responsabilités pédagogiques :<br />

– Responsable pédagogique <strong>et</strong> président de jury de la troisème année de<br />

licence (ex IUP-2) Génie Électrique <strong>et</strong> Informatique Industrielle (GEII)<br />

de 2002 à 2005 (environ 45 étudiants).<br />

– Responsable pédagogique <strong>et</strong> président de jury de la première année du<br />

master Informatique, Génie de l’Information <strong>et</strong> des Systèmes (IGIS),<br />

spécialité Génie Électrique <strong>et</strong> Informatique Industrielle (GEII) depuis<br />

2006 (environ 25 étudiants).<br />

– Responsable de la gestion des proj<strong>et</strong>s étudiants (Travaux d’Etude <strong>et</strong> de<br />

Recherche) des différentes années de EEA/GEII/STIM (L3, M1, M2)<br />

depuis 2007 (environ 75 étudiants).<br />

Responsabilités électives :<br />

– Membre nommé du conseil de département de physique de l’UFR depuis<br />

2008.<br />

– Membre élu de la commission de spécialistes de l’Université de Rouen<br />

(61ème section <strong>et</strong> 27/61ème section - vice-président) de 2004 à 2008.<br />

– Membre nommé des commissions de spécialistes de l’INSA de Rouen<br />

(27-61-63ème sections) de 2006 à 2008.<br />

– Membre nommé d’un comité de sélection 61ème section de l’Université<br />

de Rouen en 2009.<br />

1. CASSIDIAN est le nouveau nom de EADS Defense and Security


tel-00671168, version 1 - 8 Oct 2012<br />

12 Chapitre 1. Synthèse de mes activités<br />

1.3 Activités de recherche<br />

1.3.1 Contexte des travaux<br />

Les travaux présentés dans ce mémoire se sont successivement déroulés au<br />

sein du laboratoire Perception Systèmes <strong>et</strong> Information (PSI) de l’Université<br />

de Rouen, puis au Laboratoire d’Informatique, du Traitement de l’Information<br />

<strong>et</strong> des Systèmes (LITIS) qui est né de la fusion du PSI avec les laboratoires<br />

d’informatique des Universités de Rouen <strong>et</strong> du Havre. Ce laboratoire est ainsi<br />

devenu l’unité de recherche haut-normande dans le domaine des Sciences <strong>et</strong><br />

Technologies de l’Information <strong>et</strong> de la Communication (STIC). Il implique les<br />

trois principaux établissements d’enseignement supérieur de la région : l’Université<br />

de Rouen, l’Université du Havre <strong>et</strong> l’Institut National des Sciences<br />

Appliquées (INSA) de Rouen. Le laboratoire développe des démarches cohérentes<br />

pour mieux comprendre <strong>et</strong> maîtriser la nature de « l’information » <strong>et</strong><br />

son utilisation contextuelle. Les recherches portent à la fois sur des aspects<br />

théoriques, algorithmiques <strong>et</strong> sur la mise en œuvre de systèmes sensibles au<br />

contexte, allant du capteur à la base de données.<br />

Le LITIS structure ses recherches autour de trois axes regroupant sept<br />

équipes de recherche : l’axe « Combinatoire <strong>et</strong> algorithmes » qui aborde les<br />

aspects formels de l’information dans l’équipe du même nom ; l’axe « Traitement<br />

des masses de données » qui associe les quatre équipes « Document <strong>et</strong><br />

apprentissage », « Traitement de l’information en biologie santé », « Quantif »<br />

<strong>et</strong> « Systèmes de transport intelligents » ; <strong>et</strong> enfin l’axe « Interaction <strong>et</strong> systèmes<br />

complexes » composé des deux équipes « Modélisation, interactions <strong>et</strong><br />

usages » <strong>et</strong> « Réseaux d’interactions <strong>et</strong> intelligence collective ». La démarche<br />

du LITIS est résolument pluridisciplinaire, associant praticiens <strong>et</strong> théoriciens à<br />

la confluence de l’informatique, de la reconnaissance des formes, du traitement<br />

du signal <strong>et</strong> des images, de la médecine <strong>et</strong> des mathématiques, tous associés<br />

dans de nombreux proj<strong>et</strong>s.<br />

Mes activités de recherche s’intègrent dans l’équipe "Document <strong>et</strong> Apprentissage"<br />

(DocApp), composée de 18 enseignants-chercheurs (10 MCF, 2 MCF<br />

HDR <strong>et</strong> 6 PU) <strong>et</strong> d’une vingtaine de doctorants. L’équipe est localisée sur<br />

le campus du Madrill<strong>et</strong> (INSA <strong>et</strong> Université de Rouen) <strong>et</strong> intégrée à l’axe<br />

"Traitement des Masses de Données". Les recherches menées dans DocApp<br />

concernent le développement d’outils <strong>et</strong> de méthodes génériques perm<strong>et</strong>tant<br />

d’interpréter des données variées de par leur structure, leur dimensionnalité,<br />

leur stationnarité <strong>et</strong> issues de contextes hétérogènes (signaux, images, textes,<br />

web). Ces travaux sont abordés essentiellement sous l’angle de l’apprentissage<br />

à partir d’exemples <strong>et</strong> de connaissances a priori dans le cadre structurant de<br />

la reconnaissance de formes. Les compétences développées dans l’équipe sont<br />

essentiellement de nature théoriques <strong>et</strong> algorithmiques, <strong>et</strong> concernent les machines<br />

à noyaux (SVM, Kernel PCA, apprentissage de noyaux multiples), les<br />

modèles markoviens (HMM multi-streams, champs aléatoires, CRF), l’analyse<br />

de graphes (mise en correspondance de graphes, recherche d’isomorphismes de<br />

sous-graphes, classification de graphes) <strong>et</strong> la sélection de modèles (analyse des<br />

risques d’estimateurs, apprentissage avec coûts inconnus ou évolutifs, réglage<br />

d’hyper-paramètres dans le cadre des méthodes d’ensemble). Les domaines


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 13<br />

dans lesquels ces travaux trouvent leurs applications sont principalement le<br />

traitement automatique de l’écrit <strong>et</strong> des images de documents (reconnaissance<br />

de l’écriture manuscrite, spotting de mots <strong>et</strong> de symboles, extraction d’information,<br />

analyse de documents manuscrits complexes, bibliothèques numériques) ;<br />

mais aussi le traitement du signal (diagnostic, supervision, interface cerveaumachine),<br />

le traitement d’images médicales (classification d’images, segmentation)<br />

<strong>et</strong> la recherche d’information sur Intern<strong>et</strong>.<br />

1.3.2 Parcours de recherche<br />

Soutenue en décembre 2001, ma thèse de doctorat [81] 2 traitait de la<br />

problématique de l’interprétation de documents graphiques, appliquée aux<br />

plans de réseau de l’opérateur téléphonique France Telecom. Deux contributions<br />

principales furent proposées dans c<strong>et</strong>te thèse. La première concernait<br />

la réalisation d’un système d’interprétation de documents à base de connaissances.<br />

Elle s’est concrétisée par la mise en œuvre d’un système orienté multiagents<br />

nommé NATALI [75, 76, 72, 71, 45, 43], dont l’architecture s’adaptait<br />

en fonction d’une description explicite du modèle de document à traiter.<br />

La seconde concernait la reconnaissance de caractères <strong>et</strong> de symboles multiorientés<br />

<strong>et</strong> multi-échelles par l’utilisation de la transformée de Fourier-Mellin<br />

[10, 70, 73, 74, 18, 29, 50, 49, 46, 8, 7, 14].<br />

Lors de mon recrutement en tant qu’ATER, puis en tant que Maître de<br />

Conférences au PSI en septembre 2002, mes travaux se sont dans un premier<br />

temps inscrits dans la poursuite de ces axes de recherche.<br />

Le premier axe a été poursuivi dans le cadre du proj<strong>et</strong> DOCMINING,<br />

supporté de 2002 à 2003 par le Réseau National des Technologies Logicielles<br />

(RNTL), au sein d’un consortium réunissant France Telecom R&D de Lannion,<br />

le LORIA de Nancy, le L3I de La Rochelle <strong>et</strong> l’équipe de Rolf Ingold à<br />

Fribourg. Ce proj<strong>et</strong> visait la réalisation d’une plate-forme d’acquisition de documents<br />

hétérogènes, adaptant la chaîne de traitement déclenchée au contenu<br />

du document. Ce proj<strong>et</strong> a conduit à la réalisation d’une plate-forme logicielle<br />

basée sur des logiciels libres <strong>et</strong> décrite dans [27, 67]. Sur ce thème de recherche,<br />

j’ai également été amené à travailler avec Eric Trupin <strong>et</strong> Jacques Labiche dans<br />

le cadre de la thèse de Youssouf Saidali sur des aspects liés à la représentation<br />

des connaissances [13].<br />

La poursuite du second axe, orientée reconnaissance de formes, s’est traduite<br />

par la mise en place, en 2003, des thèses d’Eugen Barbu <strong>et</strong> d’Hervé<br />

Locteau, tous deux allocataires de recherche. La thèse d’Eugen Barbu [80],<br />

co-encadrée avec Pierre Héroux <strong>et</strong> Éric Trupin, concernait l’application de<br />

techniques de fouille de données <strong>et</strong> d’apprentissage au domaine de l’analyse de<br />

documents graphiques. En réexploitant certaines propositions effectuées dans<br />

ma thèse pour représenter les symboles par des modèles statistico-structurels,<br />

le principal objectif était de rendre générique <strong>et</strong> apprenant un système de reconnaissance<br />

de symboles en conférant au système des capacités à extraire<br />

de façon non supervisée le dictionnaire des symboles présents dans les documents.<br />

Ceci nous a ensuite amené, à des fins de catégorisation de documents,<br />

2. Réalisée en convention CIFRE entre le laboratoire PSI <strong>et</strong> France Telecom Recherche<br />

<strong>et</strong> Développement Belfort puis Lannion


tel-00671168, version 1 - 8 Oct 2012<br />

14 Chapitre 1. Synthèse de mes activités<br />

à poursuivre des travaux que j’avais initiés dans le cadre du stage de Master<br />

Recherche de Romain Raveaux concernant la classification de graphes par apprentissage<br />

de prototypes [1]. Ces travaux se poursuivent encore aujourd’hui,<br />

en collaboration avec Pierre Héroux.<br />

La thèse d’Hervé Locteau [79], co-encadrée avec Jacques Labiche <strong>et</strong> Eric<br />

Trupin, abordait quant à elle la problématique de la localisation de symboles<br />

dans des documents graphiques. Un tel problème dépasse le cadre déjà complexe<br />

de la reconnaissance de symboles isolés en y ajoutant une problématique<br />

de segmentation. Les résultats obtenus dans la thèse ont montré la pertinence<br />

des choix de modélisation r<strong>et</strong>enus, mais ont également mis en exergue la nécessité<br />

de développer des travaux sur la recherche d’isomorphismes inexacts<br />

de sous-graphes pour localiser des symboles. Ces conclusions ont donné lieu<br />

à des travaux fondamentaux dans ce domaine, initiés par le stage de Master<br />

Recherche de Pierre Le Bodic sur l’utilisation de la programmation linéaire en<br />

nombres entiers pour la recherche d’isomorphismes tolérants aux erreurs d’étiqu<strong>et</strong>age.<br />

Par ailleurs, la thèse d’Hervé Locteau a également permis d’initier, en<br />

collaboration avec Yves Lecourtier, des premiers travaux reposant sur l’utilisation<br />

d’algorithmes d’optimisation multiobjectif pour l’analyse de documents,<br />

<strong>et</strong> plus particulièrement pour l’approximation de courbes [25].<br />

Ces travaux concernant l’utilisation du formalisme de l’optimisation multiobjectif<br />

ont ensuite été poursuivis suivant deux axes. Un axe était orienté<br />

applicatif, dans le cadre d’une collaboration avec Clément Chatelain à la fin de<br />

sa thèse, <strong>et</strong> lors du stage de Master Recherche de Yannick Oufella. Les travaux<br />

menés dans ce cadre visaient la proposition d’un environnement d’apprentissage<br />

de classifieurs reposant non pas sur l’optimisation d’un critère unique, mais<br />

sur un formalisme multiobjectif prenant en considération les deux critères de<br />

l’espace ROC [2]. L’autre axe était plus fondamental, dans le cadre du stage<br />

de Master Recherche de Gérard Dupont. Il a consisté à proposer un nouvel<br />

algorithme d’optimisation multiobjectif reposant sur les essaims particulaires<br />

[4].<br />

À la suite de ces travaux, avec Yves Lecourtier, nous avons été à l’origine de<br />

la mise en place d’une collaboration sur le long terme entre le LITIS <strong>et</strong> le département<br />

IPCC (Information Processing Comp<strong>et</strong>ence Center) de CASSIDIAN.<br />

C<strong>et</strong>te collaboration s’est d’abord concrétisée par la thèse CIFRE de Gérard Dupont<br />

(co-encadrée avec Yves Lecourtier), soutenue en juill<strong>et</strong> 2011 [77], puis par<br />

celles de Nicolas Martin (co-encadrée avec Thierry Paqu<strong>et</strong>) qui sera soutenue<br />

en 2012 <strong>et</strong> d’Aurélien Saint Réquier (co-encadrée avec Yves Lecourtier) dont<br />

la soutenance est prévue en 2013. Dans chacune de ces thèses, nous apportons<br />

nos compétences <strong>et</strong> proposons des contributions dans les domaines de l’apprentissage<br />

<strong>et</strong> de l’optimisation en relation avec les problématiques d’IPCC dans<br />

le domaine de la recherche d’information. Plus récemment, ces échanges avec<br />

CASSIDIAN se sont concrétisés par un proj<strong>et</strong> de grande envergure concernant<br />

l’analyse de performances de chaînes d’analyse de document. Il a débuté en<br />

juin 2011 <strong>et</strong> le LITIS est chargé, sous l’impulsion de Thierry Paqu<strong>et</strong>, Clément<br />

Chatelain <strong>et</strong> moi-même, d’en assurer l’expertise scientifique. Pour le LITIS, une<br />

équipe composée d’un doctorant, de deux post-doctorants <strong>et</strong> d’un ingénieur de


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 15<br />

recherche, a été constituée pour contribuer à la réussite de ce proj<strong>et</strong> 3 .<br />

En parallèle de ces travaux, je me suis également intéressé à des aspects plus<br />

fondamentaux de l’apprentissage, en abordant la problématique de construction<br />

d’ensembles de classifieurs dans le cadre de la thèse de Simon Bernard [78],<br />

que nous avons co-encadrée avec Laurent Heutte. Dans c<strong>et</strong>te thèse, nous avons<br />

proposé plusieurs améliorations de l’algorithme d’induction de forêts aléatoires<br />

initialement conçu par Léo Breiman. En particulier, la thèse a permis la mise<br />

en œuvre d’un nouvel algorithme d’induction dynamique qui s’est révélé particulièrement<br />

compétitif par rapport aux approches de la littérature. Nous avons<br />

également dans ce cadre mis en place une collaboration avec Pierre Geurst, de<br />

l’Université de Liège, où Simon Bernard a débuté un post-doctorat à compter<br />

de semptembre 2011.<br />

De c<strong>et</strong>te présentation synthétique, il ressort que l’ensemble de mes travaux<br />

sont à l’intersection de deux domaines de recherche que sont les représentations<br />

structurelles <strong>et</strong> l’optimisation multiobjectif, avec deux applications principales<br />

liées à l’analyse de document <strong>et</strong> la recherche d’information. La sous-section<br />

suivante dresse un bilan des contributions que nous avons proposées dans ces<br />

domaines. Les principales seront développées dans la seconde partie de ce manuscrit.<br />

1.3.3 Contributions<br />

C<strong>et</strong>te sous-section dresse une synthèse des principales contributions de mes<br />

travaux de recherche. Elles sont réparties suivant trois axes. Le premier axe regroupe<br />

les travaux liés aux recherches menées sur les représentations à base de<br />

graphes, que ce soit au niveau fondamental ou au niveau applicatif. Le second<br />

axe concerne des travaux liés à l’optimisation multiobjectif <strong>et</strong> plus particulièrement<br />

à l’apport de ces approches au domaine de l’analyse de documents.<br />

Le dernier axe est lié aux travaux, plus récents, menés dans le domaine de la<br />

personnalisation de la recherche d’information.<br />

1.3.3.1 Représentations à base de graphes<br />

Représentations structurelles pour la localisation <strong>et</strong> l’indexation de<br />

symboles Ces travaux constituent une suite naturelle de mes travaux de<br />

thèse. Ils ont été menés dans le cadre des thèses d’Hervé Locteau [79] <strong>et</strong> d’Eugen<br />

Barbu [80]. Les propositions faites dans ces travaux partent du constat que si<br />

une extraction de caractéristiques à partir d’images de symboles associée à une<br />

classification statistique offrent généralement un bon pouvoir discriminant pour<br />

reconnaître des obj<strong>et</strong>s isolés, une telle stratégie nécessite d’avoir au préalable<br />

résolu le problème de la segmentation de l’obj<strong>et</strong> à reconnaître.<br />

Dans la thèse d’Hervé Locteau, nous avons abordé la problématique de la<br />

localisation de symboles dans des documents compl<strong>et</strong>s en nous appuyant sur<br />

une approche statistico-structurelle. Nous avons proposé deux chaînes de traitement<br />

complémentaires perm<strong>et</strong>tant d’extraire de manière robuste des graphes<br />

pour représenter des symboles. Avec une telle modélisation, la détection des<br />

3. Ce proj<strong>et</strong> ayant des aspects confidentiels, je ne peux pas le développer davantage


tel-00671168, version 1 - 8 Oct 2012<br />

16 Chapitre 1. Synthèse de mes activités<br />

symboles devient alors un problème de recherche d’isomorphismes de sousgraphes,<br />

dont le but est de trouver les occurrences d’un graphe modèle, appartenant<br />

à un alphab<strong>et</strong> de symboles, dans un graphe cible représentant un<br />

document compl<strong>et</strong>. C<strong>et</strong>te tâche de recherche d’appariement était effectuée par<br />

un algorithme de la littérature. Les modèles ont été évalués sur des bases de<br />

données de référence, issues des travaux du proj<strong>et</strong> EPEIRES auxquels j’ai participé<br />

[5], <strong>et</strong> distribuées lors des conférences Graphic RECognition (GREC)<br />

pour des concours de reconnaissance. Les résultats obtenus ont montré la validité<br />

des approches proposées [40, 64, 34]. Ils ont également mis en exergue<br />

la nécessité de développer de nouveaux algorithmes d’isomorphismes de sousgraphes<br />

autorisant une modification des étiqu<strong>et</strong>tes des nœuds <strong>et</strong> des arcs, ce<br />

qui a donné lieu aux travaux menés avec Pierre Le Bodic décrits ci-après.<br />

Les propositions de la thèse d’Eugen Barbu [80] s’appuient également sur<br />

une modélisation statistico-structurelle, mais dans le contexte de l’indexation<br />

<strong>et</strong> de la classification de documents. Dans ce cadre, nous avons proposé un<br />

algorithme perm<strong>et</strong>tant d’extraire sans connaissance a priori un dictionnaire<br />

des symboles présents dans une collection de documents, par l’intermédiaire<br />

d’algorithmes de recherche de sous-graphes fréquents issus de la communauté<br />

de la fouille de données [6, 17, 37, 36, 26, 38, 65, 66]. Les symboles détectés<br />

sont ensuite utilisés pour représenter les documents sous la forme de sacs de<br />

symboles, à des fins d’indexation ou de classification. Les résultats obtenus<br />

pour différents cas d’usage ont montré la pertinence d’une telle description <strong>et</strong><br />

indiquent ainsi que les symboles découverts automatiquement fournissent des<br />

caractéristiques intermédiaires intéressantes pour catégoriser des documents.<br />

Classification de graphes Ces travaux ont été initiés lors du stage de Master<br />

Recherche de Romain Raveaux, puis poursuivis dans le cadre de la thèse<br />

d’Eugen Barbu, <strong>et</strong> enfin, du stage de Master Recherche d’Arnaud Levallois.<br />

Le problème abordé dans le cadre de ces travaux était celui de la classification<br />

supervisée de graphes. Nous avons proposé pour cela d’utiliser la règle des<br />

k plus proches voisins, mais appliquée à un ensemble de graphes prototypes<br />

qu’un algorithme d’apprentissage perm<strong>et</strong> de générer, ceci afin de réduire la<br />

complexité combinatoire de c<strong>et</strong>te règle. Quatre types de prototypes de graphes<br />

ont été proposés <strong>et</strong> comparés dans ce cadre : les graphes médians d’ensemble,<br />

les graphes médians généralisés, les graphes discriminants d’ensemble <strong>et</strong> les<br />

graphes discriminants généralisés. Ces différents types de prototypes diffèrent<br />

en fonction de (i) l’espace dans lequel ils sont recherchés <strong>et</strong> (ii) la fonction<br />

objectif qui est utilisée pour les calculer. Dans chacun des cas, la génération<br />

des prototypes est réalisée grâce à un algorithme génétique dédié. Une étude<br />

expérimentale menée sur différentes bases de données de graphes a permis de<br />

comparer l’efficacité des différents types de prototypes. Il en est ressorti une supériorité<br />

des prototypes discriminants, qui perm<strong>et</strong>tent d’obtenir de très bonnes<br />

performances en classification [1, 24, 35, 61, 59]. Les résultats ont été validés<br />

sur une application de reconnaissance de symboles.<br />

Isomorphismes de sous-graphes Ces travaux ont fait suite aux résultats<br />

obtenus dans le cadre de la thèse d’Hervé Locteau. Ils ont été initiés par le stage


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 17<br />

de Master Recherche de Pierre Le Bodic, en collaboration avec Arnaud Knippel<br />

du Laboratoire de Mathématiques de l’INSA (LMI) de Rouen, puis poursuivis<br />

dans le cadre du stage de Master Recherche de Jean-Noel Bilong. Le problème<br />

abordé dans ces travaux était celui de la recherche d’isomorphismes de sousgraphes<br />

tolérants aux substitutions d’étiqu<strong>et</strong>tes. Un tel problème consiste à<br />

chercher dans un graphe cible les occurrences d’un graphe modèle, en tolérant<br />

que les étiqu<strong>et</strong>tes (qui peuvent être numériques, voire vectorielles) des<br />

deux graphes diffèrent, ce qui perm<strong>et</strong> de tolérer le bruit généré par des extracteurs<br />

de caractéristiques. L’approche perm<strong>et</strong> ainsi d’aborder des problèmes<br />

que les approches de la littérature ne peuvent pas naturellement traiter. L’approche<br />

proposée repose sur une formulation du problème sous la forme d’un<br />

programme linéaire en nombres entiers. En utilisant un solveur dédié à la résolution<br />

de telles formulations, le système proposé est capable d’extraire toutes<br />

les occurrences du graphe modèle dans le graphe cible avec une garantie d’optimalité<br />

quant au coût d’édition des étiqu<strong>et</strong>tes. La technique proposée a été<br />

évaluée sur des ensembles de graphes synthétiques, <strong>et</strong> sur une application de<br />

localisation de symboles utilisant les modèles proposés dans la thèse d’Hervé<br />

Locteau. Les résultats obtenus ont montré l’intérêt de considérer le problème<br />

abordé comme un problème d’optimisation [52, 56, 20].<br />

1.3.3.2 <strong>Optimisation</strong> multiobjectif <strong>et</strong> reconnaissance de formes<br />

<strong>Optimisation</strong> multiobjectif pour l’approximation de courbes planaires<br />

Ces travaux ont été initiés dans le cadre de la thèse d’Hervé Locteau [79]. Ils<br />

visaient à appliquer le paradigme de l’optimisation multiobjectif dans le cadre<br />

de l’approximation de courbes planaires par des segments <strong>et</strong>/ou des arcs de<br />

cercles. Il s’agit d’une étape importante pour la reconnaissance de formes <strong>et</strong><br />

le traitement d’images visant à fournir une description compacte, par exemple<br />

pour caractériser les formes en vue de leur reconnaissance. Dans ce cadre, nous<br />

avons proposé d’aborder le problème sous l’angle original de l’optimisation<br />

multiobjectif. Ainsi, plutôt que fixer un nombre de points d’approximation <strong>et</strong><br />

chercher à minimiser une mesure d’erreur, ou inversement se fixer une erreur<br />

maximale <strong>et</strong> chercher à minimiser le nombre de points, nous avons proposé un<br />

algorithme qui recherche en une seule exécution l’ensemble des solutions Par<strong>et</strong>o<br />

optimales au sens des deux critères. En proposant un ensemble de solutions<br />

potentielles, l’utilisateur, ou une étape ultérieure de traitement du document,<br />

peut alors sélectionner la solution la plus pertinente au regard du cas d’usage.<br />

Les résultats obtenus ont montré que l’approche proposée perm<strong>et</strong>tait d’obtenir<br />

en une seule exécution un ensemble de solutions comparables à celles obtenues<br />

par les approches de la littérature qui fixent le nombre de points d’approximation<br />

[63, 25, 39].<br />

Selection de modèles <strong>et</strong> Front ROC Ces travaux ont été initiés dans<br />

le cadre de la thèse de Clément Chatelain, encadrée par Laurent Heutte <strong>et</strong><br />

Thierry Paqu<strong>et</strong>. À la suite des travaux réalisés avec Hervé Locteau, j’ai en eff<strong>et</strong><br />

été amené à collaborer avec Clément Chatelain lors de sa dernière année de<br />

thèse à un proj<strong>et</strong> lié à l’optimisation multiobjectif. La problématique abordée<br />

dans ces travaux concernait l’apprentissage de classifieurs dans des environne


tel-00671168, version 1 - 8 Oct 2012<br />

18 Chapitre 1. Synthèse de mes activités<br />

ments mal définis, pour lesquels les effectifs des classes sont déséquilibrés <strong>et</strong><br />

les coûts de mauvaise classification sont inconnus. Il s’agit d’un contexte très<br />

fréquent dans les applications du monde réel, typiquement dans le domaine<br />

de la médecine pour lequel les exemples d’apprentissage de cas pathologiques<br />

sont rares, mais particulièrement critiques. Dans ce contexte, il est bien connu<br />

qu’un unique critère d’apprentissage ne perm<strong>et</strong> pas de construire un classifieur<br />

adapté à toutes les situations. Nous avons dans ce cadre proposé un environnement<br />

d’apprentissage reposant sur l’optimisation de critères multiples. L’approche<br />

proposée perm<strong>et</strong> ainsi d’entrainer un ensemble de classifieurs plutôt<br />

qu’un unique, chaque classifieur de l’ensemble optimisant un compromis particulier<br />

entre les objectifs de l’espace ROC. Nous avons dans ce travail introduit<br />

la notion de Front-ROC comme alternative à la courbe ROC, en y intégrant<br />

la notion d’optimalité. La stratégie générique proposée, qui peut s’appliquer<br />

à tout type de classifieur hyperparamétrique, a été dans ces travaux testée<br />

pour la sélection de modèles multiples de classifieurs SVM en utilisant un algorithme<br />

évolutionnaire. L’approche a été validée sur des bases de l’UCI <strong>et</strong> sur<br />

un problème applicatif de reconnaissance de l’écriture manuscrite. Les résultats<br />

obtenus ont été comparés favorablement à ceux qu’une approche basée sur<br />

l’optimisation de l’aire sous la courbe ROC perm<strong>et</strong> d’obtenir [22, 57, 2, 3].<br />

Sélection de modèle <strong>et</strong> induction dynamique de forêts aléatoires Ces<br />

travaux ont été initiés dans le cadre de la thèse de Simon Bernard, avec également<br />

des contributions apportées par les stages de Master Recherche de Émilie<br />

Oliveira, Yasser Alwan <strong>et</strong> Nhat Quang Doan. La problématique abordée dans<br />

ces travaux est celle de l’amélioration des algorithmes de forêts aléatoires, qui<br />

sont des ensembles de classifieurs à base d’arbres de décision dans lesquels est<br />

injectée une part d’aléatoire. Nous nous sommes d’abord intéressés dans c<strong>et</strong>te<br />

thèse à la problèmatique de la sélection de modèles pour ces algorithmes, en<br />

analysant l’influence des deux hyperparamètres essentiels dans l’induction de<br />

forêts : le nombre de caractéristiques choisies aléatoirement à chaque nœud <strong>et</strong><br />

le nombre d’arbres induits. Nous avons dans ce cadre montré que la valeur du<br />

premier hyperparamètre doit être choisie en fonction des propriétés de l’espace<br />

de description. Nous avons donc proposé un nouvel algorithme nommé Forest-<br />

RK qui adapte sa valeur en fonction du problème traité [54, 55, 31, 30, 32].<br />

La seconde contribution de c<strong>et</strong>te thèse a été de proposer un algorithme d’induction<br />

dynamique de forêts aléatoires, qui tient compte lors de l’induction<br />

de nouveaux arbres de la forêt préalablement construite [58, 19]. L’algorithme<br />

proposé s’est montré particulièrement performant en comparaison avec les procédures<br />

d’induction statique.<br />

<strong>Optimisation</strong> multiobjectif par essaims particulaires Ces travaux ont<br />

été initiés lors du stage de Master Recherche de Gérard Dupont <strong>et</strong> poursuivis<br />

ensuite en filigrane pendant sa thèse. Le problème abordé dans ces travaux<br />

consistait à exploiter le formalisme des essaims particulaires dans le cadre de<br />

l’optimisation multiobjectif. Pour ce faire, nous avons proposé deux contributions<br />

liées à la transformation de l’algorithme des essaims particulaires proposé<br />

par Kennedy, Eberhart <strong>et</strong> Shi pour que celui-ci puisse appréhender des pro


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 19<br />

blèmes à objectifs multiples. La première contribution est relative à la gestion<br />

de l’archive contenant les solutions optimales courantes. Elle repose sur l’utilisation<br />

d’une variante de la méthode de l’ɛ-dominance. La seconde concerne<br />

le problème de la sélection de la particule "guide" qui doit être totalement<br />

revue dans un cadre multiobjectif. Ces contributions ont été validées sur des<br />

problèmes standard d’optimisation multiobjectif <strong>et</strong> sur le problème de sélection<br />

de modèles SVM évoqué ci-avant. Dans les deux cas, nous avons montré<br />

que l’algorithme proposé perm<strong>et</strong>tait d’obtenir des résultats comparables à ceux<br />

fournis par NSGA-II qui est, aujourd’hui, l’une des références dans le domaine<br />

de l’optimisation multiobjectif [60, 4].<br />

1.3.3.3 Personnalisation de la recherche d’information<br />

Ces travaux, en marge des précédents, ont été initiés dans le cadre de la<br />

thèse de Gérard Dupont [77], en collaboration avec CASSIDIAN. Ils ont constitué<br />

nos premières contributions à l’intersection des domaines de l’apprentissage,<br />

de l’optimisation <strong>et</strong> de la recherche d’information interactive. L’objectif<br />

de ces travaux était de créer le lien entre ces domaines par la mise en œuvre de<br />

principes d’apprentissage dans le but d’adapter les réponses d’un système de<br />

recherche d’information aux utilisateurs de celui-ci. Nous avons, dans ce cadre,<br />

proposé deux principales contributions. La première concerne la proposition<br />

d’un modèle de l’utilisateur prenant en compte ses interactions implicites de<br />

recherche avec le système (clic, navigation, impression, sign<strong>et</strong>s...). En exploitant<br />

ce modèle, nous avons proposé une approche d’apprentissage du besoin<br />

utilisateur, exploitée dans le cadre du r<strong>et</strong>our de pertinence. C<strong>et</strong>te proposition<br />

a été opérationnalisée dans un outil de suggestion de requêtes qui a été évalué<br />

<strong>et</strong> comparé aux approches de la littérature dans une première série d’expérimentations<br />

interactives de recherche. Les résultats obtenus ont mis en exergue<br />

la variabilité importante des performances de différentes approches en cours<br />

de session <strong>et</strong> en fonction des utilisateurs.<br />

Notre seconde contribution a donc consisté à introduire un cadre d’intégration<br />

dynamique optimisant le déclenchement d’outils d’aide à la recherche<br />

(suggestion de requête, de documents, filtrage...) au cours de sessions de recherche.<br />

Un algorithme d’apprentissage par renforcement perm<strong>et</strong> d’apprendre<br />

à sélectionner la bonne approche au bon moment. Implantée dans un système<br />

compl<strong>et</strong>, c<strong>et</strong>te proposition a pu être validée par des expérimentations interactives<br />

pour la sélection d’outils de suggestion de requêtes [51, 53]. Ces travaux<br />

sont actuellement poursuivis par ceux de la thèse CIFRE d’Aurélien Saint<br />

Réquier, avec CASSIDIAN, dont le but est de proposer un agent personnel<br />

d’assistance à la recherche d’information.<br />

1.3.4 Perspectives<br />

Les travaux mentionnés dans la sous-section précédente offrent tous des<br />

perspectives intéressantes qui sont pour certaines en cours d’investigation. La<br />

plupart de ces perspectives seront évoquées dans la seconde partie de ce mémoire.<br />

Dans c<strong>et</strong>te sous section, j’ai choisi de décrire les trois pistes que je considère<br />

comme prioritaires au regard des résultats prom<strong>et</strong>teurs qu’elles offrent, <strong>et</strong>


tel-00671168, version 1 - 8 Oct 2012<br />

20 Chapitre 1. Synthèse de mes activités<br />

de l’importance qu’elles revêtent, selon moi, pour la communauté scientifique<br />

concernée.<br />

Sélection de modèles <strong>et</strong> apprentissage multiobjectif Ces perspectives<br />

de recherche font suite aux travaux menés en collaboration avec Clément Chatelain<br />

concernant le développement d’un cadre multi-critères pour l’apprentissage<br />

automatique. Elles ont fait l’obj<strong>et</strong> d’une soumission nommée LeMOn<br />

(LEarning with <strong>Multi</strong>-objective OptimizatioN) lors de l’appel ANR Jeunes<br />

Chercheurs <strong>et</strong> Jeunes Chercheuses 2011 4 . Dans le cadre de c<strong>et</strong>te soumission,<br />

nous avons identifié deux aspects particuliers de l’apprentissage que nous souhaiterions<br />

aborder sous l’angle de l’optimisation multiobjectif <strong>et</strong> qui sont, naturellement,<br />

des perspectives pour mes recherches à venir.<br />

Le premier aspect concerne l’exploitation de l’espace ROC lors de l’apprentissage<br />

des classifieurs. Dans [2], nous avons proposé un environnement de<br />

sélection de modèles basé sur une approche d’optimisation multiobjectif. C<strong>et</strong><br />

environnement perm<strong>et</strong> de construire un ensemble de classifieurs à deux classes<br />

localement optimaux dans l’espace ROC, plutôt qu’un unique basé sur un critère<br />

scalaire. Les perspectives ouvertes par ce travail concernent deux axes. Le<br />

premier est le passage à l’échelle afin d’appréhender de très grands volumes<br />

de données, par l’intermédiaire d’un apprentissage en ligne. Le second axe est<br />

la généralisation de l’approche proposée à des problèmes multi-classes, pour<br />

lesquels le nombre de critères croît rapidement avec le nombre de classes.<br />

Le second aspect de l’apprentissage que nous envisageons d’aborder sous<br />

l’angle de l’optimisation multiobjectif est celui de l’apprentissage multi-tâches,<br />

qui consiste à apprendre simultanément plusieurs modèles par des transferts de<br />

connaissances d’un modèle vers l’autre. Là encore, nous pensons que l’angle de<br />

l’optimisation multiobjectif pourrait apporter des pistes intéressantes. Dans le<br />

proj<strong>et</strong> LeMOn, il est prévu d’appliquer ces différents travaux à deux domaines<br />

d’application : l’analyse d’images médicales, en collaboration avec l’équipe<br />

Quantif du LITIS ; <strong>et</strong> les interfaces cerveau-machine, en collaboration avec<br />

des chercheurs de l’équipe DocApp s’intéressant à c<strong>et</strong>te problématique.<br />

Isomorphismes de sous-graphes Ces perspectives de recherche font suite<br />

aux travaux menés avec Pierre Le Bodic concernant la recherche d’isomorphismes<br />

de sous-graphes, <strong>et</strong> à ceux concernant le cadre applicatif de la localisation<br />

de symboles menés dans le cadre des thèses d’Hervé Locteau <strong>et</strong> Eugen<br />

Barbu. Ces perspectives se déclinent suivant trois axes.<br />

Le premier axe est lié à l’application de localisation de symboles. Dans [1],<br />

nous avons identifié des verrous relatifs aux modèles utilisés pour la détection<br />

de symboles. L’un d’eux est lié au modèle à base de régions actuellement exploité<br />

qui ne perm<strong>et</strong> pas de distinguer certaines classes de symboles. L’une<br />

des perspectives pour dépasser ces limites consiste à enrichir le modèle orienté<br />

région par une description des symboles à partir de leur contour.<br />

Le second axe est quant à lui orienté vers l’utilisation de la programmation<br />

linéaire en nombres entiers. Les résultats présentés dans [20] ont en eff<strong>et</strong><br />

4. Le proj<strong>et</strong>, dont je suis le porteur, est actuellement sur liste complémentaire


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 21<br />

montré que les performances de l’approche proposée pour la recherche d’isomorphismes<br />

exacts étaient encore inférieures à l’état de l’art en termes de<br />

temps de traitement. C<strong>et</strong>te lacune pourrait être palliée à la fois en optimisant<br />

la formulation, mais aussi en tirant davantage parti des constantes améliorations<br />

des algorithmes de résolution proposés par les solveurs. Par ailleurs, nous<br />

travaillons également à la proposition d’une nouvelle formulation qui tolèrerait<br />

des modifications topologiques des graphes.<br />

Enfin, le dernier axe de recherche que je souhaite aborder dans ce cadre,<br />

étroitement lié aux deux précédents, est celui de l’évaluation des performances<br />

d’algorithmes de recherche d’isomorphismes de sous-graphes par la proposition<br />

d’une base de graphes réels, étiqu<strong>et</strong>és au niveau « application » pour comparer<br />

les algorithmes de recherche d’isomorphismes inexacts.<br />

Personnalisation en recherche d’information Ces perspectives de recherche<br />

entrent dans le cadre de la collaboration avec la société CASSIDIAN<br />

sur les problématiques de recherche d’information, <strong>et</strong> plus particulièrement sur<br />

celles de la personnalisation des outils de recherche pour placer l’utilisateur<br />

au cœur du processus de recherche. Elles font suite aux travaux menés dans<br />

le cadre de la thèse de Gérard Dupont <strong>et</strong> à ceux en cours dans le cadre de la<br />

thèse d’Aurélien Saint Réquier. Elles concernent deux aspects principaux.<br />

Le premier est lié à la modélisation de l’utilisateur <strong>et</strong> à l’élicitation de<br />

ses besoins d’information. Dans la thèse de Gérard Dupont, le modèle de besoin<br />

était construit à partir des interactions de l’utilisateur avec le système au<br />

cours d’une session de recherche. Si une telle analyse perm<strong>et</strong> de dépasser le<br />

cadre classique de l’analyse orientée requêtes, l’intégration d’un modèle à plus<br />

long terme (issu par exemple de documents fournis par l’utilisateur ou de ses<br />

sign<strong>et</strong>s) <strong>et</strong> sa combinaison avec le modèle court terme proposé dans la thèse<br />

de Gérard Dupont offrent des perspectives indéniables d’amélioration. C<strong>et</strong>te<br />

perspective est en cours d’investigation dans le cadre de la thèse d’Aurélien<br />

Saint-Réquier. Par ailleurs, une autre perspective d’amélioration de c<strong>et</strong>te modélisation<br />

repose sur le passage d’une représentation orientée « mots » à une<br />

représentation orientée « concepts » qui perm<strong>et</strong>trait d’aller vers un moteur de<br />

recherche d’information sémantique.<br />

Le second aspect concerne le cadre d’intégration dynamique proposé dans<br />

la thèse de Gérard Dupont. Là aussi, de nombreuses perspectives sont envisageables.<br />

À court terme, nous envisageons d’enrichir la plage d’actions à<br />

disposition de l’algorithme d’apprentissage par renforcement, pour multiplier<br />

les possibilités d’adaptation du système global. Au-delà des actions, la détermination<br />

des états peut également être améliorée. Actuellement, les états sont<br />

issus d’une segmentation effectuée par un algorithme de partitionnement pour<br />

lequel il est nécessaire de fixer le nombre d’états. Plusieurs approches alternatives<br />

pourraient être testées, comme celle par exemple consistant à s’appuyer<br />

sur une classification supervisée reposant sur une définition manuelle de<br />

micro-tâches de comportements issue de travaux en analyse du comportement.<br />

Il serait alors nécessaire d’adapter les algorithmes d’apprentissage des MDP<br />

(Markov Decision Process) pour y intégrer une notion d’incertitude (via les<br />

Partially Observable Markov Decision Process) <strong>et</strong>/ou une notion de hiérarchie


tel-00671168, version 1 - 8 Oct 2012<br />

22 Chapitre 1. Synthèse de mes activités<br />

(via les Hierarchical Markov Decision Process). Par ailleurs, en lien avec les travaux<br />

mentionnés ci-dessus, des études complémentaires pourraient être menées<br />

quant à la mise en compétition de différents modèles d’apprentissage, passant<br />

ainsi d’un MDP mono-objectif à un MDP multiobjectif qui aurait pour finalité<br />

de maximiser un vecteur de récompense au lieu d’une récompense scalaire<br />

classique.<br />

1.3.5 Encadrement doctoral<br />

1.3.5.1 Encadrement de thèses soutenues<br />

– Co-encadrement scientifique (25% avec P. Héroux <strong>et</strong> E. Trupin) de la<br />

thèse d’Eugen Barbu (Bourse MESR, 2003-2006)<br />

– Soutenue le 14/06/2006<br />

– Titre : Fouille <strong>et</strong> classification de graphes : application à la reconnaissance<br />

de symboles dans les documents graphiques<br />

– Jury : R. Ingold (rapporteur), R. Mullot (rapporteur), J. Llados, J.Y.<br />

Ramel, P. Héroux, E. Trupin<br />

– Publications associées :[23, 33, 24, 26, 38, 37, 62, 61, 65, 66, 6, 17]<br />

– Co-encadrement scientifique (50% avec J. Labiche <strong>et</strong> E. Trupin) de la<br />

thèse d’Hervé Locteau (Bourse MESR, 2003-2008)<br />

– Soutenance le 27/10/2008<br />

– Titre : Contributions à la localisation de symboles dans les documents<br />

graphiques<br />

– Jury : J.Y. Ramel (rapporteur), J.M. Ogier (rapporteur), A. Tabbone,<br />

J. Labiche, E. Trupin, S. Adam<br />

– Publications associées : [33, 25, 24, 39, 40, 34, 61, 64, 63, 68]<br />

– Co-encadrement scientifique (50% avec L. Heutte) de la thèse de Simon<br />

Bernard (Bourse MESR, 2006-2009)<br />

– Soutenue le 02/12/2009<br />

– Titre : Forêts Aléatoires : De l’analyse des mécanismes de fonctionnement<br />

à la construction dynamique<br />

– Jury : Y. Grandval<strong>et</strong> (rapporteur), T. Artière (rapporteur), L. Wehenkel,<br />

M. Sebban, L. Heutte, S. Adam<br />

– Publications associées : [54, 58, 55, 19, 31, 21, 31]<br />

– Co-encadrement scientifique (50% avec Y. Lecourtier) de la thèse de Gérard<br />

Dupont (Bourse CIFRE, 2006-2011)<br />

– Soutenue le 04/07/2011<br />

– Titre : Apprentissage implicite pour la recherche d’information<br />

– Jury : T. Artières (rapporteur), M. Boughanem (rapporteur), N. Vincent,<br />

S. Brunessaux, Y. Lecourtier, S. Adam<br />

– Publications associées : [60, 4, 53]<br />

1.3.5.2 Encadrement de thèses en cours<br />

– Co-encadrement (50% avec T. Paqu<strong>et</strong>) de la thèse de Nicolas Martin<br />

(Bourse CIFRE EADS, 2009-2012)


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 23<br />

– Soutenance prévue en 2012<br />

– Titre : Recherche <strong>et</strong> collecte d’informations sur les individus en sources<br />

ouvertes<br />

– Co-encadrement (50% avec Y. Lecourtier) de la thèse de Aurélien Saint<br />

Réquier (Bourse CIFRE EADS, 2010-2013).<br />

– Soutenance prévue en 2013<br />

– Titre : Agent Personnel d’Aide à la Recherche d’Information<br />

– Publication associée : [53]<br />

1.3.5.3 Encadrement de stages de DEA <strong>et</strong> de Master Recherche<br />

– Co-encadrement (50% avec Y. Lecourtier) du Master Recherche de S.<br />

Cognard. Co-évolution <strong>et</strong> reconnaissance de formes. 2005.<br />

– Co-Encadrement (50% avec P. Héroux) du Master Recherche de R. Raveaux.<br />

Reconnaissance de symboles à partir de schémas électriques. 2006.<br />

– Co-encadrement (50% avec Y. Lecourtier) du Master Recherche de G.<br />

Dupont. Annotation sémantique <strong>et</strong> apprentissage implicite : vers une recherche<br />

d’information intelligente. 2006.<br />

– Co-encadrement (50% avec L. Heutte) du Master Recherche de E. Oliveira.<br />

Construction dynamique de forêts aléatoires. 2008.<br />

– Co-encadrement (50% avec Y. Lecourtier) du Master Recherche de P. Le<br />

Bodic. Isomorphisme inexact de sous-graphes. 2008.<br />

– Co-encadrement (50% avec L. Heutte) du Master Recherche de Y. Oufella.<br />

<strong>Optimisation</strong> multiobjectif <strong>et</strong> apprentissage. 2008.<br />

– Co-encadrement (50% avec C. Lecomte) du Master Recherche de Nicolas<br />

Martin. Extraction <strong>et</strong> recherche de concepts dans des images. 2008.<br />

– Co-encadrement (50% avec L. Heutte) du Master Recherche de Y. Alwan.<br />

Classification One-Class avec les Forêts Aléatoires. 2008.<br />

– Co-encadrement (50% avec P. Héroux) du Master Recherche de A. Levallois.<br />

Classification de graphes par algorithmes génétiques. 2009.<br />

– Co-encadrement (50% avec P. Héroux) du Master Recherche de J.N.<br />

Bilong. Recherche d’isomorphismes exacts de sous-graphes par Programmation<br />

Linéaire en Nombre Entier (PLNE). 2009.<br />

– Co-encadrement (50% avec Y. Lecourtier) du Master Recherche de A.<br />

Saint-Réquier. Expérimentations utilisateur : étude comparative des performances<br />

d’un système de recherche d’information apprenant. 2009.<br />

– Co-encadrement (50% avec L. Heutte) du Master Recherche de N-Q.<br />

Doan. One-Class random forests. 2010.<br />

– Co-encadrement (50% avec T. Paqu<strong>et</strong>) du Master Recherche de F. Dewevre.<br />

Recherche d’images par analyse du contenu. 2011.<br />

1.3.6 Activités contractuelles, proj<strong>et</strong>s ANR<br />

C<strong>et</strong>te section précise le cadre contractuel dans lequel se sont développées<br />

certaines des actions de recherche présentées précédemment.<br />

Responsable LITIS du proj<strong>et</strong> Technovision EPEIRES Pendant les années<br />

2005 <strong>et</strong> 2006, j’ai eu en charge la gestion <strong>et</strong> la responsabilité côté LITIS


tel-00671168, version 1 - 8 Oct 2012<br />

24 Chapitre 1. Synthèse de mes activités<br />

du proj<strong>et</strong> EPEIRES (Évaluation des PErformances de l’Interprétation <strong>et</strong> de la<br />

REconnaissance de Symboles) 5 , r<strong>et</strong>enu dans le cadre de l’appel à proj<strong>et</strong> Technovision<br />

lancé conjointement par le Ministère de l’Enseignement Supérieur <strong>et</strong><br />

de la Recheche <strong>et</strong> par la Direction Générale de l’Armement. Ce proj<strong>et</strong>, d’une<br />

durée de deux ans, regroupait des membres d’Algo’Tech Informatique, de la<br />

City University of Hong Kong, du Laboratoire d’informatique de l’Université<br />

de Tours, de l’équipe QGAR du LORIA, du Laboratoire ONE de France Télécom<br />

R&D, du laboratoire PSI (devenu LITIS) de l’Université de Rouen <strong>et</strong> de<br />

l’équipe DAG du Computer Vision Center de l’Université Autonome de Barcelone.<br />

Le proj<strong>et</strong> avait pour objectif la construction d’un environnement compl<strong>et</strong><br />

fournissant les outils <strong>et</strong> les ressources nécessaires à l’évaluation des performances<br />

de méthodes de localisation <strong>et</strong> de reconnaissance de symboles. Plus<br />

particulièrement, les membres de ce proj<strong>et</strong> souhaitaient estimer de manière<br />

générique leurs capacités à reconnaître <strong>et</strong> localiser les symboles en fonction<br />

d’un certain nombre de critères : le domaine d’application, la modélisation, le<br />

nombre de symboles impliqués, la qualité du document. . . Le proj<strong>et</strong> était centré<br />

sur deux points importants à évaluer : la reconnaissance <strong>et</strong> la localisation.<br />

L’environnement développé dans le cadre de ce proj<strong>et</strong> était par ailleurs destiné<br />

à être utilisé par la communauté la plus large qui soit. Plusieurs campagnes<br />

de tests, ouvertes à tous les participants inscrits, ont été organisées après ce<br />

proj<strong>et</strong> lors des conférences Graphic RECognition (GREC). Le site du proj<strong>et</strong><br />

est encore disponible aujourd’hui pour toute la communauté.<br />

Responsable de contrats de recherche avec EADS Dans le cadre de<br />

mes activités de recherche liées à la recherche d’information, j’ai initié <strong>et</strong> développé,<br />

en collaboration avec Yves Lecourtier <strong>et</strong> Thierry Paqu<strong>et</strong>, plusieurs<br />

opérations de recherche avec l’équipe IPCC de EADS (devenu CASSIDIAN depuis)<br />

dirigée par Stephan Brunessaux. Ces activités de recherche se traduisent<br />

par les activités contractuelles suivantes.<br />

– Responsable scientifique <strong>et</strong> administratif de la convention "Apprentissage<br />

implicite pour la recherche d’information" de Novembre 2006 à Juill<strong>et</strong><br />

2011 (montant 30 ke). Ce contrat, initié dans le cadre de la thèse en<br />

convention CIFRE de Gérard Dupont, avait pour obj<strong>et</strong> de concevoir<br />

un moteur de recherche d’information apprenant qui, en fonction des<br />

interactions avec l’utilisateur, l’assiste dans ses recherches.<br />

– Responsable scientifique <strong>et</strong> administratif de la convention "Collecte intelligente<br />

des ressources du Web : application à la création de profils<br />

d’individus" de Mars 2009 à Mars 2012 (montant 30 ke). Ce contrat,<br />

initié dans le cadre de la thèse en convention CIFRE de Nicolas Martin,<br />

a pour obj<strong>et</strong> de concevoir un système capable de créer des profils d’individus<br />

en collectant de manière ciblée des informations à partir de sources<br />

ouvertes.<br />

– Responsable scientifique <strong>et</strong> administratif de la convention "Agent personnalisé<br />

de recherche d’information" de février 2010 à février 2013 (montant<br />

30 ke). Ce contrat, initié dans le cadre de la thèse en convention CIFRE<br />

d’Aurélien Saint Réquier, a pour obj<strong>et</strong> de concevoir un agent intelligent<br />

5. http://www.epeires.org/


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 25<br />

personnalisé de recherche d’information basé sur un système d’apprentissage<br />

sémantique du contexte des tâches de recherche <strong>et</strong> des centres<br />

d’intérêt de l’utilisateur.<br />

Ces trois contrats sont la concrétisation d’une collaboration engagée sur le<br />

long terme avec l’équipe IPCC de CASSIDIAN. Celle-ci a débouché en juin<br />

2011 sur la signature d’un nouveau contrat (montant 450 ke) ayant pour obj<strong>et</strong><br />

l’étude, le développement <strong>et</strong> la réalisation d’un démonstrateur de reconnaissance<br />

automatique de documents. Dans ce proj<strong>et</strong>, le LITIS est le référent scientifique.<br />

Nos missions consistent, outre le développement de modules d’analyse<br />

d’images de documents, à assister CASSIDIAN en tant que référence scientifique.<br />

Thierry Paqu<strong>et</strong> assure la responsabilité technique du proj<strong>et</strong> <strong>et</strong> je suis,<br />

pour CASSIDIAN, le responsable recherche de ce proj<strong>et</strong>.<br />

Participation à des programmes nationaux À la suite de ma thèse, j’ai<br />

été impliqué dans le proj<strong>et</strong> DOCMINING, qui est un proj<strong>et</strong> exploratoire supporté<br />

par le Réseau National des Technologies Logicielles (RNTL). Ce proj<strong>et</strong><br />

a réuni, de janvier 2002 à décembre 2003, un consortium composé de France<br />

Telecom R&D Lannion, l’équipe QGAR de l’INRIA Lorraine de Nancy, le laboratoire<br />

L3i de l’Université de La Rochelle, le département d’informatique<br />

de l’Université de Fribourg <strong>et</strong> l’équipe Document du PSI. Ce proj<strong>et</strong> visait la<br />

conception d’un système à base de connaissances <strong>et</strong> le développement d’un<br />

démonstrateur d’acquisition de documents hétérogènes représentant des plans<br />

d’accès à des bâtiments. Le système proposé avait pour objectif d’identifier<br />

les composantes contenues dans un document <strong>et</strong> d’adapter leurs modes de<br />

représentation aux besoins d’un service donné. Ce système couvre donc un<br />

large spectre d’utilisation. Il ne s’agit pas seulement de procéder à une rétroconversion<br />

systématique de documents entiers, mais de m<strong>et</strong>tre en place une<br />

méthodologie de valorisation des obj<strong>et</strong>s contenus dans un document.<br />

J’ai ensuite été impliqué dans une Action Concertée Incitative "MAsse<br />

de DOnnées issues de la Numérisation du patrimoiNE" (ACI MADONNE),<br />

fruit d’une collaboration entre les laboratoires PSI (Rouen), L3I (La Rochelle),<br />

LIRIS (Lyon), LORIA (Nancy), IRISA (Rennes) <strong>et</strong> LI (Tours). L’objectif des<br />

travaux de c<strong>et</strong>te ACI était de perm<strong>et</strong>tre, à partir de l’extraction automatique<br />

d’indices dans les images, la navigation <strong>et</strong> la recherche d’informations dans les<br />

collections de documents patrimoniaux. Ces travaux se sont poursuivis dans<br />

le cadre du proj<strong>et</strong> ANR Navidomass (NAVIgation into DOcument MASSes).<br />

Ce proj<strong>et</strong>, labellisé par l’ANR de 2008 à 2011, a pour mission de m<strong>et</strong>tre en<br />

valeur différents biens du patrimoine <strong>et</strong> plus particulièrement les ouvrages,<br />

les collections d’images <strong>et</strong> autres documents iconographiques. À court terme,<br />

ces nombreux documents constitueront une source gigantesque d’informations<br />

(masse de données). L’objectif de ce proj<strong>et</strong> est de contribuer à la réalisation<br />

de systèmes d’indexation d’images de documents du patrimoine. Ce proj<strong>et</strong><br />

s’inscrit ainsi dans la volonté actuelle de préserver le patrimoine culturel <strong>et</strong><br />

scientifique <strong>et</strong> d’assurer au plus grand nombre l’accès à celui-ci.


tel-00671168, version 1 - 8 Oct 2012<br />

26 Chapitre 1. Synthèse de mes activités<br />

1.3.7 Relations avec la communauté scientifique nationale <strong>et</strong><br />

internationale<br />

Relecture d’articles pour revues <strong>et</strong> conférences J’expertise des articles<br />

soumis dans les revues internationales de référence Pattern Recognition (PR),<br />

Pattern Recognition L<strong>et</strong>ters (PRL), International Journal of Document Analysis<br />

and Recognition (IJDAR) ainsi que dans la revue nationale Traitement du<br />

Signal.<br />

Membre de comités de programmes <strong>et</strong> d’organisation J’ai été membre<br />

des comités de programme des conférences internationales International Conference<br />

on Pattern Recognition (ICPR 2008 à Tampa, <strong>et</strong> ICPR 2010 à Istambul)<br />

<strong>et</strong> Graphic Recognition (GREC 2007 à Curritiba, GREC 2009 à La Rochelle<br />

<strong>et</strong> GREC 2011 à Séoul). Au niveau national, j’ai participé à des comités de<br />

programme de la Conférence Internationale Francophone sur l’Ecrit <strong>et</strong> le Document<br />

(CIFED 2004 à La Rochelle, CIFED 2006 à Fribourg, CIFED 2008<br />

à Rouen, CIFED 2010 à Sousse), à la conférence sur la Reconnaissance de<br />

Formes <strong>et</strong> l’Intelligence Artificielle (RFIA 2010 à Caen) <strong>et</strong> aux Journées Francophones<br />

de Planification, Décision <strong>et</strong> Apprentissage pour la conduite de systèmes<br />

(JFPDA 2011 à Rouen). J’ai également été sollicité pour présider la<br />

session "<strong>Graphes</strong>" de la conférence CIFED 2010 à Sousse. J’ai finalement fait<br />

partie du comité d’organisation de la conférence CIFED 2008 à Rouen.<br />

Participation à des groupes de travail Je participe à différents groupes<br />

de travail au sein de la communauté scientifique française. Je suis membre<br />

d’associations rassemblant des chercheurs francophones de mon domaine de recherche<br />

telles que le Groupe de Recherche en Communication Ecrite (GRCE),<br />

l’Association Française pour la Reconnaissance <strong>et</strong> l’Interprétation des Formes<br />

(AFRIF).<br />

Je participe également régulièrement au groupe de travail GT5.2 Ecrit du<br />

GDR I3 Information-Interaction-Intelligence. J’ai participé à l’Action Spécifique<br />

Valorisation des Collections dans le cadre du Réseau Thématique Pluridisciplinaire<br />

<strong>Documents</strong> (RTP-Doc) du CNRS.<br />

En ce qui concerne mon implication dans la communauté internationale, je suis<br />

membre affilié des comités techniques TC15 (Graph-based Representations in<br />

the Pattern Recognition field) <strong>et</strong> TC10 (Graphic Recognition) de l’IAPR (International<br />

Association of Pattern Recognition).<br />

1.3.8 Publications<br />

Revues internationales avec comité de lecture<br />

[1] R. Raveaux, S. Adam, P. Héroux, and E. Trupin. Learning graph prototypes<br />

for shape recognition. Computer Vision and Image Understanding<br />

(CVIU), 115(7) :pages 905 – 918, 2011.<br />

[2] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. A multimodel<br />

selection framework for unknown and/or evolutive misclassification<br />

cost problems. Pattern Recognition (PR), 43(3) :pages 815–823, 2010.


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 27<br />

[3] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. Non-cost<br />

sensitive SVM training using multiple model selection. Journal of Circuits<br />

Systems, and Computers (JCSC), 19(1) :pages 231–242, 2010.<br />

[4] G. Dupont, S. Adam, Y. Lecourtier, and B. Grilhère. <strong>Multi</strong> objective<br />

particle swarm optimization using enhanced dominance and guide selection.<br />

International Journal of Computational Intelligence Research (IJ-<br />

CIR), 4(2) :pages 145–158, 2008.<br />

[5] E. Valveny, P. Dosch, A. Winstanley, Y. Zhou, S. Yang, L. Yan, W. Liu,<br />

D. Elliman, M. Delalandre, E. Trupin, S. Adam, and J. Ogier. A general<br />

framework for the evaluation of symbol recognition m<strong>et</strong>hods. International<br />

Journal of Document Analysis and Recognition (IJDAR), 9(1) :pages 59–<br />

74, 2007.<br />

[6] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Frequent graph discovery :<br />

Application to line drawing document images. Electronic L<strong>et</strong>ters on Computer<br />

Vision and Image Analysis (ELCVIA), 5(2) :pages 47–57, 2005.<br />

[7] S. Adam, J. Ogier, C. Cariou, R. Mullot, J. Labiche, and J. Gardes. Symbol<br />

and character recognition : application to engineering drawings. International<br />

Journal of Document Analysis and Recognition (IJDAR), 3(2) :pages<br />

89–101, 2000.<br />

[8] C. Cariou, J.-M. Ogier, S. Adam, R. Mullot, Y. Lecourtier, and J. Gardes.<br />

A multiscale and multiorientation recognition technique applied to document<br />

interpr<strong>et</strong>ation : Application to the French telephone n<strong>et</strong>work maps.<br />

International Journal of Pattern Recognition and Artificial Intelligence (IJ-<br />

PRAI), 13(8) :pages 1201–1218, 1999.<br />

Chapitres de livres<br />

[9] S. Adam and J. Ogier. <strong>Documents</strong> graphiques : de la rétroconversion à la<br />

recherche d’information. In R. Mullot, editor, Les documents écrits : De la<br />

numérisation à l’indexation par le contenu, pages 249–310. Hermès, 2006.<br />

[10] S. Adam, J. Ogier, C. Cariou, R. Mullot, J. Gardes, and Y. Lecourtier.<br />

Fourier-mellin based invariants for the recognition of multi-oriented and<br />

multi-scaled shapes : Application to engineering drawings analysis, in invariants<br />

for pattern recognition and classification. In M. Rodrigues, editor,<br />

Invariants for pattern recognition and classification, pages 132–147. World<br />

Scientific, Singapore, 2000.<br />

Contributions à des ouvrages collectifs<br />

Les références mentionnées dans c<strong>et</strong>te partie correspondent à des versions<br />

étendues de soumissions faites pour des conférences internationales <strong>et</strong> soumises<br />

à un second processus de relecture.<br />

[11] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Using bags of symbols<br />

for automatic indexing of graphical document image databases. In W. Liu<br />

and J. Lladós, editors, Graphics Recognition. Ten Years Review and Future<br />

Perspectives, volume 3926 of Lecture Notes in Computer Science, pages<br />

195–205. Springer, 2006.


tel-00671168, version 1 - 8 Oct 2012<br />

28 Chapitre 1. Synthèse de mes activités<br />

[12] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />

Polygonal approximation of digital curves using a multi-objective gen<strong>et</strong>ic<br />

algorithm. In W. Liu and J. Lladós, editors, Graphics Recognition.<br />

Ten Years Review and Future Perspectives, volume 3926 of Lecture Notes<br />

in Computer Science, pages 300–311. Springer, 2006.<br />

[13] Y. Saidali, S. Adam, J. Ogier, and E. Trupin. Knowledge representation<br />

and acquisition for engineering document analysis. In W. Liu and J. Lladós,<br />

editors, Graphics Recognition : Recent Advances and Perspectives, volume<br />

3088 of Lecture Notes in Computer Science, pages 25–37. Springer, 2004.<br />

[14] S. Adam, J. Ogier, C. Cariou, and J. Gardes. A scale and rotation param<strong>et</strong>ers<br />

estimator application to technical document interpr<strong>et</strong>ation. In GREC<br />

’01 : Selected Papers from the Fourth International Workshop on Graphics<br />

Recognition Algorithms and Applications, volume 2390, pages 266–<br />

272. Springer-Verlag, London, UK, 2002. ISBN 3-540-44066-6.<br />

[15] S. Adam, R. Mullot, J. Ogier, C. Cariou, J. Gardes, and Y. Lecourtier.<br />

Processing of the connected shapes in raster-to-vector conversion process.<br />

In Selected Papers from the Third International Workshop on Graphics Recognition,<br />

Recent Advances, pages 28–38. Springer-Verlag, London, UK,<br />

2000.<br />

[16] S. Adam, J. Ogier, C. Cariou, J. Gardes, R. Mullot, and Y. Lecourtier.<br />

Combination of invariant pattern recognition primitives on technical documents.<br />

In Selected Papers from the Third International Workshop on<br />

Graphics Recognition, Recent Advances, pages 238–245. Springer-Verlag,<br />

London, UK, 2000. ISBN 3-540-41222-0.<br />

Revues nationales avec comité de lecture<br />

[17] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Fouille de graphes <strong>et</strong><br />

découverte de règles d’association : application à l’analyse d’images de document.<br />

Revue Nouvelles Technologies de l’Information (RNTI), E-3 :pages<br />

463–468, 2005.<br />

[18] S. Adam, J. Ogier, C. Cariou, R. Mullot, J. Gardes, and Y. Lecourtier.<br />

Utilisation de la transformée de Fourier-Mellin pour la reconnaissance<br />

de formes multi-orientées <strong>et</strong> multi-échelles : application à l’analyse<br />

automatique de documents techniques. Revue Traitement du Signal (TS),<br />

18(1) :pages 17–33, 2005.<br />

Conférences internationales de rang A<br />

Les références mentionnées dans c<strong>et</strong>te partie correspondent à des communications<br />

dans des conférences majeures, considérées comme sélectives par la<br />

communauté (référencées A ou A+ par le site CORE http://www.core.edu.<br />

au par exemple).<br />

[19] S. Bernard, L. Heutte, and S. Adam. On the selection of decision trees in<br />

random forests. In Proceedings of the International Joint Conference on<br />

Neural N<strong>et</strong>works (IJCNN’09), pages 302–307. 2009.


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 29<br />

[20] P. Le Bodic, H. Locteau, S. Adam, P. Héroux, Y. Lecourtier, and A. Knippel.<br />

Symbol d<strong>et</strong>ection using region adjacency graphs and integer linear<br />

programming. In Proceedings of the International Conference on Document<br />

Analysis and Recognition (ICDAR’09), pages 1320–1324. 2009.<br />

[21] S. Bernard, S. Adam, and L. Heutte. Using random forests for handwritten<br />

digit recognition. In Proceedings of the International Conference on<br />

Document Analysis and Recognition (ICDAR’07), pages 1043–1047. 2007.<br />

[22] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. <strong>Multi</strong>objective<br />

optimization for SVM model selection. In Proceedings of the<br />

International Conference on Document Analysis and Recognition (IC-<br />

DAR’07), pages 427–431. 2007.<br />

[23] P. Héroux, E. Barbu, S. Adam, and E. Trupin. Automatic ground-truth<br />

generation for document image analysis and understanding,. In Proceedings<br />

of the International Conference on Document Analysis and Recognition<br />

(ICDAR’07), pages 476–480. 2007.<br />

[24] E. Barbu, R. Raveaux, H. Locteau, S. Adam, P. Héroux, and E. Trupin.<br />

Graph classification using gen<strong>et</strong>ic algorithm and graph probing : Application<br />

to symbol recognition. In Proceedings of the International Conference<br />

on Pattern Recognition (ICPR’06), pages 296–299. 2006.<br />

[25] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />

Approximation of digital curves using a multi-objective gen<strong>et</strong>ic algorithm.<br />

In Proceedings of the International Conference on Pattern Recognition<br />

(ICPR’06), pages 716–719. 2006.<br />

[26] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Clustering document<br />

images using a bag of symbols representation. In Proceedings of the International<br />

Conference on Document Analysis and Recognition (ICDAR’05),<br />

pages 1216–1220. 2005.<br />

[27] S. Adam, M. Rigamonti, E. Clavier, J.-M. Ogier, E. Trupin, and<br />

K. Tombre. DocMining : A Document Analysis System Builder. In<br />

S. Marinai and A. Dengel, editors, Proceedings of the IAPR Workshop<br />

on Document Analysis Systems (DAS’04), volume 3163 of Lecture Notes<br />

in Computer Science, pages 472–483. 2004.<br />

[28] M. Delalandre, P. Héroux, S. Adam, É. Trupin, and J.-M. Ogier. A statistical<br />

and structural approach for symbol recognition, using xml modelling.<br />

In T. Caelli, A. Amin, R. P. W. Duin, M. S. Kamel, and D. de Ridder, editors,<br />

Proceedings of the International Workshop on Syntactical and Structural<br />

Pattern Recognition (SSPR’02), volume 2396 of Lecture Notes in<br />

Computer Science, pages 281–290. Springer, 2002.<br />

[29] S. Adam, J. Gardes, Y. Lecourtier, J. Ogier, and R. Mullot. <strong>Multi</strong>-scaled<br />

and multi oriented character recognition : An original strategy. In Proceedings<br />

of the International Conference on Document Analysis and Recognition<br />

(ICDAR’99), pages 45–48. 1999.<br />

Autres conférences internationales avec actes <strong>et</strong> comité de sélection<br />

[30] S. Bernard, L. Heutte, and S. Adam. Influence of hyperparam<strong>et</strong>ers on<br />

random forest accuracy. In J. A. Benediktsson, J. Kittler, and F. Roli,


tel-00671168, version 1 - 8 Oct 2012<br />

30 Chapitre 1. Synthèse de mes activités<br />

editors, Proceedings of <strong>Multi</strong>ple Classifier Systems (MCS’09), volume 5519<br />

of Lecture Notes in Computer Science, pages 171–180. Springer, 2009.<br />

[31] S. Bernard, L. Heutte, and S. Adam. Towards a b<strong>et</strong>ter understanding<br />

of random forests through the study of strength and correlation. In<br />

D.-S. Huang, K.-H. Jo, H.-H. Lee, H.-J. Kang, and V. Bevilacqua, editors,<br />

Proceedings of the International Conference on Intelligent Computing<br />

(ICIC’09), volume 5755 of Lecture Notes in Computer Science, pages<br />

536–545. Springer, 2009.<br />

[32] S. Bernard, L. Heutte, and S. Adam. Forest-RK : A new random forest<br />

induction m<strong>et</strong>hod. In D.-S. Huang, D. C. W. II, D. S. Levine, and K.-<br />

H. Jo, editors, Proceedings of the International Conference on Intelligent<br />

Computing (ICIC’08), volume 5227 of Lecture Notes in Computer Science,<br />

pages 430–437. Springer, 2008.<br />

[33] E. Barbu, C. Chatelain, S. Adam, P. Héroux, and E. Trupin. A simple<br />

one class classifier with rejection strategy : Application to symbol classification.<br />

In Proceedings of the IAPR Workshop on Graphics Recognition<br />

(GREC’07), pages 35–36. 2007.<br />

[34] H. Locteau, S. Adam, E. Trupin, J. Labiche, and P. Héroux. Symbol<br />

spotting using full visibility graph representation. In Proceedings of the<br />

IAPR Workshop on Graphics Recognition (GREC’07). 2007.<br />

[35] R. Raveaux, E. Barbu, H. Locteau, S. Adam, P. Héroux, and E. Trupin.<br />

A graph classification approach using a multi-objective gen<strong>et</strong>ic algorithm<br />

application to symbol recognition. In F. Escolano and M. Vento, editors,<br />

Proceedings of the IAPR International Workshop on Graph Based Representations<br />

for Pattern Recognition (GbR-PR’07), volume 4538 of Lecture<br />

Notes in Computer Science, pages 361–370. Springer, 2007.<br />

[36] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Clustering of document<br />

images using graph summaries. In P. Perner and A. Imiya, editors, Proceedings<br />

of Machine Learning and Data Mining in Pattern Recognition<br />

(MDLM’05), volume 3587 of Lecture Notes in Computer Science, Lecture<br />

Notes in Artificial Intelligence, pages 194–202. Springer, 2005.<br />

[37] E. Barbu, P. Héroux, S. Adam, and É. Trupin. Indexation of document<br />

images using frequent items. In Proceedings of the International Workshop<br />

on Pattern Recognition in Information System (PRIS’05), pages 164–173.<br />

2005.<br />

[38] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Using bags of symbols for<br />

automatic indexing of graphical document image databases. In Proceedings<br />

of the IAPR Workshop on Graphics Recognition (GREC’05), pages<br />

195–205. 2005.<br />

[39] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />

Polygonal approximation of digital curves using a multi-objective<br />

gen<strong>et</strong>ic algorithm. In Proceedings of the IAPR Workshop on Graphics<br />

Recognition (GREC’05), pages 300–311. 2005.<br />

[40] H. Locteau, S. Adam, E. Trupin, J. Labiche, and P. Héroux. Symbol<br />

recognition combining vectorial and statistical features. In Proceedings of


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 31<br />

the IAPR Workshop on Graphics Recognition (GREC’05), pages 76–87.<br />

2005.<br />

[41] Y. Saidali, S. Adam, J.-M. Ogier, É. Trupin, and J. Labiche. Knowledge<br />

representation and acquisition for engineering document analysis.<br />

In Proceedings of the International Workshop on Graphics RECognition<br />

(GREC’03), pages 25–37. 2003.<br />

[42] S. Adam, J.-M. Ogier, É. Trupin, and R. Mullot. A scale and rotation<br />

param<strong>et</strong>ers estimator application to technical document interpr<strong>et</strong>ation.<br />

In Proceedings of the International Workshop on Pattern Recognition in<br />

Information Systems (PRIS’03), pages 31–37. 2003.<br />

[43] J. Gardes, J. Ogier, S. Adam, and R. Mullot. Caati - a system-based dynamic<br />

document interpr<strong>et</strong>ation device. In Proceedings of the International<br />

Workshop on Graphics RECognition (GREC’01), pages 301–311. 2001.<br />

[44] J. Ogier, S. Adam, A. Bessaid, and H. Bechar. Automatic topographic<br />

map analysis system : an overview. In Proceedings of the International<br />

Workshop on Graphics RECognition (GREC’01), pages 229–244. 2001.<br />

[45] E. Trupin, J. Ogier, S. Adam, and J. Gardes. Navigation into technical<br />

documents. In Proceedings of the International Workshop on Graphics<br />

RECognition (GREC’01), pages 27–34. 2001.<br />

[46] S. Adam, J.-M. Ogier, C. Cariou, and J. Gardes. A scale and rotation<br />

param<strong>et</strong>ers estimator application to technical document interpr<strong>et</strong>ation.<br />

In Proceedings of the International Workshop on Graphics RECognition<br />

(GREC’01), pages 27–34. 2001.<br />

[47] S. Adam, F. Rousseau, J. Ogier, C. Cariou, R. Mullot, J. Labiche, and<br />

J. Gardes. A multi-scale and multi-orientation recognition technique applied<br />

to document interpr<strong>et</strong>ation application to french telephone n<strong>et</strong>work<br />

maps. In Proceedings of the International Conference on Acoustics, Speech,<br />

and Signal Processing (ICASSP’01), pages 1509–1512. 2001.<br />

[48] J.-M. Ogier, C. Cariou, S. Adam, J. Gardes, R. Mullot, and Y. Lecourtier.<br />

Similitude invariant pattern recognition on technical documents. In Proceedings<br />

of the International Conference on Image Processing (ICIP’99),<br />

pages 570–574. 1999.<br />

[49] S. Adam, R. Mullot, J.-M. Ogier, C. Cariou, J. Gardes, and Y. Lecourtier.<br />

Processing of the connected shapes in raster-to-vector conversion process.<br />

In Proceedings of the International Workshop on Graphics RECognition<br />

(GREC’99), pages 28–38. 1999.<br />

[50] S. Adam, J.-M. Ogier, C. Cariou, J. Gardes, R. Mullot, and Y. Lecourtier.<br />

Combination of invariant pattern recognition primitives on technical<br />

documents. In Proceedings of the International Workshop on Graphics<br />

RECognition (GREC’99), pages 238–245. 1999.<br />

Conférences nationales avec actes <strong>et</strong> comité de sélection<br />

[51] G. Dupont, S. Adam, and Y. Lecourtier. Apprentissage par renforcement<br />

pour la recherche d’information interactive. In Actes des 6emes Journées


tel-00671168, version 1 - 8 Oct 2012<br />

32 Chapitre 1. Synthèse de mes activités<br />

Francophones de Planification, Décision <strong>et</strong> Apprentissage pour la conduite<br />

de systèmes (JFPDA 2011). 2011.<br />

[52] P. L. Bodic, P. Héroux, S. Adam, H. Locteau, J. Bilong, and Y. Lecourtier.<br />

Programmation linéaire en nombres entiers pour la recherche d’isomorphismes<br />

de sous-graphes. In Actes du Colloque International Francophone<br />

sur l’Ecrit <strong>et</strong> le Document (CIFED’10), pages 153–168. 2010.<br />

[53] A. S. Réquier, G. Dupont, S. Adam, and Y. Lecourtier. Évaluation d’outils<br />

de reformulation interactive de requêtes. In Actes de la COnférence<br />

en Recherche d’Information <strong>et</strong> Applications (CORIA’10), pages 223–238.<br />

2010.<br />

[54] S. Bernard, L. Heutte, and S. Adam. Une Étude sur la paramétrisation<br />

des forêts aléatoires. In Actes de la Conférence francophone sur l’Apprentissage<br />

Artificiel (CAP’09), pages 81–92. 2009.<br />

[55] S. Bernard, L. Heutte, and S. Adam. Étude de l’influence des paramètres<br />

sur les performances des forêts aléatoires. In Actes du Colloque International<br />

Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’08), pages 207–208.<br />

2008.<br />

[56] P. L. Bodic, S. Adam, P. Héroux, A. Knippel, and Y. Lecourtier. Formulations<br />

linéaires en nombres entiers pour des problèmes d’isomorphisme<br />

exact <strong>et</strong> inexact. In Actes électroniques des Journées Polyèdres <strong>et</strong> <strong>Optimisation</strong><br />

Combinatoire (JPOC’08). 2008.<br />

[57] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, Y. Oufella, and T. Paqu<strong>et</strong>.<br />

<strong>Optimisation</strong> multi-objectif pour la sélection de modèles SVM. In<br />

Actes du congrès Reconnaissance des Formes <strong>et</strong> Intelligence Artificielle<br />

(RFIA’08), pages 67–72. 2008.<br />

[58] L. Heutte, S. Bernard, S. Adam, and E. Oliveira. De la sélection d’arbres<br />

de décision dans les forêts aléatoires. In Actes du Colloque International<br />

Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’08), pages 163–168. 2008.<br />

[59] R. Raveaux, E. Barbu, S. Adam, P. Héroux, and E. Trupin. <strong>Graphes</strong><br />

prototypes vs. graphe médian généralisé pour la classification de données<br />

structurées. In Actes du Colloque International Francophone sur l’Écrit<br />

<strong>et</strong> le Document (CIFED’08), pages 37–42. 2008.<br />

[60] G. Dupont, S. Adam, Y. Lecourtier, and B. Grilhere. <strong>Multi</strong> objective<br />

particle swarm optimization using enhanced dominance and guide selection.<br />

In Journées <strong>Optimisation</strong> par Essaims Particulaires (OEP’07) -<br />

actes électroniques. 2007.<br />

[61] E. Barbu, R. Raveaux, H. Locteau, S. Adam, P. Héroux, and E. Trupin.<br />

Classification de graphes par algorithmes génétiques <strong>et</strong> signatures de<br />

graphes : Application à la reconnaissance de symboles. In Actes du Colloque<br />

International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’06),<br />

pages 91–96. 2006.<br />

[62] P. Héroux, E. Barbu, S. Adam, and E. Trupin. Production de vérité terrain<br />

pour l’analyse <strong>et</strong> l’interprétation d’images de document. In Actes du Colloque<br />

International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’06),<br />

pages 67–72. 2006.


tel-00671168, version 1 - 8 Oct 2012<br />

1.3. Activités de recherche 33<br />

[63] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />

Approximation de courbes par algorithme génétique multi-objectif.<br />

In Actes du Colloque International Francophone sur l’Écrit <strong>et</strong> le Document<br />

(CIFED’06), pages 37–42. 2006.<br />

[64] H. Locteau, S. Adam, E. Trupin, J. Labiche, and P. Héroux. Reconnaissance<br />

de symbole guidée par une modélisation basée sur les graphes de<br />

régions adjacentes. In Actes du Colloque International Francophone sur<br />

l’Écrit <strong>et</strong> le Document (CIFED’06), pages 151–156. 2006.<br />

[65] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Fouille de graphes <strong>et</strong><br />

découverte de règles d’association : application à l’analyse d’images de<br />

document. In Actes des journées Extraction <strong>et</strong> Gestion des Connaissances<br />

(EGC’05), pages 463–468. 2005.<br />

[66] E. Barbu, P. Héroux, S. Adam, and E. Trupin. Découverte de motifs fréquents<br />

- application à l’analyse de documents graphiques. In Actes du Colloque<br />

International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’04),<br />

pages 143–148. 2004.<br />

[67] E. Clavier, S. Adam, P. Héroux, M. Rigamonti, and J.-M. Ogier. Docmining<br />

- une plate-forme de conception de systèmes d’analyse de document.<br />

In Actes du Colloque International Francophone sur l’Écrit <strong>et</strong> le Document<br />

(CIFED’04, pages 97–102. 2004.<br />

[68] H. Locteau, S. Adam, E. Trupin, J. Labiche, and P. Héroux. Détection<br />

d’arcs de cercle par comparaison du tracé théorique de Bresenham. In<br />

Actes du Colloque International Francophone sur l’Écrit <strong>et</strong> le Document<br />

(CIFED’04), pages 285–290. 2004.<br />

[69] M. Delalandre, P. Héroux, S. Adam, E. Trupin, and J. Ogier. Une approche<br />

statistico-structurelle pour la reconnaissance de symboles exploitant<br />

une représentation xml des données. In Actes du Colloque International<br />

Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’02), pages 121–128.<br />

2002.<br />

[70] C. Cariou, J. Ogier, S. Adam, J. Gardes, R. Mullot, and Y. Lecourtier. Reconnaissance<br />

de formes multi-échelle sur documents techniques. In Actes<br />

du Colloque du Groupe de Recherche <strong>et</strong> d’Études en Traitement du Signal<br />

<strong>et</strong> des Images (GRETSI’99), pages 283–286. 2000.<br />

[71] V. Grenier, R. Mullot, J. Ogier, S. Adam, J. Gardes, and Y. Lecourtier.<br />

Distribution d’opérateurs pour l’analyse de documents techniques. In<br />

Actes du Colloque International Francophone sur l’Écrit <strong>et</strong> le Document<br />

(CIFED’00), pages 151–160. 2000.<br />

[72] V. Grenier, R. Mullot, J. Ogier, S. Adam, J. Gardes, and Y. Lecourtier.<br />

Une architecture distribuée pour l’interprétation de documents techniques.<br />

In Actes du Congrès Reconnaissance de Formes <strong>et</strong> Intelligence Artificielle<br />

(RFIA’00), pages 427–436. 2000.<br />

[73] S. Adam, R. Mullot, J. Ogier, C. Cariou, and J. Gardes. Interprétation<br />

de documents du réseau téléphonique : Approche multi-spécialistes. In<br />

Actes du Congrès Reconnaissance de Formes <strong>et</strong> Intelligence Artificielle<br />

(RFIA’00), pages 357–364. 2000.


tel-00671168, version 1 - 8 Oct 2012<br />

34 Chapitre 1. Synthèse de mes activités<br />

[74] S. Adam, J. M. Ogier, C. Cariou, R. Mullot, J. Gardes, and J. Labiche.<br />

Reconnaissance de formes multi-orientées <strong>et</strong> multi-échelle : Application<br />

à l’analyse automatique de documents techniques. In Actes du Colloque<br />

International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’00), pages<br />

21–30. 2000.<br />

[75] V. Grenier, R. Mullot, J. Ogier, S. Adam, J. Gardes, and Y. Lecourtier.<br />

Proposition d’architecture distribuée pour un système de rétro-conversion<br />

de documents techniques. In Actes du Colloque International sur le Document<br />

Electronique (CIDE’99), pages 139–153. 1999.<br />

[76] S. Adam, R. Mullot, J. Ogier, C. Cariou, and J. Gardes. Stratégie multispécialistes<br />

d’extraction d’information sur des documents techniques. In<br />

Actes du Colloque International sur le Document Electronique (CIDE’99),<br />

pages 139–153. 1999.<br />

Thèses soutenues<br />

[77] G. Dupont. Apprentissage implicite pour la recherche d’information.<br />

Ph.D. thesis, Université de Rouen, 2011.<br />

[78] S. Bernard. Forêts Aléatoires : de l’Analyse des Mécanismes de Fonctionnement<br />

à la Construction Dynamique. Ph.D. thesis, Université de Rouen,<br />

2009.<br />

[79] H. Locteau. Contributions à la localisation de symboles dans les documents<br />

graphiques. Ph.D. thesis, Université de Rouen, 2008.<br />

[80] E. Barbu. Fouille <strong>et</strong> classification de graphes : application à la reconnaissance<br />

de symboles dans les documents graphiques. Ph.D. thesis, Université<br />

de Rouen, 2007.<br />

[81] S. Adam. Interprétation de documents techniques : des outils à leur intégration<br />

dans un système à base de connaissances. Ph.D. thesis, Université<br />

de Rouen, 2001.<br />

1.4 Activités d’enseignement<br />

1.4.1 Filières d’enseignement<br />

Depuis ma nomination, j’interviens principalement en licence "Electronique<br />

Electrotechnique Automatique" (EEA), au niveau L1 <strong>et</strong> L3 <strong>et</strong> en Master "Informatique<br />

Génie de l’Information <strong>et</strong> des Systèmes" (IGIS) de l’UFR des Sciences.<br />

Dans ce dernier, j’assure des enseignements à la fois dans la spécialité professionnelle<br />

Génie Electrique <strong>et</strong> Informatique Industrielle (GEII) <strong>et</strong> dans la<br />

spécialité pro-recherche Système de Traitement des Informations <strong>Multi</strong>média<br />

(STIM).<br />

1.4.2 Enseignements dispensés<br />

Traitement numérique de l’information : Logique combinatoire <strong>et</strong> séquentielle.<br />

Unité Arithmétique <strong>et</strong> Logique. Architecture des ordinateurs. Microprocesseurs.


tel-00671168, version 1 - 8 Oct 2012<br />

1.5. Activités administratives 35<br />

Programmation C - Génie Informatique : Types de base, constantes,<br />

opérateurs, instructions de contrôle, pointeurs, fonctions, types composés, entréessorties,<br />

fichiers, listes chaînées, pile, files, arbres.<br />

Traitement numérique du signal Outils mathématiques pour le signal<br />

(Transformées), Analyse Spectrale (Transformée de Fourier, TFD, FFT, Fenêtres<br />

spectrales), Filtrage numériques (filtres RIF, RII, cascades de filtres).<br />

Traitement d’images <strong>et</strong> reconnaissance de formes : filtres, morphologie<br />

mathématique, analyse spectrale, extraction de caractéristiques, classifieurs,<br />

combinaisons de classifieurs.<br />

<strong>Optimisation</strong> : moindres carrés, descente de gradient, Gauss Newton, algorithmes<br />

génétiques, essaims particulaires.<br />

Programmation système : Gestion de processus, communication entre<br />

processus (tubes, signaux, mémoires partagées, sémaphores), Gestion de threads.<br />

1.4.3 Volumes horaires<br />

Année 2002 2003 2004 2005 2006 2007 2008 2009 2010<br />

2003 2004 2005 2006 2007 2008 2009 2010 2011<br />

Heures 213 202 179 193 195 192 192 213 194<br />

eq. TD<br />

1.5 Activités administratives<br />

1.5.1 Responsabilités administratives <strong>et</strong> pédagogiques<br />

Direction d’études <strong>et</strong> présidence de jury Depuis ma nomination <strong>et</strong> jusqu’en<br />

septembre 2006, j’ai eu en charge la direction <strong>et</strong> l’organisation des enseignements<br />

de la seconde année de l’IUP Génie Electrique <strong>et</strong> Informatique<br />

Industrielle. Depuis septembre 2006, je suis directeur d’études <strong>et</strong> chargé de<br />

l’organisation des enseignements sur l’année (responsable pédagogique) de la<br />

première année de la spécialité Génie Electrique <strong>et</strong> Informatique Industrielle<br />

(GEII) du Master d’Informatique, de Génie de l’Information <strong>et</strong> des Systèmes.<br />

Je suis également président de jury de c<strong>et</strong>te année.<br />

Dans ce cadre, j’ai à ma charge la mise au point <strong>et</strong> la gestion des emplois du<br />

temps au cours des deux semestres, la recherche d’enseignants <strong>et</strong> de vacataires<br />

ainsi que l’organisation des pré-jurys, des oraux <strong>et</strong> du jury des deux sessions.<br />

Responsable des Travaux d’Etudes <strong>et</strong> de Recherche Depuis septembre<br />

2007, j’assure pour l’ensemble des années des filières EEA, GEII <strong>et</strong> STIM la<br />

responsabilité des proj<strong>et</strong>s annuels (Travaux d’Etudes <strong>et</strong> de Recherche). Dans<br />

ce cadre, je suis chargé de la collecte des suj<strong>et</strong>s proposés par l’équipe pédagogique,<br />

de l’attribution de ces suj<strong>et</strong>s aux étudiants (entre 50 <strong>et</strong> 100 en fonction<br />

des années), de la collecte <strong>et</strong> de l’examen des cahiers des charges rédigés par


tel-00671168, version 1 - 8 Oct 2012<br />

36 Chapitre 1. Synthèse de mes activités<br />

les étudiants <strong>et</strong> des rapports finaux, de l’organisation des soutenances des étudiants,<br />

<strong>et</strong> de la présidence des jurys liés à ces soutenances.<br />

1.5.2 Fonctions électives au sein de l’établissement<br />

– Membre du conseil de département de physique de l’UFR de 2008 à 2011<br />

– Membre de 2004 à 2008 des commissions de spécialistes de l’Université<br />

de Rouen (61ème section <strong>et</strong> 27/61ème section - vice président)<br />

– Membre de 2006 à 2008 de la commission de spécialistes de l’INSA de<br />

Rouen (27-61-63ème sections).<br />

– Membre en 2009 d’un comité de sélection 61ème section de l’Université<br />

de Rouen.


tel-00671168, version 1 - 8 Oct 2012<br />

Deuxième partie<br />

Contributions <strong>et</strong> Perspectives<br />

37


tel-00671168, version 1 - 8 Oct 2012


tel-00671168, version 1 - 8 Oct 2012<br />

Chapitre 2<br />

Introduction générale<br />

Au cours des vingt dernières années, le développement des Sciences <strong>et</strong> Technologies<br />

de l’Information <strong>et</strong> de la Communication (STIC) a bouleversé notre<br />

manière de vivre <strong>et</strong> de travailler. Aucun secteur n’est aujourd’hui « épargné »<br />

par c<strong>et</strong>te émergence du numérique. Les STIC jouent désormais un rôle prépondérant<br />

dans la santé, l’éducation, la culture, la conservation des patrimoines,<br />

l’agriculture, les administrations, les médias, la finance, l’industrie. . . Ce bouleversement,<br />

que les historiens jugent aussi profond que celui de la révolution<br />

industrielle des XV III e <strong>et</strong> XIX e siècles, a engagé le monde sur la voie d’une<br />

société basée sur l’information <strong>et</strong> la connaissance.<br />

Les progrès technologiques liés aux capacités de stockage <strong>et</strong> aux réseaux<br />

Intern<strong>et</strong> <strong>et</strong> Intran<strong>et</strong> sont indéniablement les facteurs à l’origine de c<strong>et</strong>te révolution.<br />

Toutefois, ces évolutions technologiques ont également fait émerger de<br />

nouvelles problématiques scientifiques indispensables pour perm<strong>et</strong>tre l’accès <strong>et</strong><br />

le traitement de c<strong>et</strong>te quantité phénoménale d’informations <strong>et</strong> qui, elles-mêmes,<br />

amplifient les besoins en nouvelles technologies. Parmi ces problématiques, on<br />

trouve celle de la Gestion Électronique de Document (GED), qui est l’une<br />

des solutions utilisées pour optimiser la gestion de l’information. Elle se définit<br />

comme l’ensemble des techniques <strong>et</strong> méthodes qui ont pour but de faciliter l’archivage,<br />

l’accès, la consultation, la diffusion des documents <strong>et</strong> des informations<br />

qu’ils contiennent.<br />

Dans la chaîne électronique de gestion des documents, le traitement automatique<br />

des images de documents est l’un des maillons perm<strong>et</strong>tant d’alimenter<br />

les systèmes quand l’information initiale n’est disponible que sous la forme papier<br />

<strong>et</strong> quand une reprise manuelle est trop coûteuse. Même si initialement il<br />

ne s’agissait que de scanner le document papier <strong>et</strong> de le stocker sous forme<br />

d’image dans une archive afin d’en faciliter la circulation au sein des différents<br />

services d’une organisation, la problématique du traitement automatique de<br />

documents s’est étendue à la conception plus générale de méthodologies, outils<br />

<strong>et</strong> systèmes perm<strong>et</strong>tant de classer, trier, indexer, stocker <strong>et</strong> interpréter automatiquement<br />

des documents numériques rétroconvertis à partir de documents<br />

papiers (formulaires, plans, courriers, archives...).<br />

C’est ainsi que s’est formée, il y a plus de vingt ans, une communauté<br />

travaillant autour de la problématique de l’analyse d’images de documents,<br />

dans le but de transformer de telles images en un contenu structuré <strong>et</strong> exploi-<br />

39


tel-00671168, version 1 - 8 Oct 2012<br />

40 Chapitre 2. Introduction générale<br />

table. C<strong>et</strong>te communauté s’est construite au niveau national autour de groupes<br />

tels que le GRCE (Groupe de Recherche en Communication Écrite) ou celui<br />

du thème « <strong>Documents</strong> <strong>Multi</strong>média » du GDR I3 (Information-Interaction-<br />

Intelligence), <strong>et</strong> au niveau international autour des comités techniques TC10<br />

Graphic Recognition (GREC) <strong>et</strong> TC11 Reading Systems de l’IAPR (International<br />

Association for Pattern Recognition). On a également assisté à l’émergence<br />

de nouvelles revues scientifiques dédiées à l’analyse de documents telles que<br />

l’International Journal of Document Analysis and Recognition (IJDAR), à la<br />

tenue de congrès centrés sur c<strong>et</strong>te thématique, comme le Colloque International<br />

Francophone sur l’Écrit <strong>et</strong> le Document (CIFED), ou au niveau international<br />

à l’organisation des conférences ou workshops tels que l’International Conference<br />

on Document Analysis and Recognition (ICDAR), Graphic Recognition<br />

(GREC), Document Analysis System (DAS) ou l’International Conference on<br />

Frontiers in Handwriting Recognition (ICFHR), pour ne citer que les plus anciens.<br />

Une importante communauté scientifique s’est ainsi constituée autour de<br />

la problématique de la conception d’outils <strong>et</strong> de systèmes perm<strong>et</strong>tant d’interpréter<br />

le contenu d’images de documents. De tels systèmes d’analyse d’images<br />

de documents reposent sur de nombreuses étapes de traitement, allant du bas<br />

niveau (filtrage, restauration, redressement, binarisation, squel<strong>et</strong>tisation, segmentation<br />

texte/graphique) à des processus d’interprétation de haut niveau<br />

sémantique (rétroconversion, extraction de méta-données, indexation de documents.<br />

. . ), en passant par des étapes de reconnaissance des entités présentes<br />

dans le document (texte, symboles, lignes, arcs de cercle, logos. . . ). La figure<br />

2 illustre la complexité des chaînes d’analyse d’images de documents à travers<br />

trois systèmes de l’état de l’art respectivement dédiés à l’analyse de documents<br />

structurés [56], la reconnaissance de textes manuscrits [114] <strong>et</strong> la vectorisation<br />

de documents graphiques [92].<br />

Les différents « niveaux » d’analyse qui apparaissent sur c<strong>et</strong>te figure illustrent<br />

les interactions nécessaires entre la communauté de l’analyse de documents<br />

<strong>et</strong> des communautés connexes. On peut citer évidemment la communauté<br />

du traitement d’images pour améliorer les données brutes que sont les<br />

pixels, celle de la reconnaissance de formes statistique, syntaxique <strong>et</strong> structurelle<br />

pour transformer ces données en obj<strong>et</strong>s de plus haut niveau sémantique,<br />

celle de l’intelligence artificielle pour planifier les traitements, ou encore celle<br />

de l’optimisation pour régler les nombreux paramètres des chaînes d’analyse.<br />

Même s’ils n’apparaissent pas explicitement sur c<strong>et</strong>te figure, il ne faut pas non<br />

plus négliger les aspects liés à l’ingénierie des connaissances, qui perm<strong>et</strong>tent<br />

de modéliser <strong>et</strong> de représenter les connaissances liées à la fois au domaine de<br />

l’analyse de documents <strong>et</strong> au(x) métier(s) concerné(s) par le document. Enfin,<br />

les systèmes complètement automatiques étant encore du domaine de la recherche<br />

à long terme pour des problématiques difficiles telles que l’analyse de<br />

plans ou de cartes, des interactions fortes avec la communauté de l’Interaction<br />

Homme Machine (IHM) sont fondamentales pour placer l’Homme au cœur des<br />

systèmes d’analyse. Sans aller jusqu’à une rétroconversion de grande masse de<br />

documents, une IHM adaptée sera également indispensable quand il s’agira de<br />

dialoguer avec un système qui cherchera à interpréter une image acquise avec<br />

un scanner ou un appareil photo.


tel-00671168, version 1 - 8 Oct 2012<br />

Image preprocessing<br />

Block segmentation and segmentation<br />

Physical layout analysis<br />

Logical layout analysis<br />

Language identification and OCR<br />

ASCII Transcription<br />

Image conversion<br />

Line separation<br />

Image preprocessing<br />

Word segmentation<br />

Word recognition<br />

Linguistic postprocessing<br />

ASCII Transcription<br />

Lexicon<br />

corpus<br />

Binarization<br />

Text elimination<br />

41<br />

Thin/thick layers separation<br />

Skel<strong>et</strong>onization<br />

Segmentation<br />

Unification<br />

Simplification<br />

Estimation<br />

Figure 2.1 – Quelques chaînes typiques d’analyse d’images de documents respectivement<br />

dédiées à l’analyse de documents structurés [56], à la reconnaissance<br />

de textes manuscrits [114] <strong>et</strong> à la vectorisation de documents graphiques<br />

[92].<br />

Les travaux qui sont abordés dans c<strong>et</strong>te habilitation sont à la confluence de<br />

plusieurs de ces domaines de recherche. Ils concernent deux aspects principaux.<br />

Le premier est relatif à la reconnaissance structurelle de formes, en proposant<br />

deux contributions liées respectivement à la classification supervisée de graphes<br />

[170] <strong>et</strong> à la recherche d’isomorphismes de sous-graphes [31]. Le second concerne<br />

la prise en compte d’objectifs multiples en analyse d’images de documents, tant<br />

pour l’évaluation des performances des systèmes que pour leur optimisation [52,<br />

130]. Dans les deux cas, les travaux sont appliqués à des problèmes d’analyse<br />

de documents, pour la reconnaissance <strong>et</strong> la localisation de symboles <strong>et</strong> pour la<br />

reconnaissance de courriers manuscrits.<br />

Nous proposons ci-après de faire une synthèse de ces contributions <strong>et</strong> de nos<br />

Unstability


tel-00671168, version 1 - 8 Oct 2012<br />

42 Chapitre 2. Introduction générale<br />

perspectives dans ces domaines, en positionnant celles-ci par rapport à l’état de<br />

l’art des différentes problématiques abordées. Après c<strong>et</strong>te introduction, c<strong>et</strong>te<br />

synthèse scientifique est organisée autour de trois chapitres.<br />

Dans le chapitre 3, nous nous intéressons plus particulièrement à la reconnaissance<br />

structurelle de formes appliquée à l’analyse de documents graphiques.<br />

Deux problématiques fondamentales de ce domaine sont d’abord abordées indépendamment<br />

de l’application. La première concerne la classification supervisée<br />

de graphes, <strong>et</strong> plus particulièrement la définition de nouveaux prototypes perm<strong>et</strong>tant<br />

d’exploiter de façon efficace des méthodes du type k Plus Proches<br />

Voisins (kPPV). La seconde est celle de la recherche d’isomorphismes de sousgraphes<br />

tolérants aux erreurs, que nous avons abordée par la programmation<br />

linéaire en nombres entiers. Pour chacun de ces aspects, le problème est formalisé,<br />

l’état de l’art est décrit, <strong>et</strong> nos propositions sont discutées <strong>et</strong> positionnées<br />

par rapport à l’existant. Puis, dans la section suivante, nous présentons des applications<br />

de ces propositions à l’analyse d’images de documents graphiques, <strong>et</strong><br />

plus particulièrement pour la reconnaissance <strong>et</strong> la localisation de symboles. La<br />

dernière section de ce chapitre dresse un bilan de ces contributions <strong>et</strong> présente<br />

des problèmes ouverts relatifs à ces travaux.<br />

Dans le chapitre 4, nous partons du constat que la plupart des systèmes<br />

réels complexes, comme le sont les systèmes d’analyse de documents, m<strong>et</strong>tent<br />

en jeu des objectifs multiples qui nécessitent le choix de compromis. Nous proposons<br />

donc d’illustrer à partir de quelques problèmes liés à l’analyse d’images<br />

de documents les apports de l’optimisation multiobjectif. Une présentation<br />

succincte du domaine de l’optimisation multiobjectif est d’abord proposée, <strong>et</strong><br />

un état de l’art des approches perm<strong>et</strong>tant de résoudre de tels problèmes est<br />

présenté. Puis, trois contributions sont décrites. La première est une contribution<br />

propre au domaine de l’optimisation multiobjectif. Nous y proposons<br />

un algorithme pour aborder ces problèmes avec la technique des essaims particulaires.<br />

Puis, les deux contributions suivantes concernent des travaux pour<br />

lesquels nous avons tiré parti de l’intégration d’objectifs multiples en analyse<br />

de documents <strong>et</strong> en apprentissage. Le chapitre se termine par une discussion<br />

sur c<strong>et</strong> apport <strong>et</strong> sur les perspectives directement ouvertes par ces travaux.<br />

Enfin, dans le chapitre 5, nous synthétisons d’abord les perspectives de<br />

recherche à court <strong>et</strong> moyen terme évoquées dans les chapitres 3 <strong>et</strong> 4. Puis,<br />

nous exposons nos perspectives à plus long terme, en soulignant la nécessaire<br />

interdisciplinarité en analyse de documents. Nous y abordons également la<br />

convergence de nos travaux entre analyse de documents <strong>et</strong> recherche d’information.


tel-00671168, version 1 - 8 Oct 2012<br />

Chapitre 3<br />

<strong>Documents</strong> <strong>et</strong> graphes<br />

3.1 Introduction<br />

Les graphes sont des structures de données fréquemment exploitées pour la<br />

représentation d’entités complexes. Dans une représentation à base de graphes,<br />

les nœuds <strong>et</strong> leurs étiqu<strong>et</strong>tes décrivent des obj<strong>et</strong>s <strong>et</strong> leurs propriétés, tandis que<br />

les arcs <strong>et</strong> leurs étiqu<strong>et</strong>tes décrivent les relations entre ces obj<strong>et</strong>s. Les graphes<br />

perm<strong>et</strong>tent ainsi de dépasser certaines limites inhérentes à une représentation<br />

vectorielle des données telles que (i) la taille fixe, généralement imposée par<br />

l’utilisation de classifieurs statistiques, (ii) l’impossibilité de modéliser naturellement<br />

des relations entre composants du vecteur. Un graphe perm<strong>et</strong> au<br />

contraire de décrire non seulement les propriétés d’un obj<strong>et</strong>, mais aussi les relations<br />

binaires (spatiales, temporelles, conceptuelles. . . ) entre ses différentes<br />

parties. Parmi ces relations, citons le concept très important de sous-graphes,<br />

qui perm<strong>et</strong> d’envisager la recherche de sous-structures au sein d’un graphe, <strong>et</strong><br />

dont les implications importantes en analyse de documents seront soulignées<br />

en 3.4.1. Par ailleurs, comme nous le verrons dans ce chapitre, les graphes ne<br />

sont pas a priori contraints à une taille donnée, le nombre de nœuds <strong>et</strong> d’arcs<br />

n’étant théoriquement pas limité par les outils exploitant ces représentations.<br />

Grâce à ce pouvoir représentationnel, couplé à l’augmentation de la puissance<br />

de calcul des ordinateurs, les représentations structurelles sont devenues<br />

de plus en plus populaires dans de nombreux domaines d’application comme<br />

la biologie, la chimie, la vision par ordinateur, l’analyse de textes ou encore<br />

la reconnaissance de formes. À titre d’illustration, en 2004, Conte <strong>et</strong> al. décrivaient<br />

dans [62] plus de 160 articles ayant trait aux outils d’appariement de<br />

graphes <strong>et</strong> à leur application dans le domaine de la reconnaissance de formes.<br />

Un comité technique de l’IAPR, le TC 15 6 , <strong>et</strong> une conférence internationale<br />

(Graph based Representations in Pattern Recognition - GbRPR) sont même<br />

spécifiquement dédiés aux représentations à base de graphe dans le domaine<br />

de la reconnaissance de formes. Dans ce contexte, les graphes ont trouvé un<br />

nombre considérable d’applications dans le domaine de l’analyse de documents,<br />

comme en témoigne l’état de l’art proposé tout récemment par Horst Bunke<br />

<strong>et</strong> Kaspar Riesen dans [42]. Ils sont par exemple exploités pour représenter<br />

des symboles [127, 206, 128, 125], des tableaux [167], la structure de docu-<br />

6. http ://www.greyc.ensicaen.fr/iapr-tc15/<br />

43


tel-00671168, version 1 - 8 Oct 2012<br />

44 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

ments [132, 126], des caractères manuscrits [134, 48] ou encore des équations<br />

mathématiques [215]. La figure 3.1 illustre quelques applications d’analyse de<br />

documents s’appuyant sur des représentations à base de graphes.<br />

Figure 3.1 – Trois exemples de représentations à base de graphes extraites<br />

sur des images de documents pour des applications respectivement dédiées à la<br />

reconnaissance de symboles [18], la reconnaissance de chiffres manuscrits [48]<br />

<strong>et</strong> l’analyse de la structure physique de documents [16].<br />

Avec c<strong>et</strong>te émergence des représentations structurelles dans le domaine de<br />

l’analyse de documents ou dans celui de la reconnaissance de formes en général,<br />

les problématiques liées aux outils de traitement des graphes ont connu un essor<br />

ou un regain d’intérêt important. Parmi les suj<strong>et</strong>s de recherche autour desquels<br />

de nombreux travaux sont en cours actuellement, on peut citer la fouille de<br />

graphe [118, 101], la classification supervisée [14, 153, 133], le clustering [216,<br />

164] ou encore la recherche d’isomorphismes de graphes ou de sous-graphes<br />

[65].<br />

Dans ce chapitre, nous abordons certaines de ces problématiques liées à<br />

l’analyse de graphes. Nos contributions dans ce domaine y sont présentées,<br />

justifiées <strong>et</strong> positionnées par rapport à l’existant. Dans les deux premières sections,<br />

nous présentons deux problèmes fondamentaux abordés aux cours de<br />

nos travaux. Le premier concerne la classification supervisée de graphes, <strong>et</strong><br />

plus particulièrement la génération de nouveaux prototypes utilisés avec un<br />

classifieur de type k Plus Proches Voisins (kPPV) [170]. Un algorithme génétique<br />

manipulant des graphes pour générer ces prototypes est proposé. Le


tel-00671168, version 1 - 8 Oct 2012<br />

3.2. Classification de graphes 45<br />

second problème est celui de la recherche d’isomorphismes de sous-graphes tolérants<br />

aux erreurs, que nous avons abordé par la programmation linéaire en<br />

nombres entiers [31]. Pour chacun de ces aspects, nous décrivons le problème<br />

<strong>et</strong> dressons une synthèse de la littérature s’y reportant, avant de présenter<br />

synthétiquement notre contribution <strong>et</strong> de discuter des résultats obtenus. Dans<br />

la section suivante, nous présentons quelques applications de ces propositions<br />

pour l’analyse d’images de documents, plus particulièrement pour la reconnaissance<br />

<strong>et</strong> la localisation de symboles dans des documents graphiques. Enfin, la<br />

dernière section dresse un bilan de ces contributions <strong>et</strong> présente des problèmes<br />

ouverts relatifs à ces travaux.<br />

3.2 Classification de graphes<br />

3.2.1 Définition du problème <strong>et</strong> revue de l’existant<br />

La classification supervisée de graphes est une problématique ayant émergé<br />

récemment avec le développement des représentations structurelles. Un algorithme<br />

de classification de graphes a pour but d’affecter une classe à un graphe<br />

inconnu, en utilisant une fonction généralement issue d’un processus d’apprentissage.<br />

Plus formellement, on peut définir l’apprentissage d’une telle fonction<br />

de la façon suivante :<br />

Définition 1. Soit χ un ensemble de graphes étiqu<strong>et</strong>és. Soit un ensemble<br />

d’apprentissage L = {〈gi, ci〉} M i=1 , où les gi ∈ χ sont des graphes étiqu<strong>et</strong>és<br />

<strong>et</strong> où ci ∈ C est la classe de gi parmi les N classes présentes dans la base<br />

d’apprentissage. L’apprentissage d’un classifieur de graphes consiste à induire<br />

de L une fonction f(g) : χ → C attribuant une classe à un graphe g inconnu.<br />

Les algorithmes de classification de graphes sont utilisés dans différents domaines,<br />

allant de l’analyse de séquences biologiques (ADN, ARN) à l’analyse<br />

de données semi-structurées (XML, HTML), en passant par la prédiction de<br />

propriétés de composants chimiques <strong>et</strong> le traitement du langage naturel [116].<br />

Dans la littérature, deux principales familles d’approches peuvent être distinguées<br />

pour résoudre un problème de classification de graphes. La première<br />

famille consiste à proj<strong>et</strong>er les graphes dans un espace vectoriel, dans le but<br />

de bénéficier de la richesse <strong>et</strong> de la robustesse des méthodes d’apprentissage<br />

statistique. La seconde famille repose sur la règle des k Plus Proches Voisins<br />

(kPPV), en s’appuyant sur une mesure de dissimilarité spécifique aux graphes.<br />

Les méthodes à base de projection Motivés par les progrès considérables<br />

réalisés en apprentissage statistique, un nombre important de travaux reposant<br />

sur des projections ont été publiés ces dix dernières années. Parmi les méthodes<br />

proposées, certaines calculent explicitement un vecteur de caractéristiques numériques<br />

décrivant le graphe (nombre de nœuds ou d’arcs d’un label donné,<br />

nombre de cycles, degrés des nœuds. . . ). C’est le cas, par exemple, dans les<br />

travaux décrits dans [132]. C<strong>et</strong>te méthode, bien que très rapide, souffre de la


tel-00671168, version 1 - 8 Oct 2012<br />

46 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

perte d’information structurelle générée par la projection <strong>et</strong> de sa non bijectivité.<br />

Deux graphes différents peuvent ainsi avoir la même description. C<strong>et</strong>te<br />

approche est étendue dans [191] par l’énumération de sous-graphes appartenant<br />

à un lexique exhaustif des graphes non isomorphes, ce qui perm<strong>et</strong> de mieux<br />

prendre en compte la topologie du graphe. D’autres méthodes dans c<strong>et</strong>te catégorie<br />

s’appuient sur la théorie spectrale des graphes, qui consiste à exploiter<br />

les valeurs propres <strong>et</strong> les vecteurs propres de la matrice d’adjacence [135] ou<br />

de la matrice laplacienne normalisée [212, 174]. Ces méthodes ont obtenu des<br />

succès importants dans le domaine de l’analyse d’images. Récemment sont également<br />

apparues des méthodes, parfois appelées graph embedding, consistant à<br />

représenter un graphe par un vecteur de mesures de dissimilarités calculées par<br />

rapport à un ensemble donné de graphes [177]. Ces vecteurs numériques sont<br />

ensuite utilisés pour l’apprentissage d’un classifieur statistique. De telles méthodes<br />

ont l’avantage de pouvoir traiter n’importe quel type de graphes, sous<br />

réserve de disposer d’une mesure de dissimilarité adéquate. Enfin, citons dans<br />

c<strong>et</strong>te catégorie les méthodes à noyaux, sur lesquelles se concentrent beaucoup<br />

de travaux depuis quelques années. Initialement proposées par [85] <strong>et</strong> [108], ces<br />

approches ne proj<strong>et</strong>tent pas explicitement les graphes dans un espace vectoriel<br />

mais reposent sur le calcul d’un noyau qui exprime la similarité entre graphes<br />

<strong>et</strong> qui est ensuite utilisé comme un produit scalaire. De très nombreuses contributions<br />

relatives à la proposition de noyaux sont disponibles dans la littérature.<br />

Celles-ci se basent sur des marches aléatoires dans les graphes, des chemins,<br />

des cycles ou encore des sous-arbres. Une bonne revue de ces noyaux est disponible<br />

dans [42]. Ces noyaux sont ensuite exploités par des machines à noyaux<br />

telles que les SVM (Support Vector Machine) ou les KPCA (Kernel Principal<br />

Component Analysis) [108, 109, 197, 137, 138, 209].<br />

Les méthodes à base de kPPV Ce type de méthode est souvent choisi<br />

pour sa simplicité de mise en œuvre <strong>et</strong> son bon comportement asymptotique.<br />

De telles approches consistent à classifier les graphes en appliquant la règle des<br />

k Plus Proches Voisins exploitant une mesure de dissimilarité entre graphes.<br />

Ces méthodes souffrent toutefois des limitations inhérentes à la méthode des<br />

kPPV, à savoir sa complexité combinatoire, son besoin de stockage important<br />

<strong>et</strong> sa sensibilité aux exemples bruités. Une solution souvent adoptée pour pallier<br />

ces défauts consiste, comme pour certaines des méthodes précédemment évoquées<br />

pour la projection, à réduire l’ensemble de graphes utilisés pour les kPPV<br />

par l’intermédiaire d’un processus d’extraction de prototypes (parfois appelés<br />

représentants). On parle alors de méthode des k plus proches prototypes (k<br />

Nearest Prototype Classifier - kNPC). Une telle stratégie n’est évidemment<br />

pas propre au problème de classification de graphes. Elle est également exploitée<br />

pour comparer des contours dans des applications de vision [58] ou pour<br />

la reconnaissance statistique de formes [69, 91, 50, 26]. Dans le domaine de<br />

la reconnaissance structurelle qui nous intéresse ici, on peut citer les travaux<br />

présentés dans [103] qui exploitent des prototypes basés sur la présence de<br />

sous-graphes communs, les approches proposées dans [32] <strong>et</strong> [40] qui crèent des<br />

représentations appelées super-graphs ou les travaux de [139] qui consistent<br />

à générer des creative prototypes en appliquant à un graphe germe une sé


tel-00671168, version 1 - 8 Oct 2012<br />

3.2. Classification de graphes 47<br />

rie d’opérations d’édition pour générer les prototypes. La dernière approche à<br />

mentionner, probablement la plus fréquemment utilisée, est celle consistant à<br />

exploiter les graphes médians en tant que prototypes [79, 41, 104, 78, 93]. Le<br />

calcul de tels graphes repose sur la minimisation de la somme des distances<br />

du graphe recherché à l’ensemble des graphes d’une classe donnée. Deux types<br />

de graphes médians sont proposés dans la littérature : les graphes médians<br />

d’ensemble (Définition 2) <strong>et</strong> les graphes médians généralisés (Définition 3). Ils<br />

diffèrent en fonction de l’espace dans lequel ils sont calculés. Dans le premier<br />

cas, l’espace de recherche est limité à l’ensemble initial de graphes. On parle<br />

alors de sélection de prototypes. Dans le second cas, ils sont calculés dans un<br />

ensemble infini contenant tous les graphes pouvant être construits à partir de<br />

l’ensemble des labels des graphes initiaux. On parle alors de génération de<br />

prototypes. Les graphes médians généralisés se sont montrés particulièrement<br />

efficaces pour modéliser une classe de graphes <strong>et</strong> pour rej<strong>et</strong>er des exemples<br />

bruités [104].<br />

Définition 2. Soit d(., .) une distance ou une mesure de dissimilarité entre<br />

deux graphes. Soit S = {g1, g2, . . . , gn} un ensemble de graphes. Le graphe<br />

médian d’ensemble (s<strong>et</strong> median graph - smg) de S est défini par :<br />

smg = arg min<br />

g∈S<br />

n<br />

d(g, gi) (3.1)<br />

Définition 3. Soit d(., .) une distance ou une mesure de dissimilarité entre<br />

deux graphes. Soit S = {g1, g2, . . . , gn} un ensemble de graphes. Soit U l’ensemble<br />

infini des graphes qui peuvent être construits à partir des labels de S. Le<br />

graphe médian généralisé (generalized median graph - gmg) du sous-ensemble<br />

S est défini par :<br />

gmg = arg min<br />

g∈U<br />

i=1<br />

n<br />

d(g, gi) (3.2)<br />

Dans les deux cas, lorsqu’ils sont utilisés comme échantillons d’apprentissage<br />

pour un processus de classification, ces prototypes ne tiennent compte que<br />

de la distribution intra-classe des données. Ce sont ainsi des prototypes davantage<br />

modélisants que discriminants. Dans nos travaux, nous avons étendu la<br />

notion de graphe médian par la proposition de nouveaux types de prototypes<br />

appelés graphes discriminants. Les définitions de ces graphes, ainsi que l’algorithme<br />

perm<strong>et</strong>tant de les générer sont décrits dans la sous-section suivante.<br />

3.2.2 Contributions<br />

Pour pallier le défaut des approches modélisantes, nous avons proposé dans<br />

[170] l’utilisation de prototypes discriminants (discriminative graphs - dg) pour<br />

la classification de graphes. La différence principale avec les graphes médians<br />

réside dans le critère utilisé pour générer les prototypes. Dans le cas des dg, ce<br />

sont les performances de classification évaluées sur un ensemble de graphes de<br />

i=1


tel-00671168, version 1 - 8 Oct 2012<br />

48 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

validation qui sont utilisées pour optimiser les graphes prototypes. L’information<br />

exploitée pour générer les prototypes dépasse ainsi la simple connaissance<br />

de la distribution intra-classe des données. Par analogie avec la terminologie<br />

utilisée dans la communauté de la sélection de caractéristiques, nous proposons<br />

donc une approche de type wrapper, qui inclut le critère final de performance<br />

dans le processus de sélection. Les prototypes sont définis de la façon suivante :<br />

Définition 4. Soit N le nombre de classes d’un ensemble d’apprentissage<br />

L. Soit T un ensemble de validation <strong>et</strong> soit ∆ T , {gi} N <br />

i=1 une fonction calculant<br />

le taux d’erreur obtenu par un classifieur 1-PPV sur T en utilisant<br />

les graphes prototypes {gi} N i=1 ⊂ L comme échantillons d’apprentissage. L’ensemble<br />

des S<strong>et</strong> Discriminative Graphs (SDG), composé des sdgi de chaque<br />

classe est donné par :<br />

SDG = {sdg1, sdg2, . . . , sdgN}<br />

= arg min<br />

{gi} N i=1⊂L ∆(T , {gi} N i=1) (3.3)<br />

Définition 5. Soit N le nombre de classes d’un ensemble d’apprentissage<br />

L. Soit U l’ensemble infini des graphes qui peuvent être construits à partir des<br />

labels de L. Soit T un ensemble de validation <strong>et</strong> soit ∆ T , {gi} N <br />

i=1 une fonction<br />

calculant le taux d’erreur obtenu par un classifieur 1-PPV sur T en utilisant<br />

les graphes prototypes {gi} N i=1 ⊂ U comme échantillons d’apprentissage. Alors<br />

l’ensemble des Generalized Discriminative Graphs GDG composé des gdgi de<br />

chaque classe est donné par :<br />

GDG = {gdg1, gdg2, . . . , gdgN}<br />

= arg min<br />

{gi} N i=1⊂U ∆(T , {gi} N i=1) (3.4)<br />

Ces deux définitions ont été étendues à la possibilité de générer plusieurs<br />

prototypes par classes, afin de mieux décrire la distribution des données.<br />

Définition 6. Soit N le nombre de classes d’un ensemble d’apprentissage<br />

L. Soit U l’ensemble infini des graphes qui peuvent être construits à<br />

partir des labels de L. Soit M le nombre de prototypes par classe. Soit T<br />

un ensemble de validation <strong>et</strong> soit ∆ T , {gi} N <br />

i=1 une fonction calculant le taux<br />

d’erreur obtenu par un classifieur 1-PPV 7 sur T en utilisant les graphes prototypes<br />

{gik} N,M<br />

i=1,k=1 ⊂ U comme échantillons d’apprentissage. Alors l’ensemble<br />

MGDG composé des gdgik de chaque classe est donné par :<br />

7. Dans ce cas, il est possible de considérer un classifieur des kPPV avec k > 1, <strong>et</strong> ainsi<br />

intégrer du rej<strong>et</strong>.


tel-00671168, version 1 - 8 Oct 2012<br />

3.2. Classification de graphes 49<br />

MGDG = {gdg11, ..., gdg1M, ..., gdgN1, ..., gdgNM}<br />

<br />

T , {gik} N,M<br />

<br />

i=1,k=1<br />

= arg min<br />

{gik} N,M<br />

i=1,k=1⊂U ∆<br />

(3.5)<br />

La recherche des prototypes ainsi définis est un processus d’optimisation.<br />

Dans [170], nous avons proposé de traiter ce problème d’optimisation par un<br />

Algorithme Génétique (AG) [87] dédié à la manipulation de graphes. C<strong>et</strong>te<br />

spécialisation originale a reposé sur les points suivants :<br />

– le codage des individus représentant les solutions possibles du problème<br />

d’optimisation. Pour tous les types de prototypes proposés dans les définitions<br />

précédentes, un individu est représenté par un ensemble de m×N<br />

gènes correspondant aux graphes prototypes. Dans le cas de prototypes<br />

d’ensemble, les gènes sont simplement les indices des graphes sélectionnés<br />

dans l’ensemble d’apprentissage. Dans le cas des graphes généralisés,<br />

les gènes correspondent aux matrices d’adjacence des graphes ;<br />

– une fonction évaluant le score d’un individu. Ces fonctions sont directement<br />

issues des définitions précédentes. Notons que quel que soit le type<br />

de prototype considéré, les calculs reposent sur un calcul de dissimilarité<br />

entre graphes. Dans [170], nous utilisons la distance proposée par [132],<br />

mais l’approche peut exploiter n’importe quel type de distance (la distance<br />

d’édition [39, 83] ou ses approximations [176], des distances basées<br />

sur le plus grand sous-graphe commun [43], des distances basées sur l’appariement<br />

de sous-graphes [172] ou des distances basées sur des unions<br />

de graphes [211]. . . ) ;<br />

– une stratégie de sélection. L’objectif de la sélection dans les AG est de<br />

sélectionner des individus pour former la génération suivante. Nous utilisons<br />

dans ce cadre une roue de loterie biaisée, en y ajoutant un mécanisme<br />

d’élitisme dans lequel les µ meilleurs individus sont préservés afin<br />

de garantir la convergence de l’algorithme ;<br />

– des opérateurs génétiques dédiés. Le croisement utilisé pour tous les types<br />

de prototypes est un opérateur classique consistant à effectuer un échange<br />

de gènes entre individus à croiser, en respectant la distribution par classe.<br />

La mutation quant à elle, diffère en fonction des prototypes extraits. Dans<br />

le cas des prototypes d’ensemble, la mutation correspond simplement à<br />

changer l’indice d’un graphe prototype par un autre de la même classe.<br />

Dans le cas des prototypes généralisés, nous avons proposé un opérateur<br />

original consistant à appliquer aléatoirement un ensemble d’opérations<br />

d’édition (suppression, ajout ou modification des nœuds <strong>et</strong> des arcs) sur<br />

le graphe. C<strong>et</strong> opérateur est détaillé dans [170] <strong>et</strong> illustré par la figure<br />

3.2.<br />

Toutes ces spécificités sont précisément décrites <strong>et</strong> illustrées dans l’annexe<br />

E. Les performances que perm<strong>et</strong>tent d’obtenir ces différents types de prototypes<br />

ont été évaluées sur quatre bases de graphes proposées dans la com


tel-00671168, version 1 - 8 Oct 2012<br />

50 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

(b) Vertex del<strong>et</strong>ion<br />

(d) Vertex insertion<br />

1 2 3<br />

1 X a<br />

2 Y b<br />

3 Y c<br />

(a) Initial graph<br />

1 2 3 4 5<br />

1 X Z a<br />

2 Y b<br />

3 Y c<br />

4 W a<br />

5 c<br />

1 2 3 4<br />

1 X Z a<br />

2 Y b<br />

3 Y c<br />

4 W b<br />

(f) Vertex substitution<br />

1 2 3 4<br />

1 X Z a<br />

2 Y b<br />

3 Y c<br />

4 W a<br />

(c) Edge del<strong>et</strong>ion<br />

(e) Edge insertion<br />

(g) Edge substitution<br />

1 2 3 4<br />

1 X a<br />

2 Y b<br />

3 Y c<br />

4 W a<br />

1 2 3 4<br />

1 X Z a<br />

2 Y b<br />

3 Y Z c<br />

4 W a<br />

1 2 3 4<br />

1 X Z a<br />

2 Y b<br />

3 Z c<br />

4 W a<br />

Figure 3.2 – Illustration de l’opérateur de mutation proposé pour les graphes<br />

généralisés, tirée de [170]. La première ligne illustre un graphe de départ <strong>et</strong><br />

sa matrice d’adjacence. La dernière colonne de la matrice contient le label des<br />

nœuds. Les sous-figures (b) à (g) présentent les différentes opérations d’édition<br />

possibles, avec leurs répercussions sur le graphe <strong>et</strong> sur la matrice.


tel-00671168, version 1 - 8 Oct 2012<br />

3.2. Classification de graphes 51<br />

% smg gmg sdg gdg<br />

Rec σ Rec σ Rec σ Rec σ<br />

Base A 33.75 0.0 36.00 1.52 66.10 0.981 66.67 1.59<br />

Base B 62.5 0.0 75 0.0 71.42 2.5 83.39 2.5<br />

Base C 86.92 0.0 85.48 2.05 86.58 0.596 90.70 0.59<br />

Base D 69.61 0.0 69.14 0.34 69.67 0.67 71.24 1.47<br />

Table 3.1 – Résultats obtenus par les différents prototypes pour M = 1.<br />

munauté. Les expériences ont d’abord concerné l’étude de la convergence de<br />

l’algorithme, en comparant les smg <strong>et</strong> sdg obtenus par l’algorithme proposé<br />

avec ceux déterminés par une recherche exhaustive. Les résultats ont montré<br />

que moins de 50 générations de l’AG étaient nécessaires pour obtenir des résultats<br />

identiques. Puis, les performances obtenues par les différents prototypes<br />

ont été comparées pour M = 1. Les résultats obtenus sont présentés dans le<br />

tableau 3.1. Ces résultats démontrent tout d’abord que les prototypes généralisés<br />

(gmg,gdg) sont plus performants que les prototypes d’ensemble (smg,sdg).<br />

Par ailleurs, ils confirment également la supériorité des prototypes discriminants<br />

sur les prototypes modélisants.<br />

Nous avons également comparé les performances obtenues par les MGDG<br />

à celles obtenues par un classifieur 1-PPV sur l’ensemble de la base d’apprentissage.<br />

Les résultats (tableau 3.2) ont prouvé qu’en augmentant le nombre de<br />

prototypes par classe, il était possible de dépasser les performances de l’algorithme<br />

de référence avec les MGDG. Cela démontre qu’exploiter les performances<br />

sur un ensemble de validation est un critère plus adapté pour la génération<br />

de prototypes que celui généralement utilisé pour calculer des graphes<br />

médians. Une analyse de la complexité temporelle est également proposée dans<br />

l’annexe E.<br />

Enfin, c<strong>et</strong>te contribution a aussi permis de m<strong>et</strong>tre en exergue le fait que les<br />

algorithmes génétiques pouvaient être adaptés pour traiter des problèmes manipulant<br />

des graphes, ce qui, à notre connaissance, est rare dans la littérature<br />

[37, 136].<br />

BaseA BaseB BaseC BaseD<br />

gdg 1-NN gdg 1-NN gdg 1-NN gdg 1-NN<br />

Red (%) 92.52 0 50.71 0 86.67 0 76.3 0<br />

Rec (%) 86.34 85.16 97.14 96.43 99.71 99.47 91.04 90.16<br />

<br />

Table 3.2 – Taux de réduction (Red = 100 1 − m×N<br />

<br />

|T r∪T v| <strong>et</strong> taux de reconnaissance<br />

(Rec) obtenus par les gdg <strong>et</strong> un classifieur 1PPV sur la base<br />

d’apprentissage complète T r ∪ T v.<br />

L’approche proposée dans c<strong>et</strong>te section perm<strong>et</strong> ainsi de classifier des graphes.<br />

Toutefois, dans le contexte de l’analyse d’images de documents, un tel algorithme<br />

ne peut être appliqué que sur une entité isolée représentée par un<br />

graphe. Il faut donc avoir préalablement « segmenté » le graphe pour pouvoir


tel-00671168, version 1 - 8 Oct 2012<br />

52 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

exploiter le classifieur. L’approche ne perm<strong>et</strong> donc pas de résoudre l’un des<br />

principaux problèmes relatifs à l’analyse structurelle de documents, à savoir<br />

celui de la recherche d’occurrences d’obj<strong>et</strong>s présents dans un document compl<strong>et</strong>.<br />

La section suivante aborde ce problème de localisation.<br />

3.3 Isomorphismes de sous-graphes<br />

3.3.1 Définition du problème <strong>et</strong> revue de l’existant<br />

Dans le domaine de l’analyse de documents ou plus généralement de la<br />

vision par ordinateur, les graphes représentent généralement des obj<strong>et</strong>s à localiser<br />

dans un document ou une image. Pour ce faire, il est nécessaire d’avoir<br />

recours à des techniques d’appariement de graphes qui établissent une correspondance<br />

entre les somm<strong>et</strong>s de deux graphes. Différents problèmes d’appariement<br />

de graphes existent, tels que l’isomorphisme de graphes, l’isomorphisme<br />

de sous-graphes, la recherche du plus grand sous-graphe commun ou la distance<br />

d’édition entre graphes. Nous nous intéressons ci-dessous au problème<br />

de l’isomorphisme de sous-graphes qui repose sur les définitions suivantes.<br />

Définition 7. Un graphe attribué G est un 4-tuple G = (V, E, µ, ξ) tel que :<br />

– V est l’ensemble des nœuds de G ;<br />

– E est l’ensemble des arcs de G, i.e. un ensemble de paires e = (v1, v2)<br />

avec v1 ∈ V <strong>et</strong> v2 ∈ V ;<br />

– µ : V → LV est une fonction affectant un label à un nœud, LV étant<br />

l’ensemble des labels possibles pour les nœuds ;<br />

– ξ : E → LE est une fonction affectant un label à un arc, LE étant<br />

l’ensemble des labels possibles pour les arcs.<br />

Définition 8. Soit un graphe G = (V, E, µ, ξ), un sous-graphe de G est un<br />

graphe S = (VS, ES, µS, ξS) tel que :<br />

– VS ⊆ V ;<br />

– ES ⊆ E ;<br />

– µS <strong>et</strong> ξS sont les restrictions de µ <strong>et</strong> ξ à VS <strong>et</strong> ES, i.e. µS(v) = µ(v) <strong>et</strong><br />

ξS(e) = ξ(e).<br />

Notons qu’il existe des variantes de c<strong>et</strong>te définition. En particulier, un sousgraphe<br />

S de G est appelé sous-graphe induit si ES = E ∩ (VS × VS). Cela<br />

implique que S contient tous les arcs e ∈ E qui joignent des nœuds de S.<br />

Définition 9. Une fonction bijective f : V → V ′ est un isomorphisme<br />

entre un graphe G = (V, E, µ, ξ) <strong>et</strong> un graphe G ′ = (V ′ , E ′ , µ ′ , ξ ′ ) si :<br />

– µ(v) = µ ′ (f (v)) pour tout v ∈ V ;<br />

– pour tout arc e = (v1, v2) ∈ E, il existe un arc e ′ = (f(v1), f(v2)) ∈ E ′<br />

tel que ξ(e) = ξ ′ (e ′ ), <strong>et</strong> pour tout e ′ = (v ′ 1 , v′ 2 ) ∈ E′ , il existe un arc


tel-00671168, version 1 - 8 Oct 2012<br />

3.3. Isomorphismes de sous-graphes 53<br />

e = (f −1 (v ′ 1 ), f −1 (v ′ 2 )) ∈ E′ tel que ξ(e) = ξ ′ (e ′ ).<br />

Définition 10. Une fonction injective f : V → V ′ est un isomorphisme de<br />

sous-graphe d’un graphe G = (V, E, µ, ξ) dans un graphe G ′ = (V ′ , E ′ , µ ′ , ξ ′ )<br />

s’il existe un sous-graphe S ⊆ G ′ tel que f est un isomorphisme de graphe de<br />

G vers S :<br />

– µ(v) = µ (f (v)) pour tout v ∈ V ;<br />

– pour tout arc e = (v1, v2) ∈ E, il existe un arc e ′ = (f(v1), f(v2)) ∈ E ′<br />

tel que ξ(e) = ξ ′ (e ′ ).<br />

Les définitions 9 <strong>et</strong> 10 caractérisent des appariements exacts, ainsi dénommés<br />

pour deux raisons. D’une part parce que la topologie des deux graphes (ou<br />

sous-graphes) doit être exactement la même, d’autre part parce que l’appariement<br />

nécessite une égalité stricte des labels.<br />

De nombreux algorithmes ont été proposés dans la littérature pour résoudre<br />

de tels problèmes de recherche d’isomorphismes exacts. La plupart sont basés<br />

sur une recherche arborescente associée à une procédure de r<strong>et</strong>our en arrière.<br />

Les approches diffèrent généralement (i) en fonction de l’ordre dans lequel les<br />

appariements partiels sont visités, par exemple en ajoutant une vérification de<br />

la cohérence des arcs [208] <strong>et</strong> (ii) en fonction des heuristiques qui sont utilisées<br />

pour élaguer l’arbre [64, 65, 193]. Ces heuristiques consistent à analyser<br />

les ensembles de nœuds adjacents à ceux contenus dans l’appariement courant.<br />

Il existe également quelques alternatives à ces recherches arborescentes,<br />

comme par exemple l’algorithme NAUTY proposé dans [144] qui s’appuie sur<br />

la théorie des groupes. Un état de l’art très compl<strong>et</strong> <strong>et</strong> détaillé sur les méthodes<br />

d’appariement exact est proposé dans [62].<br />

Toutes ces approches souffrent de deux limitations principales. La première<br />

est leur complexité algorithmique. À part dans le cas de l’isomorphisme exact<br />

de graphes, pour lequel il n’a pas été montré qu’il appartenait aux problèmes<br />

NP-compl<strong>et</strong>s ; <strong>et</strong> sauf pour des applications spécifiques, tous les problèmes<br />

d’appariement de graphes sont NP-compl<strong>et</strong>s <strong>et</strong> ont une complexité temporelle<br />

exponentielle dans le pire des cas [84]. Par ailleurs, le second <strong>et</strong> principal défaut<br />

de ces approches dans le cadre de nos travaux est leur sensibilité aux bruits<br />

<strong>et</strong> aux distorsions. En eff<strong>et</strong>, dans le domaine de l’analyse de documents, les<br />

graphes représentent en général des obj<strong>et</strong>s qui peuvent être bruités ou déformés.<br />

Dans ce cas, les graphes résultants peuvent voir leur topologie ou leur<br />

étiqu<strong>et</strong>age affectés par ce bruit. Vient alors la nécessité d’utiliser des algorithmes<br />

d’appariement tolérants aux erreurs, qui relâchent des contraintes sur<br />

le matching. Le problème de décision devient alors un problème d’optimisation<br />

dont le but est de trouver l’appariement qui minimise un coût tel que<br />

la distance d’édition [146]. Différentes alternatives ont été proposées dans la<br />

littérature pour résoudre ce problème. Certaines sont optimales, <strong>et</strong> assurent<br />

donc que l’appariement trouvé est optimal. C’est le cas des méthodes utilisant<br />

l’algorithme A ∗ combinées avec des heuristiques d’exploration de l’espace<br />

d’état. D’autres méthodes sont sous-optimales mais perm<strong>et</strong>tent de trouver des<br />

solutions dans un temps polynomial en exploitant par exemple la relaxation


tel-00671168, version 1 - 8 Oct 2012<br />

54 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

probabiliste, les réseaux de neurones ou les algorithmes génétiques. Un état de<br />

l’art très compl<strong>et</strong> de toutes ces méthodes est proposé dans [62].<br />

Un cas particulier de problème d’appariement est la situation dans laquelle<br />

les graphes à apparier doivent être structurellement isomorphes, mais pour<br />

lesquels on tolère des différences entre attributs. Nous avons appelé un tel<br />

problème celui de l’isomorphisme de sous-graphes tolérant aux substitutions.<br />

Une approche perm<strong>et</strong>tant d’aborder ces problèmes consiste à modifier les algorithmes<br />

exacts, par une redéfinition de la fonction de compatibilité entre les<br />

nœuds <strong>et</strong> les arcs. Ainsi, en définissant deux seuils (un pour les nœuds, un pour<br />

les arcs), deux nœuds (resp. arcs) sont alors considérés comme compatibles si<br />

une distance entre leurs attributs est inférieure à ce seuil. Bien sûr, la difficulté<br />

principale est alors de définir la valeurs de ces seuils.<br />

3.3.2 Contributions<br />

Dans [31], nous avons abordé le problème de recherche d’isomorphisme de<br />

sous-graphes sous l’angle de la programmation mathématique (Mathematical<br />

Programming -MP) qui fournit un ensemble de solutions pour résoudre des<br />

problèmes d’optimisation. Plus précisément, la solution r<strong>et</strong>enue a été celle de<br />

la Programmation Linéaire en Nombres Entiers (PLNE) [152, 187] qui est une<br />

restriction de la programmation mathématique perm<strong>et</strong>tant de modéliser des<br />

problèmes spécifiques, <strong>et</strong> pour laquelle de nombreux algorithmes de résolution<br />

existent <strong>et</strong> sont constamment améliorés par la communauté. Il existe ainsi de<br />

nombreux solveurs qui perm<strong>et</strong>tent de résoudre des problèmes de PLNE. Ce<br />

paradigme a été utilisé dans de très nombreux domaines, allant de l’énergie à<br />

la finance, en passant par les télécommunications ou la logistique. La PLNE est<br />

reconnue comme une des techniques les plus efficaces pour traiter des problèmes<br />

d’optimisation NP-compl<strong>et</strong>s [111, 11, 99].<br />

Un programme mathématique est une modélisation d’un problème d’optimisation<br />

sous la forme d’une fonction objectif <strong>et</strong> d’un ensemble de contraintes.<br />

Dans le cas d’un programme linéaire, la fonction objectif <strong>et</strong> les contraintes sont<br />

des combinaisons linéaires des paramètres du problème d’optimisation. Le cas<br />

spécifique de la PLNE impose en plus que les solutions recherchées soient entières.<br />

La forme générale d’un programme linéaire en nombres entiers est donc<br />

la suivante :<br />

min c<br />

x<br />

t x (3.6)<br />

sous la contrainte Ax ≤ b (3.7)<br />

x ∈ C ⊆ Z n<br />

(3.8)<br />

Dans c<strong>et</strong>te formulation, c ∈ R n , A ∈ R m.n , b ∈ R m sont les données décrivant<br />

le problème. Le vecteur x de n variables est la solution recherchée du problème,<br />

il appartient à Z n dans le cas de la programmation en nombres entiers<br />

(3.8). Les variables de A perm<strong>et</strong>tent d’exprimer des contraintes linéaires (3.7).<br />

Une solution valide pour le problème est un vecteur x tel que les contraintes<br />

(3.7) <strong>et</strong> (3.8) sont respectées. Une telle solution est dite réalisable. Trouver


tel-00671168, version 1 - 8 Oct 2012<br />

3.3. Isomorphismes de sous-graphes 55<br />

Figure 3.3 – Un exemple d’appariement. S <strong>et</strong> G contiennent chacun un arc<br />

unique, respectivement ij <strong>et</strong> kl. La solution suivante est représentée sur la<br />

figure : xi,k = 1 (resp. xj,l = 1, yij,kl = 1), i.e. i (resp. j, ij) est apparié avec<br />

k (resp. l, kl). Réciproquement, i (resp. j) n’est pas apparié avec l (resp. k),<br />

donc xi,l = 0 (resp. xj,k = 0).<br />

une solution optimale consiste alors à minimiser la fonction objectif (3.6) sur<br />

l’ensemble des solutions réalisables.<br />

La résolution d’un problème d’optimisation utilisant la programmation linéaire<br />

en nombres entiers repose donc essentiellement sur la formulation de<br />

celui-ci sous la forme d’une fonction objectif <strong>et</strong> d’un ensemble de contraintes.<br />

Pour modéliser le problème de la recherche d’isomorphisme de sous-graphes,<br />

nous avons proposé d’utiliser des variables binaires. La solution au problème<br />

prend donc ses valeurs dans {0, 1} n . Comme l’illustre la figure 3.3, deux types<br />

de variables sont définis :<br />

– pour chaque nœud i ∈ VS <strong>et</strong> pour chaque nœud k ∈ VG, une variable xi,k<br />

est définie telle que xi,k = 1 si les nœuds i <strong>et</strong> k sont appariés, 0 s’ils ne<br />

le sont pas ;<br />

– pour chaque arc ij ∈ ES <strong>et</strong> pour chaque arc kl ∈ EG, une variable yij,kl<br />

est définie telle que yij,kl = 1 si les arcs ij <strong>et</strong> kl sont appariés, 0 s’ils ne<br />

le sont pas.<br />

Formellement, c<strong>et</strong>te définition des variables du problème s’écrit donc :<br />

xi,k ∈ {0, 1} ∀i ∈ VS, ∀k ∈ VG (3.9)<br />

yij,kl ∈ {0, 1} ∀ij ∈ ES, ∀kl ∈ EG (3.10)<br />

Soient S = (VS , ES ) <strong>et</strong> G = (VG , EG ) les deux graphes à apparier. Supposons<br />

connues les fonctions de coût cV : VS × VG → R + <strong>et</strong> cE : ES × EG → R +<br />

donnant respectivement les coûts d’appariement des nœuds <strong>et</strong> des arcs telles<br />

que l’appariement de i <strong>et</strong> k (i.e. xi,k = 1) a un coût cV (i, k), alors que leur<br />

non-appariement (i.e. xi,k = 0) a un coût 0. Le coût global de l’appariement


tel-00671168, version 1 - 8 Oct 2012<br />

56 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

peut alors s’écrire comme une combinaison linéaire cV (i, k) ∗ xi,k. De façon<br />

similaire, le coût entre deux arcs ij ∈ ES <strong>et</strong> kl ∈ EG est cE(ij, kl) ∗ yij,kl. Dans<br />

ce cadre, la fonction objectif du problème d’appariement de S = (VS , ES ) avec<br />

un sous-graphe de G = (VG , EG ) peut s’écrire :<br />

min<br />

x,y<br />

⎛<br />

⎝ <br />

i∈VS k∈VG<br />

<br />

cV (i, k) ∗ xi,k + <br />

<br />

ij∈ES kl∈EG<br />

⎞<br />

cE(ij, kl) ∗ yij,kl⎠<br />

(3.11a)<br />

Naturellement, la minimisation de c<strong>et</strong>te expression n’est pas suffisante pour<br />

décrire le problème d’isomorphisme de sous-graphes, car aucune contrainte<br />

concernant le respect de la topologie n’est intégrée (le coût serait nul si aucun<br />

nœud <strong>et</strong> aucun arc n’était apparié). C<strong>et</strong> aspect est géré par l’intermédiaire des<br />

contraintes. Celles-ci, qui sont illustrées dans [31], prennent la forme suivante :<br />

<br />

kl∈EG<br />

<br />

kl∈EG<br />

<br />

xi,k = 1 ∀i ∈ VS (3.11b)<br />

k∈VG<br />

<br />

kl∈EG<br />

yij,kl = 1 ∀ij ∈ ES (3.11c)<br />

<br />

xi,k ≤ 1 ∀k ∈ VG (3.11d)<br />

i∈VS<br />

yij,kl = xi,k ∀k ∈ VG, ∀ij ∈ ES (3.11e)<br />

yij,kl = xj,l ∀l ∈ VG, ∀ij ∈ ES (3.11f)<br />

Les équations (3.9) à (3.11f) constituent le programme linéaire en nombres<br />

entiers qui est utilisé pour résoudre le problème d’isomorphisme de sous-graphes.<br />

Dès lors que la recherche d’isomorphisme est modélisée sous la forme d’un programme<br />

linéaire, il est possible de la résoudre en utilisant un solveur mathématique.<br />

Dans c<strong>et</strong>te étude, nous utilisons un solveur disponible sous licence<br />

CPL appelé SYMPHONY <strong>et</strong> décrit dans [169]. Pour résoudre une instance du<br />

problème, le solveur dispose d’une batterie de méthodes qui améliorent ou s’inspirent<br />

du Branch and Bound (Séparation <strong>et</strong> Évaluation), <strong>et</strong> sont proposées par<br />

la communauté de la programmation mathématique. Notons que le problème<br />

ainsi modélisé peut être infaisable, s’il n’existe pas d’isomorphisme entre S <strong>et</strong><br />

un sous-graphe de G. Dans ce cas, le solveur ne r<strong>et</strong>ourne pas de solution. Si au<br />

moins un isomorphisme existe, le solveur r<strong>et</strong>ournera uniquement la solution de<br />

coût minimal, i.e. le meilleur isomorphisme. Or, il peut être intéressant, pour<br />

certains cas d’usage, de r<strong>et</strong>ourner une liste d’isomorphismes. Dans ce cadre, qui<br />

sera illustré en 3.4.1, nous avons proposé une stratégie consistant à appliquer<br />

itérativement le modèle, en supprimant les solutions trouvées de l’ensemble des<br />

solutions possibles.<br />

L’évaluation des performances des algorithmes de recherche d’isomorphismes<br />

de sous-graphes est un problème difficile qui implique de disposer (i) de bases


tel-00671168, version 1 - 8 Oct 2012<br />

3.4. Applications à l’analyse de documents graphiques 57<br />

de graphes <strong>et</strong> de sous-graphes <strong>et</strong> (ii) de la vérité terrain concernant les isomorphismes<br />

existants. Pour des applications du monde réel, générer c<strong>et</strong>te vérité<br />

terrain est une tâche complexe <strong>et</strong> « chronophage », particulièrement dans le cas<br />

d’isomorphismes inexacts car il faut alors considérer simultanément les données<br />

brutes <strong>et</strong> leur représentation sous forme de graphes. Dans la littérature, la<br />

plupart des articles traitant du problème d’isomorphisme de sous-graphes proposent<br />

une évaluation reposant sur des bases de données synthétiques, comme<br />

la base VF décrite dans [63] ou les bases du TC 15 de l’IAPR 8 . Toutefois, toutes<br />

ces bases sont, à notre connaissance, dédiées à des appariements exacts, <strong>et</strong> reposent<br />

sur un étiqu<strong>et</strong>age des nœuds <strong>et</strong> des arcs avec des attributs nominaux <strong>et</strong><br />

non numériques ou vectoriels. Elles ne perm<strong>et</strong>tent donc pas d’évaluer des algorithmes<br />

tolérants aux substitutions. Dans ce contexte, nous avons choisi de mener<br />

nos expérimentations sur des bases de données synthétiques adaptées aux<br />

problèmes tolérants aux substitutions <strong>et</strong> sur une base issue d’une application<br />

réelle 9 . Nous avons donc implémenté un générateur de graphes synthétiques 10 .<br />

Pour les raisons évoquées précédemment, nous n’avons pu comparer nos résultats<br />

avec les deux algorithmes références de la littérature que sont VF2 [65]<br />

<strong>et</strong> LAD [193] que dans le cas d’appariements exacts. Les résultats obtenus ont<br />

montré que l’algorithme proposé n’était pas compétitif avec les approches de la<br />

littérature pour effectuer une recherche exacte. Ce résultat attendu s’explique,<br />

d’une part, par le fait que l’approche proposée n’a pas vocation première à traiter<br />

ce genre de problèmes, <strong>et</strong> d’autre part, parce que nous n’avons pas cherché<br />

à optimiser le fonctionnement du solveur dans ce cadre. En revanche, les résultats<br />

obtenus pour la recherche d’isomorphismes tolérants aux substitutions ont<br />

montré que l’approche perm<strong>et</strong>tait de résoudre le problème sans augmentation<br />

sensible des temps de calcul alors qu’à notre connaissance, il n’existe pas de<br />

solutions perm<strong>et</strong>tant naturellement de résoudre de tels problèmes.<br />

3.4 Applications à l’analyse de documents graphiques<br />

Dans c<strong>et</strong>te section, deux systèmes reposant sur des représentations structurelles<br />

<strong>et</strong> dédiés au domaine de l’analyse d’images de documents graphiques<br />

sont présentés. Plus précisément, nous nous intéressons ici à la problématique<br />

du traitement des symboles sur de tels documents. Depuis quelques années,<br />

la reconnaissance de ces entités symboliques est devenue la problématique la<br />

plus prolifique en termes de littérature dans la communauté de l’analyse de<br />

documents graphiques. C<strong>et</strong>te évolution s’explique par la maturité des outils<br />

dédiés aux problématiques spécifiques à ces documents, telles que la séparation<br />

texte/graphique ou la vectorisation, qui ont longtemps été au cœur des<br />

préocupations des chercheurs du domaine, mais aussi <strong>et</strong> surtout par l’évolution<br />

des besoins <strong>et</strong> par l’importance que la reconnaissance des symboles revêt<br />

dans le cadre de l’indexation des documents graphiques. En eff<strong>et</strong>, que le domaine<br />

d’application concerne l’architecture, la cartographie, l’électronique, la<br />

8. http ://www.greyc.ensicaen.fr/iapr-tc15<br />

9. Ces résultats seront présentés en 3.4.1.<br />

10. Ce générateur <strong>et</strong> les bases utilisées dans ces travaux seront prochainement rendus<br />

disponibles à la communauté.


tel-00671168, version 1 - 8 Oct 2012<br />

58 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

Figure 3.4 – Quelques exemples de symboles. Figure tirée de [3]<br />

mécanique ou tout autre domaine d’ingénierie, voire même les documents du<br />

patrimoine, de nombreuses notations symboliques spécifiques au domaine sont<br />

présentes dans les documents (figure 3.4). Le haut niveau sémantique de l’information<br />

que ces symboles véhiculent rend leur reconnaissance indispensable<br />

dans le cadre d’un système d’analyse de documents graphiques.<br />

Dans le domaine du traitement des données symboliques, comme dans celui<br />

de la recherche d’images par le contenu en général, on oppose généralement<br />

les approches statistiques, selon lesquelles les obj<strong>et</strong>s sont représentés par des<br />

vecteurs de caractéristiques, aux approches structurelles, selon lesquelles la<br />

modélisation des obj<strong>et</strong>s repose sur des graphes. Dans le domaine de la recherche<br />

de symboles, les approches structurelles ont toujours été très présentes de par<br />

la nature même des symboles, souvent constitués de sous-parties, <strong>et</strong> de par la<br />

capacité intrinsèque de telles modélisations à aider à la segmentation.<br />

Dans la suite de c<strong>et</strong>te section, les résultats obtenus en utilisant l’approche<br />

décrite en 3.3 dans le cadre d’un problème de localisation de symboles sont<br />

d’abord présentés. L’approche est appliquée à une représentation structurelle<br />

à base de graphes d’adjacence de régions proposée dans le cadre de la thèse<br />

d’Hervé Locteau [129]. Nous décrivons ensuite une autre application originale<br />

reposant sur la même modélisation <strong>et</strong> utilisant des techniques de fouilles de<br />

données pour construire une représentation des documents sous la forme de<br />

« sacs de symboles » [18]. C<strong>et</strong>te représentation est exploitée à des fins de classification<br />

ou d’indexation de documents.<br />

3.4.1 Détection de symboles<br />

La détection de symboles est un des problèmes relevant de l’analyse d’images<br />

de documents. Ce type de problème revêt une difficulté supérieure à celui de la<br />

reconnaissance de symboles isolés dans la mesure où il est nécessaire de simultanément<br />

segmenter <strong>et</strong> reconnaître le symbole. De fait, si la littérature abordant<br />

la reconnaissance de symboles est abondante, très peu d’approches sont proposées<br />

pour la détection de symboles [165, 181]. Dans c<strong>et</strong>te sous-section, nous<br />

présentons un système dont l’objectif est la détection de symboles dans des<br />

images de documents graphiques. L’approche proposée s’appuie sur l’extraction<br />

d’une représentation structurelle à base de graphes d’adjacence de régions.<br />

De tels graphes sont reconnus pour être topologiquement plus stables en présence<br />

de bruit que les graphes exploitant le squel<strong>et</strong>te des formes qui, eux, sont


tel-00671168, version 1 - 8 Oct 2012<br />

3.4. Applications à l’analyse de documents graphiques 59<br />

(a) Image originale (b) Squel<strong>et</strong>te de<br />

l’image (a)<br />

(c) Composantes (d) Graphe d’adja-<br />

connexes de l’image cence de régions<br />

(b)<br />

Figure 3.5 – Création du graphe d’adjacence de régions<br />

fortement perturbés par le bruit. En exploitant une telle représentation, la recherche<br />

des occurrences d’un symbole modèle dans un document cible devient<br />

naturellement un problème de recherche d’isomorphisme de sous-graphes, avec<br />

la particularité de devoir être tolérant aux erreurs d’étiqu<strong>et</strong>tes, puisque dans<br />

un problème réel, les valeurs des labels seront altérées, tant pour les nœuds<br />

que pour les arcs. Notons que lorsque le bruit est trop important, la structure<br />

du graphe peut également être modifiée. Nous reviendrons sur ces aspects dans<br />

les perspectives de nos travaux.<br />

La première étape du système proposé dans [31] consiste à construire une<br />

représentation structurelle du document. Les graphes d’adjacence de régions<br />

sont des structures de données adaptées dans ce cadre car elles perm<strong>et</strong>tent la<br />

modélisation des relations topologiques entre les régions extraites grâce à un<br />

processus de segmentation. Nous traitons des images de documents techniques<br />

(images binaires) où la composante blanche est associée au fond tandis que<br />

les composantes noires correspondent à la partie graphique. La segmentation<br />

de telles images peut être obtenue par étiqu<strong>et</strong>age des composantes [49]. Cependant,<br />

afin d’obtenir une représentation fine des relations d’adjacence pour<br />

chaque paire de régions, l’image binaire est soumise à une squel<strong>et</strong>tisation [72].<br />

On fait alors correspondre à chaque composante blanche de c<strong>et</strong>te image squel<strong>et</strong>tisée<br />

un nœud dans le graphe en construction. Par ailleurs, un parcours des<br />

branches du squel<strong>et</strong>te est exploité pour déterminer les relations d’adjacence<br />

entre les régions deux à deux. C<strong>et</strong>te relation d’adjacence est matérialisée par<br />

la création d’un arc entre les nœuds associés aux régions correspondantes. La<br />

figure 3.5 illustre, à partir d’un extrait d’image de document, le processus de<br />

construction du graphe d’adjacence de régions.<br />

Afin de caractériser les nœuds représentant les régions <strong>et</strong> de préciser la<br />

nature des relations d’adjacence, le graphe est étiqu<strong>et</strong>é. Plusieurs types de caractéristiques<br />

ont été proposés dans la littérature pour décrire les formes <strong>et</strong> les<br />

relations spatiales [202]. Parmi les nombreux descripteurs de formes proposés<br />

dans la littérature [2], les moments de Zernike [200] perm<strong>et</strong>tent d’atteindre de<br />

bonnes performances lors de la reconnaissance de formes soumises à des transformations<br />

affines ou des dégradations. Un vecteur de caractéristiques composé<br />

des 24 premiers moments de Zernike extraits de chaque composante connexe <strong>et</strong><br />

caractérisant la forme est donc utilisé pour étiqu<strong>et</strong>er les nœuds correspondants<br />

dans le graphe. Le graphe construit est dirigé <strong>et</strong> les attributs affectés aux arcs


tel-00671168, version 1 - 8 Oct 2012<br />

60 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

Figure 3.6 – Exemples d’images de la base floorplans correspondant à différents<br />

fonds de plan.<br />

A B C D E F G H<br />

I J K L M N O P<br />

Figure 3.7 – Modèles des symboles recherchés.<br />

(source → destination) sont :<br />

– une caractéristique liée au rapport des surfaces des composantes associées<br />

aux nœuds source <strong>et</strong> destination ;<br />

– une caractéristique liée à la distance entre les centres de gravité des<br />

régions associées aux nœuds origine <strong>et</strong> destination.<br />

Les données utilisées pour évaluer l’approche proposée sont extraites de<br />

la base floorplans 11 . C<strong>et</strong>te base est constituée de données synthétiques représentant<br />

différentes dispositions de symboles placés sur 10 fonds de plans<br />

architecturaux. Notre évaluation se base sur 200 images synthétiques de plans<br />

architecturaux correspondant aux 20 premières dispositions proposées pour<br />

chacun des fonds. Des exemples de ces images sont proposés sur la figure 3.6.<br />

La tâche associée à c<strong>et</strong>te base de données consiste à r<strong>et</strong>rouver les occurrences<br />

des 16 symboles modèles présentés sur la figure 3.7.<br />

Grâce à une interface graphique développée pour l’occasion, il a été pos-<br />

11. http://mathieu.delalandre.free.fr/projects/sesyd/


tel-00671168, version 1 - 8 Oct 2012<br />

3.4. Applications à l’analyse de documents graphiques 61<br />

sible de constituer une vérité terrain pour la recherche d’isomorphismes de<br />

sous-graphes en identifiant au sein des 200 représentations structurelles les<br />

sous-graphes correspondant à des occurrences de symboles. Nous avons ainsi<br />

pu identifier que la base de plans contenait 5609 occurrences de symboles, soit<br />

environ 28 symboles par document en moyenne. Les sous-graphes correspondant<br />

aux symboles contenaient en moyenne 4 nœuds <strong>et</strong> 7 arcs. En comparaison,<br />

les représentations structurelles des plans compl<strong>et</strong>s contiennent en moyenne 121<br />

nœuds <strong>et</strong> 525 arcs.<br />

Dans une première expérimentation, nous avons recherché, dans chacun<br />

des plans, l’isomorphisme de coût minimal pour chacun des symboles modèles<br />

sur chacun des plans. Les résultats quantitatifs obtenus indiquent que sur les<br />

3200 recherches d’occurrences (16 × 200), 1612 symboles ont été correctement<br />

détectés. 380 occurrences ont été partiellement détectées (au moins un nœud<br />

apparié à bon escient <strong>et</strong> au moins un nœud apparié à mauvais escient). Pour<br />

453 recherches, le système a commis une erreur en ne trouvant pas d’occurrence<br />

du symbole. Enfin, pour 755 recherches, le symbole n’apparaissait pas dans le<br />

document.<br />

Étant donné les résultats obtenus lors de la recherche d’une unique occurrence<br />

<strong>et</strong> considérant le fait qu’un même symbole est susceptible d’apparaître à<br />

plusieurs reprises sur un même document, nous avons souhaité évaluer la recherche<br />

de plusieurs isomorphismes. Compte tenu du fait qu’une composante<br />

connexe ne peut appartenir qu’à un seul symbole, nous avons, dans c<strong>et</strong>te expérimentation,<br />

paramétré la recherche de telle sorte que soit exclu des solutions<br />

réalisables tout isomorphisme faisant apparaître un nœud déjà apparié dans<br />

un isomorphisme précédent.<br />

Le tableau 3.3 présente les résultats d’une recherche de 50 occurrences de<br />

chaque symbole modèle pour chacun des 200 plans de la base floorplans.<br />

Même s’il persiste, comme dans le cas de la recherche d’une unique occurrence,<br />

des disparités entre classes, globalement, on r<strong>et</strong>rouve exactement 62,7%<br />

<strong>et</strong> partiellement 29,2% des 5609 occurrences de symboles réellement présentes<br />

dans les documents. En estimant qu’une correspondance partielle suffit à considérer<br />

que l’occurrence du symbole est détectée, on atteint un rappel de 92%<br />

pour une précision de 7%.<br />

La mauvaise précision obtenue est due au nombre important de détections<br />

imposé au système, qui est largement supérieur au nombre de symboles réellement<br />

présents (recherche de 50 occurrences par type de symbole pour chaque<br />

plan). Pour diminuer ce nombre de fausses détections, une stratégie de rej<strong>et</strong> a<br />

été mise en œuvre. Elle détermine, par un apprentissage supervisé, un seuil sur<br />

le coût d’appariement. Ce seuil est déterminé par classe, par une optimisation<br />

de la F-mesure obtenue sur une base de validation. C<strong>et</strong>te stratégie a permis<br />

d’augmenter la valeur de la précision à 71%, pour un rappel qui est maintenu<br />

à 83%. Le seuil appris sur chacune des classes, ainsi que les performances<br />

obtenues sont donnés dans le tableau 3.4.<br />

3.4.2 Classification <strong>et</strong> indexation de documents<br />

Dans [18], nous avons proposé une autre exploitation des représentations<br />

structurelles, à des fins de classification <strong>et</strong> d’indexation de documents gra


tel-00671168, version 1 - 8 Oct 2012<br />

62 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

Symbol Recall (%) Precision (%)<br />

A 88 8<br />

B 96 10<br />

C 98 9<br />

D 80 1<br />

E 100 2<br />

F 100 14<br />

G 100 7<br />

H 100 5<br />

I 93 5<br />

J 92 6<br />

K 83 30<br />

L 100 12<br />

M 100 8<br />

N 100 2<br />

O 92 5<br />

P 86 24<br />

overall 92 7<br />

Table 3.3 – Précision <strong>et</strong> rappel par classe de symboles lors de la recherche de<br />

50 occurrences.<br />

phiques compl<strong>et</strong>s. Le système proposé dans ce cadre est illustré sur la figure 3.8.<br />

L’approche repose sur l’utilisation de techniques de fouilles de graphes, dont<br />

le but est de faire émerger de nouvelles connaissances à partir d’un ensemble<br />

de données. Plus précisément, l’algorithme utilisé recherche des sous-structures<br />

avec l’objectif d’identifier, selon les informations encodées, des motifs fréquents<br />

ayant un rôle fonctionnel : par exemple une propriété des composés chimiques<br />

présentant un motif particulier, un gène responsable d’une pathologie dans une<br />

séquence, des motifs vecteurs de sens dans les documents. Les techniques reposent<br />

sur la satisfaction de contraintes telles qu’une fréquence d’apparition<br />

minimale <strong>et</strong> une confiance minimale dans le cas de règles d’association. Une<br />

revue de la littérature du domaine est proposée dans [18]. Les motifs fréquents<br />

sont alors utilisés comme lexique sur la base duquel les documents compl<strong>et</strong>s<br />

sont décrits sous la forme de « sacs de symboles ». Nous nous inspirons dans<br />

ce cadre des travaux utilisant des « sacs de mots » en analyse de texte [183],<br />

des « sacs de caractéristiques » [192, 77] ou encore des « paqu<strong>et</strong>s de chaînes de<br />

caractéristiques » [178] en indexation d’images. Ainsi, un document est caractérisé<br />

par un vecteur précisant la présence ou l’absence des différents motifs<br />

fréquents extraits de manière non supervisée dans la collection de documents.<br />

Une pondération tf-idf est utilisée pour enrichir la représentation.<br />

Dans le cadre de l’application de ces techniques sur des documents graphiques,<br />

nous nous sommes appuyés, comme pour les travaux décrits en 3.4.1,<br />

sur la représentation à base de graphes d’adjacence de régions proposée dans<br />

la thèse d’Hervé Locteau [129]. Pour pouvoir utiliser les techniques de fouilles<br />

sur de telles représentations, les nœuds doivent être étiqu<strong>et</strong>és avec des labels<br />

nominaux. Un algorithme de classification non supervisée s’appuyant sur les


tel-00671168, version 1 - 8 Oct 2012<br />

3.4. Applications à l’analyse de documents graphiques 63<br />

Matching<br />

Symbol cost Recall (%) Precision (%)<br />

threshold<br />

A 2.706 80 77<br />

B 3.041 90 81<br />

C 0.489 70 49<br />

D 0.827 80 5<br />

E 1.136 100 100<br />

F 2.215 100 100<br />

G 1.959 53 41<br />

H 2.418 90 100<br />

I 0.857 90 25<br />

J 1.249 84 82<br />

K 2.442 74 89<br />

L 3.499 100 86<br />

M 2.590 99 100<br />

N 0.970 84 70<br />

O 0.279 56 45<br />

P 3.079 86 86<br />

overall 83 71<br />

Table 3.4 – Précision <strong>et</strong> rappel par classe de symboles lors de la recherche de<br />

50 occurrences avec la stratégie de rej<strong>et</strong>.<br />

descripteurs de formes extraits des régions est utilisé pour ce faire. Puis, chaque<br />

cluster se voit affecté d’un label qui est utilisé pour étiqu<strong>et</strong>er les nœuds. Un<br />

algorithme de fouille de graphe de la littérature [117] est ensuite exploité pour<br />

rechercher, dans le graphe, l’ensemble des sous-graphes fréquents. La figure 3.9<br />

illustre quelques sous-graphes fréquents extraits d’un plan de réseau France<br />

Telecom. Elle montre que non seulement les symboles propres au domaine<br />

concerné sont extraits, mais en outre, l’algorithme a été en mesure d’extraire<br />

les chaînes de caractères associées à ces symboles. C<strong>et</strong>te première contribution<br />

perm<strong>et</strong> ainsi d’extraire en partie la sémantique présente au sein du document.<br />

L’approche a été évaluée sur un ensemble de documents techniques composé<br />

de 30 images de plans de réseau France Telecom, 25 images de schémas<br />

électroniques, <strong>et</strong> 5 images de plans architecturaux. Des tests ont été menés en<br />

classification supervisée, en exploitant un classifieur SVM. Les résultats, bien<br />

qu’obtenus sur des bases de p<strong>et</strong>ites tailles, ont atteint 90% de bonne classification,<br />

montrant la pertinence de l’approche, sachant qu’aucune connaissance<br />

a priori n’a été injectée dans le processus. C’est le système lui même qui découvre<br />

les caractéristiques à utiliser pour décrire le document, ce qui constitue<br />

une rupture par rapport aux approches classiques <strong>et</strong> qui perm<strong>et</strong> clairement<br />

d’aller dans le sens de la généricité.<br />

Des expérimentations préliminaires ont également été menées pour l’indexation<br />

de bases de documents utilisant la représentation en sacs de symboles,<br />

à des fins d’interrogation. Dans le système proposé, l’utilisateur peut rechercher<br />

dans la base de documents un ensemble de documents sur la base d’une


tel-00671168, version 1 - 8 Oct 2012<br />

64 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

Image<br />

Construction de graphes<br />

Représentations structurelles<br />

Fouille de graphes<br />

Sous-graphes fréquents<br />

Filtrage<br />

Sacs de symboles<br />

Classification/Indexation<br />

Figure 3.8 – Processus de fouille pour l’indexation <strong>et</strong> la classification d’images<br />

de documents.<br />

requête exprimée par un extrait de documents, pour extraire des documents<br />

similaires au sens de leur contenu sémantique.<br />

3.5 Discussion <strong>et</strong> problèmes ouverts<br />

Dans ce chapitre, nous avons abordé des problématiques liées à la reconnaissance<br />

structurelle de formes avec des applications à l’analyse de documents<br />

graphiques. Deux contributions fondamentales ont été présentées <strong>et</strong> positionnées<br />

par rapport à la littérature du domaine. Elles concernent la classification<br />

supervisée de graphes <strong>et</strong> la recherche d’isomorphismes de sous-graphes tolérants<br />

aux erreurs de substitution. Deux applications liées à l’exploitation des<br />

graphes en analyse de documents graphiques ont ensuite été décrites. La première<br />

est une application de l’approche proposée pour la recherche d’isomorphisme<br />

à une tâche de localisation de symboles dans des documents graphiques,<br />

problème encore rarement abordé dans la communauté. La seconde concerne<br />

l’exploitation de techniques de fouille de graphes à des fins de classification<br />

supervisée ou d’indexation de base de documents.<br />

Dans c<strong>et</strong>te section, nous évoquons les perspectives directement issues de<br />

ces travaux. Une vision plus générale sera proposée dans le chapitre 5, avec<br />

en particulier les aspects liés au domaine applicatif de la reconnaissance de<br />

documents. Ces perspectives se déclinent donc ici essentiellement sur les aspects<br />

fondamentaux relatifs aux deux premières contributions.


tel-00671168, version 1 - 8 Oct 2012<br />

3.5. Discussion <strong>et</strong> problèmes ouverts 65<br />

Figure 3.9 – Exemples d’occurrences d’un sous-graphe fréquent maximal.<br />

3.5.1 Classification de graphes<br />

Les résultats présentés dans [170] ont montré l’intérêt de prendre en considération<br />

un critère discriminant, l’espace des graphes généralisés <strong>et</strong> plusieurs<br />

représentants par classe dans le cadre de la génération de prototypes pour<br />

la classification de graphes. Toutefois, dans l’approche proposée, aucun mécanisme<br />

n’est mis en œuvre pour lui garantir de bonnes capacités en généralisation.<br />

Dans ce cadre, nous pensons qu’il pourrait être intéressant, lors<br />

de la génération des prototypes, d’intégrer un terme de régularisation dans<br />

le processus d’optimisation. Dans ce contexte, des approches d’optimisation<br />

multiobjectif telles que celles que nous évoquerons dans le chapitre suivant<br />

pourraient alors être considérées. Ces perspectives sont à l’intersection de ces<br />

travaux sur les graphes <strong>et</strong> de ceux qui sont proposés dans le cadre du proj<strong>et</strong><br />

LeMOn qui sera décrit dans le chapitre suivant.<br />

L’intégration d’un critère de rej<strong>et</strong> dans l’approche est aussi une piste qu’il<br />

ne faut pas négliger. Le rej<strong>et</strong> est en eff<strong>et</strong> très important dans les applications<br />

du monde réel. Le critère de génération des prototypes deviendrait là aussi<br />

multi-dimensionnel. Nous avons proposé de premiers travaux dans ce cadre<br />

dans [171]. Ceux-ci seront abordés en 4.4.1.<br />

Une autre perspective liée à ces graphes prototypes repose sur l’utilisation<br />

de la technique du « Graph Embedding » [177] consistant à représenter un<br />

graphe par l’ensemble des distances entre ce graphe <strong>et</strong> un ensemble de graphes<br />

prototypes, en général les graphes médians.


tel-00671168, version 1 - 8 Oct 2012<br />

66 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes<br />

3.5.2 Recherche d’isomorphisme<br />

L’approche de recherche d’isomorphisme de sous-graphes décrite en 3.3 <strong>et</strong><br />

appliquée au problème de localisation de symboles en 3.4.1 a prouvé qu’elle<br />

était capable de tolérer des modifications dans des étiqu<strong>et</strong>ages vectoriels <strong>et</strong><br />

numériques des nœuds <strong>et</strong> des arcs. Elle perm<strong>et</strong> ainsi de résoudre des problèmes<br />

que la littérature n’avait pas encore abordés directement, comme en témoigne<br />

d’ailleurs l’absence de bases de données avec de telles propriétés. L’une de<br />

nos premières perspectives consiste donc à m<strong>et</strong>tre à disposition les données<br />

étiqu<strong>et</strong>ées que nous avons générées, par l’intermédiaire du site du TC 15 12 par<br />

exemple. Ceci perm<strong>et</strong>tra à la communauté de comparer ses résultats à ceux<br />

que nous avons obtenus. Par ailleurs, nous planifions également de fournir<br />

l’environnement logiciel de recherche d’isomorphisme que nous avons proposé,<br />

celui-ci étant basé sur des logiciels libres.<br />

Outre ces perspectives de diffusion à la communauté scientifique, d’autres<br />

axes de travail plus fondamentaux sont envisagés. Le premier consiste à modifier<br />

la version courante du solveur pour lui perm<strong>et</strong>tre de traiter des instances de<br />

tailles plus importantes (de l’ordre du millier de nœuds pour G), ce qui constitue<br />

un challenge pour la communauté depuis longtemps [107]. En eff<strong>et</strong>, dans la<br />

version courante du solveur, certaines instances atteignent des tailles telles que<br />

leur représentation en mémoire est trop volumineuse pour perm<strong>et</strong>tre la résolution.<br />

Une amélioration possible est d’utiliser la génération de colonnes, une<br />

technique de la communauté de programmation mathématique, qui consiste à<br />

considérer une formulation de départ dont le nombre de variables est largement<br />

réduit, puis de résoudre en ajoutant les variables qui manquent lorsqu’elles deviennent<br />

nécessaires pour explorer des solutions.<br />

L’autre piste envisagée, la plus importante en termes d’applications mais<br />

aussi la plus complexe, consiste à généraliser la formulation proposée à des problèmes<br />

pour lesquels des modifications de la topologie des graphes pourraient<br />

être tolérées. Ce contexte nécessite de proposer une formulation robuste à l’absence<br />

dans G de somm<strong>et</strong>s ou d’arcs pouvant être associés à ceux du graphe<br />

S. La solution envisagée consiste à procéder par l’ajout direct dans G des éléments<br />

non appariés de S. C<strong>et</strong> ajout se traduit par de nouvelles variables de<br />

décision qui correspondent à ces ajouts de nœuds <strong>et</strong> d’arcs. La fonction objectif<br />

(equation 3.12) est alors modifiée pour prendre en compte ces modifications,<br />

auxquelles il faut alors attribuer des coûts (qu’il faudra idéalement apprendre).<br />

min <br />

i∈VS<br />

<br />

k∈VG d(i, k) ∗ xi,k + <br />

<br />

i∈VS c(i) ∗ ui + <br />

ij∈ES<br />

<br />

ij∈ES<br />

kl∈EG d(ij, kl) ∗ yij,kl +<br />

c(ij) ∗ eij<br />

(3.12)<br />

Avec une telle modification, la fonction objectif intègre une tolérance aux<br />

modifications de structure. Évidemment, les contraintes du programme linéaire<br />

doivent également être revisitées pour intégrer c<strong>et</strong>te tolérance. Une première<br />

proposition a été faite dans [30], elle doit maintenant être évaluée, ce qui pose de<br />

nouveau le problème des données <strong>et</strong> de leur vérité terrain associée tout comme<br />

celui de l’utilisation d’approches concurrentes. De plus, notons que ces travaux<br />

12. http ://www.greyc.ensicaen.fr/iapr-tc15/


tel-00671168, version 1 - 8 Oct 2012<br />

3.5. Discussion <strong>et</strong> problèmes ouverts 67<br />

se rapprochent alors de la notion de distance d’édition entre graphes. L’outil<br />

pourrait d’ailleurs être utilisé pour calculer des dissimilarités entre graphes,<br />

sans considérer les sous-graphes.


tel-00671168, version 1 - 8 Oct 2012<br />

68 Chapitre 3. <strong>Documents</strong> <strong>et</strong> graphes


tel-00671168, version 1 - 8 Oct 2012<br />

Chapitre 4<br />

<strong>Documents</strong> <strong>et</strong> optimisation<br />

multiobjectif<br />

4.1 Introduction<br />

L’introduction générale de ce mémoire a souligné la variabilité <strong>et</strong> la complexité<br />

des problématiques d’analyse d’images de documents. Elle a montré que<br />

la conception d’un système flexible <strong>et</strong> performant requiert le développement<br />

de nombreux composants logiciels inter-opérants dont il faut en outre maîtriser<br />

le réglage des paramètres <strong>et</strong> l’enchaînement (éventuellement en considérant<br />

des cycles) pour obtenir les meilleures performances possibles. C<strong>et</strong>te notion de<br />

performance suscite immédiatement la question du choix du(des) critère(s) utilisé(s)<br />

pour évaluer les composants du système <strong>et</strong> le système dans sa globalité.<br />

Par ailleurs, de tels critères sont également fondamentaux dans une optique<br />

d’optimisation des paramètres du système.<br />

L’analyse de l’état de l’art du domaine de l’analyse de documents montre<br />

que la plupart des systèmes sont aujourd’hui conçus, évalués <strong>et</strong> réglés au regard<br />

d’un critère unique. Il peut s’agir du taux de reconnaissance pour un système de<br />

reconnaissance, de l’erreur quadratique en approximation polygonale ou de la<br />

F-mesure pour un système de spotting de mots ou de symboles. Pour illustrer<br />

ce constat, on peut mentionner les campagnes d’évaluation récentes menées<br />

en reconnaissance de l’écriture manuscrite (RIMES [88]), en reconnaissance<br />

de symboles (EPEIRES [73]) ou encore les concours de vectorisation menés à<br />

l’occasion des conférences internationales Graphic RECognition (GREC [6]).<br />

Dans chacun des cas, les métriques exploitées pour évaluer <strong>et</strong> comparer les<br />

approches sont aujourd’hui scalaires.<br />

Or, plusieurs critères, souvent antagonistes, sont généralement importants<br />

au regard de l’utilisateur dans les applications du monde réel. On peut citer<br />

à titre d’illustration le rappel <strong>et</strong> la précision pour des problèmes de recherche<br />

d’information, le rej<strong>et</strong> <strong>et</strong> la confusion pour des tâches de reconnaissance, les performances<br />

en apprentissage <strong>et</strong> en généralisation pour les problèmes d’apprentissage,<br />

la qualité <strong>et</strong> le taux de compression pour des tâches de compression,<br />

ou de manière générale les performances qualitatives <strong>et</strong> le temps de traitement<br />

pour la plupart des problèmes.<br />

Ainsi, la majorité des tâches d’un système d’analyse de documents peuvent,<br />

69


tel-00671168, version 1 - 8 Oct 2012<br />

70 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

de façon inhérente, être considérées comme des problèmes à objectifs multiples<br />

nécessitant le choix de compromis. Par ailleurs, les traitements impliqués sont<br />

généralement soumis à des paramètres dont le réglage perm<strong>et</strong> de faire varier<br />

les valeurs de compromis entre les différents objectifs. Comparer deux algorithmes<br />

dans un cadre idéal revient alors à comparer des ensembles de points<br />

dans un espace à plusieurs dimensions. La figure 4.1 illustre ce contexte avec<br />

la comparaison de deux classifieurs SVM appris sur les mêmes données avec<br />

deux paramétrages différents <strong>et</strong> dont les performances sont représentées par<br />

des courbes ROC [34]. On constate qu’intrinsèquement, aucun des deux classifieurs<br />

n’est supérieur à l’autre mais que leur ordonnancement dépendra de la<br />

« zone » de fonctionnement choisie. Dans c<strong>et</strong> exemple, la comparaison des deux<br />

classifieurs tout comme le choix de la valeur des paramètres doivent idéalement<br />

prendre en considération c<strong>et</strong>te nature multiobjectif.<br />

Figure 4.1 – Comparaison de deux classifieurs par leur courbe ROC. Pour des<br />

taux de fausse acceptation inférieurs à 0.1 (point α sur la courbe), le classifieur<br />

2 est plus performant au regard des deux critères. Pour les taux de fausse<br />

acceptation supérieurs à 0.1, c’est le classifieur 1 qui est le plus performant.<br />

Un problème d’optimisation pour lequel une décision doit être prise en<br />

présence de compromis entre des objectifs multiples est appelé un problème<br />

d’optimisation multiobjectif. Dans un tel contexte, il n’existe généralement pas<br />

de solution unique perm<strong>et</strong>tant d’optimiser simultanément tous les objectifs <strong>et</strong><br />

il est nécessaire de chercher un ensemble de solutions qui correspondent aux<br />

compromis optimaux entre objectifs. Ce domaine n’est évidemment pas propre<br />

à l’analyse de documents <strong>et</strong> on trouve des problèmes d’optimisation multiobjectif<br />

dans de très nombreux domaines d’ingénierie tels que la réalisation de<br />

dispositifs électromagnétiques, la conception de circuits logiques, l’optimisation<br />

de tournées, en passant par l’analyse de promoteurs dans le domaine de<br />

la bio-informatique. L’ouvrage [61] propose un bon aperçu de ce large spectre


tel-00671168, version 1 - 8 Oct 2012<br />

4.1. Introduction 71<br />

de domaines d’application. Cela se traduit par un nombre considérable de publications<br />

dans ce domaine ces deux dernières décennies, comme en atteste le<br />

site maintenu par Carlos A. Coello Coello 13 qui recense plusieurs milliers de<br />

contributions relatives à l’optimisation multiobjectif.<br />

Paradoxalement, malgré l’émergence de c<strong>et</strong>te problématique d’optimisation<br />

multiobjectif, on en trouve bien peu d’applications dans le domaine de l’analyse<br />

d’images de documents <strong>et</strong> même pour l’analyse d’images en général. On peut<br />

toutefois citer les travaux de Lazzerini ([124]) pour lesquels les tables de quantification<br />

JPEG sont optimisées au regard des deux critères que sont le taux<br />

de compression <strong>et</strong> la qualité de l’image décodée. Un certain nombre de contributions<br />

ont également été proposées pour la segmentation d’images. Dans [17]<br />

par exemple, les auteurs utilisent un algorithme génétique multiobjectif pour<br />

conserver une population de solutions plutôt qu’une unique pour les étapes de<br />

traitement ultérieures. Un état de l’art concernant ces problématiques de segmentation<br />

d’images utilisant des algorithmes d’optimisation multiobjectif est<br />

proposé dans [59], avec des applications essentiellement orientées vers le domaine<br />

médical <strong>et</strong> les images de scènes naturelles. À un niveau d’interprétation<br />

plus élevé, dans le domaine de la recherche d’information, on peut également<br />

citer des travaux utilisant des algorithmes d’optimisation multiobjectif pour<br />

améliorer des requêtes en utilisant comme critères le rappel <strong>et</strong> la précision<br />

[47, 131]. Dans le domaine de l’analyse de documents, il convient de souligner<br />

ici les travaux de l’équipe de Robert Sabourin sur l’analyse de l’écriture<br />

manuscrite qui sont, à notre connaissance, les seuls à soulever le problème de<br />

l’intégration d’objectifs multiples à la fois pour l’extraction de caractéristiques<br />

[157, 156] <strong>et</strong> pour la classification supervisée [166].<br />

De c<strong>et</strong> état de l’art synthétique, on peut conclure que même si l’optimisation<br />

multiobjectif a été ponctuellement utilisée dans le contexte de l’analyse de<br />

documents ou pour l’analyse d’images, les bénéfices que perm<strong>et</strong>tent d’obtenir<br />

de telles approches n’ont pas été totalement explorés par la communauté de<br />

l’analyse de documents. Nous décrivons dans la suite de ce chapitre nos contributions<br />

dans ce domaine. Elles ont consisté à aborder différents problèmes<br />

d’analyse de documents sous l’angle de l’optimisation multiobjectif.<br />

Ce chapitre est organisé de la façon suivante. Après un rappel de la problématique<br />

de l’optimisation multiobjectif <strong>et</strong> un état de l’art des approches<br />

perm<strong>et</strong>tant de résoudre de tels problèmes, trois contributions sont décrites.<br />

La première est une contribution propre au domaine de l’optimisation multiobjectif.<br />

Nous y décrivons un algorithme pour aborder ces problèmes avec<br />

la technique des essaims particulaires. Puis, les deux contributions suivantes<br />

concernent des travaux pour lesquels nous avons tiré parti de l’intégration<br />

d’objectifs multiples en analyse de documents <strong>et</strong> en apprentissage. Le chapitre<br />

se termine ensuite par une discussion sur c<strong>et</strong> apport <strong>et</strong> sur les perspectives<br />

directement ouvertes par ces travaux.<br />

13. http://www.lania.mx/~ccoello/EMOO/EMOObib.html


tel-00671168, version 1 - 8 Oct 2012<br />

72 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

4.2 <strong>Optimisation</strong> multiobjectif<br />

C<strong>et</strong>te section rappelle la formulation d’un problème d’optimisation multiobjectif<br />

<strong>et</strong> donne un aperçu des méthodes de la littérature pour résoudre de<br />

tels problèmes.<br />

4.2.1 Définition du problème<br />

Un problème d’optimisation multiobjectif (parfois appelé optimisation vectorielle)<br />

contraint est un problème d’optimisation pour lequel K fonctions<br />

objectifs à minimiser (ou maximiser) sont définies, sous respect d’un certain<br />

nombre de contraintes d’inégalité ou d’égalité. Il se définit de la façon suivante :<br />

Definition 1. La minimisation contrainte d’un vecteur de fonctions objectifs<br />

−→ f = {f1, f2, ..., fK} consiste à résoudre :<br />

Minimiser fk( −→ x ) k ∈ [1, K]<br />

sous contrainte de gj( −→ x ) ≥ 0 j ∈ [1, J]<br />

hl( −→ x ) = 0 l ∈ [1, L]<br />

x L i ≤ xi ≤ x U i i ∈ [1, N]<br />

où −→ x est un vecteur de N variables de décision. gj and hl sont respectivement<br />

les contraintes d’inégalité <strong>et</strong> d’égalité. Le dernier ensemble de contraintes<br />

définit l’espace de décision du problème, i.e. l’espace dans lequel les solutions<br />

sont recherchées. Les xL i <strong>et</strong> xUi désignent ici les bornes de c<strong>et</strong> espace.<br />

Une différence fondamentale entre l’optimisation mono-objectif <strong>et</strong> l’optimisation<br />

multiobjectif repose sur le fait que pour la plupart des problèmes<br />

multiobjectif, les critères étant antagonistes, il n’existe pas de solution qui<br />

minimise tous les objectifs simultanément. Par conséquent, il n’existe plus de<br />

relation d’ordre total entre solutions. Celles-ci doivent être comparées par la<br />

relation de dominance de Par<strong>et</strong>o qui repose sur la définition suivante 14 :<br />

Definition 2. Une solution −→ x domine une autre solution −→ y si <strong>et</strong> seulement<br />

si ∀k ∈ [1, K], fk( −→ x ) ≤ fk( −→ y ) <strong>et</strong> si ∃k ∈ [1, K]/fk( −→ x ) < fk( −→ y ). Une telle<br />

relation est notée −→ x ≺ −→ y<br />

En utilisant le concept de dominance, une solution x ⋆ est dite Par<strong>et</strong>ooptimale<br />

s’il n’existe pas de solution dans l’espace de décision qui domine<br />

x ⋆ . L’objectif d’un algorithme d’optimisation multiobjectif est de fournir une<br />

approximation de l’ensemble optimal de Par<strong>et</strong>o, défini par :<br />

Definition 3. L’ensemble Par<strong>et</strong>o-optimal d’un problème d’optimisation<br />

multiobjectif est l’ensemble de toutes les solutions Par<strong>et</strong>o-optimales du problème<br />

:<br />

<br />

P OS =<br />

−→x<br />

∈ ϑ/¬∃<br />

−→ −−→ −−→ <br />

y ∈ ϑ, f(y) ≺ f(x)<br />

14. Notons ici qu’il existe d’autres définitions de la dominance de Par<strong>et</strong>o telles que la<br />

dominance stricte, la dominance faible ou encore l’ɛ-dominance qui sont décrites dans [123]<br />

⎫<br />

⎪⎬<br />

⎪⎭


tel-00671168, version 1 - 8 Oct 2012<br />

4.2. <strong>Optimisation</strong> multiobjectif 73<br />

4.2.2 Synthèse de la littérature<br />

Dans la littérature, deux grandes familles d’approches peuvent être distinguées<br />

pour résoudre des problèmes d’optimisation multiobjectif. Elles diffèrent<br />

en fonction du fait que l’on intègre ou pas à la résolution mathématique une articulation<br />

a priori des préférences sur les objectifs. Lorsque de telles préférences<br />

peuvent être formulées, il est alors possible de combiner les différents objectifs<br />

pour obtenir une valeur scalaire. Le problème devient alors un problème d’optimisation<br />

mono-objectif qui peut être résolu avec des méthodes classiques. On<br />

parle alors d’approches « scalarisées ». Lorsque les préférences ne peuvent pas<br />

être exprimées a priori, l’algorithme d’optimisation doit alors fournir en sortie<br />

une population de solutions non dominées au sens de Par<strong>et</strong>o, parmi lesquelles<br />

l’utilisateur (ou éventuellement un autre traitement) doit choisir en intégrant<br />

c<strong>et</strong>te fois des préférences a posteriori. On parle alors d’approche à base de Par<strong>et</strong>o.<br />

Notons que la littérature propose également quelques approches appelées<br />

progressives ou interactives, pour lesquelles le décideur intègre ses préférences<br />

au cours du processus d’optimisation. Nous n’abordons pas ici ces méthodes,<br />

mais le lecteur trouvera une bonne étude comparative dans [5].<br />

Approches scalarisées De très nombreuses approches ont été proposées<br />

dans c<strong>et</strong>te catégorie. Elles peuvent être classées en fonction de la formulation<br />

mathématique qui est utilisée pour combiner les objectifs en une valeur<br />

scalaire, mais aussi par la façon dont les préférences sont exprimées. Certaines<br />

approches, les plus nombreuses, imposent l’attribution d’un poids à chacun des<br />

objectifs. Ces derniers peuvent alors être combinés par différentes méthodes.<br />

La plus classique est celle de la somme pondérée [120], mais la littérature propose<br />

bien d’autres stratégies telles que la méthode Min-Max (ou méthode de<br />

Tchebycheff pondérée) [196], la méthode des exponentielles pondérées [13], la<br />

méthode du produit pondéré [86], avec de nombreuses variantes dans chacun<br />

des cas. Une alternative à l’affectation de poids à chaque objectif consiste à<br />

ne fournir qu’un ordonnancement des objectifs. C’est le cas par exemple de la<br />

méthode dite lexicographique [195]. Dans le cas de la programmation par buts<br />

[19], une valeur à atteindre est fixée pour chacun des objectifs <strong>et</strong> c’est la somme<br />

des écarts à ces valeurs qui est minimisée. Certaines approches proposent quant<br />

à elles de considérer uniquement l’objectif prioritaire comme critère à optimiser<br />

<strong>et</strong> de voir les autres objectifs comme des contraintes pour lesquelles il faut<br />

fixer des bornes. C’est le cas de la méthode dite des fonctions objectifs bornées<br />

[90], parfois appelée méthode ɛ-contrainte. Enfin, une méthode originale appelée<br />

programmation physique consiste à attribuer à chacun des critères une<br />

« classe d’objectif » en y affectant des paramètres [145, 57].<br />

Naturellement, comme l’énonce le No Free Lunch Theorem 15 [213], aucune<br />

de ces méthodes ne se distingue réellement pour l’ensemble des problèmes <strong>et</strong> il<br />

faut choisir la méthode la plus adaptée au problème à traiter. Un état de l’art<br />

très compl<strong>et</strong> de ces méthodes scalarisées est dressé dans [142]. En particulier,<br />

une discussion est proposée dans c<strong>et</strong> article sur le potentiel des différentes<br />

15. Ce théorème classique en optimisation est généralisé aux problèmes multiobjectifs dans<br />

[189].


tel-00671168, version 1 - 8 Oct 2012<br />

74 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

méthodes pour obtenir l’ensemble des points du front de Par<strong>et</strong>o, en faisant<br />

varier certains paramètres des méthodes.<br />

Approches Par<strong>et</strong>o Même si des adaptations sont disponibles dans la littérature<br />

pour pallier ce problème, les méthodes décrites ci-avant sont par essence<br />

conçues pour calculer une solution unique aux problèmes d’optimisation multiobjectif.<br />

Or, comme évoqué précédemment, la solution d’un problème multiobjectif<br />

n’est généralement pas unique, mais est plutôt constituée d’un ensemble<br />

de solutions non dominées. Les méthodes à base de populations reposant<br />

sur un ensemble de solutions potentielles, telles que les algorithmes évolutionnaires<br />

(AE) [70], les essaims particulaires [175] ou les colonies de fourmis [7],<br />

sont donc de bonnes candidates à la résolution de ce type de problème [70, 60].<br />

Depuis les travaux pionniers de Schaffer en 1985 [186] avec son algorithme<br />

VEGA, un nombre considérable d’approches évolutionnaires ont été proposées<br />

pour résoudre les problèmes d’optimisation multiobjectif (MOGA [82], NSGA<br />

[194], NPGA [94], SPEA [219], NSGA II [71], PESA [66], SPEA2 [218], pour<br />

ne citer que les plus connus). La figure 4.2 décrit la structure générale de tous<br />

ces algorithmes. Une population de solutions candidates est d’abord initialisée<br />

aléatoirement. Puis, celle-ci évolue au cours de générations successives par la<br />

combinaison d’opérateurs de sélection, de remplacement <strong>et</strong> de modification.<br />

Dans les approches élitistes, qui se sont montrées les plus performantes [113],<br />

une archive contenant les « meilleures » approximations de l’ensemble de Par<strong>et</strong>o<br />

est maintenue au cours de c<strong>et</strong>te évolution. C’est c<strong>et</strong>te archive qui constitue<br />

la sortie de l’algorithme.<br />

Comparer les différents algorithmes d’optimisation existants est une tâche<br />

difficile. L’analyse de performance d’algorithmes d’optimisation multiobjectif<br />

est en eff<strong>et</strong> encore du domaine de la recherche. Une synthèse des travaux existants<br />

dans ce domaine est disponible dans [198]. La difficulté provient du fait<br />

qu’un algorithme d’optimisation multiobjectif a lui-même plusieurs objectifs<br />

à atteindre. Il doit évidemment converger le plus rapidement possible vers<br />

l’ensemble optimal de Par<strong>et</strong>o, mais il doit également proposer des solutions<br />

diversifiées sur le front afin d’avoir un échantillon représentatif <strong>et</strong> ne pas se<br />

concentrer sur une zone de l’espace des objectifs. Ce dernier critère peut luimême<br />

être scindé en deux sous-critères que sont l’étendue sur le front <strong>et</strong> la<br />

diversité. Dans une étude publiée dans [113], les performances des trois algorithmes<br />

les plus populaires (SPEA2, PESA <strong>et</strong> NSGA-II) sont comparées. La<br />

comparaison est menée sur différents problèmes de test en évaluant les algorithmes<br />

suivant les deux critères importants que sont la proximité au front<br />

de Par<strong>et</strong>o réel <strong>et</strong> la distribution des solutions. Les résultats obtenus, qui sont<br />

corroborés dans [218] <strong>et</strong> dans [38], montrent qu’aucun des trois algorithmes ne<br />

domine les autres au sens de Par<strong>et</strong>o sur ces deux objectifs. SPEA2 <strong>et</strong> NSGA-II<br />

se comportent de manière équivalente autant en termes de convergence qu’en<br />

termes de préservation de la diversité. Leur convergence vers le front de Par<strong>et</strong>o<br />

est inférieure à celle de PESA, mais la diversité est meilleure. L’étude montre<br />

également que NSGA-II est plus performant que SPEA2 en termes de temps de<br />

calcul, essentiellement à cause de la phase de clustering très chronophage de ce<br />

dernier. L’étude évoque également le fait que quelle que soit l’approche choisie,


tel-00671168, version 1 - 8 Oct 2012<br />

4.2. <strong>Optimisation</strong> multiobjectif 75<br />

Initialiser<br />

Population<br />

Evaluer<br />

Adaptation<br />

Sélectionner<br />

Parents<br />

Appliquer<br />

Opérateurs<br />

Génétiques<br />

Arrêt ?<br />

Fin<br />

Début<br />

Calculer Solutions<br />

non dominées<br />

Gérer<br />

Diversité<br />

Initialiser<br />

Archive<br />

M<strong>et</strong>tre<br />

à Jour<br />

Figure 4.2 – Structure typique d’un algorithme évolutionnaire multiobjectif<br />

élitiste. L’archive est ici une population externe. Pour certains algorithmes tels<br />

que [71], une seule population est gérée <strong>et</strong> contient les éléments non dominés.<br />

La sortie de l’algorithme est le contenu de l’archive.<br />

pour être performant, l’algorithme doit être adapté au problème à résoudre. Il<br />

est en particulier nécessaire de :<br />

1. choisir une représentation adaptée des individus ;<br />

2. concevoir une stratégie efficace d’initialisation des individus ;<br />

3. concevoir une fonction d’évaluation des individus ;<br />

4. concevoir des opérateurs de variation appropriés.<br />

Dans la suite de ce chapitre, nous synthétisons les différents travaux que<br />

nous avons réalisés à l’intersection des domaines de l’analyse de documents, de<br />

la reconnaissance de formes <strong>et</strong> de l’optimisation multiobjectif.


tel-00671168, version 1 - 8 Oct 2012<br />

76 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

4.3 Contributions<br />

Dans c<strong>et</strong>te section, trois contributions relatives à l’optimisation multiobjectif<br />

<strong>et</strong> son application en analyse de documents sont présentées. La première<br />

sous-section décrit une contribution propre au domaine de l’optimisation multiobjectif.<br />

Lors de notre phase d’analyse des divers algorithmes évolutionnaires<br />

<strong>et</strong> des limitations <strong>et</strong> difficultés de leur mise en œuvre, nous avons été conduits<br />

à proposer une variante d’algorithme d’optimisation multiobjectif utilisant les<br />

essaims particulaires. C<strong>et</strong>te proposition est exposée en 4.3.1. Puis, les deux<br />

sous-sections suivantes proposent une nouvelle façon de considérer deux problèmes<br />

classiques de l’analyse de documents <strong>et</strong> de l’apprentissage, en adoptant<br />

un point de vue multiobjectif. Pour chacune de ces applications, le problème<br />

est posé, les choix correspondants à la mise en œuvre de l’algorithme sont<br />

décrits <strong>et</strong> les résultats sont discutés.<br />

4.3.1 Essaims particulaires <strong>et</strong> optimisation multiobjectif<br />

4.3.1.1 Définition du problème <strong>et</strong> revue de l’existant<br />

Au même titre que les algorithmes évolutionnaires évoqués en 4.2.2, l’<strong>Optimisation</strong><br />

par Essaims Particulaires (OEP) est une métaheuristique d’optimisation<br />

reposant sur une population de solutions candidates. Proposée initialement<br />

dans [112], elle s’inspire de la nature en cherchant à copier le comportement social<br />

d’animaux évoluant en essaims. Dans un algorithme d’OEP, les particules<br />

sont des solutions potentielles du problème d’optimisation. Elles se déplacent<br />

dans un espace de dimension n, où n est le nombre de variables du problème.<br />

À chaque itération de l’algorithme, les positions des particules sont mises à<br />

jour en utilisant les équations simples de déplacement suivantes :<br />

vi,t+1 = ω.r0.vi,t + (4.1)<br />

c1.r1. (pi,best − xi,t) +<br />

c2.r2. (pi,guide − xi,t)<br />

xi,t+1 = xi,t + χ(vi,t+1) (4.2)<br />

Dans ces équations, xi,t est la position de la i eme particule à l’instant t. vi,t<br />

est sa vitesse. pi,best <strong>et</strong> pi,guide sont respectivement la meilleure position visitée<br />

par la particule i au regard de la fonction à optimiser <strong>et</strong> la position d’une<br />

autre particule de l’essaim choisie comme guide. Les poids appliqués à ces<br />

positions sont respectivement appelés facteurs individuel <strong>et</strong> social. Ils sont tous<br />

les deux calculés en multipliant un coefficient cx fixé a priori par une valeur rx<br />

aléatoirement tirée dans [0, 1]. En fonction des valeurs prises par ce produit,<br />

les particules auront tendance à explorer l’espace ou à affiner leur position<br />

dans un voisinage donné. Les valeurs du produit rxcx ont donc un impact<br />

important sur la convergence de l’algorithme. ω est appelé facteur d’inertie.<br />

Un grand facteur d’inertie provoque une grande exploration de l’espace de<br />

recherche alors qu’un p<strong>et</strong>it facteur d’inertie concentre la recherche sur un p<strong>et</strong>it<br />

espace. La valeur de ω peut être constante ou évoluer au cours du temps comme<br />

dans [217]. Une valeur importante aura tendance à faire suivre à la particule


tel-00671168, version 1 - 8 Oct 2012<br />

4.3. Contributions 77<br />

sa direction précédente, même si un facteur r0 tiré aléatoirement dans [0, 1]<br />

perm<strong>et</strong> de nuancer c<strong>et</strong> aspect. La fonction χ() est généralement implémentée<br />

comme un simple facteur de turbulence [150], mais elle peut aussi correspondre<br />

à une fonction de normalisation ou une fonction de constriction, qui conserve<br />

la direction de la particule mais empêche une divergence de sa vitesse [159].<br />

Pendant les dix dernières années, les algorithmes d’OEP ont été très largement<br />

étudiés <strong>et</strong> appliqués à de très nombreux domaines d’ingénierie. Les<br />

résultats obtenus ont montré qu’ils étaient compétitifs par rapport aux autres<br />

métaheuristiques d’optimisation telles que les algorithmes évolutionnaires ou<br />

les colonies de fourmis ([119, 151, 190]). Ces succès, couplés à l’émergence des<br />

problématiques d’optimisation multiobjectif, ont naturellement amené la communauté<br />

à s’intéresser à leur transformation pour appréhender des problèmes<br />

à objectifs multiples [175].<br />

Le principal changement dans c<strong>et</strong> algorithme provient naturellement de<br />

l’absence de relation d’ordre total entre les solutions, si ce n’est pas le biais<br />

d’une aggrégation des critères. Ainsi, il n’existe plus réellement de meilleure<br />

particule, ni de meilleure position d’une particule. Dans ce contexte, les deux<br />

principales difficultés à surmonter sont [175] :<br />

– la sauvegarde des solutions non dominées constituant l’estimation de<br />

l’ensemble de Par<strong>et</strong>o, qui impose la gestion d’une population externe,<br />

appelée archive, dont il est important de gérer la taille <strong>et</strong> la diversité<br />

pour éviter une explosion du nombre de comparaisons <strong>et</strong> pour fournir<br />

une solution exploitable à l’utilisateur ;<br />

– la gestion de la mémoire de la particule (traditionnellement la meilleure<br />

position visitée) ainsi que la sélection de la particule guide dans l’essaim.<br />

Ces modifications sont illustrées par l’algorithme 1. Les lignes 7, 11 <strong>et</strong><br />

13 illustrent respectivement l’intégration de la relation de dominance dans la<br />

gestion de la mémoire de la particule, la gestion de l’archive <strong>et</strong> la sélection du<br />

guide.<br />

Dans [75], nous avons proposé des solutions originales à ces problèmes. Elles<br />

sont synthétisées dans les paragraphes suivants.<br />

4.3.1.2 Approche proposée<br />

Gestion de l’archive Le passage d’un problème mono-objectif à un problème<br />

multiobjectif basé sur la dominance de Par<strong>et</strong>o impose d’intégrer dans<br />

l’algorithme d’optimisation par essaims particulaires une archive contenant<br />

l’approximation courante de l’ensemble de Par<strong>et</strong>o du problème. Une approche<br />

simpliste consisterait à y intégrer toutes les solutions non dominées rencontrées<br />

lors de l’évolution des particules. Toutefois, il serait alors impossible de gérer<br />

la taille de l’archive <strong>et</strong> sa diversité. La solution généralement préconisée par<br />

la littérature pour résoudre ce problème consiste à remplacer la dominance de<br />

Par<strong>et</strong>o classique par l’ɛ-dominance, proposée dans [122] <strong>et</strong> évaluée dans [149].<br />

Deux alternatives sont disponibles dans la littérature en termes de définition :<br />

l’ɛ-dominance additive proposée dans [122] ou l’ɛ-dominance multiplicative décrite<br />

dans [149]. Un consensus semble aujourd’hui se dégager pour la seconde<br />

solution pour laquelle le choix de la valeur d’ɛ est simplifié. Toutefois, les expériences<br />

que nous avons menées <strong>et</strong> décrites dans [75] en utilisant c<strong>et</strong>te définition


tel-00671168, version 1 - 8 Oct 2012<br />

78 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

Algorithm 1 Algorithme de l’implémentation des MOPSO.<br />

1: DÉBUT<br />

2: t ← 0<br />

3: Initialisation aléatoire de l’essaim<br />

4: répéter<br />

5: pour chaque particule i faire<br />

6: M<strong>et</strong>tre à jour la position xi,t+1 de la particule en utilisant l’eq. 4.2<br />

7: si pi,t+1 ≺ pi,best alors<br />

8: pi,best ← pi,t+1<br />

9: finsi<br />

10: fin pour<br />

11: M<strong>et</strong>tre à jour l’archive<br />

12: pour chaque particule i faire<br />

13: Sélectionner un guide pi,guide<br />

14: fin pour<br />

15: Évaluer les critères de fin<br />

16: t ← t + 1<br />

17: tant que les critères de fin ne sont pas atteints<br />

18: FIN<br />

de ɛ-dominance multiplicative ont mis en exergue le fait que celle-ci ne perm<strong>et</strong>tait<br />

pas de décrire de façon homogène le front de Par<strong>et</strong>o. C’est pourquoi nous<br />

avons proposé une variante de c<strong>et</strong>te dominance. Les équations 4.3 à 4.5 donnent<br />

respectivement les définitions de l’ɛ-dominance additive, de l’ɛ-dominance multiplicative<br />

<strong>et</strong> de notre proposition. La figure 4.9 illustre les différences entre ces<br />

différentes variantes.<br />

→ x i≺ → x j ⇔<br />

→ x i≺ → x j ⇔<br />

→ x i≺ → x j⇔<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

<br />

⎧<br />

⎨<br />

⎩<br />

<br />

∀k ∈ [1, N], fk( → xi) + ε ≤ fk( → xj)<br />

∃k ′ ∈ [1, N] | fk ′(→ xi) + ε < fk ′(→ xj)<br />

∀k ∈ [1, N], fk( → xi)<br />

1+ε ≤ fk( → xj)<br />

∃k ′ ∈ [1, N] | f k ′(→ xi)<br />

1+ε < fk ′(→ xj)<br />

∀k ∈ [1, N], fk( → xi) ≤ fk( → xj)<br />

∃k ′ ∈ [1, N] | fk ′(→ xi) < fk ′(→ xj)<br />

OR<br />

⎧<br />

⎪⎨<br />

∃k ′ ∈ [1, N] |<br />

⎪⎩<br />

fk ′(→ xj) < fk ′(→ xi) < 1+2ε<br />

1+ε fk ′(→ xj)<br />

∀k ∈ [1, N], fk( → xi)<br />

1+ε ≤ fk( → xj)<br />

(4.3)<br />

(4.4)<br />

(4.5)<br />

Tout comme avec l’ε-dominance [148], la variante proposée perm<strong>et</strong> de gérer<br />

simultanément la dominance <strong>et</strong> le voisinage dans l’espace des objectifs. Elle<br />

perm<strong>et</strong> ainsi d’obtenir rapidement une approximation de l’ensemble de Par<strong>et</strong>o<br />

en modifiant la surface de dominance proportionnellement aux valeurs de critères.<br />

La variante proposée ajoute à ces propriétés le fait de mieux prendre<br />

en considération certaines formes particulières de front, en particulier les zones


tel-00671168, version 1 - 8 Oct 2012<br />

4.3. Contributions 79<br />

A B<br />

C<br />

Figure 4.3 – Illustration des variantes proposées : dominance classique de Par<strong>et</strong>o<br />

dominance (a), ε-dominance relative (b) <strong>et</strong> notre variante de l’ε-dominance<br />

(c). Les zones hachurées correspondent aux zones dominées par la particule ’o’<br />

pour lesquelles un seul objectif varie beaucoup. L’annexe C illustre c<strong>et</strong> avantage<br />

sur des problèmes de la littérature.<br />

Gestion de la mémoire <strong>et</strong> du guide Les performances d’un algorithme<br />

d’optimisation par essaims particulaires dépendent fortement des choix qui sont<br />

faits pour la gestion de la mémoire des particules <strong>et</strong> pour le choix du guide.<br />

Ces choix sont évidemment impactés par le passage du mono-objectif au multiobjectif.<br />

Pour le choix de la mémoire, nous avons opté dans [75] (Annexe C)<br />

pour l’utilisation de la dernière position non dominée visitée. Ce choix perm<strong>et</strong><br />

de réduire considérablement les temps de calcul par rapport aux stratégies plus<br />

évoluées telles que celles proposées dans [35].<br />

Pour la sélection du guide, nous avons proposé une méthode basée sur<br />

une approche stochastique, inspirée des processus de sélection utilisés dans les<br />

algorithmes génétiques. Il est prouvé dans [8] que de telles approches s’avèrent<br />

particulièrement efficaces. Ainsi, le guide est sélectionné par l’intermédiaire<br />

de la simulation d’un tirage par roue de loterie biaisée parmi les particules<br />

de l’archive. Les probabilités affectées à chaque particule dans ce cadre sont<br />

déterminées en fonction de la densité de leur voisinage sur l’estimation courante<br />

du front de Par<strong>et</strong>o, ce qui vise à améliorer la diversité sur le front. La métrique<br />

utilisée pour effectuer ce calcul de densité est détaillée dans [75].<br />

Le dernier problème abordé dans nos travaux concerne la stratégie mise en<br />

place pour modifier le guide. Il est en eff<strong>et</strong> important de ne pas modifier celuici<br />

à chaque itération pour que les particules aient le temps de converger vers<br />

celui-ci. Dans [75], nous avons proposé une approche consistant à (i) ne pas


tel-00671168, version 1 - 8 Oct 2012<br />

80 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

utiliser de guide lorque la particule vient d’être intégrée à l’archive, lui laissant<br />

ainsi explorer librement l’espace des paramètres en fonction de sa mémoire<br />

individuelle <strong>et</strong> de son inertie, (ii) changer de guide en fonction d’un tirage<br />

aléatoire biaisé par le nombre d’itérations pour lesquelles le même guide a été<br />

utilisé, là encore pour améliorer l’exploration de l’espace des paramètres.<br />

4.3.1.3 Résultats obtenus<br />

Les propositions décrites ci-avant ont été évaluées sur différents problèmes<br />

standards de la littérature de difficultés variables ([29, 44, 199]), en utilisant les<br />

métriques proposées par la communauté de l’optimisation multiobjectif. Ces<br />

métriques recouvrent les deux objectifs principaux de l’optimisation multiobjectif,<br />

à savoir la convergence vers le front de Par<strong>et</strong>o <strong>et</strong> la diversité. Les expérimentations<br />

menées, qui sont précisément décrites dans l’annexe C, visaient à<br />

illustrer l’apport des contributions en comparant les performances avec <strong>et</strong> sans<br />

nos propositions. Concernant la proposition de dominance, les résultats obtenus<br />

prouvent que le front est décrit de manière beaucoup plus fine avec notre<br />

proposition, à la fois en termes de diversité (évaluée par la Spacing M<strong>et</strong>ric)<br />

<strong>et</strong> d’extension (évaluée par la Maximal Extension). L’archive obtenue perm<strong>et</strong><br />

ainsi une bien meilleure description des solutions du problème. Concernant la<br />

stratégie de sélection de guide, là encore, les résultats obtenus ont montré une<br />

amélioration significative, en particulier pour les problèmes réputés les plus<br />

difficiles.<br />

L’approche a également été comparée avec l’algorithme de référence NSGA-<br />

II [71] sur un problème d’analyse de documents. La figure 4.4 montre les résultats<br />

obtenus par les deux algorithmes sur ce problème qui sera précisément<br />

décrit en 4.3.3. Elle illustre le fait que l’algorithme proposé perm<strong>et</strong> d’obtenir<br />

des résultats tout à fait compétitifs avec l’état de l’art <strong>et</strong> bien meilleurs que<br />

ceux que perm<strong>et</strong> d’obtenir une approche « scalarisée ».<br />

4.3.2 Approximation de courbes<br />

4.3.2.1 Définition du problème <strong>et</strong> revue de l’existant<br />

L’approximation de courbes planaires est un problème fréquemment abordé<br />

dans les communautés de l’analyse d’images <strong>et</strong> de l’analyse de documents. C’est<br />

en eff<strong>et</strong> un moyen classiquement adopté pour représenter, stocker <strong>et</strong> traiter des<br />

courbes numériques. Les résultats d’une approximation peuvent par exemple<br />

être utilisés pour représenter des formes dans un processus de reconnaissance<br />

[147, 97, 163, 154].<br />

L’approximation de courbes 2D peut être définie comme suit : soit une<br />

courbe décrite par une liste ordonnée de N points C = {pi = (xi, yi)} N<br />

i=1 . Le<br />

but d’un approximateur est de trouver une liste B = {bi = (xi, yi)} M<br />

i=1 ⊂ C<br />

constituée de M points (souvent appelés point dominants) <strong>et</strong> un ensemble<br />

de paramètres Θ = {θi} P<br />

i=1 décrivant la courbe approximant les points entre<br />

les bi consécutifs. Si C est une courbe ouverte (i.e. p1 = pN), p1 <strong>et</strong> pN sont<br />

généralement inclus dans l’ensemble B <strong>et</strong> par conséquent P = M − 1. Si au<br />

contraire la courbe est fermée, (i.e. p1 = pN), B ne contient a priori ni point<br />

initial ni point terminal <strong>et</strong> P = M puisque la courbe entre bP <strong>et</strong> b1 doit


tel-00671168, version 1 - 8 Oct 2012<br />

4.3. Contributions 81<br />

Figure 4.4 – Comparaison des estimations finales du front de Par<strong>et</strong>o d’un<br />

problème de sélection de modèle (NSAGII vs. MOPSO). La courbe marquée<br />

par des ’*’ correspond à une approche scalarisée à base d’aire sous la courbe<br />

ROC [168].<br />

être approximée. Notons que si les courbes approximantes sont réduites à des<br />

segments, on parle alors d’approximation polygonale <strong>et</strong> la définition de Θ n’est<br />

pas nécessaire. Dans le cas où les arcs de cercle sont considérés, Θ est défini<br />

par Θ = {θi = (xci, yci)} P<br />

i=1 où (xci, yci) désignent les coordonnées du centre<br />

de l’arc de cercle.<br />

De très nombreux algorithmes ont été proposés pour approximer des courbes<br />

dans ces différentes configurations. Parmi les approches existantes, deux paradigmes<br />

peuvent être distingués. Le premier consiste à approximer la courbe en<br />

détectant des points particuliers, en général sur la base d’heuristiques liées à la<br />

courbure. La littérature est extrêmement abondante pour ce type d’approches<br />

[179, 201, 10, 173, 67, 140, 143] <strong>et</strong> un état de l’art très compl<strong>et</strong> est disponible<br />

dans [45]. Dans le second cas, l’approximation est considérée comme un processus<br />

d’optimisation [162, 182, 115, 96, 184, 160]. Un critère d’erreur est défini<br />

<strong>et</strong> l’algorithme cherche à optimiser l’approximation au regard de ce critère. On<br />

peut distinguer deux types de formulation d’une telle optimisation [115] :<br />

– min − ɛ : la valeur de M est fixée <strong>et</strong> le processus repose sur une minimisation<br />

de l’approximation de l’erreur. En général, le critère repose sur<br />

une erreur quadratique définie par ISE = P<br />

i=1 e2 i où ei est la distance<br />

entre pi <strong>et</strong> la courbe approximante.<br />

– min − # : une tolérance maximale sur l’erreur d’approximation est fixée<br />

<strong>et</strong> le processus minimise le nombre de points d’approximation P (i.e.<br />

maximise le taux de compression).<br />

Or, minimiser l’ISE <strong>et</strong> le nombre de points P sont deux objectifs antagonistes.<br />

Dans ce cadre, des auteurs ont proposé des critères scalaires combinant<br />

les deux valeurs. Ainsi, Sarkar propose dans [185] un critère nommé Figure


tel-00671168, version 1 - 8 Oct 2012<br />

82 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

Of Merit défini par F OM = CR/ISE. Markji <strong>et</strong> Syi proposent dans [141]<br />

un autre critère défini par W E x 2 = ISE/CRx . Une bonne revue des critères<br />

existants est proposée dans [46]. Dans [130], nous avons proposé de traiter le<br />

problème de l’approximation de courbes sous l’angle de l’optimisation multiobjectif.<br />

L’approche est décrite dans la sous-section suivante.<br />

4.3.2.2 Approche proposée<br />

L’approche que nous avons proposée dans [130] pour aborder le problème<br />

d’approximation de courbes dans le cadre de l’optimisation multiobjectif repose<br />

sur l’utilisation d’un algorithme de la littérature, suivant la stratégie illustrée<br />

sur la figure 4.2. Pour appliquer c<strong>et</strong> algorithme au problème défini ci-dessus,<br />

celui-ci a été spécialisé. C<strong>et</strong>te spécialisation repose d’abord sur le codage des<br />

individus. Ainsi, un individu doit représenter une solution possible du problème<br />

d’approximation. Pour ce faire, un individu est simplement composé de<br />

N gènes. Un gène à ’1’ signifie que le point est conservé comme point dominant.<br />

Si sa valeur est ’0’, le point n’est pas r<strong>et</strong>enu. Une seconde spécialisation<br />

concerne l’initialisation de la population. Pour réduire le nombre d’itérations<br />

de l’algorithme, un opérateur d’initialisation spécifique a été proposé. Il s’appuie<br />

sur une analyse préalable de la courbe à traiter en utilisant une fenêtre<br />

glissante de 3 points. Un histogramme des configurations est construit lors<br />

de c<strong>et</strong>te analyse. Des probabilités en sont déduites <strong>et</strong> sont utilisées lors de<br />

l’initialisation des individus.<br />

Les opérateurs utilisés pour faire évoluer la population sont des opérateurs<br />

génétiques classiques. Pour le croisement, une permutation à un point est utilisée.<br />

Elle perm<strong>et</strong> de croiser les bonnes approximations de deux parties d’une<br />

courbe. Pour la mutation, un choix aléatoire est effectué entre deux possibilités.<br />

La première est une mutation classique consistant à changer la valeur<br />

d’un gène de 0 (resp. 1) à 1 (resp. 0). La seconde consiste à déplacer un point<br />

dominant d’une position à sa précédente ou à sa suivante. Il perm<strong>et</strong> d’affiner<br />

une approximation.<br />

L’évaluation d’un individu consiste à calculer (i) le nombre de points dominants,<br />

qui est simplement une somme de la valeur des gènes <strong>et</strong> (ii) l’ISE de<br />

l’approximation correspondante. C<strong>et</strong>te valeur est calculée en sommant les erreurs<br />

obtenues entre chaque paire de points dominants consécutifs. Pour chaque<br />

paire, l’algorithme compare l’ISE obtenue avec un segment avec celle obtenue<br />

avec un arc. Dans le cas d’un segment, nous utilisons ISE = n<br />

i=1 d2 i<br />

, où di<br />

est la distance orthogonale du i eme point au segment <strong>et</strong> où n est le nombre de<br />

points entre les extrémités de la courbe. Dans le cas d’arcs de cercle, l’évalutation<br />

repose sur deux étapes. La première consiste à estimer la position du<br />

centre de l’arc sous la contrainte de la position des points extrémités. Une<br />

telle estimation est très coûteuse en temps si une approche exacte est utilisée.<br />

Aussi, nous utilisons une approximation proposée dans [161], qui repose sur<br />

une fonction d’erreur définie dans [203]. Ainsi, le centre de l’arc approximant<br />

une séquence de point (x1, ..., xn) est calculé par :<br />

<br />

(xc, yc) = −<br />

n i=1 K1K2<br />

n i=1 K1K3<br />

<br />

, axc + b<br />

(4.6)


tel-00671168, version 1 - 8 Oct 2012<br />

4.3. Contributions 83<br />

avec :<br />

– a = −(xn − x1)/(yn − y1),<br />

– b = ((y1 + yn)/2) − (a(x1 + xn)/2)),<br />

– K1 = −x1 − ay1 + xi + ayi,<br />

– K2 = x 2 1 + (y1 − b) 2 − x 2 i − (yi − b) 2 ,<br />

– K3 = −2x1 − 2a(y1 − b) + 2xi + 2a(yi − b).<br />

L’ISE peut ensuite être calculée par :<br />

ISE =<br />

n<br />

i=1<br />

avec R 2 = (x1 − xc) 2 + (y1 − yc) 2<br />

4.3.2.3 Résultats obtenus<br />

<br />

R − (xi − xc) 2 + (yi − yc) 2<br />

2 (4.7)<br />

Pour valider les performances de l’algorithme proposé, ce dernier a été<br />

évalué sur quatre courbes de référence proposées dans [201] <strong>et</strong> illustrées sur la<br />

figure 4.5.<br />

Par définition, l’algorithme proposé consiste à estimer l’ensemble de Par<strong>et</strong>o<br />

du problème biobjectif correspondant. Aussi, le résultat est un ensemble<br />

de couples ISE/nombre de points dominants. Pour valider la convergence de<br />

l’algorithme, nous avons d’abord comparé les résultats qu’il perm<strong>et</strong> d’obtenir<br />

avec une approche exhaustive recherchant les ISE optimales (en utilisant [162])<br />

pour un nombre variable de points dominants. La figure 4.6 illustre le résultat<br />

obtenu. Elle montre que, grâce à la manipulation de populations de solutions<br />

à la base de l’approche, l’algorithme perm<strong>et</strong> de trouver en une seule exécution<br />

un ensemble d’approximations proches des résultats optimaux, pour différents<br />

nombre de points dominants.<br />

Les résultats obtenus ont également été comparés à ceux de la littérature.<br />

Une telle comparaison est une tâche difficile pour plusieurs raisons. D’abord, la<br />

littérature est assez pauvre concernant l’approximation de courbes par des segments<br />

<strong>et</strong> des arcs de cercle. À notre connaissance, moins de dix approches ont<br />

été proposées à ce jour pour résoudre une telle tâche ([180, 55, 96, 95, 184, 207,<br />

98, 100, 155]). Par ailleurs, parmi les approches existantes, très peu d’articles<br />

donnent des résultats sur les courbes de références proposées par [201]. Enfin,<br />

pour ces quelques articles, comme souvent quand plusieurs objectifs sont<br />

considérés dans un problème d’optimisation, les résultats sont fournis pour<br />

uniquement quelques nombres de points dominants. Le tableau 4.1 résume ces<br />

résultats <strong>et</strong> les compare avec ceux obtenus par notre algorithme.<br />

Ces résultats amènent plusieurs observations. La première est que, à nombre<br />

fixé de points, l’approche proposée n’est pas « meilleure » que celles de la littérature.<br />

Pour la plupart des configurations, l’une des approches de la littérature<br />

perm<strong>et</strong> d’obtenir une ISE inférieure. Cependant, ce n’est pas toujours le même<br />

algorithme qui perm<strong>et</strong> d’atteindre la performance optimale. Ainsi, il n’existe<br />

pas d’approche qui domine toutes les autres. Par ailleurs, l’avantage principal<br />

de l’approche proposée est qu’une seule exécution de l’algorithme suffit pour<br />

obtenir un ensemble de solutions parmi lesquelles l’utilisateur peut choisir le<br />

compromis qui lui convient. Enfin, l’approche est générique. Elle peut être


tel-00671168, version 1 - 8 Oct 2012<br />

84 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

(a) Chromosome (b) Eight<br />

(c) Semicircle (d) Leaf<br />

Figure 4.5 – Les 4 courbes de test proposées dans [201]. (a) chromosomeshaped<br />

avec 60 points ; (b) figure-of-eight avec 45 points ; (c) four-semicircle<br />

avec 102 points <strong>et</strong> (d) leaf-shaped avec 120 points. .<br />

adaptée à tout type de courbe paramétrique (ellipses, B-Splines), contrairement<br />

aux approches basées sur la détection de points dominants.<br />

L’approche <strong>et</strong> les résultats présentés dans c<strong>et</strong>te sous-section militent clairement,<br />

selon nous, pour la prise en compte des deux objectifs dans le contexte<br />

de l’approximation de courbes. Dans la section suivante, nous montrons que<br />

cela peut également être le cas dans le domaine de l’apprentissage.<br />

4.3.3 Sélection de modèles<br />

C<strong>et</strong>te sous-section synthétise les travaux que nous avons proposés dans le<br />

domaine de l’apprentissage multiobjectif, en particulier pour la sélection de<br />

modèles multiples de classifieurs SVM.<br />

4.3.3.1 Définition du problème <strong>et</strong> revue de l’existant<br />

Le réglage des hyperparamètres d’un classifieur est une étape critique de<br />

la construction d’un système de reconnaissance de formes. C<strong>et</strong> aspect crucial


tel-00671168, version 1 - 8 Oct 2012<br />

4.3. Contributions 85<br />

Figure 4.6 – Comparaison entre le front de Par<strong>et</strong>o réel du problème (’o’)<br />

obtenu en utilisant une adaptation de l’approche proposée dans [162] <strong>et</strong> les résultats<br />

obtenus avec l’algorithme multiobjectif (’x’) pour la courbe leaf-shaped<br />

Reference Chromosome Figure-of-eight Leaf Semicirles<br />

N ISE N ISE N ISE N ISE<br />

[96] 10 2,67 6 3,06 16 11,31 4 6,94<br />

[184] 10 2,60 6 3,26 16 10,96 4 6,94<br />

11 2,18 8 2,36 18 7,40 6 5,83<br />

15 1,23 9 2,03 31 1,64 12 4,31<br />

[98] 10 3,31 6 3,32 19 9,18 4 6,94<br />

20 6,27 8 6,83<br />

Optimal Values 10 2,42 6 3,06 16 10,54 4 6,94<br />

11 1,94 8 2,27 19 6,18 6 5,77<br />

15 1,08 9 1,92 20 5,28 8 5,24<br />

31 1,34 12 3,98<br />

Proposed Approach 10 2,68 6 3,23 16 14,73 4 6,94<br />

11 2,25 8 2,38 19 6,99 6 5,83<br />

15 1,27 9 1,99 20 6,69 8 5,25<br />

31 1,48 12 4,19<br />

Table 4.1 – Comparaison des résultats obtenus par l’approche proposée <strong>et</strong> les<br />

résultats de la littérature pour les différentes courbes de test.<br />

de la sélection de modèles a en eff<strong>et</strong> un impact fort sur les performances en<br />

généralisation du système.<br />

Les travaux menés dans le cadre de la thèse de Simon Bernard [21] sur le<br />

paramétrage des forêts aléatoires constituent une illustration parfaite de c<strong>et</strong>te<br />

constatation. Nous y avons montré que la valeur du nombre K de caractéristiques<br />

choisies aléatoirement à chaque nœud lors de l’induction des arbres avait<br />

une influence importante sur les performances de l’ensemble [22, 24]. La figure<br />

4.7 illustre c<strong>et</strong> aspect par les performances obtenues par l’algorithme Forest-RI<br />

[36] sur douze bases de l’UCI Machine Learning repository [1] en faisant va


tel-00671168, version 1 - 8 Oct 2012<br />

86 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

rier la valeur de K. On y constate la variabilité des performances en fonction<br />

de K, mais aussi le fait que la valeur optimale de K est variable en fonction<br />

des problèmes traités. Ces résultats ont d’ailleurs motivé la proposition d’un<br />

algorithme nommé Forest-RK qui adapte la valeur de K au problème traité<br />

[25, 23].<br />

Figure 4.7 – Taux d’erreurs moyens obtenus en fonction de la valeur du paramètre<br />

K sur différentes bases de l’UCI. La valeur optimale de K est marquée<br />

sur chacune des courbes.<br />

Ce problème du réglage des hyperparamètres n’est évidemment pas propre<br />

aux forêts aléatoires. On le r<strong>et</strong>rouve pour tout type de classifieur. Dans la littérature,<br />

la plupart des contributions relatives à c<strong>et</strong>te problématique concernent<br />

la proposition des critères à optimiser pour régler les hyperparamètres. Elles<br />

ont mené à de nombreux critères <strong>et</strong> stratégies visant à résoudre ce problème. On<br />

peut citer par exemple le Xi-Alpha bound de [106], la Generalized Approximate<br />

Cross-Validation de [210], l’empirical error estimate de [15], la radius-margin<br />

bound de [51] ou la maximal-discrepancy de [9]. Une revue des travaux dans ce<br />

domaine est proposée dans [89]. En exploitant ces critères, les valeurs des hyperparamètres<br />

sont généralement choisies en utilisant une recherche en grille,<br />

associée à une procédure de validation croisée. Quelques auteurs y adjoignent<br />

des techniques de descente de gradient, en rendant dérivable le critère, pour<br />

réduire la complexité combinatoire [20, 110].<br />

Toutes ces approches, bien qu’efficaces, reposent sur un critère unique. Or,<br />

il est désormais admis qu’un critère unique n’est pas toujours un indicateur


tel-00671168, version 1 - 8 Oct 2012<br />

4.3. Contributions 87<br />

de performances suffisant. En particulier, un critère scalaire n’est pas adapté<br />

lorsque les coûts de mauvaise classification sont (i) asymétriques (par exemple<br />

dans le domaine médical ou la biométrie), (ii) difficiles à estimer (par exemple<br />

quand le processus de classification est intégré dans un système plus complexe)<br />

<strong>et</strong> (iii) évolutifs au cours de la vie du système (par exemple pour des problématiques<br />

de détection de fraudes).<br />

Dans de tels environnements généralement appelés « mal définis », les critères<br />

scalaires utilisés pour construire un classifieur unique sont inadaptés. Une<br />

alternative de plus en plus utilisée pour considérer ce problème est d’utiliser<br />

la courbe ROC (Receiver Operating Characteristics) proposée dans [34] pour<br />

évaluer les performances d’un classifieur. Dans le contexte d’un problème à<br />

deux classes, une courbe ROC (Figure 4.1) est une représentation synthétique<br />

des compromis entre les taux de vrais positifs <strong>et</strong> de faux positifs. Il existe<br />

des travaux en apprentissage s’appuyant sur l’espace ROC pour sélectionner<br />

le modèle du classifieur [80, 168, 33]. Toutefois, ils reposent en général sur une<br />

scalarisation en résumant la courbe ROC à une valeur telle que la F-Mesure,<br />

le break even point, ou l’aire sous la courbe ROC (Area Under Curve-AUC).<br />

Notons également l’existence de quelques travaux ([188, 76]) pour lesquels les<br />

deux critères de l’espace ROC sont intégrés dans le cadre de l’apprentissage de<br />

classifieurs.<br />

4.3.3.2 Approche proposée<br />

Dans [52], nous avons proposé de ne pas faire reposer le choix du modèle<br />

sur un critère scalaire visant à trouver le « meilleur » classifieur global, mais de<br />

construire une population de classifieurs localement optimaux. Le classifieur le<br />

plus adapté au contexte courant peut ainsi être sélectionné. L’environnement<br />

proposé peut donc être assimilé à une approche de sélection de modèles multiples<br />

qui s’inscrit naturellement dans le cadre de l’optimisation multiobjectif.<br />

Nous avons appelé « Front ROC » la sortie d’un tel système, par analogie avec<br />

la terminologie utilisée en optimisation multiobjectif. Ce concept est illustré<br />

sur la figure 4.8. Une telle vision du problème perm<strong>et</strong> à un utilisateur (éventuellement<br />

une étape ultérieure de traitement), de déplacer le problème du<br />

choix du modèle à une étape ultérieure, évitant l’injection de connaissances<br />

a priori qui ne sont pas toujours disponibles au moment de la conception du<br />

système. Par ailleurs, le classifieur utilisé peut être modifié au cours de la vie<br />

du système si les conditions changent, sans nécessiter un réapprentissage des<br />

données.<br />

L’approche, qui est généralisable à n’importe quel type de classifieur muni<br />

d’hypeparamètres, a été implémentée en utilisant un classifieur de type SVM.<br />

Ce type de classifieur perm<strong>et</strong> en eff<strong>et</strong> de bien prendre en charge les problèmes<br />

de classification à deux classes avec des coûts de mauvaise classification asymétriques,<br />

en introduisant, à la place du paramètre C classique, deux paramètres<br />

de pénalités différents C− <strong>et</strong> C+ [158]. Dans ce cas, étant donné un ensemble<br />

de m exemples d’apprentissage xi ∈ ℜ n appartenant à la classe yi, la maximisation<br />

du lagrangien dual par rapport aux αi devient :


tel-00671168, version 1 - 8 Oct 2012<br />

88 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

Figure 4.8 – Illustration synthétique du concept de Front ROC. La courbe<br />

continue est une courbe ROC correspondant à un classifieur pour lequel l’AUC<br />

a été optimisée. Les courbes 1,2 <strong>et</strong> 3 sont les courbes ROC de 3 classifieurs du<br />

Front ROC. Le Front ROC contient les parties non dominées de ces courbes.<br />

Maxα<br />

m <br />

i=1<br />

sous les contraintes :<br />

αi − 1<br />

2<br />

⎧<br />

⎨<br />

⎩<br />

m<br />

i,j=1<br />

<br />

αiαjyiyjK(xi, xj)<br />

0 ≤ αi ≤ C+ pour yi = −1<br />

0 ≤ αi ≤ C− pour yi = +1<br />

m<br />

i=1 αiyi = 0<br />

où les αi représentent les multiplicateurs de Lagrange <strong>et</strong> K(.) représente la<br />

fonction noyau. Dans le cas d’un noyau gaussien, K(.) est défini par :<br />

K(xi, xj) = exp −γ × xi − xj 2<br />

Ainsi, dans le cas de coûts de mauvaise classification asymétriques, trois<br />

paramètres doivent être déterminés pour réaliser un apprentissage optimal de<br />

SVM :<br />

– le paramètre du noyau, γ pour un le noyau gaussien ;<br />

– les paramètres de pénalité introduits ci-dessus : C− <strong>et</strong> C+.<br />

Dans [52], nous avons choisi l’algorithme NSGA-II proposé dans [71] pour<br />

optimiser la valeur de ces paramètres au regard des deux critères de l’espace<br />

ROC. Celui-ci est reconnu comme étant l’un des plus efficaces à la fois pour<br />

la convergence vers le front de Par<strong>et</strong>o du problème <strong>et</strong> pour la diversité des<br />

solutions. Un codage réel a été utilisé pour représenter les paramètres. Les<br />

opérateurs génétiques perm<strong>et</strong>tant de faire évoluer la population sont les opérateurs<br />

natifs proposés dans [71]. La stratégie utilisée est synthétisée sur la figure<br />

4.9.<br />

4.3.3.3 Résultats obtenus<br />

L’approche proposée a été évaluée à la fois sur des bases de données publiques<br />

de l’UCI Machine Learning repository [1] <strong>et</strong> sur un problème d’analyse<br />

d’images de documents. Comme dans le cas de l’approximation de courbes<br />

présentée en 4.3.2, la comparaison avec des approches de la littérature a été


tel-00671168, version 1 - 8 Oct 2012<br />

4.3. Contributions 89<br />

Figure 4.9 – Approche proposée pour la sélection de modèles multiples<br />

rendue complexe par (i) le fait que les autres méthodes proposent généralement<br />

un classifieur unique <strong>et</strong> par (ii) la difficulté de la tâche de comparaison de sorties<br />

d’algorithmes d’optimisation muli-objectifs. Dans ce cadre, nous avons<br />

pris le parti de moyenner les performances locales des classifieurs sur le front<br />

ROC, afin d’obtenir une valeur comparable à l’AUC. En restant conscient que<br />

c<strong>et</strong>te comparaison n’est théoriquement pas correcte puisque nous comparons<br />

un classifieur unique à une population de classifieurs, nous avons donc calculé<br />

une AUF (Area Under Front) qui peut être comparée à l’AUC obtenue par différentes<br />

approches, à savoir celles proposées dans [33] (Decision lists <strong>et</strong> rules<br />

s<strong>et</strong>s), [68] (Rankboost), [81] (Decision trees), [168] (SVMs) and [214] (5 classifieurs<br />

différents). Une validation croisée sur 5 sous-ensembles a été réalisée<br />

pour attester de la stabilité des résultats.<br />

Les résultats sont présentés dans le tableau 4.2. La première colonne contient<br />

les meilleures valeurs d’AUC trouvées dans la littérature <strong>et</strong> la seconde les valeurs<br />

d’AUF obtenues avec l’approche de sélection de modèles multiples.<br />

problème UCI AUC literature ref. AUF<br />

australian 90.25 ± 0.6 [214] 96.22 ± 1.7<br />

wdbc 94.7 ± 4.6 [81] 99.59 ± 0.4<br />

breast cancer 99.13 [33] 99.78 ± 0.2<br />

ionosphere 98.7 ± 3.3 [168] 99.00 ± 1.4<br />

heart 92.60 ± 0.7 [214] 94.74 ± 1.9<br />

pima 84.80 ± 6.5 [68] 87.42 ± 1.2<br />

Table 4.2 – Comparaison entre l’AUC (Area Under Curve) obtenue par des<br />

approches de la littérature avec l’AUF (Area Under Front) de l’approche décrite<br />

dans [52]<br />

Comme attendu, ces résultats montrent que le front ROC perm<strong>et</strong> d’atteindre<br />

des performances qu’un classifieur unique ne perm<strong>et</strong> pas d’obtenir.<br />

Même si c<strong>et</strong>te comparaison est incorrecte, elle illustre toutefois le fait que<br />

l’approche proposée perm<strong>et</strong> d’atteindre localement des compromis que les approches<br />

globales ne perm<strong>et</strong>tent pas d’atteindre.<br />

Au vu de ces résultats, l’approche a également été testée dans le cadre de


tel-00671168, version 1 - 8 Oct 2012<br />

90 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

la conception d’un système qui extrait les champs numériques (numéros de téléphone,<br />

code postal, code client . . . ) dans des images de courriers manuscrits<br />

[53, 54] (fig. 4.10). La principale difficulté d’une telle tâche vient du fait que<br />

les chiffres manuscrits peuvent être connectés à d’autres parties textuelles ou à<br />

des éléments graphiques du document. La figure 4.11 donne quelques exemples<br />

de composantes segmentées que le système doit reconnaître. Dans ce contexte,<br />

la détection des chiffres, leur segmentation <strong>et</strong> leur reconnaissance doivent être<br />

réalisées simultanément dans un système global. La première étape du système<br />

proposé dans [53, 54] consiste à filtrer d’abord les rej<strong>et</strong>s évidents, pour éviter<br />

de leur appliquer une phase de reconnaissance coûteuse en temps de calcul.<br />

C<strong>et</strong>te étape repose sur une classification à deux classes pour laquelle les coûts<br />

de mauvaise classification sont asymétriques <strong>et</strong> inconnus. En eff<strong>et</strong>, le rej<strong>et</strong> d’un<br />

chiffre peut avoir des conséquences importantes sur la détection <strong>et</strong> la reconnaissance<br />

d’un champ numérique compl<strong>et</strong> mais ces conséquences ne sont pas<br />

évaluables a priori. Par ailleurs, ce composant de classification étant embarqué<br />

dans un système compl<strong>et</strong> d’extraction de séquences numériques, il est difficile<br />

d’estimer ces coûts a priori.<br />

Figure 4.10 – Exemple d’image de courrier entrant. Les champs numériques<br />

à extraire sont surlignés.<br />

Dans ce cadre, une base constituée de 19278 formes (1/3 digit, 2/3 outliers)<br />

a été constituée. L’approche a été évaluée en utilisant le même protocole<br />

expérimental que celui mis en œuvre pour les données de l’UCI. La courbe<br />

de la figure 4.12 illustre les résultats obtenus. Sur c<strong>et</strong>te courbe, on constate<br />

que chacun des points obtenus par l’approche à base d’AUC est dominé par<br />

au moins un point du front ROC. L’approche a ainsi permis de construire un<br />

ensemble de classifieurs localement « meilleurs » que celui construit en utilisant<br />

l’approche proposée dans [168]. Chacun de ces classifieurs a ensuite été<br />

intégré dans le système compl<strong>et</strong> afin d’évaluer l’influence de ces performances<br />

sur les performances en rappel <strong>et</strong> précision. Le tableau 4.3 décrit les résultats<br />

obtenus. Ils illustrent le fait que de p<strong>et</strong>ites différences sur les taux de vrais<br />

positifs peuvent avoir des conséquences importantes sur les performances fi


tel-00671168, version 1 - 8 Oct 2012<br />

4.3. Contributions 91<br />

Figure 4.11 – Exemples de chiffres manuscrits <strong>et</strong> de rej<strong>et</strong>s évidents. La première<br />

ligne (a) contient des formes qui peuvent être considérées comme des<br />

« rej<strong>et</strong>s évidents ». La dernière ligne (c) contient des chiffres qui doivent être<br />

soumis au processus de reconnaissance. La ligne (b) contient les rej<strong>et</strong>s ambigus,<br />

qui ressemblent à des chiffres mais qui doivent être rej<strong>et</strong>és par le système<br />

proposé.<br />

nales du système, validant ainsi l’intérêt de ne pas avoir fait le choix d’un seul<br />

classifieur globalement bon.<br />

Figure 4.12 – Comparaison entre le Front ROC obtenu avec l’approche proposée<br />

<strong>et</strong> une courbe ROC obtenue en utilisant [168]. La courbe représente les<br />

compromis entre fausse acceptation <strong>et</strong> faux rej<strong>et</strong> de chiffres manuscrits.<br />

Classifier TP rate 98.8 99.04 99.26 99.48 99.76 99.96 100<br />

recall 0.370 0.410 0.440 0.458 0.462 0.481 0.488<br />

precision 0.110 0.130 0.150 0.176 0.246 0.223 0.152<br />

System F1-Measure 0.170 0.197 0.224 0.254 0.321 0.305 0.232<br />

Table 4.3 – Précisions <strong>et</strong> Rappels obtenus pour le système compl<strong>et</strong> en utilisant<br />

différents classifieurs du Front ROC, ici caractérisés par leur taux de vrais<br />

positifs.


tel-00671168, version 1 - 8 Oct 2012<br />

92 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

4.4 Problèmes ouverts<br />

Dans ce chapitre, nous avons discuté des liens qui existent entre analyse de<br />

documents, évaluation de performances <strong>et</strong> optimisation multiobjectif. Après<br />

une présentation synthétique du problème de l’optimisation multiobjectif <strong>et</strong><br />

des solutions proposées dans la littérature, une contribution relative au domaine<br />

de l’optimisation a été proposée, au travers de l’amélioration d’un algorithme<br />

d’optimisation par essaims particulaires. Puis, les descriptions de deux<br />

contributions ont illustré le fait que la communauté de l’analyse de documents,<br />

<strong>et</strong> plus généralement de la reconnaissance de formes, pourrait tirer un grand<br />

bénéfice de la prise en compte de critères multiples, tant dans l’optique de<br />

l’évaluation de systèmes que pour le réglage <strong>et</strong> l’optimisation de ces derniers.<br />

Dans les deux cas, en dépit des difficultés liées à l’évaluation des approches,<br />

les résultats ont montré que la prise en compte d’objectifs multiples pouvait<br />

perm<strong>et</strong>tre de franchir un cap dans les performances par rapport à l’utilisation<br />

d’un critère scalaire.<br />

Dans c<strong>et</strong>te section, nous évoquons les perspectives directement issues de<br />

ces travaux. Une vision plus générale des pistes de recherche pour les années<br />

à venir dans la communauté sera proposée dans le chapitre 5. La première<br />

perspective importante à mentionner ici concerne la généralisation de la prise<br />

en compte d’objectifs multiples en analyse de documents, tant pour l’évaluation<br />

de performances que pour l’optimisation de systèmes. La seconde perspective<br />

importante concerne l’apprentissage multiobjectif avec une généralisation des<br />

travaux décrits en 4.3.3.<br />

4.4.1 Analyse de documents <strong>et</strong> objectifs multiples<br />

Les contributions proposées dans ce chapitre ont montré l’intérêt de la<br />

prise en compte de critères multiples pour l’évaluation <strong>et</strong> pour l’optimisation<br />

de certains composants de systèmes d’analyse d’images de documents. L’une de<br />

nos perspectives de recherche à court terme consiste naturellement à généraliser<br />

ce point de vue à d’autres outils utilisés dans les chaînes d’analyse. Dans ce<br />

contexte, les contributions décrites dans le chapitre 3, toutes deux basées sur<br />

des processus d’optimisation, constituent un très bon cadre d’étude.<br />

Pour la classification de graphes, de premiers travaux relatifs à l’intégration<br />

d’un critère de rej<strong>et</strong> lors de la génération des prototypes sont en cours. Ces<br />

travaux perm<strong>et</strong>tent d’offrir en sortie un ensemble de solutions parmi lesquelles<br />

il est possible de choisir le compromis erreur/rej<strong>et</strong> qui convient le mieux. La<br />

figure 4.13 illustre les premiers résultats obtenus dans le cadre de ces travaux.<br />

Sur c<strong>et</strong>te figure, une courbe donnée correspond aux différents compromis erreur/rej<strong>et</strong><br />

obtenus par différents ensembles de prototypes optimisés avec un<br />

algorithme d’optimisation multiobjectif. Les différentes courbes correspondent<br />

à l’évolution de la population au cours des générations de l’algorithme d’optimisation.<br />

Ces premiers résultats sont très encourageants puisqu’ils montrent<br />

que l’algorithme perm<strong>et</strong> d’une part d’améliorer les performances aux cours des<br />

générations <strong>et</strong>, d’autre part, de fournir des solutions diversifiées.<br />

Pour la contribution relative à l’isomorphisme de sous-graphes <strong>et</strong> son application<br />

à des problèmes de localisation de symboles, le système proposé en 3.4.1


tel-00671168, version 1 - 8 Oct 2012<br />

4.4. Problèmes ouverts 93<br />

Figure 4.13 – Évolution des performances des différents ensembles de prototypes<br />

en fonction du nombre de générations de l’algorithme d’optimisation<br />

est évalué par les deux critères classiques en recherche d’information que sont<br />

la précision <strong>et</strong> le rappel. L’optimisation d’une telle application pourrait donc<br />

naturellement bénéficier de la prise en compte de critères multiples. Dans le cas<br />

de la recherche d’isomorphismes tolérants aux substitutions, nous envisageons<br />

en particulier d’optimiser les fonctions de coûts cV <strong>et</strong> cE de l’équation 3.11a<br />

au regard de ces deux critères. Le bénéfice serait, là encore, de proposer un<br />

ensemble de compromis plutôt qu’une solution unique en sortie de l’algorithme.<br />

4.4.2 Apprentissage multiobjectif<br />

Ces perspectives de recherche font suite aux travaux menés en collaboration<br />

avec Clément Chatelain concernant le développement d’un cadre multicritère<br />

pour l’apprentissage automatique. Elles ont fait l’obj<strong>et</strong> d’une soumission<br />

nommée LeMOn (LEarning with <strong>Multi</strong>-objective OptimizatioN) lors de l’appel<br />

ANR Jeunes Chercheurs <strong>et</strong> Jeunes Chercheuses 2011 16 . Elles concernent<br />

deux aspects particuliers de l’apprentissage que nous souhaiterions aborder<br />

sous l’angle de l’optimisation multiobjectif.<br />

Le premier aspect concerne l’exploitation de l’espace ROC lors de l’apprentissage<br />

des classifieurs. Dans [52], nous avons proposé un environnement<br />

de sélection de modèles basé sur une approche d’optimisation multiobjectif.<br />

C<strong>et</strong> environnement perm<strong>et</strong> de construire un ensemble de classifieurs à deux<br />

classes localement optimaux dans l’espace ROC, plutôt qu’un unique basé sur<br />

un critère scalaire. Les perspectives ouvertes par ce travail concernent deux<br />

verrous. Le premier est le passage à l’échelle de l’approche afin d’appréhender<br />

de très grands volumes de données. En eff<strong>et</strong>, pour de tels volumes, la stratégie<br />

évolutionnaire proposée dans [52], qui repose sur de nombreux apprentissages<br />

de classifieurs, devient très coûteuse en temps de calcul. La piste envisagée dans<br />

le cadre du proj<strong>et</strong> LeMOn pour pallier ce problème consiste à combiner l’ap-<br />

16. Le proj<strong>et</strong>, dont je suis le porteur, est, à l’heure de l’écriture de ce manuscrit, en seconde<br />

position sur liste complémentaire


tel-00671168, version 1 - 8 Oct 2012<br />

94 Chapitre 4. <strong>Documents</strong> <strong>et</strong> optimisation multiobjectif<br />

proche évolutionnaire avec les travaux récemment proposés dans notre équipe<br />

pour l’apprentissage de SVM adapté aux problèmes de type Neyman-Person.<br />

Le second verrou concerne la généralisation de l’approche proposée à des problèmes<br />

multi-classes, pour lesquels le nombre de critères croît rapidement avec<br />

le nombre de classes (N(N −1) critères sont à considérer pour un problème à N<br />

classes). Il sera alors nécessaire d’adapter l’approche proposée <strong>et</strong> en particulier<br />

d’envisager l’intégration d’opérateurs génétiques dédiés perm<strong>et</strong>tant d’accélérer<br />

la convergence de l’algorithme.<br />

Le second aspect de l’apprentissage que nous envisageons d’aborder sous<br />

l’angle de l’optimisation multiobjectif est celui de l’apprentissage multi-tâches,<br />

qui consiste à apprendre simultanément plusieurs modèles par des transferts<br />

de connaissances d’un modèle vers l’autre. Ce paradigme a récemment permis<br />

d’obtenir de très bons résultats pour différentes applications [27, 12, 28, 102].<br />

Dans la littérature, ce problème est aujourd’hui formulé comme un problème<br />

d’optimisation pour lequel les objectifs relatifs à chacune des tâches sont combinés,<br />

en y ajoutant un terme de régularisation tel que :<br />

min<br />

f1,··· ,fT<br />

<br />

at · Lt(ft(xi,t), yi,t) + λΩ(f1, · · · , fT ). (4.8)<br />

t,i<br />

où Lt(ft(x), y) est la fonction de perte, Ω est un terme de régularisation impliquant<br />

les fonctions de pertes liées à toutes les tâches ft. Les {at} <strong>et</strong> λ sont<br />

des paramètres de pondération de chacun des objectifs.<br />

Nous envisageons dans le cadre du proj<strong>et</strong> LeMOn d’explorer le potentiel de<br />

l’optimisation multiobjectif à base de Par<strong>et</strong>o pour traiter ce genre de problème,<br />

afin de fournir en sortie un ensemble de solutions.<br />

Notons que dans le proj<strong>et</strong> LeMOn, il est prévu d’appliquer ces différents<br />

travaux à deux domaines d’application : l’analyse d’images médicales, en collaboration<br />

avec l’équipe Quantif du LITIS, <strong>et</strong> les interfaces cerveau-machine,<br />

en collaboration avec des chercheurs de l’équipe DocApp s’intéressant à c<strong>et</strong>te<br />

problématique.


tel-00671168, version 1 - 8 Oct 2012<br />

Chapitre 5<br />

Perspectives<br />

L’année 2011 fut l’occasion pour la communauté de l’analyse d’images de<br />

documents de célébrer le vingtième anniversaire de la conférence internationale<br />

sur l’analyse <strong>et</strong> la reconnaissance de documents (International Conference on<br />

Document Analysis and Recognition - ICDAR). Depuis sa première occurrence<br />

en 1991 à Saint-Malo, les recherches menées dans le domaine ont été à l’origine<br />

de nombreux succès, dont certains ont même conduit à l’industrialisation<br />

de solutions logicielles : pour la lecture de chèques, d’adresses postales <strong>et</strong> de<br />

formulaires pour ne citer que ces exemples. Le constat est identique dans le<br />

domaine plus ciblé de l’analyse de documents graphiques qui m’a particulièrement<br />

intéressé dans mon parcours de chercheur. On peut en eff<strong>et</strong> raisonnablement<br />

considérer aujourd’hui que certains outils, ceux qui sont réellement<br />

spécifiques aux documents graphiques (segmentation texte/graphique, vectorisation,<br />

reconnaissance de caractères multi-orientés <strong>et</strong> multi-échelles . . . ), ont<br />

atteint une maturité suffisante, en dépit des résultats imparfaits qu’ils perm<strong>et</strong>tent<br />

d’obtenir [204, 205].<br />

Toutefois, ces succès ne doivent pas masquer le nombre <strong>et</strong> l’ampleur des défis<br />

qui restent encore à relever dans ce domaine. En eff<strong>et</strong>, comme en témoignent<br />

les compétitions <strong>et</strong> les événements scientifiques nationaux <strong>et</strong> internationaux<br />

toujours plus nombreux, de nombreux verrous liés à l’analyse d’images de documents<br />

restent encore à lever. Les deux applications abordées dans ce mémoire,<br />

respectivement dédiées à la localisation de symboles dans des documents graphiques<br />

(§3.4.1) <strong>et</strong> à la détection de séquences numériques dans des courriers<br />

manuscrits (§4.3.3) ne sont que deux exemples des problématiques qui sont encore<br />

loin d’être résolues. Par ailleurs, de nouveaux usages émergent toujours <strong>et</strong><br />

font eux-mêmes apparaître d’autres défis scientifiques. Les nombreux proj<strong>et</strong>s<br />

récents ayant trait à la valorisation de fonds documentaires anciens (NAVIDO-<br />

MASS, IMPACT. . . ) constituent une parfaite illustration de ces aspects. Dans<br />

ce cadre, les nouvelles problématiques concernent l’extraction de la structure<br />

de documents complexes, la reconnaissance de caractères dégradés ou l’analyse<br />

de l<strong>et</strong>trines. Les perspectives de recherche pour la communauté de l’analyse de<br />

documents sont donc encore extrêmement nombreuses <strong>et</strong> il y a fort à parier<br />

que ICDAR fêtera ses 40 ans en 2031.<br />

Parmi ces perspectives, celles qui nous paraissent être les plus prom<strong>et</strong>teuses<br />

au regard de nos travaux antérieurs sont décrites dans la suite de ce<br />

95


tel-00671168, version 1 - 8 Oct 2012<br />

96 Chapitre 5. Perspectives<br />

chapitre. Plusieurs pistes de recherche ont déjà été présentées dans le corps<br />

de ce mémoire. En eff<strong>et</strong>, pour en faciliter la lecture, nous avons fait le choix<br />

de développer les perspectives directement liées à nos contributions à l’issue<br />

de la présentation de celles-ci (cf. §3.5 <strong>et</strong> §4.4). Nous rappelons ici les deux<br />

propositions que nous considérons comme les plus ambitieuses en précisant le<br />

contexte dans lequel nous envisageons de mener ces travaux.<br />

La première de ces pistes concerne la poursuite de nos travaux sur la recherche<br />

d’isomorphismes de sous-graphes, pour rendre l’approche proposée tolérante<br />

à des modifications de la topologie des graphes telles que l’absence dans<br />

le graphe cible de somm<strong>et</strong>s ou d’arcs pouvant être associés à ceux du graphe<br />

modèle. Ces travaux sont menés dans le cadre d’une collaboration avec des<br />

chercheurs de la communauté de la recherche opérationnelle <strong>et</strong> plus particulièrement<br />

de la programmation mathématique (issus du LMI de Rouen <strong>et</strong> du<br />

LRI d’Orsay). Les échanges que nous avons dans le cadre de c<strong>et</strong>te coopération,<br />

qui visent à optimiser l’utilisation des solveurs <strong>et</strong> à asseoir théoriquement les<br />

approches proposées, s’avèrent très prom<strong>et</strong>teurs. Ces travaux constituent selon<br />

nous un challenge important, qui dépasse l’enjeu applicatif de la localisation de<br />

symboles, en perm<strong>et</strong>tant d’envisager de manière plus générale la localisation<br />

d’obj<strong>et</strong>s bruités <strong>et</strong> non segmentables dans des images.<br />

La seconde piste importante que nous allons aborder dans les mois à venir<br />

concerne l’apprentissage multiobjectif, dans le cadre du proj<strong>et</strong> LEMON (LEarning<br />

with <strong>Multi</strong>objective OptimizatioN). Après s’être concentrée pendant plus<br />

de deux décennies sur des critères de performances scalaires, la communauté<br />

des chercheurs en apprentissage commence à examiner l’utilisation de critères<br />

multiples, comme en témoigne le récent ouvrage [105]. Ces travaux soulèvent<br />

de nouveaux problèmes théoriques <strong>et</strong> motivent la recherche de nouveaux algorithmes<br />

d’apprentissage. Nos perspectives dans ce cadre ont été développées en<br />

4.4. De plus, ils perm<strong>et</strong>tent aussi d’envisager des avancées significatives dans<br />

les domaines de la reconnaissance de formes <strong>et</strong> de l’optimisation. Le consortium<br />

de chercheurs constitué dans le cadre de LEMON, avec ses compétences<br />

complémentaires (reconnaissance de formes, apprentissage statistique, optimisation<br />

multiobjectif, interfaces cerveaux machines, imagerie médicale), nous<br />

semble un excellent cadre de travail pour contribuer à ces avancées.<br />

Outre ces travaux directement liés à nos contributions antérieures, nous<br />

souhaitons aussi profiter de c<strong>et</strong>te conclusion pour mentionner un certain nombre<br />

de problématiques qui n’ont pas encore été abordées dans le corps de ce manuscrit<br />

<strong>et</strong> qui ouvrent elles aussi la voie à des travaux prom<strong>et</strong>teurs pour les<br />

années à venir.<br />

La première de ces problématiques est celle de l’évaluation de performances,<br />

qui fait depuis une dizaine d’années l’obj<strong>et</strong> d’un vif intérêt de la communauté<br />

scientifique, comme en témoignent les très nombreuses campagnes en cours,<br />

que celles-ci concernent l’extraction d’information, la recherche d’information<br />

ou l’analyse d’images. Dans le domaine de l’analyse d’images de documents, on<br />

peut citer les campagnes RIMES, dédiée à la reconnaissance de l’écriture manuscrite,<br />

EPEIRES pour la reconnaissance <strong>et</strong> la localisation de symboles ainsi<br />

que les très nombreux concours qui sont organisés de façon récurrente lors des<br />

conférences ICDAR <strong>et</strong> GREC. Depuis juin 2011, nous participons à un proj<strong>et</strong>


tel-00671168, version 1 - 8 Oct 2012<br />

triennal qui réunit plusieurs industriels <strong>et</strong> un consortium de laboratoires de<br />

recherche <strong>et</strong> qui est dédié à l’évaluation de performances de systèmes de reconnaissance<br />

de documents écrits. Le proj<strong>et</strong> vise deux objectifs ambitieux. Le<br />

premier consiste à m<strong>et</strong>tre en place une campagne ouverte d’évaluation d’une<br />

chaîne complète d’analyse de documents. Le second vise la réalisation d’un<br />

démonstrateur intégrant une chaîne de traitement optimisée pour la reconnaissance<br />

de documents manuscrits <strong>et</strong>/ou dactylographiés.<br />

Pour mener à bien ce proj<strong>et</strong>, au delà du développement de modules de traitements,<br />

les différents aspects liés à la mise en place d’une campagne d’évaluation<br />

seront abordés. Le premier consiste naturellement à proposer un corpus<br />

d’un nombre conséquent de documents à la fois manuscrits <strong>et</strong> dactylographiés,<br />

libres de droit, très variés <strong>et</strong> surtout très réalistes. Ce corpus sera annoté pour<br />

établir une vérité terrain en détaillant, sur chaque document, les différents éléments<br />

à reconnaître par les outils évalués. Enfin, dans le cadre de l’évaluation<br />

des briques proposées par la communauté, une réflexion sur les métriques perm<strong>et</strong>tant<br />

d’évaluer les approches sera également menée. Notre contribution dans<br />

ce cadre consistera à prendre en considération certains aspects traités dans ce<br />

mémoire, en donnant une coloration résolument multiobjectif aux métriques.<br />

À titre d’illustration, dans un contexte de discrimination, il pourrait s’agir de<br />

demander aux participants aux campagnes d’évaluation de fournir les sorties<br />

des systèmes pour différents points de fonctionnement. Pour comparer de telles<br />

sorties, les métriques pourraient s’inspirer des travaux menés en évaluation de<br />

performances d’algorithmes d’optimisation multiobjectif [198].<br />

Le second objectif de ce proj<strong>et</strong>, qui consiste en la mise en œuvre d’une<br />

chaîne optimisée de traitement de documents, apporte lui aussi son lot de perspectives<br />

scientifiques. La première concerne l’interopérabilité des composants.<br />

Pour constituer la chaîne optimale mise en œuvre dans le démonstrateur, il<br />

est probable de devoir associer des composants issus de différents laboratoires.<br />

Dans ce cadre, l’approche envisagée pour surmonter c<strong>et</strong>te difficulté est proche<br />

des travaux que nous avons proposés dans le cadre du proj<strong>et</strong> Docmining [4],<br />

mais adaptés à un contexte de services Web. Comme dans les travaux proposés<br />

dans [121], elle repose sur l’utilisation d’une plateforme d’intégration orientée<br />

service nommée WebLab 17 . C<strong>et</strong>te plateforme, que nous utilisons par ailleurs<br />

dans nos travaux en recherche d’information, a été conçue pour construire des<br />

applications de traitement d’informations multimédia en faisant interopérer<br />

des composants logiciels spécialisés.<br />

Outre l’intérêt que revêt à lui seul ce proj<strong>et</strong>, il ouvre par ailleurs des perspectives<br />

à plus long terme particulièrement intéressantes. Il perm<strong>et</strong> en eff<strong>et</strong><br />

d’envisager la constitution d’une bibliothèque d’outils divers <strong>et</strong> interopérants<br />

dédiés aux différentes tâches d’un système d’analyse de documents. La disponibilité<br />

d’une telle « batterie » d’outils pourrait alors servir de socle à des<br />

travaux dans le domaine de la planification, dont le but serait la génération<br />

automatique <strong>et</strong> adaptative de chaînes de traitements en fonction d’un but (segmenter,<br />

reconnaitre, localiser) <strong>et</strong> d’un contexte (le document). Il s’agirait alors<br />

d’apprendre, au regard de l’objectif fixé, la séquence d’outils perm<strong>et</strong>tant de<br />

maximiser les performances d’un système, éventuellement dans un cadre mul-<br />

17. http://weblab.ow2.org/<br />

97


tel-00671168, version 1 - 8 Oct 2012<br />

98 Chapitre 5. Perspectives<br />

tiobjectif pour laisser à l’utilisateur la possibilité de choisir parmi différentes<br />

options. Ces performances pourraient en eff<strong>et</strong> être évaluées à partir de la vérité<br />

terrain fournie par le proj<strong>et</strong>. L’une des pistes possibles pour optimiser<br />

de telles chaînes pourrait être l’apprentissage par renforcement qui propose<br />

un environnement particulièrement puissant pour l’optimisation de séquences,<br />

comme l’ont récemment montré nos travaux en recherche d’information [74].<br />

Ces problèmes de planification de chaînes complètes d’analyse de documents<br />

constituent selon nous un véritable challenge pour l’avenir, <strong>et</strong> dont les résultats<br />

pourraient par ailleurs avoir des conséquences dans bien d’autres domaines<br />

d’application. Dans c<strong>et</strong> esprit, on pourrait même, à beaucoup plus long terme,<br />

envisager la coopération de systèmes divers tels que des systèmes d’analyse de<br />

documents ou d’images, des moteurs de recherches, des outils de traduction. . . .<br />

Un dernier aspect que nous souhaitons aborder ici concerne la place de<br />

l’Homme dans ces systèmes coopérants de traitement de l’information au sens<br />

large. La prise en compte des interactions entre le système <strong>et</strong> l’humain est en<br />

eff<strong>et</strong> indispensable à la réussite de tels proj<strong>et</strong>s, que ce soit pour leur conception<br />

ou pour l’utilisation des résultats qu’ils produisent. De ce point de vue, nous<br />

pensons que des collaborations avec les équipes travaillant dans le domaine<br />

de la recherche d’information seraient particulièrement enrichissantes. C<strong>et</strong>te<br />

communauté s’intéresse en eff<strong>et</strong> depuis longtemps aux interactions, par l’intermédiaire<br />

des principes de r<strong>et</strong>ours de pertinence ou de personnalisation des<br />

moteurs de recherche par exemple. Ces toutes dernières années ont d’ailleurs<br />

été le cadre d’un rapprochement des communautés Françaises de l’analyse de<br />

documents <strong>et</strong> de la recherche d’information, comme en témoigne le regroupement<br />

en 2010 des conférences CIFED <strong>et</strong> CORIA. Un autre exemple de c<strong>et</strong>te<br />

convergence est le proj<strong>et</strong> fédérateur du LITIS nommé PlaIR 18 (Plateforme<br />

d’Indexation Régionale). Ce proj<strong>et</strong> se donne pour objectif de mutualiser un<br />

ensemble de ressources documentaires numériques <strong>et</strong> numérisées <strong>et</strong> de bibliothèques<br />

logicielles d’analyse automatique ou semi-automatique pour constituer<br />

une plateforme d’indexation <strong>et</strong> de recherche multi-domaines <strong>et</strong> multi-usages.<br />

Dans ce contexte, des travaux ont été initiés dans le cadre de la thèse de Gérard<br />

Dupont [74], en collaboration avec CASSIDIAN. L’objectif de ces travaux<br />

était de créer le lien entre les domaines de la recherche d’information <strong>et</strong> de l’apprentissage<br />

par la mise en œuvre d’algorithmes pour adapter les réponses d’un<br />

système de recherche d’information aux utilisateurs de celui-ci. Ces travaux<br />

sont actuellement poursuivis par ceux de la thèse CIFRE d’Aurélien Saint<br />

Réquier, avec CASSIDIAN, dont le but est de proposer un agent personnel<br />

d’assistance à la recherche d’information.<br />

Pour conclure ce manuscrit, s’il y a une chose primordiale que je r<strong>et</strong>ire<br />

de ces dix années de recherche <strong>et</strong> que j’ai souhaité faire transparaître au travers<br />

de ces quelques pages, c’est l’importance que revêtent le décloisement des<br />

disciplines, l’ouverture vers d’autres communautés, <strong>et</strong> les convergences entre<br />

recherches fondamentales <strong>et</strong> appliquées. Même si les évolutions actuelles de la<br />

recherche sont trop souvent orientées vers la « compétition » entre équipes,<br />

entre individus, je reste persuadé que la richesse vient <strong>et</strong> continuera à venir du<br />

partage.<br />

18. http://plair.org


tel-00671168, version 1 - 8 Oct 2012<br />

Chapitre 6<br />

Bibliographie<br />

[1] D.J. Newman A. Asuncion. UCI machine learning repository, 2007.<br />

[2] S. Adam. Interprétation de documents techniques : des outils à leur intégration<br />

dans un système à base de connaissances. PhD thesis, Université<br />

de Rouen, 2001.<br />

[3] S. Adam and J.M. Ogier. <strong>Documents</strong> graphiques : de la rétroconversion<br />

à la recherche d’information. In Rémy Mullot, editor, Les documents<br />

écrits : De la numérisation à l’indexation par le contenu, pages 249–310.<br />

Hermès, 2006.<br />

[4] S. Adam, M. Rigamonti, E. Clavier, J-M. Ogier, E. Trupin, and<br />

K. Tombre. DocMining : A Document Analysis System Builder. In<br />

S. Marinai and A. Dengel, editors, Proceedings of the Workshop on Document<br />

Analysis Systems (DAS’04), volume 3163 of Lecture Notes in<br />

Computer Science, pages 472–483, 2004.<br />

[5] S. Adra, I. Griffin, and P. Fleming. A comparative study of progressive<br />

preference articulation techniques for multiobjective optimisation. In<br />

Shigeru Obayashi, Kalyanmoy Deb, Carlo Poloni, Tomoyuki Hiroyasu,<br />

and Tadahiko Murata, editors, Evolutionary <strong>Multi</strong>-Criterion Optimization,<br />

volume 4403 of Lecture Notes in Computer Science, pages 908–921.<br />

Springer Berlin / Heidelberg, 2007.<br />

[6] H.S.M. Al-Khaffaf, A.Z. Talib, and M.A. Osman. GREC’11 arc segmentation<br />

contest : Performance evaluation on multi-resolution scanned<br />

documents. In Proceedings of the IAPR Workshop on Graphics Recognition<br />

(GREC’11), 2007.<br />

[7] I. Alaya, C. Solnon, and K. Ghedira. Ant colony optimization for multiobjective<br />

optimization problems. In Proceedings of the International<br />

Conference on Tools with Artificial Intelligence (ICTAI’07), pages 450–<br />

457.<br />

[8] J.E. Alvarez-Benitez, R.M. Everson, and J.E. Fieldsend. MOPSO algorithm<br />

based exclusively on par<strong>et</strong>o dominance concepts. Proceedings of the<br />

International Conference on Evolutionary Mutli-Criterion Optimization<br />

(EMO’05), pages 726–732, 2005.<br />

[9] D. Anguita, S. Ridella, F. Rivieccio, and R. Zunino. Hyperparam<strong>et</strong>er de-<br />

99


tel-00671168, version 1 - 8 Oct 2012<br />

100 Chapitre 6. Bibliographie<br />

sign criteria for support vector classifiers. Neurocomputing, 55(1-2) :109–<br />

134, 2003.<br />

[10] N. Ansari and K-W. Huang. Non-param<strong>et</strong>ric dominant point d<strong>et</strong>ection.<br />

Pattern Recognition (PR), 24(9) :849–862, 1991.<br />

[11] D.L. Applegate, R.E. Bixby, V. Chvatal, and W.J. Cook. The Traveling<br />

Salesman Problem : A Computational Study (Princ<strong>et</strong>on Series in Applied<br />

Mathematics). Princ<strong>et</strong>on University Press, 2007.<br />

[12] A. Argyriou, T. Evgeniou, and M. Pontil. <strong>Multi</strong>-task feature learning.<br />

In Advances in Neural Information Processing Systems (NIPS), 2007.<br />

[13] T.W. Athan and P.Y. Papalambros. A note on weighted criteria m<strong>et</strong>hods<br />

for compromise solutions in multi-objective optimization. Engineering<br />

Optimization, 27(2) :155–176, 1996.<br />

[14] S. Auwatanamongkol. Inexact graph matching using a gen<strong>et</strong>ic algorithm<br />

for image recognition. Pattern Recognition L<strong>et</strong>ters (PRL), 28(12) :1428–<br />

1437, 2007.<br />

[15] N.E. Ayat, M. Cheri<strong>et</strong>, and C.Y. Suen. Automatic model selection for the<br />

optimization of SVM kernels. Pattern Recognition (PR), 30(10) :1733–<br />

1745, 2004.<br />

[16] A.D. Bagdanov and M. Worring. Fine-grained document genre classification<br />

using first order random graphs. In Proceedings of the International<br />

Conference opn Document Analysis and Recognition (ICDAR’01), pages<br />

79 – 83, 2001.<br />

[17] J. Balicki. An adaptive quantum-based multiobjective evolutionary algorithm<br />

for efficient task assignment in distributed systems. Proceedings<br />

of the WSEAES international conference on Computers (ICCOMP’09),<br />

pages 417–422, 2009.<br />

[18] E. Barbu. Fouille <strong>et</strong> classification de graphes : application à la reconnaissance<br />

de symboles dans les documents graphiques. PhD thesis, Université<br />

de Rouen, 2007.<br />

[19] A. Belaïd and K. Ossama. Goal programming model : A glorious history<br />

and a promising future. European Journal of Operational Research<br />

(EJOR), 133(2) :225 – 231, 2001.<br />

[20] Y. Bengio. Gradient-based optimization of hyperparam<strong>et</strong>ers. Neural<br />

Computation, 12(8) :1889–1900, 2000.<br />

[21] S. Bernard. Forêts Aléatoires : de l’Analyse des Mécanismes de Fonctionnement<br />

à la Construction Dynamique. PhD thesis, Université de Rouen,<br />

2009.<br />

[22] S. Bernard, L. Heutte, and S. Adam. Etude de l’influence des paramètres<br />

sur les performances des forêts aléatoires. In Actes du Colloque<br />

International Francophone sur l’Écrit <strong>et</strong> le Document (CIFED’08), pages<br />

207–208, 2008.<br />

[23] S. Bernard, L. Heutte, and S. Adam. Forest-RK : A new random forest<br />

induction m<strong>et</strong>hod. In De-Shuang Huang, Donald C. Wunsch II,


tel-00671168, version 1 - 8 Oct 2012<br />

101<br />

Daniel S. Levine, and Kang-Hyun Jo, editors, Proceedings of the International<br />

Conference on Intelligent Computing (ICIC’08), volume 5227 of<br />

Lecture Notes in Computer Science, pages 430–437. Springer, 2008.<br />

[24] S. Bernard, L. Heutte, and S. Adam. Influence of hyperparam<strong>et</strong>ers on<br />

random forest accuracy. In Jon Atli Benediktsson, Josef Kittler, and Fabio<br />

Roli, editors, Proceedings of <strong>Multi</strong>ple Classifier Systems (MCS’09),<br />

volume 5519 of Lecture Notes in Computer Science, pages 171–180. Springer,<br />

2009.<br />

[25] S. Bernard, L. Heutte, and S. Adam. Une Étude sur la paramétrisation<br />

des forêts aléatoires. In Actes de la Conférence francophone sur<br />

l’Apprentissage Artificiel (CAP’09), pages 81–92, 2009.<br />

[26] J. C. Bezdek, T. R. Reichherzerand, G. S. Lim, and Y. Attikiouzel.<br />

<strong>Multi</strong>ple-prototype classifier design. IEEE Transaction on Systems, Man,<br />

and Cybern<strong>et</strong>ics Part C (IEEE SMC), 28(1) :67–79, 1998.<br />

[27] J. Bi, T. Xiong, S. Yi, M. Dundar, and B. Rao. An improved multi-task<br />

learning approach with applications in medical diagnosis. In Proceedings<br />

of the European Conference on Machine Learning (ECML’08), 2008.<br />

[28] S. Bickel, J. Bogojeska, T. Lengauers, and T. Scheffer. <strong>Multi</strong>-task learning<br />

for hiv therapy screening. In Proceedings of the International Conference<br />

on Machine learning (ICML’08), pages 56–63, 2008.<br />

[29] T.T. Binh and U. Korn. MOBES : A multiobjective evolution strategy for<br />

constrained optimization problems. In Proceedings of the International<br />

Conference on Gen<strong>et</strong>ic Algorithms (ICGA’97), pages 176–182, 1997.<br />

[30] P. Le Bodic, S. Adam, P. Héroux, A. Knippel, and Y. Lecourtier. Formulations<br />

linéaires en nombres entiers pour des problèmes d’isomorphisme<br />

exact <strong>et</strong> inexact. In Actes des Journées Polyèdres <strong>et</strong> <strong>Optimisation</strong> Combinatoire<br />

(JPOC’08), 2008.<br />

[31] P. Le Bodic, H. Locteau, S. Adam, P. Héroux, Y. Lecourtier, and A. Knippel.<br />

Symbol d<strong>et</strong>ection using region adjacency graphs and integer linear<br />

programming. In Proceedings of the International Conference on Document<br />

Analysis and Recognition (ICDAR’09), pages 1320–1324, 2009.<br />

[32] B. Bonev, F. Escolano, M.A. Lozano, P. Suau, M. Cazorla, and W. Aguilar.<br />

Constellations and the unsupervised learning of graphs. In Proceedings<br />

of the Workshop on Graph-based Representations in Pattern Recognition<br />

(GBRPR’07), pages 340–350, 2007.<br />

[33] H. Boström. Maximizing the area under the roc curve using incremental<br />

reduced error pruning. In Proceedings of the Workschop of ROC Analysis<br />

in Machine Learning (ROCML’05), 2005.<br />

[34] A.P. Bradley. The use of the area under the ROC curve in the evaluation<br />

of machine learning algorithms. Pattern Recognition (PR), 30(7) :1145–<br />

1159, 1997.<br />

[35] J. Branke and S. Mostaghim. About selecting the personal best in multiobjective<br />

particle swarm optimization. In Parallel Problem Solving from<br />

Nature, volume 4193 of Lecture Notes in Computer Science, pages 523–<br />

532. Springer, 2006.


tel-00671168, version 1 - 8 Oct 2012<br />

102 Chapitre 6. Bibliographie<br />

[36] L. Breiman. Random forests. Machine Learning Journal (MLJ), 45(1) :5–<br />

32, 2001.<br />

[37] N. Brown, BN. McKay, F. Gilardoni, and J. Gasteiger. A graph-based gen<strong>et</strong>ic<br />

algorithm and its application to the multiobjective evolution of median<br />

molecules. Journal of Chemical Information and Modeling (JCIM).<br />

[38] L.T. Bui, D. Essam, H.A. Abbass, and D. Green. Performance analyis of<br />

multiobjective evolutionary m<strong>et</strong>hods in noisy environnments. Complexity<br />

International, 11 :29–39, 2005.<br />

[39] H. Bunke. On a relation b<strong>et</strong>ween graph edit distance and maximum<br />

common subgraph. Pattern Recognition L<strong>et</strong>ters (PRL), 18(8) :689–694,<br />

1997.<br />

[40] H. Bunke, P. Foggia, C. Guidobaldi, and M. Vento. Graph clustering<br />

using the weighted minimum common supergraph. In Proceedings of<br />

the Workshop on Graph-based Representations in Pattern Recognition<br />

(GBRPR’03), pages 235–246, 2003.<br />

[41] H. Bunke, A. Münger, and X. Jiang. Combinatorial search versus gen<strong>et</strong>ic<br />

algorithms : A case study based on the generalized median graph<br />

problem. Pattern Recognition L<strong>et</strong>ters (PRL), 20(11) :1271–1277, 1999.<br />

[42] H. Bunke and K. Riesen. Recent advances in graph-based pattern recognition<br />

with applications in document analysis. Pattern Recognition<br />

(PR), 44(5) :1057–1067, 2011.<br />

[43] H. Bunke and K. Shearer. A graph distance m<strong>et</strong>ric based on the maximal<br />

common subgraph. Pattern Recognition L<strong>et</strong>ters (PRL), 19(3-4) :255–259,<br />

1998.<br />

[44] L. Cagnina, S. Esquivel, and C.A.C. Coello. A particle swarm optimizer<br />

for multi-objective optimization. Journal of Computer Science and<br />

Technology (JCST), 5(4), 2005.<br />

[45] A. Carmona-Poyato, F.J. Madrid-Cuevas, R. Medina-Carnicer, and<br />

R. Munoz-Salinas. Polygonal approximation of digital planar curves<br />

through break point suppression. Pattern Recognition (PR), 43(1) :14–<br />

25, 2010.<br />

[46] A. Carmona-Poyato, R. Medina-Carnicer, F.J. Madrid-Cuevas, R. Muoz-<br />

Salinas, and N.L. Fernández-García. A new measurement for assessing<br />

polygonal approximation of curves. Pattern Recognition (PR), 44(1) :45–<br />

54, 2011.<br />

[47] L. Cecchini, C.M. Lorenz<strong>et</strong>ti, A.G. Maguitman, and N.B. Brignole. <strong>Multi</strong>objective<br />

evolutionary algorithms for context-based search. Journal of<br />

the American Soci<strong>et</strong>y for Information Science and Technology (JASIST),<br />

61(6) :1258–1274, 2010.<br />

[48] V. Srinivasa Chakravarthy and B. Kompella. The shape of handwritten<br />

characters. Pattern Recognition L<strong>et</strong>ters (PRL), 24(12) :1901 – 1913, 2003.<br />

[49] C.-J. C. Fu Chang and C.-J. Lu. A linear-time component-labeling algorithm<br />

using contour tracing technique. Computer Vision and Image<br />

Understanding (CVIU), 93 :206–220, 2004.


tel-00671168, version 1 - 8 Oct 2012<br />

103<br />

[50] C-L. Chang. Finding prototypes for nearest neighbor classifiers. IEEE<br />

Transaction on Computers (IEEE TC), 23(11) :1179–1184, 1974.<br />

[51] O. Chapelle, V. Vapnik, O. Bousqu<strong>et</strong>, and S. Mukherjee. Choosing multiple<br />

param<strong>et</strong>ers for support vector machines. Machine Learning Journal<br />

(MLJ), 46(1) :131–159, 2002.<br />

[52] C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. A<br />

multi-model selection framework for unknown and/or evolutive misclassification<br />

cost problems. Pattern Recognition (PR), 43(3) :815–823, 2010.<br />

[53] C. Chatelain, L. Heutte, and T. Paqu<strong>et</strong>. Segmentation-driven recognition<br />

applied to numerical field extraction from handwritten incoming mail<br />

documents. Proceedings of Document Analysis System (DAS’06), pages<br />

564–575, 2006.<br />

[54] C. Chatelain, L. Heutte, and T. Paqu<strong>et</strong>. A two-stage outlier rejection<br />

strategy for numerical field extraction in handwritten documents. In<br />

Proceedings of the International Conference on Pattern Recognition (IC-<br />

PR’06), pages 224–227, 2006.<br />

[55] J-M. Chen, J.A. Ventura, and C-H. Wu. Segmentation of planar curves<br />

into circular arcs and line segments. Image and Vision Computing (IVC),<br />

14(1) :71 – 83, 1996.<br />

[56] N. Chen and D. Blostein. A survey of document image classification :<br />

problem statement, classifier architecture and performance evaluation.<br />

International Journal on Document Analysis and Recognition (IJDAR),<br />

10(1) :1–16, 2007.<br />

[57] W. Chen, A. Sahai, A. Messac, and G.J. Sundararaj. Exploration of<br />

the effectiveness of physical programming in robust design. Journal of<br />

Mechanical Design (JMD), 122(2) :155–163, 2000.<br />

[58] W.Y. Chen, W.L. Hwang, and T.C. Lin. Planar-shape prototype generation<br />

using a tree-based random greedy algorithm. IEEE Transaction<br />

on Systems, Man, and Cybern<strong>et</strong>ics (IEEE SMC) Part B, 36(3) :649–659,<br />

2006.<br />

[59] B. Chin-Wei and M. Rajeswari. <strong>Multi</strong>objective optimization approaches<br />

in image segmentation - the directions and challenges. International<br />

Journal in Advance in Soft Computing Application (IJASCA), 2(1) :40–<br />

65, 2010.<br />

[60] C.A.C. Coello. Evolutionary multiobjective optimization. Wiley Interdisciplinary<br />

Reviews : Data Mining and Knowledge Discovery, 1(5) :444<br />

– 447, 2011.<br />

[61] C.A.C. Coello and G.B. Lamont. Applications of <strong>Multi</strong>-Objective Evolutionary<br />

Algorithms. World Scientific Publishing, 2004.<br />

[62] D. Conte, P. Foggia, C. Sansone, and M. Vento. Thirty years of graph<br />

matching in pattern recognition. International Journal of Pattern Recognition<br />

and Artificial Intelligence (IJPRAI), 18(3) :266–298, 2004.<br />

[63] L. P. Cordella, P. Foggia, C. Sansone, and M. Vento. Performance evaluation<br />

of the VF graph matching algorithm. In Proccedings of the International<br />

Conference on Image Analysis and Processing (ICIAP’99),<br />

pages 1172–1177, 1999.


tel-00671168, version 1 - 8 Oct 2012<br />

104 Chapitre 6. Bibliographie<br />

[64] L. P. Cordella, P. Foggia, C. Sansone, and M. Vento. Fast graph matching<br />

for d<strong>et</strong>ecting CAD image components. In Proceedings of the International<br />

Conference on Pattern Recognition (ICPR’00), pages 6034–6037, 2000.<br />

[65] L.P. Cordella, P. Foggia, C. Sansone, and M. Vento. A (sub)graph isomorphism<br />

algorithm for matching large graphs. IEEE Transaction on<br />

Pattern Analysis and Machine Intelligence (IEEE PAMI), 26(10) :1367–<br />

1372, 2004.<br />

[66] D.W. Corne, J.D. Knowles, and M.J. Oates. The Par<strong>et</strong>o envelopebased<br />

selection algorithm for multiobjective optimization. In Proceedings<br />

of the international conference on Parallel problem solving from nature<br />

(PPSN’00), pages 839–848, 2000.<br />

[67] P. Cornic. Another look at the dominant point d<strong>et</strong>ection of digital curves.<br />

Pattern Recognition L<strong>et</strong>ters (PRL), 18(1) :13–25, 1997.<br />

[68] C. Cortes and M. Mohri. AUC optimization vs. error rate minimization.<br />

In Advances in NIPS. MIT Press, 2004.<br />

[69] B. V. Dasarathy. Nearest neighbor (NN) norms : NN pattern classification<br />

techniques. Los Alamitos : IEEE Computer Soci<strong>et</strong>y Press, 1990,<br />

1990.<br />

[70] K. Deb. <strong>Multi</strong>-Objective Optimization Using Evolutionary Algorithms.<br />

Wiley, 2001.<br />

[71] K. Deb, S. Agrawal, A. Pratap, and T. Meyarivan. A fast elitist nondominated<br />

sorting gen<strong>et</strong>ic algorithm for multiobjective optimization : NSGA-<br />

II. IEEE Transactions on Evolutionary Computation (IEEE TEC),<br />

6(2) :182–197, 2002.<br />

[72] G. Sanniti di Baja and E. Thiel. Skeltonization algorithm running<br />

on path-based distance maps. Image and Vision Computing (IVC),<br />

14(1) :47–57, 1996.<br />

[73] P. Dosch, E. Valveny, A. Fornes, and S. Escalera. Report on the Third<br />

Contest on Symbol Recognition. In Josep Lladós Wenyin Liu and Jean-<br />

Marc Ogier, editors, Graphics Recognition. Recent Advances and New<br />

Opportunities, volume 5046 of Lecture Notes in Computer Science, pages<br />

321–328. Springer, 2008.<br />

[74] G. Dupont. Apprentissage implicite pour la recherche d’information. PhD<br />

thesis, Université de Rouen, 2011.<br />

[75] G. Dupont, S. Adam, Y. Lecourtier, and B. Grilhère. <strong>Multi</strong> objective particle<br />

swarm optimization using enhanced dominance and guide selection.<br />

International Journal of Computational Intelligence Research (IJCIR),<br />

4(2) :145–158, 2008.<br />

[76] R.M. Everson and J.E. Fieldsend. <strong>Multi</strong>-objective optimisation for receiver<br />

operating characteristic analysis. In <strong>Multi</strong>-Objective Machine Learning,<br />

pages 533–556. 2006.<br />

[77] L. Fei-Fei and P. Perona. A bayesian hierarcical model for learning natural<br />

scene categories. In Proceedings of the international conference on<br />

Computer Vision and Pattern Recognition (CVPR), pages 524–531, 2005.


tel-00671168, version 1 - 8 Oct 2012<br />

105<br />

[78] M. Ferrer, F. Serratosa, and E. Valveny. On the relation b<strong>et</strong>ween the<br />

median and the maximum common subgraph of a s<strong>et</strong> of graphs. In<br />

Proceedings of the Workshop on Graph-based Representations in Pattern<br />

Recognition (GBRPR’07), pages 351–360, 2007.<br />

[79] M. Ferrer, E. Valveny, and F. Serratosa. Spectral median graphs applied<br />

to graphical symbol recognition. In Proceedings of the Iberoamerican<br />

Congress on Pattern Recognition (CIARP’06), pages 774–783, 2006.<br />

[80] C. Ferri and P. Flach. Learning decision trees using the area under the<br />

roc curve. In Proceedings of the International Conference on Machine<br />

Learning (ICML’02), pages 139–146, 2002.<br />

[81] C. Ferri, P. Flach, and J. Hernandez-Orallo. Learning decision trees<br />

using the area under the roc curve. In Proceedings of the International<br />

Conference on Machine Learning (ICML’02), pages 139–146, 2002.<br />

[82] C.M. Fonseca and P.J. Flemming. Gen<strong>et</strong>ic algorithm for multiobjective<br />

optimization : formulation, discussion and generalization. In Proceedings<br />

of the International Conference on Gen<strong>et</strong>ic Algorithms (ICGA’93), pages<br />

416–423, 1993.<br />

[83] X. Gao, B. Xiao, D. Tao, and X. Li. A survey of graph edit distance.<br />

Pattern Analysis & Applications (PAA), 13(1) :113–129, 2010.<br />

[84] M. R. Garey and D. S. Johnson. Computers and Intractability : A Guide<br />

to the Theory of NP-Compl<strong>et</strong>eness. Freeman & co., 1979.<br />

[85] T. Gartner, P. Flach, and S. Wrobel. On graph kernels : Hardness results<br />

and efficient alternatives. In Bernhard Schölkopf and Manfred K.<br />

Warmuth, editors, COLT, volume 2777, pages 129–143. Springer-Verlag ;<br />

1999, 2003.<br />

[86] E.N. Gerasimov and V.N. Repko. <strong>Multi</strong>criterial optimization. International<br />

Applied Mechanics, 14(11) :1179–1184, 1978.<br />

[87] D. E. Goldberg. Gen<strong>et</strong>ic Algorithms in Search, Optimization and Machine<br />

Learning. Addison-Wesley Longman Publishing Co., Inc., Boston,<br />

MA, USA, 1989.<br />

[88] E. Grosicki and H. El Abed. ICDAR 2011 - French handwriting recognition<br />

comp<strong>et</strong>ition. In Proceedings of the International Conference<br />

on Document Analysis and Recognition (ICDAR’11), pages 1459–1463,<br />

2011.<br />

[89] I. Guyon, A. Saffari, G. Dror, and G. Cawley. Model selection : Beyond<br />

the Bayesian/frequentist divide. Journal of Machine Learning Research<br />

(JMLR), 11 :61–87, 2010.<br />

[90] Y.Y. Haimes, L.S. Lasdon, and D.A. Wismer. On a Bicriterion Formulation<br />

of the Problems of Integrated System Identification and System<br />

Optimization. IEEE Transactions on Systems, Man and Cybern<strong>et</strong>ics<br />

(IEEE SMC), 1(3) :296–297, 1971.<br />

[91] P. E. Hart. The condensed nearest neighbour rule. IEEE Transaction<br />

on Information Theory (IEEE TIT), 14(5) :515–516, 1968.


tel-00671168, version 1 - 8 Oct 2012<br />

106 Chapitre 6. Bibliographie<br />

[92] X. Hilaire and K. Tombre. Robust and accurate vectorization of line drawings.<br />

IEEE Transaction on Pattern Analysis and Machine Intelligence<br />

(IEEE PAMI), 28(6) :890–904, 2006.<br />

[93] A. Hlaoui and S. Wang. Median graph computation for graph clustering.<br />

Soft Computing - A Fusion of Foundations, M<strong>et</strong>hodologies and Applications,<br />

10(1) :47–53, 2005.<br />

[94] J. Horn, N. Nafpliotis, and D.E. Goldberg. A niched Par<strong>et</strong>o gen<strong>et</strong>ic<br />

algorithm for multiobjective optimization. In Proceedings of the IEEE<br />

World Congress on Computational Intelligence (WCCI’94), pages 82–87,<br />

1994.<br />

[95] J-H Horng. An adaptive smoothing approach for fitting digital planar<br />

curves with line segments and circular arcs. Pattern Recognition L<strong>et</strong>ters<br />

(PRL), 24(1-3) :565 – 577, 2003.<br />

[96] J-H. Horng and J.T. Li. A dynamic programming approach for fitting<br />

digital planar curves with line segments and circular arcs. Pattern Recognition<br />

L<strong>et</strong>ters (PRL), 22(2) :183 – 197, 2001.<br />

[97] J-S. Huang and H-C. Liu. Object recognition using gen<strong>et</strong>ic algorithms<br />

with a Hopfield’s neural model. Expert Systems with Applications (ESA),<br />

13(3) :191 – 199, 1997.<br />

[98] S-C. Huang and C-F. Wang. Gen<strong>et</strong>ic algorithm for approximation of<br />

digital curves with line segments and circular arcs. Journal of the chinese<br />

institute of Engineers, 32(4) :437 – 444, 2008.<br />

[99] F. K. Hwang, D. S. Richards, and P. Winter. The Steiner Tree Problem,<br />

volume 53 of Annals of Discr<strong>et</strong>e Mathematics. North-Holland, Amsterdam,<br />

N<strong>et</strong>herlands, 1992.<br />

[100] C. Ichoku, B. Deffontaines, and J. Chorowicz. Segmentation of digital<br />

plane curves : A dynamic focusing approach. Pattern Recognition L<strong>et</strong>ters<br />

(PRL), 17(7) :741 – 750, 1996.<br />

[101] A. Inokuchi, T. Washio, and H. Motoda. Compl<strong>et</strong>e mining of frequent<br />

patterns from graphs : Mining graph data. Machine Learning Journal<br />

(MLJ), 50(3) :321–354, 2003.<br />

[102] L. Jacob, F. Bach, and J.-P. Vert. Clustered multi-task learning. In<br />

Advances in Neural Information Processing Systems (NIPS), 2008.<br />

[103] J. Jia and K. Abe. Automatic generation of prototypes in 3D structural<br />

object recognition. In Proceedings of the International Conference on<br />

Pattern Recognition (ICPR’98), pages 697–700, 1998.<br />

[104] X. Jiang, A. Münger, and H. Bunke. On median graphs : Properties,<br />

algorithms, and applications. IEEE Transaction on Pattern Analysis<br />

and Machine Intelligence (IEEE PAMI), 23(10) :1144–1151, 2001.<br />

[105] Y. Jin, editor. <strong>Multi</strong>-Objective Machine Learning, volume 16 of Studies<br />

in Computational Intelligence. Springer, 2006.<br />

[106] T. Joachims. Making large-scale support vector machine learning practical.<br />

In A. Smola B. Scholkopf, C. Burges, editor, Advances in Kernel<br />

M<strong>et</strong>hods : Support Vector Machines, pages 169–184. MIT Press, Cambridge,<br />

MA, 1998.


tel-00671168, version 1 - 8 Oct 2012<br />

107<br />

[107] J.M. Jolion. Graph matching : what are we really talking about ? In<br />

Proceedings of the workshop on Graph-based Representations in Pattern<br />

Recognition (GbRPR’01), pages 170–175, 2001.<br />

[108] H. Kashima, K. Tsuda, and A. Inokuchi. Marginalized kernels b<strong>et</strong>ween<br />

labeled graphs. In Proceedings of the International Conference on Machine<br />

Learning (ICML’03), pages 321–328, 2003.<br />

[109] H. Kashima, K. Tsuda, and A. Inokuchi. Kernels for graphs, pages 155–<br />

170. MIT Press, 2004.<br />

[110] S. Keerthi, V. Sindhwani, and O. Chapelle. An efficient m<strong>et</strong>hod for<br />

gradient-based adaptation of hyperparam<strong>et</strong>ers in SVM models. In<br />

B. Schölkopf, J. Platt, and T. Hoffman, editors, Advances in Neural Information<br />

Processing Systems 19, pages 673–680. MIT Press, Cambridge,<br />

MA, 2007.<br />

[111] H. Kellerer, U. Pferschy, and D. Pisinger. Knapsack Problems. Springer,<br />

Berlin, Germany, 2004.<br />

[112] J. Kennedy and R. Eberhart. Particle swarm optimization. Proceedings<br />

of the IEEE International Conference on Neural N<strong>et</strong>works (ICNN’95),<br />

4 :1942–1948, 1995.<br />

[113] V. Khare, X. Yao, and K. Deb. Performance scaling of multiobjective<br />

evolutionary algorithm. In Technical report - SCS, University of Birmingham,<br />

pages 1–70, 2002.<br />

[114] G.H. Kim, V. Govindaraju, and S.N. Srihari. An architecture for handwritten<br />

text recognition systems. International Journal on Document<br />

Analysis and Recognition (IJDAR), 2(1) :37–44, 1999.<br />

[115] A. Kolesnikov and P. Fränti. Polygonal approximation of closed discr<strong>et</strong>e<br />

curves. Pattern Recognition (PR), 40(4) :1282–1293, 2007.<br />

[116] T. Kudo, E. Maeda, and Y. Matsumoto. An application of boosting to<br />

graph classification. In NIPS, 2004.<br />

[117] M. Kuramochi and G. Karypis. Frequent subgraph discovery. In Proceedings<br />

of the International Conference on Data Mining (ICDM’01), pages<br />

313–320, 2001.<br />

[118] M. Kuramochi and G. Karypis. Finding frequent patterns in a<br />

large sparse graph. Data Mining and Knowledge Discovery (DMKD),<br />

11(3) :243–271, 2005.<br />

[119] N.M. Kwok, D.K. Liu, and G. Dissanayake. Evolutionary computing<br />

based mobile robot localization. Engineering Applications of Artificial<br />

Intelligence (EAAI), 19(8) :857–868, 2006.<br />

[120] l. Zadeh. Optimality and non-scalar-valued performance criteria. IEEE<br />

Transactions on Automatic Control (IEEE TAC), 8(1) :59 – 60, 1963.<br />

[121] B. Lamiroy and D. Lopresti. An open architecture for end-to-end document<br />

analysis benchmarking. In Proceedings of the International Conference<br />

on Document Analysis and Recognition (ICDAR’11), pages 42–47,<br />

2011.


tel-00671168, version 1 - 8 Oct 2012<br />

108 Chapitre 6. Bibliographie<br />

[122] M. Laumanns, L. Thiele, K. Deb, and E. Zitzler. Combining convergence<br />

and diversity in evolutionary multiobjective optimization. MIT Press in<br />

Evolutionary Computation, 10(3) :263–282, 2002.<br />

[123] M. Laumanns, L. Thiele, k. Deb, and e. Zitzler. Combining convergence<br />

and diversity in evolutionary multiobjective optimization. Evolutionary<br />

Computation (EC), 10(3) :263–282, 2002.<br />

[124] B. Lazzerini, F. Marcelloni, and M. Vecchio. A multi-objective evolutionary<br />

approach to image quality/compression trade-off in JPEG baseline<br />

algorithm. Applied Soft Computing (ASC), 10(2) :548–561, 2010.<br />

[125] W. Lee, L. K. Burak Kara, and T.F. Stahovich. An efficient graph-based<br />

recognizer for hand-drawn symbols. Computers and Graphics (CG),<br />

31(4) :554–567, 2007.<br />

[126] J. Liang and D. S. Doermann. Logical labeling of document images<br />

using layout graph matching with adaptive learning. In Proceedings of<br />

the International Workshop on Document Analysis Systems (DAS’02),<br />

pages 224–235, 2002.<br />

[127] J. Lladoós, E. Martí, and J.J. Villanueva. Symbol recognition by<br />

error-tolerant subgraph matching b<strong>et</strong>ween region adjacency graphs.<br />

IEEE Transaction on Pattern Analysis and Machine Intelligence (IEEE<br />

PAMI), 23(10) :1137–1143, 2001.<br />

[128] J. Lladós and G. Sánchez. Graph matching versus graph parsing in<br />

graphics recognition - a combined approach. International Journal on<br />

Pattern Recognition and Articicial Intelligence (IJPRAI), 18(3) :455–<br />

473, 2004.<br />

[129] H. Locteau. Contributions à la localisation de symboles dans les documents<br />

graphiques. PhD thesis, Université de Rouen, 2008.<br />

[130] H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and É.<br />

Trupin. Approximation of digital curves using a multi-objective gen<strong>et</strong>ic<br />

algorithm. In Proceedings of the International Conference on Pattern<br />

Recognition (ICPR’06), pages 716–719, 2006.<br />

[131] A. G. López-Herrera, E. Herrera-Viedma, and F. Herrera. Applying<br />

multi-objective evolutionary algorithms to the automatic learning of extended<br />

boolean queries in fuzzy ordinal linguistic information r<strong>et</strong>rieval<br />

systems. Fuzzy S<strong>et</strong>s and Systems (FSS), 160(15) :2192 – 2205, 2009.<br />

[132] D. Lopresti and G. Wilfong. A fast technique for comparing graph representations<br />

with applications to performance evaluation. International<br />

Journal of Document Analysis and Recognition (IJDAR), 6(4) :219–229,<br />

2003.<br />

[133] M.A. Lozano and F. Escolano. Protein classification by matching and<br />

clustering surface graphs. Pattern Recognition (PR), 39(4) :539–551,<br />

2006.<br />

[134] S.W. Lu, Y. Ren, and C.Y. Suen. Hierarchical attributed graph representation<br />

and recognition of handwritten chinese characters. Pattern<br />

Recognition (PR), 24(7) :617–632, 1991.


tel-00671168, version 1 - 8 Oct 2012<br />

[135] B. Luo, R.C. Wilson, and E.R. Hancock. Spectral embedding of graphs.<br />

Pattern Recognition, pages 2213–2230, 2003.<br />

109<br />

[136] S. Mabu, K. Hirasawa, and J. Hu. A graph-based evolutionary algorithm :<br />

Gen<strong>et</strong>ic n<strong>et</strong>work programming (gnp) and its extension using reinforcement<br />

learning. Evolutionary Computation (EC), 15(3) :369–398, 2007.<br />

[137] P. Mahé, N. Ueda, T. Akutsu, J.-L. Perr<strong>et</strong>, and J.-P. Vert. Extensions of<br />

marginalized graph kernels. In Proceedings of the International Conference<br />

on Machine Learning (ICML’04), pages 552–559, 2004.<br />

[138] P. Mahé, N. Ueda, T. Akutsu, J.-L. Perr<strong>et</strong>, and J.-P. Vert. Graph kernels<br />

for molecular structure-activity relationship analysis with support vector<br />

machines. Journal of Chemical Information and Modeling (JCIM),<br />

45(4) :939–951, 2005.<br />

[139] S. Marini, M. Spagnuolo, and B. Falcidieno. Structural shape prototypes<br />

for the automatic classification of 3d objects. IEEE Computer Graphics<br />

and Applications (IEEE CGA), 27(4) :28–37, 2007.<br />

[140] M. Marji and P. Siy. A new algorithm for dominant points d<strong>et</strong>ection and<br />

polygonization of digital curves. Pattern Recognition (PR), 36(10) :2239<br />

– 2251, 2003.<br />

[141] M. Marji and P. Siy. Polygonal representation of digital planar curves<br />

through dominant point d<strong>et</strong>ection – a nonparam<strong>et</strong>ric algorithm. Pattern<br />

Recognition (PR), 37(11) :2113 – 2130, 2004.<br />

[142] R.T. Marler and J.S. Arora. Survey of multi-objective optimization<br />

m<strong>et</strong>hods for engineering. Structural and <strong>Multi</strong>disciplinary Optimization<br />

(SMO), 26(6) :369–395, 2004.<br />

[143] A. Masood. Optimized polygonal approximation by dominant point del<strong>et</strong>ion.<br />

Pattern Recognition (PR), 41(1) :227–239, 2008.<br />

[144] B. McKay. Practical graph isomorphism. In Numerical mathematics and<br />

computing, pages 45–87, 1981.<br />

[145] A. Messac and P.D. Hattis. Physical programming design optimization<br />

for high speed civil transport. Journal of aircraft, 33(2) :446–449, 1966.<br />

[146] B. T. Messmer and H. Bunke. A new algorithm for error-tolerant subgraph<br />

isomorphism d<strong>et</strong>ection. IEEE Transactions on Pattern Analysis<br />

and Machine Inteligence (IEEE PAMI), 20(5) :493–504, 1998.<br />

[147] D. A. Mitzias and B. G. Mertzios. Shape recognition with a neural<br />

classifier based on a fast polygon approximation technique. Pattern Recognition<br />

(PR), 27(5) :627 – 636, 1994.<br />

[148] S. Mostaghim and J. Teich. The role of ε-dominance in multi-objective<br />

particle swarm optimization. In Proceedings of the Congress on Evolutionary<br />

Computation (CEC’03), volume 3, pages 1764–1771, 2003.<br />

[149] S. Mostaghim and J. Teich. Strategies for finding good local guides<br />

in multi-objective particle swarm optimization. In Swarm Intelligence<br />

Symposium, 2003.


tel-00671168, version 1 - 8 Oct 2012<br />

110 Chapitre 6. Bibliographie<br />

[150] S. Mostaghim and J. Teich. Covering par<strong>et</strong>o-optimal fronts by subswarms<br />

in multi-objective particle swarm optimization. In IEEE Proceedings,<br />

World Congress on Computational Intelligence (CEC’04), volume<br />

2, pages 1404–1411, 2004.<br />

[151] C. R. Mouser and S. A. Dunn. Comparing gen<strong>et</strong>ic algorithms and particle<br />

swarm optimisation for an inverse problem exercise. In Rob May<br />

and A. J. Roberts, editors, Proc. of the Computational Techniques and<br />

Applications Conference (CTAC’04), volume 46, pages 89–101, 2005.<br />

[152] G. L. Nemhauser and L. A. Wolsey. Integer and combinatorial optimization.<br />

Wiley-Interscience, New York, NY, USA, 1988.<br />

[153] M. Neuhaus and H. Bunke. Edit distance-based kernel functions for<br />

structural pattern classification. Pattern Recognition (PR), 39(10) :1852–<br />

1863, 2006.<br />

[154] R. Neumann and G. Teisseron. Extraction of dominant points by estimation<br />

of the contour fluctuations. Pattern Recognition (PR), 35(7) :1447<br />

– 1462, 2002.<br />

[155] T.P. Nguyen and I. Debled Rennesson. Decomposition of a curve into<br />

arcs and line segments based on dominant point d<strong>et</strong>ection. In Proceedings<br />

of the Scandinavian Conference on Image Analysis - (SCIA’11), pages<br />

794–805, 2011.<br />

[156] L. S. Oliveira, M. Morita, and R. Sabourin. Feature selection for ensembles<br />

applied to handwriting recognition. International Journal on<br />

Document Analysis and Recognition (IJDAR), 8(4) :262–279, 2006.<br />

[157] L. S. Oliveira, R. Sabourin, F. Bortolozzi, and C. Y. Suen. Feature<br />

selection using multi-objective gen<strong>et</strong>ic algorithms for handwritten digit<br />

recognition. Proceedings of the International Conference on Pattern Recognition<br />

(ICPR’02), 1 :10568–10571, 2002.<br />

[158] E. Osuna, R. Freund, and F. Girosi. Support vector machines : Training<br />

and applications. Technical report, AI Memo 1602, Massachus<strong>et</strong>ts<br />

Institute of Technology, 1997.<br />

[159] E. Papageorgiou, K. Parsopoulos, C. Stylios, P. Groumpos, and M. Vrahatis.<br />

Fuzzy cognitive maps learning using particle swarm optimization.<br />

Journal of Intelligent Information Systems (JIIS), 25(1) :95–121, 2005.<br />

[160] M.T. Parvez and S.A. Mahmoud. Polygonal approximation of digital planar<br />

curves through adaptive optimizations. Pattern Recognition L<strong>et</strong>ters<br />

(PRL), 31(13) :1997–2005, 2010.<br />

[161] S-C. Pei and J-H. Horng. Optimum approximation of digital planar<br />

curves using circular arcs. Pattern Recognition (PR), 29(3) :383 – 388,<br />

1996.<br />

[162] J-C. Perez and E. Vidal. Optimum polygonal approximation of digitized<br />

curves. Pattern Recognition L<strong>et</strong>ters (PRL), 15(8) :743 – 750, 1994.<br />

[163] A. M. G. Pinheiro and M. Ghanbari. Piecewise approximation of contours<br />

through scale-space selection of dominant points. IEEE Transaction<br />

Image Processing (IEEE TIP), 19(6) :1442–1450, 2010.


tel-00671168, version 1 - 8 Oct 2012<br />

[164] H. Qiu and E. R. Hancock. Graph matching and clustering using spectral<br />

partitions. Pattern Recognition (PR), 39(1) :22–34, 2006.<br />

111<br />

[165] R. J. Queshri, J.-Y. Ramel, and H. Cardot. De l’appariement de graphes<br />

symboliques à l’appariements de graphes numériques : Application à la<br />

reconnaissance de symboles. In Actes de la Conférence Internationale<br />

Francophone sur l’Écrit <strong>et</strong> le Document (CIFED), pages 31–36, 2006.<br />

[166] P. V. Radtke, R. Sabourin, and T. Wong. Classification system optimization<br />

with multi-objective gen<strong>et</strong>ic algorithms. Proceedings of the International<br />

Workshop on Frontiers in Handwriting Recognition (IWFHR’06),<br />

2006.<br />

[167] M. A. Rahgozar. Document table recognition by graph rewriting. In<br />

Proceedings of the International Workshop on Applications of Graph<br />

Transformations with Industrial Relevance (AGTIVE ’99), pages 279–<br />

295, 2000.<br />

[168] A. Rakotomamonjy. Optimizing AUC with support vector machine. Proceedings<br />

of ECAI Workshop on ROC Curve and AI (ROCAI’04), pages<br />

469–478, 2004.<br />

[169] T. K. Ralphs and M. Gzelsüoy. The Next Wave in Computing, Optimization,<br />

and Decision Technologies, volume 29 of Operations Research/Computer<br />

Science Interfaces Series, chapter The Symphony Callable<br />

Library for Mixed Integer Programming, pages 61–76. Springer US,<br />

2005.<br />

[170] R. Raveaux, S. Adam, P. Héroux, and E. Trupin. Learning graph prototypes<br />

for shape recognition. Computer Vision and Image Understanding<br />

(CVIU), 115(7) :905 – 918, 2011.<br />

[171] R. Raveaux, E. Barbu, H. Locteau, S. Adam, P. Héroux, and É. Trupin.<br />

A graph classification approach using a multi-objective gen<strong>et</strong>ic algorithm<br />

application to symbol recognition. In Francisco Escolano and<br />

Mario Vento, editors, Proceedings of the IAPR International Workshop<br />

on Graph Based Representations for Pattern Recognition (GbR-PR’07),<br />

volume 4538 of Lecture Notes in Computer Science, pages 361–370. Springer,<br />

2007.<br />

[172] R. Raveaux, J.C. Burie, and J.M. Ogier. A graph matching m<strong>et</strong>hod<br />

and a graph matching distance based on subgraph assignments. Pattern<br />

Recognition L<strong>et</strong>ters (PRL), 31(5) :394–406, 2010.<br />

[173] B.K. Ray and K.S. Ray. An algorithm for d<strong>et</strong>ection of dominant points<br />

and polygonal approximation of digitized curves. Pattern Recognition<br />

L<strong>et</strong>ters (PRL), 13(12) :849 – 856, 1992.<br />

[174] P. Ren, R. C. Wilson, and E. R. Hancock. Graph characterization via<br />

Ihara coefficients. IEEE Transactions on Neural N<strong>et</strong>works (IEEE TNN),<br />

22(2) :233–245, 2011.<br />

[175] M. Reyes-sierra and C.A.C. Coello. <strong>Multi</strong>-objective particle swarm optimizers<br />

: A survey of the state-of-the-art. International journal of computational<br />

intelligence research (IJCIR), 2(3) :287–308, 2006.


tel-00671168, version 1 - 8 Oct 2012<br />

112 Chapitre 6. Bibliographie<br />

[176] K. Riesen and H. Bunke. Approximate graph edit distance computation<br />

by means of bipartite graph matching. Image Vision Computing (IVC),<br />

27(7) :950–959, 2009.<br />

[177] K. Riesen and H. Bunke. Graph classification based on vector space<br />

embedding. International Journal on Pattern Recognition and Articicial<br />

Intelligence (IJPRAI), 23(6) :1053–1081, 2009.<br />

[178] J. Ros, C. Laurent, and J-M. Jolion. A Bag of Strings representation for<br />

Image Categorization. International Journal of Mathematical Imaging<br />

and Vision (JMIV), 35(1) :51–67, 2009.<br />

[179] A. Rosenfeld and J.S. Weszka. An improved m<strong>et</strong>hod of angle d<strong>et</strong>ection on<br />

digital curves. IEEE Transaction on Computers (IEEE TC), 24(9) :940–<br />

941, 1975.<br />

[180] P.L. Rosin and G.A.W. West. Segmentation of edges into lines and arcs.<br />

Image and Vision Computing (IVC), 7(2) :109 – 114, 1989.<br />

[181] M. Rusiñol, J. Lladós, and G. Sánchez. Symbol spotting in vectorized<br />

technical drawings throug a lookup table of region strings. Pattern Analysis<br />

and Applications (PAA), 33(3) :321–331, 2009.<br />

[182] M. Salotti. An efficient algorithm for the optimal polygonal approximation<br />

of digitized curves. Pattern Recognition L<strong>et</strong>ters (PRL), 22(2) :215 –<br />

221, 2001.<br />

[183] G. Salton. The SMART R<strong>et</strong>rieval System - Experiments in Automatic<br />

Document Processing. Prentice Hall Inc., Englewood Cliffs, 1971.<br />

[184] B. Sarkar, L.K. Singh, and D. Sarkar. Approximation of digital curves<br />

with line segments and circular arcs using gen<strong>et</strong>ic algorithms. Pattern<br />

Recognition L<strong>et</strong>ters (PRL), 24(15) :2585–2595, 2003.<br />

[185] D. Sarkar. A simple algorithm for d<strong>et</strong>ection of significant vertices for polygonal<br />

approximation of chain-coded curves. Pattern Recognition L<strong>et</strong>ters<br />

(PRL), 14(12) :959–964, 1993.<br />

[186] J.D. Schaffer and J.J. Grefenst<strong>et</strong>te. <strong>Multi</strong>objective learning via gen<strong>et</strong>ic<br />

algorithms. In Proceedings of the International Joint Conferences on<br />

Artificial Intelligence (IJCAI’85), pages 593–595, 1985.<br />

[187] A. Schrijver. Theory of Linear and Integer Programming. John Wiley &<br />

Sons, New York, NY, USA, 1998.<br />

[188] M. Sebag, J.Azé, and N. Lucas. Roc-based evolutionary learning : Application<br />

to medical data mining. Proceedings of the International Conference<br />

on Artificial Evolution (ICAI’03), pages 384–396, 2003.<br />

[189] T.C. Service. A no free lunch theorem for multi-objective optimization.<br />

Information Processing L<strong>et</strong>ters (IPL), 110(21) :917–923, 2010.<br />

[190] M. S<strong>et</strong>tles, B. Rodebaugh, and T. Soule. Comparison of gen<strong>et</strong>ic algorithm<br />

and particle swarm optimizer when evolving a recurrent neural<br />

n<strong>et</strong>work. In Springer Berlin / Heidelberg, editor, Gen<strong>et</strong>ic and Evolutionary<br />

Computation - GECCO 2003, volume 2723/2003 of Lecture Notes<br />

in Computer Science, pages 148–149, 2003.


tel-00671168, version 1 - 8 Oct 2012<br />

113<br />

[191] N. Sidère, P. Héroux, and J-Y. Ramel. Vector representation of graphs :<br />

Application to the classification of symbols and l<strong>et</strong>ters. In Proceedings<br />

of the International Conference on Document Analysis and Recognition<br />

(ICDAR’09), pages 681–685, 2009.<br />

[192] J. Sivic, B. Russell, A. Efros, A. Zisserman, and W. Freeman. Discovering<br />

object categories in image collections. In Proceedings of the International<br />

Conference on Computer Vision (ICCV), 2005.<br />

[193] C. Solnon. Alldifferent-based filtering for subgraph isomorphism. Artificial<br />

Intelligence (AI), 174(12-13) :850 – 864, 2010.<br />

[194] N. Srinivas and K. Deb. <strong>Multi</strong>objective optimization using nondominated<br />

sorting in gen<strong>et</strong>ic algorithms. Evolutionary Computation, 2(3) :221–248,<br />

1994.<br />

[195] W. Stadler. Fundamentals of <strong>Multi</strong>criteria Optimization. pages 1–25.<br />

Plenum Press, 1988.<br />

[196] R. Steuer and E-U. Choo. An interactive weighted tchebycheff procedure<br />

for multiple objective programming. Mathematical Programming,<br />

26(3) :326–344, 1983.<br />

[197] F. Suard, V. Guigue, A. Rakotomamonjy, and A. Bensrhair. Pedestrian<br />

d<strong>et</strong>ection using stereovision and graph kernels. In Proceedings of the<br />

IEEE Intelligent Vehicle Sysposium (IVS’05), pages 267–272, 2005.<br />

[198] K.C. Tan, T.H. Lee, and E.F. Evolutionary algorithms for multi-objective<br />

optimization : Performance assessments and comparisons. Artificial Intelligence<br />

Review, 17(4) :251–290, 2002.<br />

[199] M. Tanaka, H. Watanabe, Y. Furukawa, and T. Tanino. GA-based decision<br />

support system for multicriteria optimization. In Proceedings of the<br />

International Conference on Systems, Man and Cybern<strong>et</strong>ics (ICSMC’95),<br />

volume 2, pages 1556–61, 1995.<br />

[200] M. Teague. Image analysis via the general theory of moments. Journal<br />

of the Optical Soci<strong>et</strong>y of America (JOSA), 70(8) :920–930, 1980.<br />

[201] C.H. Teh and R.T. Chin. On the d<strong>et</strong>ection of dominant points on digital<br />

curves. IEEE Transaction on Pattern Analysis and Machine Intelligence<br />

(IEEE PAMI), 11(8) :859–872, 1989.<br />

[202] O. R. Terrades, S. Tabbone, and E. Valveny. A review of shape descriptors<br />

for document analysis. In Proceedings of the International Conference<br />

on Document Analysis and Recognition (ICDAR), pages 227–231,<br />

2007.<br />

[203] S. M. Thomas and Y. T. Chan. A simple approach for the estimation<br />

of circular arc center and its radius. Computer Vision, Graphics, and<br />

Image Processing (CVGIP), 45(3) :362 – 370, 1989.<br />

[204] K. Tombre. Is graphics recognition an unidentified scientific object ?<br />

In Wenyin Liu, Josep Lladós, and Jean-Marc Ogier, editors, Graphics<br />

Recognition. Recent Advances and New Opportunities, pages 329–334.<br />

Springer-Verlag, Berlin, Heidelberg, 2008.


tel-00671168, version 1 - 8 Oct 2012<br />

114 Chapitre 6. Bibliographie<br />

[205] K. Tombre. Graphics Recognition – What Else ? In Jean-Marc Ogier,<br />

Wenyin Liu, and Josep Llados, editors, Graphics Recognition - Achievements,<br />

Challenges and Evolution. Selected Paper from 8th International<br />

Workshop GREC 2009, La Rochelle, July 2009, volume 6020 of Lecture<br />

Notes in Computer Science, pages 272–277. Springer Verlag, 2010.<br />

[206] K. Tombre, S. Tabbone, and Ph. Dosch. Musings on Symbol Recognition.<br />

In Wenyin Liu and Josep Lladós, editors, Graphics Recognition—Ten<br />

Years Review and Future Pespectives, volume 3926 of Lecture Notes in<br />

Computer Science, pages 23–34. Springer Verlag, 2006.<br />

[207] F. Tortorella, R. Patraccone, and M. Molinara. A dynamic programming<br />

approach for segmenting digital planar curves into line segments and<br />

circular arcs. In Proceedings of the International Conference on Pattern<br />

Recognition (ICPR’08), pages 1–4, 2008.<br />

[208] J. R. Ullmann. An algorithm for subgraph isomorphism. Journal of the<br />

ACM (JACM), 23(1) :31–42, 1976.<br />

[209] S. V. N. Vishwanathan, N. N. Schraudolph, R. Kondor, and K. Borgwardt.<br />

Graph kernels. Journal of Machine Learning Research (JMLR),<br />

11 :1201–1242, 2010.<br />

[210] G. Wahba, X. Lin, F. Gao, D. Xiang, R. Klein, and B. Klein. The<br />

bias-variance tradeoff and the randomized gacv. In Proceedings of NIPS,<br />

pages 620–626, 1999.<br />

[211] W. D. Wallis, P. Shoubridge, M. Kra<strong>et</strong>z, and D. Ray. Graph distances<br />

using graph union. Pattern Recognition L<strong>et</strong>ters, 22(6-7) :701–704, 2001.<br />

[212] R. C. Wilson, E. R. Hancock, and B. Luo. Pattern vectors from algebraic<br />

graph theory. IEEE Transaction on Pattern Analysis and Machine<br />

Intelligence (IEEE PAMI), 27(7) :1112–1124, 2005.<br />

[213] D.H. Wolpert and W.G. Macready. No free lunch theorems for optimization.<br />

IEEE Transaction on evolutionary computation (IEEE TEC),<br />

1(1) :67–82, 1997.<br />

[214] S. Wu and P. Flach. A scored AUC m<strong>et</strong>ric for classifier evaluation and<br />

selection. In Proceedings of the workshop on ROC analysis in Machine<br />

Learning at ICML (ROCML’05), 2005.<br />

[215] S. Yu and F. K. Soong. A symbol graph based handwritten math expression<br />

recognition. In Proceedings of the International Conference on<br />

Pattern Recognition (ICPR’08), pages 1–4, 2008.<br />

[216] H. Zanghi, C. Ambroise, and V. Miele. Fast online graph clustering<br />

via Erdös-Rényi mixture. Pattern Recognition (PR), 41(12) :3592–3599,<br />

2008.<br />

[217] H. Zhang, C.M. Tam, and H. Li. <strong>Multi</strong>mode project scheduling based on<br />

particle swarm optimization. Computer Aided Civil and Infrastructure<br />

Engineering (CACIE), 21(2) :93–103, 2006.<br />

[218] E. Zitzler, M. Laumanns, and L. Thiele. SPEA2 : Improving the strength<br />

Par<strong>et</strong>o evolutionary algorithm. Technical report, Computer Engineering<br />

and N<strong>et</strong>works Laboratory (TIK), ETH Zurich, 2001.


tel-00671168, version 1 - 8 Oct 2012<br />

115<br />

[219] E. Zitzler and L. Thiele. <strong>Multi</strong>objective evolutionary algorithms : A comparison<br />

case study and the strength Par<strong>et</strong>o approach. IEEE Transactions<br />

on Evolutionary Computation (IEEE TEC), 3(4) :257–271, 1999.


tel-00671168, version 1 - 8 Oct 2012<br />

116 Chapitre 6. Bibliographie


tel-00671168, version 1 - 8 Oct 2012<br />

Troisième partie<br />

Recueil de publications<br />

117


tel-00671168, version 1 - 8 Oct 2012


tel-00671168, version 1 - 8 Oct 2012<br />

Annexe A<br />

Réference CV : 6<br />

E. Barbu, P. Héroux, S. Adam, and E. Trupin. Frequent graph discovery :<br />

Application to line drawing document images. Electronic L<strong>et</strong>ters on Computer<br />

Vision and Image Analysis (ELCVIA), 5(2) :47-57, 2005.<br />

i


tel-00671168, version 1 - 8 Oct 2012<br />

Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />

Frequent Graph Discovery: Application to Line Drawing Document<br />

Images<br />

Eugen Barbu, Pierre Héroux, Sébastien Adam, and Éric Trupin<br />

Laboratoire PSI<br />

CNRS FRE 2645 - Université de Rouen<br />

76 821 Mont-Saint-Aignan cedex - France<br />

Received 16 July 2004; accepted 16 November 2004<br />

Abstract<br />

In this paper a sequence of steps is applied to a graph representation of line drawings using concepts from<br />

data mining. This process finds frequent subgraphs and then association rules b<strong>et</strong>ween these subgraphs.<br />

The distant aim is the automatic discovery of symbols and their relations, which are parts of the document<br />

model. The main outcome of our work is firstly an algorithm that finds frequent subgraphs in a single graph<br />

s<strong>et</strong>ting and secondly a modality to find rules and m<strong>et</strong>a-rules b<strong>et</strong>ween the discovered subgraphs. The searched<br />

structures are closed [1] and disjunct subgraphs. One aim of this study is to use the discovered symbols for<br />

classification and indexation of document images when a supervised approach is not at hand. The relations<br />

found b<strong>et</strong>ween symbols can be used in segmentation of noisy and occluded document images. The results show<br />

that this approach is suitable for patterns, symbols or relation discovery.<br />

Key Words: Computer Vision, Image Analysis, Pattern Recognition, Graph Mining, Line Drawings,<br />

Association Rules.<br />

1 Introduction<br />

A symbol encodes a message into the form of an arbitrary sign. This sign has acquired a conventional<br />

significance. According to the document model, the symbol conveys graphical and semantic information. In<br />

this paper we try to discover both the representation as a written sign, and the relations (rules) that a symbol<br />

respects. The graphical representation and the rules found can be considered as an approximation of the<br />

message carried by the symbol. Automatic symbol extraction on document images without any prior domain<br />

knowledge is an appealing task. This approach has been pursued by Altamura [2] and Messmer [3]. In the<br />

context of line drawings document, one way to d<strong>et</strong>ect symbols is to consider the frequent occurrences of<br />

included entities. The entities can be graphs, geom<strong>et</strong>ric shapes or image parts depending at which processing<br />

level (segmentation) we apply this m<strong>et</strong>hod [4], [5], [6]. A possible extension of this approach is to find<br />

relations b<strong>et</strong>ween symbols. Such a relation can be viewed as a new entity that can be frequent and<br />

participates on its own right in other more complex relations. The standard for mining frequent item s<strong>et</strong>s is<br />

the A priori algorithm [7]. However if the objects are graphs, some modifications to the basic algorithm<br />

Correspondence to: eugen.barbu@univ-rouen.fr<br />

Recommended for acceptance by J.M. Ogier, T. Paqu<strong>et</strong>, G. Sanchez<br />

ELCVIA ISSN: 1577-5097<br />

Published by Computer Vision Center / Universitat Autonoma de Barcelona, Barcelona, Spain


tel-00671168, version 1 - 8 Oct 2012<br />

48 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />

should be made. Several papers describe A priori-like algorithms for mining frequent graph substructures<br />

[8], [9], [10].<br />

This paper presents an algorithm that finds frequent subgraphs in a graph, a modality of creating rules and<br />

m<strong>et</strong>a-rules b<strong>et</strong>ween the discovered symbols and some possible utilization for the d<strong>et</strong>ected rules.<br />

The principle of our approach is described on Fig.1.<br />

A document image is characterised in a certain extent by the s<strong>et</strong> of symbols that are frequent. Using this<br />

incompl<strong>et</strong>e description of a document, generated in an unsupervised manner, we can use techniques from<br />

Information R<strong>et</strong>rieval in order to index [11] and classify [12] document images.<br />

A good example for using the rules b<strong>et</strong>ween objects can be to cluster a s<strong>et</strong> of document images. If the<br />

symbols are described in the common graph language, the rules can also be shared. Two documents are from<br />

the same class if they respect the same rules. The distance b<strong>et</strong>ween two documents can be evaluated using<br />

the extent to which one document conforms to the rules of the other.<br />

Another application of the rules b<strong>et</strong>ween symbols is to apply these rules in the segmentation process<br />

when noise or occluded symbols are present.<br />

Fig. 1. Approach principle<br />

This paper is organized as follows. Section 2 addresses the algorithm for finding frequent subgraphs.<br />

Section 3 emphasizes the ways we can find association rules b<strong>et</strong>ween symbols. Section 4 presents an<br />

example of the proposed m<strong>et</strong>hod. Section 5 elaborates several conclusions.<br />

2 An algorithm that finds frequent subgraphs<br />

The proposed approach is based on the fact that symbols on technical drawings graphically encode<br />

message elements according to a certain convention. So, in several document images sharing the same<br />

document model, a pattern always describes the same entity. The symbols of a document class appear with a<br />

certain frequency.<br />

The purpose of this algorithm is to find the frequent subgraphs from a graph that describes the<br />

neighbourhood relations b<strong>et</strong>ween shapes in a line drawing document. The subgraphs which represent<br />

symbols are closed graphs (a graph is closed if it does not have a super-graph with the same number of<br />

apparitions in the datas<strong>et</strong>) [1].<br />

In the process of document image analysis, different graph based representations can be used. These<br />

representations can be constructed depending on the understanding level of the document when the graph is<br />

generated or according to the type of document that one tries to model (mostly textual, mostly graphical,<br />

mixed…)


tel-00671168, version 1 - 8 Oct 2012<br />

Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 49<br />

In this paper we extract a graph from the document image at a low level of document understanding. We<br />

only use connected components and their neighbouring relations to construct the graph. The documents<br />

analysed are mostly graphical documents called line drawings. From a semantic point of view, a line drawing<br />

document is a document that does not lose information when the morphological operation of skel<strong>et</strong>onisation<br />

is applied on it.<br />

The document graph is obtained from a line drawing considering:<br />

• the regions (closed loops, two-dimensional shapes) or one-dimensional shapes as nodes.<br />

• the neighbouring relations b<strong>et</strong>ween these shapes as edges.<br />

Two shapes are neighbours if they share a common frontier (see Fig. 2). This relation of neighbourhood<br />

can also be computed using a distance b<strong>et</strong>ween node regions. One example can be: two occlusions are<br />

neighbours if the distance b<strong>et</strong>ween their centers is less than a fixed or relative threshold. This<br />

representation is more robust than the binary relation of neighbourhood computed using the existence or<br />

not of a common frontier but has the disadvantage of using a more or less arbitrary threshold.<br />

In order to label each node we extract a vector of features called Zernike moments for every part of the<br />

image that represents a node of the representation graph. These features are rotation invariant. More<br />

properties on these features can be found in [13].<br />

We apply an unsupervised clustering algorithm on the nodes of the representation and each node has the<br />

class it belongs to as label. The clustering algorithm used is hierarchical ascendant, clustering using the<br />

Euclidean distance as dissimilarity, compl<strong>et</strong>e-linkage distance b<strong>et</strong>ween clusters, and the Calinsky-Harabasz<br />

index to obtain the number of clusters. This algorithm has been chosen after a comparison with a hierarchical<br />

descendant clustering using the Duda-Hart index as stopping criterion and based on the conclusions from<br />

[14].<br />

Two graphs represent the same symbol if they are isomorphic and if each pair of nodes (associated by the<br />

isomorphism function) has the same label.


tel-00671168, version 1 - 8 Oct 2012<br />

50 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />

Fig. 2. A drawing a.) and its associated graph d.), considering the background region n0. The 1dimensional<br />

shapes are represented by circles. The 2-dimensional shapes are represented by rectangles.<br />

In this context a subgraph is considered frequent if its number of apparitions as non-included in other<br />

subgraphs is greater than a certain threshold s.<br />

The way the threshold is defined can be linked to two possible s<strong>et</strong>tings: single or multiple graphs. In<br />

multiple graphs s<strong>et</strong>ting, i.e. we have a s<strong>et</strong> of graphs and each graph is called a “transaction”, we can say a<br />

subgraph is frequent if it appears in more than ²s% transactions. In our case we are interested in the frequent<br />

occurrences of a subgraph in the same graph, so we are in a single graph s<strong>et</strong>ting.<br />

Because the number of subgraphs of the same class (any two subgraphs from the same class are<br />

isomorphic) is considered for a single graph, the threshold cannot be defined in relation with the number of<br />

transactions as it is done in other similar algorithms ([9], [10]). Considering a single transaction, we are<br />

interested in symbol occurrences included in that transaction. Here the threshold s is computed considering<br />

an approximation of the maximum possible number of subgraphs, with disjoint node s<strong>et</strong>s and fixed number<br />

of edges and nodes, contained in the document graph.<br />

The proposed algorithm uses the principle behind “A priori”-like algorithms combined with two<br />

simplifying hypotheses:<br />

– the symbols are rarely expressed by graphs with a large number of nodes (10)<br />

– occurrences for the same symbol are subgraphs with disjoint node s<strong>et</strong>s<br />

The idea behind all A priori-like algorithms is that we can construct the frequent s<strong>et</strong>s of objects by adding<br />

objects to a s<strong>et</strong> that is frequent until it is not frequent anymore. When objects are graphs, a graph is frequent<br />

if all its subgraphs are also frequent. In the general case this last proposition is not true but if we are in the<br />

context of disjoint node s<strong>et</strong>s for subgraphs, this proposition is true. On Fig. 3, the graph c) has only one<br />

occurrence in the graph a). If we consider that subgraphs can have common nodes, three occurrences of<br />

graph b) can be found in graph a). In our case, nodes only participate in the representation of a single<br />

symbol. Hence, subgraphs must have distinct nodes. Then, only one occurrence of graph b) can be found<br />

graph a).<br />

Fig. 3. Illustration for frequent subgraph search


tel-00671168, version 1 - 8 Oct 2012<br />

Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 51<br />

Fig. 4. Non-isomorphic graph n<strong>et</strong>work<br />

In the algorithm used here, in order to reduce time complexity, we compute a n<strong>et</strong>work of non-isomorphic<br />

graphs off-line.<br />

The n<strong>et</strong>work is used to guide the search for frequent subgraphs and to avoid isomorphism related<br />

computations (exponential in time) during this procedure. The n<strong>et</strong>work contains all graphs that have less than<br />

MAX edges. The graphs and their relations of inclusion are generated using the m<strong>et</strong>hod presented in [15].<br />

This m<strong>et</strong>hod generates all non isomorphic subgraphs of a particular size. The complexity of this m<strong>et</strong>hod is<br />

exponential.<br />

Based on the relation of inclusion b<strong>et</strong>ween these graphs the n<strong>et</strong>work is an acyclic oriented graph, whose<br />

nodes are all non-isomorphic graphs with less than MAX edges, where MAX is an input param<strong>et</strong>er. Fig. 4<br />

presents how a search for frequent subgraphs is done. If at a certain stage a graph is not frequent, all of its<br />

descendants, with more edges, cannot be frequent. This n<strong>et</strong>work was computed with MAX=9 in our<br />

application. Two reasons sustain this choice: the size of the n<strong>et</strong>work increases more than exponentially with<br />

the number of graph edges and the symbols are rarely expressed with graphs that have a bigger number of<br />

edges. The algorithm uses the information contained in the n<strong>et</strong>work of non-isomorphic graphs (the inclusion<br />

relations and automorphisms for each graph) to efficiently search for frequent subgraphs. Based on the nonisomorphic<br />

graph n<strong>et</strong>work, the search for frequent subgraphs is done in polynomial time.<br />

2.1Algorithm<br />

N<strong>et</strong>work initialisation till level MAX<br />

begin<br />

Input An undirected labelled graph<br />

Output A list of frequent subgraphs and for each one the apparition list<br />

k:=1<br />

while k


tel-00671168, version 1 - 8 Oct 2012<br />

52 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />

then update the list of predecessor s<strong>et</strong>ting the (inclusion in a frequent graph) flag on true<br />

else update the successors of G s<strong>et</strong>ting the flag, for the possibility to be frequent, on false<br />

for all frequent graphs from level k-1<br />

update the list of apparitions taking into account the inclusion in other frequent graphs<br />

update accordingly the frequent flag<br />

k:=k+1<br />

end while<br />

end.<br />

The threshold is computed using the following formula:<br />

min( , n)<br />

e' n' e<br />

threshold= p∗<br />

This formula represents an approximation of the maximum number of subgraphs that can be found in a<br />

graph. We consider that a subgraph is frequent if the number of occurrences is bigger than p% out of the<br />

maximum (possible) total number of subgraphs having e’ edges and n’ nodes. This algorithm can be applied<br />

to a graph or a s<strong>et</strong> of graphs associated to a document or a collection of documents.<br />

3 Rules and m<strong>et</strong>a-rules<br />

After some symbols were found using the above algorithm, relations b<strong>et</strong>ween those symbols can be<br />

considered. The search for association rules b<strong>et</strong>ween symbols is made using the “A priori” algorithm [7]. In<br />

the subsequent paragraphs the s<strong>et</strong>ting of this algorithm is presented. If we consider a s<strong>et</strong> of symbols all<br />

having a common property, for example being on the same level in the inclusion tree (this tree models the<br />

inclusions b<strong>et</strong>ween shapes), we may say this s<strong>et</strong> of symbols participates in a transaction. All transactions are<br />

considered when relations b<strong>et</strong>ween symbols are computed. An example for a s<strong>et</strong> of transactions that<br />

describes how the objects are related can be:<br />

T<br />

1(<br />

1 2 3 2 1 2 3 2 3 4 1 2 4<br />

o , o , o ); T ( o , o ); T ( o , o ); T ( o , o , o )<br />

From this s<strong>et</strong> of transactions one can extract a rule as the following “if the object o1 participates in a<br />

transaction then the object o2 will probably be there too”.<br />

The transactions can be defined using other criterions such as: a document represents a single transaction.<br />

The relations found have the meaning that if a s<strong>et</strong> of symbols appears in a document then it is highly<br />

probable that the consequent s<strong>et</strong> of symbols will appear as well.<br />

In the single graph s<strong>et</strong>ting we can relate transactions to graph partitioning or subgraph clustering.<br />

However, in the present paper only transactions based on the inclusion relation are used.<br />

Applying the A priori algorithm in this context (i.e. using the above described transactions) we find<br />

relations of the following type:<br />

Where<br />

( 2<br />

(1)<br />

oi1, oi2,...,<br />

oin)<br />

⇒ ( o j1,<br />

oj<br />

,..., ojm)<br />

(2)<br />

( o i1, oi2,...,<br />

oin)<br />

∩ ( o j1,<br />

oj2,...,<br />

ojm)<br />

= ∅


tel-00671168, version 1 - 8 Oct 2012<br />

Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 53<br />

If we consider a rule R obtained by the “A priori” algorithm, we can compute for each transaction<br />

wh<strong>et</strong>her R is confirmed or not. The confirmation is verified using the logical definition of the implication<br />

relation.<br />

This computation has the following meaning: a rule is considered in its own right as a pattern and we<br />

consider that this particular rule appears in the transaction if it is confirmed in that transaction.<br />

When in a given document we find a relation b<strong>et</strong>ween some symbols then this fact implies the existence<br />

of a relation b<strong>et</strong>ween some other symbols in the document.<br />

Considering rules as patterns can be recursively applied in order to obtain m<strong>et</strong>a-rules of type:<br />

(( ,..., ok1<br />

) ⇒ ( o ,..., ok 2 )) ⇒ (( o ,..., ok 3 ) ⇒ ( o ,..., ok 4 ))<br />

oi 1<br />

i 2<br />

i 3<br />

i 4<br />

or<br />

or<br />

( oi1,..., ok1)<br />

⇒ (( oi<br />

2,...,<br />

ok2)<br />

⇒(<br />

oi3,...,<br />

ok3))<br />

(( oi1,..., ok1)<br />

⇒ ( oi<br />

2,...,<br />

ok2))<br />

⇒(<br />

oi3,...,<br />

ok3)<br />

The m<strong>et</strong>a-rules found add knowledge to the associations and are not equivalent with simple rules. To support<br />

this assertion, we present an example where a m<strong>et</strong>a-rule is not reducible to a simple rule (like Eq. 2.). The<br />

⇒ is written in a disjunctive normal form as: o 1o2+<br />

o3+<br />

o4<br />

− −<br />

( o1, o2)<br />

⇒( o3,<br />

o4<br />

or 1 ( o2,<br />

o3,<br />

o4)<br />

m<strong>et</strong>a-rule ( o1 o2)<br />

⇒(<br />

o3⇒o4)<br />

but no simple rule such<br />

as ) o ⇒ written in a disjunctive normal form will contain a conjunction of a<br />

statement l<strong>et</strong>ter and a negation of other l<strong>et</strong>ter as it is the case for the m<strong>et</strong>a-rule.<br />

These types of m<strong>et</strong>a-rules are more difficult to be expressed in informal language but are closer to the<br />

domain knowledge rules. One can describe a relation R1⇒R 2 b<strong>et</strong>ween rules as follows: all transactions that<br />

contain a certain rule will probably contain the second rule as well.<br />

4 Examples<br />

4.1 Tutorial example<br />

This section presents a didactic example of our approach applied on a synth<strong>et</strong>ic document (Fig. 5.)<br />

containing architectural symbols. First, connected components, loops and neighbouring relations are<br />

extracted. After that, the neighbouring graph is built (Fig. 6(a)). Inclusion of shapes can be obtained from the<br />

graph [17]. Then, the corresponding inclusion tree is obtained (Fig. 6(b)). The threshold s is computed (s = 6)<br />

by applying equation (1) with p = 0.2. Then a subgraph is considered frequent if we can find 6 occurrences at<br />

least. The results of frequent subgraph search are shown on Fig. 7. In this search the inclusion relation is not<br />

considered as a neighbouring relation. Using the discovered symbols, transactions that contain these symbols<br />

can be obtained. Each transaction represents a leaf of the inclusion tree.<br />

(3)


tel-00671168, version 1 - 8 Oct 2012<br />

54 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />

Fig. 5. A technical drawing<br />

Fig. 6. Neighbourhood graph and inclusion tree<br />

Fig. 7. Frequent subgraphs and corresponding symbols


tel-00671168, version 1 - 8 Oct 2012<br />

Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 55<br />

The symbols are named S0, S1, S2, and S3. Considering the above assumptions the transactions are:<br />

T1(<br />

S0,<br />

S1),<br />

T2(<br />

S0,<br />

S1),<br />

T3(<br />

S0,<br />

S1),<br />

T4(<br />

S0,<br />

S1),<br />

T5(<br />

S0,<br />

S1),<br />

T6(<br />

S0,<br />

S1),<br />

T7(<br />

S0,<br />

S1,<br />

S3),<br />

T8(<br />

S0,<br />

S1),<br />

T9(<br />

S0,<br />

S1),<br />

T10(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T11(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T12(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T13(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T14(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T15(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T16(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T17(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T18(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T19(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T20(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T21(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T22(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T23(<br />

S0,<br />

S1,<br />

S2,<br />

S3),<br />

T24(<br />

S0,<br />

S2,<br />

S3),<br />

T25(<br />

S0,<br />

S2),<br />

T26(<br />

S0,<br />

S2),<br />

T27(<br />

S1,<br />

S2),<br />

T28(<br />

S1,<br />

S2),<br />

T29(<br />

S1,<br />

S2),<br />

T 30( S1,<br />

S3),<br />

T31(<br />

S1,<br />

S3),<br />

T32(<br />

S3),<br />

T33(<br />

S3),<br />

T34(<br />

S3),<br />

T35(<br />

S3).<br />

The support and the confidence are often used to qualify association rules. For a rule a ⇒b, these are defined<br />

by:<br />

na<br />

ab<br />

Support= Confidence= n<br />

n<br />

na<br />

where n is the number of transactions, n a is the number of transactions which satisfy a and n ab is the<br />

number of transaction which satisfy a∧b.<br />

Based on these transactions the following rules and m<strong>et</strong>a-rules were obtained:<br />

R1: ( S0⇒<br />

S1)<br />

support=0.74 confidence=0.88<br />

R2: ( S2⇒<br />

S0)<br />

support=0.57 confidence=0.85<br />

R3: ( S3⇒<br />

( S2⇒S0))<br />

support=0.62 confidence=1.0<br />

The rules were found considering a threshold of 0.8 for confidence and 0.5 for support in the “A priori”<br />

algorithm.<br />

The m<strong>et</strong>a-rule found using the above thresholds has a significance (in the context of these artificially created<br />

document image) equivalent with a logo in a real document image. When we find a certain logo we expect<br />

rules b<strong>et</strong>ween symbols which are specific to that document.<br />

4.2 Robustness<br />

This section presents an experiment which aims at assessing the robustness of our approach. Fig. 8(a)<br />

represents several occurrences of the same symbol with different levels of noise. Two kinds of noise have<br />

been introduced :<br />

– Vb1 models the connectivity of several graphic information,<br />

– Vb2 is a gaussian noise on the grey level image.<br />

The Vb1 noise highlights the capacity of the m<strong>et</strong>hod to deal with connected and distorted symbols. Even<br />

when some symbols are unrecognisable the property of being frequent is kept.<br />

Fig. 8(b) gives for each noise level of Vb1, the proportion of found symbols in relation to Vb2. Even if this<br />

proportion decreases with the noise, our objective is not to extract all symbols but rather to find redundancies<br />

that qualify the document. However, we can conclude that the thresholds have to be adapted to the noise on<br />

the document image.


tel-00671168, version 1 - 8 Oct 2012<br />

56 Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005<br />

5 Conclusions<br />

(a)Different noise levels (b)Robustness evaluation<br />

Fig. 8. Robustness to noise<br />

The research undertaken represents a novel approach for finding symbols in line drawing documents as<br />

well as for discovering relations b<strong>et</strong>ween automatically mined symbols. The approach uses data mining<br />

concepts for knowledge extraction. It aims at finding frequent symbols and relations. These frequent patterns<br />

are part of the document model and can be put in relation with the domain knowledge. The exposed m<strong>et</strong>hod<br />

can be applied to other graph representations of a document. The only condition is that the document graph<br />

should contain symbols as disjoint graphs. In our future works, we will apply this approach to layout<br />

structures of textual document images to extract formatting rules. Some follow-up activities could be:<br />

– post-processing of the neighbourhood graph in order to attenuate the noise influence;<br />

– employment of error tolerant graph matching;<br />

– utilization, at a semantic level, of more powerful indices for association rules;<br />

– creation of a hierarchy of rules, probably a similar approach with Gras <strong>et</strong> al. [17].<br />

References<br />

[1] Yan, X., Han, J.: “Closegraph: mining closed frequent graph patterns”. In: Proceedings of the Ninth<br />

ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press<br />

(2003) 286–295<br />

[2] Altamura, O., Esposito, F., Malerba, D.: “Transforming paper documents into xml format with<br />

Wisdom++”. International Journal on Document Analysis and Recognition 4 (2001) 2–17


tel-00671168, version 1 - 8 Oct 2012<br />

Eugen Barbu <strong>et</strong> al. / Electronic L<strong>et</strong>ters on Computer Vision and Image Analysis 5(2):47-57, 2005 57<br />

[3] Messmer, B.: “Efficient Graph Matching Algorithms for Preprocessed Model Graphs”. PhD thesis,<br />

University of Bern, CH, Institute of Applied Mathematics (1995)<br />

[4] Berardi, M., Ceci, M., Malerba, D.: “Mining spatial association rules from document layout<br />

structures”. In: Proceedings of the Third International Workshop on Document Layout Interpr<strong>et</strong>ation<br />

and its Applications. (2003)<br />

[5] Cornuéjols, A., Mary, J., Sebag, M.: « Classification d’images à l’aide d’un codage par motifs<br />

fréquents ». In: Actes de la Journée analyse de données, statistique <strong>et</strong> apprentissage pour la fouille<br />

d’image du Congrès RFIA. (2004) 11–16<br />

[6] Ordonez, C., Omiecinski, E.: “Discovering association rules based on image content”. In: Proceeding<br />

of the IEEE Advances in Digital Libraries Conference. (1999)<br />

[7] Agrawal, R., Srikant, R.: “Fast algorithms for mining association rules”. In Bocca, J.B., Jarke, M.,<br />

Zaniolo, C., eds.: Proc. 20th Int. Conf. Very Large Data Bases, VLDB, Morgan Kaufmann (1994)<br />

487–499<br />

[8] Washio, T., Motoda, H.: “State of the art of graph-based data mining”. SIGKDD Explor. Newsl. 5<br />

(2003) 59–68<br />

[9] Kuramochi, M., Karypis, G.: “Frequent subgraph discovery”. In: Proceedings of the International<br />

Conference on Data Mining. (2001)<br />

[10] Inokuchi, A., Washio, T., Motoda, H.: “An apriori-based algorithm for mining frequent substructures<br />

from graph data”. In: Proceedings of the Conference on Principle and Practice of Knowledge<br />

Discovery in Databases. (2000)<br />

[11] Gupta, A., Jain, R.: Visual information r<strong>et</strong>rieval. Comm. Assoc. Comp. Mach., 40 (May 1997) 70-79<br />

[12] Barbar D., Domeniconi C., Kang N., Classifying <strong>Documents</strong> Without Labels, In : Proceedings of the<br />

Fourth SIAM International Conference on Data Mining, Lake Buena Vista, Florida, USA, April 22-<br />

24,2004<br />

[13] Khotanzad, A. and Hong, Y.H. Invariant Image Recognition by Zernike Moments. IEEE Trans. on<br />

PAMI, 12 (5). 289-497, 1990<br />

[14] Milligan, G. W., Cooper, M.C.: An Examination of Procedures for D<strong>et</strong>ermining the Number of<br />

Clusters in a Data S<strong>et</strong>. Psychom<strong>et</strong>rika, 58(2),(1985)159-179.<br />

[15] Skvor<strong>et</strong>z J., An algorithm to generate connected graphs, In: Current research in social psychology,<br />

Vol. 1, No. 5, 1996<br />

[16] Pavlidis, T., Algorithms or Graphics and Image Processing, Computer Science Press, 1982.<br />

[17] Gras, R., Kuntz, P., Briand, H.: « Hiérarchie orientée de règles généralisées en analyse implicative ».<br />

In: Actes des journées francophones d’extraction <strong>et</strong> de gestion des connaissances. (2003)


tel-00671168, version 1 - 8 Oct 2012<br />

Annexe B<br />

Réference CV : 5<br />

E. Valveny, P. Dosch, A. Winstanley, Y. Zhou, S. Yang, L. Yan, W. Liu,<br />

D. Elliman, M. Delalandre, É. Trupin, S. Adam, and JM. Ogier. A general<br />

framework for the evaluation of symbol recognition m<strong>et</strong>hods. International<br />

Journal of Document Analysis and Recognition (IJDAR), 9(1) :59-74, 2007.<br />

xiii


tel-00671168, version 1 - 8 Oct 2012<br />

IJDAR (2007) 9:59–74<br />

DOI 10.1007/s10032-006-0033-x<br />

ORIGINAL PAPER<br />

A general framework for the evaluation of symbol recognition<br />

m<strong>et</strong>hods<br />

E. Valveny · P. Dosch · Adam Winstanley ·<br />

Yu Zhou · Su Yang · Luo Yan · Liu Wenyin ·<br />

Dave Elliman · Mathieu Delalandre · Eric Trupin ·<br />

Sébastien Adam · Jean-Marc Ogier<br />

Received: 1 April 2005 / Accepted: 22 September 2006 / Published online: 18 November 2006<br />

© Springer-Verlag 2006<br />

Abstract Performance evaluation is receiving increasing<br />

interest in graphics recognition. In this paper, we discuss<br />

some questions regarding the definition of a general<br />

framework for evaluation of symbol recognition m<strong>et</strong>hods.<br />

The discussion is centered on three key elements<br />

in performance evaluation: test data, evaluation m<strong>et</strong>rics<br />

and protocols of evaluation. As a result of this discussion<br />

we state some general principles to be taken into<br />

account for the definition of such a framework. Finally,<br />

we describe the application of this framework to the<br />

organization of the first contest on symbol recognition<br />

in GREC’03, along with the results obtained by the participants.<br />

Keywords Performance evaluation · Symbol<br />

recognition<br />

E. Valveny (B)<br />

Centre de Visió per Computador, Edifici O, Campus UAB,<br />

Bellaterra (Cerdanyola), 08193 Barcelona, Spain<br />

e-mail: ernest@cvc.uab.es<br />

P. Dosch<br />

LORIA, 615, rue du jardin botanique, B.P. 101,<br />

54602 Villers-lès-Nancy Cedex, France<br />

e-mail: Philippe.Dosch@loria.fr<br />

A. Winstanley · Y. Zhou<br />

National University of Ireland, Maynooth,<br />

County Kildare, Ireland<br />

e-mail: adam.winstanley@nuim.ie<br />

Y. Zhou<br />

e-mail: yuzhou@cs.nuim.ie<br />

S. Yang<br />

Department of Computer Science and Engineering,<br />

Fudan University, Shanghai 200433, China<br />

e-mail: suyang@fudan.edu.cn<br />

1 Introduction<br />

Performance evaluation has become an important<br />

research interest in pattern recognition during the last<br />

years. As the number of m<strong>et</strong>hods increases there is<br />

a need for standard protocols to compare and evaluate<br />

all these m<strong>et</strong>hods. The goal of evaluation should<br />

be to establish a solid knowledge of the state of the<br />

art in a given research problem, i.e., to d<strong>et</strong>ermine the<br />

weaknesses and strengths of the proposed m<strong>et</strong>hods on<br />

a common and general s<strong>et</strong> of input data. Performance<br />

evaluation should allow the selection of the best-suited<br />

m<strong>et</strong>hod for a given application of the m<strong>et</strong>hodology under<br />

evaluation.<br />

L. Yan · L. Wenyin<br />

Department of Computer Science,<br />

City University of Hong Kong, Honk Kong, China<br />

e-mail: luoyan@cs.cityu.edu.hk<br />

L. Wenyin<br />

e-mail: csliuwy@cityu.edu.hk<br />

D. Elliman<br />

University of Nottingham, Nottingham, UK<br />

e-mail: dge@cs.nott.ac.uk<br />

E. Trupin · S. Adam<br />

LITIS Laboratory, Rouen University, Rouen, France<br />

e-mail: Sebastien.Adam@univ-rouen.fr<br />

M. Delalandre · J.-M. Ogier<br />

L3i Laboratory, La Rochelle University, Rochelle, France<br />

e-mail: mathieu.delalandre@univ-lr.fr<br />

J.-M. Ogier<br />

e-mail: jean-marc.ogier@univ-lr.fr


tel-00671168, version 1 - 8 Oct 2012<br />

60 E. Valveny <strong>et</strong> al.<br />

Following these criteria, image databases have been<br />

collected and performance m<strong>et</strong>rics have been proposed<br />

for several domains and applications [6,12,18,21,29].<br />

Several of these works deal with the evaluation of processes<br />

involved in document analysis systems, such as<br />

thinning [13], page segmentation [2], OCR [28], vectorization<br />

[22,26,27] or symbol recognition [1], among<br />

others. In fact, the general performance evaluation<br />

framework proposed in this paper is based on the work<br />

carried out for the contest on symbol recognition organized<br />

during GREC’03 [25].<br />

Although in any domain there are always some specific<br />

constraints, we can identify three main issues that<br />

must be taken into account in the definition of any<br />

framework for performance evaluation: a common datas<strong>et</strong>,<br />

standard evaluation m<strong>et</strong>rics and a protocol to handle<br />

the evaluation process. The common datas<strong>et</strong> should be<br />

as general as possible, including all kinds of variability<br />

that could be found in real data. It must contain a<br />

large number of images, each of them annotated with its<br />

corresponding ground-truth. M<strong>et</strong>rics must be objective,<br />

quantitative and accepted by the research community<br />

as a good estimate of the real performance. They must<br />

help to d<strong>et</strong>ermine the weaknesses and strengths of each<br />

m<strong>et</strong>hod. In many cases, it is not possible to define a single<br />

m<strong>et</strong>ric, but several m<strong>et</strong>rics have to be defined according<br />

to different evaluation goals. The protocol must define<br />

the s<strong>et</strong> of rules and formats required to run the evaluation<br />

process.<br />

In this paper, we propose a general framework for<br />

performance evaluation of symbol recognition. For each<br />

of these issues (data, m<strong>et</strong>rics and protocol), we describe<br />

the main problems and difficulties that we must face and<br />

we state the general guidelines that we have followed for<br />

the development of such a framework. Finally, we show<br />

how we have applied this framework to the organization<br />

of the GREC’03 contest on symbol recognition.<br />

Symbol recognition is one of the main tasks in many<br />

graphics recognition systems. Symbols are key elements<br />

in all kinds of graphic documents, as they usually convey<br />

a particular meaning in the context of the application<br />

domain. Therefore, identifying and recognizing the symbols<br />

in a drawing is essential for its analysis and interpr<strong>et</strong>ation<br />

and a great vari<strong>et</strong>y of m<strong>et</strong>hods and approaches<br />

have been developed (see some of the surveys on symbol<br />

recognition [5,8,17] to g<strong>et</strong> an overview of the current<br />

state of the art).<br />

In fact, symbol recognition could be regarded as a<br />

particular case of shape recognition. However, there<br />

are some specific issues that should be taken into account<br />

in the definition of an evaluation framework. First,<br />

symbol recognition is not a stand-alone process. Usually,<br />

it is embedded in a whole graphics recognition system<br />

where the final goal is not only to recognize perfectly segmented<br />

images of symbols, but to recognize and localize<br />

the symbols in the whole document. Som<strong>et</strong>imes segmentation<br />

and recognition are compl<strong>et</strong>ely independent processes,<br />

but som<strong>et</strong>imes they are related and performed<br />

in a single step. For evaluation, that means that we<br />

must consider two different sub-problems: recognition<br />

of segmented images of symbols and localization and<br />

recognition of symbols in a non-segmented image of a<br />

document. These two different sub-problems will be referred<br />

to as symbol recognition and symbol localization,<br />

respectively, throughout the paper. Second, som<strong>et</strong>imes,<br />

symbol recognition depends on other tasks in the graphics<br />

recognition chain (for example, binarization or vectorization).<br />

The performance of these processes can also<br />

influence the performance of symbol recognition. We<br />

should try to make the evaluation of symbol recognition<br />

independent of these other tasks. At least, the analysis<br />

of the results should be made taking into account<br />

their influence. Third, symbol recognition is applied to a<br />

wide vari<strong>et</strong>y of domains (architecture, electronics, engineering,<br />

flowcharts, geographic maps, music, <strong>et</strong>c.). Some<br />

m<strong>et</strong>hods have been designed to work only in some of<br />

these domains and have been only tested using very<br />

specific data.<br />

Finally, if the goal of performance evaluation is to<br />

help to d<strong>et</strong>ermine the current state-of-art of research,<br />

then, any proposal should give response to the needs of<br />

the whole research community and should be accepted<br />

by it. Therefore, in our proposal, a key point is the idea<br />

of collaborative framework. The initial proposal must<br />

be validated by the users and must be easily extended<br />

as research advances and new needs or requirements<br />

appear. Thus, our proposal relies on four desirable properties:<br />

public availability of data, ground-truth and m<strong>et</strong>rics<br />

adaptability to user needs: each person must be able<br />

to select a subs<strong>et</strong> of the framework to work with<br />

extensibility the framework must allow for new kinds<br />

of images or m<strong>et</strong>rics to be easily added<br />

collaborative validation of data, m<strong>et</strong>rics and groundtruth.<br />

The paper is organized as follows: Sects. 2 and 3<br />

are devoted to discuss each of the main aspects in<br />

performance evaluation, data and evaluation m<strong>et</strong>rics,<br />

respectively. In Sect. 4 we describe the protocol and<br />

implementation issues of the framework. In Sect. 5 we<br />

show the application of this framework to the GREC’03<br />

contest. Finally, in Sect. 6 we state the main conclusions<br />

and discuss the future work.


tel-00671168, version 1 - 8 Oct 2012<br />

A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 61<br />

2Data<br />

One of the key issues in any performance evaluation<br />

scheme is the definition of a common s<strong>et</strong> of test data.<br />

Running all m<strong>et</strong>hods on this common s<strong>et</strong> will permit<br />

to obtain comparable results. This s<strong>et</strong> should be generic,<br />

large, and should contain all kinds of variability of<br />

real data.<br />

In symbol recognition, generality means including all<br />

different kinds of symbols, i.e., symbols from all applications<br />

(architecture, electronics, engineering, flowcharts,<br />

geographic maps, music, <strong>et</strong>c.) and symbols containing all<br />

types of features or primitives (lines, arcs, dashed-lines,<br />

solid regions, compound symbols, <strong>et</strong>c.). In this way, we<br />

will be able to evaluate the ability of recognition m<strong>et</strong>hods<br />

to work properly in any application.<br />

On the other hand, variability can be originated by<br />

multiple sources: acquisition, degradation or manipulation<br />

of the document, handwriting, <strong>et</strong>c. All of them<br />

should be taken into account, when collecting test data in<br />

order to evaluate the robustness of recognition m<strong>et</strong>hods.<br />

However, in symbol recognition many m<strong>et</strong>hods are<br />

specifically designed for a particular application or a<br />

particular kind of symbols under specific constraints.<br />

Therefore, it is not possible to define a single datas<strong>et</strong> containing<br />

all kinds of images. Then, following the general<br />

principle of adaptability, stated in the previous section,<br />

we propose to define several datas<strong>et</strong>s, instead of a single<br />

one. Each datas<strong>et</strong> will be labeled according to the kind<br />

of images contained in it. In this way, users can select<br />

the datas<strong>et</strong>s they want to use according to the properties<br />

of their m<strong>et</strong>hod. In addition, we can generate as many<br />

datas<strong>et</strong>s as required, combining all kinds of symbols and<br />

criteria of variability.<br />

Therefore, we need to establish some criteria to classify<br />

and organize all kinds of symbols (Sect. 2.1). Then,<br />

we must also identify and categorize all kinds of variability<br />

of real images (Sect. 2.2). Finally, we will be able<br />

to discuss how to collect and generate a large amount<br />

of data and organize it according to these criteria of<br />

classification (Sect. 2.3).<br />

2.1 Classification of symbols<br />

In general, there are two points of view for classifying<br />

evaluation tests and their associated data [9]: technological<br />

and application. The technological point of<br />

view refers to the evaluation of m<strong>et</strong>hods as stand-alone<br />

processes trying to measure their response to varying<br />

m<strong>et</strong>hodological properties of input data and execution<br />

param<strong>et</strong>ers. Datas<strong>et</strong>s must be independent of the application<br />

and must differ on the kind of image features. For<br />

symbol recognition this point of view corresponds to the<br />

generic evaluation of performance independently of the<br />

application domain. Image features will be the different<br />

shape primitives that can be found in the symbols.<br />

According to the data used in the contest, we have identified<br />

three shape primitives: straight lines, arcs and solid<br />

regions. However, new primitives (for example, dashed<br />

lines, text, textured areas) could be added to the datas<strong>et</strong><br />

if required.<br />

On the other hand, the application point of view<br />

refers to the evaluation of m<strong>et</strong>hods in a particular application<br />

scenario. Different datas<strong>et</strong>s will correspond to<br />

different application domains of a given m<strong>et</strong>hod, and<br />

each datas<strong>et</strong> will only include specific data for the given<br />

application. In symbol recognition, categories refer to<br />

the different domains of application: architecture, electronics,<br />

geographic maps, engineering drawings or whatever<br />

domain we should consider.<br />

We have used this double criteria to classify symbols<br />

in our framework. The support for it is that algorithms<br />

are usually designed using these two points of view too.<br />

Some m<strong>et</strong>hods are intended to be as general as possible,<br />

and work well with symbols in a wide range of applications.<br />

On the other hand, some other m<strong>et</strong>hods are<br />

intended to be part of a compl<strong>et</strong>e chain of a graphics<br />

recognition system in a particular application domain.<br />

They are specifically designed to recognize the symbols<br />

in that application.<br />

These are the two main criteria for classifying test<br />

data. But from a more general viewpoint, we can use<br />

labels corresponding to property/value pairs. The property<br />

can refer to the application domain, primitives, origin,<br />

<strong>et</strong>c., while values are occurrences of these properties<br />

(respectively, architecture/electronic/..., segments/arcs<br />

and segments/..., CAD design/sk<strong>et</strong>ch/...). This provides<br />

a general labeling system which can be easily extended,<br />

allowing to define as much data as needed.<br />

Therefore, we will assign at least two categories of<br />

labels to each symbol: one with the domain of the symbol<br />

and the other with the s<strong>et</strong> of primitives composing it.<br />

Each datas<strong>et</strong> is also labeled in the same way according<br />

to the symbols included in it. With this organization each<br />

user can select those datas<strong>et</strong>s that fit the features of the<br />

m<strong>et</strong>hod under evaluation. In addition, new categories of<br />

data can be easily added or modified and therefore, the<br />

framework can evolve according to research needs. In<br />

Fig. 1 we can see several examples of images classified<br />

according to both points of view. Note that each symbol<br />

can be included in several categories.<br />

2.2 Variability of symbol images<br />

Robustness to image degradation is essential for the<br />

development of generic algorithms. Then, a framework


tel-00671168, version 1 - 8 Oct 2012<br />

62 E. Valveny <strong>et</strong> al.<br />

Fig. 1 Classification of the same images according to the two<br />

points of view: a technological, b application<br />

for performance evaluation must include all kinds of<br />

degradation in the test data. Besides, images should be<br />

ranked according to the degree of degradation in order<br />

to be able to d<strong>et</strong>ermine wh<strong>et</strong>her the performance decreases<br />

as the difficulty of images increases.<br />

In general, we can distinguish four sources of variability<br />

in symbol recognition:<br />

acquisition param<strong>et</strong>ers: acquisition device (scanner,<br />

camera or online device) and acquisition resolution<br />

global transformations: global skew of the document,<br />

rotation and scaling of symbols<br />

binary noise: degradation of old documents, photocopies,<br />

faxes and binarization errors.<br />

Shape transformations: missing or extra primitives<br />

(due to segmentation errors) and shape deformations<br />

due to hand-drawing.<br />

We need to guarantee that all these types of degradations<br />

are included in the common datas<strong>et</strong>. We will generate<br />

different datas<strong>et</strong>s corresponding to each kind and<br />

degree of transformation and to selected combinations<br />

of them. Each datas<strong>et</strong> will be labeled accordingly too.<br />

2.3 Generation of test data<br />

According to the principles stated in previous sections<br />

we need to collect a large number of images. These images<br />

will be organized into several datas<strong>et</strong>s, including<br />

all kinds of symbols described in Sect. 2.1 and all types<br />

of variability identified in Sect. 2.2. In addition, images<br />

must be labeled with the ground-truth, i.e., the expected<br />

result. We have to collect segmented images of isolated<br />

symbols, but also non-segmented images of documents<br />

in order to evaluate both symbol recognition and symbol<br />

localization, as stated in Sect. 1.<br />

There are basically two possibilities for collecting test<br />

data: to use real data or to generate synth<strong>et</strong>ic data. In<br />

the following of this section, first, we will discuss the<br />

advantages and drawbacks of each approach and how<br />

we use them in our framework. Then, we will consider<br />

some other specific issues related to the generation of<br />

data for evaluation of symbol recognition.<br />

2.3.1 Real data<br />

Clearly, the main advantage of using real data is that it<br />

permits to evaluate the algorithms with the same kind<br />

of images as for real applications. Then, evaluation will<br />

be a very good estimate of performance in real situations.<br />

However, manually collecting a large number of<br />

real images is a great effort, unaffordable in many cases.<br />

The task of annotating images with their corresponding<br />

ground-truth is also time-consuming, and errors can easily<br />

be introduced. Another disadvantage is the difficulty<br />

of collecting images with all kinds of transformations<br />

and noise. Besides, it is not easy to quantify the degree<br />

of noise in a real image. Then, it is not possible to define<br />

a ranking of difficulty of images according to the degree<br />

of noise.<br />

2.3.2 Synth<strong>et</strong>ic data<br />

As an alternative, we can develop automatic m<strong>et</strong>hods to<br />

generate synth<strong>et</strong>ic data. Clearly, the main advantage is<br />

that it allows to generate as many images as necessary,<br />

and the annotation of images with the ground-truth is<br />

also automatic. Then, manual effort is reduced. However,<br />

we need to devote research effort to the development<br />

of models and m<strong>et</strong>hods able to generate images<br />

resembling real ones with all possibilities of noise and<br />

transformations. This is not an straightforward task in<br />

many cases although several works have been done in<br />

related fields of document analysis [3,11,15,16]. Images<br />

generated using these m<strong>et</strong>hods will be easily classified<br />

according to the type and degree of noise or degradation<br />

applied, permitting to assess the reduction in performance<br />

with increasing degrees of image degradation.<br />

We argue that both types of images are useful in a general<br />

framework for performance evaluation of symbol<br />

recognition. We believe that real images are the best test<br />

for assessing performance in symbol localization. It is<br />

really difficult to develop automatic m<strong>et</strong>hods to generate<br />

non-segmented images of compl<strong>et</strong>e graphic documents.<br />

Besides, as we can find many symbols in a single graphic<br />

document, not many images are required. The problem<br />

can be the annotation of images with the ground-truth.<br />

We discuss it in Sect. 3.3.<br />

On the other hand, synth<strong>et</strong>ic images are the only way<br />

to perform evaluation tests with large s<strong>et</strong>s of segmented<br />

images taking into account all degrees of degradation<br />

and variation. In this case, many images are required<br />

and it is easier to develop m<strong>et</strong>hods for their generation.<br />

In our framework we have developed m<strong>et</strong>hods for<br />

the generation of global transformations, binary noise<br />

(based on Kanungo’s m<strong>et</strong>hod [15] and shape transformation<br />

(based on active shape models [25]).


tel-00671168, version 1 - 8 Oct 2012<br />

A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 63<br />

Fig. 2 Generation of data: a synth<strong>et</strong>ic images, b real images<br />

Figure 2 shows both synth<strong>et</strong>ic and real images for<br />

symbol recognition.<br />

2.3.3 Specific issues<br />

In addition, we have to take into account two other<br />

specific issues of symbol recognition when generating<br />

test data.<br />

Relation to vectorization: As explained in Sect. 1 symbol<br />

recognition is simply one task in the graphics rec-<br />

ognition chain. Vectorization is usually performed<br />

as a previous step for recognition and then, many<br />

symbol recognition m<strong>et</strong>hods work directly on the<br />

vectorial representation of the image. The problem<br />

is that, although there is not an optimal vectorization<br />

m<strong>et</strong>hod, the result of vectorization can influence<br />

the performance of recognition. Then, apart from a<br />

raster representation of images, we must also provide<br />

images in a common vectorial format so that all<br />

m<strong>et</strong>hods can use the same vectorial data and recognition<br />

results are not influenced by the selected vectorization<br />

m<strong>et</strong>hod. For images that can be automatically<br />

generated in vectorial format, we can provide images<br />

in their ideal vectorial representation, without need<br />

for applying any vectorization m<strong>et</strong>hod. If not possible<br />

(for example, for real images of for synth<strong>et</strong>ic<br />

images with binary degradations), we should apply<br />

different standard vectorization m<strong>et</strong>hods to the raster<br />

image.<br />

The problem of scalability: One of the problems in<br />

symbol recognition [17] concerns scalability: many<br />

m<strong>et</strong>hods work well with a limited number of symbol<br />

models, but their performance decrease when<br />

the number of symbols is very large (hundreds or<br />

thousands of symbols). One of the goals of the evaluation<br />

of symbol recognition must be to assess the<br />

robustness of m<strong>et</strong>hods with a large number of symbols.<br />

Then, for each kind of test several datas<strong>et</strong>s with<br />

an increasing number of symbols will be generated.<br />

3 Performance evaluation<br />

3.1 Objectives<br />

In some pattern recognition fields, the main goal of evaluation<br />

is the definition of a global measure that permits<br />

to d<strong>et</strong>ermine the “best” m<strong>et</strong>hod on a standard and<br />

common datas<strong>et</strong>. However, it seems difficult to follow<br />

the same approach for symbol recognition. As we have<br />

stated in previous sections, performance of symbol recognition<br />

depends on many factors and it is not realistic<br />

trying to define a single measure and datas<strong>et</strong> taking into<br />

account all of them. Then, as symbol recognition remains<br />

an active research domain, it seems more interesting to<br />

focus on analyzing and understanding the strengths and<br />

the weaknesses of the existing m<strong>et</strong>hods. This will be the<br />

main goal of the proposed evaluation framework.<br />

In this context, evaluation relies on three issues: first,<br />

the definition of a number of standard datas<strong>et</strong>s, covering<br />

the full range of variability, as discussed in Sect. 2.<br />

Second, the definition of a s<strong>et</strong> of measures, each of them<br />

aiming at evaluating a specific aspect of performance.


tel-00671168, version 1 - 8 Oct 2012<br />

64 E. Valveny <strong>et</strong> al.<br />

This will be discussed in Sect. 3.2. The definition of m<strong>et</strong>rics<br />

is highly related to the definition of the ground-truth.<br />

This point will be developed in Sect. 3.3. Third, the analysis<br />

of the results after calculating all the measures over<br />

all the datas<strong>et</strong>s, in order to draw conclusions on the<br />

strengths and weaknesses of each m<strong>et</strong>hod (Sect. 3.4).<br />

3.2 M<strong>et</strong>rics<br />

In the last years, several graphics recognition contests<br />

have been organized, notably in the framework of the<br />

International Workshop on Graphics Recognition<br />

(GREC). As a result of this effort, several m<strong>et</strong>rics and<br />

protocols have been developed [14,22,26], with more or<br />

less success, as som<strong>et</strong>imes, they favor the properties of<br />

some of the contestant m<strong>et</strong>hods.<br />

A similar work has to be done for symbol recognition:<br />

what is the measure that permits to say that a given symbol<br />

recognition m<strong>et</strong>hod is good? Clearly, the answer will<br />

be different for each of the two sub-problems identified<br />

in Sect. 1: symbol recognition and symbol localization.<br />

In the first case, for the recognition of isolated symbols,<br />

it can be enough to count the number of correctly recognized<br />

symbols. But, in the second case, other information,<br />

such as location, orientation and scale of symbols<br />

should also be considered. Thus, in the following, we will<br />

discuss different m<strong>et</strong>rics for each of these sub-problems.<br />

3.2.1 Symbol recognition<br />

It seems clear that the basic m<strong>et</strong>ric for symbol recognition<br />

should be to test if the recognized symbol matches<br />

the test symbol according to the ground-truth. Thus,<br />

the recognition rate is the main evaluation criteria. This<br />

was the simple approach used in the GREC’03 contest.<br />

Because of the wide number of open questions regarding<br />

performance evaluation of symbol recognition, we<br />

decided, in a first time, to consider only the basic features<br />

in order to advance in a b<strong>et</strong>ter understanding of<br />

all issues involved in it.<br />

However, we believe that this criteria could be complemented<br />

with other measures, in order to g<strong>et</strong> a deeper<br />

analysis of recognition m<strong>et</strong>hods, taking into account<br />

other evaluation aspects. For example,<br />

The recognition rate, considering second or third<br />

candidates, if this information is provided by some<br />

m<strong>et</strong>hods.<br />

The orientation and scale of the symbol: we could<br />

compl<strong>et</strong>e the recognition rate with a measure of<br />

the accuracy in recovering the orientation and scale<br />

of the symbol. This measure can be based on the<br />

difference b<strong>et</strong>ween the orientation and scale<br />

provided by the recognition m<strong>et</strong>hod and the groundtruth.<br />

The computation time: we propose to use the average<br />

time per image. This m<strong>et</strong>ric will allow to compare<br />

the results on tests with different number of images<br />

or symbols. However, to be comparable, all recognition<br />

m<strong>et</strong>hods should be run on the same machine<br />

under the same conditions. That should be considered<br />

in the definition of the protocol (Sect. 4.2).<br />

Scalability, i.e., how the performance degrades as the<br />

number of symbol models increases. We can measure<br />

it according to the degradation of recognition rates<br />

or according to the computation time.<br />

3.2.2 Symbol localization<br />

In the best of our knowledge, no performance evaluation<br />

has ever been organized on symbol localization.<br />

For this task, the problem of defining accurate m<strong>et</strong>rics is<br />

harder than in the case of symbol recognition. We have<br />

to face two issues: the representation of the symbols,<br />

and the definition of the m<strong>et</strong>ric itself.<br />

The representation of a symbol (in the ground-truth<br />

as well as in the recognition result) must include not<br />

only an identifying label (as in the case of symbol recognition),<br />

but also the location of the symbol. The problem<br />

is that it is not easy to define a single representation of<br />

the location of a symbol. The best representation will<br />

depend on the kind of m<strong>et</strong>hod. For example, if a recognition<br />

m<strong>et</strong>hod works on the raster representation of<br />

a symbol, the symbol location has to be computed with<br />

respect to the related s<strong>et</strong> of pixels. But if a recognition<br />

m<strong>et</strong>hod works on the vectorial representation of the<br />

symbol, its location has to be computed with respect to<br />

the involved s<strong>et</strong> of vectorial primitives, maybe taking<br />

into account some attributes of these primitives, such as<br />

thickness. Clearly, both representations do not have to<br />

be equal.<br />

In fact, we argue that the representation of the location<br />

of a symbol must be unique and independent of<br />

the kind of m<strong>et</strong>hod or image format, as the definition of<br />

multiple representations arise the following issues:<br />

<strong>Multi</strong>ple m<strong>et</strong>rics have to be defined as the definition<br />

of the m<strong>et</strong>ric depends on the representation of<br />

the symbols. This can permit to define more accurate<br />

m<strong>et</strong>rics but also requires to take into account all<br />

possibilities.<br />

<strong>Multi</strong>ple representations also lead to the definition<br />

of multiple ground-truth for the same data.


tel-00671168, version 1 - 8 Oct 2012<br />

A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 65<br />

<strong>Multi</strong>ple m<strong>et</strong>rics and multiple ground-truth then lead<br />

to multiple performance analysis as it will be difficult<br />

to compare results evaluated with different m<strong>et</strong>rics.<br />

As a first approach for representing the location of<br />

a symbol, we propose the use of basic including rectangles,<br />

that enclose symbols, as described by Mariano<br />

<strong>et</strong> al. [20]. This representation seems to be simple and<br />

efficient. These rectangles can even be defined as<br />

bounding-boxes.<br />

Then, the m<strong>et</strong>ric b<strong>et</strong>ween a ground-truth symbol and<br />

a result symbol can be based on the percentage of overlapping<br />

b<strong>et</strong>ween their including rectangles, in the case<br />

that their associated labels match. Otherwise, the similarity<br />

value will be 0. This m<strong>et</strong>ric permits to work at the<br />

desired level of accuracy. We can fix a threshold so that<br />

only symbols with a percentage of overlapping above<br />

this threshold are considered as recognized. In this way,<br />

defining several thresholds, we can obtain different recognition<br />

results at different levels of accuracy.<br />

In order to combine the results of the m<strong>et</strong>ric obtained<br />

for every symbol in the image, we propose to adopt a<br />

m<strong>et</strong>ric similar to the one used during the ICDAR’03<br />

conference on the robust reading comp<strong>et</strong>ition [19] for<br />

the text recognition in everyday scenes. The definition<br />

principles are based on the fact that the m<strong>et</strong>ric must<br />

favor the most pertinent applications, and penalize trivial<br />

solutions, like the definition of a single bounding-box<br />

which fully overlaps the image, or the definition of an<br />

excessive large number of bounding-boxes.<br />

So the proposed m<strong>et</strong>ric is based on the notions of<br />

precision and recall. For a given test, l<strong>et</strong> T be the number<br />

of targ<strong>et</strong>s belonging to the ground-truth, and R the<br />

s<strong>et</strong> of results supplied by an application. The number of<br />

exact results is called e. The precision p is then defined<br />

as the number of exact results divided by the number of<br />

results:<br />

p = e<br />

|R| .<br />

Thus, the applications that overestimate the number of<br />

results are penalized by a little precision score. The recall<br />

r is defined as the number of exact results divided by the<br />

number of targ<strong>et</strong>s:<br />

r = e<br />

|T| .<br />

Thus, the applications that underestimate the number of<br />

results are penalized by a little recall score. The precision<br />

and the recall may then be combined, if needed, to d<strong>et</strong>ermine<br />

the global score s, expressing the recognition rate:<br />

s =<br />

2<br />

(1/p) + (1/r) .<br />

3.3 Ground-truth<br />

As said above, the definition of the ground-truth depends<br />

basically on the representation of the symbols. Once<br />

again, we have to distinguish b<strong>et</strong>ween the definition of<br />

the ground-truth for symbol recognition and for symbol<br />

localization.<br />

If we consider symbol recognition, where only segmented<br />

symbols are involved, ground-truthing can be a<br />

simple task. It basically consists of d<strong>et</strong>ermining the label<br />

of the symbol and this can be easily done by an human<br />

operator and even, more easily by an automatic m<strong>et</strong>hod<br />

of image generation. If we also want to take into account<br />

the accuracy in orientation and scale, we must include<br />

this information in the labeling of the symbol too. But<br />

this can be easily done with an automatic m<strong>et</strong>hod of<br />

image generation.<br />

However, if we consider symbol localization, groundtruthing<br />

is more difficult. In this case, both the label and<br />

the location of the symbol have to be defined. According<br />

to the single proposed m<strong>et</strong>ric (see Sect. 3.2), the definition<br />

of the ground-truth is also unique, and then easier<br />

and more realistic to manage.<br />

Although the representation of the symbol gives a<br />

theor<strong>et</strong>ical and concr<strong>et</strong>e framework for the definition<br />

of the ground-truth, some differences can exist b<strong>et</strong>ween<br />

the theor<strong>et</strong>ical definition and the real definition of a<br />

given ground-truth. Indeed, the bounding-box defined<br />

by one person for a given symbol could appear misplaced<br />

to another person. Thus, there is a part of personal<br />

and subjective interpr<strong>et</strong>ation in the definition of<br />

the ground-truth.<br />

This point can be a serious problem, as the groundtruth<br />

has to be accepted by the whole community to be<br />

fully considered as a reference. To address this issue,<br />

we are fully convinced that a collaborative framework<br />

is required, as already pointed out in Sect. 1.<br />

The basic idea is to involve a ground-truth designer<br />

and some ground-truth validators for a given groundtruth.<br />

Meanwhile, a ground-truth definition can be<br />

modified if it is not satisfactory. Of course, a groundtruth<br />

designer of some test data cannot be the groundtruth<br />

validator of the same test data too. Once a<br />

ground-truth is validated by some people, say two or<br />

three, then, it can be considered valid. This organization<br />

could be compared to a review process for a scientific<br />

conference. Obviously, this organization is easier<br />

to implement if a collaborative tool is available, as the<br />

associated workflow is crucial. This tool includes the<br />

following features:


tel-00671168, version 1 - 8 Oct 2012<br />

66 E. Valveny <strong>et</strong> al.<br />

General ground-truthing functionalities: images visualization<br />

(raster, vectorial), bounding-box definition,<br />

label definition ...<br />

Directly interfaces with the database implementing<br />

the information system containing all information<br />

required for performance evaluation:<br />

information about the data: models of symbols,<br />

test data and related ground-truthing.<br />

information about users involved in the evaluation:<br />

their role and corresponding access privileges<br />

(ground-truth design and validation, data<br />

contributor ...)<br />

The collaborative tool must be unique, in order to<br />

be used in good conditions by all people involved<br />

in the ground-truthing process. This implies that it<br />

has to be available for a sufficient number of platforms<br />

and ensures that all people work with the same<br />

environment or references.<br />

We want to point out that these principles and this<br />

framework are a priori necessary in order to ensure that<br />

test data, as well as their associated ground-truth, are<br />

considered as valid by the whole community, and not by<br />

only one person. All the performance evaluation process<br />

relies on this assertion.<br />

3.4 Analysis of the results<br />

The results of the participants have to be analyzed in<br />

order to d<strong>et</strong>ermine the objectives of such a performance<br />

evaluation campaign: the understanding of the strengths<br />

and the weaknesses of the existing m<strong>et</strong>hods. This analysis<br />

must be done with respect to the considered categories<br />

of data, the number of model symbols involved and<br />

several other interesting criteria.<br />

Independently of this large number of criteria, we<br />

would point out that basically the analysis can be led<br />

from the data point of view (data based), as well as from<br />

the m<strong>et</strong>hods point of view (m<strong>et</strong>hods based). Indeed, if<br />

it is interesting to understand what are the m<strong>et</strong>hods giving<br />

good results with a lot of data, it is also interesting<br />

to understand what are the data difficult to recognize<br />

with respect to the several recognition approaches. The<br />

interest of a performance evaluation campaign is guided<br />

by these two points of view.<br />

Based on the m<strong>et</strong>ric that has been defined for symbol<br />

recognition, we propose to define an index that permits<br />

to perform the analysis of the results from different<br />

points of view. This index is a measure of the degradation<br />

of the performance along a s<strong>et</strong> of tests with an<br />

increasing level of difficulty. L<strong>et</strong> r0 be the recognition<br />

rate for the test acting as the reference test (it should be<br />

the “easiest” test in the series). Then the degradation of<br />

performance for a given test i is defined as<br />

di = r0 − ri<br />

.<br />

r0<br />

This index gives the measure of how the original performance<br />

degrades when some kind of degradation is<br />

applied to the original images. As the index is normalized<br />

by the original recognition rate it provides a good<br />

estimate of the loss of performance as it does not depend<br />

on the recognition rate for ideal images.<br />

In this way, we can measure the robustness of recognition<br />

m<strong>et</strong>hods to several properties, such as scalability<br />

or degradation. We simply need to define a series of tests<br />

with an increasing number of symbols (for scalability)<br />

or with different levels of degradation and compute the<br />

degradation index for every test. Some examples of the<br />

application of this index to the analysis of the results will<br />

be shown in Sect. 5.<br />

4 Implementation<br />

4.1 Introduction<br />

The implementation of any performance evaluation system<br />

requires the definition of a s<strong>et</strong> of tools and protocols<br />

in order to execute the tests, exchange information<br />

b<strong>et</strong>ween the participants and the organizers and manage<br />

all the information about test data and results. This s<strong>et</strong><br />

of tools and protocols must rely on the general concepts<br />

stated in Sect. 1, such as the public availability of data,<br />

the adaptation to user requirements and the simplicity<br />

of management.<br />

Among all these issues, in the remainder of this section<br />

we will discuss the main ideas regarding protocols<br />

and formats (Sect. 4.2), the organization of datas<strong>et</strong>s<br />

(Sect. 4.3) and the general architecture of the system<br />

(Sect. 4.4).<br />

4.2 Protocols and formats<br />

Whatever the evaluation criteria and data, an evaluation<br />

framework must provide formats and tools allowing<br />

to exchange information about models, tests and<br />

results [24]. In performance evaluation of symbol recognition,<br />

the first issue is about the format of images.<br />

One basic assumption to be made is that the format of<br />

images must not degrade the original image and must be<br />

freely available for all participants. As there are m<strong>et</strong>hods<br />

working on raster binary images and m<strong>et</strong>hods working<br />

on vectorial images, whenever it is possible, we have to


tel-00671168, version 1 - 8 Oct 2012<br />

A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 67<br />

Information System<br />

Degradation<br />

Model Symbols Ground Truth<br />

Test Data<br />

Define Modify Validate Recognize<br />

Data<br />

Contribute<br />

Process<br />

Fig. 3 Overview of the discribed performance evalution system<br />

provide test images in both formats. Raster images are<br />

not a big problem as there are a lot of very popular<br />

solutions (such as TIFF, BMP and PNG). On the vectorial<br />

side, some “standard” formats exist, such as DXF<br />

or more recently SVG, but they are complex to manage.<br />

Thus, we have decided to use a simpler vectorial representation,<br />

the VEC format proposed by Chhabra and<br />

Phillips [4]. This simple format have already been used<br />

in other contests on graphics recognition (vectorization<br />

and arc d<strong>et</strong>ection) and therefore, it is already known<br />

by the symbol recognition community. Moreover, the<br />

simplicity of its definition would permit to eventually<br />

extend it, if required.<br />

To manage the contest, several other file formats are<br />

required to precisely describe the tests, the results and<br />

the ground-truth. In this case, the choice of the format<br />

is a question of finding the best compromise that permits<br />

to express all the information that is required without<br />

obliging the participant m<strong>et</strong>hods to interface with<br />

too complex formats. We have found that XML fulfills<br />

these requirements as it is a flexible and standard format,<br />

allowing to easily describe complex information.<br />

Moreover, the use of a DTD or a scheme can help to<br />

normalize the data, avoiding description problems or<br />

confusions, and associated with the XSLT style-she<strong>et</strong>s,<br />

it allows the extraction and filtering of data that can be<br />

automatically processed, both for participants and organizers.<br />

Examples of these XML files can be seen in Figs. 3<br />

and 4.<br />

Data Stream Link<br />

Evaluation<br />

Results<br />

Performance<br />

Evaluation<br />

Participant<br />

Results<br />

Participant<br />

Fig. 4 Fifty symbols used in Contest<br />

Another important issue is the protocol for execution<br />

of the tests. Following the principle of adaptability<br />

to user requirements, the basic idea must be to give each<br />

participant the possibility to choose which tests he want<br />

to comp<strong>et</strong>e in, according to the features of his m<strong>et</strong>hod.<br />

To achieve this point, each test has to be considered as<br />

a stand-alone part and described with an independent<br />

XML file as explained in the next section. This principle<br />

is useful in some other situations. Thus, if a program<br />

crashes during a test, it is able to run the other tests.


tel-00671168, version 1 - 8 Oct 2012<br />

68 E. Valveny <strong>et</strong> al.<br />

The model that we have selected for the execution<br />

of the tests is a distributed model: each participant can<br />

take a file describing a test, execute it locally and then,<br />

provide the XML file with the results to the organizers.<br />

This option gives the maximum freedom to the users,<br />

for example regarding the platform of development or<br />

the interface of the recognition m<strong>et</strong>hod. This is coherent<br />

with the general principles of the framework, but it can<br />

also have some drawbacks as the organizers do not have<br />

compl<strong>et</strong>e control on the development of evaluation and<br />

on some of the results. For example results regarding<br />

computation time are not fully comparable.<br />

Finally, we want to point out that the availability of<br />

the framework (formats, data, <strong>et</strong>c.) is very important.<br />

In the context of performance evaluation, information<br />

about formats and data is required to prepare the m<strong>et</strong>hods<br />

for running the tests and for learning purposes.<br />

4.3 Organization of datas<strong>et</strong>s<br />

A general framework for performance evaluation must<br />

include a very large number of datas<strong>et</strong>s, taking into<br />

account all the variability described in previous sections.<br />

In order to manage this volume of datas<strong>et</strong>s, we have to<br />

organize and classify them according to their properties.<br />

We will achieve this goal in a double way. On one<br />

hand, internally, we will store all information of every<br />

test in the information system that supports the evaluation<br />

framework and is described in the next section. On<br />

the other hand, externally, we will make it public to the<br />

participants by providing an XML description file for<br />

every test, as can be seen in Fig. 3. This file contains all<br />

the information that a participant has to know about a<br />

test:<br />

the name of images<br />

the ground-truth for each image (for training s<strong>et</strong>s<br />

only)<br />

the category of symbols (as described in Sect. 2.1)<br />

from technological and application point of view<br />

the number of symbols involved in the datas<strong>et</strong> (for<br />

scalability issues)<br />

supported formats for images in the test<br />

wh<strong>et</strong>her the test corresponds to segmented or nonsegmented<br />

images<br />

wh<strong>et</strong>her the test includes real or synth<strong>et</strong>ic images<br />

wh<strong>et</strong>her the image acquisition is online or offline<br />

the type and degree of degradation applied to the<br />

data.<br />

This organization allows to describe each test, so its<br />

associated properties are known. In this way, each participant<br />

can select the tests with the properties that fit<br />

to the m<strong>et</strong>hod being evaluated. Moreover, it facilitates<br />

the analysis of the results, as it allows to organize the<br />

analysis according to the properties of the tests.<br />

4.4 Information system<br />

In order to manage all this framework, we propose to<br />

implement an information system supporting all required<br />

features. This information system must be implemented<br />

on the organizer’s side, but it must be of public access<br />

and available through the Web with standard navigation<br />

tools. It plays the role of a public repository where any<br />

user (participant, organizer, ground-truth validator) can<br />

find all the required information about the evaluation<br />

process. However, the users are not tied to the implementation<br />

of the information system as the access is<br />

done through the web and all the exchange of information<br />

through the XML files that have been described in<br />

Sect. 4.2. Providing public access to all the information<br />

about data stored in the information system permits to<br />

s<strong>et</strong> up a continuous evaluation framework. Evaluation<br />

does not depend on some predefined milestones, such as<br />

the organization of specific contests, but any user can, at<br />

any moment, download a s<strong>et</strong> of tests, run a given m<strong>et</strong>hod<br />

on them and provide the results back to the organizers.<br />

In this way we obtain the maximum flexibility for evaluation<br />

of current research.<br />

Fig. 5 Samples of some degraded images generated using the<br />

kanungo m<strong>et</strong>hod for each model of degradation used


tel-00671168, version 1 - 8 Oct 2012<br />

A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 69<br />

An overview of the system is presented in Fig. 5. Of<br />

course, the processes associated to the “participants” are<br />

related to all kinds of participants (contributors, groundtruth<br />

designers, contest participants ...) and some constraints<br />

are associated to the system. In particular, a<br />

participant cannot validate a ground-truth he has defined<br />

before, he cannot g<strong>et</strong> his own test data (at least if it<br />

has not been degraded before), <strong>et</strong>c. Our aim is to point<br />

out that collaborative aspects must be taken into account<br />

from the beginning of the design of such a system.<br />

5 Application of the framework: contest on symbol<br />

recognition at GREC’03<br />

In this section we will show an example of application of<br />

the general framework presented before used in the First<br />

Contest on Symbol Recognition held during GREC’03.<br />

In this section we will explain how we have defined the<br />

two main issues involved in evaluation systems: data and<br />

m<strong>et</strong>rics. We will also show the results obtained by the<br />

participants in the contest.<br />

5.1 Data<br />

The first decision concerned which symbols we were<br />

going to use in the contest and how to classify and organize<br />

them. For this first edition of the contest, we selected<br />

50 symbols from two domains: architecture and<br />

electronics. All symbols were composed of at most two<br />

graphical primitives: lines and arcs. Then, according to<br />

the classification introduced in Sect. 2.1 we have used<br />

two features at the technological level (lines and arcs)<br />

and two categories at the application level (architecture<br />

and electronics) which have been used to classify test<br />

data. In Fig. 6 we can see all the symbols used in the<br />

contest.<br />

We decided to use only synth<strong>et</strong>ic data since it was<br />

easier to have a lot of well-organized images. Regarding<br />

the variability of data we worked with five categories<br />

of images: ideal data, images with aspect transformation<br />

(rotation and scaling), images with binary noise,<br />

images with shape distortions and images combining<br />

Fig. 6 Examples of increasing levels of vectorial distontion<br />

binary noise and shape distortion. We used the degradation<br />

model of Kanungo <strong>et</strong> al. [15] to generate nine<br />

different models of binary noise, and we defined a shapedistortion<br />

model based on Active Shape Models [7] to<br />

simulate hand-drawn images. Figures 7 and 8 show some<br />

examples of images with binary noise and shape degradation,<br />

respectively.<br />

Concerning specific issues of symbol recognition, we<br />

only used segmented images, so that only recognition<br />

was evaluated and not the ability to segment. Whenever<br />

possible, we provided both binary and vectorial versions<br />

of images. We used ideal vectorial representation when<br />

it could be automatically generated by the generation<br />

model. Therefore, for images with binary noise, only<br />

the binary representation was available as we did not<br />

apply any vectorization m<strong>et</strong>hod to noisy binary images.<br />

Finally, we defined three different s<strong>et</strong>s of symbols, with<br />

5, 20 and 50 symbols each, to test the robustness of<br />

m<strong>et</strong>hods to scalability.<br />

With all these combinations we generated a total<br />

number of 72 different tests of data. For each test, we<br />

provided a description file to the participants with the<br />

specification of symbols and images included in the test.<br />

Besides, we generated an XML file (Fig. 3) for each test,<br />

describing all the properties of the test, along with the<br />

ground-truth. Finally, participants generated an XML<br />

file (Fig. 4) with the description of the results obtained<br />

by their m<strong>et</strong>hod for each test. Both kinds of XML files<br />

were imported to the contest database allowing for automatic<br />

comparison of the results with the ground-truth<br />

and automatic generation of recognition rates for each<br />

m<strong>et</strong>hod and test.<br />

5.2 M<strong>et</strong>rics<br />

In this case, the definition of the m<strong>et</strong>rics was very simple.<br />

We only worked with non-segmented images and,<br />

therefore, the only result of the application of a symbol<br />

recognition m<strong>et</strong>hod was the label of the symbol identified<br />

in the image. Then, the m<strong>et</strong>ric simply consists of<br />

a recognition rate for each m<strong>et</strong>hod and test, without<br />

taking into account the rejection.<br />

5.3 Results<br />

Five m<strong>et</strong>hods took part in the contest, although not all of<br />

them could run all the tests, due to the properties of their<br />

m<strong>et</strong>hods. The five participants were groups from the following<br />

institutions: University of Rouen—La Rochelle,<br />

National University of Ireland—Maynooth, City University<br />

of Hong Kong, University of Nottingham and<br />

Fudan Universty.


tel-00671168, version 1 - 8 Oct 2012<br />

70 E. Valveny <strong>et</strong> al.<br />

Fig. 7 Examples of XML file<br />

for test description<br />

In Figs. 9, 10, 11, 12, 13, 14, 15, 16, we can see the<br />

results obtained by each of the m<strong>et</strong>hods in the tests they<br />

took part in. Figure 9 shows the results with ideal images<br />

of the symbols for the s<strong>et</strong>s of 5, 20 and 50 symbols. It<br />

shows how the m<strong>et</strong>hods are able to discriminate among<br />

a large number of symbols. In Fig. 10 we can find the<br />

results for rotated and scaled images (for the s<strong>et</strong> of 5, 20<br />

and 50 symbols too).<br />

Figure 11 contains the results with binary degraded<br />

images. In this case, only two m<strong>et</strong>hods were run on all<br />

the images and, therefore, only the results for these two<br />

m<strong>et</strong>hods are included. For each of the nine models of<br />

degradation the results with 5, 20 and 50 symbols are<br />

shown. In order to provide a more d<strong>et</strong>ailed analysis<br />

of the results with degradation we have also generated<br />

Fig. 12. In this figure we apply the degradation index defined<br />

in Sect. 3.4 to the nine models of binary degradation<br />

with the s<strong>et</strong> of 50 symbols. The reference recognition<br />

rate for computing the index is the recognition rate for<br />

ideal images. This index clearly shows that for all models<br />

of degradation the m<strong>et</strong>hod by the Fudan University is<br />

more robust to degradation than the m<strong>et</strong>hod by the City<br />

University of Hong Kong.<br />

Figures 13 and 14 show the results for images with<br />

vectorial distortion (for three levels of distortion) and<br />

with a combination of vectorial distortion and binary<br />

degradation.<br />

In order to evaluate more precisely the scalability of<br />

m<strong>et</strong>hods we have included Fig. 15. This figure has been<br />

generated taking, for each m<strong>et</strong>hod, the mean of recognition<br />

rates for all tests with 5 symbols, for all tests with<br />

20 symbols and for all tests with 50 symbols. In this way,<br />

we can g<strong>et</strong> a measure of the global scalability of each<br />

m<strong>et</strong>hod. In Fig. 15a we can see the absolute recognition<br />

rates, while in Fig. 15b we have the degradation index<br />

defined in Sect. 3.4 applied to scalability. It is clear that<br />

this index helps to see the robustness of each m<strong>et</strong>hod as<br />

the number of symbol increases.


tel-00671168, version 1 - 8 Oct 2012<br />

A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 71<br />

Fig. 8 Examples of XML file<br />

for discription of results<br />

Finally, in Fig. 16 we can see the computation time<br />

for every kind of test for s<strong>et</strong>s with 5, 20 and 50 symbols.<br />

Only the m<strong>et</strong>hod by the City University of Hong Kong<br />

reported results about the computation time. As expected,<br />

computation time increases as the number of<br />

symbols in the datas<strong>et</strong> increases too.<br />

From these results we can draw some general conclusions:<br />

As expected, performance decreases when the number<br />

of symbols increase, even with ideal images.<br />

In general, m<strong>et</strong>hods can handle well the images with<br />

rotation or scaling. However, the performance degrades<br />

when both transformations are combined.<br />

There are no significant differences in the performance<br />

for the nine models of binary degradation.<br />

M<strong>et</strong>hods are robust to the kind of shape deformations<br />

generated by the model of deformation.<br />

Fig. 9 Recognition rates (in the y-axis) of each participant<br />

m<strong>et</strong>hod (in x-axis) for ideal tests<br />

A more d<strong>et</strong>ailed discussion of these results can be<br />

found in the report on the GREC’03 contest [25].<br />

Later, some of the groups have done further work<br />

on their m<strong>et</strong>hods and have obtained and published improved<br />

results [10].


tel-00671168, version 1 - 8 Oct 2012<br />

72 E. Valveny <strong>et</strong> al.<br />

Fig. 10 Recognition rates (in the y-axis) of each participant<br />

m<strong>et</strong>hod (in x-axis) for tests with rotation, scaling and combination<br />

of rotation and scaling<br />

6 Conclusion and future work<br />

We have presented a general framework for performance<br />

evaluation of symbol recognition m<strong>et</strong>hods. This<br />

framework relies on some general principles that could<br />

also be applied to other similar performance evaluation<br />

tasks in the domain of graphics recognition and<br />

pattern recognition. These general principles arise from<br />

the discussion about the two main issues concerning any<br />

performance evaluation task: data and evaluation.<br />

Concerning data, the framework relies on the classification<br />

of input data according to two different points<br />

of view: m<strong>et</strong>hodological—based on image features and<br />

application—based on the application scenario. This<br />

classification permits to define many different datas<strong>et</strong>s<br />

for all possible kinds of input data. Regarding data generation<br />

we have stated the importance of using both<br />

Fig. 11 Recognition rates (in the y-axis) for tests with the nine<br />

models of degradation (in x-axis) for m<strong>et</strong>hods by the City University<br />

of Hong Kong and the Fudan University<br />

Fig. 12 Measure of robustness to degradation for the nine models<br />

of degradation with 50 symbols<br />

real and synth<strong>et</strong>ic images, including all types of noise<br />

and distortion. We have introduced a possible classification<br />

of distortion types and remarked the importance<br />

of including in the framework models and m<strong>et</strong>hods for<br />

automatic generation of degraded images.<br />

Concerning evaluation, we have defined several m<strong>et</strong>rics<br />

for symbol recognition and symbol location. Each<br />

m<strong>et</strong>ric gives response to different goals of performance<br />

evaluation.<br />

In addition, one of the key ideas in the proposed<br />

framework is that of collaborative work so that the<br />

framework can be validated by the research community,<br />

and evolve according to its needs. Following this idea, a<br />

public and collaborative environment for performance<br />

evaluation of symbol recognition m<strong>et</strong>hods, ÉPEIRES, 1<br />

1 http://www.epeires.org


tel-00671168, version 1 - 8 Oct 2012<br />

A general framework for the evaluation of symbol recognition m<strong>et</strong>hods 73<br />

Fig. 13 Recognition rates (in the y-axis) of each participant<br />

m<strong>et</strong>hod (in x-axis) for tests with deformation for both s<strong>et</strong>s of<br />

symbols<br />

Fig. 14 Recognition rates (in the y-axis) for tests with the nine<br />

models of degradation (in x-axis) and three levels of degradation<br />

for m<strong>et</strong>hods by the City University of Hong Kong and the Fudan<br />

University<br />

is currently under development. We hope that this environment<br />

will supply all data and resources needed by the<br />

symbol recognition community for evaluation purposes.<br />

All interested people are urged to use and to contribute<br />

to this environment.<br />

Fig. 15 a Evolution of recognition rates (in the y-axis) of each<br />

participant m<strong>et</strong>hod (in x-axis) for tests with increasing number of<br />

symbols (5,20 and 50). b Measure of robustness to scalability for<br />

each participant m<strong>et</strong>hod<br />

Fig. 16 Evolution of the computation time with the m<strong>et</strong>hod by<br />

the City University of Hong Kong with an increasing number of<br />

symbol for each kind of test<br />

Finally, we have described how these general principles<br />

have been used in the first international contest on<br />

symbol recognition, held during GREC’03. Currently,<br />

we are working on the extension of the framework for<br />

the next editions of the contest. In it, we plan to add real<br />

images with non-segmented symbols and, therefore, we<br />

will need to include the new m<strong>et</strong>rics for symbol localization,<br />

as discussed in this paper.<br />

Acknowledgments The contest organizers would like to acknowledge<br />

all participants of the first contest of performance evaluation<br />

of symbol recognition m<strong>et</strong>hods, as well as the organizers of the<br />

GREC workshop for the promotion and the opportunity given in<br />

these contests. The work of Luo Yan and Liu Wenyin was fully<br />

supported by grants from the City University of Hong Kong<br />

(Project No. 7001771 and 7001842) The work of E. Valveny was<br />

partially supported by CICYT TIC2003-09291, Spain.


tel-00671168, version 1 - 8 Oct 2012<br />

74 E. Valveny <strong>et</strong> al.<br />

References<br />

1. Aksoy, S., Ye, M., Schauf, M., Song, M., Wang, Y., Haralick, R.,<br />

Parker, J., Pivovarov, J., Royko, D., Sun, C., Farneboock, G.:<br />

Algorithm performance contest. In: Proceedings of 15th<br />

International Conference on Pattern Recognition, vol. 4,<br />

pp. 870–876, Barcelona, Spain (2000)<br />

2. Antonacopoulos, A., Gatos, B., Karatzas, D.: ICDAR 2003<br />

page segmentation comp<strong>et</strong>ition. In: Proceedings of 7th International<br />

Conference on Document Analysis and Recognition,<br />

Edinburgh (Scotland, UK), pp. 688–689 (2003)<br />

3. Baird, H.S.: The state of the art of document image degradation<br />

modeling. In: Proceedings of 4th IAPR International<br />

Workshop on Document Analysis Systems, Rio de Janeiro<br />

(Brazil) (2000)<br />

4. Chhabra, A., Phillips, I.T.: The 2nd international graphics recognition<br />

contest—raster to vector conversion: a report. In:<br />

Tombre, K., Chhabra, A.K. (eds.): Graphics Recognition—<br />

Algorithms and Systems. Lecture Notes in Computer Science,<br />

vol. 1389, pp. 390–410. Springer, Berlin Heidelberg New York<br />

(1998)<br />

5. Chhabra, A.K.: Graphic symbol recognition: an overview. In:<br />

Tombre, K., Chhabra, A.K. (eds.): Graphics Recognition—<br />

Algorithms and Systems. Lecture Notes in Computer Science,<br />

vol. 1389, pp. 68–79. Springer, Berlin Heidelberg New York<br />

(1998)<br />

6. Clark, A.F., Courtney, P.: Databases for performance characterization.<br />

In: Stiehl, H.H., Viergever, M.A., Vincken, K.L.<br />

(eds.) Performance Characterization in Computer Vision.<br />

Kluwer, Dordrecht (2000)<br />

7. Cootes, T.F., Taylor, C.J., Cooper, D.H., Graham, J.: Active<br />

shape models: Their training and application. Comput. Vis.<br />

Image Underst. 61(1), 38–59 (1995)<br />

8. Cordella, L.P., Vento, M.: Symbol recognition in documents:<br />

a collection of techniques? Int. J. Doc. Anal. Recognit. 3(2),<br />

73–88 (2000)<br />

9. Courtney, P., Thacker, N.A.: Performance characterization in<br />

computer vision: the role of statistics in testing and design. In:<br />

Blanc-Talon, J., Popescu, D.C. (eds.) Imaging and Vision Systems:<br />

Theory, Assessment and Applications. NOVA Science,<br />

Hungtington, NY (2003)<br />

10. Delalandre, M., Trupin, E., Ogier, J., Labiche, J.: Contextual<br />

system of symbol structural recognition based on an objectprocess<br />

m<strong>et</strong>hodology. Electron. L<strong>et</strong>t. Comput. Vis. Image<br />

Anal. 5(2), 16–29 (2005)<br />

11. Ghosh, D., Shivaprasad, A.P.: An analytic approach for generation<br />

of artificial hand-printed character database from<br />

given generative models. Pattern Recognit. 32, 907–920<br />

(1999)<br />

12. Guyon, I., Haralick, R.M., Hull, J.J., Phipliops, I.T.: Data s<strong>et</strong>s<br />

for OCR and document image understanding research. In:<br />

Bunke, H., Wang, P.S.P. (eds.) Handbook of Character Recognition<br />

and Document Image Analysis, pp. 779–800. World<br />

Scientific, Singapore (1997)<br />

13. Haralick, R.: Performance characterization in image analysis:<br />

thinning, a case in point. Pattern Recognit. L<strong>et</strong>t. 13, 5–12<br />

(1992)<br />

14. Hilaire, X.: A matching scheme to enhance performance evaluation<br />

of raster-to-vector conversion algorithms. In: Proceedings<br />

of 7th International Conference on Document Analysis<br />

and Recognition, vol. 1, pp. 629–633. Edinburgh, Scotland<br />

(2003)<br />

15. Kanungo, T., Haralick, R.M., Baird, H.S., Stu<strong>et</strong>zle, W., Madigan,<br />

D.: Document degradation models: param<strong>et</strong>er estimation<br />

and model validation. In: Proceedings of IAPR Workshop on<br />

Machine Vision Applications, Kawasaki (Japan), pp. 552–557<br />

(1994)<br />

16. Kanungo, T., Haralick, R.M., Baird, H.S., Stuezle, W.,<br />

Madigan, D.: A statistical, nonparam<strong>et</strong>ric m<strong>et</strong>hodology for<br />

document degradation model validation. IEEE Trans. Pattern<br />

Anal. Mach. Intell. 22(11), 1209–1223 (2000)<br />

17. Lladós, J., Valveny, E., Sánchez, G., Martí, E.: Symbol recognition:<br />

current advances and perspectives. In: Blostein, D.,<br />

Kwon, Y.-B. (eds.) Graphics Recognition—Algorithms and<br />

Applications. Lecture Notes in Computer Science, vol. 2390,<br />

pp. 104–127. Springer, Berlin Heidelberg New York<br />

(2002)<br />

18. Lopresti, D., Nagy, G.: Issues in ground-truthing graphic<br />

documents. In: Blostein, D., Kwon, Y.-B. (eds.) Graphics<br />

Recognition—Algorithms and Applications. Lecture Notes<br />

in Computer Science, vol. 2390, pp. 46–66. Springer, Berlin<br />

Heidelberg New York (2002)<br />

19. Lucas, S.M., Panar<strong>et</strong>os, A., Sosa, L., Tang, A., Wong, S., Young,<br />

R., Ashida, K., Nagai, H., Okamoto, M., Yamamoto, H.,<br />

Miyao, H., Zhu, J., Ou, W., Wolf, C., Jolion, J.M., Todoran,<br />

L., Worring, M., Lin, X.: ICDAR 2003 robust reading comp<strong>et</strong>itions:<br />

entries, results, and future directions. Int. J. Doc. Anal.<br />

Recognit. 7(2-3), 105–122 (2005)<br />

20. Mariano, V.Y., Min, J., Park, J.-H., Kasturi, R., Mihalcik, D.,<br />

Li, H., Doermann, D., Drayer, T.: Performance evaluation<br />

of object d<strong>et</strong>ection algorithms. In: Proceedings of the 16th<br />

International Conference on Pattern Recognition, Quebec<br />

(Canada), vol. 3, pp. 965–969 (2002)<br />

21. Philips, P.J., Moon, H., Rizvi, S.A., Rauss, P.J.: The fer<strong>et</strong><br />

evaluation m<strong>et</strong>hodology for face-recognition algorithms.<br />

IEEE Trans. Pattern Anal. Mach. Intell. 22(10), 1090–1104<br />

(2000)<br />

22. Phillips, I.T., Chhabra, A.K.: Empirical performance evaluation<br />

of graphics recognition systems. IEEE Trans. Pattern<br />

Anal. Mach. Intell. 21(9), 849–870 (1999)<br />

23. Tombre, K., Chhabra, A.K. (eds.): Graphics Recognition—<br />

Algorithms and Systems. Lecture Notes in Computer Science,<br />

vol. 1389. Springer, Berlin Heidelberg New York (1998)<br />

24. Valveny, E., Dosch, Ph.: Performance evaluation of symbol<br />

recognition. In: Marinai, S., Dengel, A. (eds.) Document<br />

Analysis Systems VI – Proceedings of 6th IAPR International<br />

Workshop on Document Analysis Systems, Florence (Italy).<br />

Lecture Notes in Computer Science, vol. 3163, pp. 354–365.<br />

Springer, Berlin Heidelberg New York (2004)<br />

25. Valveny, E., Dosch, Ph.: Symbol recognition contest: a synthesis.<br />

In: Selected Papers from 5th International Workshop on<br />

Graphics Recognition, GREC’03. Lecture Notes in Computer<br />

Science, vol. 3088, pp. 368–385. Springer, Berlin Heidelberg<br />

New York (2004)<br />

26. Wenyin, L., Dori, D.: A protocol for performance evaluation<br />

of line d<strong>et</strong>ection algorithms. Mach. Vis. Appl. 9, 240–250<br />

(1997)<br />

27. Wenyin, L., Zhai, J., Dori, D.: Extended summary of the<br />

arc segmentation contest. In: Blostein, D., Kwon, Y.B. (eds.)<br />

Graphics Recognition: Algorithms and Applications, Selected<br />

Papers from 4th International Workshop on Graphics Recognition,<br />

GREC’01. Lecture Notes in Computer Science,<br />

vol. 2390, pp. 343–349. Springer, Berlin Heidelberg New York<br />

(2002)<br />

28. Wilson, C.L., Geist, J., Garris, M.D., Chellappa, R.: Design,<br />

integration and evaluation of form-based handprint and OCR<br />

systems. Technical report, National Institute of Standards and<br />

Technology, Technical Report NISTIR 5932 (1996)<br />

29. Zhang, Y.J.: A survey on evaluation m<strong>et</strong>hods for image segmentation.<br />

Pattern Recognit. 29(8), 1335–1346 (1996)


tel-00671168, version 1 - 8 Oct 2012<br />

xxx Annexe B. Réference CV : 5


tel-00671168, version 1 - 8 Oct 2012<br />

Annexe C<br />

Réference CV : 4<br />

G. Dupont, S. Adam, Y. Lecourtier, and B. Grilhère. <strong>Multi</strong> objective particle<br />

swarm optimization using enhanced dominance and guide selection. International<br />

Journal of Computational Intelligence Research (IJCIR), 4(2) :145-<br />

158, 2008.<br />

xxxi


tel-00671168, version 1 - 8 Oct 2012<br />

International Journal of Computational Intelligence Research.<br />

ISSN 0973-1873 Vol.4, No.2 (2008), pp.145–158 doi:10.5019/j.ijcir.2008.134<br />

© Research India Publications http://www.ijcir.info<br />

<strong>Multi</strong> objective particle swarm optimization<br />

using enhanced dominance and guide selection<br />

Gérard Dupont 1 2 , Sébastien Adam 1 , Yves Lecourtier 1 1 2<br />

and Bruno Grilheres<br />

1 Laboratoire d’Informatique de Traitement de l’Information <strong>et</strong> des Systmes (LITIS),<br />

Universit de Rouen, Saint- ´ Etienne-du-Rouvray, France<br />

2 EADS Defense and Systems, Information Processing and Comp<strong>et</strong>ence Center,<br />

Val de Reuil, France<br />

Abstract: Nowadays, the core of the Particle Swarm<br />

Optimization (PSO) algorithm has proved to be reliable.<br />

However, faced with multi-objective problems, adaptations are<br />

needed. Deeper researches must be conducted on its key steps,<br />

such as solution s<strong>et</strong> management and guide selection, in order<br />

to improve its efficiency in this context. Indeed, numerous<br />

param<strong>et</strong>ers and implementation strategies can impact on the<br />

optimization performance in a particle swarm optimizer. In<br />

this paper, our recent works on those topics are presented. We<br />

introduce an "dominance variation which enables a finer<br />

neighborhood handling in criterion space. Then we propose<br />

some ideas concerning the guide selection and memorization<br />

for each particle. These m<strong>et</strong>hods are compared against a<br />

standard MOPSO implementation on benchmark problems<br />

and against an evolutionary approach (NSGAII) for a real<br />

world problem: SVM classifier optimization (or model<br />

selection) for a handwritten digits/outliers discrimination<br />

problem.<br />

Keywords: Optimization, particle swarm, SVM model<br />

selection, multi objective optimizer, epsilon-dominance.<br />

I. Introduction<br />

In several technical fields, engineers are dealing with<br />

complex optimization problems which involve contradictory<br />

objectives. Such multi-objective optimization problems have<br />

been extensively studied during the last decades. Existing<br />

approaches can be classified with respect to the hypotheses<br />

which are required for the computation. A common<br />

hypothesis is the derivability or continuity of the functions<br />

to be optimized. Unfortunately, such hypotheses are not<br />

verified for problems with complex models. Thus other<br />

ways have been found through m<strong>et</strong>a-heuristic algorithms.<br />

Gen<strong>et</strong>ic algorithms are famous techniques in that domain<br />

and they have shown to be efficient on many optimization<br />

problems (see [13]). Recently, some researchers also tackle<br />

those problems with multi-objective particle swarm<br />

optimizer (see [10]).<br />

Based on the work of James Kennedy and Russel<br />

Eberhart presented in [15], the particle swarm optimizers try<br />

to find solutions of optimization problems by using<br />

techniques inspired by the nature, as the gen<strong>et</strong>ic algorithms<br />

mimic evolution in species. In the last few years, PSO has<br />

been extensively studied and some results have shown that it<br />

can comp<strong>et</strong>e with other evolutionary algorithms such as<br />

gen<strong>et</strong>ic algorithms (see [16, 21, 31]). <strong>Multi</strong>-Objective PSO<br />

algorithms (refered as MOPSO in the paper) have also been<br />

implemented and have opened a large new field of interest<br />

(see [28]).<br />

The aim of this paper is to propose some improvements<br />

of particle swarm optimizer dealing with multi-objective<br />

problems. These improvements concern the introduction of<br />

a new dominance and an original strategy for guide<br />

selection.<br />

The paper is organized as follows: section II gives a brief<br />

overview on basic definitions involved in multi-objective<br />

optimization problems and in particle swarm optimization.<br />

In section III, our contributions concerning the dominance<br />

and the guide selection strategy are described. In section IV,<br />

these contributions are discussed through experimental<br />

results on benchmark problems. Finally, the proposed<br />

variant of the MOPSO algorithm is applied on a real world<br />

problem which concerns SVM multi-model selection for<br />

handwritten digit identification.<br />

II. Basic definitions<br />

This section presents the basic formalization of multi<br />

objective optimization problems. Then it describes the<br />

particle swarm core algorithm and its classical multiobjective<br />

implementation (see [10]).<br />

A. <strong>Multi</strong>-objective optimization problems<br />

Many definitions can be found for multi-objective<br />

optimization problems (see [9] for a precise definition of all<br />

the following equations). Such problems seek to minimize<br />

simultaneously N objective functions fk depending on n<br />

param<strong>et</strong>ers in the form:


tel-00671168, version 1 - 8 Oct 2012<br />

146 Gérard Dupont <strong>et</strong> al<br />

(1)<br />

In order to express param<strong>et</strong>er limitations that can be m<strong>et</strong><br />

in real world problems (such as material characteristics in<br />

engineering applications), some constraints must be<br />

introduced. They reduce the feasible region of R n to a<br />

smaller one noted S. Usually, these constraints are modeled<br />

as M equations expressed as inequalities or equalities:<br />

(3)<br />

The global multi-objective problem can thus be defined<br />

as the minimization of:<br />

B. <strong>Multi</strong>-objective solutions<br />

In most case, multi-objective problems do not have a<br />

single global optimal solution according to equation 4 and a<br />

new definition of minimizing has to be used. The<br />

concept of optimum changes, because in multi-objective<br />

optimization problems the purpose is to find trade-off<br />

solutions rather than a single solution. Thus to compare<br />

those solutions and d<strong>et</strong>ermine which are useful, the wellknown<br />

Par<strong>et</strong>o dominance is commonly used. Based on the<br />

work of Vilfredo Par<strong>et</strong>o (see [25]), it can be expressed as<br />

follows:<br />

(6)<br />

In accordance with [9], this expression means that a<br />

given decision vector dominates another one if, and<br />

only if none of the corresponding objective function values<br />

is worse than and if there is a dimension in<br />

the criterion space where it is strictly b<strong>et</strong>ter. Using such a<br />

definition, the Par<strong>et</strong>o optimal s<strong>et</strong> P_ can be defined as the<br />

s<strong>et</strong> of all non dominated vectors (see [29]).<br />

(7)<br />

The s<strong>et</strong> of corresponding objective values in the criterion<br />

space constitutes the so-called Par<strong>et</strong>o front.<br />

The aim of a multi-objective optimization algorithm is to<br />

find a good estimation of P* noted P in accordance to some<br />

other concepts which can be linked to the problem. As stated<br />

in Deb’s book [12], the quality of this estimation must be at<br />

least measured in terms of diversity of the distribution and<br />

spread along the front.<br />

C. PSO core<br />

The PSO is a population based algorithm which deals<br />

(2)<br />

(4)<br />

(5)<br />

with swarm intelligence. Each particle in this swarm has a n<br />

dimensional vector used as a position in the param<strong>et</strong>er<br />

space. At each iteration, particles are moving using some<br />

core equations to compute their velocity and decide their<br />

movements. The main advantage of PSO is its simple<br />

implementation as it can be reduced to the two following<br />

equations (see [29]):<br />

(9)<br />

xi,t is the position of the i th particle at time t, and v i,t its<br />

velocity. pi,best and pi,guide are respectively the best position<br />

(in term of optimization) that the current particle has found<br />

in its path and the position of a particle that has been chosen<br />

as a guide. The weights applied to those positions are called<br />

the individual and social factors because they respectively<br />

depend on the current particle memory of its own best<br />

position and on another particle position from the swarm.<br />

They are both weighted independently by a coefficient cx<br />

and a random value rx in [0, 1]. The particles will either tend<br />

to explore the param<strong>et</strong>er space or to further investigate<br />

around a previously found solution according to their<br />

variations. Thus they have a significant impact on the<br />

convergence. ω is the inertia weight which can be constant<br />

or time-dependant like in [36]. Large values of this<br />

param<strong>et</strong>er tend to make the particle following its last<br />

direction with a turbulence factor r0 whose value is chosen<br />

in [0, 1]. A last part is modeled by the function X(). It is<br />

generally implemented as a simple factor known as the<br />

turbulence factor like in [20] and thus replacing the random<br />

part of the inertia weight. However some implementations<br />

use it as a velocity normalization function or a constriction<br />

factor, keeping the direction but avoiding speed divergence<br />

(see [23]).<br />

D. From PSO to MOPSO<br />

Only few modifications need to be made on the core<br />

algorithm to adapt it to multi-objective problems. These<br />

modifications are presented in algorithm 1. The global PSO<br />

algorithm is kept : a loop where particles criteria values are<br />

computed then guides selected for each particle and<br />

positions updated. The end of the loop relies on stopping<br />

criteria which can be simply the number of iteration, the size<br />

of archive or based on specific m<strong>et</strong>rics. The main changes<br />

are to consider a criterion space of dimensions N and to<br />

compare the solutions offered by each particle. It increases<br />

the algorithm computation cost, but does not change its core.<br />

An elitist strategy should be engaged in order to remember<br />

only the good param<strong>et</strong>er combinations and therefore an<br />

archive has to be built. It r<strong>et</strong>ains only the particle position<br />

that can be included in ˆ P, the current Par<strong>et</strong>o s<strong>et</strong> estimation.<br />

In accordance to the cooperative approach in PSO, this<br />

system is called the collaborative memory.<br />

(8)


tel-00671168, version 1 - 8 Oct 2012<br />

<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 147<br />

Reyes-Sierra proposed a review of state-of-the-art<br />

MOPSO variants in [28]. A categorization of the various<br />

approaches is presented. It allows to point out that despite<br />

the youth of this research field, the variants of MOPSO<br />

proposed are very diversified. The most discriminative<br />

aspect is the strategy used to manage the<br />

multidimensionality of the solution. The simplest technique<br />

is to refine the problem through a single objective using<br />

aggregation m<strong>et</strong>hods (such as a weighted summarization) or<br />

to apply an ordering strategy on the different objectives.<br />

Sub-population approaches use multiple swarms, optimizing<br />

separately each objective but sharing information to propose<br />

a global s<strong>et</strong> of solutions. However, as presented in the<br />

bibliography, a consensus seems to be established on Par<strong>et</strong>o<br />

dominance based approaches (or combination of<br />

approaches) which appear to have b<strong>et</strong>ter performance (see<br />

[28] for a compl<strong>et</strong>e description of the MOPSO variants and<br />

references).<br />

The study of existing MOPSO variants also allows to<br />

point out that dominance and guide selection strategy have a<br />

significant impact on the algorithm performance. Thus, our<br />

contributions, described in the next sections, are mainly<br />

focused on them.<br />

III. An enhanced epsilon dominance and guide<br />

selection<br />

In accordance to [28], the major difficulties in the adaptation<br />

of PSO to multi objectives problems are : (i) the guide<br />

selection (called the leader in the paper), (ii) the<br />

maintenance of the non-dominated solutions and (iii) the<br />

diversity of the swarm. Our contributions, described in the<br />

next sections, are mainly focused on the two first of them.<br />

Our proposal can be described as a Par<strong>et</strong>o dominance based<br />

one, using an external archive of non-dominated solutions<br />

and a density estimator to select the guide. Indeed, we<br />

propose a new guide selection strategy and a variation of the<br />

domination concept to ease the archive maintenance. The<br />

steps of theMOPSO algorithm impacted by such<br />

contributions are highlighted with stars in the algorithm 1.<br />

A. Building the archive<br />

As mentioned before, an archive of solutions eligible for<br />

the Par<strong>et</strong>o s<strong>et</strong> has to be maintained. In order to d<strong>et</strong>ermine if<br />

a particle should be included in the archive, the most<br />

common m<strong>et</strong>hod has been to r<strong>et</strong>ain all non-dominated<br />

solutions in accordance to the Par<strong>et</strong>o dominance. The<br />

drawback of such an approach is the control of the archive<br />

size, which can quickly become very large and hard to<br />

maintain, whereas only some key values are needed to<br />

obtain a good Par<strong>et</strong>o S<strong>et</strong> description. Thus other strategies<br />

have to be found to limit the archive size while preserving<br />

its diversity and spread along the front.<br />

The ∈ dominance introduced in [17] and evaluated in<br />

[19] presents good capabilities to tackle this problem. Two<br />

definitions exist based on the deviation type: absolute<br />

(additive ∈ see equation 10 from [17]) or relative<br />

(multiplicative ∈ see equation 11 from [18]). According to<br />

previous studies, the relative definition is commonly chosen<br />

as it permits to easily define the ∈ value and provides more<br />

results for smaller objective values.<br />

(10)<br />

(11)<br />

The difference with the classic Par<strong>et</strong>o dominance can<br />

clearly be focused on the figure 1. The first illustration (a)<br />

shows the domination area induced by the Par<strong>et</strong>o dominance<br />

for the current particle (in white) on a problem limited to 2<br />

criteria. Other particles are respectively in black, gray or<br />

hatched when their are dominated, equivalent or when they<br />

dominate the current particle. The illustration (b) shows the<br />

∈ domination area. It is bigger and allows to dominate<br />

elements too much near from the current particle<br />

(illustration (c) will be described later). As noticed in [18],<br />

this definition allows to quickly achieve an estimation of the<br />

Par<strong>et</strong>o front by modifying the domination area of a particle<br />

proportionally to its criterion values. It is one way to<br />

manage simultaneously the dominance b<strong>et</strong>ween particles<br />

and the neighborhood in the criterion space and will yield a<br />

b<strong>et</strong>ter diversity along the Par<strong>et</strong>o front.<br />

However, with such a definition, the difference with the<br />

Par<strong>et</strong>o domination area is larger for particle with bigger<br />

objectives values. This could induce a drawback as shown in<br />

figure 2 on a benchmark problem, where the domination<br />

area of the considered element (p1) limits the front<br />

description. Particular shapes of the Par<strong>et</strong>o front estimation<br />

(for instance areas with only minor variations on one<br />

objective and large variations on another) can thus be


tel-00671168, version 1 - 8 Oct 2012<br />

148 Gérard Dupont <strong>et</strong> al<br />

mistaken. This is a consequence of the ∈ dominance<br />

definition, which limits the number of particles used to<br />

describe the extremes or the parts of the front where one of<br />

the criteria is almost constant.<br />

Such a problem was noticed in [18], but surprisingly, no<br />

work exists in the literrature about the study of the effects on<br />

Par<strong>et</strong>o front results and no solution has been proposed to<br />

avoid this. In order to tackle this problem without involving<br />

a CPU greedy clustering m<strong>et</strong>hod, we introduce an "<br />

dominance variant. It limits the domination area introduced<br />

by the standard ∈ dominance to local neighborhood in order<br />

to avoid the limitations on large criteria value. The figure 1<br />

(c) presents a schematic illustration of this variant in<br />

comparison with Par<strong>et</strong>o and ∈ dominance. One can see that<br />

the classic ∈ dominance allows to handle the neighborhood<br />

of the considered particle (white one) in the objective space<br />

by extending the domination area. Thus closest solutions,<br />

which reduce the diversity of the solutions s<strong>et</strong>, are removed.<br />

However, it also removes some other particles not present in<br />

the local neighborhood because of the global extension of<br />

the domination area. Using the ∈ dominance variant allows<br />

to limit such extension, keeping its benefits and avoiding the<br />

highlighted drawbacks.<br />

Figure 1 : Illustration of Par<strong>et</strong>o dominance (a), ∈<br />

dominance (b) and our ∈ dominance variant (c).<br />

Figure 2 : Example of limitations introduced by ∈<br />

dominance against an estimation of the Par<strong>et</strong>o front (black<br />

line) on TNK problem. The highlighted zone will never be<br />

covered by new elements as they are under the ∈<br />

domination area of already present elements (red crosses).<br />

The principle of this variant is to use the implicit<br />

neighborhood management introduced by the ∈ dominance.<br />

The dominated neighborhood is proportional to ∈ (i.e.<br />

multiplicative∈) which is easy to implement and define. The<br />

mathematical formalization of such a variant is expressed in<br />

equation 12. The first part is simply the Par<strong>et</strong>o dominance<br />

whereas the second part defines the local domination areas<br />

in the neighborhood.<br />

(12)<br />

This variant of ∈ dominance allows to overcome the<br />

problem mentionned above while maintaining the benefits<br />

of classical ∈ dominance. It keeps a good diversity while<br />

avoiding the maintenance of a complex data structure for the<br />

non-dominated particles induced by m<strong>et</strong>hods based on<br />

clustering. Such criterion space clustering approaches have<br />

been largely tested in [10] with the hypercube strategy, in<br />

[21] with the sigma m<strong>et</strong>hod or in [14] with the dominated<br />

trees. The advantages of our variant will be highlighted in<br />

the experimentations presented in section IV.<br />

As it is presented in the papers mentioned above, the<br />

maintenance of the archive of the non-dominated particles is<br />

strongly linked to the guide selection which is one of the<br />

core step of the MOPSO. Thus we also contribute on the<br />

guide selection behavior.<br />

B. Guide selection behavior<br />

Performance of PSO algorithm depends on the factors


tel-00671168, version 1 - 8 Oct 2012<br />

<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 149<br />

which will influence each particles movement through the<br />

core equation 8. The particle will be influenced by its<br />

previous position, which is regulated through the inertia<br />

factor, its personal memory pi,best and a guide pi,guide.<br />

B<strong>et</strong>ween the numerous possible implementations of personal<br />

memory influence, we choose to select the last nondominated<br />

position of the particle to be the individual<br />

memorization of its best position. [5] has shown that more<br />

complex strategies can provide small improvements, but this<br />

approach (called newest strategy in [5]) allows good<br />

performance with a very small computational cost.<br />

Then the most important factor is the global guide who<br />

will try to help the particle to find to the Par<strong>et</strong>o front by<br />

modifying its trajectory. According to [28], the guide has to<br />

be selected in the archive of non-dominated solutions.<br />

Nevertheless the selection heuristic can drastically change<br />

the swarm convergence behavior.<br />

Our approach is based on the use of a probabilistic<br />

framework since it has shown to have b<strong>et</strong>ter performance in<br />

[1]. The idea is to select each particle guide through a<br />

roul<strong>et</strong>te wheel selection where each non-dominated solution<br />

will have a different selection probability evaluated at each<br />

iteration. However, instead of using a computation based on<br />

the Par<strong>et</strong>o domination to d<strong>et</strong>ermine the probability, we use a<br />

local density evaluation in order to tend the swarm to fill the<br />

holes of the current Par<strong>et</strong>o front estimation. Thus for each<br />

archive member, the probability is computed as an inverted<br />

density measure on its local neighborhood in the criterion<br />

space. Such an approach has also been tested in [5] for local<br />

best selection with quite good results. A similar approach<br />

can also be found in [2] but unfortunately without any<br />

further d<strong>et</strong>ail on the chosen estimator. However, the choice<br />

of the density measurement is not trivial because some<br />

particular shapes of the Par<strong>et</strong>o front or specific constraints<br />

can introduce discontinuities. A classic density measure,<br />

based on the counting of particles in a fixed area around the<br />

current archive element, will be biased by configurations<br />

similar to figure 2 : the area could be almost empty because<br />

of the front discontinuity. We propose a simple and intuitive<br />

solution which provides density estimation on an adaptive<br />

local neighborhood. It computes the sum of the inverted<br />

distances b<strong>et</strong>ween the current particle and its K nearest<br />

neighbors. Then the selection probability is computed by<br />

inverting this estimation and normalizing it as a probability<br />

as shown hereafter (where Ψ is the s<strong>et</strong> of the K nearest<br />

neighbors of the current particle in the criterion space). This<br />

probability needs indeed to be computed again at each<br />

archive update.<br />

(13)<br />

According to equation 13, a particle with closest<br />

neighbors will have an important local density evaluation<br />

and thus a small selection probability.<br />

The last problem to solve is the choice of a decision rule<br />

for changing the guide of a particle. Indeed the guide<br />

selection strategy has a computational cost. Moreover if the<br />

particles change their guide too often (at each iteration) their<br />

movements cannot be really influenced by their guide and<br />

the social effect can be lost. In mono-objective optimization,<br />

this behavior is not a problem because the new guide should<br />

always be b<strong>et</strong>ter than the previous one. However in<br />

MOPSO, guides are equivalent since they’re all included in<br />

P. This problem is partly solved by using complex swarm<br />

clustering (for example by sub-swarming on each criterion,<br />

see [28]), but we propose a more simple technique: enabling<br />

a particle guide memorization. Indeed, we did not find any<br />

studies on a guide memorization influence. Thereby the<br />

guide selection step, highlighted by a star in Algorithm 1, is<br />

modified. This is described in Algorithm 2.<br />

The idea is to allow a particle p to keep its previous guide<br />

in particular case. To avoid the swarm to only explore<br />

locally the front because of the stronger influence of guides,<br />

a particle which has been recently added in the archive<br />

(which means, when it reaches a non-dominated position)<br />

does not select any guide. This is the reason of the first test<br />

in the algorithm. In such case, p can be considered to be a<br />

pioneer and it is assumed that it does not need any guide. It<br />

is compl<strong>et</strong>ely free to explore any part of the param<strong>et</strong>er space<br />

using only its personal best position and its inertia. In the<br />

other case, the particle uses a new characteristic added to the<br />

swarm: a guide memory threshold which will define a global<br />

behavior of guide memorization. A new guide will be<br />

selected for this particle only if its threshold is exceeded as<br />

shown hereafter (i.e. the particle remembers its guide) and if<br />

its previous guide has not been del<strong>et</strong>ed from archive.<br />

The main advantage of this implementation is that the<br />

memorization is under control with the threshold.<br />

Experimentations have been conducted on the standard<br />

problems in order to select a good trade-off for this new


tel-00671168, version 1 - 8 Oct 2012<br />

150 Gérard Dupont <strong>et</strong> al<br />

param<strong>et</strong>er. The obtained results are presented in the<br />

following section.<br />

IV. Evaluation on standards problems<br />

In this section, benchmark problems are used in order to<br />

validate our approach against a baseline MOPSO with basic<br />

implementation.<br />

A. Evaluation strategies<br />

1) Algorithm s<strong>et</strong>ting<br />

As explained in [26] and theor<strong>et</strong>ically studied in [35], the<br />

numerous param<strong>et</strong>ers of a PSO algorithm can be adapted to<br />

maximize the convergence on each problem. However our<br />

experimental approach was to select values which present a<br />

good trade-off in order to have a problem-free<br />

implementation. As the aim was to study the performance of<br />

our contributions concerning dominance and guide<br />

selection, there was no need for fine tuning of these<br />

param<strong>et</strong>ers. Thus they have been uniformly chosen in<br />

controled domains which best fit the state of the art advices<br />

(see [26] and [28]):<br />

• Inertia weight !r0 in [0.8; 1.0]<br />

• Individual cognitive factor c1r1 in [1.6; 1.8]<br />

• Social cognitive factor c2r2 in [1.4; 1.6]<br />

• The constriction function _() implemented as a velocity<br />

threshold: when a dimension of the velocity vector<br />

exceeds the threshold, the whole vector is normalized<br />

such as the global direction is kept. Thus it constricts<br />

the velocity when it has a dimension greater than 0.1<br />

(with criteria values normalized in [0; 1]).<br />

This approach can be linked to [27]. However we limit<br />

the scales for the social and individual cognitive factors to<br />

different values since it has shown a statistically significant<br />

improvement in mono-objective PSO (see [35]) and in our<br />

multi-objective studies. We chose to introduce the uniform<br />

randomization through the specified domain instead of using<br />

secondary random factor rx in order to control their<br />

variability. The swarm size was limited to 40 elements in<br />

order to offer a good trade-off b<strong>et</strong>ween the number of<br />

potential solutions at each iteration and the update rate of<br />

the swarm. The number of iterations is not fixed and<br />

depends on the problems. For performance comparisons on<br />

the experiments, our stopping criteria was a limitation on the<br />

number of objective function evaluations, empirically fixed<br />

in order to obtain an acceptable estimation of the Par<strong>et</strong>o<br />

front.<br />

2) Benchmark problems<br />

Four problems from the literature have been chosen for<br />

the experiments. The first one is BNH, or also called<br />

MOPC1 (see [3]). It is considered to be simple because<br />

constraints do not introduce serious difficulties in finding<br />

the Par<strong>et</strong>o s<strong>et</strong> and the front does not have any discontinuity<br />

or complex convexity. The MOP5, proposed by Vienn<strong>et</strong>e,<br />

and MOP6<br />

Table 1 : Benchmark functions (f()) and constraints (g()).<br />

Name Criteria/constraints<br />

(see [6] for compl<strong>et</strong>e references) are two unconstrained<br />

problems used to test optimization algorithms against two<br />

major difficulties: an increase of the criterion number and a<br />

discontinued Par<strong>et</strong>o front. Then the last problem, called<br />

TNK by Tanaka [33], is considered to be quite difficult<br />

because of the restriction of the solution space introduced by<br />

the constraints. The descriptions of the mathematical<br />

functions, as they have been implemented, are shown in<br />

table 1.<br />

3) M<strong>et</strong>rics<br />

Comparing different executions of two multi-objective<br />

algorithms is a very complicated task. However, in our case,<br />

we only need to compare different variants of the same<br />

algorithm. Thus we use only simple m<strong>et</strong>rics to compare the<br />

spread and diversity of the front obtained by each<br />

implementation.<br />

The spacing m<strong>et</strong>ric S (see [30]) measures the<br />

homogeneity of the front description by computing the mean<br />

distance b<strong>et</strong>ween each element of the Par<strong>et</strong>o s<strong>et</strong> estimation.<br />

Thus small values are b<strong>et</strong>ter than large ones. A null value<br />

means that the elements are equidistant. This limit cannot be<br />

reached with the relative implementation of the ∈<br />

dominance because of its intrinsic definition which<br />

introduces a neighborhood limitation relative to the criterion<br />

value. The maximal extension D simply measures the<br />

diagonal b<strong>et</strong>ween the extremes elements on each criterion<br />

and must be maximized in order to cover the entire front.<br />

Then the s<strong>et</strong> coverage SC proposed in [37] tries to evaluate<br />

the domination of a Par<strong>et</strong>o front estimation PA against<br />

another one, PB, by counting the number of elements of PB<br />

which are dominated by a least one element of PA. By<br />

definition if SC (PA, PB) = 1 and SC( PB, PA) = 0 we can say<br />

that the estimation PA is b<strong>et</strong>ter than PB. They were


tel-00671168, version 1 - 8 Oct 2012<br />

<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 151<br />

respectively computed as presented in equations 14, 15 and<br />

16<br />

Table 2 : M<strong>et</strong>rics for dominance comparison (left columns<br />

results for MOPSO baseline with ∈ dominance and right<br />

with enhanced ∈ dominance).<br />

with normalized objective values.<br />

(14)<br />

(15)<br />

(16)<br />

As the algorithm involves random values in its execution,<br />

many differences can appear in two different runs. Thus in<br />

our experimental protocol, the different configurations of<br />

MOPSO used the same initial swarm with random position<br />

vectors assigned in the param<strong>et</strong>er space. Then we repeat 100<br />

times the execution (with different initial swarms) of each<br />

implementation of the algorithm. Our aims were to obtain a<br />

good estimation of the general algorithm behavior and to<br />

enable statistical estimators computation for each m<strong>et</strong>ric at<br />

each iteration.<br />

The computional cost involved by the enhancement of<br />

neighborhood and guide selection was evaluated both on<br />

benchmark and real life problems. It appears that the most<br />

critical point was the objective computations and that the<br />

computational overload in comparison to the baseline was<br />

not significative. Thus it has not been studied in the<br />

following results.<br />

B. Results and discussion<br />

1) Dominance<br />

We compare the ∈ dominance variant to the ∈<br />

dominance classically used in MOPSO on the benchmark<br />

problems. Table 2 presents the m<strong>et</strong>ric mean values over all<br />

executions of our approach (in the right columns and bolded<br />

when there is some improvement) against standard ∈<br />

dominance approach (in the left columns). As the s<strong>et</strong><br />

coverage is a non-symm<strong>et</strong>ric binary measure, we present<br />

both the results of our approach against the standard and the<br />

standard against our variant.<br />

The results summarized in table 2 must be carefully<br />

interpr<strong>et</strong>ed. First of all we can see that MOP5 is a problem<br />

that highlights the standard ∈ dominance drawbacks. Since<br />

one of the objectives has small variability, the front is<br />

extended on very high values. The limitation introduced by<br />

the standard ∈ dominance does not allow to describe those<br />

parts and thus the final estimation is very different (and<br />

worst) than the one obtained with our variant. Closely<br />

considering the s<strong>et</strong> coverage allows a b<strong>et</strong>ter understanding<br />

of the situation: the dissymm<strong>et</strong>ry on the m<strong>et</strong>ric implies that<br />

all the elements from the Par<strong>et</strong>o front estimated with our<br />

dominance variant dominates the ones from the other<br />

approach estimation.<br />

The consequence of this is the large differences on the<br />

other m<strong>et</strong>rics: the maximal extension is clearly improved<br />

and the spacing m<strong>et</strong>ric values are not comparable since the<br />

objective values are too different. So on this particular<br />

problem, our variant allows to perform a b<strong>et</strong>ter (or faster)<br />

estimation of the Par<strong>et</strong>o front.<br />

Figure 3 : Dominance comparison on the benchmark<br />

problems (the left blue front is for the standard " dominance<br />

and the right red one for our variant).


tel-00671168, version 1 - 8 Oct 2012<br />

152 Gérard Dupont <strong>et</strong> al<br />

For the other problems, one can observe that the s<strong>et</strong><br />

coverage m<strong>et</strong>rics of both approaches are quite similar and<br />

thus we can conclude that the Par<strong>et</strong>o front estimations are<br />

both near the real Par<strong>et</strong>o front (or near the limit of the<br />

algorithm capacities for the number of iterations). As the<br />

archive size is always significantly improved by our<br />

approach, we can argue that it generally permits to obtain a<br />

finer description of the front. This is confirmed by the<br />

spacing m<strong>et</strong>ric which is also improved and proves that the<br />

results are well distributed along the front. Finally, we<br />

provide the maximal extension in a specific way in order to<br />

allow a b<strong>et</strong>ter interpr<strong>et</strong>ation. The evaluation has been made<br />

not on the final front estimation on each runs but on the<br />

filtered front. It means that the archive obtained with one<br />

approach is reduced by removing all the elements that are<br />

dominated by at least one element from the other approach<br />

archive. We choose this m<strong>et</strong>hod because some front<br />

estimations contain incorrect elements which corrupt the<br />

maximal extension value. The results show that if our<br />

approach appears to yield less satisfactory results at first, it<br />

is only due to the presence of dominated solutions in the<br />

other estimation. Thus its maximal extension artificially<br />

grows because of such false Par<strong>et</strong>o front estimation. This<br />

particular difficulty on the m<strong>et</strong>ric interpr<strong>et</strong>ation highlights<br />

the difficulty of quantitative comparison.<br />

Table 3 : M<strong>et</strong>rics for guide selection behavior comparison<br />

(left columns results for MOPSO baseline with random<br />

guide selection and right with enhanced guide selection).<br />

A more thorough comparison requires a qualitative<br />

observation of the estimated Par<strong>et</strong>o front. As seen in Figure<br />

3, the quality of the front is clearly enhanced with our<br />

variant: the extremes are b<strong>et</strong>ter described and the description<br />

of parts where a criterion is almost invariant is also<br />

enhanced. This is highlighted on MOP5, where the classic ∈<br />

dominance does not allow describing the right part of the<br />

front because of the particular shape of the Par<strong>et</strong>o front.<br />

It is obvious that the classic ∈ dominance can also tackle<br />

those problems by reducing the epsilon value and allow<br />

more elements to be included in the archive. But other parts<br />

of the front which are well described will also suffer from<br />

this by more and more elements inclusion and thus the<br />

archive size bounds can be quickly broken. Moreover, it will<br />

not resolve the problem involved in ‘flat‘ parts of the front<br />

as our approach can do.<br />

2) Guide selection strategy<br />

Both configurations in this study use the proposed<br />

enhanced ∈ dominance. Their differences are only on the<br />

guide management: the first uses a full random selection and<br />

no guide memorization whereas the other involves the<br />

density based probability to select the guide that can be kept<br />

through the next iteration. The number of neighbors was<br />

experimentally limited to 4 and the memory factor to 0.6 as<br />

it appears to be the most effective values in our experiments<br />

(not presented here). Figure 4 shows the evolution of the<br />

different m<strong>et</strong>rics through the iterations on each problem.<br />

Table 3 presents the mean improvements over all executions<br />

of our approach (right columns) against random selection<br />

(left columns). BNH: The improvement is not obvious on<br />

BNH tests. Such a result is quite logical since the objective<br />

functions are quite simple and do not need a strong strategy<br />

to allow a good estimation of the Par<strong>et</strong>o s<strong>et</strong>. Improvements<br />

of the front diversity can be seen but through a reduction of<br />

archive size.


tel-00671168, version 1 - 8 Oct 2012<br />

<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 153<br />

Figure 4 : Evolution of m<strong>et</strong>rics through iteration on<br />

different problems (means values for standard guide<br />

selection in blue dashed lines and our variant in red lines).<br />

MOP5: The performance of our approach must be well<br />

interpr<strong>et</strong>ed for this problem. As shown by the dynamic<br />

evolution of the m<strong>et</strong>ric in figure 4, the results are biased.<br />

Indeed after about 20 iterations the values of m<strong>et</strong>rics fall<br />

drastically for the random selection. The reason is that the<br />

front of this problem is particularly difficult to find as it has<br />

a lot of local optimal solutions as explained previously. This<br />

is confirmed by the evolution of the s<strong>et</strong> coverage and<br />

maximal extension which allow concluding that the front<br />

estimated by the probabilistic approach is quite b<strong>et</strong>ter.<br />

MOP6: The solution is significantly improved by our<br />

approach on MOP6 tests. It is quite obvious that this<br />

particular problem, which contains much discontinuities on<br />

its Par<strong>et</strong>o front, is b<strong>et</strong>ter solved by our enhanced guide<br />

selection behavior. The only exception is the maximal<br />

extension. The reasons are the same as in the precedent<br />

study on dominance. TNK: The problem involves a lot of<br />

hard constraints which strongly limit the param<strong>et</strong>er space.<br />

Thus our approach based on a density estimator evaluated in<br />

the criterion space does not improve the global results since<br />

it does not permit to tackle the specific difficulties<br />

introduced in this problem.<br />

Such results can be difficult to analyze since some<br />

behavioral particularities are kept und<strong>et</strong>ected even when<br />

using several m<strong>et</strong>rics. Thus, we interpr<strong>et</strong> the values as<br />

relative improvement in order to facilitate the analysis on<br />

each problem. The classical qualitative evaluation of the<br />

Par<strong>et</strong>o front has also led us these interpr<strong>et</strong>ations. With<br />

respect to all the measures, we can conclude that our<br />

approach obtained a significant improvement in most cases.<br />

As we saw, the higher improvement is reached with difficult<br />

problems (i.e. with discontinued front) without strong<br />

constraints. However such results are limited to the context<br />

of our experiments, which is the comparison b<strong>et</strong>ween<br />

different MOPSO approaches on standard problems. Thus<br />

we have also tested our MOPSO in a real world<br />

environment against an evolutionary algorithm.<br />

V. SVM model selection using the proposed<br />

MOPSO<br />

This section proposes an original application of the<br />

proposed MOPSO for tuning the hyper param<strong>et</strong>ers of a<br />

classifier. Such a problem is a critical step for building an<br />

efficient classification system as this crucial aspect of model<br />

selection strongly impacts the performance of a<br />

classification system. For a long time, this problem has been<br />

tackled using a mono objective optimization process, with<br />

the predictive accuracy or error rate as objective. Now, it is<br />

well-known that a single criterion is not always a good<br />

performance indicator. Indeed, in many real-world problems<br />

(medical domain, road saf<strong>et</strong>y, biom<strong>et</strong>ry, <strong>et</strong>c...), the miss<br />

classification costs are (i) asymm<strong>et</strong>ric as error consequences<br />

are class-dependant ; (ii) difficult to estimate, for instance<br />

when the classification process is embedded in a more<br />

complex system. In such cases, a single criterion might be a<br />

poor indicator. Since the works of Bradley [4] concerning<br />

the Receiver Operating Characteristics (ROC) curve,<br />

classifier model selection has been implicitly considered to<br />

be a multi-objective optimization problem, particularly in<br />

the context of a two-class classification problem. Indeed, a<br />

classifier ROC curve represents the s<strong>et</strong> of trade-offs b<strong>et</strong>ween<br />

False Rejection (FR) and False Acceptance (FA) rates (also<br />

known as sensitivity vs. specificity trade-off). As a<br />

consequence, some approaches have been proposed in order<br />

to choose the classifier hyper param<strong>et</strong>ers using the ROC<br />

curve as a performance indicator. Unfortunately, these<br />

approaches are always based on a reduction of the FR and<br />

FA rates into a single criterion such as the Area Under<br />

Curve (AUC) or the FMeasure (FM).<br />

In this section, classifier hyper param<strong>et</strong>ers tuning is<br />

explicitly considered to be a multi-objective optimization<br />

problem aiming at optimizing simultaneously FA and FR. It<br />

is tackled using the proposed MOPSO optimizer.<br />

Consequently, the aim is to use the proposed MOPSO to<br />

find a s<strong>et</strong> of classifiers in order to select the best s<strong>et</strong> of<br />

FA/FR trade-offs. Such a strategy is evaluated on data<br />

extracted from a real-world application which takes place in<br />

the context of a handwritten digit/outlier discrimination<br />

problem.


tel-00671168, version 1 - 8 Oct 2012<br />

154 Gérard Dupont <strong>et</strong> al<br />

On can note that some other combinations of SVM<br />

classifier and particle swarm optimization (limited to monoobjective<br />

optimization) can be found in the literature with<br />

different approaches. Two examples can be found in [32]<br />

and [24]. In the first one, the PSO is used to select the<br />

characteristics (genes in a tumor classification problem)<br />

exploited by the SVM classifier and thus appears as a very<br />

efficient preprocessing module in the overall classification<br />

system. And in the second one, a Modified PSO called the<br />

Converging Linear Particle Swarm Optimizer is proposed to<br />

replace the traditional learning algorithm. Tested against<br />

baseline algorithms on the handwritten characters database<br />

from MNIST, it has shown to have similar capabilities. In<br />

both studies, an original combination is proposed and<br />

promising results are presented. The following sections will<br />

describe our own proposal.<br />

The application is quickly described in subsection V-A,<br />

in order to justify our choices. The SVM classifier used and<br />

its optimization strategy are described in subsection V-B.<br />

Finally, obtained results are presented and discussed in V-C.<br />

A. Digits/outliers discrimination<br />

The work described in this section is part of the design of<br />

a more complex system which aims at extracting numerical<br />

fields (phone number, zip code, customer code, <strong>et</strong>c.) from<br />

incoming handwritten mail document images. The proposed<br />

approach is applied to a particular stage of this numerical<br />

field extraction system [7]. More precisely, the classifier to<br />

be optimized is used as a fast two-class classifier which has<br />

to identify the digits among a huge number of irrelevant<br />

shapes (words, l<strong>et</strong>ters, fragments of words, <strong>et</strong>c).<br />

Consequently, the classifier objective is to reject as many<br />

outliers as possible, while accepting as many digits as<br />

possible. However, rejecting a digit has a much more serious<br />

consequence than accepting an outlier. The rejected data<br />

will never be processed and thus a numerical field can be<br />

lost. If a non-digit is accepted, it will increase the<br />

computation cost on non-relevant data. This problem is a<br />

good example of a classification task with asymm<strong>et</strong>ric and<br />

unknown misclassification costs since the influence of a FA<br />

or a FR rate on the whole system results is unknown a priori.<br />

Concerning the classifier to be optimized, the Support<br />

Vector Machines classifier has been chosen for its wellknown<br />

efficiency in a two-class context.<br />

B. SVM classifier and optimization strategy<br />

Support Vector Machines are a well-founded and largely<br />

used learning machine algorithm which have been proved to<br />

be very effective on several real-world problems. In order to<br />

take into account asymm<strong>et</strong>ric misclassification costs, we<br />

adopt the strategy proposed in [22] that consists in the<br />

introduction of two distinct penalty param<strong>et</strong>ers C − and C +<br />

(also called positive and negative margins).<br />

Figure 5 : Schematic view of the SVM optimization<br />

strategy through MOPSO.<br />

In such a case, given a s<strong>et</strong> of m training examples xi<br />

belonging to the class yi, the classical maximization of the<br />

dual Lagrangian with respect to the αi becomes: max<br />

subject to the constraints :<br />

(17)<br />

Where αi denotes the Lagrange multipliers, C − and C + are<br />

respectively the cost factors for the two classes (−1) and<br />

(+1), and k (xi, xj) denotes the kernel transformation. In the<br />

classical case of a Gaussian (RBF) kernel, k (xi, xj) is<br />

defined as:<br />

k (xi, xj) = e −γ×||xi−xj ||2 (18)<br />

In accordance with [8], we choose to keep the intrinsic<br />

optimization of support vector in SVM using the Lagrangian<br />

maximization and we apply the optimization process to the<br />

classifier hyper-param<strong>et</strong>ers. Hence, our optimization<br />

param<strong>et</strong>ers are:<br />

the kernel param<strong>et</strong>er of the SVM-rbf : γ<br />

the penalty param<strong>et</strong>ers introduced above: C − and C + .<br />

As explained before, the criteria to be optimized are both<br />

the FA rate and the FR rate which are obtained by testing<br />

the hyperparam<strong>et</strong>ers s<strong>et</strong> on a test database. The proposed<br />

strategy is illustrated on figure 5.<br />

C. MOPSO on SVM experimentation and comparison<br />

In this section, the experimental results obtained using<br />

the approach shown on figure 5 are presented and discussed.<br />

Two kinds of tests are presented. The first one aims at<br />

showing the interests of our MOPSO improvements. The<br />

second one consists in a comparison of the proposed<br />

MOPSO with respectively a state of the art multi-objective<br />

algorithm (NSGA-II [11]) and a classic SVM model<br />

selection approach.<br />

Our first comparison has been made against a baseline


tel-00671168, version 1 - 8 Oct 2012<br />

<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 155<br />

MOPSO (standard ∈ dominance and random guide<br />

selection) in order to ensure that our contributions<br />

concerning MOPSO are efficient on a real world problem.<br />

The comparative results are presented on figure 6. As one<br />

can see, the problem does not appear to be difficult. The<br />

Par<strong>et</strong>o front estimation does not contain any discontinuity.<br />

However the gain of our contributions can be clearly<br />

observed. The standard MOPSO mainly focusses its search<br />

on the middle part of the front and has a poor description of<br />

the extremes. The results obtained using our approach are<br />

quite b<strong>et</strong>ter. One can be observed a b<strong>et</strong>ter homogeneity of<br />

the description and well defined extremes parts.<br />

Figure 6 : Final Par<strong>et</strong>o Front estimation for both baseline<br />

MOPSO (up) and enhanced (down) MOPSO.<br />

The second test concerns a comparison b<strong>et</strong>ween the<br />

proposed MOPSO and a state-of-the-art MOEA: the NSGA-<br />

II (report to [11] for a compl<strong>et</strong>e description). As the<br />

approach differs from ours, some adaptations have been<br />

needed to offer a fair comparison. The most important<br />

param<strong>et</strong>er is the archive size which is limited to the initial<br />

population size in NSGA-II. Thus our MOPSO<br />

implementation was modified in order to limit its archive<br />

size. Using such a limitation, ∈ value was dynamically<br />

computed with a specific heuristic in order to rebuild the<br />

archive. Both algorithms were ran using the same population<br />

size (40) for a limited number of objective evaluations<br />

(1000). Such values appear as good trade-offs b<strong>et</strong>ween the<br />

running time and the quality of the final Par<strong>et</strong>o s<strong>et</strong><br />

estimation. The results obtained are shown on figure 7 for<br />

the Par<strong>et</strong>o front estimation and on figure 8 for the m<strong>et</strong>rics<br />

previously introduced.<br />

Figure 7 : Final Par<strong>et</strong>o Front estimation for both approaches<br />

(NSAGII in green and enhanced MOPSO in red).<br />

One can note that we also introduce on figure 7 the<br />

results obtained using a classical SVM model selection<br />

called SVM-perf [34]. This approach has been configured to<br />

use the Area Under the ROC curve (AUC) as a single<br />

criterion during the classifier learning.<br />

Figure 8 : Comparative values of m<strong>et</strong>rics (NSAGII in green<br />

and enhanced MOPSO in red).<br />

One can observe on figure 7 that both MO approaches<br />

allow a major improvement of the classic optimization w.r.t.<br />

SVMperf approach. Of course, such a comparison is not fair<br />

from a theor<strong>et</strong>ical point of view since we compare a ROC<br />

curve obtained using a single param<strong>et</strong>erized classifier (using


tel-00671168, version 1 - 8 Oct 2012<br />

156 Gérard Dupont <strong>et</strong> al<br />

AUC as building criterion) with an approach that considers a<br />

s<strong>et</strong> of classifiers. Nevertheless, from a practitioner point of<br />

view, these results aim at justifying the use of a multiobjective<br />

optimization framework in the context of SVM<br />

model selection. Indeed, for a chosen FA/FR trade-off, our<br />

framework provides a solution to the practitioner which is<br />

b<strong>et</strong>ter than the solution obtained using a single classifier<br />

with a given output threshold.<br />

Concerning the comparison of our approach with NSGA-<br />

II, the qualitative analysis proposed on figure 7 does not<br />

conclude to any dominance b<strong>et</strong>ween the two multi objective<br />

optimizers. The quantitative comparison of m<strong>et</strong>ric values<br />

confirms this idea. The Figure 8 presents their variations per<br />

iteration and shows that both approaches obtain similar<br />

values very quickly. Thus the two approaches are quite<br />

comp<strong>et</strong>itive and perform both well on this problem. Such a<br />

result is quite interesting as it shows that our MOPSO<br />

implementation can comp<strong>et</strong>e with the state-of-the-art<br />

MOEA.<br />

VI. Conclusion and further works<br />

This paper introduces two contributions on two intrinsic<br />

difficulties faced when adapting the PSO to multi objective<br />

optimization: the archive and social guide management. Our<br />

variant on ∈ dominance enables a fast neighborhood<br />

management in criterion space and has proved to well<br />

maintain the diversity in the archive. Then our guide<br />

selection strategy and guide memorization have shown to<br />

allow the Par<strong>et</strong>o front estimation to be enhanced in its<br />

difficult parts. The validation of such m<strong>et</strong>hods has been<br />

made both on standard and real world problems and against<br />

a state-of-the-art multi objective optimizer. Our approach<br />

appears to be comp<strong>et</strong>itive and reliable.<br />

Managing neighborhood, in order to avoid premature<br />

convergence and to promote a good spreading of solutions<br />

on the Par<strong>et</strong>o front estimation, is an open problem and<br />

several authors have proposed ideas to tackle this problem.<br />

This paper proposes an approach which has proven its low<br />

computational cost and its performance on a s<strong>et</strong> of<br />

problems. A comparison with other proposal remains to be<br />

made in a near future.<br />

However, what we tried to prove here was that our<br />

implementation allows obtaining a b<strong>et</strong>ter Par<strong>et</strong>o s<strong>et</strong><br />

estimation than others using the classic ∈ dominance. Our<br />

proposition on the guide selection allows studying the guide<br />

memorization, a topic rarely discussed in other studies. It<br />

has shown to allow a significant improvement while keeping<br />

the MOPSO performance at the state-of-the-art level on a<br />

real world problem. Thus our approach appears as a good<br />

improvement to easily handle neighborhood in criterion<br />

space.<br />

Much more experiments can then be conducted in order<br />

to compare to more MOPSO implementations. But before<br />

this, other improvements can be studied to go beyond the<br />

ones proposed in this paper. In particular, after proposing a<br />

new guide selection strategy, we are looking on the personal<br />

best management and selection which is the most natural<br />

continuation of our researches. The problem of the extremes<br />

handling, which has been partly solved by the neighborhood<br />

management, is always present because of the bias<br />

introduced by the relative ∈ dominance. This will also be<br />

one of the next big steps of our future work. The<br />

management of algorithms param<strong>et</strong>ers also needs to be finer<br />

studied and our aim is to reduce the number of algorithm<br />

param<strong>et</strong>ers (some successful tests have been conducted on<br />

an auto adaptive ∈). Then, the neighborhood has to be<br />

enlarged to the param<strong>et</strong>er space. It will avoid a guide to be<br />

selected when it will add to much turbulence to its<br />

movements because its param<strong>et</strong>ers combinaison is too<br />

different from the guided particle.<br />

We also want to adapt our experimental approach to a<br />

more realistic environment in order to ensure the usability of<br />

our particle swarm optimizer. Some experiments will be<br />

conducted by considering the kernel choice as a new<br />

param<strong>et</strong>ers in the optimization process for SVM model<br />

selection. This induces h<strong>et</strong>erogeneity in the param<strong>et</strong>ers but it<br />

can be tackled by MOPSO without too many difficulties.<br />

This research path is particularly valuable since it really<br />

helps the engineers to design their systems which have<br />

several h<strong>et</strong>erogeneous param<strong>et</strong>ers. Finally, we plan to<br />

enlarge our s<strong>et</strong> of applications in terms of system<br />

complexity and domains. Information r<strong>et</strong>rieval systems will<br />

be our most promising research paths especially for<br />

information extraction tasks through linguistic patterns<br />

which involve many param<strong>et</strong>ers.<br />

References<br />

[1] J.E. Alvarez-Benitez, R.M. Everson, and J.E.<br />

Fieldsend. Mopso algorithm based exclusively on<br />

par<strong>et</strong>o dominance concepts. Third International<br />

Conference on Evolutionary Mutli-Criterion<br />

Optimization, pages 726–732, 2005.<br />

[2] Alexandre M. Baltar and Darrell G. Fontane. A<br />

generalized multi objective particle swarm<br />

optimization solver for spreadshe<strong>et</strong> models:<br />

application to water quality. In AGU Hydrology<br />

Days 2006, March 2006.<br />

[3] To Thanh Binh and Urlich Korn. MOBES: A multi<br />

objective evolution strategy for constrained<br />

optimization problems. In The Third International<br />

Conference on Gen<strong>et</strong>ic Algorithms (Mendel 97),<br />

pages 176–182, Brno, Czech Republic, 1997.<br />

[4] Bradley. The use of the area under the roc curve in<br />

the evaluation of machine learning algorithms.<br />

Pattern- Recognition, 30:11451159, 1997.<br />

[5] J¨urgen Branke and Sanaz Mostaghim. About<br />

selecting the personal best in multi-objective<br />

particle swarm optimization. In Parallel Problem<br />

Solving from Nature, volume 4193 of Lecture<br />

Notes in Computer Science, pages 523–532.<br />

Springer, September 2006. ISBN=3- 540-38990-3.


tel-00671168, version 1 - 8 Oct 2012<br />

<strong>Multi</strong> objective particle swarm optimization using enhanced dominance and guide selection 157<br />

[6] L<strong>et</strong>icia Cagnina, Susana Esquivel, and Carlos A.<br />

Coello Coello. A particle swarm optimizer for<br />

multi-objective optimization. Journal of Computer<br />

Science & Technology, 5(4), 2005.<br />

[7] Chatelain Cl´ement. Extraction de squences<br />

numriques dans des documents manuscrits<br />

quelconques. Phd thesis, University of Rouen,<br />

December 2006.<br />

[8] Chatelain Cl´ement, Adam S´ebastien, Lecourtier<br />

Yves, Heutte Laurent, and Paqu<strong>et</strong> Thierry. <strong>Multi</strong>objective<br />

optimization for svm model selection. In<br />

ICDAR07 – to be published, 2007.<br />

[9] Carlos A. Coello Coello. Evolutionary <strong>Multi</strong>-<br />

Criterion Optimization: First International<br />

Conference, volume 1993/2001 of Lecture Notes in<br />

Computer Science, chapter A Short Tutorial on<br />

Evolutionary <strong>Multi</strong>objective Optimization, page<br />

21. Springer Berlin / Heidelberg, emo edition,<br />

2001.<br />

[10] Carlos A. Coello Coello and Maximino Salazar<br />

Lechuga. A proposal for multiple objective particle<br />

swarm optimization. Computational Intelligence,<br />

pages 12–17, May 2002.<br />

[11] K. Deb, A. Pratap, S. Agarwal, and T. Meyarivan.<br />

A fast and elitist multiobjective gen<strong>et</strong>ic algorithm :<br />

Nsgaii. IEEETransactions on Evolutionary<br />

Computation, 6:182197, 2002.<br />

[12] Kalyanmony Deb. <strong>Multi</strong>-Objective Optimization<br />

Using Evolutionary Algorithms. John Wiley and<br />

Sons, 2001. ISBN 047187339X.<br />

[13] David E. (edward) Goldberg. Gen<strong>et</strong>ic algorithms in<br />

search, optimization & machine learning. Addison-<br />

Wesley Publishing Co. - Reading, Mass, 1989.<br />

[14] J. Fieldsend and S. Singh. A multi-objective<br />

algorithm based upon particle swarm optimisation.<br />

In The 00 U.K. Workshop on Computational<br />

Intelligence, pages 34–44, 2002.<br />

[15] J. Kennedy and R. Eberhart. Particle swarm<br />

optimization. Neural N<strong>et</strong>works, 1995.<br />

Proceedings., IEEE International Conference on,<br />

4:1942–1948, 1995.<br />

[16] N. M. Kwok, D. K. Liu, and G. Dissanayake.<br />

Evolutionary computing based mobile robot<br />

localization. Engineering Applications of Artificial<br />

Intelligence, 19(8):857–868, December 2006.<br />

[17] Marco Laumanns, Lothar Thiele, Kalyanmoy Deb,<br />

and Eckart Zitzler. Combining convergence and<br />

diversity in evolutionary multiobjective<br />

optimization. MIT Press in Evolutionary<br />

Computation, 10, n3:263–282, 2002.<br />

[18] Sanaz Mostaghim and J¨urgen Teich. The role of "-<br />

dominance in multi-objective particle swarm<br />

optimization. In Proc. CEC´ 03, the Congress on<br />

Evolutionary Computation, volume 3, pages 1764–<br />

1771, Canberra, Australia, December 2003.<br />

[19] Sanaz Mostaghim and J¨urgen Teich. Strategies for<br />

finding good local guides in multi-objective<br />

particle swarm optimization. In Swarm Intelligence<br />

Symposium, Indianapolis, USA, April 2003. IEEE<br />

service center.<br />

[20] Sanaz Mostaghim and J¨urgen Teich. Covering<br />

par<strong>et</strong>o optimal fronts by subswarms in multiobjective<br />

particle swarm optimization. In IEEE<br />

Proceedings, World Congress on Computational<br />

Intelligence (CEC’04), volume 2, pages 1404–<br />

1411, Portland, USA, June 2004.<br />

[21] C. R. Mouser and S. A. Dunn. Comparing gen<strong>et</strong>ic<br />

algorithms and particle swarm optimisation for an<br />

inverse problem exercise. In Rob May and A. J.<br />

Roberts, editors, Proc. of 12th Computational<br />

Techniques and Applications Conference CTAC-<br />

2004, volume 46, pages C89–C101, March 2005.<br />

[22] Osuna, Freund R., and Girosi F. Support vector<br />

machines: Training and applications. 1997.<br />

[23] Elpiniki Papageorgiou, Konstantinos Parsopoulos,<br />

Chrysostomos Stylios, P<strong>et</strong>ros Groumpos, and<br />

Michael Vrahatis. Fuzzy cognitive maps learning<br />

using particle swarm optimization. Journal of<br />

Intelligent Information Systems, 25(1):95–121,<br />

July 2005.<br />

[24] A.P. Paqu<strong>et</strong>, U.; Engelbrecht. Training support<br />

vector machines with particle swarms. In Neural<br />

N<strong>et</strong>works, 2003. Proceedings of the International<br />

Joint Conference on, volume 2, pages 1593 – 1598,<br />

2003.<br />

[25] Vilfredo Par<strong>et</strong>o. Cours d’Economie Politique.<br />

1897.<br />

[26] K. E. Parsopoulos and M. N. Vrahatis. Recent<br />

approaches to global optimization problems<br />

through particle swarm optimization. Natural<br />

Computing, 1(2):235–306, June 2002.<br />

[27] Margarita Reyes-Sierra and Carlos A. Coello<br />

Coello. Improving pso-based multi-objective<br />

optimization using crowding, mutation and epsilondominance.<br />

In Evolutionary <strong>Multi</strong>-Criterion<br />

Optimization. Third International Conference,<br />

volume 3410 of Lecture Notes in Computer<br />

Science, pages 505–519. Springer, 2005.<br />

[28] Margarita Reyes-Sierra and Carlos A. Coello<br />

Coello. <strong>Multi</strong>-objective particle swarm optimizers:<br />

A survey of the state-of-the-art. International<br />

Journal of Computational Intelligence Research<br />

(IJCIR), 2:287–308, 2006.<br />

[29] Mara Margarita Reyes-Sierra. Use of Coevolution<br />

and Fitness Inheritance for <strong>Multi</strong>-Objective Particle<br />

Swarm Optimization. PhD thesis, Center of<br />

Research and Advanced Studies of the National<br />

Polytechnic Institute, Mexico City, Mexico, August<br />

25th 2006.<br />

[30] J. R. Schott. Fault tolerant design using single and<br />

multi-criteria gen<strong>et</strong>ic algorithms. Master’s thesis,<br />

Department of Aeronautics and Astronautics,<br />

Massachus<strong>et</strong>ts Institute of Technology, 1995.<br />

[31] Matthew S<strong>et</strong>tles, Brandon Rodebaugh, and Terence


tel-00671168, version 1 - 8 Oct 2012<br />

158 Gérard Dupont <strong>et</strong> al<br />

Soule. Comparison of gen<strong>et</strong>ic algorithm and<br />

particle swarm optimizer when evolving a recurrent<br />

neural n<strong>et</strong>work. In Springer Berlin / Heidelberg,<br />

editor, Gen<strong>et</strong>ic and Evolutionary Computation<br />

GECCO 2003, volume 2723/2003 of Lecture Notes<br />

in Computer Science, pages 148–149, 2003.<br />

[32] Qi Shen, Wei-Min Shi, Wei Kong, and Bao-Xian<br />

Ye. A combination of modified particle swarm<br />

optimization algorithm and support vector machine<br />

for gene selection and tumor classification. Talanta,<br />

In Press, Corrected Proof, 2006.<br />

[33] M. Tanaka, H. Watanabe, Y. Furukawa, and T.<br />

Tanino. GA-based decision support system for<br />

multicriteria optimization. In 1995 IEEE<br />

International Conference on Systems, Man and<br />

Cybern<strong>et</strong>ics. Intelligent Systems for the 21st<br />

Century (Cat. No. 95CH3576-7), volume 2, pages<br />

1556–61, New York, NY, USA, 1995. IEEE.<br />

[34] Joachims Thorsten. A support vector m<strong>et</strong>hod for<br />

multivariate performance measures. In Conference<br />

on Machine Learning (ICML), 2005.<br />

[35] F. van den Bergh and A. P. Engelbrecht. A study of<br />

particle swarm optimization particle trajectories.<br />

Information Sciences, 176(8):937–971, April 2006.<br />

[36] Hong Zhang, C. M. Tam, and Heng Li. <strong>Multi</strong>mode<br />

project scheduling based on particle swarm<br />

optimization. Computer Aided Civil and<br />

Infrastructure Engineering, 21(2):93–103, February<br />

2006.<br />

[37] Eckart Zitzler, Kalyanmoy Deb, and Lothar Thiele.<br />

Comparison of multiobjective evolutionary<br />

algorithms: Empirical results. Evolutionary<br />

Computation, 8(2):173–195, 2000.<br />

Author Biographies<br />

G´erard DUPONT was born in 1982 in Poitiers, France. He<br />

received two M.S. degrees in computer engineering and<br />

computer science at Rouen University in 2006. Since then,<br />

he began a Ph.D. degree in computer science at EADS-DS<br />

in Val de Reuil (France) and with the LITIS Laboratory of<br />

computer science in Rouen University on implicit feedback<br />

learning for semantic information r<strong>et</strong>rieval. His research<br />

interests include evolutionary multi objective optimization,<br />

swarm intelligence, learning algorithm, information r<strong>et</strong>rieval<br />

and semantic.<br />

Sébastien ADAM was born in 1975 in Dieppe, France. He<br />

received a PhD in graphical document analysis from the<br />

University of Rouen in 2001. This PhD has been led for<br />

France Telecom, the historical French telecommunication<br />

operator and tackles the problem of multi-oriented and<br />

multi-scaled pattern recognition. Then he joined the LITIS<br />

labs in Rouen, France. His domains of interest are at the<br />

merging of document analysis and multi-objective<br />

optimization.<br />

Yves LECOURTIER was born in Marseilles in 1950. After<br />

a thesis in signal processing in 1978, and a second thesis in<br />

physics (Automatic Control) in 1985 from the University of<br />

Paris-Sud, Orsay, France, he joined the University of Rouen<br />

as a Professor in 1987. His research domain is in pattern<br />

recognition and optimisation, especially for document<br />

analysis and text recognition. Pr. Lecourtier is a member of<br />

AFRIF, ASTI, IAPR. From 1994 to 2000, he was the<br />

chairman of the GRCE, a french soci<strong>et</strong>y which gather most<br />

of the french researchers working in document analysis and<br />

text recognition fields.<br />

Bruno GRILHERES joined EADS Information Processing<br />

Comp<strong>et</strong>ence Center in 2002. He has been working on Edemocracy<br />

and Text Mining. He led the technical<br />

architecture activity on IST CyberVote (IST Prize 2006) and<br />

Trade Chamber Elections. He has acted as information<br />

technology consultant for EADS Defense and Security<br />

Global Security and Mission Systems, Airbus. He is<br />

currently compl<strong>et</strong>ing a PhD (to be presented in 2007) on<br />

statistical learning for information extraction.


tel-00671168, version 1 - 8 Oct 2012<br />

xlvi Annexe C. Réference CV : 4


tel-00671168, version 1 - 8 Oct 2012<br />

Annexe D<br />

Réference CV : 2<br />

C. Chatelain, S. Adam, Y. Lecourtier, L. Heutte, and T. Paqu<strong>et</strong>. A multimodel<br />

selection framework for unknown and/or evolutive misclassification cost<br />

problems. Pattern Recognition (PR), 43(3) :815-823, 2010.<br />

xlvii


tel-00671168, version 1 - 8 Oct 2012<br />

Pattern Recognition 43 (2010) 815 -- 823<br />

Contents lists available at ScienceDirect<br />

Pattern Recognition<br />

journal homepage: www.elsevier.com/locate/pr<br />

A multi-model selection framework for unknown and/or evolutive misclassification<br />

cost problems<br />

Clément Chatelain, Sébastien Adam, Yves Lecourtier, Laurent Heutte ∗ , Thierry Paqu<strong>et</strong><br />

Université de Rouen, LITIS EA 4108, BP12, 76801 Saint Etienne du Rouvray, France<br />

A R T I C L E I N F O A B S T R A C T<br />

Article history:<br />

Received 11 January 2008<br />

Received in revised form 24 February 2009<br />

Accepted 5 July 2009<br />

Keywords:<br />

ROC front<br />

<strong>Multi</strong>-model selection<br />

<strong>Multi</strong>-objective optimization<br />

ROC curve<br />

Handwritten digit/outlier discrimination<br />

1. Introduction<br />

Tuning the hyperparam<strong>et</strong>ers of a classifier is a critical step for<br />

building an efficient pattern recognition system as this crucial aspect<br />

of model selection strongly impacts the generalization performance.<br />

In the literature, many contributions in this field have focused on the<br />

computation of the model selection criterion, i.e. the value which is<br />

optimized with respect to the hyperparam<strong>et</strong>ers. These contributions<br />

have led to efficient scalar criteria and strategies used to estimate<br />

the expected generalization error. One can cite Xi-Alpha bound of<br />

[24], the generalized approximate cross-validation of [33], the empirical<br />

error estimate of [3], the radius-margin bound of [9] or the<br />

maximal-discrepancy of [2]. Based on these criteria, hyperparam<strong>et</strong>ers<br />

are usually chosen using a grid search, coupled with a crossvalidation<br />

procedure. In order to decrease the computational cost of<br />

grid search, some authors suggest to use gradient-based techniques<br />

(e.g. [4,25]). In these works, the performance validation function is<br />

adapted in order to be differentiable with respect to the param<strong>et</strong>ers<br />

to be optimized.<br />

All the approaches mentioned above, though efficient, use a single<br />

criterion as the objective during the optimization process. Now, it is<br />

well known that a single criterion is not always a good performance<br />

indicator. Indeed, in many real-world pattern recognition problems<br />

(medical domain, road saf<strong>et</strong>y, biom<strong>et</strong>ry, <strong>et</strong>c.), the misclassification<br />

∗ Corresponding author.<br />

E-mail address: Laurent.Heutte@univ-rouen.fr (L. Heutte).<br />

0031-3203/$ - see front matter © 2009 Elsevier Ltd. All rights reserved.<br />

doi:10.1016/j.patcog.2009.07.006<br />

In this paper, we tackle the problem of model selection when misclassification costs are unknown and/or<br />

may evolve. Unlike traditional approaches based on a scalar optimization, we propose a generic multimodel<br />

selection framework based on a multi-objective approach. The idea is to automatically train a pool<br />

of classifiers instead of one single classifier, each classifier in the pool optimizing a particular trade-off<br />

b<strong>et</strong>ween the objectives. Within the context of two-class classification problems, we introduce the “ROC<br />

front concept” as an alternative to the ROC curve representation. This strategy is applied to the multimodel<br />

selection of SVM classifiers using an evolutionary multi-objective optimization algorithm. The<br />

comparison with a traditional scalar optimization technique based on an AUC criterion shows promising<br />

results on UCI datas<strong>et</strong>s as well as on a real-world classification problem.<br />

© 2009 Elsevier Ltd. All rights reserved.<br />

costs are (i) asymm<strong>et</strong>ric as error consequences are class-dependant;<br />

(ii) difficult to estimate (for example when the classification process<br />

is embedded in a more complex system) or subject to change (for<br />

example in the field of fraud d<strong>et</strong>ection where the amount of fraud<br />

changes monthly). In such cases, a single criterion might be a poor<br />

performance indicator.<br />

Onesolutiontotackl<strong>et</strong>hisproblemistouseasperformance<br />

indicator the receiver operating characteristics (ROC) curve proposed<br />

in [6]. Such a curve offers a synth<strong>et</strong>ic representation of the trade-off<br />

b<strong>et</strong>ween the true positive (TP) rate and the false positive (FP) rate,<br />

also known as sensitivity vs. specificity trade-off. One way to take into<br />

account both FP and TP in the model selection process is to resume<br />

the ROC curve into a single criterion, such as the F-measure (FM), the<br />

break-even point (BEP) or the area under ROC curve (AUC). However,<br />

we will show in the following that we can g<strong>et</strong> more advantages<br />

in formulating the model selection problem as a true 2-D objective<br />

optimization task.<br />

In this paper, our key idea is to turn the problem of the search for<br />

a global optimal classifier (i.e. the best s<strong>et</strong> of hyperparam<strong>et</strong>ers) using<br />

a single criterion or a resume of the ROC curve, into the search for a<br />

pool of locally optimal classifiers (i.e. the pool of the best s<strong>et</strong>s of hyperparam<strong>et</strong>ers)<br />

w.r.t. FP/TP rates. The best classifier among the pool<br />

can then be selected according to the needs of some practitioner.<br />

Consequently, the proposed framework can be viewed as a multiple<br />

model selection approach (rather than a model selection problem)<br />

and can naturally be expressed in a multi-objective optimization<br />

(MOO) framework. Under particular conditions, we assume that<br />

such an approach leads to very interesting results since it enables


tel-00671168, version 1 - 8 Oct 2012<br />

816 C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823<br />

Fig. 1. <strong>Multi</strong>-model selection framework.<br />

a practitioner to (i) postpone the choice of the final classifier as late<br />

as possible and (ii) to change the classifier without a computationally<br />

expensive new learning stage when targ<strong>et</strong> conditions change.<br />

Fig. 1 depicts our overall multi-model selection process. The<br />

resulting output of such a process is a pool of classifiers, each one<br />

optimizing some FP/TP rate trade-off. The s<strong>et</strong> of trade-off values<br />

constitutes an optimal front we call “ROC front” by analogy with<br />

MOO field.<br />

The remainder of the paper is organized as follows. In Section 2,<br />

we d<strong>et</strong>ail the rationale behind the ROC front concept and illustrate<br />

how our multi-model selection approach may provide solutions that<br />

outperform traditional approaches in a MOO framework. Section 3<br />

gives an overview of multi-objective optimization strategies and d<strong>et</strong>ails<br />

the algorithm used in the proposed framework to compute the<br />

“ROC front”. Section 4 presents a particular application of our approach<br />

to the problem of SVM hyperparam<strong>et</strong>er selection and shows<br />

that our m<strong>et</strong>hod enables to reach more interesting trade-offs than<br />

traditional model selection techniques on standard benchmarks (UCI<br />

datas<strong>et</strong>s). In Section 5, we discuss ways of selecting the best model<br />

from the pool of locally optimal models. Then, in order to assess the<br />

usefulness of our approach, we present in Section 6 its application on<br />

a real world classification problem which consists in a digit/outlier<br />

discrimination task embedded in a numerical field extraction system<br />

for handwritten incoming mail documents. Finally, a conclusion and<br />

future works are drawn in Section 7.<br />

2. The “ROC front” concept<br />

As stated in the Introduction, a model selection problem may be<br />

seen from a multi-objective point of view, turning thus into a multimodel<br />

selection approach. In the literature, some multi-model selection<br />

approaches have been proposed. However, these approaches<br />

aim at designing a single classifier and thus cannot be considered<br />

as real multi-model selection approaches. Caruana for example proposed<br />

in [8] an approach for constructing ensembles of classifiers, but<br />

this m<strong>et</strong>hod aims at combining these classifiers in order to optimize a<br />

scalar criterion (accuracy, cross-entropy, mean precision, AUC). Bagging,<br />

boosting or error-correcting-output-codes (ECOC) [17] are also<br />

classifier ensemble m<strong>et</strong>hods that can be viewed as producing single<br />

classifiers efficient with respect to a scalar performance m<strong>et</strong>ric.<br />

In [27], an evolutionary algorithm (EA) based approach is applied<br />

to find the best hyperparam<strong>et</strong>ers of a s<strong>et</strong> of binary SVM classifiers<br />

combined to produce a multi-class classifier.<br />

The approach which is proposed in this paper is different since<br />

our aim is not to build a single classifier but a pool of classifiers,<br />

each one optimizing both FP and TP rates in the ROC space. In such<br />

a context, l<strong>et</strong> us recall that a problem arising when ROC space is<br />

used to quantify classifier performance is their comparison in a 2-D<br />

Fig. 2. Comparing ROC curves: the solid ROC curve provides a b<strong>et</strong>ter AUC than the<br />

dashed ROC curve, but is not locally optimal for a given range of specificity (false<br />

positive rate).<br />

objective space: a classifier may be b<strong>et</strong>ter for one of the objectives<br />

(e.g. FP) and worse for the other one (e.g. TP). Consequently, the<br />

strict order relation that can be used to compare classifiers when a<br />

single objective is only considered becomes unusable and classical<br />

mono-objective optimization strategies cannot be applied.<br />

Usually, in ROC space, this problem is tackled using a reduction<br />

of the FP and TP rates into a single criterion such as the area under<br />

ROC curve (AUC) [30]. However, such performance indicators are a<br />

resume of the ROC curve taken as a whole and do not consider the<br />

curve from a local point of view. The didactic example proposed<br />

in Fig. 2 illustrates this statement. One can see on this figure two<br />

synth<strong>et</strong>ic ROC curves. The curve plotted as solid line has a b<strong>et</strong>ter AUC<br />

value, but the corresponding classifier is not b<strong>et</strong>ter for any specific<br />

desired value of FP rate (resp. TP). Consequently, optimizing such<br />

a scalar criterion to find the best hyperparam<strong>et</strong>ers could lead to<br />

solutions that do not fit the practitioner needs in certain context. A<br />

b<strong>et</strong>ter idea could be to optimize simultaneously FP and TP rates using<br />

a MOO framework and a dominance relation to compare classifier<br />

performance.<br />

L<strong>et</strong> us recall that the dominance concept has been proposed by<br />

Vilfredo Par<strong>et</strong>o in the 19th century. A decision vector −→ u is said to<br />

dominate another decision vector −→ v if −→ u is not worse than −→ v for any<br />

objective function and if −→ u is b<strong>et</strong>ter than −→ v for at least one objective<br />

function. This is denoted by −→ u ≺ −→ v . More formally, in the case of<br />

the minimization of all the objectives, a vector −→ u = (u1, u2,...,u k)<br />

dominates a vector −→ v = (v1, v2,...,v k) if and only if:<br />

∀i ∈{1,...,k}, u i v i ∧∃j ∈{1,...,k} : u j < v j<br />

Using such a dominance concept, the objective of a multi-objective<br />

optimization algorithm is to search for the Par<strong>et</strong>o optimal s<strong>et</strong> (POS),<br />

defined as the s<strong>et</strong> of all non-dominated solutions of the problem.<br />

Such a s<strong>et</strong> is formally defined as the s<strong>et</strong>:<br />

POS ={ −→ u ∈ /¬∃ −→ v ∈ , −−→<br />

f (v) ≺ −−→<br />

f (u)}<br />

where denotes the feasible region (i.e. the param<strong>et</strong>er space regions<br />

where the constraints are satisfied) and −→ f denotes the objective<br />

function vector. The corresponding values in the objective space<br />

constitute the so-called Par<strong>et</strong>o front.<br />

From our model selection point of view, the POS corresponds to<br />

the pool of non-dominated classifiers (the pool of the best s<strong>et</strong>s of<br />

hyperparam<strong>et</strong>ers). In this pool, each classifier optimizes a particular<br />

FP/TP trade-off. The resulting s<strong>et</strong> of FP/TP points constitutes an<br />

optimal front we call “ROC front”. This concept is illustrated with a<br />

didactic example as shown in Fig. 3: l<strong>et</strong> us assume that ROC curves<br />

have been obtained from three distinct hyperparam<strong>et</strong>er s<strong>et</strong>s. This<br />

could lead to the three synth<strong>et</strong>ic curves plotted as dashed lines. One


tel-00671168, version 1 - 8 Oct 2012<br />

Fig. 3. Illustration of the ROC front concept: the ROC front depicts the FP/TP<br />

performance corresponding to the pool of non-dominated operating points.<br />

can see on this example that none of the classifiers dominates the<br />

others on the whole range of FP/TP rates. An interesting solution for<br />

a practitioner is the “ROC front” (the dotted solid curve), which is<br />

made of some non-dominated parts of each classifier ROC curves.<br />

The m<strong>et</strong>hod proposed in this paper aims at finding this “ROC front”<br />

(and the corresponding POS), using an evolutionary multi-objective<br />

optimization (EMOO) algorithm. This class of optimization algorithm<br />

has been chosen since evolutionary algorithms (EA) are known to be<br />

well-suited to search for multiple Par<strong>et</strong>o optimal solutions concurrently<br />

in a single run, through their implicit parallelism.<br />

In the following section, a brief review of existing EMOO algorithms<br />

is proposed and the chosen algorithm is described.<br />

3. Evolutionary multi-objective optimization<br />

As stated earlier, our objective in this paper is to search for a<br />

pool of param<strong>et</strong>rized classifiers corresponding to the optimal s<strong>et</strong> of<br />

FP/TP trade-offs. From a multi-objective optimization point of view,<br />

this s<strong>et</strong> can naturally be seen as the Par<strong>et</strong>o optimal s<strong>et</strong> and the s<strong>et</strong><br />

of corresponding FP/TP trade-offs is the ROC front. To tackle such a<br />

problem of searching a s<strong>et</strong> of solutions describing the Par<strong>et</strong>o front,<br />

EA are known to be well-suited. This is why we do not consider in<br />

our review the approaches that optimize a single objective using the<br />

aggregation of different objectives into a single one (e.g. the use of<br />

the AUC) or the transformation of some objectives into constraints.<br />

For more d<strong>et</strong>ails concerning these m<strong>et</strong>hods, see for example [16].<br />

3.1. Short review of existing approaches<br />

Since the pioneering work of [31] in the mid eighties, a considerable<br />

amount of EMOO approaches have been proposed (MOGA from<br />

[21], NSGA from [32], NPGA from [23], SPEA from [37], NSGA II from<br />

[15], PESA from [12], SPEA2 [36]). In a study reported in [26] the<br />

performance of the three most popular algorithms (SPEA2, PESA and<br />

NSGA-II) are compared. These three approaches are elitist, i.e. they<br />

all use a history archive that records all the non-dominated solutions<br />

previously found in order to ensure the preservation of good<br />

solutions. This comparative study has been performed on different<br />

test problems using as quality measurement the two important criteria<br />

of an EMOO, i.e. the closeness to the Par<strong>et</strong>o front and the solution<br />

distribution in the objective space. Indeed, achieving a good<br />

spread and a good diversity of solutions on the obtained front is important<br />

to give the user as many choices as possible. The results obtained<br />

in [26] (which are corroborated in [36,7]) showed that none of<br />

the proposed algorithms “dominate” the others in the Par<strong>et</strong>o sense.<br />

SPEA2 and NSGA-II perform equally well in convergence and diversity<br />

maintenance. Their convergence through the real Par<strong>et</strong>o optimal<br />

C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823 817<br />

s<strong>et</strong> is inferior to that of PESA but diversity among solutions is b<strong>et</strong>ter<br />

maintained. The study also showed that NSGA-II is faster than<br />

SPEA2, because of the expensive clustering of solutions in SPEA2.<br />

In the context of multi-model selection, computation of the objective<br />

values is often very time consuming since it involves learning<br />

and testing the classifier for each hyperparam<strong>et</strong>er s<strong>et</strong>. Moreover,<br />

a good diversity of solutions is necessary since there is no a priori<br />

information concerning the adequate operating point on the Par<strong>et</strong>o<br />

front. That is why we have chosen to use NSGA-II in the context of<br />

our study. We give in the next subsection a concise description of<br />

this algorithm. For more d<strong>et</strong>ails, we refer to [15].<br />

3.2. NSGA-II<br />

NSGA II is a modified version of a previously proposed algorithm<br />

called NSGA [32]. It is a population-based, fast, elitist and param<strong>et</strong>er<br />

free approach that uses an explicit diversity preserving mechanism.<br />

Algorithm 1. NSGA-II algorithm.<br />

P0 ← pop-init()<br />

Q0 ← make-new-pop (P0)<br />

t ← 0<br />

while t < M do<br />

Rt ← Pt ∪ Qt<br />

F ← non-dominated-sort(Rt)<br />

Pt+1 ←∅<br />

i ← 0<br />

while |Pt+1|+|Fi| N do<br />

Pt+1 ← Pt+1 ∪ Fi crowding-distance-assignment(Fi) i ← i + 1<br />

end while<br />

Sort (Fi, ≺n)<br />

Pt+1 ← Pt+1 ∪ Fi[1 : (N −|Pt+1|)]<br />

Qt+1 ← make-new-pop (Pt+1)<br />

t ← t + 1<br />

end while<br />

As one can see in Algorithm 1, the approach starts with the random<br />

creation of a parent population P0 of N solutions (individuals).<br />

This population is used to create an offspring population Q0. For this<br />

step, P0 is first sorted using a non-domination criterion. This sorting<br />

assigns to each individual a domination rank. The non-dominated<br />

individuals have rank 1, they constitute the front F1. Then, the others<br />

front F i are defined recursively by ignoring the lower ranked<br />

solutions. This ranking is illustrated on the left of Fig. 4 in the case<br />

of a two-objective problem (f1,f2). Using the results of the sorting<br />

procedure, each individual is assigned a fitness equal to its nondomination<br />

level. Then, binary tournament selection, recombination<br />

and mutation operators (see [22,15]) are used to create a child population<br />

Q0 with the same size as P0.<br />

After these first steps, the main loop is applied for M generations.<br />

In each loop of this algorithm, t denotes the current generation,<br />

F denotes the result of the non-domination sorting procedure, i.e.<br />

F ={F i} where F i denotes the ith front. Pt and Qt denote the<br />

population and the offspring at generation t, respectively, and Rt is<br />

a temporary population.<br />

As one can see, the main loop of the algorithm starts with a merging<br />

of the current Pt and Qt to build Rt. Thispopulationof2N solutions<br />

is sorted using the non-domination sorting procedure in order<br />

to build the population Pt+1. In this step, a second sorting criterion<br />

is used to keep Pt+1 to a constant size N during the integration of<br />

the successive F i. Its aim is to take into account the contribution<br />

of the solutions to the spread and the diversity of objective function


tel-00671168, version 1 - 8 Oct 2012<br />

818 C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823<br />

Fig. 4. Illustration of the Fi concept (left). Illustration of the crowding distance concept (right). The black points stand for the dominant vectors, whereas white ones are<br />

dominated.<br />

values in the population. This sorting is based on a measure called<br />

crowding_distance. This measure which is precisely described in [15]<br />

is based on the average distance of the two points on both sides of<br />

this point along each of the objectives. This measure is illustrated<br />

on the right of Fig. 4. The larger the surface around the considered<br />

point, the b<strong>et</strong>ter the solution from the diversity point of view. Using<br />

such values, the solutions in Rt that most contribute to the diversity<br />

are preferred in the construction of Pt+1. This step is illustrated<br />

in Algorithm 1 through the use of Sort(F i,≺n), where ≺n denotes a<br />

partial order relation based on both domination and crowding distance.<br />

According to this relation, a solution i is b<strong>et</strong>ter than a solution<br />

j if i rank < j rank or if (i rank = j rank) and(i distance > j distance). One can note<br />

that ≺n is also used in the tournament operator.<br />

Using this algorithm, the population Pt necessarily converges<br />

through a s<strong>et</strong> of points of the Par<strong>et</strong>o front of the problem since nondominated<br />

solutions are preserved along generations. Furthermore,<br />

the use of the crowding-distance as a sorting criterion guarantees a<br />

good diversity in the population [15]. In the following section, NSGA-<br />

II is used in the proposed framework for SVM multi-model selection.<br />

4. Application to SVM multi-model selection<br />

As explained in the previous sections, the proposed framework<br />

aims at finding a pool of classifiers, optimizing simultaneously FP<br />

and TP rates. The approach can be used for any classifier that uses at<br />

least one hyperparam<strong>et</strong>er. In this section, we have chosen to consider<br />

support vector machines (SVM) since it is well known that the choice<br />

of SVM model param<strong>et</strong>ers can dramatically affect the quality of their<br />

solution. Moreover, the problem of SVM model selection is known<br />

to be a difficult problem.<br />

4.1. SVM classifiers and their hyperparam<strong>et</strong>ers for model selection<br />

As stated in [28], classification problems with asymm<strong>et</strong>ric and<br />

unknown misclassification costs can be tackled using SVM through<br />

the introduction of two distinct penalty param<strong>et</strong>ers C− and C+. In<br />

such a case, given a s<strong>et</strong> of m training samples x i in R n belonging to<br />

class y i:<br />

(x1, y1)...(xm, ym), x i ∈ R n , y i ∈{−1, +1}<br />

the maximization of the dual Lagrangian with respect to the i becomes<br />

⎧<br />

⎨ m<br />

Max i −<br />

⎩<br />

i=1<br />

1<br />

⎫<br />

m<br />

⎬<br />

<br />

2<br />

ijyiy jK(xi, xj) ⎭<br />

i,j=1<br />

⎧<br />

⎪⎨<br />

0 i C+ for yi =−1<br />

0 <br />

s.t. the constraints : i C− for yi =+1<br />

m<br />

⎪⎩ iyi = 0<br />

i=1<br />

where i denote the Lagrange multipliers and K(·) denotes the kernel.<br />

In the case of a Gaussian (RBF) kernel, K(·) is defined as<br />

K(x i, x j) = exp(− ×x i − x j 2 )<br />

Hence, in the case of asymm<strong>et</strong>ric misclassification costs, three param<strong>et</strong>ers<br />

have to be d<strong>et</strong>ermined to perform an optimal learning of<br />

the SVM classifier:<br />

• The kernel param<strong>et</strong>er of the SVM-rbf: .<br />

• The penalty param<strong>et</strong>ers introduced above: C− and C+.<br />

In the following, the proposed framework is used in order to select<br />

the value of these three hyperparam<strong>et</strong>ers.<br />

4.2. Application of NSGA-II for SVM model selection<br />

Two particular points have to be specified for the application of<br />

NSGA-II to SVM multi-model selection:<br />

• the solution coding: as said before, three param<strong>et</strong>ers are involved<br />

in the learning of SVM for classification problems with asymm<strong>et</strong>ric<br />

misclassification costs: C+, C− and . These three param<strong>et</strong>ers<br />

constitute the param<strong>et</strong>er space of our optimization problem. Consequently,<br />

each individual in NSGA-II has to encode these three<br />

real values. We have chosen to use a real encoding of these param<strong>et</strong>ers<br />

in order to be as precise as possible.<br />

• the evaluation procedure: each individual in the population corresponds<br />

to some given values of hyperparam<strong>et</strong>ers. In order to<br />

compute the performance associated to this individual, a classical<br />

SVM learning is performed using the encoded param<strong>et</strong>er values<br />

on a learning datas<strong>et</strong>. Then, this classifier is evaluated on a test<br />

datas<strong>et</strong> with the classical FP and TP rates as performance criteria.<br />

One can see in Fig. 5 a synth<strong>et</strong>ic scheme of our multi-model selection<br />

m<strong>et</strong>hod.<br />

4.3. Experimental results on UCI datas<strong>et</strong>s<br />

In this subsection, the proposed multi-model selection approach<br />

based on the ROC front concept is evaluated and compared with<br />

other approaches on publicly available benchmark datas<strong>et</strong>s [1].First,<br />

the experimental protocol of our tests is described. Then, the results


tel-00671168, version 1 - 8 Oct 2012<br />

Fig. 5. SVM multi-model selection framework.<br />

Table 1<br />

Number of samples and number of attributes of the considered 2-class UCI problems.<br />

Problem # samples # attributes<br />

Australian 690 14<br />

wdbc 569 30<br />

Breast cancer 699 10<br />

Ionosphere 351 34<br />

Heart 270 13<br />

Pima 768 8<br />

are shown and compared with some reference works, and finally<br />

several comments on these results are proposed.<br />

Our approach has been applied on several 2-class benchmark<br />

datas<strong>et</strong>s publicly available in the UCI machine learning repository on<br />

which state-of-the-art results have been published. The number of<br />

samples and the number of attributes for each problem are reported<br />

in Table 1.<br />

As we propose a real multi-objective approach, the result of our<br />

experiments is a pool of classifiers describing the ROC front. Thus, the<br />

evaluation of our approach and more precisely its comparison with<br />

other approaches of the literature is not easy since as mentioned<br />

in the Introduction, comparing some results in a multi-dimensional<br />

space is a difficult task. Note that there exist some dedicated measures<br />

such as the s<strong>et</strong> coverage m<strong>et</strong>ric proposed in [35]. However, to<br />

the best of our knowledge, the other referred m<strong>et</strong>hods in the literature<br />

always consider a single classifier as a solution for a classification<br />

problem, which makes it difficult to compare our results with<br />

those found in the literature.<br />

Based on this statement, we have therefore chosen to average all<br />

the local performance of the ROC front to produce a way to compare<br />

our approach to existing ones based on AUC. For that, an area under<br />

the ROC front (AUF) is calculated and compared with the area under<br />

the ROC curve (AUC) of the other approaches. We do know that this<br />

comparison is not theor<strong>et</strong>ically correct since the best results of a<br />

pool of classifiers are compared with a curve obtained by varying the<br />

threshold of a single classifier. However, the aim of this comparison<br />

is not to show that our approach gives b<strong>et</strong>ter performance but only<br />

to highlight the fact that more interesting trade-offs may be locally<br />

reached through the ROC front approach. This comparison may also<br />

be justified by the fact that finally, in both cases, only one classifier<br />

with a unique threshold will be r<strong>et</strong>ained for a given problem. We<br />

discuss in Section 5 how to select the best model among the pool of<br />

classifiers and offer a solution to this problem.<br />

The result of our approach is compared with several works based<br />

on the optimization of a scalar criterion for various classifiers: [5]<br />

(decision lists and rules s<strong>et</strong>s), [13] (rankboost), [19] (decision trees),<br />

[30] (SVMs) and [34] (five models: naive Bayes, logistic, decision<br />

C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823 819<br />

Table 2<br />

Comparison of the area under the ROC curve (AUC) in the literature with the area<br />

under the ROC front (AUF).<br />

Problem AUC literature Ref. AUF<br />

Australian 90.25 ± 0.6 [34] 96.22 ± 1.7<br />

wdbc 94.7 ± 4.6 [19] 99.59 ± 0.4<br />

Breast cancer 99.13 [5] 99.78 ± 0.2<br />

Ionosphere 98.7 ± 3.3 [30] 99.00 ± 1.4<br />

Heart 92.60 ± 0.7 [34] 94.74 ± 1.9<br />

Pima 84.80 ± 6.5 [13] 87.42 ± 1.2<br />

tree, kstar, and voting feature interval). We refer to these papers for<br />

more explanation of the criterion and the model used.<br />

Concerning the application of our multi-objective strategy, a<br />

cross-validation procedure has been performed with five folds for<br />

each datas<strong>et</strong>. The results are presented in Table 2, where the first<br />

column is the best AUC found until now among the predicted works<br />

based on the optimization of a scalar criterion, and the second one<br />

is the AUF of our approach.<br />

As expected, one can see that for every datas<strong>et</strong> the ROC front<br />

yielded by the pool of classifiers leads to a higher area than the area<br />

under the ROC curve of the other single classifiers. As said before,<br />

it is important to emphasize that the AUF cannot theor<strong>et</strong>ically be<br />

compared with AUC since the various operating points of the ROC<br />

front cannot be reached by a single classifier. However, this comparison<br />

with m<strong>et</strong>hods which directly optimize AUC clearly shows that<br />

our approach enables to reach very interesting local operating points<br />

which cannot be reached at the same time by the AUC-based classifiers.<br />

Hence, we claim that if the good model can be selected among<br />

the pool of classifiers, our approach can lead to b<strong>et</strong>ter results than<br />

AUC-based m<strong>et</strong>hods. Despite these interesting results, the model selection<br />

problem still remains partly open since the choice of the r<strong>et</strong>ained<br />

classifier among the s<strong>et</strong> of locally optimal classifiers has to<br />

be performed. This crucial final model selection step is discussed in<br />

the following section.<br />

5. How to select the best model?<br />

The problem of choosing an operating point in the ROC space is<br />

not specific to the proposed approach. For example, when training<br />

a single classifier with an AUC criterion, the practitioner still has to<br />

choose the appropriate threshold value, i.e. the operating point in<br />

the ROC space.<br />

Theor<strong>et</strong>ically, the best operating point must be d<strong>et</strong>ermined according<br />

to Bayes theory by minimizing the following decision function,<br />

known as the expected cost and defined as<br />

expected cost(FP, TP) = p(p).(1 − TP).c(N, p) + p(n).FP.c(Y, n)<br />

where p(p) and p(n) are, respectively, the prior probabilities of<br />

(p)ositive samples and (n)egative samples (class distribution), c(N, p)<br />

is the cost of a false negative error and c(Y,n)isthecostofafalse<br />

positive error.<br />

Obviously, targ<strong>et</strong> conditions (p(p), p(n), c(N, p), c(Y, n)) are rarely<br />

all known at runtime. Consequently, two runtime conditions may be<br />

distinguished to select the best model on the ROC front, depending<br />

on wh<strong>et</strong>her the misclassification costs and the class distributions are<br />

known with an acceptable precision or not.<br />

• If the targ<strong>et</strong> conditions are known, then iso-performance lines proposed<br />

in [18] can be used to select the best model. It is based on<br />

the projection of the Bayes decision function onto the ROC space.<br />

An iso-performance line is defined as the s<strong>et</strong> of points providing the<br />

same expected cost. The slope of an iso-performance line is given by


tel-00671168, version 1 - 8 Oct 2012<br />

820 C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823<br />

Fig. 6. When the targ<strong>et</strong> conditions of a given problem are known, representing the<br />

iso-performance line allows to select the appropriate operating point.<br />

slope =<br />

p(n).c(Y, n)<br />

p(p).c(N, p)<br />

Using this iso-performance line on the ROC space, the optimal operating<br />

point can be found by starting from the upper left corner and<br />

moving the iso-performance line towards the lower right corner.<br />

The optimal operating point is the first intersection b<strong>et</strong>ween the<br />

line and the ROC front. This m<strong>et</strong>hod is illustrated in Fig. 6. Wecan<br />

notice on this figure that the best classifier can be easily selected.<br />

Note that in this case, as the accuracy can be computed from the<br />

targ<strong>et</strong> conditions, a less computational classical scalar-based optimization<br />

may be performed, thus avoiding the whole ROC front<br />

to be generated. However, if the targ<strong>et</strong> conditions are subject to<br />

change, generating the whole ROC front is a suitable solution since<br />

the adapted operating point can be easily changed using the isoperformance<br />

line m<strong>et</strong>hod, without any additional training stage.<br />

• If the targ<strong>et</strong> conditions are unknown at runtime, the expected cost<br />

cannot be evaluated. Consequently, the slope of the appropriate<br />

iso-performance line cannot be d<strong>et</strong>ermined. Then, the only way for<br />

choosing the best classifier is to perform a testing stage in context,<br />

i.e. testing each classifier of the ROC front, and choosing the one<br />

that best fits the application constraints. We present in Section 6<br />

a real world problem with this kind of scenario.<br />

One can note that, in the second case, browsing all possible isoperformance<br />

lines could be used in order to “filter” the ROC-front<br />

by removing concavities. Indeed, classifiers lying on the concavities<br />

of the ROC front cannot be theor<strong>et</strong>ically optimal since any<br />

performance on a line segment connecting two ROC points can be<br />

achieved by randomly choosing b<strong>et</strong>ween them [20]. Thisisillustrated<br />

in Fig. 7. Such an idea has been proposed in [29] to generate<br />

the ROC convex hull of a s<strong>et</strong> of classifiers. Consequently, one can<br />

consider that our proposed m<strong>et</strong>hod enables to find the optimal<br />

ROC-CH.<br />

6. Application to a real-world pattern recognition problem<br />

In this section, an interesting example of real-world problem<br />

for which our approach suits b<strong>et</strong>ter than an AUC-based m<strong>et</strong>hod is<br />

presented.<br />

6.1. Digit/outlier discrimination<br />

The work described in this paper has been motivated by the<br />

design of a more complex system that aims at extracting numerical<br />

fields (phone number, zip code, customer code, <strong>et</strong>c.) from incom-<br />

Fig. 7. Browsing all possible iso-performance lines on a non-convex ROC front allows<br />

to filter the non-filled squares the performance of which can be outperformed.<br />

Fig. 8. Example of an incoming mail document. Numerical fields to extract are<br />

highlighted.<br />

Fig. 9. Examples of digits and outliers. The first line (a) contains shapes which can<br />

be considered as “obvious” outliers. The last line (c) contains digits that should be<br />

accepted as they are, whereas the middle line (b) contains “ambiguous outliers”<br />

(i.e. shaped as digits) that should be rejected by the proposed approach.<br />

ing handwritten mail document images [10,11] (see Fig. 8). The<br />

main difficulty of such a task comes from the fact that handwritten<br />

digits may touch each other in the image while some textual<br />

parts som<strong>et</strong>imes are made of separated or touching characters.<br />

Fig. 9 gives some examples of segmented components to deal with.<br />

In such a variable context, segmentation, d<strong>et</strong>ection and recognition<br />

of a digit and rejection of textual components must be performed<br />

simultaneously.


tel-00671168, version 1 - 8 Oct 2012<br />

In this paper, the proposed approach is applied to a particular<br />

stage of the numerical field extraction system. More precisely, the<br />

SVM to be optimized is used as a fast two-class classifier prior to the<br />

digit recognizer itself, aiming at filtering the “obvious outliers” (see<br />

Fig. 9a) from all the other shapes (see Fig. 9b and c) in order to avoid<br />

a costly digit recognition stage when it is not necessary. The choice of<br />

the SVM classifier has been motivated by its efficiency in a two-class<br />

context. Its objective is to reject as many outliers as possible, while<br />

accepting as many digits as possible. Further stages of the system<br />

deal with digit recognition and ambiguous outlier rejection. This<br />

context is a good example of a classification task with asymm<strong>et</strong>ric<br />

and unknown misclassification costs since the influence of a FP or a<br />

FN on the whole system results is unknown at runtime. In the next<br />

subsection, the performance of the proposed system are assessed.<br />

6.2. Experimental results and discussion<br />

In this section, the experimental results obtained using the proposed<br />

approach are analysed. These results are compared with those<br />

obtained using a state-of-the-art algorithm [30], where a SVM classifier<br />

is trained with respect to an AUC criterion. Both NSGA-II and<br />

AUC-based approaches have been applied on a learning database of<br />

7129 patterns ( 1 2<br />

3 digit, 3 outliers), tested and evaluated on a test<br />

and a validation database of resp. 7149 and 5000 patterns with the<br />

same proportions of digits and outliers. In the case of NSGA-II, the<br />

range values for SVM hyperparam<strong>et</strong>ers are given in Table 3. Concerning<br />

the NSGA-II param<strong>et</strong>ers, we have used some classical values,<br />

proposed in [15]. Among them, one can note that the size of the<br />

population has been s<strong>et</strong> to 40 in order to have enough points on the<br />

Par<strong>et</strong>o front. The resulting curves are presented in Fig. 10.<br />

Several comments can be made from the obtained results. First,<br />

one can remark that each point of the ROC curve obtained for a single<br />

classifier trained with AUC criterion is dominated by at least one of<br />

Table 3<br />

Range values for SVM hyperparam<strong>et</strong>ers.<br />

Hyperparam<strong>et</strong>er C− C+<br />

Range 0–1 0–5000 0–5000<br />

C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823 821<br />

the point of the ROC front. Such a result stems from the fact that using<br />

an EMOO approach, FP and TP rates are minimized simultaneously<br />

through the variation of the three involved SVM hyperparam<strong>et</strong>ers,<br />

whereas in the case of an AUC approach, a single param<strong>et</strong>rized classifier<br />

is trained to optimize every possible FP/TP trade-offs. Fig. 11 is<br />

another illustration of the interest of the ROC front concept. It shows<br />

the ROC curves computed from four classifiers which have been selected<br />

using the proposed framework. This figure clearly shows that<br />

the ROC front corresponds to a s<strong>et</strong> of classifiers which are specialized<br />

on some specific ranges of FP/TP trade-offs.<br />

A second remark concerns the possibility when using an EMOO<br />

to apply some constraints on the objective values (as in the param<strong>et</strong>er<br />

space). Such a possibility is very useful in the context of our<br />

application since it enables to focus on a small part of the ROC front.<br />

Indeed, we are particularly interested by a small part of the ROC<br />

front since we want the rejection of a digit be as rare as possible<br />

Fig. 10. FP/TP curves obtained using the two approaches: a s<strong>et</strong> of SVM classifiers<br />

obtained with NSGA-II (ROC front), and a single SVM classifier trained with AUC<br />

criterion (ROC curve).<br />

Fig. 11. Illustration of the ROC front concept on a classification datas<strong>et</strong>. The solid lines are the ROC curves computed from 4 of the 40 classifiers selected using the proposed<br />

framework. The performance of the classifiers of the ROC front appear as `×'.


tel-00671168, version 1 - 8 Oct 2012<br />

822 C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823<br />

Fig. 12. ROC curve obtained for a true positive rate b<strong>et</strong>ween 97% and 100%.<br />

Table 4<br />

Recall/precision values of the whole numerical field extraction system for several<br />

digit/outlier classifiers, represented here by their TP rate.<br />

Classifier TP rate in % 98.8 99.04 99.26 99.48 99.76 99.96 100<br />

Recall 0.370 0.410 0.440 0.458 0.462 0.481 0.488<br />

Precision 0.110 0.130 0.150 0.176 0.246 0.223 0.152<br />

F1-Measure 0.170 0.197 0.224 0.254 0.321 0.305 0.232<br />

to prevent errors in the whole recognition process, this would imply<br />

a null false negative rate (i.e. a 100% TP rate). But on the other hand,<br />

Fig. 10 shows that a 100% TP rate leads to a FP higher than 50%.<br />

Such a result involves a very time consuming recognition stage, that<br />

cannot be accepted regarding our processing time constraints during<br />

the decision stage. Thus, we have applied an lower bound of 97% to<br />

the TP rate in order to obtain an acceptable trade-off b<strong>et</strong>ween the<br />

recognition quality of the system and the computational constraints.<br />

Fig. 12 shows the results obtained with this additional constraint.<br />

One can see that such a s<strong>et</strong>ting enables to obtain more diversity<br />

among the FP/TP trade-offs in the chosen TP range.<br />

6.3. How to select the best model?<br />

Once the ROC front has been built for our application, the final<br />

best model among the classifiers has to be selected. As discussed<br />

in Section 5, two scenarios may occur at runtime, wh<strong>et</strong>her the<br />

expected cost can be computed or not. In our digit/outlier discrimination<br />

problem, this expected cost cannot be computed since the<br />

classification task is embedded in the whole numerical field extraction<br />

application and is evaluated by recall/precision measures.<br />

Hence, a test stage in context has to be performed by successively<br />

embedding each classifier of the front in the whole system. Table 4<br />

presents the results obtained by the whole numerical field extraction<br />

system for several digit/outlier classifiers of the ROC front, i.e.<br />

for several FP/TP trade-offs.<br />

As one can expected the true positive rate has to be very high<br />

to provide good recall and precision values since rejecting a digit<br />

may imply to miss a numerical field. We do not show the results<br />

for the classifiers the TP rate of which is lower than 98.8% since<br />

both recall and precision are lower than those presented in Table 4.<br />

Finally, given the final application constraints, the system designer<br />

is able to choose the model that best fits the industrial needs. As an<br />

example, if one choose to maximize the F1-measure, the classifier<br />

providing TPR = 99.76% will be selected. The results of this real-<br />

world application corroborate the idea that model selection must be<br />

considered as long as possible as a multi-objective optimization task<br />

in a pattern recognition system.<br />

7. Conclusion<br />

In this paper, we have presented a framework to tackle the problem<br />

of classifier model selection with unknown and/or evolutive misclassification<br />

costs. The approach is based on a multi-model selection<br />

strategy in which a pool of classifiers is trained in order to depict<br />

an optimal ROC front. Using such a front, it is possible to choose the<br />

FP/TP trade-off that best fits the application constraints. An application<br />

of this strategy with evolutionary multi-objective optimization<br />

for the training of a s<strong>et</strong> of SVM classifiers has been proposed, with a<br />

validation on both UCI datas<strong>et</strong>s and a real-world application on the<br />

discrimination of handwritten digits from outliers. Obtained results<br />

have shown that our approach enables to reach b<strong>et</strong>ter local operating<br />

points that state-of-the-art approaches based on the area under<br />

ROC curve criterion. As a conclusion, one can say that an AUC-based<br />

approach suits pattern recognition problems where the operating<br />

point may vary, whereas our approach b<strong>et</strong>ter suit problems where<br />

the operating point is supposed to be static.<br />

The proposed approach is simple and generic and can thus be of<br />

great interest for the practitioner who has to optimize a classifier in<br />

the context of unknown and/or evolutive misclassification costs. It<br />

can be applied to other param<strong>et</strong>ric classifiers (KNN, Neural n<strong>et</strong>work,<br />

<strong>et</strong>c.) with other optimization m<strong>et</strong>hods [14]. Moreover, it can be easily<br />

extended through the introduction of other param<strong>et</strong>ers (kernel type)<br />

or objectives (number of support vectors, decision time).<br />

In our future works, we plan to extend the approach to the multiclass<br />

problem. We also plan to apply a multi-objective optimization<br />

strategy to the whole numerical field extraction system, using recall<br />

and precision as criteria.<br />

References<br />

[1] D.J. Newman A. Asuncion, UCI machine learning repository, 2007.<br />

[2] D. Anguita, S. Ridella, F. Rivieccio, R. Zunino, Hyperparam<strong>et</strong>er design criteria<br />

for support vector classifiers, Neurocomputing 55 (1–2) (2003) 109–134.<br />

[3] N.E. Ayat, M. Cheri<strong>et</strong>, C.Y. Suen, Automatic model selection for the optimization<br />

of SVM kernels, Pattern Recognition 30 (2004) 1733–1745.<br />

[4] Y. Bengio, Gradient-based optimization of hyperparam<strong>et</strong>ers, Neural<br />

Computation 12 (2000) 1889–1900.<br />

[5] H. Boström, Maximizing the area under the ROC curve using incremental<br />

reduced error pruning, in: Proceedings of ROCML, 2005.<br />

[6] A.P. Bradley, The use of the area under the ROC curve in the evaluation of<br />

machine learning algorithms, Pattern Recognition 30 (1997) 1145–1159.<br />

[7] L.T. Bui, D. Essam, H.A. Abbass, D. Green, Performance analysis of multiobjective<br />

evolutionary m<strong>et</strong>hods in noisy environments, in: Proceedings of APS 2004,<br />

pp. 29–39.<br />

[8] R. Caruana, A. Niculescu-Mizil, G. Crew, A. Ksikes, Ensemble selection from<br />

libraries of models, in: Proceedings of ICML, 2004.<br />

[9] O. Chapelle, V. Vapnik, O. Bousqu<strong>et</strong>, S. Mukherjee, Choosing multiple param<strong>et</strong>ers<br />

for support vector machines, Machine Learning 46 (1) (2002) 131–159.<br />

[10] C. Chatelain, L. Heutte, T. Paqu<strong>et</strong>, Segmentation-driven recognition applied to<br />

numerical field extraction from handwritten incoming mail documents, in:<br />

Document Analysis System, Lecture Notes in Computer Sciences, vol. 3872,<br />

2006, pp. 564–575.<br />

[11] C. Chatelain, L. Heutte, T. Paqu<strong>et</strong>, A two-stage outlier rejection strategy for<br />

numerical field extraction in handwritten documents, in: Proceedings of ICPR,<br />

2006, pp. 224–227.<br />

[12] D.W. Corne, J.D. Knowles, M.J. Oates, The Par<strong>et</strong>o envelope-based selection<br />

algorithm for multiobjective optimization, in: Parallel Problem Solving from<br />

Nature, 2000, pp. 839–848.<br />

[13] C. Cortes, M. Mohri, AUC optimization vs. error rate minimization, in: Advances<br />

in NIPS, MIT Press, Cambridge, MA, 2004.<br />

[14] B.F. de Souza, A.C.P.L.F. de Carvalho, R. Calvo, R.P. Ishii, <strong>Multi</strong>class SVM model<br />

selection using particle swarm optimization, in: Proceedings of HIS, 2006, p. 31.<br />

[15] K. Deb, S. Agrawal, A. Pratap, T. Meyarivan, A fast elitist nondominated sorting<br />

gen<strong>et</strong>ic algorithm for multiobjective optimization: NSGA-II, IEEE Transactions<br />

on Evolutionary Computation (2002) 182–197.<br />

[16] K. Deb, <strong>Multi</strong>-Objective Optimization Using Evolutionary Algorithms, Wiley,<br />

New York, NY, USA, 2001.<br />

[17] T.G. Di<strong>et</strong>terich, G. Bakiri, Solving multiclass learning problems via errorcorrecting<br />

output codes, Journal of Artificial Intelligence Research 2 (1995)<br />

263–286.


tel-00671168, version 1 - 8 Oct 2012<br />

[18] T. Fawc<strong>et</strong>t, ROC graphs: notes and practical considerations for researchers,<br />

Technical Report, HP Laboratories, 2004.<br />

[19] C. Ferri, P. Flach, J. Hernandez-Orallo, Learning decision trees using the area<br />

under the ROC curve, in: Proceedings of ICML, 2002, pp. 139–146.<br />

[20] P.A. Flach, S. Wu, Repairing concavities in ROC curves, in: Proceedings of the<br />

2003 UK Workshop on Computational Intelligence, University of Bristol, August<br />

2003, pp. 38–44.<br />

[21] C.M. Fonseca, P.J. Flemming, Gen<strong>et</strong>ic algorithm for multiobjective optimization:<br />

formulation, discussion and generalization, in: Proceedings of ICGA, 1993, pp.<br />

416–423.<br />

[22] D.E. Goldberg, Gen<strong>et</strong>ic Algorithms in Search, Optimization and Machine<br />

Learning, Addison-Wesley, Longman Publishing Co., Inc., Boston, MA, USA,<br />

1989.<br />

[23] J. Horn, N. Nafpliotis, D.E. Goldberg, A niched Par<strong>et</strong>o gen<strong>et</strong>ic algorithm for<br />

multiobjective optimization, in: Proceedings of IEEE-WCCC, 1994, pp. 82–87.<br />

[24] T. Joachims, Making large-scale support vector machine learning practical, in:<br />

A. Smola, B. Scholkopf, C. Burges (Eds.), Advances in Kernel M<strong>et</strong>hods, MIT Press,<br />

Cambridge, MA, 1998.<br />

[25] S. Keerthi, V. Sindhwani, O. Chapelle, An efficient m<strong>et</strong>hod for gradient-based<br />

adaptation of hyperparam<strong>et</strong>ers in SVM models, in: B. Schölkopf, J. Platt, T.<br />

Hoffman (Eds.), Advances in Neural Information Processing Systems, vol. 19,<br />

MIT Press, Cambridge, MA, 2007, pp. 673–680.<br />

[26] V. Khare, X. Yao, K. Deb, Performance scaling of multiobjective<br />

evolutionary algorithm, Technical Report—SCS, University of Birmingham, 2002,<br />

pp. 1–70.<br />

C. Chatelain <strong>et</strong> al. / Pattern Recognition 43 (2010) 815 -- 823 823<br />

[27] G. Lebrun, O. Lezoray, C. Charrier, H. Cardot, An EA multi-model selection for<br />

SVM multiclass schemes, in: Proceedings of IWANN, 2007, pp. 257–264.<br />

[28] E. Osuna, R. Freund, F. Girosi, Support vector machines: training and<br />

applications, Technical Report, 1997.<br />

[29] F. Provost, T. Fawc<strong>et</strong>t, Robust classification for imprecise environments, Machine<br />

Learning 42 (3) (2001) 203–231.<br />

[30] A. Rakotomamonjy, Optimizing AUC with support vector machine, in:<br />

Proceedings of ECAI Workshop on ROC Curve and AI, 2004, pp. 469–478.<br />

[31] J.D. Schaffer, J.J. Grefenst<strong>et</strong>te, <strong>Multi</strong>objective learning via gen<strong>et</strong>ic algorithms,<br />

in: Proceedings of IJCAI 1985, 1985, pp. 593–595.<br />

[32] N. Srinivas, K. Deb, <strong>Multi</strong>objective optimization using nondominated sorting in<br />

gen<strong>et</strong>ic algorithms, Evolutionary Computation 2 (3) (1994) 221–248.<br />

[33] G. Wahba, X. Lin, F. Gao, D. Xiang, R. Klein, B. Klein, The bias-variance tradeoff<br />

and the randomized GACV, in: Proceedings of NIPS, 1999, pp. 620–626.<br />

[34] S. Wu, A scored AUC m<strong>et</strong>ric for classifier evaluation and selection, in:<br />

Proceedings of ROCML, 2005.<br />

[35] E. Zitzler, K. Deb, L. Thiele, Comparison of multiobjective evolutionary<br />

algorithms: empirical results, IEEE Transactions on Evolutionary Computation<br />

2 (8) (1999) 173–195.<br />

[36] E. Zitzler, M. Laumanns, L. Thiele, SPEA2: improving the strength Par<strong>et</strong>o<br />

evolutionary algorithm, Technical Report, Computer Engineering and N<strong>et</strong>works<br />

Laboratory (TIK), ETH Zurich, 2001.<br />

[37] E. Zitzler, L. Thiele, <strong>Multi</strong>objective evolutionary algorithms: a comparison case<br />

study and the strength Par<strong>et</strong>o approach, IEEE Transactions on Evolutionary<br />

Computation 3 (4) (1999) 257–271.<br />

About the Author—CLÉMENT CHATELAIN is an Assistant Professor in the Department of Information Systems Engineering at the INSA of Rouen, France. His research interests<br />

include document analysis, handwriting recognition and machine learning. His teaching interests include signal processing, automatic and pattern recognition. Dr. Chatelain<br />

received his PhD “Numerical sequences extraction from weakly constrained handwritten documents” from the University of Rouen in 2006.<br />

About the Author—SÉBASTIEN ADAM was born in 1975 in Dieppe, France. He received a PhD in graphical document analysis from the University of Rouen in 2001. This<br />

PhD has been led for France Telecom, the historical French telecommunication operator and tackles the problem of multi-oriented and multi-scaled pattern recognition.<br />

Then he joined the LITIS labs in Rouen, France. His domains of interest are at the merging of document analysis and multi-objective optimization.<br />

About the Author—YVES LECOURTIER was born in Marseille in 1950. After a thesis in signal processing in 1978, and a second thesis in Physics (automatic control) in 1985<br />

from the University of Paris-Sud, Orsay, France, he joined the University of Rouen as a Professor in 1987. His research domain is in pattern recognition and optimization,<br />

especially for document analysis and text recognition. Pr. Lecourtier is a member of AFRIF, ASTI, IAPR. From 1994 to 2000, he was the chairman of the GRCE, a French<br />

soci<strong>et</strong>y which gathers most of the French researchers working in document analysis and text recognition fields.<br />

About the Author—LAURENT HEUTTE (30/05/1964) received his PhD degree in Computer Engineering from the University of Rouen, France, in 1994. From 1996 to 2004, he<br />

was a Senior Lecturer in Computer Engineering and Control System at the University of Rouen. Since 2004, he has been a Professor in the same university. Professor Heutte's<br />

present research interests are multiple classifier systems, off-line cursive handwriting analysis and recognition, handwritten document layout analysis and information<br />

extraction from handwritten documents. Since 2003, he is an Associate Editor of Pattern Recognition journal and the representative member of the French association for<br />

pattern recognition (AFRIF) in the Governing Board of the IAPR. He is currently the Head of the “Document and Learning” group in LITIS lab, University of Rouen.<br />

About the Author—THIERRY PAQUET received the PhD degree from the University de Rouen in 1992 in the field of Pattern Recognition. From 1992 to 2002 he has been<br />

appointed as a Senior Lecturer at the University of Rouen where he taught Signal and Image Processing. From 1992 to 1996 he was involved in an industrial collaboration<br />

with Matra MCS and the French Postal Research Center (SRTP) for the automatization of mail sorting and bank checks reading. Thierry PAQUET was appointed as a full<br />

professor in 2002 at the University of Rouen. His current research area concern statistical Pattern Recognition and Image Processing for Document Image Processing including<br />

Handwriting Analysis and Recognition. Thierry Paqu<strong>et</strong> is Vice Director of the LITIS laboratory at the University of Rouen since 2007. He is also President of the French<br />

association Research Group on Document and Written Communication.


tel-00671168, version 1 - 8 Oct 2012<br />

Annexe E<br />

Réference CV : 1<br />

R. Raveaux, S. Adam, P. Héroux, and É. Trupin. Learning graph prototypes<br />

for shape recognition. Computer Vision and Image Understanding (CVIU),<br />

115(7) :905-918, 2011.<br />

lvii


tel-00671168, version 1 - 8 Oct 2012<br />

Learning graph prototypes for shape recognition<br />

Romain Raveaux a , Sébastien Adam b,⇑ , Pierre Héroux b , Éric Trupin b<br />

a Université de la Rochelle – L3I EA 2128, BP 12, 17042 La Rochelle cedex 01, France<br />

b Université de Rouen – LITIS EA 4108, BP 12, 76801 Saint-Etienne du Rouvray, France<br />

article info<br />

Article history:<br />

Received 26 November 2009<br />

Accepted 1 December 2010<br />

Available online 12 March 2011<br />

Keywords:<br />

Graph classification<br />

Graph prototypes<br />

Median graphs<br />

Discriminative graphs<br />

Gen<strong>et</strong>ic algorithm<br />

Symbol recognition<br />

1. Introduction<br />

abstract<br />

Labeled graphs are powerful data structures for the representation<br />

of complex entities. In a graph-based representation, vertices<br />

and their labels describe objects (or part of objects) while labeled<br />

edges represent interrelationships b<strong>et</strong>ween the objects. Due to<br />

the inherent genericity of graph-based representations, and thanks<br />

to the improvement of computer capacities, structural representations<br />

have become more and more popular in many application domains<br />

such as computer vision, image understanding, biology,<br />

chemistry, text processing or pattern recognition. As a consequence<br />

of the emergence of graph-based representations, new<br />

computing issues such as graph mining [1,2], graph clustering<br />

[3,4] or supervised graph classification [5–7] provoked a growing<br />

interest.<br />

This paper deals with the supervised graph classification problem.<br />

In the literature, this problem is generally tackled using two<br />

⇑ Corresponding author. Fax: +33 2 32 95 52 10.<br />

E-mail addresses: Romain.Raveaux@univ-lr.fr (R. Raveaux), Sebastien.Adam@<br />

univ-rouen.fr (S. Adam), Pierre.Heroux@univ-rouen.fr (P. Héroux), Eric.Trupin@<br />

univ-rouen.fr (É. Trupin).<br />

1077-3142/$ - see front matter Ó 2011 Elsevier Inc. All rights reserved.<br />

doi:10.1016/j.cviu.2010.12.015<br />

Computer Vision and Image Understanding 115 (2011) 905–918<br />

Contents lists available at ScienceDirect<br />

Computer Vision and Image Understanding<br />

journal homepage: www.elsevier.com/locate/cviu<br />

This paper presents some new approaches for computing graph prototypes in the context of the design of<br />

a structural nearest prototype classifier. Four kinds of prototypes are investigated and compared: s<strong>et</strong> median<br />

graphs, generalized median graphs, s<strong>et</strong> discriminative graphs and generalized discriminative graphs. They<br />

differ according to (i) the graph space where they are searched for and (ii) the objective function which is<br />

used for their computation. The first criterion allows to distinguish s<strong>et</strong> prototypes which are selected in<br />

the initial graph training s<strong>et</strong> from generalized prototypes which are generated in an infinite s<strong>et</strong> of graphs.<br />

The second criterion allows to distinguish median graphs which minimize the sum of distances to all input<br />

graphs of a given class from discriminative graphs, which are computed using classification performance<br />

as criterion, taking into account the inter-class distribution. For each kind of prototype, the proposed<br />

approach allows to identify one or many prototypes per class, in order to manage the trade-off b<strong>et</strong>ween<br />

the classification accuracy and the classification time.<br />

Each graph prototype generation/selection is performed through a gen<strong>et</strong>ic algorithm which can be specialized<br />

to each case by s<strong>et</strong>ting the appropriate encoding scheme, fitness and gen<strong>et</strong>ic operators.<br />

An experimental study performed on several graph databases shows the superiority of the generation<br />

approach over the selection one. On the other hand, discriminative prototypes outperform the generative<br />

ones. Moreover, we show that the classification rates are improved while the number of prototypes<br />

increases. Finally, we show that discriminative prototypes give b<strong>et</strong>ter results than the median graph<br />

based classifier.<br />

Ó 2011 Elsevier Inc. All rights reserved.<br />

kinds of approaches. The first one consists in using kernel based<br />

algorithms such as Support Vector Machines (SVM) or Kernel Principal<br />

Component Analysis (KPCA) [8–13]. Using such m<strong>et</strong>hods, the<br />

graph is embedded in a feature space composed of label sequences<br />

which are obtained through a graph traversal. The kernel values<br />

are then computed by measuring the similarity b<strong>et</strong>ween label sequences.<br />

Such approaches have proven to achieve high performance<br />

but they are computationally expensive when the datas<strong>et</strong><br />

is large. The second family consists in using a k-Nearest Neighbors<br />

(k-NN) rule in a dissimilarity space, using a given dissimilarity<br />

measure. This kind of approach is the most frequently chosen for<br />

its simplicity to implement and its good asymptotic behavior.<br />

However, it suffers from three major drawbacks: its combinatorial<br />

complexity, its large storage requirements and its sensitivity to<br />

noisy examples. A classical solution to overcome these problems<br />

consists in reducing the learning datas<strong>et</strong> through an object prototype<br />

learning procedure and to use a Nearest Prototype Classifier<br />

(NPC). Such a prototype-based strategy is not inherent to the graph<br />

classification problem. It has already been tackled for comparing<br />

shapes in computer vision application, e.g. in the approach described<br />

in [14] that learns some contour prototypes. It has also<br />

been studied for a long time in the context of statistical pattern


tel-00671168, version 1 - 8 Oct 2012<br />

906 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />

recognition, using either prototype selection m<strong>et</strong>hods (see e.g<br />

[15,16]) or prototype generation m<strong>et</strong>hods (see e.g. [17,18]).<br />

In the field of structural pattern recognition, there also has been<br />

some recent efforts dedicated to the learning of prototypes. Among<br />

them, one can cite the pioneering approach proposed in [19] which<br />

builds prototypes by d<strong>et</strong>ecting subgraphs that occur in most<br />

graphs. Another approach concerning trees is proposed in [20]. It<br />

consists in learning some kinds of tree prototypes through the definition<br />

of a superstructure called tree-union that captures the<br />

information about the tree training s<strong>et</strong>. In the domain of graphs,<br />

the approaches proposed in [21,22] aim at creating super-graph<br />

representations from the available samples. One can also cite the<br />

interesting work of Marini proposed in [23] that generates some<br />

creative prototype by applying to a seed model a well selected s<strong>et</strong><br />

of editing operation. A last approach which is probably the most<br />

frequently used concerns median graphs [24–28]. In a classification<br />

context, median graphs are computed independently in each<br />

class through a minimization process of the sum of distances to<br />

all input graphs. Two kinds of median graphs are proposed in the<br />

literature: the s<strong>et</strong> median graphs (smg) and the generalized median<br />

graphs (gmg). The only difference b<strong>et</strong>ween them lies in the space<br />

where the medians are searched for. In the first case, the search<br />

space is limited to the initial s<strong>et</strong> of graphs (the problem is thus a<br />

graph prototype selection problem) whereas in the second case,<br />

medians are searched among an infinite s<strong>et</strong> of graphs built using<br />

the labels of the initial s<strong>et</strong> (the problem is thus a graph prototype<br />

generation problem). Generalized median graphs approaches have<br />

proven to keep the most important information in the classes and<br />

reject noisy examples [25]. However, a drawback of median graphs<br />

when they are used as learning samples of a classification process,<br />

as for the all the approaches mentionned before, is that they do not<br />

take into account the inter-classes data distribution. In other<br />

words, median graphs are rather generative prototypes than discriminative<br />

ones.<br />

In this paper, we overcome this drawback by using a discriminative<br />

approach while searching an optimal s<strong>et</strong> of prototypes.<br />

Thus, it is the classification performance obtained on a validation<br />

datas<strong>et</strong> which is used as criterion in the prototype optimization<br />

process. Hence, we propose to use a graph based gen<strong>et</strong>ic algorithm<br />

in order to learn a s<strong>et</strong> of graph prototypes, called discriminative<br />

graphs (dg), which minimize the error rate of a classification system.<br />

Two configurations are successively considered for extracting<br />

the discriminative graphs. In the first one, a single prototype is<br />

generated for each class of the classification problem, as in the case<br />

of median graphs. Then, this concept is extended to the extraction<br />

of multiple prototypes for each class in order to obtain a b<strong>et</strong>ter<br />

description of the data. This extension is also considered in the case<br />

of median graphs in order to provide a suitable comparison. In both<br />

configurations, we show that discriminative graphs, and particularly<br />

multiple discriminative graphs, enable to obtain very good<br />

classification results while considerably reducing the number of<br />

dissimilarity computations in the decision stage.<br />

Four datas<strong>et</strong>s are used in the experimental protocol. The first is<br />

a huge synth<strong>et</strong>ic datas<strong>et</strong>. The others are real-world datas<strong>et</strong>s consisting<br />

of graphs built from a graphical symbol recognition benchmark<br />

[29] for the second and the third and from character<br />

recognition for the fourth. The classification performance obtained<br />

using discriminative graphs and median graphs are compared on<br />

these four datas<strong>et</strong>s.<br />

The paper is organized as follows. In section 2, the most important<br />

concepts and notations concerning median graphs and discriminative<br />

graphs are defined. In section 3, the proposed<br />

approach for graph prototypes extraction is d<strong>et</strong>ailed. Section 4 describes<br />

the experimental evaluation of the algorithm and discusses<br />

results. Finally, Section 5 offers some conclusions and suggests<br />

directions for future works.<br />

2. Definitions and notations<br />

In this work, the problem which is considered concerns the<br />

supervised classification of directed labeled graphs. Such graphs<br />

can be defined as follows:<br />

Definition 1. A directed labeled graph G is a 4-tuple G =(V,E,l,n)<br />

where:<br />

V is the s<strong>et</strong> of vertices,<br />

E # V V is the s<strong>et</strong> of edges,<br />

l:V ? LV is a function assigning a label to a vertex,<br />

n:E ? L E is a function assigning a label to an edge.<br />

A graph classification algorithm aims at assigning a class to an unknown<br />

graph using a mapping function f. This function is usually induced<br />

from a learning stage which can be defined as follows:<br />

Definition 2. L<strong>et</strong> v be the s<strong>et</strong> of the labeled graphs. Given a graph<br />

learning datas<strong>et</strong> L ¼fhgi; ciig M<br />

i¼1 , where gi 2 v is a labeled graph and<br />

ci 2 C is the class of the graph among the N classes. The learning of a<br />

graph classifier consists in inducing from L a mapping function f(g):<br />

v ? C which assigns a class to an unknown graph.<br />

In this paper, graph classification is tackled with a Nearest<br />

Prototype Classifier (NPC), i.e. with a NN rule applied on a reduced<br />

s<strong>et</strong> of representative graph prototypes. Hence, the learning stage of<br />

the classifier consists in generating these prototypes. The objectives<br />

are (i) to overcome the well-known disadvantages of a k-NN<br />

procedure, i.e. the large storage requirements, the large computational<br />

effort and the sensitivity to noisy examples and (ii) to keep<br />

classification performance as high as possible.<br />

As mentioned before, median graphs are frequently used as<br />

representative in a graph classification context. Two kinds of<br />

median graphs may be distinguished: the s<strong>et</strong> median graph smg<br />

and the generalized median graph gmg. Both are based on the<br />

minimization of the sum of distances (SOD) to all input graphs.<br />

Formally, they are defined as follows:<br />

Definition 3. L<strong>et</strong> d(.,.) be a distance or a dissimilarity function that<br />

measures the dissimilarity b<strong>et</strong>ween two graphs. L<strong>et</strong> S ={g1,<br />

g 2,...,g n} be a s<strong>et</strong> of graphs. The s<strong>et</strong> median graph (smg) ofS is<br />

defined by:<br />

smg ¼ arg min<br />

g2S<br />

X n<br />

i¼1<br />

dðg; g iÞ ð1Þ<br />

According to this definition, smg necessarily belongs to the s<strong>et</strong> S.<br />

This definition has been extended in [25] to the generalized median<br />

graph (gmg) which does not necessarily belong to S:<br />

Definition 4. L<strong>et</strong> d(.,.) be a distance or a dissimilarity function that<br />

measures the dissimilarity b<strong>et</strong>ween two graphs. L<strong>et</strong> S ={g1,<br />

g 2,...,g n} be a s<strong>et</strong> of graphs. L<strong>et</strong> U be the infinite s<strong>et</strong> of graphs that<br />

can be built using the labels of S. The generalized median graph<br />

(gmg) of the subs<strong>et</strong> S is defined by:<br />

gmg ¼ arg min<br />

g2U<br />

X n<br />

i¼1<br />

dðg; g iÞ ð2Þ<br />

Median graphs, generalized or not, have already been used as class<br />

representatives in a classification process, e.g. in [25–27]. In this<br />

case, if N is the number of classes in the learning datas<strong>et</strong> L, N smg<br />

(resp. gmg) are computed independently (one for each class) and<br />

the resulting graph s<strong>et</strong> constitutes the learning datas<strong>et</strong> SMG ¼<br />

fsmgig N<br />

i¼1 (resp. GMG ¼fgmgig N<br />

i¼1 ) of the nearest prototype classi-


tel-00671168, version 1 - 8 Oct 2012<br />

fier. It has been shown in [25] that generalized median graphs capture<br />

the essential information of a given class. However, such prototypes<br />

do not take into account the inter-class distribution of<br />

learning samples.<br />

In order to overcome this problem, we propose to use discriminative<br />

graphs (dg) as prototypes for graph classification. The main<br />

difference b<strong>et</strong>ween median graphs and discriminative graphs lies<br />

in the criterion which is used to generate the prototypes. In the<br />

case of dg, rather than optimizing a sum of intra-class distances,<br />

prototypes are generated in order to minimize the classification<br />

error rate obtained on a validation datas<strong>et</strong>. Obviously, as in the<br />

case of median graphs, these prototypes can be computed in the<br />

initial s<strong>et</strong> of graphs, leading to s<strong>et</strong> discriminative graphs (sdg), or in<br />

the whole s<strong>et</strong> of graphs, leading to generalized discriminative<br />

graphs (gdg). As a consequence, the dg for each class are related to<br />

each other and can not be expressed independently. The s<strong>et</strong> SDG of<br />

sdg i can be defined as follows:<br />

Definition 5. L<strong>et</strong> N be the number of classes in the learning datas<strong>et</strong><br />

L. L<strong>et</strong> T be a validation datas<strong>et</strong> and l<strong>et</strong> DðT; fgig N<br />

i¼1Þ be a function<br />

computing the error rate obtained by a 1-NN classifier on T using<br />

the graph prototypes fgig N<br />

i¼1 2 L as learning samples. Then the s<strong>et</strong><br />

SDG composed of the sdgi of each class is given by:<br />

SDG ¼fsdg1; sdg2; ...; sdgNg¼arg min<br />

fgig N<br />

i¼1 L<br />

D T; fgig N<br />

i¼1<br />

In the same way, the s<strong>et</strong> GDG of gdg is defined as follows:<br />

Definition 6. L<strong>et</strong> N be the number of classes in the learning datas<strong>et</strong><br />

L. L<strong>et</strong> U be the infinite s<strong>et</strong> of graphs that can be built using labels<br />

from L. L<strong>et</strong> T be a validation datas<strong>et</strong> and l<strong>et</strong> DðT; fgig N<br />

i¼1Þ be the error<br />

rate obtained by a 1-NN classifier on T using the graph prototypes<br />

fgig N<br />

i¼1 2 U as learning samples. Then the s<strong>et</strong> GDG composed of the<br />

gdg of each class is given by:<br />

GDG ¼fgdg1; gdg2; ...; gdgNg¼arg min<br />

fgig N<br />

i¼1 U<br />

D T; fgig N<br />

i¼1<br />

The concepts presented above involve the generation of a single<br />

prototype for each class. In some particular applications, it may<br />

be interesting to generate m prototypes for each class in order to<br />

obtain a b<strong>et</strong>ter description of the data. In the following, we give<br />

the definition of such prototypes called m-gdg. 1<br />

Definition 7. L<strong>et</strong> N be the number of classes in the learning datas<strong>et</strong><br />

L. L<strong>et</strong> U be the infinite s<strong>et</strong> of graphs that can be built using labels<br />

from L. L<strong>et</strong> m be the number of prototypes to be computed in each<br />

class. L<strong>et</strong> T be a validation datas<strong>et</strong> and l<strong>et</strong> DðT; fgikg N;m<br />

i¼1;k¼1Þ be the<br />

error rate obtained by a 1-NN classifier 2 on T using the graph prototypes<br />

fgikg N;m<br />

i¼1;k¼1 2 U as learning samples. Then the s<strong>et</strong> mGDG composed<br />

of the m-gdg of each class is given by:<br />

mGDG ¼fgdg 11; ...; gdg 1m; ...; gdg N1; ...; gdg Nmg<br />

¼ arg min<br />

fgikg N;m<br />

i¼1;k¼1 U<br />

D T; fgikg N;m<br />

i¼1;k¼1<br />

In order to provide some fair comparisons in the experimental protocol,<br />

we also extend the median graph concept to multiple prototypes.<br />

In this case, the m-gmg (as well the m-smg) are defined<br />

independently for each class:<br />

1<br />

The definition of m-sdg is easily obtained through the change of the search space<br />

from U to S.<br />

2<br />

In this case, a k-NN procedure with k > 1 will be considered in future works, for<br />

example to allow the system to reject some patterns.<br />

R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 907<br />

ð3Þ<br />

ð4Þ<br />

ð5Þ<br />

Definition 8. L<strong>et</strong> d(.,.) be a distance or a dissimilarity function that<br />

measures the dissimilarity b<strong>et</strong>ween two graphs. L<strong>et</strong> n be the number<br />

of samples in the considered class. L<strong>et</strong> m be the number of prototypes,<br />

gp k be the prototypes and g i be the graphs of the<br />

considered class. Then, the s<strong>et</strong> mGMG composed of the m-gmg for<br />

the considered class is given by:<br />

mGMG ¼fgmg1; ...; gmgmg¼arg min<br />

fgpkg m<br />

k¼1 U<br />

Xn i¼1<br />

min dðgpk; giÞ ð6Þ<br />

k2f1;mg<br />

The algorithms involved in the computation of the different kinds of<br />

representative prototypes are presented in the following section.<br />

3. Gen<strong>et</strong>ic algorithms for graph prototypes generation<br />

In Section 2, the graph prototype search problem has been defined<br />

as an optimization process. Two kinds of prototypes have<br />

been distinguished: (i) s<strong>et</strong> prototypes and (ii) generalized<br />

prototypes.<br />

(i) The s<strong>et</strong> prototype search problem consists in selecting the m<br />

prototypes per class which optimize an objective function. A<br />

combinatorial exploration of the solution space would result<br />

in evaluating the criterion for each of the potential solutions.<br />

If we consider that each of the N classes contains ni elements,<br />

there are<br />

m<br />

n1<br />

m<br />

n2<br />

m<br />

nN<br />

combinations for selecting m prototypes to represent each<br />

class. For a quite simple problem with two classes and 100<br />

graphs in each class, the search for five prototypes per class<br />

would result in more than 75 10 6 evaluations of the criterion.<br />

Hence, a compl<strong>et</strong>e exploration of the solution space rapidly<br />

becomes intractable. Many heuristic m<strong>et</strong>hods such as<br />

multistart, gen<strong>et</strong>ic algorithms or tabu search [18] have been<br />

used to tackle the problem of s<strong>et</strong> prototype search when<br />

dealing with vectorial data. Among them, gen<strong>et</strong>ic based<br />

m<strong>et</strong>hods have shown good performance [30,18].<br />

(ii) The generalized prototype search problem can also be stated<br />

as an optimization problem. However, it cannot be solved<br />

with a combinatorial approach since the s<strong>et</strong> U in which the<br />

solutions are searched for is unbounded (only a subs<strong>et</strong> S of<br />

U is known). In [24], the authors use gen<strong>et</strong>ic algorithms to<br />

approximate the generalized median graph of a s<strong>et</strong> of graphs.<br />

In the context of computing a single generative prototype,<br />

they report that the solution reached by a gen<strong>et</strong>ic approach<br />

is often the optimal solution. In this paper, we also propose<br />

to use gen<strong>et</strong>ic algorithms but to solve both the s<strong>et</strong>/generalized<br />

median/discriminative prototype extraction problem. The<br />

next subsections precisely describe our approach.<br />

3.1. Gen<strong>et</strong>ic algorithm<br />

Gen<strong>et</strong>ic Algorithms (GA) are evolutionary optimization techniques<br />

with a wide scope of applications [31]. They have been used<br />

to solve many combinatorial problems [32]. An individual of a GA<br />

corresponds to a possible solution of an optimization problem. The<br />

relationship b<strong>et</strong>ween this individual and the corresponding solution<br />

is given by an appropriate encoding. The quality of each individual<br />

is evaluated thanks to a score function which enables to<br />

quantify the quality of the corresponding solution. In order to<br />

converge to the optimal solution, individuals from a size-limited<br />

population are randomly selected at each generation according to<br />

a fitness value which is computed using the scores of all the indi-<br />

ð7Þ


tel-00671168, version 1 - 8 Oct 2012<br />

908 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />

viduals of the population. New individuals are then generated from<br />

those selected individuals thanks to gen<strong>et</strong>ic operators such as<br />

crossover or mutation. From a general point of view, the crossover<br />

operator aims at promoting the exchange of good gen<strong>et</strong>ic material<br />

b<strong>et</strong>ween individuals of the previous generation. The mutation<br />

operator is used to promote gen<strong>et</strong>ic diversity and to explore the<br />

solution space. Given these general principles, solving a specific<br />

optimization problem using GA requires the definition of:<br />

an appropriate encoding of the solutions;<br />

a function which evaluates the score of the individual;<br />

a selection strategy;<br />

some dedicated gen<strong>et</strong>ic operators (mutation and crossover<br />

operators).<br />

The following paragraphs tackle each of these points for both<br />

graph prototype selection and generation, and describe the proposed<br />

gen<strong>et</strong>ic algorithm.<br />

3.2. Individual encoding<br />

The encoding aims at giving a one-to-one relationship b<strong>et</strong>ween<br />

the individuals manipulated by the GA and the solutions of the<br />

optimization problem. As defined before, the prototype selection/<br />

generation problem aims at providing m prototypes for each of<br />

the N classes. So, we adopt a general scheme where an individual<br />

contains m N genes, and each gene encode a graph prototype.<br />

An example is given in Fig. 1. In this example, the individual encodes<br />

two prototypes for each class in a 3 classes problem and<br />

gi,j is the ith graph prototype describing class j. Obviously, this<br />

encoding is specialized for each problem.<br />

3.2.1. S<strong>et</strong> prototype problem encoding<br />

As stated in Section 2, the possible solutions of a s<strong>et</strong> prototype<br />

problem are the combinations of m elements selected from each<br />

class in the initial graph s<strong>et</strong>. For this kind of problem, an individual<br />

can be defined by a list of N m integers which is structured as a<br />

sequence of Nm-s<strong>et</strong>s. Each m-s<strong>et</strong> describes one of the N classes and<br />

contains the m indices of the elements from the initial s<strong>et</strong> which<br />

are selected as prototype. The exemple in Fig. 2 presents the<br />

encoding of an individual for a 3-class problem where 2 prototypes<br />

are selected to describe each class. This individual indicates that<br />

class 1 is described with elements 1 and 3 of a learning subs<strong>et</strong><br />

composed of the graphs of the first class, that class 2 is described<br />

with elements 5 and 2 of the class, and that class 3 is described<br />

with graphs the indices of which are 7 and 3 in the third class<br />

subs<strong>et</strong>.<br />

3.2.2. Generalized prototype problem encoding<br />

The index model used in the s<strong>et</strong> prototype problem can not be<br />

used for the solution encoding of the generalized prototype problem<br />

since the definition of generalized (median and discriminative)<br />

Fig. 1. General encoding scheme for the m prototypes problem. Each individual<br />

contains m N genes. Each one corresponds to a graph prototype.<br />

Fig. 2. S<strong>et</strong> prototype encoding scheme for the m prototypes problem. Each<br />

individual contains m N genes. Each gene is the index of the graph in the<br />

considered class of the learning datas<strong>et</strong>.<br />

graphs implies that prototypes may be outside of the initial s<strong>et</strong> of<br />

graphs. As a consequence, each gene of an individual can not be a<br />

simple index and has to encode all the information contained in the<br />

corresponding graph. We have chosen to represent each graph<br />

with its adjacency matrix. Hence, an individual can be defined by<br />

a list of N m adjacency matrices, structured as a sequence of N<br />

m-s<strong>et</strong>s. Fig. 3 illustrates such an encoding where only one of the<br />

six genes is represented.<br />

3.3. Fitness function<br />

A fitness function aims at evaluating how the solution encoded<br />

by an individual is good for the optimization problem with respect<br />

to the entire population. The computation of a fitness value relies<br />

on two steps. First, the score of the individual has to be evaluated.<br />

It corresponds to the value of the objective function to be optimized.<br />

Then, this value is normalized with respect to the scores<br />

of all the individuals of the population. As mentioned in Section<br />

2, objectives are different for the median prototype problem and<br />

for the discriminative prototype problem. As a consequence, score<br />

functions differ for each problem.<br />

3.3.1. Score function for median prototypes<br />

As defined in Section 2, the score function in the median prototype<br />

problem is given by:<br />

!<br />

Sa ¼ XN<br />

i¼1<br />

X n i<br />

j¼1<br />

min dLij; smgik k2½1;mŠ<br />

where N is the number of classes, ni is the number of elements of<br />

class i in the learning datas<strong>et</strong>, m is the number of prototypes per<br />

class, Lij is the jth sample of class i, and smgik is the kth prototype<br />

of class i in the individual a.<br />

3.3.2. Score function for discriminative prototypes<br />

The score value of an individual in the discriminative prototype<br />

problem is a function which is directly linked to the error rate of<br />

the Nearest Prototype Classifier evaluated on a validation datas<strong>et</strong><br />

T using the prototypes encoded in the individual. It is given by:<br />

Sa ¼ D T; fg ikg N;m<br />

i¼1;k¼1<br />

where T is the validation datas<strong>et</strong>, N is the number of classes, m is the<br />

number of prototypes per class, gik is the kth prototype of class i in<br />

the individual and DðT; fgikg N;m<br />

i¼1;k¼1Þ is the error rate obtained by a 1-<br />

NN classifier on T using the graph prototypes fgikg N;m<br />

i¼1;k¼1 as learning<br />

samples.<br />

Fig. 3. Generalized prototype encoding scheme for the m prototypes problem. Each<br />

individual contains m N genes. Each gene is an adjacency matrix describing the<br />

corresponding graph. Only g1,2 is represented here. In the adjacency matrix, the<br />

digits state for vertex identifiers. a, b, and c are vertices labels, they appear in the<br />

last column of the matrix. W, X and Y are edge labels, they appear in the adjacency<br />

matrix at the line (resp. column) corresponding to the source (resp. targ<strong>et</strong>) vertex.<br />

ð8Þ<br />

ð9Þ


tel-00671168, version 1 - 8 Oct 2012<br />

The computation of both the D value of Eq. (9) and the Sa value<br />

of Eq. (8) makes use of graph distance computation. The following<br />

paragraph discusses our choice for this distance definition.<br />

3.3.3. Distance computation<br />

Any kind of distance can be used in the proposed framework<br />

(graph edit distance [33,34] or its approximations [35], distance<br />

based on the maximum common subgraph [36], distance based<br />

on graph union [37], <strong>et</strong>c.). In the experiments proposed in section<br />

4, the graph comparison computation is performed using a dissimilarity<br />

measure proposed by Lopresti and Wilfong [38]. This measure<br />

is based on graph probing which has been proved to be a<br />

lower bound for the reference graph edit distance within a factor<br />

of 4.<br />

L<strong>et</strong> g be a directed attributed graph with edges labeled from a<br />

finite s<strong>et</strong> L E ={l 1,...,l a}. A given vertex of g can be represented with<br />

its edge structure as a 2a-tuple of non-negative integers {x1,...,xa,<br />

y 1,...,y a} such that the vertex has exactly x i incoming edges<br />

labeled li and yj outgoing edges labeled lj.<br />

In this context, two types of probes are defined in [38]:<br />

P1(g): a vector which gathers the counts of vertices sharing the<br />

same edge structure for all encountered edge structures;<br />

P2(g): a vector which gathers the number of vertices for each<br />

vertex label.<br />

Based on these probes and on the L 1-norm, the graph probing<br />

distance b<strong>et</strong>ween two graphs g1 and g2 is given by:<br />

gpdðg 1; g 2Þ¼L1ðP1ðg 1Þ; P1ðg 2ÞÞ þ L1ðP2ðg 1Þ; P2ðg 2ÞÞ ð10Þ<br />

The graph probing distance respects the non-negativity, symm<strong>et</strong>ry,<br />

and triangle inequality properties of a m<strong>et</strong>ric, but it does not respect<br />

the uniqueness property. In other words, gpd is a pseudo-m<strong>et</strong>ric and<br />

two non-isomorphic graphs can have the same probes.<br />

However, the main advantage of graph probing in this study is<br />

its low computational cost (linear function of the vertex number).<br />

Due to the intensive use of distance computations during the gen<strong>et</strong>ic<br />

algorithm, this property makes the graph probing distance<br />

a good candidate. Nevertheless, it is important to note that any<br />

kind of dissimilarity measure may be used in the proposed<br />

framework.<br />

3.3.4. Fitness computation<br />

Once the score value of an individual has been computed, a second<br />

step of individual evaluation consists in computing its fitness,<br />

through a normalization of the score value with respect to all the<br />

individuals of the population. We use the following classical fitness<br />

assignment procedure in this scope:<br />

Fa ¼ Sa<br />

Pq<br />

i¼1Si 3.4. Selection strategy<br />

ð11Þ<br />

The selection operator aims at selecting a proportion of the<br />

existing population to breed a new generation. Individual solutions<br />

are selected through a fitness-based process, where fitter solutions<br />

(as measured by the fitness function defined in Eq. (11)) are typically<br />

more likely to be selected. We use the well-known roul<strong>et</strong>te<br />

wheel strategy [31] in which the probability of an individual to<br />

be selected is proportional to its fitness value. In the whole reproduction<br />

process, an elitism mechanism is coupled with this selection<br />

strategy such that the l best individuals from the previous<br />

generation are ensured to be in the next generation.<br />

R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 909<br />

3.5. Crossover<br />

As mentioned before, the crossover operator is designed to generate<br />

offsprings from selected individuals. The exchange of gen<strong>et</strong>ic<br />

material aims at generating offsprings sharing good genes from<br />

their parents.<br />

In our case, the crossover is performed by a random exchange of<br />

prototypes b<strong>et</strong>ween the parent for each class. Fig. 4 illustrates the<br />

crossover operation. The operation is the same for all the kinds of<br />

prototypes. In the case of s<strong>et</strong> prototypes, where the graphs prototypes<br />

are designated by indices, only indices are permuted<br />

whereas the compl<strong>et</strong>e graph descriptions are exchanged when<br />

dealing with the generalized prototype problem.<br />

3.6. Mutation<br />

Mutations are used to promote gen<strong>et</strong>ic diversity and allow the<br />

exploration of regions of the solution space which can not be<br />

reached only with crossover. As the solution space is different for<br />

s<strong>et</strong> prototype and generalized prototype problems, the mutation<br />

operator has to be specialized for each case.<br />

3.6.1. Mutation for s<strong>et</strong> prototype problem<br />

In the s<strong>et</strong> prototype problem, the solution space is defined by<br />

the combinations allowing the selection of m prototypes for each<br />

class. An elementary modification of an individual would consist<br />

in replacing a prototype by an element from the same class that<br />

is not already selected in the individual. Hence, considering the index<br />

model used to represent graphs, a simple way to perform a<br />

mutation is to arbitrarily substitute an index values by a random<br />

integer. Fig. 5 illustrates the mutation process. In this example,<br />

we can observe that element 3 has been replaced by element 4<br />

in the mutated version of the description of class 1. In the same<br />

way, instance 5 has been replaced by instance 6 in the description<br />

of class 2. Finally, the mutated version describes class 3 using the<br />

element 5 instead of element 3.<br />

3.6.2. Mutation for the generalized prototype problem<br />

In the generalized prototype problem, the solution space is not<br />

restricted to the combinations of elements selected in L. Graphs<br />

that are not element of L can be generated as prototypes. As a consequence,<br />

the mutation operation can not be restricted to an index<br />

modification. It must be able to produce new graphs. To do this, a<br />

Fig. 4. Illustration of the crossover operator: two selected parents (a) generate two<br />

offsprings (b). Genes 1, 3 and 4 have been swapped during the operation.<br />

Fig. 5. Illustration of the mutation operator for s<strong>et</strong> prototypes: genes 2, 3 and 6<br />

have mutated.


tel-00671168, version 1 - 8 Oct 2012<br />

910 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />

random edit operation is applied to the graph prototypes that are<br />

included in the individual. For each graph of a given individual, a<br />

first random choice according to a mutation probability enables<br />

to decide if a mutation is applied or not. Then, one of the six following<br />

possible operations illustrated on Fig. 6 is chosen randomly:<br />

Vertex del<strong>et</strong>ion: del<strong>et</strong>e a randomly chosen vertex and all its connected<br />

edges. This operation corresponds to the del<strong>et</strong>ion of a<br />

row and a column in the adjacency matrix (see Fig. 6b).<br />

Edge del<strong>et</strong>ion: del<strong>et</strong>e a randomly chosen edge. This operation<br />

corresponds to the del<strong>et</strong>ion of an edge value in the adjacency<br />

matrix (see Fig. 6c).<br />

Vertex insertion: insert a new vertex in the graph with a randomly<br />

chosen label among the vertex label dictionary. This<br />

operation corresponds to the addition of a new row and a<br />

new column in the adjacency matrix. The label column is also<br />

updated using the randomly chosen label (see Fig. 6d).<br />

Edge insertion: insert a new edge b<strong>et</strong>ween two random vertices<br />

with a randomly chosen label among the edge label dictionary.<br />

This operation corresponds to the addition of a randomly<br />

labeled edge in the adjacency matrix (see Fig. 6e).<br />

Vertex substitution: substitute the label of a randomly chosen<br />

vertex using the vertex label dictionary. This operation corresponds<br />

to the modification of the label column for the randomly<br />

chosen vertex(see Fig. 6f).<br />

Edge substitution: substitute the label of a randomly chosen<br />

edge using the edge label dictionary. This operation corre-<br />

sponds to the modification of the label for the randomly chosen<br />

edge (see Fig. 6g).<br />

3.7. Proposed algorithm<br />

Algorithm 1 gives the generic structure of the GA used for the<br />

graph prototype generation/selection problems. This algorithm<br />

complies with the principles defined in Section 3.1 and is specialized<br />

by s<strong>et</strong>ting the adapted encoding, fitness function and gen<strong>et</strong>ic<br />

operators presented previously.<br />

First, an initialization procedure aims at building the initial population<br />

where each individual corresponds to a possible solution of<br />

the optimization problem. In the case of s<strong>et</strong> prototypes, distinct<br />

indices are randomly chosen for each individual in order to represent<br />

the N classes with N m graphs. For generalized prototypes,<br />

we have chosen to initialize the individuals with randomly chosen<br />

graphs from the learning datas<strong>et</strong>, since it has been shown in [24]<br />

that it is a b<strong>et</strong>ter solution than a compl<strong>et</strong>e random procedure.<br />

Then, the GA iterates over the generations, building new sizelimited<br />

populations from the previous ones. Each new generation<br />

is composed of:<br />

the l best individuals from the previous one. Such an elitist<br />

strategy ensures the convergence of the algorithm.<br />

mutated or crossed version of individuals that have been<br />

selected from the previous generation.<br />

Fig. 6. Illustration of the mutation operators on both generalized graphs and the corresponding adjacency matrices.


tel-00671168, version 1 - 8 Oct 2012<br />

Finally, the algorithm provides the best individual from the last<br />

generation as the best solution of the optimization procedure.<br />

Algorithm 1. Gen<strong>et</strong>ic algorithm<br />

Require: L: the training s<strong>et</strong><br />

Require: T: the validation s<strong>et</strong><br />

Require: m: number of prototypes per class<br />

Require: populationSize<br />

Require: generationNumber<br />

Require: mutationRate<br />

Require: l: elitism value<br />

Ensure: A s<strong>et</strong> of N m prototypes<br />

Pop[0][] popInit(L,T,m,populationSize) 1<br />

popEval(Pop[0],L,T)<br />

fitnessEval(Pop[0])<br />

for i = 1 to generationNumber do<br />

Pop[i][1:l] l best individuals in Pop[i 1]<br />

j l +1<br />

while j 6 populationSize do<br />

op choice b<strong>et</strong>ween mutation and crossover 2<br />

if op = mutation then<br />

ind select an individual in Pop[i 1] 3<br />

Pop[i][j] mutation(ind)<br />

j j +1<br />

else<br />

ind1 select an individual in Pop[i 1] 3<br />

ind 2 select an individual in Pop[i 1] 3<br />

(newInd1,newInd2) crossover(ind1,ind2)<br />

Pop[i][j] ind 1<br />

Pop[i][j +1] ind2<br />

j j +2<br />

end if<br />

popEval(Pop[i],L,T)<br />

fitnessEval(Pop[i])<br />

end while<br />

end for<br />

r<strong>et</strong>urn the best individual from the last generation<br />

1 T is not used for the initialization in the case of<br />

discriminative graphs<br />

2<br />

This choice is made according to mutationRate<br />

3<br />

Selection is done using a roul<strong>et</strong>te wheel according to<br />

fitness values<br />

4. Experimental results and analysis<br />

This section is devoted to the experimental evaluation of the<br />

proposed approach. First, both the datas<strong>et</strong>s and the experimental<br />

protocol are described before investigating and discussing the merits<br />

of the proposed approach.<br />

4.1. Datas<strong>et</strong> description<br />

The experiments described in this section have been carried out<br />

on four databases. The first one is composed of synth<strong>et</strong>ic data<br />

allowing (i) an evaluation in a general context on a huge datas<strong>et</strong><br />

and (ii) an evaluation with respect to the number of classes. The<br />

others s<strong>et</strong>s are domain specific, they are related to pattern recognition<br />

issues where graphs are meaningful. Each datas<strong>et</strong> has been<br />

split into three subs<strong>et</strong>s respectively called training subs<strong>et</strong>, validation<br />

subs<strong>et</strong> and test subs<strong>et</strong>. The content of each database is summarized<br />

in Table 1. For each datas<strong>et</strong>, this table gives: the number<br />

of classes (Classes), the total number of data (Samples), the sizes<br />

of learning/validation/test datas<strong>et</strong>s and the mean properties of<br />

the graphs.<br />

R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 911<br />

Table 1<br />

Properties of the four datas<strong>et</strong>s (A,B, C,D) used in the experiments: number of graphs,<br />

distribution of the graphs in the learning/validation/test subs<strong>et</strong>s and properties of the<br />

graphs in the datas<strong>et</strong>.<br />

A B C D<br />

jClassesj (N) 50 10 32 15<br />

jSamplesj 28,229 200 12,800 6750<br />

jTrainingj 10,596 88 7200 3796<br />

jValidationj 14,101 56 3200 1688<br />

jTestj 3532 56 2400 1266<br />

jverticesjmean 12.03 5.56 8.84 4.7<br />

jedgesjmean 9.86 11.71 10.15 3.6<br />

jdegreejmean 1.63 4.21 1.15 1.3<br />

4.1.1. Synth<strong>et</strong>ic datas<strong>et</strong>: Base A<br />

This datas<strong>et</strong> contains over 28,000 graphs, roughly identically<br />

distributed in 50 classes (about 560 graphs per class). The graphs<br />

are directed with edges and vertices labeled from two distinct<br />

alphab<strong>et</strong>s. They are built using a modified version of the generic<br />

framework used to construct random graphs proposed in [39].<br />

Since this framework does not aim at depicting classes, in the sense<br />

of similar graphs, we add a second step to the data generation process<br />

in order to create classes of graphs. In the initial step a number<br />

N (where N is the desired number of classes) of graphs are constructed<br />

using the Erdös-Rényi model [39]. This model takes as input<br />

the number of vertices of the graph to be generated, and the<br />

probability of generating an edge b<strong>et</strong>ween two vertices. A low<br />

probability for edges leads to sparse graphs, that typically occur<br />

in proximity based graph representations found in pattern recognition.<br />

In the second step, each of the generated graphs are modified<br />

using two processes. In a first stage edges and vertices are randomly<br />

del<strong>et</strong>ed or relabeled according to a given probability. Then,<br />

a second stage of modifications is applied by selecting a vertex<br />

from a graph and replacing it with a random subgraph. The whole<br />

process leads to graph classes which have an intra-class similarity<br />

greater than the inter-class similarity. Numerical d<strong>et</strong>ails concerning<br />

this datas<strong>et</strong> are presented in Table 1. The large size of this datas<strong>et</strong><br />

is a key point to measure up our approach to the scalability<br />

problem.<br />

4.1.2. Symbol recognition related datas<strong>et</strong>: Base B<br />

This second datas<strong>et</strong> contains graphs which are generated from a<br />

corpus of 200 noisy symbol images, corresponding to 10 ideal<br />

models (classes) proposed in a symbol recognition contest [29]<br />

(GREC workshop). The class distribution is given in Table 2. Ina<br />

first step, considering the symbol binary image, both black and<br />

white connected components are extracted. These connected components<br />

are then automatically labeled with a partitional clustering<br />

algorithm [40] using Zernike moments as features[41]. Using<br />

these labeled items, a graph is built. Each connected component<br />

correspond to an attributed vertex in this graph. Then, edges are<br />

built using the following rule: two vertices are linked with an undi-<br />

Table 2<br />

Class sizes of the dababase B.<br />

Class Samples<br />

1 25<br />

2 13<br />

3 17<br />

4 13<br />

5 20<br />

6 39<br />

7 22<br />

8 17<br />

9 17<br />

10 17


tel-00671168, version 1 - 8 Oct 2012<br />

912 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />

rected and unlabeled edge if one of the vertices is a neighbor of the<br />

other vertex in the corresponding image. This neighborhood is<br />

decided according to the distance b<strong>et</strong>ween the centroids of each<br />

Fig. 7. From symbols to graphs through connected component analysis. At the top:<br />

a model symbol. At the bottom: a distorded symbol. In both graphs, the vertex a<br />

denotes the black connected component whereas the others denote white<br />

connected components. In the bottom graph (distorded version), the label e has<br />

replaced the label b of the initial.<br />

connected components with respect to a predefined threshold<br />

(see [42] for more d<strong>et</strong>ails). An example of the association b<strong>et</strong>ween<br />

two symbol images and the corresponding graphs is illustrated in<br />

Fig. 7. Numerical d<strong>et</strong>ails concerning this datas<strong>et</strong> are presented in<br />

Table 1.<br />

4.1.3. Ferrer datas<strong>et</strong>: Base C<br />

This third datas<strong>et</strong> is also related to the symbol recognition problem.<br />

It is derived from the GREC database [29]. It is composed of<br />

12,800 graphs identically distributed among 32 classes (examples<br />

of symbols are given on Fig. 8). These graphs are built using a<br />

slightly modified version of the approach proposed in [26]. Using<br />

Ferrer’s approach, a symbol is represented as an undirected labeled<br />

graph which stems from a vectorial representation of the symbol<br />

image. In this graph, the vertices correspond to the Terminal Points<br />

(TPs) and the Junction Points (JPs) of the vectorial representation<br />

and the edges correspond to the segments which connect those<br />

points in the image. The information associated to vertices or edges<br />

are their cartesian coordinates (x,y). Due to the graph spectral theory<br />

limitation, Ferrer’s graphs have to be labeled using real positive<br />

or null values and can not handle complex objects. This restriction<br />

leads to the construction of two graphs for a single symbol: a graph<br />

Gx labeled with x coordinates and a graph Gy with y coordinates, as<br />

Table 3<br />

Param<strong>et</strong>ers used for the gen<strong>et</strong>ic algorithm in the proposed<br />

experiments.<br />

Acronym Value<br />

Population Size q 200<br />

Mutation rate r 0.3<br />

] of generations G 100<br />

] of runs W 10<br />

Fig. 8. Examples of symbols used to build the graphs of the Ferrer datas<strong>et</strong> [29] – base C.<br />

Fig. 9. From symbols to graphs using a 2D mesh. On the left, a vectorized symbol. One the bottom right, the two graphs Gx and Gy obtained using Ferrer’s approach. The<br />

vertices correspond to the Terminal Points (TPs) and the Junction Points (JPs) of the vectorial representation, labeled with either their x coordinates (on the left) or their y<br />

coordinates (on the right). The edges correspond to the segments which connect those points in the image. On the top right, the graphs used to evaluate the proposed<br />

approach where the vertices label are obtained through a discr<strong>et</strong>ization of R 2 .


tel-00671168, version 1 - 8 Oct 2012<br />

Fig. 10. Evolution of the sum of SOD with respect to the generation number obtained using the proposed gen<strong>et</strong>ic algorithm for the computation of smg (blue curve) and gmg<br />

(gray curve) on the four datas<strong>et</strong>s. The red line states for the sum of SOD obtained using a combinatorial approach. (For interpr<strong>et</strong>ation of the references to color in this figure<br />

legend, the reader is referred to the web version of this article.)<br />

shown on Fig. 9. In our case, the chosen graph signature imposes<br />

the use of nominal labels. Consequently, a 2-Dimensional mesh is<br />

applied to achieve the JP and TP discr<strong>et</strong>isation (see the top right<br />

of Fig. 9 ). An experimental study which is not presented in this paper<br />

has been used in order to choose mesh granularity.<br />

In order to prove the robustness of such a graph representation<br />

against noise, 4 different levels of distortion were introduced in<br />

[26]. These distortions are generated by moving each TP or JP randomly<br />

within a circle of radius r (given as a param<strong>et</strong>er for each level)<br />

centered at original coordinates of the point. If a JP is randomly<br />

moved, all the segments connected to it are also moved. With such<br />

distortions, gaps in line segments, missing line segments and<br />

wrong line segments are not allowed. Moreover, the number of<br />

vertices of each symbol is not changed.<br />

R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 913<br />

4.1.4. L<strong>et</strong>ter database: Base D<br />

This last database consists of graphs representing distorted l<strong>et</strong>ter<br />

drawings. It is a slightly modified version of the l<strong>et</strong>ter datas<strong>et</strong><br />

proposed in the IAM graph database repository [43] 3 where LOW,<br />

HIGH and MED parts of the datas<strong>et</strong> have been merged. It considers<br />

the 15 capital l<strong>et</strong>ters of the Roman alphab<strong>et</strong> that consists of straight<br />

lines only (A, E, F, <strong>et</strong>c.). For each class, a prototype line drawing is<br />

manually constructed. To obtain arbitrarily large sample s<strong>et</strong>s of<br />

drawings with strong distortions, arbitrarily distortion operators<br />

are applied to the prototype line drawings. This results in randomly<br />

shifted, removed, and added lines. These drawings are then con-<br />

3 Available at http://www.greyc.ensicaen.fr/iapr-tc15/.


tel-00671168, version 1 - 8 Oct 2012<br />

914 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />

verted into graphs in a simple manner by representing lines by edges<br />

and ending points of lines by vertices. Each vertex is labeled with a<br />

two-dimensional attribute giving its position. Since our approach<br />

only focuses on nominal attributes, a quantification is performed<br />

by the use of a mesh, as in the case of database C. This datas<strong>et</strong> contains<br />

12,800 graphs, identically distributed among the 15 classes.<br />

More information concerning those data are given in Table 1.<br />

4.2. Experimental protocol<br />

The experiments proposed in this section aim at comparing the<br />

classification performance which can be reached using the different<br />

graph prototypes defined in Section 2. To achieve such a goal,<br />

the following protocol has been applied.<br />

First, each datas<strong>et</strong> has been split into three subs<strong>et</strong>s respectively<br />

called training subs<strong>et</strong> (Tr), validation subs<strong>et</strong> (Tv) and test subs<strong>et</strong><br />

(Ts). These subs<strong>et</strong>s are used differently according to the prototypes<br />

which are involved.<br />

In the case of using discriminative graphs as prototypes, the<br />

training s<strong>et</strong> is used to generate the initial population of the GA,<br />

as explained in Section 3.7. Hence, individuals of the first generation<br />

are composed of graphs of Tr. The validation s<strong>et</strong> Tv is involved<br />

in the evaluation of the individuals using the 1-NPC classifier during<br />

the GA. Finally, the test s<strong>et</strong> is used for evaluating the quality of<br />

the best individual (i.e. the best classifier) found at the end of the<br />

algorithm. Using such a split, the final performance of the proposed<br />

approach is evaluated on a s<strong>et</strong> that has not been considered in the<br />

graph prototype learning stage.<br />

In the case of using median graphs as prototypes, the learning<br />

process does not involve a classification stage. Consequently, the<br />

Table 4<br />

A single prototype per class, a comparison.<br />

% smg gmg sdg gdg<br />

Rec r Rec r Rec r Rec r<br />

Base A 33.75 0.0 36.00 1.52 66.10 0.981 66.67 1.59<br />

Base B 62.5 0.0 75 0.0 71.42 2.5 83.39 2.5<br />

Base C 86.92 0.0 85.48 2.05 86.58 0.596 90.70 0.59<br />

Base D 69.61 0.0 69.14 0.34 69.67 0.67 71.24 1.47<br />

Fig. 11. Recognition rates obtained using a 1-NN rule applied on Ts and using gdg,<br />

sdg, gmg and smg as learning prototypes for the four datas<strong>et</strong>s.<br />

training and the validation subs<strong>et</strong>s are merged tog<strong>et</strong>her for medians<br />

computation and the test s<strong>et</strong> is used for evaluating the final<br />

performance.<br />

Concerning the number m of prototypes to be computed for<br />

each class, different values have been tested in the protocol. These<br />

values have been chosen with respect to the properties of the<br />

datas<strong>et</strong>.<br />

Furthermore, since GA’s are stochastic algorithms, it is necessary<br />

to estimate the variability of the results in order to assess<br />

the statistical significance of the performance. This was done by<br />

running W times the GA and then calculating the conventional<br />

couple average and standard deviation hRec; ri at the end of the<br />

W runs.<br />

Algorithm 2 gives an overview of the whole protocol. The entire<br />

experimental session was performed according to the s<strong>et</strong>ting described<br />

in Table 3, these latter param<strong>et</strong>ers have been chosen<br />

experimentaly.<br />

Algorithm 2. Experimental protocol<br />

Require: Tr: the training datas<strong>et</strong><br />

Require: Tv: the validation datas<strong>et</strong><br />

Require: Ts: the test datas<strong>et</strong><br />

Require: W: the number of runs<br />

Require: m[m max]: the m max values of m to be tested 1<br />

Require: gaparam: GA param<strong>et</strong>ers 2<br />

ensure: m smg[m max],r smg[m max]<br />

ensure: mgmg[mmax],rgmg[mmax]<br />

ensure: m sdg[m max],r sdg[m max]<br />

ensure: mgdg[mmax],rgdg[mmax]<br />

for j =1tom max<br />

for i =1toW<br />

smg[i][1:j] GA(Tr,Tv,m[j],ga param) 3<br />

gmg[i][1:j] GA(Tr,Tv,m[j],gaparam) 3<br />

sdg[i][1:j] GA(Tr,Tv,m[j],ga param) 3<br />

gdg[i][1:j] GA(Tr,Tv,m[j],gaparam) 3<br />

err smg[i] err1ppv(Ts,smg[i][1:j])<br />

errgmg[i] err1ppv(Ts,gmg[i][1:j])<br />

err sdg[i] err1ppv(Ts,sdg[i][1:j])<br />

errgdg[i] err1ppv(Ts,gdg[i][1:j])<br />

end for<br />

msmg[j] mean(errsmg[i])<br />

rsmg[j] std(errsmg[i])<br />

mgmg[j] mean(errgmg[i])<br />

rgmg[j] std(errgmg[i])<br />

msdg[j] mean(errsdg[i])<br />

rsdg[j] std(errsdg[i])<br />

m gdg[j] mean(err gdg[i])<br />

rgdg[j] std(errgdg[i])<br />

end for<br />

1 m values differ according to the considered datas<strong>et</strong><br />

2 Include populationSize, generationNumber, mutationRate<br />

and l<br />

3 Each GA is specialized to the kind of prototypes to be<br />

computed<br />

From this stage, our experiments are organized in a five step<br />

m<strong>et</strong>hodology. First, a study on s<strong>et</strong> median graph computation is<br />

carried out to prove the good convergence of the proposed gen<strong>et</strong>ic<br />

algorithm. Second, an evaluation of the classification performance<br />

that can be reached using smg, gmg, sdg and gdg (m = 1) as prototypes<br />

is performed. Third, we have investigated the influence of<br />

m value on the obtained results when multiple prototypes are used<br />

for each class. These results are compared to those obtained by a 1-<br />

NN classifier trained on the whole learning base (Tr [ Tv), without<br />

reduction. Fourth, a closer look is given to the number of classes


tel-00671168, version 1 - 8 Oct 2012<br />

impact. Finally, the time complexity is benchmarked though different<br />

points of view, the prototype nature and the number of classes.<br />

4.3. Algorithm convergence<br />

In the particular case of computing a single s<strong>et</strong> median graph<br />

smg for a given class, the problem is computionally feasible and<br />

reachable in O(N 2 ) where N is the number of elements in the given<br />

class. Therefore, it is interesting to compare the s<strong>et</strong> median graphs<br />

when they are calculated in a computional way and by GA. This<br />

test is illustrated in Fig. 10 which reports the sum of the SOD for<br />

all classes when the computation is done (i) in a d<strong>et</strong>erministic<br />

way (red line) and (ii) when using GA (blue curve for smg and gray<br />

curve for gmg). Results highlight that our algorithm always reaches<br />

the global optimum and moreover that few generations are needed<br />

to obtain this good performance. In addition, over the four dat-<br />

R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 915<br />

abases, the lowest SODs are achieved by the generalized median<br />

graphs. Such a result shows the capacity of our algorithm to build<br />

efficient generalized graphs.<br />

4.4. Classification performance with a single prototype<br />

The first classification experiments which have been performed<br />

aim at comparing the performance in graph classification obtained<br />

on datas<strong>et</strong>s A, B, C, D using an 1-NPC when choosing a single representative<br />

per class. The obtained classification rates are reported<br />

in Table 4 and illustrated in Fig. 11. Such results lead to several remarks.<br />

First of all, regarding all the databases, results obtained by<br />

gmg are b<strong>et</strong>ter than those results obtained by smg. This latter<br />

observation corroborates the idea that gmg have a b<strong>et</strong>ter modeling<br />

behavior than smg. This observation relies on a straightforward<br />

explanation, gmg belong to a more compl<strong>et</strong>e graph space while<br />

Fig. 12. Recognition rate evolution according to m for each kind of prototypes and on the four datas<strong>et</strong>s.


tel-00671168, version 1 - 8 Oct 2012<br />

916 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />

smg are limited to elements constituting the training dababase.<br />

Secondly, another remark states the case that the discriminative<br />

approaches outperform the generative ones. This statement relies<br />

on the comparisons b<strong>et</strong>ween (sdg vs. smg) and (gdg vs. gmg). In both<br />

cases, the discriminative graph performance exceed median graph<br />

results in a significant way. These important improvements justify<br />

to choose gdg in order to synth<strong>et</strong>ize a given graph s<strong>et</strong> in a classification<br />

context.<br />

4.5. Classification performance with regard to the number of<br />

prototypes<br />

This second part of experiments aims at investigating the influence<br />

of the number m of prototypes on classification results. The<br />

results illustrated in Fig. 12 clearly show that the classification rate<br />

is improved when increasing the number of representatives for<br />

both median and discriminative graphs. This fact shows that a larger<br />

number of prototypes tends to b<strong>et</strong>ter describe the difficult<br />

problems of classification. Also we noticed that the use of a very restricted<br />

representative s<strong>et</strong> (i.e. m = 1) leads to a lower recognition<br />

rate in comparison to the results obtained by a 1-NN classifier<br />

trained on the whole learning datas<strong>et</strong> (Tr [ Tv). However, the time<br />

and memory complexities are considerably reduced since there are<br />

only N distances to be calculated. Nevertheless, when increasing<br />

the number of prototypes, performance match and even outperform<br />

the quality of the 1-NN classifier (see Table 5) while maintaining<br />

the reduction rate quite high. This trade-off to be made<br />

b<strong>et</strong>ween CPU resources and accuracy gives a solution to tackle<br />

the scalability problem and consequently to face large data s<strong>et</strong>s<br />

taking fast decisions in the classification stage.<br />

4.6. Impact of the number of classes<br />

Thanks to our synth<strong>et</strong>ic graph generator, the number of classes<br />

can be tuned to evaluate the algorithm behavior according to this<br />

criterion. In addition, the scalability problem can be addressed<br />

reaching a number of classes up to 50. This comparison is presented<br />

in Fig. 13. Implicitly, a higher number of classes will lead<br />

to a more complicated issue, in such a way that the recognition<br />

rate will be d<strong>et</strong>eriorated. When increasing the number of classes,<br />

the gap in term of accuracy b<strong>et</strong>ween modelizing and discriminative<br />

graphs is more important. This difference of accuracy starts<br />

from 3.68% in the 5-classes problem to reach 21.3% when the number<br />

of classes is 50. The higher is the number of classes, the larger is<br />

the gap b<strong>et</strong>ween modelizing and discriminative graphs. This<br />

advantage makes discriminative graphs suitable for difficult classification<br />

problems. Independently from the number of classes, it is<br />

interesting to report the following statements. This test strengthened<br />

our prior observations. The gmg b<strong>et</strong>ter modelizes classes than<br />

smg and gdg outperform all the others prototypes over the four<br />

subs<strong>et</strong>s.<br />

4.7. Time complexity analysis<br />

As a matter of fact, learning algorithms are performed off-line.<br />

In such a configuration, it seems reasonable to mention that time<br />

complexity is not a crucial issue. It is much more significant to<br />

Fig. 13. Performance comparison b<strong>et</strong>ween the different kinds of prototypes with<br />

respect to the number of classes on different subs<strong>et</strong>s of the database A.<br />

be fast at the decision stage. However, a way to compare the computational<br />

cost of the different types of prototypes was to undertake<br />

an empirical study. The algorithm complexity is directly<br />

linked to the number of classes, the influence of the datas<strong>et</strong> size<br />

is depicted by the Fig. 14. A first comment illustrates the strong impact<br />

of the class number on the computational cost when producing<br />

a discriminative graph. Moreover a comparison of the runtime<br />

execution according to the kind of prototypes on the largest data-<br />

Fig. 14. Run-time evolution with respect to the number of classes on different<br />

subs<strong>et</strong>s of the database A.<br />

Table 5<br />

Reduction rate and performance comparisons b<strong>et</strong>ween gdg and a 1-NN classifier using the entire learning s<strong>et</strong> Tr [ Tv. Reduction rate stands for 100 m N<br />

jTr[Tvj .<br />

Base A Base B Base C Base D<br />

gdg 1-NN gdg 1-NN gdg 1-NN gdg 1-NN<br />

Reduc. rate (%) 92.92 0 50.71 0 86.67 0 76.3 0<br />

Rec (%) 86.34 85.16 97.14 96.43 99.71 99.47 91.04 90.16


tel-00671168, version 1 - 8 Oct 2012<br />

base has been led. The complexity of the median graph search<br />

came out from this test. The SOD criterion is less demanding in<br />

term of distance computation, therefore, it is less time consuming.<br />

At worst case, in our experiments on the largest database, the median<br />

graph computation was 15 times faster. However, this overload<br />

does not discourage the use of discriminative graphs since<br />

the gain they imply is really significant. It is a commonplace in machine<br />

learning to state the case that training algorithms require<br />

much time and many computations to assimilate the data<br />

variability.<br />

5. Conclusion and future works<br />

This paper has presented several approaches for the construction<br />

of prototype-based structural classifiers. These approaches<br />

have been experimentally compared according to several criteria<br />

on both synth<strong>et</strong>ic and real databases.<br />

The experimental results first confirm that the generalized<br />

median graph approximated using a gen<strong>et</strong>ic algorithm has a b<strong>et</strong>ter<br />

modeling ability than the s<strong>et</strong> median graph. Moreover, the results<br />

show that prototypes which take into account the whole classification<br />

problem (discriminative approach) offer b<strong>et</strong>ter results than<br />

the class centered median graph approach.<br />

Furthermore, the proposed GA framework allows to synth<strong>et</strong>ize<br />

m graph prototypes per class. The experimental results illustrate<br />

that, when m increases, the classification problem is b<strong>et</strong>ter described<br />

and the performance improves and converges rapidly towards<br />

the classification rate of a 1-NN classifier applied on the<br />

whole learning datas<strong>et</strong>.<br />

Finally, the assessments carried out on four datas<strong>et</strong>s expressed<br />

that gdg and m-gdg obtain b<strong>et</strong>ter or comparable results, in terms of<br />

accuracy, than the state-of-the-art prototypes schemes for structural<br />

data on multi-class graph classification problem. Our contribution<br />

gives the proof for the following key points: (i) gen<strong>et</strong>ic<br />

algorithms are well suited to deal with graph structures and (ii)<br />

the recognition rate on a validation datas<strong>et</strong> is a b<strong>et</strong>ter criterion of<br />

the optimization process than a classical SOD in a classification<br />

context. Also, the scalability to large graph datas<strong>et</strong>s has been assessed<br />

on a synth<strong>et</strong>ic database with success. This observation illustrates<br />

that a prototype-based classifier is well suited to manage<br />

masses of structural data.<br />

Short-term, we intend to investigate the ability of s<strong>et</strong>ting a different<br />

number of prototypes for each class. This strategy would allow<br />

to distribute a global number of prototypes among the classes<br />

and then to automatically fit the difficulty of the classification<br />

problem. This modification impacts on the algorithm and requires<br />

a redefinition of the gen<strong>et</strong>ic algorithm (problem coding and gen<strong>et</strong>ic<br />

operators).<br />

We also intend to investigate the ability to propose several prototype<br />

s<strong>et</strong>s for different values for m. These s<strong>et</strong>s would correspond<br />

to different trade-offs b<strong>et</strong>ween the concurrent objectives that are<br />

the recognition rate and the reduction of the training s<strong>et</strong> which allows<br />

to reduce the classification time and spatial complexity. A<br />

multi-objective procedure [44] could be used to optimize these<br />

non commensurable criterions. Finally, a human operator would<br />

a posteriori make the final decision according to the use case.<br />

Finally, the reject of elements which do not belong to any<br />

known class is a feature which is often required when classifiers<br />

are faced with actual data. When dealing with Nearest Neighbor<br />

rule, it is generally implemented throught the definition of threshold<br />

values. In the same time, the reject of an element is often prefered<br />

to a misclassification. This kind of feature can be undertaken<br />

with k nearest neighbors rules with values of k greater than 1. Future<br />

works should be dedicated to include reject consideration as<br />

an additional criterion to be optimized while maintaining the clas-<br />

R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918 917<br />

sification rate as high as possible. In this case again, a multi-objective<br />

procedure could be useful.<br />

References<br />

[1] M. Kuramochi, G. Karypis, Finding frequent patterns in a large sparse graph,<br />

Data Mining and Knowledge Discovery 11 (3) (2005) 243–271.<br />

[2] A. Inokuchi, T. Washio, H. Motoda, Compl<strong>et</strong>e mining of frequent patterns from<br />

graphs: mining graph data, Machine Learning 50 (3) (2003) 321–354.<br />

[3] H. Zanghi, C. Ambroise, V. Miele, Fast online graph clustering via erdos renyi<br />

mixture, Pattern Recognition 41 (12) (2008) 3592–3599.<br />

[4] H. Qiu, E.R. Hancock, Graph matching and clustering using spectral partitions,<br />

Pattern Recognition 39 (1) (2006) 22–34.<br />

[5] S. Auwatanamongkol, Inexact graph matching using a gen<strong>et</strong>ic algorithm for<br />

image recognition, Pattern Recognition L<strong>et</strong>ters 28 (12) (2007) 1428–1437.<br />

[6] M. Neuhaus, H. Bunke, Inexact graph matching using a gen<strong>et</strong>ic algorithm for<br />

image recognition, Pattern Recognition 39 (10) (2006) 1852–1863.<br />

[7] M.A. Lozano, F. Escolano, Protein classification by matching and clustering<br />

surface graphs, Pattern Recognition 39 (4) (2006) 539–551.<br />

[8] H. Kashima, K. Tsuda, A. Inokuchi, Marginalized kernels b<strong>et</strong>ween labeled<br />

graphs, in: Proceedings of the Twenti<strong>et</strong>h International Conference on Machine<br />

Learning, 2003, pp. 321–328.<br />

[9] H. Kashima, K. Tsuda, A. Inokuchi, Kernel for graph, in: Kernel M<strong>et</strong>hods in<br />

Computational Biology, 2004, pp. 155–170.<br />

[10] F. Suard, V. Guigue, A. Rakotomamonjy, A. Bensrhair, Pedestrian d<strong>et</strong>ection<br />

using stereovision and graph kernels, in: Proceedings of the IEEE Intelligent<br />

Vehicle Symposium, 2005, pp. 267–272.<br />

[11] P. MahT, N. Ueda, T. Akutsu, J.-L. Perr<strong>et</strong>, J.-P. Vert, Extensions of marginalized<br />

graph kernels, in: Proceedings of the Twenty-First International Conference on<br />

Machine Learning, 2004, pp. 552–559.<br />

[12] P. MahT, N. Ueda, T. Akutsu, J.-L. Perr<strong>et</strong>, J.-P. Vert, Graph kernels for molecular<br />

structure-activity relationship analysis with support vector machines, Journal<br />

of Chemical Information and Modeling 45 (4) (2005) 939–951.<br />

[13] S.V.N. Vishwanathan, N.N. Schraudolph, R. Kondor, K. Borgwardt, Graph<br />

kernels, Journal of Machine Learning Research 11 (2010) 1201–1242.<br />

[14] W.Y. Chen, W.L. Hwang, T.C. Lin, Planar-shape prototype generation using a<br />

tree-based random greedy algorithm, IEEE Transactions on Systems, Man, and<br />

Cybern<strong>et</strong>ics, Part B 36 (3) (2006) 649–659.<br />

[15] B.V. Dasarathy, Nearest Neighbor (NN) Norms: NN Pattern Classification<br />

Techniques, IEEE Computer Soci<strong>et</strong>y Press, Los Alamitos, 1990.<br />

[16] P.E. Hart, The condensed nearest neighbour rule, IEEE Transactions on<br />

Information Theory 14 (5) (1968) 515–516.<br />

[17] C.-L. Chang, Finding prototypes for nearest neighbor classifiers, IEEE<br />

Transactions on Computers 23 (11) (1974) 1179–1184.<br />

[18] J.C. Bezdek, T.R. Reichherzerand, G.S. Lim, Y. Attikiouzel, <strong>Multi</strong>ple-prototype<br />

classifier design, IEEE Transactions on Systems, Man, and Cybern<strong>et</strong>ics, Part C:<br />

Applications and Reviews 28 (1) (1998) 67–79.<br />

[19] J. Jia, K. Abe, Automatic generation of prototypes in 3d structural object<br />

recognition, in: ICPR ’98: Proceedings of the 14th International Conference on<br />

Pattern Recognition, vol. 1, 1998, p. 697.<br />

[20] A. Torsello, E.R. Hancock, Learning shape-classes using a mixture of treeunions,<br />

IEEE Transactions on Pattern Analysis and Machine Intelligence 28 (6)<br />

(2006) 954–967.<br />

[21] B. Bonev, F. Escolano, M.A. Lozano, P. Suau, M. Cazorla, W. Aguilar, Constellations<br />

and the unsupervised learning of graphs, in: GbRPR, 2007, pp. 340–350.<br />

[22] H. Bunke, P. Foggia, C. Guidobaldi, M. Vento, Graph clustering using the<br />

weighted minimum common supergraph, in: GbRPR, 2003, pp. 235–246.<br />

[23] S. Marini, M. Spagnuolo, B. Falcidieno, Structural shape prototypes for the<br />

automatic classification of 3d objects, IEEE Computer Graphics and<br />

Applications 27 (4) (2007) 28–37.<br />

[24] X.J.H. Bunke, A. Mnnger, Combinatorial search versus gen<strong>et</strong>ic algorithms: a<br />

case study based on the generalized median graph problem, Pattern<br />

Recognition L<strong>et</strong>ters 20 (11) (1999) 1271–1277.<br />

[25] X. Jiang, A. Mnnger, H. Bunke, On median graphs: Properties, algorithms, and<br />

applications, IEEE Transactions on Pattern Analysis and Machine Intelligence<br />

23 (10) (2001) 1144–1151.<br />

[26] M. Ferrer, E. Valveny, F. Serratosa, Spectral median graphs applied to graphical<br />

symbol recognition, in: CIARP, 2006, pp. 774–783.<br />

[27] M. Ferrer, F. Serratosa, E. Valveny, On the relation b<strong>et</strong>ween the median and the<br />

maximum common subgraph of a s<strong>et</strong> of graphs, in: GbRPR, 2007, pp. 351–360.<br />

[28] A. Hlaoui, S. Wang, Median graph computation for graph clustering, Soft<br />

Computing – A Fusion of Foundations, M<strong>et</strong>hodologies and Applications 10 (1)<br />

(2005) 47–53.<br />

[29] E. Valveny, P. Dosch, Symbol recognition contest: a synthesis, in: J. Lladós, Y.B.<br />

Kwon (Eds.), Selected Papers of the 5th IAPR International Workshop on<br />

Graphics Recognition, Lecture Notes in Computer Science, vol. 3088, Springer-<br />

Verlag, 2004, pp. 368–385.<br />

[30] L.I. Kuncheva, Editing for the k-nearest neighbors rule by a gen<strong>et</strong>ic algorithm,<br />

Pattern Recognition L<strong>et</strong>ters 16 (8) (1995) 809–814.<br />

[31] D.E. Goldberg (Ed.), Gen<strong>et</strong>ic Algorithms in Search, Optimization and Machine<br />

Learning, Addison-Wesley, 1989.<br />

[32] C.R. Reeves (Ed.), Modern Heuristic Techniques for Combinatorial Problems,<br />

Blackwell Scientific Press, 1993 (Chapter: Gen<strong>et</strong>ic Algorithms, pp. 151–196).<br />

[33] H. Bunke, On a relation b<strong>et</strong>ween graph edit distance and maximum common<br />

subgraph, Pattern Recognition L<strong>et</strong>ters 18 (8) (1997) 689–694.


tel-00671168, version 1 - 8 Oct 2012<br />

918 R. Raveaux <strong>et</strong> al. / Computer Vision and Image Understanding 115 (2011) 905–918<br />

[34] X. Gao, B. Xiao, D. Tao, X. Li, A survey of graph edit distance, Pattern Analysis<br />

and Applications 13 (1) (2010) 113–129.<br />

[35] K. Riesen, H. Bunke, Approximate graph edit distance computation by means<br />

of bipartite graph matching, Image Vision Computing 27 (7) (2009) 950–959.<br />

[36] H. Bunke, K. Shearer, A graph distance m<strong>et</strong>ric based on the maximal common<br />

subgraph, Pattern Recognition L<strong>et</strong>ters 19 (3–4) (1998) 255–259.<br />

[37] W.D. Wallis, P. Shoubridge, M. Kra<strong>et</strong>z, D. Ray, Graph distances using graph<br />

union, Pattern Recognition L<strong>et</strong>ters 22 (6–7) (2001) 701–704.<br />

[38] D.P. Lopresti, G.T. Wilfong, A fast technique for comparing graph<br />

representations with applications to performance evaluation, IJDAR 6 (4)<br />

(2003) 219–229.<br />

[39] P. Erdos, A. RTnyi, On random graphs, Publicationes Mathematicae Debrecen 6<br />

(1959) 290–297.<br />

[40] L. Kaufman, P.J. Rousseeuw, Finding Groups in Data: An Introduction to Cluster<br />

Analysis, Wiley, 1990.<br />

[41] A. Khotanzad, Y.H. Hong, Invariant image recognition by zernike moments,<br />

IEEE Transactions on PAMI 12 (5) (1990) 489–497.<br />

[42] E. Barbu, P. Heroux, S. Adam, E. Trupin, Clustering document images using a<br />

bag of symbols representation, in: Proceedings of the 8th International<br />

Conference on Document Analysis and Recognition, 2005, pp. 1216–1220.<br />

[43] K. Riesen, H. Bunke, Iam graph database repository for graph based pattern<br />

recognition and machine learning, in: SSPR & SPR ’08: Proceedings of the 2008<br />

Joint IAPR International Workshop on Structural, Syntactic, and Statistical<br />

Pattern Recognition, 2008, pp. 287–297.<br />

[44] K. Deb, <strong>Multi</strong>-Objective Optimization Using Evolutionary Algorithms, John<br />

Wiley & Sons, Inc., New York, NY, USA, 2001.


tel-00671168, version 1 - 8 Oct 2012<br />

lxxii Annexe E. Réference CV : 1


tel-00671168, version 1 - 8 Oct 2012<br />

Annexe F<br />

Réference CV : 25<br />

H. Locteau, R. Raveaux, S. Adam, Y. Lecourtier, P. Héroux, and E. Trupin.<br />

Approximation of digital curves using a multi-objective gen<strong>et</strong>ic algorithm.<br />

In Proceedings of the International Conference on Pattern Recognition (IC-<br />

PR’06), pages 716-719. 2006.<br />

lxxiii


tel-00671168, version 1 - 8 Oct 2012<br />

Approximation of Digital Curves using a <strong>Multi</strong>-Objective Gen<strong>et</strong>ic Algorithm<br />

Hervé Locteau, Romain Raveaux, Sébastien Adam, Yves Lecourtier, Pierre Héroux, Eric Trupin<br />

LITIS Labs – University of Rouen, FRANCE<br />

Herve.Locteau@univ-rouen.fr<br />

Abstract<br />

In this paper, a digital planar curve approximation<br />

m<strong>et</strong>hod based on a multi-objective gen<strong>et</strong>ic algorithm is<br />

proposed. In this m<strong>et</strong>hod, the optimization/exploration<br />

algorithm locates breakpoints on the digital curve by<br />

minimizing simultaneously the number of breakpoints<br />

and the approximation error. Using such an approach,<br />

the algorithm proposes a s<strong>et</strong> of solutions at its end.<br />

The user may choose his own solution according to its<br />

objective. The proposed approach is evaluated on<br />

curves issued from the literature and compared<br />

successfully with many classical approaches.<br />

1. Introduction<br />

Approximation of digital planar curves using<br />

vertices and/or circular arcs is an important issue in<br />

pattern recognition and image processing. It is a<br />

classical way to represent, store and process digital<br />

curves. For example, approximation results are<br />

frequently used for shape recognition. The problem<br />

can be stated as follows: Given a curve<br />

{ ( ) } N<br />

C = Ci<br />

≡ xi<br />

, yi<br />

constituted of N ordered<br />

i=<br />

1<br />

points, the goal is to find a subs<strong>et</strong><br />

{ ( ) } M<br />

S = Si<br />

≡ xi<br />

, yi<br />

of M ordered points and the<br />

= 1<br />

i<br />

corresponding param<strong>et</strong>er s<strong>et</strong> { ( ) } M<br />

P ≡ xc yc<br />

P i i,<br />

i i=<br />

1<br />

= .<br />

S contains the extremities of the line segments or the<br />

circular arcs (som<strong>et</strong>imes called breakpoints) and P the<br />

param<strong>et</strong>ers of the best approximation of the s<strong>et</strong> of<br />

points b<strong>et</strong>ween each couple of breakpoints (a specific<br />

value is applied in the case of segment)<br />

Whereas many paradigms have been proposed to<br />

solve the problem of polygonal approximation or the<br />

problem of approximation with circular arcs, much less<br />

papers were proposed concerning the approximation of<br />

digital curves with both representations. Among the<br />

existing papers [1][2][3][4], an approach recently<br />

proposed in [4] consists in using Gen<strong>et</strong>ic Algorithms<br />

(GA) in order to find a near-optimal approximation. In<br />

such a case, the approximation of digital curves is<br />

considered as an optimization process. The algorithm<br />

automatically selects the best points of the curves by<br />

minimizing a given criterion. In [4], the number N of<br />

breakpoints to be obtained is fixed and the m<strong>et</strong>hod<br />

uses the concept of gen<strong>et</strong>ic evolution to obtain a nearoptimal<br />

approximation.<br />

In this paper, we adopt the same paradigm and we<br />

propose a new GA for the approximation of digital<br />

curves. The originality of the described approach is the<br />

use of a multi-objective optimization process. Such a<br />

new viewpoint enables the user of the system to<br />

choose a trade-off b<strong>et</strong>ween different quality criteria<br />

after a single run of the GA.<br />

The remainder of the paper is organized as follows.<br />

In section 2, an introduction to the multi-objective<br />

optimization problem is proposed and our algorithm is<br />

presented. In section 3, the application of this<br />

algorithm to the approximation problem is shown.<br />

Section 4 presents the experimentally obtained results<br />

and a comparison with existing approaches. Section 5<br />

gives the concluding remarks.<br />

2. <strong>Multi</strong> objective optimization GA<br />

When an optimization problem involves more than<br />

one objective function, the task of finding one or more<br />

optimum solutions is known as multi-objective<br />

optimization. Some classical textbooks on this subject<br />

have been published, e.g. [5]. We just recall here some<br />

essential notions in order to introduce the proposed<br />

algorithm. The main difference b<strong>et</strong>ween single and<br />

multi-optimization tasks lies in the requirement of<br />

compromises b<strong>et</strong>ween the various objectives in the<br />

multi-optimization case. Even with only two<br />

objectives, if they are conflicting, the improvement of<br />

one of them leads to a d<strong>et</strong>erioration of the other one.<br />

For example, in the context of polygonal<br />

approximation, the decrease of the approximation error<br />

always leads to an increase of the vertices number.<br />

Two main approaches are used to overcome this


tel-00671168, version 1 - 8 Oct 2012<br />

problem in the literature. The first one consists in the<br />

combination of the different objectives into a single<br />

one (the simpler way being to use a linear combination<br />

of the various objectives), and then to use one of the<br />

well-known techniques of single objective<br />

optimization (like gradient based m<strong>et</strong>hods, simulated<br />

annealing or classical gen<strong>et</strong>ic algorithm). In such a<br />

case, the compromise b<strong>et</strong>ween the objectives is a priori<br />

d<strong>et</strong>ermined through the choice of the combination rule.<br />

The main critic addressed to this approach is the<br />

difficulty to choose a priori the compromise. It seems a<br />

b<strong>et</strong>ter idea to postpone this choice after having several<br />

candidate solutions at hand. This is the goal of Par<strong>et</strong>o<br />

based m<strong>et</strong>hod using the notion of dominance b<strong>et</strong>ween<br />

candidate solutions. A solution dominates another one<br />

if it is b<strong>et</strong>ter for all the objectives. This dominance<br />

concept is illustrated on figure 1. Two criteria J1 and J2<br />

have to be minimized. The s<strong>et</strong> of non-dominated points<br />

that constitutes the Par<strong>et</strong>o-Front appears as ‘O’ on the<br />

figure, while dominated solutions are drawn as ‘X’.<br />

Using such a dominance concept, the objective of<br />

the optimization algorithm becomes to d<strong>et</strong>ermine the<br />

Par<strong>et</strong>o front, that is to say the s<strong>et</strong> of non-dominated<br />

points. Among the optimization m<strong>et</strong>hods that can be<br />

used for such a task, gen<strong>et</strong>ic algorithms are well-suited<br />

because they work on a population of candidate<br />

solutions. They have been extensively used in such a<br />

context. The most common algorithms are VEGA –<br />

Vector Evaluated Gen<strong>et</strong>ic Algorithm – [6], MOGA –<br />

<strong>Multi</strong> Objective Gen<strong>et</strong>ic Algorithm –approach [7],<br />

NSGA – Non-Dominated Sorting Gen<strong>et</strong>ic Algorithm –<br />

[8], NSGA II [9], PAES – Par<strong>et</strong>o Archived Evolution<br />

Strategy – [10] and SPEA – Strength Par<strong>et</strong>o<br />

Evolutionary Algorithm – [11]. The strategies used in<br />

these contributions are different, but the obtained<br />

results mainly vary from the convergence speed point<br />

of view. A good review can be found in [12].<br />

J2<br />

X<br />

X<br />

X<br />

X<br />

Fig. 1. Illustration of the Par<strong>et</strong>o Front concept<br />

The proposed gen<strong>et</strong>ic algorithm is elitist and steadystate.<br />

This means that (i) it manages two populations<br />

and (ii) the replacement strategy of individuals in the<br />

populations is not made as a whole, but individual per<br />

individual. The two populations are a classical<br />

J1<br />

population, composed of evolving individuals and an<br />

“archive” population composed of the current Par<strong>et</strong>o<br />

Front elements. These two populations are mixed<br />

during the iterations of the gen<strong>et</strong>ic algorithm. The first<br />

population guarantees space exploration while the<br />

archive guarantees the exploitation of acquired<br />

knowledge and the convergence of the algorithm.<br />

Based on such concepts, our optimization m<strong>et</strong>hod<br />

uses the following algorithm:<br />

Population (I) and Archive (A) Initialization<br />

do<br />

- Random selection of two individuals I1 and I2 in (I)<br />

- Crossover b<strong>et</strong>ween I1 and I2 to generate I3 and I4<br />

- Mutation applied to the generated children I3 and I4<br />

- Evaluation of children I3 and I4<br />

- Selection either of the dominant individual I5<br />

b<strong>et</strong>ween mutated children (if it exists) or random<br />

selection of I5 b<strong>et</strong>ween I3 and I4<br />

- Random selection of (I6) a in (A)<br />

- Crossover b<strong>et</strong>ween I5 and I6 to generate I7 and I8<br />

- Evaluation of children I7 and I8<br />

- Test for the integration of I7 and I8 in (A)<br />

- Test for the integration of I7 and I8 in (I)<br />

While i < the maximal generation number<br />

This algorithm has been designed in order to be<br />

applied to various problems. The design of a new<br />

application consists in the choice of a coding scheme<br />

for individuals, in the design of the evaluation m<strong>et</strong>hod<br />

and in the choice of both param<strong>et</strong>ers values and of<br />

some specific operators. In its current implementation,<br />

the coding of an individual is a classical bit string.<br />

Crossover is a well-known 2-points crossover whereas<br />

initialization and mutation are application-dependent.<br />

Concerning the replacement strategy, several choices<br />

can be made for the integration of a candidate<br />

individual in the archive. The simplest is a dominance<br />

test b<strong>et</strong>ween the candidate and the archive elements.<br />

The candidate is inserted within the archive if no<br />

archive element dominates it. In the same time, archive<br />

elements dominated by the candidate are eliminated<br />

from the archive. A problem reported in the literature<br />

on evolutionary multi-objective optimization is the<br />

possible bad exploration of Par<strong>et</strong>o front: the archive<br />

population elements concentrate on only some parts of<br />

the front. This difficulty is overcome in our approach<br />

by defining a minimal distance b<strong>et</strong>ween two points in<br />

the objective space. This algorithm has been tested on<br />

classical multi-objective problems such as BNH or<br />

TNK [13]. The obtained results have shown the quality<br />

of the proposed approach since it is able to find a<br />

similar approximation of the Par<strong>et</strong>o Front for the same<br />

number of calls to the evaluation function.


tel-00671168, version 1 - 8 Oct 2012<br />

3. Application to curve approximation<br />

In order to apply the algorithm presented above to<br />

the curve approximation problem, an individual has to<br />

represent a possible solution to the approximation<br />

problem. That is why an individual is composed of N<br />

genes, where N is the number of points in the initial<br />

curve. A gene is s<strong>et</strong> to ‘1’ if the point is kept as a<br />

breakpoint, ‘0’ if it is not. An example of an individual<br />

coding is given in figure 2. Each point Ci of the curve<br />

S corresponds to a bit in the chromosome. In the<br />

example of figure 2, the individual is a binary string of<br />

45 genes corresponding to the initial C1-C45.. The<br />

approximation is composed of 2 line-segments and 6<br />

circular arcs. The corresponding breakpoints are<br />

respectively C3, C5, C20, C29, C35, C37, C41, and C44.<br />

Such an approximation (the optimal approximation for<br />

8 breakpoints) corresponds to the individual<br />

“001010000000000000010000<br />

000010000010100010010”.<br />

Fig. 2: An example of the coding scheme<br />

Using such a coding scheme, the GA described in<br />

section 2 is applied. In order to reduce the number of<br />

iteration in the GA, a specific initialization operator is<br />

used. It is based on a simple analysis of the curve to be<br />

approximated. An histogram of the curvature along the<br />

curve is first computed. During initialization, for each<br />

point, a probability to be selected is deduced from this<br />

histogram. This strategy enables to avoid the selection<br />

of collinear points and on the contrary enables to select<br />

points with high curvature. A specific mutation<br />

operator is also used. It is based on the shift of a<br />

selected point to the preceding or the next one.<br />

Concerning the criteria to be optimized, two objectives<br />

have been included in the current version. The first one<br />

is the Integral Square Error (ISE) and the second one is<br />

the number of points. This enables to have a trade-off<br />

b<strong>et</strong>ween the precision of the result and the number of<br />

line segments, thanks to elements of the Par<strong>et</strong>o front.<br />

One can note that the use of a discr<strong>et</strong>e objective<br />

(vertices number) guarantees itself the diversity on the<br />

Par<strong>et</strong>o front, we do not need to specify any minimal<br />

distance b<strong>et</strong>ween any couples of solutions of the Par<strong>et</strong>o<br />

Front. For the computation of the ISE, the error is<br />

computed both in the case of line-segments and<br />

circular arcs and the best solution is kept as Pi. Circular<br />

arcs are obtained using a LMS approach [4].<br />

4. Experimental results<br />

In order to assess the performances of the proposed<br />

algorithm, it has been applied to the four broadly used<br />

digital curves presented in [14] and proposed in Fig. 3.<br />

c) d)<br />

a) b)<br />

Fig. 3. The four digital test curves<br />

Such tests allow to test the performances of the<br />

proposed algorithm versus those of published<br />

approaches. For each of these curves, the program has<br />

been run for 2000 generations, using a population size<br />

of 100 individuals. Such a param<strong>et</strong>er s<strong>et</strong> involves<br />

about 8000 calls to the evaluation m<strong>et</strong>hod (see the<br />

algorithm below). The mutation rate has been fixed to<br />

0.05 and the crossover rate to 0.6. As said before, the<br />

output of the presented algorithm is not a single ISE<br />

for a number of vertices given a priori. It consists in<br />

the whole Par<strong>et</strong>o front of the optimization problem.<br />

That is why the result is a s<strong>et</strong> of couple (ISE – number<br />

of vertices). As an example, figure 4 shows the s<strong>et</strong> of<br />

couple obtained at the end of the algorithm applied on<br />

the “semicircle” curve. Another remark has to be done.<br />

Since GA are stochastic, results may be different at<br />

independent runs. That is why, in these experiments,<br />

we give (table 1) both the best (B) and the worst (W )<br />

ISE for each number of vertices obtained after 5<br />

independent runs on each curve. The obtained results<br />

can be compared with the results of table 2 issued from<br />

an existing comparative study [4]. As one can see on<br />

table 1 and 2, results obtained using the GA approach


tel-00671168, version 1 - 8 Oct 2012<br />

enables to obtain comp<strong>et</strong>itive results. Moreover, theses<br />

tables also show the stability of the proposed approach<br />

since best (B) and worst (W) results are generally the<br />

same for the 5 runs.<br />

Fig. 4: Two obtained approximations<br />

Table 1 : Results obtained using the GA<br />

Fig 3a Fig 3b Fig 3c Fig 3d<br />

N B W N B W N B W N B W<br />

4 6.9 6.9 12 43.5 43.9 5 5.2 5.9 9 4.6 4.6<br />

5 6.1 6.1 14 22.1 22.7 6 3.0 3.4 10 2.4 2.4<br />

6 5.7 5.8 16 10.7 10.7 7 2.6 2.8 11 1.9 2.0<br />

7 5.4 5.7 18 7.3 7.4 8 2.3 2.3 12 1.6 1.7<br />

8 5.2 5.2 25 3.2 3.3 9 1.9 1.9 13 1.4 1.4<br />

12 4.2 4.4 27 2.9 3.0 10 1.5 1.5 14 1.2 1.2<br />

14 3.8 4.0 29 2.7 2.8 11 1.2 1.3 15 1.0 1.1<br />

22 2.3 2.4 31 2.6 2.8 13 0.7 0.8 16 0.9 1.0<br />

Table 2 : Best results found in the literature<br />

for the approximation of the curves of figure 3<br />

Fig 3a Fig 3b Fig 3c Fig 3d<br />

N° ISE N° ISE N° ISE N° ISE<br />

4 6.9 16 10.9 6 3.0 10 2.6<br />

6 6.4 18 7.4 8 2.3 11 2.1<br />

12 10.9 27 8.8 9 2.0 15 1.2<br />

14 17.7 29 14.9 13 5.9<br />

22 20.6 31 1.6<br />

5. Conclusion and future works<br />

In this paper, we have proposed a new approach for<br />

the approximation of curves. This approach is inspired<br />

from previous approaches in the way that it considers<br />

the polygonal approximation as an optimization<br />

process. The fundamental difference with the existing<br />

approaches lies in the fact that we use a multi-objective<br />

optimization process while other contributions only<br />

optimize a unique objective, that is to say the ISE. One<br />

can see several interests in such an approach. As many<br />

solutions are proposed, the user or the system may<br />

choose the optimal solution regarding its constraints.<br />

Another interest is to offer the possibility to add a new<br />

objective easily. As an example, such an approach may<br />

be used for the vectorization of shape contours by<br />

adding a parallelism constraint.<br />

7. References<br />

[1] C. Ichoku, B. Deffontaines and J. Chorowicz,<br />

“Segmentation of digital plane curves: a dynamic focusing<br />

approach”, Pattern Recognition L<strong>et</strong>ters, 17, 1996, pp 741–<br />

750.<br />

[2] P.L. Rosin and G.A.W. West, “Nonparam<strong>et</strong>ric<br />

segmentation of curves into various representations”, IEEE<br />

Trans. Pattern Anal. Machine Intell., 17, 1995, pp 1140-<br />

1153.<br />

[3] J-H. Horng and J.T. Li, “A dynamic programming<br />

approach for fitting digital planar curves with line segments<br />

and circular arcs”, Pattern Recognition L<strong>et</strong>ters, 22, 2001, pp<br />

183–197.<br />

[4] B. Sarkar, L.K. Singh and D. Sarkar, “Approximation of<br />

digital curves with line segments and circular arcs using<br />

gen<strong>et</strong>ic algorithms”, Pattern Recognition L<strong>et</strong>t. 24, 2003,<br />

2585-2595.<br />

[5] K. Deb, “<strong>Multi</strong>-Objective optimization using<br />

Evolutionary algorithms”, Wiley, London, 2001.<br />

[6] J.D. Schaffer and J.J. Grefenst<strong>et</strong>te, “<strong>Multi</strong>objective<br />

learning via gen<strong>et</strong>ic algorithms”, In Proceedings of the 9th<br />

international joint conference on artificial intelligence, Los<br />

Angeles, California, pp 593-595, 1985.<br />

[7] C.M. Fonseca, P.J. Fleming, “Gen<strong>et</strong>ic algorithm for<br />

multi-objective optimization: formulation, discussion and<br />

generalization”, In Stephanie editor, Proceedings of the fifth<br />

international conference on gen<strong>et</strong>ic algorithm, San Mateo,<br />

California, pp 416-423, 1993.<br />

[8] N. Srinivas, K. Deb, “<strong>Multi</strong>objective optimization using<br />

nondominated sorting in gen<strong>et</strong>ic algorithm”, Evolutionary<br />

Computation 2, 1994, pp 221-248.<br />

[9] K. Deb, S. Agrawal, A. Pratab and T. Meyarivan, “A fast<br />

and elitist multi-objective gen<strong>et</strong>ic algorithm: NSGA-II”,<br />

IEEE Transactions on Evolutionary Computation 6, 2000, pp<br />

182-197.<br />

[10] J.D. Knowles, D.W. Corne, “Approximating the<br />

nondominated front using the Par<strong>et</strong>o archived evolution<br />

strategy”, Evolutionary computation 8, 2000, pp 149-172.<br />

[11] E. Zitzler, L. Thiele, “<strong>Multi</strong>objective evolutionary<br />

algorithms : a comparative study and the strength par<strong>et</strong>o<br />

approach”, IEEE Transactions on Evolutionary Computation<br />

3, 1999, pp 257-271.<br />

[12] C. A. Coello Coello, “A short tutorial on Evolutionary<br />

<strong>Multi</strong>objective <strong>Optimisation</strong>”, In Eckart Zitzler, Kalyanmoy<br />

Deb, Lothar Thiele, Carlos A. Coello Coello and David<br />

Corne (editors), First International Conference on<br />

Evolutionary <strong>Multi</strong>-Criterion Optimization, Lecture Notes in<br />

Computer Science, . Springer-Verlag n° 1993, pp 21-40,<br />

2001.<br />

[13] D. Chafekar, J. Xuan, K. Rasheed, “Constrained <strong>Multi</strong>objective<br />

Optimization Using Steady State Gen<strong>et</strong>ic<br />

Algorithms”, In Proceedings of Gen<strong>et</strong>ic and Evolutionary<br />

Computation Conference, Chicago, Illinois, pp 813-824,<br />

2003.<br />

[14] R.T. Teh and Chin, “On the d<strong>et</strong>ection of dominant<br />

points on digital curves”, IEEE transaction on Pattern<br />

Analysis and Machine Intelligence 23 , 1989, pp 859-872.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!